Vous êtes sur la page 1sur 30

Anlise Exploratria de Dados Prof.

Josenildo Chaves
1


1. Introduo

1.1. Estatstica: Definio e reas de Aplicao

Definio: A estatstica a cincia de coletar, organizar, analisar e interpretar informaes
numricas associadas a um determinado fenmeno. Alm disso, fornece tcnicas e mtodos de
anlise de dados para auxiliar a tomada de deciso nos mais variados problemas onde h incerteza.

reas de Aplicao: Todas as reas da cincia envolvidas com a coleta e anlise de dados e sua
consequente transformao em informao para testar hipteses cientficas sobre um fenmeno
observvel. A Estatstica possui um papel fundamental na tomada de decises e na produo de
conhecimentos ou de novos produtos e servios.
Nas ltimas dcadas, a forte competitividade entre as empresas na busca de tecnologias e de
mercados tem provocado uma constante corrida pela informao. Com o objetivo da melhoria da
qualidade e produtividade, sem esquecer os desafios ambientais, estas empresas desejam otimizar os
processos produtivos. Estes processos geram dados e a transformao desses dados em informao
eficientemente realizada com o uso de mtodos estatsticos.


1.1. Alguns Conceitos Bsicos

A Estatstica est relacionada com os seguintes tipos de problemas:
Estatstica Descritiva - Coleta, organizao, resumo e anlise de dados.
Inferncia Estatstica - Tomada de deciso na presena de incertezas.

POPULAO (u) - o conjunto de elementos que nos interessa estudar, mas que em muitas
situaes impossvel obt-lo devido ao custo, tempo ou acessibilidade.

AMOSTRA - um subconjunto da populao.
Anlise Exploratria de Dados Prof. Josenildo Chaves
2




Tcnicas da amostragem. Exemplos de utilizao: pesquisa de mercado, pesquisa de
opinio pblica, testes de medicamentos, etc.

Varivel: aquilo que se deseja observar para se tirar algum tipo de concluso, por ex.:
idade, peso, altura, sexo, etc.

Dados: so observaes de uma ou mais variveis. O conjunto de dados provem de uma
amostra, a qual representa uma populao de interesse.

A disponibilidade de uma grande quantidade de dados e de softwares tem revitalizado a
estatstica descritiva.



A inferncia estatstica utiliza os dados amostrais tirar concluses sobre a populao. A
teoria das probabilidades permite descrever os fenmenos aleatrios. Dois exemplos a seguir
ilustram esta situao.

Anlise Exploratria de Dados Prof. Josenildo Chaves
3


Exemplo 1: Numa campanha eleitoral um instituto de pesquisa de opinio utiliza os resultados de
um levantamento aplicado a uma amostra da populao para prever o resultado da eleio.
Considere o candidato A:
a) Chamamos de p a proporo de pessoas que votaro no candidato A no dia da eleio.
b) Seja p a proporo de pessoas na amostra que expressam inteno de voto em A.
Utilizamos o valor de p para estimar a proporo p da populao.
Numa eleio presidencial, para governadores e prefeitos, os institutos de pesquisa de
opinio colhem periodicamente amostras de eleitores para obter as estimativas de inteno de voto
da populao. Estas so fornecidas com um valor e uma margem de erro, e = p p .


Exemplo 2 Tamanho da Populao (N): Considere uma populao formada por um conjunto de
N txis de uma cidade e que os txis so enumerados de 1 a N. Para estimar o nmero N de txis da
cidade, anotamos os nmeros de todos os txis que um turista pegou: 440, 73, 179, 405 e 280.
Como devemos escolher uma estimativa para N?



Estimativa de N pelo Mtodo do Extremo: Uma estimativa seria N = 512, obtida somando o maior
valor na amostra (440) com a lacuna do menor valor (72). Ou seja, N = 440 + 72 = 512.

Estimativa de N pela Mediana da Amostra: Outra estimativa de N obtida somando-se o valor
mediano da amostra (280) com sua lacuna (279). Ou seja, N = 280 + 279 = 559.

Estimativa de N pela Mdia das Lacunas: Considere agora as lacunas observadas na amostra, isto ,
o n de observaes entre dois valores ordenados da amostra. Os tamanhos das lacunas observadas
so: 72, 105, 100, 124 e 34. A mdia das lacunas dada por:

N = (72 + 105 + 100 + 124 + 34)/5 = 87.
Portanto, outra estimativa dada por: N = 440 + 87 = 527.

Anlise Exploratria de Dados Prof. Josenildo Chaves
4


Como poderamos selecionar o mtodo de estimao a ser usado?. Esta questo tratada em
Inferncia Estatstica. A Estatstica Descritiva, tambm chamada de anlise exploratria de dados
o objeto de estudo do Captulo 2.



2. Dados Univariados
A estatstica descritiva rene um conjunto de tcnicas para sumarizar os dados em tabelas,
grficos e medidas descritivas que permitem tirar informaes contidas nos dados.
O conjunto de dados est relacionado a dois tipos de variveis: Quantitativas e qualitativas.

Variveis Quantitativas - So variveis obtidas numericamente por contagens ou
mensurao, podem ser discretas ou contnuas.
Variveis discretas: esto associadas a dados de contagem, por ex.: Nmero de
usurios atendidos mensalmente numa biblioteca, Nmero de clientes numa fila
esperando atendimento, etc.
Variveis contnuas: esto associadas a medidas de tempo, peso, altura, volume,
rea, capacidade, etc. Ex. : Tempo mdio de atendimento a um usurio (cliente).

Variveis Qualitativas ou Categricas - No so obtidas numericamente. Ex. : (timo,
bom, regular, pssimo); (sim, no); (masculino, feminino), etc. Em geral as variveis
qualitativas do origem a dados discretos, por ex.: sim = 1, no = 0.

Aps a coleta dos dados e a construo de um banco de dados, como resumir e organiz-los
de uma maneira informativa? A resposta a esta questo dada na prxima seo.


2.1. Tabelas e Grficos
Aps a coleta dos dados a construo de um banco de dados pode ser feita em forma de
planilha em um software estatstico para facilitar o resumo de tem interesse. Um exemplo de um
banco de dado dado pela Tabela 2.1.

Anlise Exploratria de Dados Prof. Josenildo Chaves
5


TABELA 2.1 - Amostra aleatria de tamanho 20 de algumas variveis coletadas numa pesquisa
com 93 estudantes da graduao em Matemtica da UFMA em setembro de 2010.
Aluno P1 P2 P3 P7 P10B P24 P27
23 1 0 1 4 3 5 5
21 1 0 1 4 3 5 5
16 1 0 2 4 3 4 3
13 1 0 1 NA* 3 3 5
89 4 0 2 4 3 4 4
10 1 0 3 2 3 4 4
32 2 0 2 4 2 4 3
1 1 0 1 4 4 5 5
3 1 0 1 1 5 5 4
12 1 1 1 4 4 5 5
53 3 0 1 1 5 5 5
11 1 0 2 4 1 4 4
47 3 0 2 4 3 4 4
18 1 1 5 2 4 4 4
74 4 0 2 4 4 4 5
69 4 0 2 4 3 5 4
51 3 1 2 2 4 4 4
81 4 0 2 4 4 2 5
26 2 1 1 1 2 5 5
68 4 1 4 1 5 2 3
P1. Ano curricular que frequenta?, 1. 1 ano, 2. 2 ano, 3. 3 ano, 4. 4 ano.
P2. Sexo? 0. masculino, 1. feminino.
P3. Faixa etria?; 1. 17-20 anos, 2. 21-25 anos, 3. 26-30 anos, 4. 31-40 anos, 5. mais de 40 anos.
P7. Voc tem domnio do idioma ingls ou outro idioma para a leitura?; 1. Ingls, 2. Espanhol, 3.Francs, 4.
Nenhum, 5. Outro.
P10B. Grau de satisfao em relao s bibliotecas central e setorial? 1. Sem opinio 2.Insatisfeito, 3. Regular, 4.
Bom, 5. Excelente.
P24. Seus professores demonstraram domnio atualizado das disciplinas ministradas? 5. Sim, todos; 4. Sim, a
maior parte deles; 3. Sim, mas apenas metade deles; 2. Sim, mas menos da metade deles; 1. No, nenhum deles.
P27. Como voc avalia a contribuio do Curso para sua formao? 5. Muito boa; 4. Boa; 3. Regular; 2. Fraca; 1.
Muito Fraca.
* NA: No se aplica, no respondeu.
A pesquisa teve por objetivo obter informaes do perfil do aluno e sobre o grau de satisfao em relao aos
servios educacionais oferecidos pela Instituio, Curso e administrao acadmica. O perodo de referncia
considerado foi o 1
o
semestre de 2010. As entrevistas foram realizadas entre os dias 01, 02 e 03 de setembro
de 2010. Foi utilizada uma amostragem aleatria estratificada dos alunos levando-se em considerao o
perodo matriculado. A amostra final foi composta de 93 alunos. A tabulao dos dados foi feita no software
Excel. Para a elaborao dos grficos e estatsticas descritivas, utilizamos o Excel e o software R (R
Development Core Team, 2010).





Anlise Exploratria de Dados Prof. Josenildo Chaves

2.1.1. DADOS CATEGRICOS
Calculamos as frequncias
individuais.


n
freqncia
f
o
j
r =

Exemplo 2.1 - Considere uma amostra aleatria de 16939 fontes bibliogrficas da biblioteca da
Universidade de Illinois. Os dados esto resumidos na Tabela 2.
seguir.


TABELA 2.2 - Amostras de referncias bibliogrficas da Universidade de Illinois
Tipo de Fonte n
o
de ttulos
Monografia
Peridico
Tese
TOTAL
Fonte: Lancaster (1993) p.43, apud Oliveira (1991).

Figura 2.1 - Distribuio das referncias bibliogrficas
da Universidade de Illinois - 1990.



25%
13%
Referncias Bibliogrficas
Monografia Peridico
Prof. Josenildo Chaves
DADOS CATEGRICOS
ncias absolutas
j
f e as frequncias relativas
. , , 1 ,
s observae de total
j categoria na freqncia
k j L =

Considere uma amostra aleatria de 16939 fontes bibliogrficas da biblioteca da
Universidade de Illinois. Os dados esto resumidos na Tabela 2.2 e Figuras 2.1 , 2.2 , 2.3 e 2.4 a
Amostras de referncias bibliogrficas da Universidade de Illinois
de ttulos Tamanho da
amostra
Possudos
frequncia (f
i
) (%)
10514 1200 923
4268 1200 1046
2157 1050 961
16939 3450 2930
Oliveira (1991).




Distribuio das referncias bibliogrficas Figura 2.2 - Distribuio das referncias bibliogrficas
1990. da Universidade de Illinois - 1990.
62%
Referncias Bibliogrficas
Tese
0
0.2
0.4
0.6
0.8
Referncias Bibliogrficas
Monografia Peridico
6

e as frequncias relativas
j
fr das categorias
(2.1)
Considere uma amostra aleatria de 16939 fontes bibliogrficas da biblioteca da
e Figuras 2.1 , 2.2 , 2.3 e 2.4 a
Amostras de referncias bibliogrficas da Universidade de Illinois - 1990.
Possudos
) (%)
77
87
91


Distribuio das referncias bibliogrficas
1990.
Referncias Bibliogrficas
Peridico Tese
Anlise Exploratria de Dados Prof. Josenildo Chaves


Figura 2.3 - Distribuio das referncias
bibliogrficas da Universidade de Illinois




Exemplo 2.2 - Grficos em colunas para a
em relao s bibliotecas central e setorial

Figura 2.5 - Ano curricular frequentado pelos alunos da graduao em matemtica da UFMA
de tamanho 20 em setembro de 2010.
70
75
80
85
90
95
Tese Peridico Monografia
(%)
Estimativa da cobertura
Prof. Josenildo Chaves
Distribuio das referncias Figura 2.4 - Amostras de referncias bibliogrficas da
bibliogrficas da Universidade de Illinois - 1990. Universidade de Illinois - 1990.
em colunas para as variveis P1: ano curricular e P10B: Grau de satisfao
em relao s bibliotecas central e setorial, respectivamente, apresentadas na Tabela 2.1.

ular frequentado pelos alunos da graduao em matemtica da UFMA

Monografia
0 200 400 600
Monografia
Peridico
Tese
Referncias Bibliogrficas
Possudos Tamanho da amostra
7


Amostras de referncias bibliogrficas da
P10B: Grau de satisfao
na Tabela 2.1.
ular frequentado pelos alunos da graduao em matemtica da UFMA numa amostra aleatria
800 1000 1200
Referncias Bibliogrficas
Tamanho da amostra
Anlise Exploratria de Dados Prof. Josenildo Chaves
8



Figura 2.6 - Grau de satisfao em relao s bibliotecas central e setorial dos alunos da graduao em matemtica da
UFMA numa amostra aleatria de tamanho 20 em setembro de 2010.





2.1.2. VARIVEIS QUANTITATIVAS DISCRETAS
Podemos utilizar os grficos em colunas, grficos em linha, histogramas (retngulos
verticais) e diagramas pontuais.

Com as variveis discretas podemos sumarizar os dados numa tabela de frequncias e
calcular as frequncias relativas dadas por

. , , 1 ,
s observae de total n
valor um de frequncia
f
o j
k j
x
r
j
L = = (2.2)






Exemplo 2.3 - Os dados a seguir representam o nmero dirio X de livros de estatstica retirados em
uma biblioteca.

1 3 1 1 0 1 0 1 1 0 2 2 0 0 0
1 2 1 2 0 0 1 6 4 3 3 1 2 4 0


Na Tabela 2.3 temos as frequncias relativas (distribuio de frequncias) para cada valor x.


Anlise Exploratria de Dados Prof. Josenildo Chaves
9


TABELA 2.3 - Distribuio de frequncias do nmero de livros estatstica
retirados.
x = n
o
de livros retirados f
j
f
rj
0 9 0,3000
1 10 0,3333
2 5 0,1667
3 3 0,1000
4 2 0,0667
5 0 0,0000
6 1 0,0333
TOTAL 30 1,0000


A distribuio de frequncias de uma varivel discreta pode ser representada por grficos em
colunas, bastes e grficos de retngulos verticais (histogramas).
Nas Figura 2.7 e 2.8 temos, respectivamente, os grfico em colunas e o histograma para a
distribuio de frequncias dada na Tabela 2.3.


6 5 4 3 2 1 0
30
20
10
0
xi
fr (%)


Figura 2.7 - Grfico em colunas da frequncia Figura 2.8 - Histograma da distribuio de frequncias
relativa do nmero dirio de livros de estatstica retirados. do nmero dirio de livros de estatstica retirados.



2.1.3. VARIVEIS QUANTITATIVAS CONTNUAS
Podemos utilizar diagramas pontuais ("dot-plots"), diagramas de caixa ("box-plots") e
histogramas. Estes grficos nos do informao sobre a centralidade dos dados, variabilidade e
sobre a forma de sua distribuio de frequncias.

"Dot-plots" - Os diagramas pontuais so apropriados quando o nmero de observaes no
grande.
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0 1 2 3 4 5 6
nmero de livros retirados
freqncia relativa
Anlise Exploratria de Dados Prof. Josenildo Chaves

Exemplo 2.4 (a) - Os dados a seguir representam o tempo (em minutos) entre as chegadas de 10
usurios numa biblioteca: 4 , 4 , 6 , 6 , 7 , 8 , 14, 18 , 20, 52


Figura 2.9 - Tempo (em minutos) entre as chegadas de 10 usurios numa biblioteca.


Box-plot - Representao grfica de cinco medidas: mnimo, quartil infer
superior e mximo. Na Figura 2.10, temos um exemplo de um

Figura 2.10 - Algumas caractersticas de um "box


Exemplo 2.4 (b) - Considere os dados observados das variveis
X = 8, 8 ,9, 9, 9, 8, 9, 6, 5, 10
Y = 8, 8, 8, 8, 9, 7, 7, 7, 6,7
Ento temos a seguinte representao grfica
Prof. Josenildo Chaves
Os dados a seguir representam o tempo (em minutos) entre as chegadas de 10
4 , 6 , 6 , 7 , 8 , 14, 18 , 20, 52.

Tempo (em minutos) entre as chegadas de 10 usurios numa biblioteca.

Representao grfica de cinco medidas: mnimo, quartil infer
Figura 2.10, temos um exemplo de um "box plot".
Algumas caractersticas de um "box-plot".
Considere os dados observados das variveis X e Y.
Ento temos a seguinte representao grfica
10

Os dados a seguir representam o tempo (em minutos) entre as chegadas de 10

Tempo (em minutos) entre as chegadas de 10 usurios numa biblioteca.
Representao grfica de cinco medidas: mnimo, quartil inferior, mediana, quartil

Anlise Exploratria de Dados Prof. Josenildo Chaves
11



Figura 2.11 - "Box-plot" para os dados observados das variveis X e Y do Exemplo 2.4b.



## Cdigos em R para os dados do Exemplo 2.4 (b)
x = c(8, 8 ,9, 9, 9, 8, 9, 6, 5, 10)
y = c(8, 8, 8, 8, 9, 7, 7, 7, 6,7)
scores = data.frame(x,y)
boxplot(scores,col = "lightblue")


Histogramas - So apropriados quando o nmero de observaes grande.
Para construir os histogramas podemos utilizar uma tabela de distribuio de frequncias.


DISTRIBUIO DE FREQUNCIAS DE VARIVEIS CONTNUAS
Em geral, na construo de uma distribuio de frequncias consideram-se intervalos de
classes de comprimentos iguais (Wand, 1997). Um procedimento utilizado dado por:

(i) Achar o mnimo e o mximo dos dados e determinar o nmero de classes (k), pela
regra de Sturges (Stuges, 1926),

n k
10
log 322 , 3 1+ .
Anlise Exploratria de Dados Prof. Josenildo Chaves
12


Observar que,
n
n
n k
10 2
log 322 , 3 1
2 log
log
1 log 1 + + = + = .
(ii) Escolher intervalos de classes comprimentos iguais (c) que incluam o mnimo e o
mximo da amostra:
k
x x
c
min max

= .
(iii) Contar o nmero de observaes que pertencem a cada intervalo de classe. Esses
nmeros so as frequncias das classes:
k
f f f , ,
2 1
L .
(iv) Calcular as frequncias relativas ( fr ) de cada classe:

k j fr
j
, , 2 , 1 ,
s observae de total n
j classe na observada freqncia
o
L = =
. (2.3)


HISTOGRAMAS
Os Histogramas so representaes grficas das distribuies de frequncias dadas por
retngulos. Cada retngulo tem largura igual ao comprimento do intervalo de classe e altura (h)
dada por

classe de intervalo do largura
relativa frequncia
= h . (2.4)

Note que, dessa forma, a rea total de um histograma igual a 1. Se os intervalos de classe tm
comprimentos iguais a c, ento temos que

k j
c
fr
h
j
, , 1 , L = = .

Exemplo 2. 5 - Os dados a seguir representam o tempo (em horas) da durao at falhar de 60 peas
fabricadas por uma mquina.
15.1, 16.4, 33.6, 36.5, 40.3, 45.4, 45.5, 47.3, 53.8, 57.7, 59.2, 62.8, 63.2, 64.7, 67.5, 72.7, 78.5,
80.1, 81.1, 81.6, 86.7, 89.3, 93.0, 93.7, 97.6, 100.8, 104.0, 105.1, 106.0, 118.3, 132.9, 133.4,
137.9, 138.0, 163.3, 176.9, 182.7, 183.1, 184.9, 201.6, 228.2, 241.5, 243.0, 268.6, 272.9, 272.9,
272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9

Anlise Exploratria de Dados Prof. Josenildo Chaves
13


Estes dados esto resumidos na Tabela 2.4 e na Figura 2.12.


TABELA 2.4 - Distribuio de frequncias do tempo (em horas) da durao at falhar de 60 peas
fabricadas por uma mquina.
T= tempo de vida f
j
f
rj
[0 , 40) 4 0,0667
[40 , 80) 13 0,2167
[80 , 120) 13 0,2167
[120 , 160) 4 0,0667
[160 , 200) 5 0,0833
[200 , 240) 2 0,0333
[240 , 280) 19 0,3167
TOTAL 60 1,0000



Figura 2.12 - Histograma do tempo (em horas) da durao at falhar de 60 peas fabricadas por uma
mquina e histograma alisado, rea = 1.



2.2. Medidas Descritivas

As medidas descritivas so usadas para sumarizar as informaes contidas nos dados. Elas
podem ser classificadas como medidas de tendncia central, posio, assimetria, curtose e
variabilidade.


Anlise Exploratria de Dados Prof. Josenildo Chaves
14


MEDIDAS DE TENDNCIA CENTRAL E DE POSIO

MDIA AMOSTRAL ( x ): a mdia aritmtica da amostra,

n
x
x
n
i
i
=
=
1
. (2.5)
A mdia amostral para os dados do Exemplo 2.3 dada por:
x = (4 + 4 + 6 + 6 + 7 + 8 + 14 + 18 + 20 + 52)/10 = 13,9 minutos .
Se os dados esto agrupados em k classes ou categorias, veja por ex. a Tabela 2.4, com
frequncias
k j f
j
, , 1 , L =
, a mdia amostral dada por:

=
=
=
k
j
j
k
j
j j
f
f x
x
1
1
, (2.6)
sendo que
j
x
o ponto mdio da classe j e n f
k
j
j
=

=1
.
OBS: Para estimar a mdia populacional ( ) utilizamos a mdia amostral x .

MEDIANA AMOSTRAL (M
d
): Definio: Dado a amostra (x
1
, x
2
, , x
n
) e a amostra ordenada
(x
(1)
, x
(2)
, , x
(n)
) de uma varivel X, a mediana o valor central se n impar. Se n par,
tomamos a mdia dos valores centrais.

H
d
(X) = _
x
(
n+1
2
)
, se n impai
x
(
n
2
)
+ x
(
n+1
2
)

2
, se n pai.



Exemplo. (a) n impar. A mediana da seguinte amostra: 3, 2, 12, 8, 1, 5, 9 da v.a. X 5. Note que
este o valor central da amostra ordenada (1, 2, 3, 5, 8, 9, 12).
(b) n par. A mediana da amostra (2, 2, 3, 8, 10, 215) dada por (3 + 8)/2 = 5,5. Note que,
n = 6. A mdia amostral dada por x = (2 + + 21S)6 = 4u. A ltima observao 215, muito
grande, aumenta a mdia amostral.


Anlise Exploratria de Dados Prof. Josenildo Chaves
15


MODA AMOSTRAL (Mo): o valor (ou valores) da amostra com maior frequncia. Por
exemplo. a moda do conjunto de dados X = {2, 2, 2, 3, 8, 7, 7, 9, 13} dada pelo valor mais
frequente, neste caso, Mo = 2.


QUANTIS OU PERCENTIS: desejamos encontrar o valor de x
p
, tal que:

p
x
x X F
p
p r
= =
s observae de total n
a iguais ou menores valores de n
) (
o
o
. (2.7)

EX.: Podemos estimar a percentagem de usurios que esperam menos que 2 minutos para
serem atendidos, isto :
p X F
r
= ) 2 ( . (2.8)

Graficamente, a percentagem de usurios que esperam entre a e b minutos dada pela rea
sombreada no histograma alisado da Figura 2.13


Figura 2.13 - ) ( b X a F
r
.

Note que,

) ( ) ( ) ( a X F b X F b X a F
r r r
= ,

sendo que,
r
F a frequncia relativa acumulada.

Nem sempre, as medidas de tendncia central, a mdia por ex., fornecem informaes
suficientes sobre o comportamento de uma varivel X. Outras medidas podem se fazer necessrias,
como, as medidas de disperso dessa varivel.


Anlise Exploratria de Dados Prof. Josenildo Chaves
16


MEDIDAS DE DISPERSO OU DE VARIABILIDADE
Alm das medidas de centralidade ou locao, importante conhecer o espalhamento ou
variabilidade dos dados. Suponha que os salrios dos empregados de uma empresa estejam
concentrados em dois grupos: grupo 1 com salrios em torno de 10000 reais e grupo 2 com salrios
em torno de 800 reais. No seria suficiente informar que a mdia de salrios da empresa de
aproximadamente 5000 reais. Este caso ilustra a importncia das medidas de disperso para
melhorar a comparao entre duas ou mais variveis.

DESVIO (d
i
) em relao mdia: Dado um conjunto de n observaes {x
1
, x
2
, ... , x
n
}.
Ento o i-simo desvio em relao mdia amostral x dado por:

x x d
i i
= , (2.9)
onde, i = 1, 2, ... , n.
fcil mostrar que 0 ) (
1 1
= =

= =
n
i
i
n
i
i
x x d .

VARINCIA AMOSTRAL: Considere n valores, (x
1
, x
2
, ... , x
n)
, amostra aleatria (a.a) de X.
Um estimador da varincia populacional
2
a varincia amostral
2
S , definida por

1
) (
1
2
2

=
n
x x
S
n
i
i
. (2.10)

Outro estimador comumente utilizado para estimar
2
dado por
n
x x
n
i
i
=

=
1
2
2
) (
.
Estimaremos
2
por
2
S , a menos em situaes especificadas.

DESVIO PADRO AMOSTRAL: definido como a raiz quadrada da varincia amostral (S).

1
) (
1
2

=
n
x x
S
n
i
i
. (2.11)

Anlise Exploratria de Dados Prof. Josenildo Chaves
17


O desvio padro populacional denotado .

OBS.: importante ressaltar que o desvio padro uma medida de variabilidade que est na
mesma escala dos dados.

COEFICIENTE DE VARIAO: O coeficiente de variao amostral (CV) definido como o
quociente do desvio padro amostral pela mdia amostral:

x
S
CV
X
=
. (2.12)
Obs.:
/ =
denominado de coeficiente de variao populacional. Estimaremos por
CV =
, equao (2.12).

As equaes (2.10), (2.11) e (2.12) podem ser facilmente adaptadas para dados agrupados.
Se os dados esto agrupados em k classes ou categorias, com frequncias
k j f
j
, , 1 , L =
, a
varincia amostral dada por:
1
) (
1
2
2

=
n
f x x
S
k
j
j j
,
onde x definida pela equao (2.6).


Exemplo 2.6 - Considere uma amostra aleatria (a.a.) de tamanho 21 do tempo de espera X (em
minutos) dos usurios numa fila de uma biblioteca:
X = (2.0, 5.0, 4.8, 3.5, 2.4, 8.0, 17, 3.0, 1.5, 1.2, 1.4, 2.8, 3.1, 1.7, 1.8, 2.4, 16, 15, 1.4, 1.3, 19).

A amostra ordenada de X dada por:
(1.2, 1.3, 1.4, 1.4, 1.5, 1.7, 1.8, 2.0, 2.4, 2.4, 2.8, 3.0, 3.1, 3.5, 4.8, 5.0, 8.0, 15.0, 16.0, 17.0, 19.0).

Algumas estatsticas para os dados da Tabela 2.5 calculadas no software R so dadas por


21
21
1

=
=
i
i
x
x = 5.4428 min. , mediana = 2.8 min.

1 21
) (
21
1
2
2

= i
i
X
x x
S = 34.5286 min
2
, min 8751 . 5 =
X
S .
Anlise Exploratria de Dados Prof. Josenildo Chaves
18


TABELA 2.5 - Percentis do tempo de espera na fila (em minutos).
Percentil x
p
0
5
10
25
50
75
90
95
100
1.2
1.3
1.4
1.7 (1
o
quartil)
2.8 (mediana)
5.0 (3
o
quartil)
16.0
17.0
19.0

Ento, o valor x para o qual 90% dos valores amostrais so menores ou iguais a x 16.0.
Observe que pela definio de percentis,
Fr(X < 16.0) = 90% ,
sendo que, F
r
chamada de frequncia relativa acumulada do tempo de espera.

A Figura 2.14 apresenta o histograma de X.

FIGURA 2.14 - Histograma do tempo de espera na fila de 21 usurios de uma biblioteca.


## Cdigos em R para os dados do Exemplo 2.6
rm(list=ls(all=TRUE)) # remove todas as variaveis
x=c(2.0, 5.0, 4.8, 3.5, 2.4, 8.0, 17, 3.0, 1.5, 1.2, 1.4, 2.8, 3.1, 1.7, 1.8, 2.4, 16, 15, 1.4, 1.3, 19)
ordx= sort(x) # dados ordenados
summary(x) # resumo dos dados
xbar= mean(x) # mdia de X
var(x) # varincia de X
Anlise Exploratria de Dados Prof. Josenildo Chaves
19


sd(x) # desvio padro de X
n=length(x) # tamanho da amostra
q=c(0, 0.05, 0.10, 0.25, 0.50, 0.75, 0.90, 0.95, 1) # para definir percentis de interesse
quantile(x, q)
Md=median(x) # mediana de X
hj=c(0,4,8,12,16,20) # vetor de limites de classes
hist(x, breaks=hj, xlim = range(hj), ylim = c(0,0.20) , main="", xlab="tempo de espera na fila (min)",
ylab="densidade", col="blue", probability=T)
##

Coeficiente de Assimetria de Pearson (A
X
)
Mede o grau de assimetria da distribuio de frequncia em relao uma distribuio de
frequncia simtrica.
,
X
o
X
S
M x
A

=

sendo que H
o
, x e S
X
representam, a moda, a mdia e o desvio-padro da varivel X .
Se A
X
= u, a distribuio simtrica.
Se A
X
> u, a distribuio assimtrica direita.
Se A
X
< u, a distribuio assimtrica esquerda.

Outros coeficientes de assimetria podem ser visto em DOANE & SEWARD (2011). As duas
figuras seguintes mostram posies relativas entre a mdia moda e mediana, e alguns tipos de
histogramas, respectivamente.


Fonte: DOANE & SEWARD (2011).

Anlise Exploratria de Dados Prof. Josenildo Chaves
20



Fonte: DOANE & SEWARD (2011).


3. Dados Bivariados
Suponha que temos duas medidas x e y associadas com cada unidade amostral. Um dos
interesses descobrir possveis relaes existentes entre as variveis x e y. Podemos, por exemplo
verificar a relao existente entre renda e nvel de escolaridade ou entre a nota obtida em um teste e
o tempo de estudo.


3.1. VARIVEIS QUALITATIVAS BIVARIADAS
Podemos construir tabelas de frequncia com dupla entrada. Essas tabelas de dados
classificados cruzados so conhecidas por tabelas de contingncia.


Exemplo 3.1. Suponha que uma pesquisa de opinio foi conduzida entre 400 operrios de uma
indstria metalrgica. Cada operrio foi consultado a respeito de uma possvel greve a ser realizada
pelos operrios da indstria. Cada operrio apresentou a sua opinio (sim, indiferente ou no) e
Anlise Exploratria de Dados Prof. Josenildo Chaves
21


tambm informou se pertence ou no ao sindicato local (ver Tabela 3.1). Portanto, as variveis de
interesse neste caso so X = opinio e Y = situao sindical.

TABELA 3.1 - Pesquisa de Opinio.
Y
X
Sim Indiferente No TOTAL
Sindicalizado 112 36 28 176
No sindicalizado 84 68 72 224
TOTAL 196 104 100 400

Para verificarmos possveis relaes entre as duas variveis categricas X e Y podemos
construir uma tabela equivalente a Tabela 3.1 com as frequncias relativas de cada categoria, ver
Tabela 3.2:

TABELA 3.2 - Frequncias relativas.
Y
X
Sim Indiferente No TOTAL
Sindicalizado 0,28 0,09 0,07 0,44
No sindicalizado 0,21 0,17 0,18 0,56
TOTAL 0,49 0,26 0,25 1,00

Outra possibilidade seria, com a finalidade de comparar os dois grupos de pessoas (176
sindicalizados e 224 no sindicalizados), verificar se as propores em cada categoria so iguais
ou no. Para isso, podemos construir uma tabela de frequncias relativas em relao aos totais
marginais considerando dois grupos de 176 e 224 indivduos, ver Tabela 3.3:

TABELA 3.3 - Frequncias relativas em relao aos totais marginais.
Y
X
Sim Indiferente No TOTAL
Sindicalizado 0,636 0,205 0,159 1,000
No sindicalizado 0,375 0,304 0,321 1,000

Note que na Tabela 3.3 a frequncia relativa dos operrios favorveis greve pertencentes
ao sindicato dada por: 112/176 = 0,636.




Anlise Exploratria de Dados Prof. Josenildo Chaves
22


3.2. VARIVEIS QUANTITATIVAS BIVARIADAS
Suponha que temos duas variveis contnuas x e y medidas para cada unidade amostral.
Representaremos esse dados por n pares (x
1
, y
1
) , ... , (x
n
, y
n
).
Podemos formular as seguintes questes:
(i) As variveis so relacionadas?
(ii) Qual a forma de relacionamento entre as duas variveis?
(iii) Como podemos medir esta relao?
(iv) Como podemos prever uma varivel a partir do conhecimento da outra varivel?

Uma verificao visual do relacionamento entre as duas variveis X e Y pode ser dada a
partir de um grfico dos valores x
i
versus y
i,
, i = 1, ...,n. Este grfico chamado de diagrama de
disperso e sua construo consiste na representao no plano cartesiano dos pares (x
1
, y
1
) , ... , (x
n
,
y
n
). Na Figura 3.1 temos um exemplo de um diagrama de disperso.

Exemplo 3.2 Os pares de medidas abaixo representam a temperatura (X) e a potncia (Y) de 15
motores de mesmo tipo submetidos a um teste de laboratrio numa fbrica de automveis.

X 19, 15, 35, 52, 35, 33, 30, 57, 49, 26, 45, 39, 25, 40, 40
Y 1.2, 1.5, 1.5, 3.3, 2.5, 2.1, 2.5, 3.2, 2.8, 1.5, 2.2, 2.2, 1.9, 1.8, 2.8

O grfico dos valores observados de X versus Y dado na Figura 3.1.

Figura 3.1 - Diagrama de disperso da Temperatura e potncia de 15 motores eltricos.
Anlise Exploratria de Dados Prof. Josenildo Chaves
23



Com base na Figura 3.1 podemos observar uma possvel relao linear entre X e Y .


COEFICIENTE DE CORRELAO AMOSTRAL
O coeficiente de correlao amostral r uma medida da relao linear entre duas variveis X
e Y, calculada por:


Y X
n
i
i i
S S n
y y x x
r
) 1 (
) )( (
1

=
, (3.1)

onde, 1 1 r - e
X
S

e

Y
S so os desvios padres das variveis X e de Y, respectivamente.
O coeficiente de correlao amostral r pode ser escrito usando a covarincia amostral
) , cov( y x entre as variveis X e Y, definida por
1
) )( (
) , cov(
1

=
n
y y x x
Y X
n
i
i i
.

A Figuras 3.2a e 3.2b apresentam alguns casos especiais de r.
(a) (b)

(c) (d)

FIGURA 3.2a - Alguns casos de relao entre x e y.

4 3 2
5
4
3
x
y
r = 0,9
2 3 4
3
4
5
x
y
r = -0,9
2 3 4
3
4
5
x
y
r = 0,5
4 3 2
5
4
3
x
y
r = - 0,5
Anlise Exploratria de Dados Prof. Josenildo Chaves
24





(e) (f)

FIGURA 3.2b - Alguns casos de relao entre x e y.


Na interpretao dos valores de r temos:
(i) r indica o grau de relao linear, enquanto o seu sinal indica a direo da relao linear.
(ii) Se r = 1, todos os pontos (x , y) esto na reta com inclinao positiva.
(iii) Se r = -1, todos os pontos (x , y) esto na reta com inclinao negativa.
(iv) Se 0 r no temos relao linear entre X e Y, mas podemos ter outro tipo de relao no-
linear, ver Figura 3.2b (f).

OBS. : O coeficiente de correlao r no adequado quando os pontos esto agrupados em
dois blocos, ver Figura 3.3 a seguir:


Figura 3.3 Pares (x , y) agrupados em dois blocos.




2 3 4
3
4
5
x
y
r = 0
4 3 2
5
4
3
x
y
r = 0
4 3 2
5
4
3
x
y
Anlise Exploratria de Dados Prof. Josenildo Chaves
25


3.3. REGRESSO LINEAR
O estudo experimental entre duas variveis frequentemente motivado pela necessidade de
achar o valor de previso de uma varivel a partir do valor da outra varivel. Por exemplo,
considere as seguintes situaes:
(i) Durao de um treinamento e o grau obtido por um aluno.
(ii) Taxa de desemprego e taxa de criminalidade.
(iii) Expectativa de vida e taxa de analfabetismo.

Seja X a varivel preditora ou independente e seja Y a varivel resposta ou dependente.
Para determinar uma possvel relao linear entre as variveis X e Y, seguimos o seguinte
procedimento:
(i) Fazer um diagrama de disperso dos pontos (x , y).
(ii) Se existir aproximadamente uma relao linear entre X e Y, podemos avaliar esta linearidade
calculando o coeficiente de correlao amostral r.
(iii) Determinar a reta que melhor se aproxima dos pontos observados.
Considere que a reta que se prope ajustar seja dada por

i i i
e x y
1 0
+ + = (3.2)

Para o ajuste desta reta usamos o mtodo de mnimos quadrados (MMQ), onde:
y
i
= i-sima obs. da varivel dependente,
x
i
= i-sima obs. da varivel independente,

i i i
y y e = = i-simo valor do erro aleatrio (resduo),

0
,
1
= parmetros de regresso, nomeados de intercepto e coeficiente angular
respectivamente.
O mtodo MMQ consiste em determinar os valores de
0
e
1
para os quais

2
1 0
1
1 0
)) ( ( ) , (
i
n
i
i
x y S + =

=
(3.3)

mnima. Para fazer isso, preciso resolver o sistema de equaes envolvendo as derivadas de
S([
0
, [
1
), cuja soluo pode ser vista em Bussab & Morettin (2009).
Considerando n observaes bivariadas (x
1
, y
1
), (x
2
, y
2
), ... , (x
n
, y
n
), a equao ajustada
por mnimos quadrados dada por:
Anlise Exploratria de Dados Prof. Josenildo Chaves
26


x y
1 0

+ = (3.4)
onde, o coeficiente angular
1

e o intercepto
0

so dados respectivamente pelas equaes



=
=


=
n
i
i
n
i
i i
x x
y y x x
1
2
1
1
) (
) )( (

, (3.5)

x y
1 0

=
.
(3.6)

Exemplo 3.3 - Nota de uma prova em estatstica e tempo de estudo.
As variveis so:
X - tempo de estudo (em horas);
Y - nota da prova.

Considere os pares de observaes (x
i
, y
i
):

Tempo (x
i
) 3.0, 7.0, 2.0, 1.5, 12.0
Nota (y
i
) 4.5, 6.5, 3.7, 4.0, 9.3


A Figura 3.4 apresenta o diagrama de disperso e a reta de regresso ajustada.


Figura 3.4 - Grfico da reta ajustada do Exemplo 3.3.

Anlise Exploratria de Dados Prof. Josenildo Chaves
27


O coeficiente de correlao, de acordo com a expresso (3.1) e dado por,

996 . 0 992 . 0
2
= = = r r .

A partir da reta ajustada x y 5 , 0 9 , 2 + = , ver Figura 3.4, podemos achar valores de previso
de y a partir de valores atribudos a x. Por exemplo, a previso de y para x = 8 dada por
9 , 6 8 5 , 0 9 , 2 ) 8 ( = + = y . Isto , uma previso da nota obtida para um aluno que estuda 8 horas
9 , 6 = y .


Anlise de Resduos ) ( y y e =
Para verificar a adequao do ajuste podemos construir os grficos: resduos versus varivel
independente X , resduos versus valor ajustado y , resduos padronizados versus valor ajustado y .
Se os pontos estiverem aleatoriamente distribudos em torno de zero, temos uma indicao
de que o modelo est bem ajustado. Resduos padronizados (
si
e ) fora do intervalo ] 2 , 2 [ so
denominados pontos aberrantes.

n i
e
e
e
e i
si
, , 2 , 1 , K =

.

Figura 3.5 - Grfico dos resduos e
i
versus
i
y .


Anlise Exploratria de Dados Prof. Josenildo Chaves
28


Anlise grfica de resduos:
Observe que os pontos
i
e na Figura 3.5 esto aleatoriamente distribudos em torno de zero,
indicando adequao do modelo linear ajustado.

Figura 3.6 - Grfico dos resduos
si
e versus
i
y .


Observe que os pontos
si
e na Figura 3.6 esto aleatoriamente distribudos em torno de zero.
A presena de um ponto fora do intervalo [-2, 2] sugere que um modelo no-linear poder explicar
melhor a varivel nota do aluno (Y). Entretanto o tamanho da amostra n = 5 pequeno para se
tomar qualquer concluso segura.



## Cdigos em R para os dados do Exemplo 3.3.
rm(list=ls(all=TRUE)) # remove todas as variaveis
x=c(3,7,2,1.5,12) # para criar o vetor x
y=c(4.5,6.5,3.7,4,9.3) # para criar o vetor y
n=length(x) # comprimento do vetor x , n=5
fit.model=lm(y ~ x); fit.model # regressao linear
## diagrama de disperso e reta ajustada
plot(x,y)
abline(fit.model)
##
X <- model.matrix(fit.model)
n <- nrow(X)
p <- ncol(X)
H <- X%*%solve(t(X)%*%X)%*%t(X) ## ajuste solve(t(X)%*%X)%*%t(X)%*%y
h <- diag(H)
lms <- summary(fit.model)
s <- lms$sigma
r <- resid(lms)
ts <- r/(s*sqrt(1-h))
si <- lm.influence(fit.model)$sigma
Anlise Exploratria de Dados Prof. Josenildo Chaves
29


tsi <- r/(si*sqrt(1-h))
a <- max(tsi)
b <- min(tsi)
#
## diagrama de disperso e reta ajustada
xr=c(min(x),max(x))
betah=solve(t(X)%*%X)%*%t(X)%*%y
yh=betah[1]+ betah[2]*xr
plot(x,y,xlab="tempo de estudo", ylab="nota",pch=16)
lines(xr,yh, type="l", col="red")
# Grfico dos resduos
plot(fitted(fit.model),r,xlab="Valores Ajustados",
ylab="Residuos", ylim=c(-0.3,0.3), pch=16)
#
plot(fitted(fit.model),tsi,xlab="Valores Ajustados",
ylab="Residuos Padronizados", ylim=c(b-1,a+1), pch=16)
abline(2,0,lty=2)
abline(-2,0,lty=2)
#




Exemplo 2 revisitado Tamanho da Populao (N): Considere uma populao formada por um
conjunto de N txis de uma cidade e que os txis so enumerados de 1 a N. Para estimar o nmero N
de txis da cidade, anotamos os nmeros de todos os txis que um turista pegou: 440, 73, 179, 405 e
280. Determine a probabilidade de o turista ter tomado os txis que tm esses nmeros e determine
o valor de N para o qual essa probabilidade mxima.
Soluo. Considere os eventos,
A = {o primeiro txi tem nmero 440},
B = {o segundo txi tem nmero 73}, etc. Ento,

.
1 1 1 1 1 1
) | ( ) | (
) | ( ) | ( ) ( ) (
5
N N N N N N
D C B A E P C B A D P
A B C P A B P A P E D C B A P
= =

=


A probabilidade de ocorrer o que efetivamente ocorreu,
) ( E D C B A P
chamada
de funo de verossimilhana. Neste caso esta funo mxima quando N mnimo. Ora, como
440 N , o valor de N que torna mxima a verossimilhana 440. A estimativa de mxima
verossimilhana de N 440.

Estudaremos a teoria das probabilidades no Captulo 4.



Anlise Exploratria de Dados Prof. Josenildo Chaves
30






REFERNCIAS

BUSSAB, W. O.; MORETTIN, P. A. (2009). Estatstica bsica. Saraiva, So Paulo, 6 Edio.

DOANE, D. P. ; SEWARD, L. E. (2011). Measuring Skewness: A Forgotten Statistic?. Journal of
Statistics Education, Vol. 19, Number 2

MAGALHES, M. N.; PEDROSO DE LIMA, A. C. (2010). Noes de probabilidade e estatstica.
Edusp, So Paulo.

R Development Core Team (2010). R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.

R Development Core Team (2012). R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.

STURGES, H. A. (1926). The Choice of a Class Interval. Journal of the American Statistical
Association, Vol. 21, No. 153, pp. 65- 66.

WAND, M. P. (1997). Data-based choice of histogram bin width. The American Statistician Vol. No.
1, 51, pp. 59-64.