Vous êtes sur la page 1sur 45

Anlise Exploratria de Dados

Anlise Exploratria de Dados


Daniel Matos de Carvalho
Instituto Federal de Educao Cincia e Tecnologia
11 de maro de 2014
Anlise Exploratria de Dados
Fases do Mtodo Estatstico
Estatstica Descritiva
1. Coleta
2. Crtica dos dados
3. Apurao dos dados
4. Exposio dos dados
Estatstica Inferencial
1. anlise
2. Interpretao
Anlise Exploratria de Dados
Fases do Mtodo Estatstico
Anlise Exploratria de Dados - AED

A nalidade da AED examinar os dados previamente


aplicao de qualquer tcnica estatstica.

Desta forma o analista consegue um entendimento bsico de


seus dados e das relaes existentes entre as variveis
analisadas.

Aps a coleta e a digitao de dados em um banco de dados


apropriado, o prximo passo a anlise descritiva.

A anlise descritiva detalhada permite ao pesquisador


familiarizar-se com os dados, organiz-los e sintetiz-los de
forma a obter as informaes necessrias do conjunto de dados
para responder as questes que esto sendo estudadas.
Anlise Exploratria de Dados
Fases do Mtodo Estatstico
Para realizar uma AED recomenda-se seguir as seguintes
etapas:

preparar os dados para serem acessveis a qualquer tcnica


estatstica;

realizar um exame grco da natureza das variveis individuais


a analizar e uma anlise descritiva que permita quanticar
alguns aspectos grcos dos dados;

realizar um exame grco das relaes entre as variveis


analisadas e uma anlise descritiva que quantique o grau de
inter-relao entre elas;

identicar os possveis casos atpicos (outliers);

avaliar, se for necesrio, a presena de dados ausentes


(missing);

avaliar, se for necesrio, algumas suposies bsicas, como


normalidade, lineariedade e homocedasticidade.
Anlise Exploratria de Dados
Conceitos Fundamentais e Denies
Conceitos Fundamentais e Denies

Populao Estatstica ou Universo Estatstico - Conjunto de


elementos que possuem ao menos uma caracterstica em
comum. Usaremos N para designar esse nmero.

Populao dos alunos do primeiro perodo de uma faculdade

Populao dos operrios da indstria automobilstica

Amostra - Fixada uma populao, qualquer subconjunto


formado exclusivamente por seus elementos denominado
amostra. Usaremos n para designar esse nmero.

Varivel - a caracterstica que vai ser observada, medida ou


contada nos elementos da populao ou da amostra.
Anlise Exploratria de Dados
Conceitos Fundamentais e Denies
Conceitos Fundamentais e Denies

Varivel quantitativa - uma varivel que assume como


possveis valores, nmeros.
1. Discreta - uma varivel que assume como possveis valores
nmeros inteiros (Ex. N de Alunos e N Batimentos de
corao por minuto).
2. Contnua - uma varivel que assume como possveis valores
nmeros em intervalos da reta real ( Altura, comprimento de
uma certa folha).

Varivel qualitativa - uma varivel que assume como


possveis valores atributos ou qualidades.
1. Nominal - atributos ou qualidades que no apresentam uma
ordem natural de ocorrncia. (Ex. Sexo, Marca do Produto)
2. Ordinal - atributos ou qualidades que apresentam uma ordem
natural de ocorrncia. (Ex. Estatura - alta, mdia ou baixa;
Grau de Instruo)
Anlise Exploratria de Dados
Conceitos Fundamentais e Denies
Conceitos Fundamentais e Denies

Parmetro - a medida usada para descrever uma


caracteristica numrica populacional. Genericamente
representada por . A mdia () e a varincia () so
exemplos de parmetros populacionais.

Estimador - uma caracterstica nmerica determinada na


amostra, uma funo do seus elementos. Genericamente
representaremos por

. A mdia amostral ( x), a varincia
amostral (s
2
) so exemplo de estimadores.

Estimativa - o valor numrico determinado pelo estimador,


que genericamente representaremos por

0
.

Amostragem - o processo de seleo de uma amostra, que


possibilita o estudo das caractersticas da populao.
Distribuio de Frequncia
Conceitos Fundamentais e Denies
Distribuio de Frequncia
Daniel Matos de Carvalho
UEPB - Universidade Estadual da Paraba
Curso de Relaes Internacionais
Disciplina - Estatstica
11 de maro de 2014
Distribuio de Frequncia
Conceitos Fundamentais e Denies
Tabela
um quadro que resume um conjunto de observaes.

corpo - Conjunto de linhas e colunas que contm informaes


sobre a varivel em estudo ;

cabealho - parte superior da tabela que especica o contedo


das colunas;

coluna indicadora - parte da tabela que especica o contedo


das linhas;

linhas - retas imaginrias que facilitam a leitura, no sentido


horizontal, de dados que se inscrevem nos seus cruzamentos
com as colunas.

casa ou clula - espao destinado a um s nmero.

ttulo - conjunto de informaes, as mais completas possveis,


respondendo a perguntas: O qu?. Quando?, Onde?,
localizado no topo da tabela.
Distribuio de Frequncia
Conceitos Fundamentais e Denies
Tabela
Mdia de Anos de Estudo das Pessoas de 10 anos ou mais de idade
Brasil 2003-2007.
Ano Mdia de Anos de Estudos
2003 7,2
2004 7,3
2005 7,4
2006 7,7
2007 7,8
Fonte:IBGE
Distribuio de Frequncia
Conceitos Fundamentais e Denies
De acordo com as normas do IBGE, nas casas ou clulas devemos
colocar:

um trao na horizontal (-) quando o valor zero (0);

trs pontos (...) quando o no temos os dados;

um ponto de interrogao quando temos dvida quanto


exatido de determinado valor;

zero quando o valor muito pequeno para ser expresso pela


unidade utilizada.
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Tabelas Histricas

Descrevem os valores da varivel, em determinado local,


discriminados segundo intervalos de tempo variveis.
Preo Mdio do Frango em So Paulo. 2003-2008
Ano Preo Mdia
2003 2,56
2004 2,64
2005 2,67
2006 2,53
2007 3,20
2008 3,64
Fonte: Associao Paulista de Avicultura
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Tabelas Geogrcas

Descrevem os valores da varivel, em determinado instante,


discriminados segundo regies.
Durao Mdia dos Estudos Superiores - 1994
Pases Nmero de Anos
Itlia 7,5
Alemanha 7,0
Frana 7,0
Holanda 5,9
Inglaterra menos de 4
Fonte: Revista Veja
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Tabelas Especcas

Descrevem valores, em determinado tempo e local,


discriminados segundo especicaes.
Rebanhos Brasileiros - Efetivo nos Estabelecimentos
Agropecurios 2006
Espcies Quantidade
Bovinos 205.886.244
Bubalinos 1.156.870
Aves 821.541.630
Sunos 35.173.824
Ovinos 16.019.170
Caprinos 10.401.449
Fonte: IBGE
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Tabelas Conjugadas
Terminais Telefnicos em Servio
Regies 1991 1992 1993
Norte 342.938 375.658 403.494
Nordeste 1.287.813 1.379.101 1486649
Sudeste 6.234.501 6.729.467 7.231.634
Sul 1.497.315 1.608.989 1.746.232
Centro Oeste 713.357 778.925 884.822
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Distribuio de Frequncia

Quando se estuda uma varivel (qualitativa ou quantitativa), o


maior interesse do pesquisador conhecer a distribuio dessa
varivel atravs das possveis realizaes (valores) da mesma.

Iremos, ver uma maneira de se dispor um conjunto de valores,


de modo a se ter uma boa idia global sobre esses valores, ou
seja, de sua distribuio.
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Distribuio de Frequncia

Denio - Uma distribuio de frequncia lista os valores dos


dados (individualmente ou por grupos de intervalos),
juntamente com sua frequncia correspondentes (ou
contagens).

Uma distribuio de frequncia nos ajuda entender a natureza


da distribuio do conjunto de dados.

Uma distribuio de frequncia pode ser apresentada da


seguinte maneira:
Distribuio de Frequncia por valores.
Distribuio de Frequncia por intervalos ou classes.
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Distribuio de frequncia por valores

Varivel qualitativa ou quantitativa discreta - construda


considerando-se os diferentes valores ou categorias, levando
em considerao suas respectivas repeties.
Tabela 1 - Frequncias dos 36 empregados de uma Companhia,
segundo o grau de educao.
Educao Empregados (f
i
)
1 Grau 12
2 Grau 18
Superior 6
Total() 36
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Tabela 2 - Frequncias dos empregados de uma Companhia,
segundo o nmero de lhos
N de Filhos Empregados (f
i
)
0 4
1 5
2 7
3 3
5 1
Total() 20
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Distribuio de frequncia por intervalos

Constri-se classes de valores, levando em considerao o


nmero de valores que pertencem a cada classe.
Distribuio de Frequncia de 39 estudantes de Estatstica
Peso Frequncia (f
i
)
46-52 10
53-59 14
60-66 10
67-73 2
74-80 2
81-88 1
Total() 39
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Distribuio de frequncia por intervalos
Tabela 3 - Distribuio de Frequncia: Idade das Melhores Atrizes
Idade das Atrizes Frequncia (f
i
)
21-30 28
31-40 30
41-50 12
51-60 2
61-70 2
71-80 2
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Denies

Limites inferiores de classe so os menores nmeros que


podem pertencer s diferentes classes.

Limites superiores de classes so os maiores nmeros que


podem pertencer s diferentes classes.

Ponto mdio da classe so os pontos mdios dos intervalos


que determinam cada classe.

Amplitude da classe a diferena entre dois limites inferiores


de classe consecutivos ou duas fronteiras inferiores de classe
consecutivas.
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Distribuio de Frequncia

Frequncia Simples f
i
a frequncia da i-esmia classe.

k
i =1
= n

Frequncia Relativa (Percentual da classe) fr


i
=
f
i
n

k
i =1
= 1.

Frequncia Acumulada Simples a soma da frequncia daquela


classe mais as frequncia de todas as classes anteriores.
F
i
= f
1
+ f 2 + . . . + f
i

Frequncia Relativa Acumulada


Fr
i
= fr
1
+ fr
2
+ . . . + fr
i
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Procedimentos para Construo de uma Distribuio de
Frequncia
1. Decida-se sobre o nmero de classes desejado. (5 k 20)
2. Determinar a amplitude da classe
(Valormximo)(Valormnimo)
nmerodeclasses
3. Escolher o ponto inicial para ser o limite inferior da primeira
classe. Escolha o valor mnimo ou um valor conveniente um
pouco menor.
4. Usando o limite inferior da primeira classe e a amplitude da
classe, prossiga e liste os outros limites inferiores de classe.
5. Liste os limites inferiores de classe em uma coluna vertical e
preencha os limites superiores.
6. Percorra o conjunto de dados colocando uma marca na classe
apropriada para cada valor do dado.
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Exemplo
Dados Brutos - Prmios da Academia: Idade das Melhores Atrizes
(n = 74).
22 37 28 63 32 26 31 27 27 28
30 26 29 24 38 25 29 41 30 35
35 33 29 38 54 24 25 46 41 28
40 39 29 27 31 38 29 35 25 60
43 35 34 34 17 37 42 41 36 32
41 33 31 74 33 50 38 61 21 41
26 80 42 19 33 35 45 49 39 34
26 25 33 35 35 28
Distribuio de Frequncia
Tipos de Tabelas Estatstica
Exerccio
1. Faa um tabela de distribuio de frequncia com cinco
classes. Utilizando outros critrios quantas classes a tabela
teria?
Dados Brutos - Minutos Gastos ao Telefone
102 124 108 86 103 82
71 104 112 118 87 95
103 116 85 122 87 100
105 97 107 67 78 125
109 99 105 99 101 92
Histograma
Tipos de Tabelas Estatstica
Histograma
Daniel Matos de Carvalho
IFPB
11 de maro de 2014
Histograma
Histograma
Representao grca de uma distribuio

Histograma formado por um conjunto de retngulos


justapostos, cujas bases se localizam sobre o eixo horizontal,
de tal modo que o seus pontos mdios coincidam com os
pontos mdios dos intervalos.

Polgono de Frequncia um grco em linhas, sendo as


frequncias marcadas sobre perpendiculares ao eixo horizontal,
levantadas pelos pontos mdios dos intervalos de classe.
Histograma
Histograma

O polgono de frequncia acumulado traado marcando-se as


frequncias acumuladas sobre perpendiculares ao eixo
horizontal nos pontos correspondentes aos limites superiores
dos intervalos de classe.
Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Medidas de Posio, Variabilidade, Assimetria e
Curtose
Daniel Matos de Carvalho
UEPB - Universidade Estadual da Paraba
Disciplina - Estatstica
11 de maro de 2014
Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Viso Geral

Para estudarmos as tendencias tpicas de cada distribuio,


necessitamos introduzir conceitos que se expressem atravs de
nmeros, que nos permitam traduzir essa tendncia.

Os conceitos que expressam as caractersticas especicas de


cada distribuio so:
1. Medidas de Posio
2. Medidas de Variabilidade ou disperso
3. Medidas de Assimetria
4. Medidas de Curtose
Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Medidas de Posio

Estatsticas que representam uma srie de dados


orientando-nos quanto posio da distribuio em relao ao
eixo horizontal (eixo das abscissas).

As medidas de posio mais importantes so as medidas de


tendncia central : Mdia Aritmtica, Mediana e Moda.

Outras medidas de posio so as separatrizes: Quartis e


Percentis.
Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Mdia Aritimtica

Denio - o quociente da diviso da soma dos valores da


varivel pelo nmero deles:
x =

x
i
n

onde x
i
- a mdia aritmtica, x
i
os valores da varivel, n o
tamanho da amostra.

Quando tratamos de populao temos =

x
i
N
Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Dados No Agrupados

Ex. A agencia de Proteo Ambiental americana estabeleceu


um padro de qualidade do ar para o chumbo: um mximo de
1,5 ug/m
3
. As medidas abaixo forma registradas no local do
Edifcio World Trade Center, em dias diferentes, logo aps a
destruio causada pelos ataques terroristas do dia 11 de
setembro de 2001.
5, 4 1, 10 0, 42 0, 73 0, 48 1, 10
Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Dados Agrupados

Sem intervalo de classes:


x =

x
i
f
i

f
i
Nmero de meninos em 34 famlias.
N de Meninos f
i
0 2
1 6
2 10
3 12
4 4

34
Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Com intervalo de classe

Convenciona-se que todos os valores includos em um


determinado intervalo coincidem com seu ponto mdio.
x =

x
i
f
i

f
i

onde x
i
o ponto mdio da classe.
Tabela 3 - Distribuio de Frequncia: Idade das Melhores Atrizes
Idade das Atrizes Frequncia (f
i
)
21-30 28
31-40 30
41-50 12
51-60 2
61-70 2
71-80 2
Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
MODA

Denio - Denominamos moda o valor que ocorre com maior


frequncia em uma srie de valores.

Dados No Agrupados - Basta procura o valor que mais se


repete
Exemplo:
5, 4 1, 10 0, 42 0, 73 0, 48 1, 10

Podemos encontrar dados que no exista valor modal


(Amodal): 3 5 8 10 12 13

Em outros casos pode haver mais de uma moda.


Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Dados Agrupados

Sem intervalo de classe - Basta identicar o valor de maior


frequncia

Com intervalo de classe - A classe que apresenta a maior


frequncia denominada classe modal. Assim a moda ser o
ponto mdio da classe modal.
Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Mediana

Denio - A mediana de um conjunto de valores ordenados


o valor situado de tal forma no conjunto que o separa em dois
subconjuntos de mesmo nmero de elementos.

Dados no agrupados - Aps a ordenao, a mediana ser


representada pelo valor que apresenta a mesma quantidade de
elementos a direita e a esquerda.

Se o tamanho da amostra for par a mediana ser representada


pelo ponto mdio dos dois nmero centrais. EX:
2,6,7,10,12,13,18,21.

Em geral o valor mediano ser:


O termo de ordem
n+1
2
, se n for mpar
A mdia aritmtica entre os termos de ordem
n
2
e
n
2
+ 1, se n
for par.
Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Dados Agrupados

Sem Intervalo de Classe - Valor da varivel que apresenta a


frequncia acumulada imediatamente superior metade da
soma das frequncias.

Caso a frequncia acumulada for igual a metade da soma das


frequncias, a mediana sera dada pela mdia aritmtica entre
os valores das variveis da frequncias acumulada da classe e
da seguinte.
Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Dados Agrupados - Com intervalo de classe

A mediana dada por:


Md = l

f
i
2
F(ant)

f

onde

l - o limite inferior da classe mediana

F(ant) - a frequncia acumulada da classe anterior classe


mediana

f

- a frequncia simples da classe mediana

- a amplitude do intervalo da classe mediana


Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Separatrizes

So medidas de posio.

No so medidas de tendncia central.

So ligadas a mediana.

As medidas so: Quartis e Percentis.


Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Quartis

Denio - So o valores de um srie que a dividem em quarto


partes iguais.

O primeiro quartil (Q
1
) - Valor situado de tal modo que uma
quarta parte dos dados (25%) dos dados so menores que eles
e as trs quartas partes restantes (75%) so maiores.

O segundo quartil (Q
2
) - evidentemente coincide com a
mediana.

O terceiro quartil (Q
3
) - Valor situado de tal modo as trs
quartas partes (75%) dos dados so menores que ele e uma
quarta parte restante (25%) so maiores.
Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Quartis

Q
1
= l

f
i
4
F(ant)

f

Q
3
= l

f
i
4
F(ant)

f

onde

l - o limite inferior da classe mediana

F(ant) - a frequncia acumulada da classe anterior classe


mediana

f

- a frequncia simples da classe mediana

- a amplitude do intervalo da classe mediana


Medidas de Posio, Variabilidade, Assimetria e Curtose
Histograma
Percentis

Denio - So os 99 valores que separam uma srie em 100


partes iguais.
P
1
, P
2
, . . . , P
99
.

evidente que P
50
= Md, P
25
= Q
1
e P
75
= Q
3

O clculo do percentil segue a mesma tcnica do clculo da


mediana e quartis:
P
k
= l

f
i
100
F(ant)

Construindo o polgono de frequncia acumulado relativo


pode-se determinar geometricamente as separatrizes.

Vous aimerez peut-être aussi