Académique Documents
Professionnel Documents
Culture Documents
2.1. INTRODUO
A anlise estatstica visa aumentar o conhecimento do pesquisador sobre uma populao a partir de uma
amostra. Assim, a Estatstica um conjunto de mtodos adequados para a coleta, a explorao, descrio e para
a interpretao de conjuntos de dados numricos.
Estes mtodos de anlise permitem:
- a explorao dos dados com o intuito de identificar padres de interesse,
- a representao dos dados caracterizados por estes padres.
A anlise exploratria de dados teve seu incio com J.W. TUKEY, cujos trabalhos foram publicados em
TUKEY (1977) e TUKEY & MOSTELLER (1977).
Os mtodos da EDA ( Exploratory Data Analysis ) permitem um tratamento bastante informal dos dados e
levam rapidamente ao conhecimento de estruturas existentes no conjunto de dados.
Embora as tcnicas da EDA sejam simples, geralmente so mtodos robustos (vlidos para uma grande
gama de situaes e modelos ) e resistentes (insensveis aos erros grosseiros ou dados estranhos).
39 45 45 46 47 47 48 49 49 50 50 50 51 51 52 52 53 54 55 57
40 45 46 46 47 47 48 49 49 50 50 50 51 51 52 52 53 54 55 60
43 45 46 46 47 48 48 49 50 50 50 50 51 51 52 52 53 54 56 60
44 45 46 46 47 48 49 49 50 50 50 51 51 51 52 52 53 54 56 61
44 45 46 47 47 48 49 49 50 50 50 51 51 51 52 53 53 55 57 61
Note que os salrios foram arredondados para inteiros para facilitar os clculos, mas poderiam variar
quase continuamente de centavo em centavo.
Um roteiro para a construo de uma tabela de distribuio de frequncias (utilizado por Scott, 1979),
consiste nos seguintes passos:
10 de 18
B AC H AR E L AD O E L I C E N C I AT U R A E M Q U M I C A
Notas de Aulas do Curso de Estatstica - Prof MSc. Damaris Fernandes
1- Determinar o nmero de classes (k): em geral, at 100 dados usa-se tomar o inteiro mais prximo da
raiz do nmero de dados (n). Para mais que 100 observaes, usa-se o inteiro mais prximo de 5*log (n):
n 100 k = n e n > 100 k = 5logn
Como no exemplo n = 100, o nmero de classes k = 10.
2- Determinar a amplitude de cada classe (c): toma-se a amplitude total dos dados (representada por A,
calculada pela diferena entre o maior e o menor valor dos dados e divide-se tal valor pelo nmero de classes
menos 1:
c= A
k-1
No exemplo: A = 61 39 = 22; c = 22 / 9 2,44
Tabela 2.2.1. Distribuio de frequncia dos salrios semanais de 100 trabalhadores (varivel quantitativa
contnua). Roteiro para amostras.
Classe de Salrio Semanal Ponto Mdio da Classe Frequncia Observada Frequncia Acumulada
37,78 40,22 39,00 2 2
Tomaremos os dados e esta tabela para acompanhar os exemplos a seguir. Note que os pontos mdios
de classe so as mdias aritmticas dos limites de classe.
Para o clculo de medidas a partir de tabelas de distribuio de frequncias so em geral feitas algumas
aproximaes. A principal aproximao a chamada Hiptese Tabular Bsica que consiste em supor que todos os
dados de uma classe so representados pelo ponto mdio desta classe. Como veremos, este fato trar
consequncias como simplificar os clculos apesar da perda de preciso envolvida.
11 de 18
B AC H AR E L AD O E L I C E N C I AT U R A E M Q U M I C A
Notas de Aulas do Curso de Estatstica - Prof MSc. Damaris Fernandes
x = xi = 49 + 47 + 51 + ... + 45 + 50 = 5000 = 50
n 100 100
O clculo a partir de uma tabela de distribuio de frequncias dado pela seguinte expresso:
ou seja, o limite inferior da classe mediana somado a uma frao (entre parnteses) da amplitude da classe
mediana (em geral constri-se tabelas com c constante). Esta frao dada pela relao entre a diferena da
posio central para a inicial da classe mediana (FAA a frequncia acumulada anterior classe mediana) e a
frequncia da prpria classe mediana, ou seja, pela proporo das observaes da classe que devem ser
anteriores mediana.
No exemplo dos salrios, a classe mediana a que contm a posio 50, seu limite inferior 49,98; a
amplitude de classe 2,44; a frequncia acumulada anterior mediana 42 e a frequncia da classe mediana
37. Assim, a mediana calculada por:
12 de 18
B AC H AR E L AD O E L I C E N C I AT U R A E M Q U M I C A
Notas de Aulas do Curso de Estatstica - Prof MSc. Damaris Fernandes
mo = LImo + 1 * cmo
1 + 2
em que 1 e 2 so as diferenas entre a frequncia da classe modal e as das classe anterior e posterior,
respectivamente.
No exemplo dos salrios a classe modal a mesma classe mediana,
1 = 37 15 = 22
2 = 37 10 = 27
mo = 49,98 + 22 * 2,44 51,08
22 + 27
Ex.: O conjunto de dados {2, 6,15, 59} tem mdia geomtrica G = 2 * 6 *15 * 59 10,15
Para fenmenos que dependem fortemente do menor dos dados, em geral utiliza-se mdias harmnicas
calculadas como o inverso da mdia dos inversos. Um exemplo o clculo do tamanho efetivo de populaes
naturais submetidas a processos de devastao ecolgica.
Ex.: O nmero de hipoptamos de uma regio ao longo de quatro geraes foi de { 2000, 20, 250,1500 }, a
mdia harmnica deste nmero dada por
H = 1 72,51
1 1 + 1 + 1 + 1 .
4 2000 20 250 1500
Pode-se notar que, enquanto a mdia geomtrica favorece os maiores nmeros, a mdia harmnica
favorece os nmeros menores.
13 de 18
B AC H AR E L AD O E L I C E N C I AT U R A E M Q U M I C A
Notas de Aulas do Curso de Estatstica - Prof MSc. Damaris Fernandes
14 de 18
B AC H AR E L AD O E L I C E N C I AT U R A E M Q U M I C A
Notas de Aulas do Curso de Estatstica - Prof MSc. Damaris Fernandes
DMS = I xi - x I
n
Para o exemplo dos dados referentes ao salrio semanal, basta determinar as distncias de cada
elemento da srie para a mdia da srie:
39 - 50 = |-11| = 11 47 - 50 = |-3| = 3 49 - 50 = |-1|= 1 51 - 50 = |1| = 1 53 - 50 = |3| = 3
40 - 50 = |-10| = 10 47 - 50 = |-3| = 3 49 - 50 = |-1|= 1 51 - 50 = |1| = 1 53 - 50 = |3| = 3
43 - 50 = |-7| = 7 47 - 50 = |-3| = 3 50 - 50 = |0| = 0 51 - 50 = |1| = 1 53 - 50 = |3| = 3
44 - 50 = |-6| = 6 47 - 50 = |-3| = 3 50 - 50 = |0| = 0 51 - 50 = |1| = 1 53 - 50 = |3| = 3
44 - 50 = |-6| = 6 47 - 50 = |-3| = 3 50 - 50 = |0| = 0 51 - 50 = |1| = 1 53 - 50 = |3| = 3
45 - 50 = |-5| = 5 47 - 50 = |-3| = 3 50 - 50 = |0| = 0 51 - 50 = |1| = 1 54 - 50 = |4| = 4
45 - 50 = |-5| = 5 47 - 50 = |-3| = 3 50 - 50 = |0| = 0 51 - 50 = |1| = 1 54 - 50 = |4| = 4
45 - 50 = |-5| = 5 48 - 50 = |-2| = 2 50 - 50 = |0| = 0 51 - 50 = |1| = 1 54 - 50 = |4| = 4
45 - 50 = |-5| = 5 48 - 50 = |-2| = 2 50 - 50 = |0| = 0 51 - 50 = |1| = 1 54 - 50 = |4| = 4
45 - 50 = |-5| = 5 48 - 50 = |-2| = 2 50 - 50 = |0| = 0 51 - 50 = |1| = 1 55 - 50 = |5| = 5
45 - 50 = |-5| = 5 48 - 50 = |-2| = 2 50 - 50 = |0| = 0 52 - 50 = |2| = 2 55 - 50 = |5| = 5
46 - 50 = |-4| = 4 48 - 50 = |-2| = 2 50 - 50 = |0| = 0 52 - 50 = |2| = 2 55 - 50 = |5| = 5
46 - 50 = |-4| = 4 48 - 50 = |-2| = 2 50 - 50 = |0| = 0 52 - 50 = |2| = 2 56 - 50 = |6| = 6
46 - 50 = |-4| = 4 49 - 50 = |-1| = 1 50 - 50 = |0| = 0 52 - 50 = |2| = 2 56 - 50 = |6| = 6
46 - 50 = |-4| = 4 49 - 50 = |-1| = 1 50 - 50 = |0| = 0 52 - 50 = |2| = 2 57 - 50 = |7| = 7
46 - 50 = |-4| = 4 49 - 50 = |-1| = 1 50 - 50 = |0| = 0 52 - 50 = |2| = 2 57 - 50 = |7| = 7
46 - 50 = |-4| = 4 49 - 50 = |-1| = 1 50 - 50 = |0| = 0 52 - 50 = |2| = 2 60 - 50 = |10| = 10
46 - 50 = |-4| = 4 49 - 50 = |-1| = 1 50 - 50 = |0| = 0 52 - 50 = |2| = 2 60 - 50 = |10| = 10
46 - 50 = |-4| = 4 49 - 50 = |-1| = 1 51 - 50 = |1| = 1 52 - 50 = |2| = 2 61 - 50 = |11| = 11
47 - 50 = |-3| = 3 49 - 50 = |-1| = 1 51 - 50 = |1| = 1 53 - 50 = |3| = 3 61 - 50 = |11| = 11
15 de 18
B AC H AR E L AD O E L I C E N C I AT U R A E M Q U M I C A
Notas de Aulas do Curso de Estatstica - Prof MSc. Damaris Fernandes
O DMS a mdia aritmtica simples destes valores: DMS = 11 + 10 + ......... + 11 + 11 = 294 = 2,94
100 100
Interpretao: Em mdia, cada elemento da sequncia est afastado do valor 50 por 2,94 unidades.
No caso da tabela de distribuio de frequncias, lembramos que a frequncia simples de cada elemento
representa o nmero de vezes que este valor figura na srie. Consequentemente haver repeties de distncias
iguais de cada elemento distinto da srie para a mdia da srie. Assim, a mdia indicada para estas distncias
uma mdia aritmtica ponderada.
Usaremos a disposio da tabela, acrescentando novas colunas para a resoluo dos clculos.
Interpretao: Em mdia, cada elemento da sequncia est afastado do valor 50 por 3,20 unidades.
COMENTRIO: O desvio mdio simples depende de cada componente da srie. Se mudarmos o valor de um
nico elemento da srie, mudamos tambm o DMS. Portanto, o desvio mdio simples tem perfeita sensibilidade
estatstica. A maior dificuldade desta medida envolver mdulos, cujas propriedades, em geral no so
suficientemente conhecidas pelos profissionais que normalmente desenvolvem estes clculos.
16 de 18
B AC H AR E L AD O E L I C E N C I AT U R A E M Q U M I C A
Notas de Aulas do Curso de Estatstica - Prof MSc. Damaris Fernandes
Portanto, varincia uma mdia aritmtica calculada a partir dos quadrados dos desvios obtidos entre os
elementos da srie e a sua mdia.
Quando a sequncia de dados representa uma populao a varincia denotada por 2(x) e o desvio
padro correspondente por (x).
Quando a sequncia de dados representa uma amostra, a varincia denotada por s2(x) e o desvio
padro correspondente por s(x).
2 = ( xi x )2fi s2 = ( xi x )2fi
N n-1
= 2 s = s2
COMENTRIOS:
1. No clculo da varincia, quando elevamos ao quadrado a diferena ( xi x ), a unidade de medida da
srie fica tambm elevada ao quadrado.
Portanto, a varincia dada sempre no quadrado da unidade de medida da srie.
17 de 18
B AC H AR E L AD O E L I C E N C I AT U R A E M Q U M I C A
Notas de Aulas do Curso de Estatstica - Prof MSc. Damaris Fernandes
CV =
x
A varincia relativa de uma srie X indicada por V(x) e definida por:
V = 2
( x )2
Note que o coeficiente de variao, como uma diviso de elementos de mesma unidade, um nmero
adimensional, portanto, pode ser expresso em percentual.
Este fato justifica a utilizao do denominador ( x )2 na definio de V(x).
Deste modo, se calcularmos o coeficiente de variao das sries X e Y citada no incio obteremos:
Como a medida de disperso relativa leva em considerao a medida de disperso absoluta e a mdia da
srie, uma medida mais completa que a medida de disperso absoluta.
Comparando os valores destes dois coeficientes conclumos que:
- a srie Y apresenta maior disperso absoluta.
- a srie X apresenta maior disperso relativa.
Portanto, a srie X apresenta maior disperso.
Para o exemplo dos dados referentes ao salrio semanal, considerando que a sequncia representa:
18 de 18