Vous êtes sur la page 1sur 83

7

Mdulo I Unidade 1: Definio Estatstica



Para muitos a estatstica no passa de um conjunto de tabelas e grficos
ou, simplesmente, um aglomerado de nmeros. Na verdade, o campo cientfico
que corresponde estatstica uma excelente ferramenta na interpretao de
dados coletados para qualquer cincia incluindo a cincia qumica.
A estatstica historicamente tem nos ajudado na compreenso de
diversas informaes. A palavra estatstica vem de status (estado em latim).
Sob essa palavra acumulam-se descries e dados relativos ao estado. A
estatstica, nas mos dos estadistas, constitui-se, no passado, uma verdadeira
ferramenta administrativa atravs da coleta e construo de tabelas de dados
para o governo. A situao evoluiu e esta coleta de dados de dados representa
somente um dos aspectos da estatstica como ser descrito no decorrer do
texto.

A estatstica um conjunto de tcnicas que permite, de forma
sistemtica, organizar, descrever, analisar e interpretar dados oriundos
de estudos ou experimentos, realizados em qualquer rea do
conhecimento.

Dentre as diversas reas da estatstica nosso estudo se limitar a que
chamada estatstica descritiva:

utilizada para descrever e resumir os dados. A disponibilidade de uma
grande quantidade de dados e de mtodos computacionais muito
eficientes revigorou est rea da estatstica.

As informaes em anlise podem ser resumidas qualitativa ou
quantitativamente (medidas de posio e de disperso). As medidas de
posio podem ser subdivididas em: moda, mdia, mediana, percentis, quartis.
E as medidas de disperso em: desvio padro, varincia e coeficiente de
variao. Medias estas que sero abordadas mais profundamente nas
unidades seguintes, assim como sistemas de regresso linear simples e
anlise hierrquica de agrupamentos (cluster).


8

Mdulo I - Unidade 2: Populao e Amostragem

POPULAO
Populao ou universo qualquer conjunto de informaes que
tenham, entre si, uma caracterstica comum.
As pessoas de uma comunidade pode ser estudadas sob diversos
ngulos. Por exemplo, podem ser classificadas quanto ao sexo (masculino e
feminino), quanto estatura (baixa, mdia, alta), quanto renda (pobres,
ricas), etc.
Sexo, estatura, renda so variveis, isto , so propriedades s quais
podemos associar conceitos ou nmeros e assim expressar, de certa
maneira, informaes sob a forma de medidas.
Por exemplo, observe a seguinte tabela 1:
Tabela 1: Nomes associados aos sexos.
Nome Sexo
Paulo Masculino
Silvana Feminino
Jhon Masculino
Helosa Feminino
Na tabela, os nomes esto associados ao sexo (masculino, feminino).
Esta uma forma de medida, a chamada medida qualitativa. Pode-se ainda
associar a masculino o nmero 1 e a feminino o nmero 2, e a tabela 1
transforma-se em:




9


Tabela 2: Nomes relacionados ao sexo masculino (1) e feminino (2).
Nome Sexo
Paulo 1
Silvana 2
Jhon 1
Helosa 2
Se o conjunto de todas as estaturas das pessoas da comunidade citada
constitui uma populao de estaturas, o conjunto de todas as cores de olhos
constitui uma populao de cores de olhos, e assim sucessivamente. Desta
forma, o termo populao no est associado pessoa, gente e sim a varivel
estudada (estatura, cor dos olhos, etc).
Entretanto, populao muito grande como, por exemplo, a populao
eleitoral brasileira (cerca de 128 milhes de eleitores aptos a votar, estimativa
do TSE Tribunal Superior Eleitoral). Como fazer uma pesquisa de opinio
sobre a popularidade de determinado poltico brasileiro sem ter que entrevistar
cada uma das pessoas e garantir um resultado confivel? Neste Caso, recorre-
se a uma amostra que, basicamente, constitui uma reduo da populao a
dimenses menores, sem ter perda das caractersticas essncias.
Por exemplo, tem-se da vila So Jos com populao de 400 pessoas.
Se for realizado um estudo das idades dos habitantes desta vila, o trabalho
pode ser simplificado colhendo uma amostra de 40 pessoas e estudar o
comportamento da varivel idade apenas nesta amostra.
No entanto, para se ter uma boa amostra, esta deve ser
representativa, ou seja, deve conter em proporo tudo o que a populao
possui qualitativa e quantitativamente. E tem que ser imparcial, isto , todos
os elementos devem ter igual oportunidade de fazer parte da amostra.


10

Voltando ao exemplo da vila. Observe as tabelas 3 e 4:
Tabela 3: Quantidade de Pessoas da vila So Jos em relao idade em
anos.
Idade (anos)
Qtd. de
pessoas
2 30
10 40
18 40
26 40
32 50
40 60
52 70
65 70
Total 400

Tabela 4: Quantidade de Pessoas da vila So Jos em percentagem em
relao idade em anos.








Idade (anos)
Qtd. de
pessoas
%
2 30 7,5
10 40 10,0
18 40 10,0
26 40 10,0
32 50 12,5
40 60 15,0
52 70 17,5
65 70 17,5
Total 400 100


11

A tabela 4 especifica que 50 pessoas da vila com idade de 32 anos
correspondem a 7,5% do total dos habitantes desta vila. Ento, para haver
representatividade, preciso garantir que, na amostra de 40 pessoas,
tambm haver 7,5% de pessoas idade igual a 32 anos, ou seja, 3 pessoas
com idade igual a 32 anos.

MTODOS DE AMOSTRAGEM
Sero abordados 3 tipos de amostragem, mas importante notar que estes
mtodos so vlidos somente se a amostra for puramente aleatria. Um bom
exemplo de uma amostra no aleatria a pesquisa para a eleio
presidencial estampada no Literary Digest de 1936. O Litery ouviu a opinio de
2 milhes de pessoas, o que uma cifra muito maior do que seria necessrio
para proporcionar um resultado preciso, se a amostra tivesse sido selecionada
aleatoriamente. A pesquisa predice uma fcil vitria para Alfred Landon,
quando, na realidade, Franklin D. Roosevelt venceu por uma ampla margem. O
problema que a amostra do Digest no foi aleatria. A revista enviou fichas a
pessoas cujos nomes foram tirados de listas telefnicas e outras fontes, mas as
pessoas que tinha telefone naquela poca no representavam adequadamente
a populao como um todo. Se uma amostra no extrada aleatoriamente,
no h maneira de prever o quanto se afastar da realidade.
AMOSTRAGEM POR CONGLOMERADO
De acordo com este mtodo, a populao dividida em
diferentes conglomerados, extraindo-se uma amostra apenas dos
conglomerados selecionados, e no de toda a populao. O ideal seria que
cada conglomerado representasse tanto quanto fosse possvel o total da
populao. Na prtica, selecionam-se os conglomerados geograficamente.
Escolhem-se aleatoriamente algumas regies, em seguida algumas sub-
regies e, finalmente, alguns lares. Esse processo assegura que as pessoas


12

da amostra vivam em conglomerados, possibilitando ao pesquisador entrevistar
apenas poucas pessoas.
AMOSTRAGEM ESTRATIFICADA
Outro mtodo de amostragem a amostragem
estratificada. Se a populao pode ser dividida em sub-grupos que
consistem, todos eles, em indivduos bastante semelhantes entre si, pode-
se obter uma amostra representativa entrevistando-se uma amostra aleatria
de pessoas de cada grupo. Esse processo pode gerar amostras bastante
precisas, mas s vivel quando a populao pode dividida em grupos
homogneos.
AMOSTRAGEM DE CONVENINCIA
H muitos outros tipos de mtodos de amostragem. No
raro aplica-se incorretamente a anlise estatstica a essas amostras, como se
tratasse de amostra puramente aleatrias. Poderamos chamar tais mtodos de
mtodos de amostragem de convenincia. Por exemplo, certas universidades
costumam fazer experimentos psicolgicos em amostras dos calouros dos
cursos de psicologia. Como no h razo para esperar que tais calouros
sejam representativos de toda a populao de calouros (para s falar da
populao como um todo), no adequado fazer inferncia sobre a
populao com base em tais experimentos. Outro exemplo: Se colocarmos
uma mesa na entrada de um shopping center e pedirmos a cada passante que
se detenha um momento e preencha um formulrio de pesquisa, pouco
provvel que consigamos uma amostra realmente aleatria da populao.
Analogamente, as revistas costumam publicar estatsticas chocantes; mas,
como os assinantes no constituem uma amostra aleatria da populao,
impossvel fazer inferncias estatsticas vlidas sobre a populao como um
todo, a partir dessas pesquisas.


13

Tendo uma amostra representativa da populao inicial, os dados
obtidos podem dar origem a diversas relaes estatsticas, como por
exemplo, Mdia aritmtica, mediana, moda, varincia, desvio padro, etc.
que sero abordados no decorrer do curso.



















14

Mdulo I Unidade 3: Coleta e Anlise de Dados

A fase de coleta e anlise dos dados de grande importncia na
elaborao da pesquisa cientfica, portanto, necessrio manter alguns
cuidados para que se possa garantir a fidedignidade dos resultados.

COLETA DE DADOS
O primeiro cuidado que se deve tomar ao se iniciar a fase de coleta de
dados quanto preparao das pessoas responsveis por ela.
importante a superviso para que no se coletem dados errados, ou
desnecessrios para a pesquisa realizada. Do mesmo modo, todos os dados
coletados devem estar sendo observados, pois, se necessrio, deve-se fazer a
reaplicao do instrumento.
J na pesquisa experimental, o essencial controlar as variveis
estranhas que possam estar interferindo, para que o ambiente se torne o mais
adequado possvel, manipular certas condies e observar os efeitos
produzidos. Contudo, para esse tipo de pesquisa, existe uma variedade de
recursos mecnicos, eltricos, eletrnicos que auxiliam nessa etapa da
pesquisa.
A coleta de dados pode ser feita por meio de: observaes, entrevistas
e histria de vida, pesquisa bibliogrfica, questionrios, observao
emprica, entre outros.
importante ressaltar que, existem diversos procedimentos utilizados
para este fim, no entanto, cabe ao pesquisador decidir qual o procedimento que
mais de adequada ao tipo de pesquisa realizada.




15

ANLISE DOS DADOS
Aps a coleta de dado, faz-se necessrio a anlise dos mesmos.
Entretanto, o planejamento anterior dessa anlise deve teve ter sido feita
antes mesmo da coleta dos dados. Este procedimento auxilia o pesquisador e
evita que sejam feitos trabalhos desnecessrios, alm do que, possibilita o
pesquisador prever os gastos necessrios para a realizao da pesquisa.
Para a pesquisa experimental, a anlise estatstica essencial e a
prtica mais adequada. No entanto, existem inmeros testes de significncia,
sendo necessrio que o pesquisador estude e ento escolha o teste que mais
se adequada pesquisa em questo.
importante observar que, os testes estatsticos constituem apenas
instrumentos que facilitam a interpretao dos resultados, sendo
necessrio uma fundamentao terica que permita ao pesquisador traar um
paralelo entre os resultados obtidos empiricamente e as teorias j existentes.












16

Mdulo I Unidade 4: Distribuio de Frequncia

O que vem a ser uma distribuio de frequncia?
Uma distribuio de freqncia (absoluta ou relativa) um
mtodo de agrupar dados por classes de ocorrncia de modo a
fornecer a quantidade de dados em cada classe.
Em outras palavras, este tipo de anlise estatstica permite verificar a
freqncia (o quanto se repete) de determinado dado em um determinado
intervalo de estudo. Com isso podemos resumir e visualizar um conjunto de
dados sem precisar levar em conta os valores individuais. Este tipo de
distribuio pode ser representado em forma de tabelas e grficos.
Representar graficamente significa fazer um desenho que sintetize de
maneira clara o comportamento de uma ou mais variveis e para representar
graficamente a distribuio de freqncia sero utilizados grficos planos
(duas dimenses: altura e largura).
Diagrama de colunas;
Diagrama de barras;
Histograma;
Polgono de freqncia
O ponto de partida desses quatro grficos sempre o mesmo: dois
segmentos que tm origem comum e formam entre si um ngulo reto, isto ,
um ngulo de 90 formando um sistema de coordenadas cartesianas
ortogonais. O segmento vertical chama-se eixo das coordenadas e o
segmento horizontal, eixo das abscissas.





17

REPRESENTAO TABULAR
Um outro tipo de representao que ajuda a compreender um
determinado fenmeno a representao tabular que compacta as
informaes utilizando intervalos de estudo que apresenta dados tabelados de
forma bem mais resumida.
Intervalos de classe: conjunto de observaes contidas entre dois
valores limites (limite inferior e limite superior).
Por exemplo
Dada a seqncia: 1, 2, 3, 4, 5, 6, 8. Temos:
Intervalo aberto: 1 8 = 2, 3, 4, 5, 6, 7 (no contm nem o valor
1,limite inferior, e nem o valor 8, limite superior);
Intervalo fechado: 1 8 = 1, 2, 3, 4, 5, 6, 7, 8 (contm tanto o valor
1,limite inferior, como o valor 8, limite superior);
Intervalo fechado esquerda: 1 8 = 1, 2, 3, 4, 5, 6, 7 (no contm o
valor 8, limite superior);
Intervalo fechado direita: 18 = 2, 3, 4, 5, 6, 7, 8 (no contm o valor
1,limite inferior,).
Os intervalos de classes devem ser mutuamente exclusivos (um
indivduo no pode ser classificado em dois intervalos ao mesmo tempo) e
exaustivos (nenhum indivduo pode ficar sem classificao).
Amplitude do intervalo (representado simbolicamente pela letra h): o
tamanho do intervalo de classe. A amplitude do intervalo e o nmero de
intervalos dependem basicamente do problema especfico.
E o ponto mdio do intervalo: calculado pela mdia entre os limites inferior
e superior.
Por exemplo


18

Preocupados com o acesso nos servios de sade e educao dos
moradores da cidade de Castanhal, localizada no Estado Par, seus
governantes fizeram um levantamento da renda mensal dos habitantes da
cidade que tem cerca de 150 mil habitantes, mas o estudo foi feito sobre uma
amostra de 340 pessoas. Tal estudo revelou que mais de 35% dos habitantes
(121 pessoas) da cidade de Castanhal vive com renda inferior a dois salrios
mnimos. Enquanto que uma minoria de 0,59% (2 pessoas) tem renda superior
a 8 salrios mnimos. O que evidencia a m distribuio de renda na cidade e,
conseqentemente, dificultada a o acesso a educao e a sade de qualidade.
Os dados obtidos foram:
Tabela 1: Renda mensal da populao da cidade de Castanhal.
Renda mensal
Quantidade de
Pessoas (agrupados
por classe)
%
De 0 a 1 salrio mnimo 53 15,59
De 1 a 2 salrios mnimos 121 35,59
De 2 a 3 salrios mnimos 67 19,71
De 3 a 4 salrios mnimos 15 4,42
De 4 a 5 salrios mnimos 30 8,82
De 5 a 6 salrios mnimos 19 5,59
De 6 a 7 salrios mnimos 20 5,88
De 7 a 8 salrios mnimos 13 3,82
De 8 a 9 salrios mnimos 2 0,58
Total 340 100
A tabela 1 pode ser representada com intervalos de classe sendo a renda
(quantidade de salrios mnimos) simbolizada por X e a quantidade de pessoas
por n
i
. Ento:




19

Tabela 2: Renda mensal da populao da cidade de Castanhal em intervalos
de classes.
X (salrios
mnimos)
n
i

0 1 53
1 2 121
2 3 67
3 4 15
4 5 30
5 6 19
6 7 20
7 8 13
8 9 2
Total 340

FREQUNCIA ABSOLUTA
n
i
uma varivel que tambm pode ser chamada freqncia absoluta
(Fa) e o subscrito i representa a classe qual n se refere. Na tabela 2, por
exemplo, n
1
= 53, n
2
= 121,..., n
9
= 2. Sendo que a soma de todos os n
i
s deve
ser igual a amostra estudada, neste caso so 340 pessoas.
n
i
= 340 = Fa
Este exemplo tem uma amplitude (h) igual a 1, isto , igual a um salrio
mnimo, entretanto, h pode assumir qualquer tamanho depende apenas do
problema trabalhado. Veja o que ocorre com a tabela 2 se o intervalo for de
tamanho 2.




20

Tabela 3: Renda mensal da populao da cidade de Castanhal em intervalos
de classes com h = 2.
X (salrios mnimos) n
i

0 2 174
2 4 82
4 6 49
6 8 33
8 10 2
Total 340
Observe o ltimo intervalo da tabela 3 (8 10), fechado somente a
esquerda, logo, significa que h moradores na cidade de Castanhal com renda
maior ou igual a 8 salrios mnimos, mas no igual a 10 salrios mnimos.
O mesmo vale para os demais intervalos. Observe ainda, que medida que h
se torna maior a tabela diminui, isto , vai ficando com menor nmero de
classes (categorias, intervalos).
A freqncia absoluta pode ser tambm representada graficamente com
diagrama de colunas, onde no eixo vertical observada a freqncia
absoluta por classe e no eixo horizontal, os intervalos de classe. Ou ainda
em um diagrama de barras, onde no eixo y ser representado o intervalo de
classe, e no eixo x, a freqncia absoluta.
Por exemplo
Dada a seguinte tabela que representa as notas de uma amostra de 32
alunos em um teste de estatstica com nota mnima igual a 0 (zero) e nota
mxima igual a 10 (dez), represente-a em um diagrama de colunas e em um
diagrama de barras.
Tabela 4: Representao das notas (de 0 a 10) de 32 alunos em um teste de
estatstica.
Notas Fa
0 2


21

1 3
2 5
3 8
4 8
5 3
6 2
7 1

Resposta
Para construo do diagrama de colunas desenhe o eixo cartesiano (x,
y). No eixo y represente a freqncia e no eixo x, as notas (ou classes de
notas). As colunas devem ficar separadas umas das outras. E para a
construo de um diagrama de barras faz-se o inverso: na vertical
representam-se as notas e na horizontal a Fa. Observe os grficos a e b:
a) Grfico de colunas Notas do teste de estatstica





b) Grfico de barras Notas do teste de estatstica






22

FREQUNCIA RELATIVA
Outro tipo de freqncia a freqncia relativa (fr
i
): o valor das
razes entre as freqncias simples (f
i
) e a freqncia total (freqncia
absoluta, Fa).
fr
i
=

f
i
/ Fa
Por exemplo
A freqncia relativa da terceira classe do exemplo anterior :
fr
i
= 49/ 340 = 0,14
Evidentemente, a soma de todos fr
i
s deve ser igual a 1 ou 100 %.
FREQUNCIA ACUMULADA
Tem-se ainda a freqncia acumulada (F
i
): o total das freqncias de
todos os valores inferiores ao limite superior do intervalo de uma dada classe:
F
k
= f
1
+ f
2
+ ... + f
k
ou F
k
= f
i
(i = 1, 2, ..., k)

Por exemplo
Usando os dados da tabela 3, a freqncia acumulada das classes da
tabela 5, abaixo, :
Tabela 5: Freqncia acumulada (F
k
) da renda mensal da populao da cidade
de Castanhal.
(Salrios mnimos) n
i
= Fa F
k

0 2 174 174
2 4 82 174 + 82 = 256
4 6 49 256 + 49 = 305
6 8 33 305 + = 338
8 10 2 338 + 2 = 340
Total 340


23

FREQUNCIA ACUMULADA RELATIVA
E por fim, tem-se a freqncia acumulada relativa (Fr
i
): de uma classe
a freqncia acumulada da classe, dividida pela freqncia total da
distribuio:
Fr
i
= F
i
/ Fa
Por exemplo
A freqncia acumulada relativa da quarta classe da tabela 4 :
Fr
i
= 33/ 340 = 0,097
HISTOGRAMA
Um outro exemplo representando a distribuio de freqncia num
histograma. Em uma escola onde 500 alunos da classe A 2000 participam da
disciplina de Estatstica Bsica. Num teste de mltipla escolha contendo 100
questes que visava verificar a aprendizagem destes na referida disciplina,
obteve-se a seguinte freqncia de notas (correspondente quantidade de
acertos).
Tabela 6: Classe A-2000 com 500 alunos participantes da disciplina Estatstica
Bsica.

Intervalo de Classe Frequncia
0 10 5
10 20 15
20 30 20
30 40 45
40 50 100
50 60 130
60 70 100
70 80 60
80 90 15
90 100 10
Total 500





24

Resposta
Para construo do histograma, desenhe o eixo cartesiano (x, y), onde
na abscissa sero representadas as classes, que neste caso tem uma
amplitude h igual a 10, e na ordenada, a freqncia dos dados. A rea de cada
retngulo do grfico representa a freqncia de cada nota.







POLGONO DE FREQNCIAS
Na construo de um polgono de freqncias primeiramente constri-se
um histograma; depois marcamos no telhado de cada coluna o ponto central
(ponto mdio) e unimos sequencialmente estes pontos. Devem existir dois
pontos na abscissa (eixo horizontal), um na lateral esquerda e outro na lateral
direita, ligado aos pontos das barras das extremidades.
Por exemplo
Represente em um polgono de freqncia os dados da tabela abaixo
referente ao tempo em minutos que uma amostra de 550 pessoas levou para
realizar uma prova de estatstica.





25

Tabela 7: Tempo em minutos gasto por 550 pessoas para realizar uma prova
de Estatstica.
Classes
(minutos)
Fa
2 4 70
4 6 160
6 8 210
8 10 80
10 12 20
Total 550

Polgono de freqncia do teste de Estatstica














26

Mdulo 1 Unidade 5: Medidas de Tendncia Central

Como o prprio nome sugere, medidas de tendncia central so
medidas, Isto , estatsticas, cujos valores esto prximos do centro.
MDIA ARITMTICA
A mdia aritmtica (Ma) de um conjunto de dados ou valores igual
razo da soma de todos estes valores pela quantidade de valores, isto , o
nmero de parcelas.
Ma = x
i
/ n
Onde n refere-se a quantidade de elementos presente na amostra, mas
se o objeto de estudo sobre uma populao, o denominador passa a ser
representado por N, tendo ,ento a chamada mdia populacional ().
= x
i
/ N
Por exemplo
A tabela 1 revela a produo mundial de caf no perodo de 1946-89.
Onde o Brasil aparece como grande lder na produo do gro. Qual dentre os
quatro anos estudos, em mdia, a produo de caf mundial foi mais prspera
em relao quantidade de gros produzidos?
Dado: Indonsia, Costa do Marfim e Etipia tiveram produes pouco
significativas no ano de 1946.






27

Tabela 1: Poduo mundial de caf no perodo de 1946-1989.
Pases
produtores
Produo (1.000 t)
1946 1955 1968 1989
Brasil 917 1.370 1.398 1.510
Colmbia 365 335 474 664
Indonsia __ 63 150 390
Mxico 57 88 180 312
Costa do
Marfim
__ 85 258 265
Guatemala 70 66 108 220
Etipia __ 54 250 200
Uganda 26 63 170 188
El Salvador 62 75 138 97
Fonte: Imagens conomiques du Monde, 1977 e 1990.
Resposta
a) Para o ano de 1946
Ma = 917 + 365 + 0 + 57 + 0 + 70 + 0 + 26 + 62/ 5 = 163,33. 1000 t = 163330 t
b) Para o ano de 1955
Ma= 1370 + 335 + 63 + 88 + 85 + 66 + 54 + 63 + 75/ 9 = 244,33. 1000t =
244330 t
c) Para o ano de 1968
Ma = 1398 + 474 + 150 + 180 + 258 + 108 + 250 + 170 + 138 / 9= 347,33. 1000
t = 347330 t
d) Para o ano de 1989
Ma = 1510 + 664 + 390 + 312 + 265 + 220 + 200 + 188 + 97 / 9 = 427,33. 1000
t = 427330t.


28

Pelas mdias das produes mundiais de caf nos quatro anos estudos,
1989 foi o ano mais prspero.

MDIA PONDERADA
Ao calcularmos uma mdia, podemos cometer srio engano, se
ignorarmos o fato de que as grandezas em jogo no tm todas a mesma
importncia em relao ao fenmeno que est sendo estudado.
Consideremos, por exemplo, os seguintes dados sobre a percentagem de
casas de residncia ocupadas pelos proprietrios respectivos, nas vizinhanas
de trs cidades da Califrnia.
Tabela 2: Percentagem de casas de residncia ocupadas por proprietrios em
trs cidades do Estado do Par .
Porcentagem ocupada pelo proprietrio
Santarm 40,3
Salva-Terra 56,4
Castanhal 62,1
A mdia entre essa trs percentagens :
Ma = 40,3 + 56,4 + 62,1 / 3 = 52,9
Mas no podemos afirmar que essa seja a ocupao mdia de casa
pelos seus proprietrios nas trs cidades. As trs cifras no tm todas o
mesmo peso, porque h grandes diferenas entre os tamanhos das trs
cidades.
Para dar a quantidades sujeitas ao processo de mdia o gro correto de
importncia, preciso atribuir-lhe pesos (importncia relativa) e ento calcular
uma mdia ponderada. De modo geral, a mdia ponderada Ma
w
de um
conjunto de nmeros x
1
, x
2
,..., x
n
, cuja importncia relativa expressa


29

numericamente por um conjunto correspondente de nmeros w
1
, w
2
,...,w
n
,
dada por :
Ma
w
= w.x/ w
Aqui, w.x a soma dos produtos de x pelo peso correspondente, e w
simplesmente a soma dos pesos. Note que quando os pesos so todos
iguais, a frmula da mdia ponderada se reduz a mdia aritmtica usual.
Por exemplo
Considerando que, nos bairros selecionados de Santarm, h 1135
unidades residenciais, 113 em Salva-Terra e 210 em Castanhal, utilize essa
cifras e as percentagens do texto acima para determinar a taxa de ocupao
pelos proprietrios nas trs cidades.
Resposta
Fazendo x
1
= 40,3, x
2
= 56,4, x
3
= 62,1, w
1
= 1135, w
2
= 113, w
3
=210 na
frmula de Ma
w
, obtemos
Ma
w
= (1135)(40,3) + (113)(56,4) + (210)(62,1) /(1135 + 113 + 210) =
44,7
Note que o valor obtido para Ma
w
muito menor que Ma, 44,7
comparado com 52,9, e isto devido exclusivamente ao grande tamanho de
Santarm e sua baixa taxa de ocupao pelos proprietrios.

A MEDIANA (M
d
)
Para evitar a possibilidade de sermos enganados por valores muito
pequenos ou muito grandes, ocasionalmente descrevemos o meio ou o
centro de um conjunto de dados com outras medidas estatsticas que no a
mdia. Uma dessas medidas, a mediana de n valores, exige que os
ordenemos, e se defina como:


30

O valor do elemento do meio se n impar, ou a mdia dos dois
elementos do meio se n par.
Por exemplo
Em um ms recente, o Departamento de Caa e Pesca de um estado
reportou 53, 31, 67, 53 e 36 violaes em atividades de caa e pesca em cinco
regies diferentes. Ache a mediana do nmero de violaes para esses meses.
Resposta
A mediana no 67, o valor do meio, porque primeiro devemos ordenar
as cifras de acordo com o valor (da menor para o maior). Obtemos, ento: 31,
36, 53, 53 e 67; pode-se ver que a mediana 53.
Note neste exemplo que h dois 53s entre os dados, e que no nos
referimos especificamente a nenhum deles como a mediana a mediana um
nmero e no necessariamente uma medida ou observao.

POSIO MEDIANA
A mediana o valor do [(n + 1)/ 2]-simo elemento.
Quando n impar, [(n + 1)/ 2] um nmero inteiro e d a posio da mediana;
quando n par, [(n + 1)/ 2] est a meio caminho entre os dois inteiros e a
mediana a mdia dos valores dos elementos correspondentes.
Por exemplo
Determine a posio para (a) n = 15 e (b) n = 48.
Resposta
Com os dados ordenados (e contando a partir de qualquer extremidade)
a) [(n + 1)/ 2] = [(15 + 1)/ 2] = 8, e a mediana o valor do 8 elemento;


31

b) [(n + 1)/ 2] = [(48 + 1)/ 2] = 24,5, e assim a mediana a mdia dos
valores dos 24 e 25 elementos.
importante ter em mente que [(n + 1)/ 2] uma frmula da posio da
mediana, e no a mediana em si.

CLCULO DA MEDIANA DE UMA DISTRIBUIO COM DADOS
AGRUPADOS
Quando queremos calcular a mediana de uma distribuio com dados
agrupados, precisamos juntar ao quadro de distribuio de freqncias a
coluna referente s freqncias acumuladas.
Por exemplo
A tabela 3 representa a distribuio das alturas de 200 jovens com
idades entre 15 e 20 anos.
Tabela 3: Distribuio das alturas de 200 jovens com idades entre 15 e 20
anos.
Altura em
cm
Fa Fa acum.
160 165 8 8
165 170 15 8 + 15 =23
170 175 10 23 + 10 = 33
175 180 40 33 + 40 = 73
180 185 90 73 + 90 = 163
185 190 20 163 + 20 = 183
190 195 15 183 + 15 = 198
195 200 2 198 + 2 = 200




32

Resposta
Considerando a definio de mediana, podemos dizer que ela se
encontra na classe que contm o elemento 200/2 = 100; observando a coluna
de freqncias absolutas acumuladas, esse elemento se encontra na classe
correspondente a 180 185.
Esta classe chamada classe mediana.
Quando, alm de identificar a classe mediana, queremos determinar o
valor da mediana, devemos fazer uma interpolao:
163 73 = 90 ----------- 185 180 = 5
100 73 = 27 ----------- X
Isso nos eva a seguinte regra de trs simples e direta:
90 ---- 5
27 ---- X
X = (27 . 5)/ 90 = 135/ 90 = 1,5
O valor da mediana obtido da seguinte maneira:
M
d
= 180 + 1,5 = 181,5 cm
Desse resultado podemos dizer que 50 % dos jovens tm altura menor
que 181,5.
MODA
Outra medida por vezes utilizada para descrever o meio ou centro de
um conjunto de dados a moda, definida simplesmente como o valor que
ocorre com maior freqncia e mais de uma vez. Suas duas vantagens
principais so: no exige clculo, apenas uma contagem, e pode ser
determinada tambm para dados qualitativos ou nominais.


33

Por exemplo
Uma amostra de registro de uma inspetoria de veculos revela que 18
motoristas em certa faixa etria receberam 3, 2, 0, 0, 2, 3, 3, 1, 0, 1, 0, 3, 4, 0,
3, 2, 3 e 0 notificaes por infrao durante os trs ltimos anos. Determine a
moda.
Resposta
V-se que o nmero 4 ocorre uma vez, o nmero 1, duas vezes, o
nmero 2, trs vezes e os nmeros 0 e 3 ocorrem seis vezes cada um. H
ento duas modas, 0 e 3.
Tabela 4: Comparao entre Mdia, Mediana e moda.

Medida


Definio

Vantagens

Desvantagens

Mdia

Centro da
distribuio de
freqncias.
1. reflete cada valor;
2. possui propriedades
matemticas
atraentes.
1. afetada por valores
extremos.


Mediana
Metade dos
valores so
maiores, metade
menores.
1. menos sensvel a
valores extremos do que
a mdia
1. difcil de determinar para
grande quantidade de dados.
Moda

Valor mais
frequente

1. valor tpico: maior
quantidade de valores
concentrados neste
ponto.
1. no se presta a anlise
matemtica;
2. Pode no ter moda para
certos conjuntos de dados.


PERCENTIL
O percentil de ordem px100 (0<p<1), em um conjunto de dados de
tamanho n, o valor da varivel que ocupa a posio px(n+1) do conjunto de
dados ordenados. O percentil de ordem p (ou p-quantil) deixa px100% das
observaes abaixo dele na amostra ordenada.


34


Casos Particulares:
Percentil 50 = mediana, segundo quartil(md,Q2,q(0,5))
Percentil 25= primeiro quartil (Q1), q(0,25)
Percentil 75= terceiro quartil (Q3) , q(0,75)

Exemplo 1
Dada a sequncia 0,9 1,0 1,7 2,9 3,1 5,3 5,5 12,2 12,9 14,0 33,6. E
sabendo que n = 11, encontre o M
d
, Q
1
e Q
3
.
Resposta: Md=5,3 ; Q
1
=1,7 ; Q
3
=12,9













35

Mdulo I Unidade 6: Medidas de Disperso
As medidas de disperso so de grande importncia na interpretao de
dados. Resumidamente elas medem o quanto uma determinada varivel se
afasta de uma outra varivel. Tais medidas podem dizer em quanto um
determinado dado se afasta se afasta da idealidade, por exemplo. A seguir
sero abordadas de maneira abrangente o que vem a ser cada uma dessas
medidas.

DESVIO PADRO
Para definir desvio padro, sem dvida a medida de variao mais til e
mais largamente utilizada, notemos que a disperso de um conjunto de dados
pequena se os dados esto concentrados em torno da mdia, e grande
se os dados esto muito afastados da mdia. Poderia, assim, parecer
razovel medir a variao de um conjunto de dados em termos do desvio dos
valores respectivos a contar a mdia. Se um conjunto de nmeros x
1
, x
2
,..., x
n
,
constituindo uma amostra, tem mdia Ma, as diferenas x
1
- Ma, x
2
- Ma,..., x
n
- Ma, so chamadas desvio a contar da mdia, o que sugere que podemos
tomar sua mdia como medida da variao da amostra. Infelizmente, no
podemos faz-lo. A menos que os xs sejam todos iguais, alguns desvios
serto positivos, outros sero negativos.

VARINCIA
O desvio mdio absoluto uma boa medida de disperso porque d a
distncia mdia de cada nmero em relao mdia. Todavia, para muitos
propsitos, mais conveniente elevar ao quadrado cada desvio e tomar a
mdia de todos esses quadrados. Essa grandeza chamada varincia. Esta
uma boa medida de disperso, mas tem uma desvantagem: difcil interpretar
o valor numrico da varincia.


36

Por exemplo
Uma varincia de 76,222 significa uma grande disperso ou uma
pequena disperso? Parte do problema se deve a questo das unidades: a
varincia medida em uma unidade que o quadrado da unidade de medida
x. Em geral, mais conveniente calcular a raiz quadrada da varincia,
chamada desvio padro.
Temos, ento, a frmula para o desvio padro.
a) Desvio padro amostral
s = ((x - Ma)
2
/ (n - 1)) para a amostra
b) Desvio padro populacional
= ((x - )
2
/ N) para a populao

E o quadrado do desvio padro nos revela a frmula para a varincia.
a) Varincia amostral
s
2
= ((x - Ma)
2
/ (n - 1)) para a amostra
b) Varincia populacional

2
= ((x - )
2
/ N) para a populao

Por exemplo
Em seis domingos consecutivos, um motorista de caminho - reboque
recebeu 9, 7, 11, 10, 13 e 7 chamadas de servio. Calcule s.
Resposta


37

Calculando inicialmente a mdia, obtemos:
Ma = 9 + 7 + 11 + 10 + 13 + 7/ 6 = 9,5
e o clculo de (x - Ma)
2
pode ser feito como na tabela 1:
Tabela 1: Distribuio das chamadas de servio recebidas por um motorista de
caminho reboque em seis domingos consecutivos.
x X - Ma (x - Ma)
2
9 - 0,5 0,25
7 - 2,5 6,25
11 1,5 2,25
10 0,5 0,25
13 3,5 12,25
7 -2,5 6,25
Total 0,0 27,50
Dividindo por (6 1) e tomando a raiz quadrada, vem:
s = ((x - Ma)
2
/ (n - 1))
s = (27,50/ (6 1)) = (5,5) 2,3
O resultado encontrado neste ultimo exemplo significa que os valores de
x (chamadas de servio) se afastam, desviam em 2,3 da mdia destes mesmos
valores.
Note, na tabela acima, que o total da coluna do meio zero; isto deve
ocorrer sempre, constituindo, assim, uma verificao dos clculos.

INTERVALO INTERQUARTIL (d)
a diferena entre o terceiro quartil e o primeiro quartil, ou seja,
d= Q3-Q1


38

Por exemplo
Dada a seguinte sequncia 15,5,3,8,10,2,7,11,12, encontre d.
Resposta:
Q
1
= (3 + 5)/2 = 4 e Q
3
= (11 + 12)/2 = 11,5
d = Q
3
- Q
1
= 11,5 - 4 = 7,5

COEFICIENTE DE VARIAO (CV) OU COEFICIENTE DE REGRESSO (R
2
)
a medida de disperso relativa que elimina o efeito da magnitude dos dados.
Exprime a variabilidade dos dados em relao a mdia e muito til para
comparar duas ou mais variveis.

Por exemplo
Na tabela abaixo esto dispostos a mdia e o desvio padro da altura e
do peso de alguns alunos do Curso de Qumica. E ainda seus respectivos
coeficientes de variao. Explique tais dados de acordo com sua variao em
relao a mdia e desvio padro dos mesmos.
Mdia
Desvio
padro
CV
Altura 1,143 m 0,063 m 5,5 %
Peso 50 Kg 6 Kg 12 %

Resposta: Com relao s mdias, os alunos so, aproximadamente,
duas vezes mais dispersos quanto ao peso do que quanto altura.

% 100 =
X
S
CV


39

OUTRA FORMA DE ANALISAR A DISPERO
Nesta parte mostraremos outra forma de avaliar a forma de distribuio
de freqncia de uma varivel ou amostra.
Exemplo 1
A tabela seguinte registra as amostras A e B. Analisar as distribuies
de freqncias das amostras aplicando somente as medidas estatsticas
conhecidas.
A 100 120 120 120 120 120 120 140 140 140 140 160 160 160
B 88,6 108,5 108,6 128,5 128,6 128,5 128,6 148,6 148,5 148,6 148,6 148,6 148,6 168,6
Verifique tambm as medidas estatsticas registradas na tabela seguinte:
A B
Ma 134,3 134,3
s 21,4 21,4
Md 130,0 138,6
Resposta
Verificamos pela segunda tabela que as amostras A e B tm medianas
diferentes, porm as mesmas medidas estatsticas Ma = 134,3 e s = 21,4.
Pelas medidas da mdia aritmtica (Ma) e do desvio padro (s),
aparentemente, se trata da mesma amostra; entretanto, essa igualdade no
sustentada pelas seguintes comparaes:
As medianas mostram que no se trata da mesma amostra;
Nas linhas da primeira tabela esto registrados os resultados: mnimo,
Q
1
, mediana, Q
3
e mximo. Perceba o leitor que as cinco medidas esto
registradas em ordem crescente dos valores ordenados.
Analisando os resultados temos:


40

Os intervalos das 2 amostra so iguais: 80 = 180 100 = 168,8
88,6.
A diferena dos quartis das duas amostras a mesma e igual a 20 =
Q
3
Q
1
. Em cada amostra este resultado indica que 50% dos valores
se distribuem entre dois quartis.
A mediana de cada amostra est situada no centro dos dois quartis.
A diferena entre Q
1
e o mnimo da amostra A 20, entanto que a da
amostra B 40.
A B
Mnimo 100 88,6
Q
1
120 128,5
Md 130,0 138,6
Q
3
140 148,6
Mximo 180 168,6
Os resultados acima ajudam a compreender o alcance do intervalo entre
quartis IEQ e as vantagens do diagrama boxplot que ser apresentado. O
primeiro quartil, a mediana e o terceiro quartil avaliam a forma da parte central
e a variabilidade da distribuio de freqncia da amostra. O IEQ o resultado
da diferena entre o terceiro quartil Q
3
e o primeiro quartil Q
1
:
IEQ = Q
3
- Q
1
As caractersticas do IEQ so:
uma medida resistente, pois no afetado pelos valores extremos da
distribuio.
uma medida simples, fcil de ser calculada e automatizada e mede a
distribuio da metade dos valores da amostra situados ao redor da
mediana. O IEQ no suficiente para avaliar a variabilidade de uma
amostra ou varivel, pois envolve apenas os valores centrais, deixando
de considerar os valores extremos que tambm so importantes.
parecido com o intervalo, entretanto, as trs medidas Q
1
, mediana e
Q
3
do mais informaes.


41

DADOS SUSPEITOS
So denominados dados suspeitos os valores extremos de uma amostra
completamente diferente da maioria; isto , valores mais do que extremos.
Como qualquer amostra pode conter dados suspeitos devemos estar
preparados para detect-los e analisar suas causas.
Se o valor suspeito for originado de um erro de registro, por exemplo, o
valor medido 135 foi registrado como 2135. Neste caso, o erro pode ser
corrigido e eliminada a caracterstica suspeita do valor amostrado.

QUE FAZER SE O VALOR SUSPEITO FOI CORRETAMENTE
AMOSTRADO E REGISTRADO?

Se a populao est sendo amostrada atravs de uma pesquisa de
pessoas de uma determinada populao, um valor suspeito poder ser
originado por uma pessoa que no pertence populao definida. O valor
suspeito tambm poder ser evidencia de um acontecimento extraordinrio ou
a variabilidade no esperada de uma varivel. Em qualquer caso os valores
suspeitos sem causa aparente associada a populao devem ser retirados da
amostra.
Uma estratgia para tratar dados suspeitos e outras irregularidades
utilizar mtodos numricos que pouco so afetados pelos valores suspeitos.
Uma das aplicaes do IEQ deteco de dados suspeitos de uma varivel.
Observe as condies abaixo:

O valor X de uma amostra considerado possvel suspeito se estiver
no intervalo
Q
1
3xIEQ < X < Q
1
1,5xIEQ
ou
Q
3
+ 1,5xIEQ < X < Q
3
+ 3xIEQ
O valor X de uma amostra considerado suspeito se
X < Q
1
3xIEQ
ou
X > Q
3
+ 1,5xIEQ



42

Observao: Embora o IEQ ajude a retirar um valor da amostra por
consider-lo suspeito essa deciso deve ser acompanhada de um criterioso
julgamento.

Por exemplo
Dada a seguinte sequncia 15,5,3,8,10,2,7,11,12, verifique se h
possveis suspeitos.

Resposta
Temos da sequncia acima que Q
1
= 4 e Q
3
= 11,5.
E o IEQ igual:
IEQ = Q
3
- Q
1
= 11,5 4
IEQ = 7,5
Ento os intervalos so:
Q
1
3xIEQ < X < Q
1
1,5xIEQ
4 3x7,5 < X < 4 1,5x7,5
-18,5 < X < -7,25

Concluso: No existe nenhum valor na sequncia de dados que seja
maior que -18,5 e menor que -7,25, logo no h valores possveis suspeitos.








43

Mdulo 1 Unidade 7: Boxplot

Boxplot

Ao utilizar apenas os valores extremos o intervalo no auxilia na
determinao da forma da distribuio de uma varivel ou amostra, informando
apenas sobre caudas da distribuio. Os trs resultados Q
1
, mediana, Q
3

mostram a forma de distribuio de cinqenta por cento dos valores de uma
varivel ou amostra. Agrupando os cinco resultados da distribuio: mnimo,
Q
1
, mediana,Q
3
e mximo conseguiremos obter mais informaes sobre a
forma da distribuio de freqncia de varivel.
O boxplot a forma grfica de se compor os cinco resultados mnimo,
Q
1
, mediana,Q
3
e mximo e obter informaes diretas sobre a da distribuio
de freqncia da varivel. Resumidamente, representa os dados atravs de um
retngulo construdo com os quartis e fornece informao sobre valores
extremos. (veja o esquema embaixo):


















Exemplo 1


Com a finalidade de aumentar o peso (em Kg) um regime alimentar foi
aplicado em 12 pessoas. Os resultados (ordenados) foram:
-0,7 2,5 3,0 3,6 4,6 5,3 5,9 6,0 6,2 6,3 7,8 11,2.



44

1 passo
Calculando as medidas temos:
Mediana (Md ou Q2) = 5,6kg
1.quartil (Q1) = 3,3kg
3.quartil (Q3) = 6,25kg

2 passo
d=intervalo interquartil = Q3-Q1 =2,95kg
Logo as linhas auxiliares correspondem aos pontos:
Q1-1,5d = -1,25kg
Q3+1,5d = 10,675kg

3 passo
Construo do grfico.

























45

Mdulo I Unidade 8: Anlise de Correlao - Regresso Linear Simples


Um problema frequente em estatstica consiste em investigar questes
como estas: h alguma relao entre duas grandezas? As variaes em uma
das grandezas acarretam variaes na outra grandeza? O termo correlao
significa relao em dois sentidos (co + relao) e usado para designar a
fora mantm unidos os valores dois conjuntos de valores.


ANLISE DE CORRELEO
Para entendermos melhor a anlise de regresso usaremos o seguinte
exemplo.

Por exemplo
O fenmeno da bioacumulao em peixes verificado quando a
concentrao do metal a ser analisado cresce proporcionalmente com a massa
do peixe. Anlises realizadas pelo Laboratrio de Qumica Analtica e
Ambiental da UFPA forneceram dados da concentrao de Al (Alumnio) em
peixes da espcie Cichla spp. (Tucunar), mostradas na tabela abaixo e a
massa de peixes grandes aps a biometria.
Admitamos que as respostas obtidas tenham sido:

Amostras de Tucunar A B C D E
Massa da amostra (g): X
i
5 8 10 12 15 50
[Al] (mg/Kg): Y
i
10 30 45 50 75 210
1 passo
Calcule X (varivel independente, que permite prever) e Y (varivel
dependente, que a resposta ou o predito) da seguinte maneira:
X
M
= X
i
/ n sendo n = quantidade de amostras
X
M
= 50 anos / 5 = 10 g de Tucunar

Y
M
= Y
i
/ n


46

Y
M
= 210 anos / 5 = 42 mg/Kg de Alumnio

X
i
representa a massa de cada amostra de Tucunar.
Por exemplo: O sujeito C Xi=3 = X3 = 10 g

Yi representa a massa de Alumnio bioacumulados nas amostra de Tucunar.
Por exemplo: O Sujeito C Yi=3 = Y3 = 45 livros

X
M
e Y
M
so na verdade mdias dos sujeitos estudados. E observando
os valores de X e Y acima, verificamos que para cada 10 g (em mdia) de
Tucunar, a amostra de peixe correspondente possui 42 mg/Kg de Al
bioacumulados (tambm em mdia).
A mdia aritmtica (Ma) sozinha insuficiente para explicar bem a fora que
mantm unidas as variveis X e Y. Por isso, usa-se uma estatstica
desenvolvida por Person chamada coeficiente de correlao linear (r
xy
).

2 passo
Para o clculo de r
xy
necessrio primeiro encontrar o valor das
seguintes quantidades:
X
i
Y
i
, X
i
, Y
i
, X
i
2
, Y
i
2
. Vamos a tabela e calculemos essas
quantidades:
Sujeito Massa (g) Al (mg/Kg) X
i
Y
i
X
i
2
Y
i
2

A 5 10 50 25 100
B 8 30 240 64 900
C 10 45 450 100 2025
D 12 50 600 144 2500
E 15 75 1125 225 5625
50 210 2465 558 11150

3 passo
Clculo de r
xy
feito atravs da frmula:

[ ][ ]


=
2 2 2 2
) ( ) (
) ( ) (
i i i i
i i i i
xy
Y Y n X X n
Y X Y X n
r


47


Onde n corresponde ao nmero de pares de informaes. Neste
exemplo, n = 5. Ento:



















4 passo
Interpretao do r
xy.
Quanto mais prximo de 1 maior a correlao positiva.
Quanto mais prximo de - 1 maior ser a correlao negativa.
Os valores de + 1 e 1 significam respectivamente, correlao perfeita
positiva e correlao perfeita negativa.
r = +1 correlao positiva (as duas variveis aumentam no mesmo
sentido)
r = 0 ausncia de correlao (valores muito dispersos)
r = -1 correlao negativa (uma varivel aumenta e a outra diminui)
0,6 r 1 correlao forte significativa
0,3 r 0,6 correlao fraca
0 r 0,3 correlao muito fraca




( ) ( ) [ ] ( ) ( ) [ ]
=

=
2 2
210 11150 5 50 558 5
) 210 )( 50 ( ) 2465 ( 5
xy
r
=

=
) 44100 55750 )( 2500 2790 (
10500 12325
xy
r
99 , 0 =
xy
r


48


TIPOS DE DIAGRAMAS










Relao Linear direta Relao Linear Indireta
r
xy
> 0 r
xy
< 0











Relao curvilnea direta No h correlao
r
xy
= 0

Outros exemplos

Exemplo 1
X
i
Y
i
0 0
1 2
2 4
3 6
4 8
1 passo
Calcular X
i
Y
i
, X
i
, Y
i
, X
i
2
, Y
i
2
.


X
i
Y
i
X
i
2
Y
i
2
X
i
Y
i

0 0 0 0 0
1 2 1 4 2
2 4 4 16 8
3 6 9 36 18
4 8 16 64 32
10 20 30 120 60


49

2 passo
Calcular r
xy


















3 passo
Interpretao do resultado.
Foi encontrado um r
xy
igual a 1, isto , a correlao entre os dados
perfeita.


Exemplo 2

X
i
Y
i
4 5
3 3
5 5
5 4
4 4
3 6
2 5
3 6
2 5
4 2

1 passo
Calcular X
i
Y
i
, X
i
, Y
i
, X
i
2
, Y
i
2
.
X
i
Y
i
X
i
2
Y
i
2
X
i
Y
i

4 5 4 25 10
3 3 4 25 10
5 5 9 9 9
( ) ( ) ( ) ( )
=
(

=
2
20 120 5
2
10 30 5
) 20 )( 10 ( ) 60 ( 5
xy
r
1 =
xy
r
[ ][ ]

=
2
) (
2
.
2
) (
2
) ( ) (
i
Y
i
Y n
i
X
i
X n
i
Y
i
X
i
Y
i
X n
xy
r


50

5 4 9 36 18
4 4 9 36 18
3 6 16 25 20
2 5 16 16 16
3 6 16 4 8
2 5 25 25 25
4 2 25 16 20
35 45 133 217 154



2 passo
Calcular r
xy

















Interpretao do resultado: Foi encontrado um r
xy
de,
aproximadamente, -0,28, isto , a correlao entre os dados fraca.

SIGNIFICNCIA DE r
xy

Voltemos ao exemplo inicial onde X
i
= massa (g) de Tucunar e Y
i
=
quantidade de Alumino (mg/Kg) bioacumulados.
Vamos imaginar que a populao de peixes de onde a amostra foi tirada
fosse tal que a sua representao grfica desse o seguinte diagrama de
dispero:



=

=
2 2
) 45 ( ) 217 ( 12 [ ) 35 ( 1330 ( 10 [
) 45 )( 35 ( ) 154 ( 10
xy
r
28 , 0
xy
r
[ ][ ]

=
2
) (
2
.
2
) (
2
) ( ) (
i
Y
i
Y n
i
X
i
X n
i
Y
i
X
i
Y
i
X n
xy
r


51

Mas, como os 5 sujeitos foram sorteados, os valores assim obtidos
poderiam, por puro acaso, estar simulando uma disposio retilnea, quando,
na verdade, essa configurao sequer existisse. O diagrama de disperso
seguinte mostra isso:









Os pontos da amostra lembram uma reta, mas os pontos da
populao tm uma disposio circular. Como saber se a correlao, na
populao, diferente de zero? Vimos no grfico acima que r
xy
diferente de
zero (no caso especfico r
xy
> 0) no garantia de que o mesmo ocorra na
populao da qual se extraiu a amostra.
O nosso problema poderia se assim colocado: j que na amostra r
xy
diferente
de zero, ser que na populao (indicada pela letra grega r:
xy
) a correlao
tambm diferente de zero?
Ento:
Se r
xy
0, ento:
Ho:
xy
= 0
Ha:
xy
0 sendo, = 5%
Para resolver este problema, vamos usar seguinte estatstica t de Student
com (n- 2) graus de liberdade:






Onde:
t
o
= t observado(calculado);
r
xy
= coeficiente de correlao linear (Pearson) obtido;
(n-2) = nmero de graus de liberdade.

2
0
) ( 1
2
xy
xy
r
n r
t

=


52

1 passo

Para o exemplo da quantidade de Alumnio bioacumulado no Tucunar t
o
:





2 passo

O valor de t
o
deve ser comparado com o valor de t tabelado, chamado t
crtico (t
c
). E dessa comparao resultam as seguintes concluses
(mutuamente excludentes). Mas para isso devemos encontra o nmero de
graus de liberdade (GLIB).Observe o extrato da tabela de t
c
abaixo:
Graus de
liberdade (GLIB)

5% 1%
3 3,182 5,847
4 2,776 4,604

8 3,355

10 3,169

20 2,845

Para o nosso exemplo, n = 5, portanto o GLIB :
GLIB = n 2 = 5 2 = 3 graus de liberdade
Ento, o t
c ,
para o nosso exemplo com 3 graus de liberdade, igual a
3,182.

3 passo
Temos, ento: (t
o
= 12,1382) > (t
c
= 3,182)

Possibilidades para anlise da significncia da amostra:
I- Se to > tc Rejeita a Ho ( e aceita Ha)
II- Se tc > to No rejeita a Ho (mas rejeita Ha)
1382 , 12
) 99 , 0 ( 1
2 5 99 , 0
) ( 1
2
2
2
0
=

=
xy
xy
r
n r
t


53

Pelas possibilidades de anlise de significncia, H
o
rejeitada, isto ,
com 95% de certeza, podemos concluir que a correlao na populao no
zero.

Para esclarecer melhor, vamos aplicar o t de Student ao exemplo 2
desta unidade.

1 passo
Temos t
o
para este exemplo igual a:











2 passo

Para o exemplo 2, n = 10, portanto o GLIB :
GLIB = n 2 = 10 2 = 8 graus de liberdade
Ento, o t
c ,
para o nosso exemplo com 8 graus de liberdade, igual a
2,306.



3 passo

Lembrando que: Ho:
xy
= 0 No existe correlao linear;

Ha:
xy
0 Existe correlao linear. ( = 5%)


Temos, ento: (t
o
= 0,825) < (t
c
= 2,306).
Logo, H
o
no rejeitada, isto , com 95% de certeza, podemos afirmar
que no existe correlao linear na populao. Ento:
xy
= 0.

825 , 0
0784 , 0 1
8 28 , 0
) 28 , 0 ( 1
2 10 28 , 0
) ( 1
2
2
0
2

=
=


=

= t
r
n r
t
xy
xy
o


54

COEFICIENTE DE DETERMINAO (CD) OU EXPLICAO (R
2
)




Ento, se r
xy
= 0,548






Isto significa que numa proporo de aproximadamente 30,03% das
variaes em Y podem ser explicadas pelas variaes em X.


RECOMENDAES IMPORTANTES

1. J que o clculo de r
xy
trabalhoso conveniente fazer o grfico antes
de comear qualquer clculo. Basta fazer um grfico xy unindo o ponto
X
i
com Y
i
, isto : se X
i
= 5 e Y
i
= 2, teremos o ponto (5,2) no grfico e
assim por diante. Se os pontos do grfico distriburem-se de tal forma
que lembrem uma reta, convm calcular r
xy
; se os pontos estivem
dispersos de modo no-linear, no convm clacular r
xy
.

2. O coeficiente de correlao linear de Pearson pode ser calculado por
uma frmula alternativa que :






REGRESSO LINEAR SIMPLES



A regresso, que traduz a lei segundo a qual as variveis caminham
juntas, expressa por meio de uma relao matemtica. a chamada
y x
i i
xy
S S n
y x
r

=
2 2
100 ) (r = R
xy
2 2
) 548 , 0 ( 100 = R
03 . 30
2
= R


55

equao de regresso. Resumidamente, a regresso linear simples a
expresso matemtica que expressa as varveis que se correlacionam.
Na verdade, correlao e regresso so conceitos logicamente inseparveis.
Uma no pode existir sem a outra. Ento, neste caso, fala-se em regresso
linear simples:
LINEAR: porque a disposio dos pontos permite interpolar-lhes uma
reta; e;
SIMPLES: porque s h 2 variveis envolvidas no processo.

De todas as retas possveis para uma nuvem de dados, somente a que
apresente melhor ajustamento a todos os pontos que deve ser escolhida.

A escolha dessa reta obedece a um critrio chamado mtodo dos
mnimos quadrados calculado pelas seguintes equaes:











Onde:
S
x
= desvio padro de X
S
y
= desvio padro de Y
^ = indica que se trata de uma valor terico prximo da
realidade.

As equaes acima so chamadas de equaes normais de
regresso. A primeira delas (X - chapu) chama-se equao normal de
regresso dos X sobre os Y e permite calcular um X desconhecido a partir de
um Y conhecido. A segunda equao (Y - chapu) equao normal de
regresso dos Y sobre os X e permite calcular um Y desconhecido a partir de
um X conhecido.
) (
) (
_
2
_
2
^
2
1 1
^
1
X K Y X K Y K
S
S
r
Y K X Y K X K
S
S
r
i i
x
y
xy
i
i
y
x
xy
+ = =
|
|

\
|
=
+ = =
|
|

\
|
=



56

Para entender melhor como utilizar essas equaes retornemos ao
exemplo onde X = massa (g) de Tucunar e Y = massa (mg/Kg)de Al
bioacumulados, e mostrar como se faz para interpolar aos pontos amostrais
uma reta.

1 passo
Sabendo que:
S
x
= 3,4 X
M
= 10 g
S
y
= 21,6 Y
M
= 42 mg/Kg
r
xy
= 0,99

Calcule K
1
e substitua os valores de K
1
, X
M
, Y
M
na equao normal de
regresso dos X sobre os Y para encontra a equao de X chapu.















2 passo
Calcule K
2
e substitua os valores de K
2
, X
M
, Y
M
na equao normal de
regresso dos Y sobre os X para encontra a equao de Y chapu.







28 , 3 16 , 0
)] 42 )( 16 , 0 ( 10 [ 16 , 0
16 , 0
6 , 21
4 , 3
99 , 0
^
^
1
+ =
+ =
|

\
|
=
=
|
|

\
|
=
i
i
i
i
y
x
xy
Y X
Y X
S
S
r K
9 , 20 29 , 6
)] 10 )( 29 , 6 ( 42 [ 29 , 6
29 , 6
4 , 3
6 , 21
99 , 0
^
^
2
=
+ =
|

\
|
=
|
|

\
|
=
i
i
i
i
x
y
xy
X Y
X Y
S
S
r K


57

3 passo
Vamos supor agora que tivssemos perdido a notao do valor de X
2

(recorra tabela no incio desta unidade). Como recuper-lo a partir de seu
parceiro Y
2
= 30?
Resposta: Basta substitui o valor 30 (Y
2
) em Y
i
na frmula de X
chapu que encontramos no 1 passo. Se voc realizar os clculos encontrar
um valor de X chapu aproximadamente igual a 8,08. Observe que o valor
no 10. Isso acontece porque X chapu produz apenas uma estimativa
razovel que leva em conta o conjunto de dados da tabela.

4 passo
Sabemos que por 2 pontos passa uma e uma s reta. Ento, se
quisermos saber qual a reta de X que apresenta o melhor ajuste a todos os
pontos, basta calcular dois valores extremos, por exemplo: X chapu para Y
1

= 10 e X chapu para Y
5
= 75.
Fazendo os clculos temos que X chapu = 4,88 e Y chapu = 15,28. Tais
valores nos levam ao seguinte diagrama:

5 passo
O mesmo raciocnio vale para a equao de Y chapu.

OBSERVAO: As figuras ilustradas na unidade 7 foram adaptadas de: COSTA, S. F. Introduo Ilustrada
Estatstica. 3 Ed. So Paulo: Ed. HARBRA LTDA, 1998. p.



58

Mdulo I Unidade 9: Anlise Hierrquica de Agrupamentos

A anlise hierrquica de agrupamentos tem por objetivo agrupar dados
em clusters com atributos semelhantes. Os resultados aparecem em formas
de dendogramas onde podem visualizar as correlaes as amostras ou
variveis. O importante aqui a distncia entre as amostras: amostras
prximas (distncias pequenas) so aproximadamente semelhantes.
Para a Qumica este tipo de anlise auxilia na interpretao dados
experimentais ou tericos. Por exemplo, se temos um grupo de dados que
correspondem s concentraes de Ferro (Fe), coletados do solo de diferentes
bairros de Belm. A anlise hierrquica de agrupamentos recurso que
poderia dizer o quanto estes bairros esto prximos ou distantes em relao a
quantidade de Ferro presente nos solos de cada uma ou se possvel
distinguir uma localidade da outra analisando a concentrao de Fe em seus
respectivos solos.
No decorrer desta unidade sero descritos alguns exemplos para melhor
ilustrao

FUNDAMENTOS MATEMTICOS MEDIDAS DE DISTNCIA

Nesta fase da anlise, as distncias entre as amostras e variveis so
calculadas e comparadas.
d
ab
distncia entre a e b.

Tais distncias podem ser calculadas pela frmula:













59



AGRUPAMENTO

Distncia entre o cluster A B que acaba de ser formado e outro C j
formado.

1. CONEXO SIMPLES:


2. CONEXO COMPLETA


3. CONEXO POR MEIO DE MEDIANA




Depois de se obter o valor das distncias faz-se o clculo da
similaridade pela seguinte equao:





Exemplo 1

Em 2007, um grupo de qumicos da UFPA resolveu analisar as
concentraes, em ppb (partes por bilho), de 4 elementos (Cl, Ca, Mg e Na)
presentes em guas salobras de dois diferentes bairros da cidade. Para cada
bairro, coletou-se 4 amostras de gua em diferentes pontos. Considere a tabela
abaixo e verifique, atravs da anlise de agrupamento, se possvel distinguir
as localidades com base nos valores de concentraes dos elementos.



60

N
amostra
Amostras Cl Ca Mg Na
Bairro Terra firme
1 TF 01 2067,1 315,9 73,7 1857,7
2 TF 02 2074,9 311,7 73,9 1754,7
Bairro Nazar
3 NZ 01 2134,7 292,7 70,3 1504,7
4 NZ 02 2163,8 295,6 70,1 1499,9

1 passo
Calcule as distncias da seguinte forma:

d
12
= (2074,9 - 2067,1)
2
+ (311,7 315,9)
2
+ (73,9 73,7)
2
+ (1754,7 + 1857,7)
2
=
103,38
d
13
= (2134,7 2067.1)
2
+ (292,7 315,9)
2
+ (70,3 73,7)
2
+ (1504,7 + 1857,7)
2
=
360,18
d
14
= (2163,8 2067.1)
2
+ (295,6 315,9)
2
+ (70,1 73,7)
2
+ (1499,9+ 1857,7)
2
=
371,21

d
23
= (2134,7 2074,9)
2
+ (292,7 311,7)
2
+ (70,3 73,9)
2
+ (1504,7 + 1754,7)
2
=
257,78
d
24
= (2163,8 2074,9)
2
+ (295,6 311,7)
2
+ (70,1 73,9)
2
+ (1499,9 + 1754,7)
2
=
270,37

d
34
= (2163,8 2134,7)
2
+ (295,6 292,7)
2
+ (70,1 70,3)
2
+ (1499,9 + 1504,7)
2
=
29,64

Se voc realizar os clculos ver que os valores de d
11
, d
22
, d
33
, d
44
so
iguais zero.

2 passo
Organize os resultados das distncias encontradas em forma de uma matriz
de forma que d
12
estar na primeira linha e segunda coluna, d
24
estar na segunda
linha e quarta coluna, d
44
(igual a zero) estar na quanta linha e quarta coluna e
assim sucessivamente. Ento temos:


61

1 2 3 4
1 0 103,38 360,18 371,21
2 0 257,78 270,37
3 0 29,64
4 0

3 passo
Com um grupo j formado (grupo 3,4 = 29,64) que a menor distncia
da matriz, atravs de clculos verifica-se a existncia de outros grupos que
podero ainda ser encontrados ou ainda se a pontos similares ao 1 j
formado.

Clculo da distncia entre o grupo formado (3,4) e os demais (1 e 2).
Para elaborao do dendrograma utilizaremos conexo simples.



Ento:
d
1 3,4
= 0,5.d
13
+ 0,5.d
14
0,5 d
13
- d
14

d
1 3,4
= 0,5.360,18 + 0,5.371,21 - 0,5 360,18 371,21= 360,18

d
2 3,4
= 0,5.d
23
+ 0,5.d
24
0,5 d
23
d
24

d
2 3,4
= 0,5.257,78 + 0,5.270,37 0,5 257,78 270,37= 257,78

Agora com os novos valores de distncias, vamos construir uma
segunda matriz distncia:
1 2 3,4
1 0 103,38 360,18
2 0 257,78
3,4 0

4 passo:
Com outro grupo j formado (1 e 2), busca-se encontrar pontos similares
ou distintos.


62

Calcula-se a distncia entre os grupos formados e os que ainda podero
ser encontrados. E com isso efetua-se o clculo da distncia, usando agora os
pontos (3 e 4 com 1 e 2 j formados). Pela frmula de conexo simples temos:

d
1,2 3,4
= 0,5.d
13,4
+ 0,5.d
23,4
0,5 d
13,4
d
23,4

d
1,2 3,4
= 0,5.360,18 + 0,5.257,78 0,5360,18 257,78= 257,78

As distncias d
1,2 1,2
; d
3,4 3,4
so iguais a zero. Desta forma temos a
matriz:

1,2 3,4
1,2 0 257,78
3,4 0

5 passo:
Realizado os clculos das distncias para formao de grupos e a
similaridade entre esses grupos formados possvel um grfico para melhor
visualizar as informaes. Fazendo uso do programa MINITAB, utilizaram-se
grficos em Dendrograma.
Para construo do dendograma necessrio o clculo da
similaridade.



S
1,2
= 60%

S
3,4
= 88%

S
(1,2),(3,4)
= 0%

Utilizando o valor da distncia mxima padronizada temos que:
d
mx
= d
(1,2),(3,4)
= 257.78
A d
mx
no padronizada seria igual a 360,18.


63

6 passo
Anlise do dendograma obtido com os dados de distncia.
Dendrograma 1 - distncia























Dendrograma 2 obtido com os dados de similaridade.






















Terra Firme

Nazar


Nazar
Terra Firme


64

Concluses: possvel distinguir os bairros Terra Firme e Nazar com base
nas concentraes de Cl, Ca, Mg e Na. As duas localidades esto
notavelmente separadas dendogramas. As amostras 1 e 2 formam um grupo e
as amostras 3 e 4 tambm se agrupam, e, posteriormente esses dois grupos
so agrupados.













































65

EXERCCIOS DE APLICAO

Lista de Exerccios de Estatstica Descritiva

1- Calcular o coeficiente de variao de cada varivel, verificar a presena
de outlines e fazer a comparao entre a umidade e as cinzas das folhas
de jamb.
UMIDADE % CINZAS %
88,68 2,16
88,57 1,74
88,70 1,76
87,18 1,91
88,49 1,50
89,14 2,13

2- Na tabela abaixo so apresentados valores de peso fresco dos calos por
explante obtidos em cultura de tecidos in vitro de diferentes cultos de
trigo. Utilize os conhecimentos estatsticos e responda:
a) Qual a caracterstica apresentou maior variabilidade;
b) Compare os pesos obtidos dos embries maduros com imaturos e
verifique a presena de outlines.
Fw Imaturos Fw-Maturos
48,4 70,0
45,0 56,7
40,4 65,6
53,6 127,7
60,0 74,4
63,5 63,0
64,2 153,4
72,7 44,2
62,6 74,9
59,8 105,4
Mdia do peso fresco dos calos por explante (mg)


66

3- Na tabela abaixo apresentado os valores referentes as diferenas de
calos e regenerao de plantas entre cinco tipos de trigo de fontes de
embries maduros e imaturos. Compare usando medidas estatsticas
(mdias, mediana, desvio padro e coeficiente de variao) os valores
apresentados dos embries maduros e imaturos.
Embries Imaturos Maduros
A 38,1 51,5
B 34,3 50,7
C 52,5 82,0
D 30,0 58,9
E 60,3 56,7

4- Na tabela abaixo so apresentados valores de algumas propriedades
fsico-qumicas (pH, acidez livre, umidade e Hidroximetilfurfural-HMF)
determinadas em mis de abelha com ferro (Apis mellifera) e sem
ferro (Mellipona fasciculata). Atravs de medidas de tendncia central e
anlise de Box-plot, verificar qual (is) das propriedades estudadas
mais importante para separar abelhas com ferro de abelha sem ferro.

Amostras pH Acidez
livre
Umidade HMF Abelhas
1 3,57 69,95 10,63 16,7 Com ferro
2 3,84 18,52 18,14 10,36 Com ferro
3 3,84 19,52 16,26 10,75 Com ferro
4 4,20 23,00 20,00 8,10 Com ferro
5 3,54 33,47 22,80 21,93 Sem ferro
6 4,20 15,22 22,47 19,63 Sem ferro
7 3,85 52,56 27,37 18,27 Sem ferro
8 3,40 15,90 28,00 0,00 Sem ferro
SOUZA (2008)

5- Os resultados dos elementos qumicos Pb, Zn e Cd, em mg/Kg ,
analisados em amostras de peixes mdios e grandes, da Cichla spp.


67

(Tucunar), capturados na represa de Tucuru, no projeto desenvolvido
pelo laboratrio de Qumica Analtica e Ambiental da UFPA em parceria
com a ELETRONORTE, so encontrados na tabela abaixo:

Pb Zn Cd Tamanho do peixe
0,05 20,43 1,41 Mdio
0,09 20,19 1,31 Mdio
0,19 21,77 0,74 Mdio
0,05 23,36 0,83 Mdio
0,00 15,88 0,62 Grande
0,54 17,94 0,94 Grande
0,01 13,35 0,33 Grande
0,06 22,21 0,70 Grande

Mostrar atravs do Boxplot, qual(is) do(s) metal(is) separa(m) melhor os
peixes mdios e grandes.

6- Em um estudo realizado na Universidade Federal do Par (UFPa) foram
analisadas 6 sementes de cupuau e determinou-se a dimenso das
sementes (comprimento, largura e espessura). Calcule o coeficiente de
variao das variveis. Observar a presena de outlines e analisar as
variveis atravs do Boxplot.

Sementes Comp. (cm) Larg. (cm) Espes. (cm)
1 2,9 2,2 1,1
2 2,4 1,9 1,2
3 2,7 2,2 1,1
4 2,6 2,0 0,9
5 2,1 1,8 1,1
6 2,2 1,6 1,5





68

Exerccio de Regresso Linear

1- Nos laboratrios de Qumica da UFPA, so realizados vrios experimentos
de grande importncia, uma delas a determinao da curva de calibrao em
relao as concentraes de clcio. No quadro abaixo so mostrados as
concentraes de padres analticos de clcio, (em mg/l) e as absorvncias
desses padres, determinadas por espectrometria no UV-Visvel. Ajuste um
modelo linear a estes dados, calcule os valores de R
2
e t
0,
e diga se o modelo
significativo. Dado t
c
= 0,7914

Amostra Ca (mg/l) Absorvncia
A 0,6 0,043
B 0,7 0,079
C 1,00 0,133
D 1,6 0,142
E 0,78 0,081


2- Na tabela abaixo, so apresentados valores de concentraes de metais na
polpa do aa, de cinco regies diferentes. (Os metais so clcio e magnsio).
Ajuste um modelo linear a estes dados, calcule os valores de R
2
e t
0,
e diga se
o modelo significativo. Dado t
c
= 1,5472

Amostra Ca (mg/ml) Magnsio (mg/ml)
A 0,048 0,13
B 0,018 0,08
C 0,11 0,09
D 0,21 0,19
E 0,13 0,21

3- Na tabela abaixo so apresentados os dados obtidos da extrao do
leo/oleoresina de quatro amostras diferentes de gengibre, onde sofreram dois


69

tipos de tratamento: mtodos fsicos (R1) e de secagem ao calor do fogo (R2).
Calcule:
a) O coeficiente de correlao (r).
b) A significncia de r (teste t
0
).
c) Verificar se o modelo ajustvel (R
2
).
Nexperimental R1 R2
Gengibre inteiro no discascado. 4,7 4,9
Gengibre inteiro descascado. 4,5 4,6
Gengibre dividido no descascado. 5,8 6,1
Gengibre dividido descascado. 2,8 2,6

4- Fazer uma anlise de regresso entre a concentrao real Fe (mg/Kg) e a
concentrao real de Zn (mg/Kg) presente nas folhas do jamb. Saber se o
modelo ajustvel e se tem significncia. t
c
= 3,182

Conc. Real Fe (mg/Kg)-Xi Conc. Real Zn (mg/Kg)-Yi
146,61 62,79
191,88 64,81
111,84 87,74
177,81 74,08
303,43 74,71
309,31 49,64


5- Um procedimento importante num laboratrio a construo de curvas de
quantificao, isto , a determinao da concentrao de uma determinada
espcie, atravs de modelos construdos atravs dos dados obtidos
experimentalmente. Normalmente, essa relao determinada empregando-se
o ajuste por mnimos quadrados ou regresso linear. Considere a matriz obtida
num experimento visando concentrao de uma curva de quantificao para
determinao de taninos em resduo de aa. Na tabela abaixo so mostradas
as concentraes de cido tnico (mg/mL) e as absorvncias determinadas por


70

espectrofotometria de UV_vsivel. Ajuste um modelo linear a estes dados.
Calcule os valores de R
2
e t
o
. Sendo que o valor de tc=3,182.

cido tnico
(mg/mL)
Absorvncia
0,50 0,063
0,75 0,074
0,80 0,085
0,90 0,099
1,25 0,109
1,30 0,112

6- O fenmeno da bioacumulao em peixes verificado quando a
concentrao do metal a ser analisado cresce proporcionalmente com a massa
do peixe. Anlises realizadas pelo Laboratrio de Qumica Analtica e
Ambiental da UFPA forneceram dados da concentrao de Al em peixes da
espcie Cichla spp. (Tucunar), mostradas na tabela abaixo e a massa de
peixes grandes aps a biometria. Calcule os valores de R
2
e t
0.

Massa (g) [Al](mg/Kg)
2500 23,69
3500 75,38
2750 19,14
2000 13,81












71

Exerccio de Cluster

1) FARNHAM ET AL, (2000) obtiveram dados hidrogeoqumicos
proveniente de duas regies no Estado norte-americano de Nevada: amostras
1,2 e 3 onde o governo federal local efetuou exploses atmicas subterrneas;
outra adjacente, Osis Valley/ OV: amostras 4 e 5. No total so 5 anlises,
concentraes em ppb, para 7 elementos. Utilize a anlise de agrupamentos
(conexo simples e completa) e diga se possvel separao, distino,
dessas localidades com base nos valores de concentraes dos metais.

Li Ti V Cr Mn Ni Ge
1 9,3 1,11 1,30 2,42 1,15 1,12 1,32
2 10,3 1,27 1,96 2,67 1,09 1,18 1,26
3 10,4 1,24 1,07 5,67 1,09 1,18 1,27
4 16,6 1,07 1,67 2,80 1,34 2,20 1,55
5 17,9 1,04 1,16 2,37 1,49 2,39 2,36

2) Calcule as matrizes de distncias utilizando o mtodo e conexo simples
e monte os dendogramas de distncias e similaridades para as amostras.
Compare os resultados.

Amostra
s
Variedade
1
Variedade
2
Variedade
3
Variedade
4
Variedade
5
1 7 9 10 17 29
2 5 12 14 12 35
3 3 8 20 15 37
4 8 7 8 14 26
5 2 11 5 19 34


3) Os alunos de qumica da UFPA com o auxilio de seu professor analisaram
dois tipos de aguardente, um tipo armazenado em barris de vidro e o outro
armazenados em barris de carvalho. Foram analisados os seguintes


72

compostos, Acetaldeido e compostos Fenlicos. Com bases na tabela abaixo
compare as concentraes desses compostos atravs de Boxplots.
Barris de Carvalho
Concentrao
Tempo (meses) Compostos Fenlicos Acetaldeido
0 5,63 7,63
6 31,01 7,97
12 35,90 8,41
18 38,18 8,86
24 44,01 8,92

Barris de Vidro
Concentrao
Tempo (meses) Compostos Fenlicos Acetaldeido
0 5,63 7,63
6 3,70 8,00
12 3,09 8,13
18 3,30 8,12
24 3,45 8,14
















73

Mdulo I - Apndice 1: Grficos e Tabelas

GRFICOS E TABELAS

Fatos ou fenmenos da natureza podem se representados de vrias
formas e diferentes linguagens. E duas dessas linguagens so os grficos e
tabelas. As informaes tabeladas podem ser facilmente representadas atravs
de grficos ou vice-versa sendo que a funo de ambos expor de maneira
simples e resumida as informaes de determinado fato. Uma tabela tem a
vantagem de poder apresentar todos os dados mesmo que sejam diferentes
em seus valores. J um grfico tem a vantagem de tornar visvel no s os
dados, mas tambm o comportamento das grandezas ou dados envolvidos no
fato ou fenmeno a ser tratado.
Neste texto sero abordadas algumas regras simples para construo de
grficos e tabelas.

TABELAS
Passos para Construo de Tabelas

1. Uma tabela pode ser representada na forma horizontal ou vertical,
dependendo nmero de grandezas ou dados a serem representados;
2. Os nmeros devem vir preferencialmente na forma inteira, mas quando
estiverem na forma decimal pode-se usar notao cientfica;
3. Deve contar no espao superior da tabela um ttulo informando de forma
sucinta o esta representa;
4. O topo da tabela deve representar as grandezas por meio de smbolos
e entre parnteses a sua unidade;
5. Inclua totais de linhas e/ou colunas para facilitar as comparaes;
6. Ordene colunas e/ou linhas quando possvel. Se no houver
impedimentos, ordene-as segundo os valores, crescente ou
decrescentemente;
7. Tente trocar de orientao (linhas por colunas) para melhorar a
apresentao. mais fcil fazer comparaes ao longo das linhas do
que das colunas;


74

8. Altere a disposio e o espaamento das linhas e colunas para facilitar a
leitura. Inclua um maior espaamento a cada grupo de linhas e/ou
colunas em tabelas muito extensas.
9. No analise a tabela descrevendo-a, mas sim comentando as principais
tendncias sugeridas pelos dados.

Por exemplo:
Tabela 1: Concentrao Ferro (g/mL) presente em amostras do Rio
Tocantins em mL.
[Fe] (g/mL) Amostras (mL) %
2 30 25,00
10 40
33,33
18 50 41,67
Total 120 100

Interpretaes: Pela Tabela 1 podemos perceber que quanto maior a
amostra das guas do Rio Tocantins maior a concentrao de Ferro presente
nas mesmas.

Como fazer Tabelas Usando o Programa Word?

1. Abra o programa Word e na barra de ferramentas clic em
Tabela. Em seguida clic em Inserir e, por fim, em Tabela;

2. Determine o tamanho da tabela ou pea autoformatao e clic
em OK;


75


3. Finalmente sua tabela est pronta. Basta inserir os valores que
iro compor sua tabela;

4. Para aperfeioar sua tabela, pode-se format-la. Clic na barra
de ferramenta em Tabela e em seguida na opo Desenhar
tabela;

5. Utilize a caixa de ferramentas Tabelas e bordas para formatar
sua tabela.


76











GRFICOS

Os grficos no seguem somente um comportamento linear. Eles podem ter
comportamento exponencial, logaritmo, correlaciona. Isto depende das
varveis, grandezas e dados estudados. Sero descritos a seguir trs tipos de
grficos muito utilizados em estatstica (grficos de barra e coluna, grficos
de linhas e grficos de setores ou pizza).

Grficos de barras / colunas: usado para apresentar sries
cronolgicas, geogrficas e categricas.

Um grfico de barras ilustra comparaes entre itens individuais. As
categorias so organizadas verticalmente e os valores horizontalmente para
focalizar a comparao de valores e para dar menos nfase ao tempo.


77

adequado quando as variveis forem qualitativas ou quantitativas
discretas.

Vendas de Petrleo (em R$ milhares/ano)
0 50 100 150 200
Extremo Oriente
Amrica do Sul
Europa


Interpretaes do Grfico: As vendas de petrleo por ano no Extremo Oriente
ultrapassam as vendas na Europa e a Amrica do Sul teve uma quantidade
menor de vendas anual.

Um grfico de colunas exibe as alteraes dos dados em um perodo de
tempo ou ilustra comparaes entre itens. As categorias so organizadas
horizontalmente e os valores verticalmente para enfatizar a variao ao longo
do tempo.
Qtd. de Cloro em % amostras de guas
0
10
20
30
40
50
60
70
1 2 3 4
Amostras

Interpretaes do Grfico: o grfico revela que a amostra de gua 2
apresenta maior quantidade de cloro dissolvido com, aproximadamente, 58%.

Grficos de linhas: usada para apresentar sries cronolgicas.
Representa observaes feitas ao longo do tempo, em intervalos iguais ou no.
Mostra a tendncia dos dados no decorrer do tempo. No eixo vertical


78

descreve-se o valor observado para a varivel e no a freqncia. A varivel
deve ser quantitativa.
Qtd. de Cloro (%) em amostras de gua do Rio
Tocantins
0
10
20
30
40
50
60
70
1 2 3 4
Local de coleta
Amostra 1
Amostra 2
Amostra 3

Interpretaes do Grfico: No primeiro ponto de coleta as amostras 2 e 3
apresentaram uma quantidade de cloro aproximadamente igual, j a amostra 1
tinha uma quantidade de Cl levemente maior. No segundo ponto de coleta a
quantidade de cloro presente na amostra 3 caiu bruscamente. No ultimo ponto
de coleta, as amostras 1 e 3 apresentam % de Cl quase iguais. E a mostra 2,
no ponto de coleta 4, tem quantidade de cloro superior as demais amostras.

Grfico de setores (pizza): Um grfico de pizza mostra o tamanho
proporcional de itens que compem uma seqncia de dados soma dos
itens. Ele sempre mostra apenas uma seqncia de dados e til quando voc
deseja enfatizar um elemento importante.





79



Interpretaes do Grfico: As informaes contidas no grfico revelam
que formam vendidas mais unidades de sanduches, enquanto que as sopas
apresentaram menor nmero de unidades vendidas.

Passos para Construo de Grficos

1. Desenhar o plano cartesiano (X, Y) e associar aos eixos X e Y as
grandezas ou dados estudados;
2. Estabelecer um ttulo de fcil entendimento;
3. Nomear eixos.
4. Observar o comportamento do grfico para fazer as possveis
interpretaes.

Como Fazer Grficos Usando o Programa Excel?

1. Abra o programa Excel e em colunas diferentes e paralelas
insira os dados referentes aos eixos X e Y. D nomes aos
eixos;




80













Na primeira linha esto dispostos os parmetros fsico-qumicos
utilizados para avaliar a qualidade da gua de trs lagos distintos. E na
segunda linha, as suas unidades. A qualidade dos mesmos ser determinada
por comparao a padres pr estabelecidos, neste caso os padres
dispostos pelo Conselho Nacional do Meio Ambiente CONAMA. o rgo
consultivo e deliberativo do Sistema Nacional do Meio Ambiente-SISNAMA, foi
institudo pela Lei 6.938/81, que dispe sobre a Poltica Nacional do Meio
Ambiente, regulamentada pelo Decreto 99.274/90.*
13
Unidades dos parmetros
parmetros


*Fonte: Site do CONAMA: http://www.mma.gov.br/port/conama/estr.cfm


81

2. Selecione todos os dados que iro compor o grfico e na barra
de ferramentas, clic em Inserir e selecione o tipo de grfico
desejado, neste caso para melhor comparao dos dados ser
utilizado um grficos de barras;





3. Aps selecionar o grfico desejado clic nos eixos x e y e d
nome aos mesmos, ajuste a legenda e crie um ttulo para seu
grfico;




82

Para as interpretaes do grfico verifique quais parmetros esto de
acordo com o observado pelos dados pr estabelecidos, neste exemplo:
CONAMA. E atribua interpretaes as possveis variaes existentes entre os
dados coletados e os padronizados. Lembre-se ainda que os dados
representados em um grfico podem ter cunho comparativo, como foi
construdo acima, verificar o crescimento ou decaimento de uma determinada
varivel em relao a outra, sendo que esta variao pode ser linear,
exponencial, logaritmo, etc.




























83

RESPOSTAS DOS EXERXCIOS DE APLICAO

Estatstica Descritiva
1.

Umidade Cinzas
Mdia= 88,46 Mdia= 1,87
Desvio Padro= 0,67 Desvio Padro= 0,25
CV= 0,75 CV= 13,87
Q1(25%)=88,49 Q1(25%)=1,74
Q2(50%)= 88,63 Q2(50%)=1,84
Q3(75%)=88,70 Q3(75%)=2,13
d = Q3-Q1 = 0,21 d = Q3-Q1 = 0,39
Mx: Q3+1,5d= 89,015 Mx: Q3+1,5d=2,72
Mn: Q1- 1,5d = 88,18 Mn: Q1- 1,5d = 1,16

2.
Fw Imaturos Fw Maturos
Mdia= 57,02 Mdia= 83,53
Desvio Padro=9,97 Desvio Padro=34,42
CV= 17,48 CV= 41,20
Q1(25%)=48,4 Q1(25%)=63
Q2(50%)=59,90 Q2(50%)=72,2
Q3(75%)=63,5 Q3(75%)=105,4
d = Q3-Q1 = 15,1 d = Q3-Q1 =42,4
Mx: Q3+1,5d= 86,15 Mx: Q3+1,5d=169
Mn: Q1- 1,5d = 25,73 Mn: Q1- 1,5d = -0,6

3.
Imaturos Maduros
Mdia= 43,04 Mdia= 59,96
Desvio Padro=12,83 Desvio Padro=12,79
CV= 29,80 CV= 21,34
Q1(25%)=34,3 Q1(25%)=51,5
Q2(50%)=38,1 Q2(50%)=56,70
Q3(75%)=52,5 Q3(75%)=58,9
d = Q3-Q1 = 18,2 d = Q3-Q1 =7,4
Mximo= 79,8 Mximo=70
Mnimo = 7,1 Mnimo= 40,4



84

4.
Para abelhas com ferro

pH Acidez livre Umidade HMF
3,57 18,52 10,63 8,10
3,84 19,52 16,26 10,36
3,84 23,00 18,14 10,75
4,20 69,95 20,00 16,47
X
3,86 32,75 16,26 11,42
Md 3,84 21,26 17,20 10,56

Para abelhas sem ferro
pH Acidez livre Umidade HMF
3,40 15,4 22,47 0,00
3,54 15,22 22,80 18,27
3,85 3,47 27,37 19,63
4,20 52,56 28,00 21,93
X
3,75 21,66 25,16 14,96
Md 3,70 15,31 25,09 18,95

Clculos estatsticos para construo dos Box-Plots

Para abelhas com ferro.

Parmetros pH Acidez Umidade HMF
Q1(25%) 3,71 19,02 13,45 9,14
Q2(50%) 3,84 21,26 17,20 10,56
Q3(75%) 4,02 46,48 19,07 13,61
d = Q3-Q1 0,31 27,46 5,62 4,38
Mn: Q1- 1,5d 3,25 -22,17 5,02 2,66
Mx:Q3+1,5d 4,49 87,67 27,50 20,18

Para abelhas sem ferro.

Parmetros pH Acidez Umidade HMF
Q1(25%) 3,47 9,35 22,64 9,13
Q2(50%) 3,70 15,31 25,09 18,95
Q3(75%) 4,03 33,98 27,69 20,78
d = Q3-Q1 0,56 24,63 5,05 11,65
Mn: Q1- 1,5d 2,63 -27,60 15,07 -8,35
Mx:Q3+1,5d 4,87 70,93 35,26 38,26






85

5.
Para peixes mdios


Pb Zn Cd
0,05 20,19 0,54
0,05 20,43 0,83
0,09 21,77 1,31
0,19 23,36 1,41

Para peixes grandes

Pb Zn Cd
0,00 13,35 0,33
0,01 15,88 0,62
0,06 17,94 0,70
0,54 22,21 0,94



[Pb] para peixe mdio

Q1(25%)=0,05
Q2(50%)=0,07
Q3(75%)=0,14
d = Q3-Q1 = 0,09
Mx: Q3+1,5d= 0,28
Mn: Q1- 1,5d = -0,085


[Pb] para peixe grande

Q1(25%)=0,005
Q2(50%)=0,035
Q3(75%)=0,3
d = Q3-Q1 = 0,295
Mx: Q3+1,5d=0,74
Mn: Q1- 1,5d = -0,44



[Zn] para peixe mdio
Q1(25%)=20,31
Q2(50%)=21,1
Q3(75%)=22,57
d = Q3-Q1 = 2,26
Mx: Q3+1,5d= 25,96
Mn: Q1- 1,5d = 16,92

[Zn] para peixe grande
Q1(25%)=14,61
Q2(50%)=16,91
Q3(75%)=20,08
d = Q3-Q1 = 5,47
Mx: Q3+1,5d=28,28
Mn:Q1-1,5d=6,41

[Cd] para peixe mdio
Q1(25%)=0,69
Q2(50%)=1,07
Q3(75%)=1,36
d = Q3-Q1 = 0,67
Mx: Q3+1,5d= 2,37
Mn: Q1- 1,5d = -0,32

[Cd] para peixe grande
Q1(25%)=0,48
Q2(50%)=0,66
Q3(75%)=0,82
d = Q3-Q1 = 0,34
Mx: Q3+1,5d=1,33
Mn: Q1- 1,5d = -0,03




86


6.












Regresso Linear

1. r
xy
= 0,866 ; t
o
= 2,999648 ; CD = R
2
= 74,9956%
Equao da reta : Y
i
= 0,08947X
i
+ 0,01186.

2. r
xy
= 0,717 ; t
o
= 1,781564 ; CD = R
2
= 51,4089%
Equao da reta : Y
i
= 0,5579X
i
+ 0,08242.

3. r
xy
= 1 ; t
o
= 0 ; CD = R
2
= 100%
Equao da reta : Y
i
= 1,171X
i
- 0,6626.

4. r
xy
= - 0,551 ; t
o
= - 1,32054 ; CD = R
2
= 30,3601%
Equao da reta : Y
i
= - 0,08714X
i
+ 86,98.

5. r
xy
= 0,907 ; t
o
= 4,307452 ; CD = R
2
= 82,2649%
Equao da reta : Y
i
= 0,06151X
i
- 0,03395.

6. r
xy
= 0,962; t
o
= 4,982517 ; CD = R
2
= 92,5444%
Equao da reta : Y
i
= 0,04139X
i
78,24.


Comprimento Largura Espessura
Mdia 2,48 1,95 1,15
D. P. 0,31 0,23 0,19
CV 12,5 11,8 16,52
Mnimo 2,1 1,6 0,9
Q1 2,2 1,9 1,1
Q2 2,5 1,95 1,1
Q3 2,7 2,2 1,2
Mximo 2,9 2,2 1,5
d 0,5 0,3 0,1


87

Exerccio Cluster
1.

a) Clculo das distncias
d
1,2
= 1,24
d
1,3
= 3,44
d
1,4
= 7,40
d
1,5
= 8,76
d
2,3
= 3,13
d
2,4
= 6,40
d
2,5
=7,83
d
3,4
=6,95
d
3,5
=8,37
d
4,5
=1,69

b) Clculo da Conexo Simples

13 , 3
3
2 , 1
=

d

40 , 6
4
2 , 1
=

d

83 , 7 5
2 , 1
= d

36 , 8 ,
3 5 , 4
=

d


Distncia Mxima
40 , 6 ,
5 , 4 2 , 1
=

d


Similaridade
Grupo 1,2= 80%
Grupo 4,5 = 73%
Grupo 1,2 4,5 = 0%





88

2.
a) Clculo das distncias
d
1,2
= 4,98
d
1,3
=13,60
d
1,4
= 5,19
d
1,5
= 9,11
d
2,3
= 8,30
d
2,4
= 12,44
d
2,5
=11,87
d
3,4
=17,08
d
3,5
= 16,12
d
4,5
= 12,24

b) Clculo da Conexo Simples
60 , 13
1
3 , 2
=

d

08 , 17
4
3 , 2
=

d

10 , 16
5
3 , 2
=

d

11 , 9 ,
5 1 , 4
=

d


Distncia Mxima
60 , 13 ,
1 , 4 3 , 2
=

d


Frmula da similaridade:
Grupo 2,3= 39%
Grupo 4,1 =62
Grupo 2,3 4,1 = 0%








89

BIBLIOGRAFIA

1. Estatstica Aplicada. So Paulo: Editora Saraiva, 2003. DOUGLAS
DOWNING & JEFFREY CLARK.
2. Estatstica Aplicada. Porto Alegre: Bookman, 2000. JOHN E. FREUND &
GARY A. SIMON.
3. Introduo Ilustrada Estatstica. So Paulo: Editora Harbra, 1998.
SRGIO FRANCISCO COSTA.
4. ALDRIGUE, M. L. Caracterizao fsica, qumica e fsico-qumica do caj
(Spondias lutea L.). In: SEMINRIO AGROPECURIO DO ACRE, 2.,
1986, Rio Branco. Anais. Braslia: Embrapa-UEPAE de Rio Branco,
1988.p. 323-327.
5. BOSCO, J.; SOARES, K. T.; AGUIAR FILHO, S. P. de; BARROS, R. V.
A cultura da cajazeira. Joo Pessoa: Emepa, 2000. 229 p. (Documentos,
28).
6. Li, W; Cheng-Hui, ZH; Wei, L; Guang-Quin, G. Relationship between
tissue culture and agronomic traits of spring wheat. Plant Science. v.164,
1079-1085p., 2003.