Vous êtes sur la page 1sur 76

ESTATSTICA APLICADA

LABORATRIOS DE ENSAIO
Prof. Dr. Honrio Coutinho de Jesus
Laboratrio de Qumica analtica
Centro de Cincias Exatas UFES
Apoio FCAA
10 e 11 de abril de 2010
1. CONCEITOS BSICOS:
ESTATSTICA: a cincia que tem por objetivo orientar a
coleta, organizao, descrio, anlise e interpretao de
dados, e utilizao dos mesmos na tomada de decises.
POPULAO Conjunto formado por todas as
observaes que constituem o universo em observao.
Finita: bem definida em espao, local e tempo.
Infinita: no definida no espao ou no tempo.
AMOSTRA o sub-conjunto de observaes obtidas (as
medidas; os resultados analticos). Sub-conjunto finito de
uma populao.
No-probabilstica: nem todos os indivduos da populao tem chances
de compor a amostra. Pode ser intencional e por cotas.
Probabilstica: todos os indivduos tm a mesma chance (aleatria,
sistemtica e estratificada).
AMOSTRA PROBABILSTICA
- Amostra randmica simples
Cada membro da populao tem uma chance
conhecida e igual de ser escolhido.
- Amostra estratificada
randmica
A populao dividida em grupos
mutualmente excludentes (como grupos de
idade) e amostras randmicas so sorteadas
para cada grupo.
- Amostra de agrupamento
(rea)
A populao dividida em grupos
mutualmente excludentes (como quarteires)
e o pesquisador sorteia uma amostra de
grupos para ser entrevistada.
AMOSTRA NO
PROBABILSTICA

- Amostra por convenincia O pesquisador seleciona membros da
populao mais acessveis.
- Amostra por julgamento O pesquisador usa o seu julgamento para
selecionar os membros da populao que so
boas fontes de informao precisa.
- Amostra por quota O pesquisador entrevista um nmero
predef inido de pessoas em cada uma das
vrias categorias.

UNIDADE EXPERIMENTAL ou OBSERVAO: menor
unidade a fornecer uma informao ou dado: pessoas,
animais, elemento qumico, sedimento, gua.
VARIVEL: toda caracterstica que, observada numa
unidade experimental, pode variar de um indivduo para
outro.
Qualitativa: expressa por atributos. Nominal macho e
fmea, contaminado e no contaminado, slido, lquido ou
gasoso; Ordinal identifica graus de intensidade das categorias
cor de minerais, escala de dureza.
Quantitativa: os dados so valores numricos que
expressam quantidade. Contnua altura, temperatura, massa,
concentrao; Discreta n
o
filhos, minerais presentes (n
os
inteiros).
ESTATSTICA: alm da cincia, o termo tambm
utilizado para descrever o valor numrico obtido a partir
de dados amostrais (x, s, r).
PARMETRO: um valor que resume na populao a
informao relativa a uma varivel (, o, ).
DIVISES DA ESTATSTICA:
ESTATSTICA DESCRITIVA: o conjunto de mtodos utilizados
para descrever e sumarizar os dados amostrais.
ESTATSTICA INFERENCIAL: o conjunto de mtodos utilizados
para extrapolar (inferir) o conhecimento da amostra para a
populao.
Estatstica inferencial paramtrica: aquela que especifica
condies sobre a natureza (parmetros) da distribuio de
freqncia dos dados da populao para a qual se deseja inferir.
Estatstica inferencial no-paramtrica: o contrrio da anterior.
Quanto ao nmeros de variveis estudadas:
Estatstica univariante, bivariante e multivariante.
2. ESTATSTICA DESCRITIVA:
Coleta e apresentao de dados:
coleta
observao
direta
indireta
Coleta e apresentao de dados:
Tipos de grficos:
Tambm Cartograma, pictograma, histograma, box plot
Medidas de centro
Mdia aritmtica:

=
=
n
1 i
i
/ ) x ( x n mdia ponderada:

=
=
=
n
n
f
f
1 i
i
1 i
i i
x
x
Mdia geomtrica:
[
= =
= =
n
1 i
i
1 i
/ 1
i
] / ) x log [( antilog ) x ( g n
n
n

Mediana = o valor central da distribuio = 2 quartil moda = o valor + freqente

Medidas de disperso
Amplitude: A = valor mximo valor mnimo
Desvio Padro:
) 1 (
x) ( ) x (
s ou
1
) x x (
s
2 2 2
i
1 i


=

=
n n
n
n
n
varincia = s
2

Desvio Padro Relativo (RSD; CV):
x
s
) s(% = desvio padro da mdia:
n
s
s
x
=
Separatrizes: Percentis e Quartis
1
2


=

n
) x x .( f
s
i i
Desvio padro para dados classificados:
Desvio padro de subconjuntos de dados no agrupados (Skoog):
i
k
n
k
j
n
j
i
n
i
comb
n n n n
s
....
... ) x x ( ) x x ( ) x x (
+ + +
+ + +
=

= = =
3 2 1
2
3
1
2
2
1
2
1
1
3 2 1
Comparar este exemplo com o clculo para dados grupados.
Varincia ponderada ou agrupada:

=
+ + +
+ + + +
=
i
i i
p
i
i i
p
s
s ou
k n n n
s n s n s n
s
v
v
2
2
2 1
2 2
1 1
2
1 1
2
1 1 1

...
). ( ... ). ( ). (
Onde v
i
so os
graus de liberdade
dos k conjuntos de
dados
Desvios padres a partir de clculos aritmtricos:
Seja F = f (x,y) logo F dF = f (x dx, y dy)

Maior erro plausvel a temer: dy
y
F
dx
x
F
dF
c
c
+
c
c
= erros sistemticos

Menor erro plausvel a temer:
2
2
2
2
2
dy
y
F
dx
x
F
(dF)
|
|
.
|

\
|
c
c
+
|
.
|

\
|
c
c
= erros indeterminados
Skoog
Outro exemplo do Skoog
ALGARISMOS SIGNIFICATIVOS
- Soma e Subtrao : o resultado deve conter aps a vrgula o mesmo nmero de
algarismos significativos do termo com menor nmero de
significativos aps a vrgula.
Ex.: 1,204 + 0,32 = 1,52 0,020 + 0,0034 = 0,023


- Produto e Diviso : o resultado deve conter aps a vrgula o mesmo nmero de
algarismos significativos do termo com menor nmero de
significativos.
Ex.: 1,204 x 0,32 = 0,39 0,020 / 0,0034 = 5,8
Quando no se tem os desvios:
Pode-se considerar desvios unitrios na ltima casa decimal e
propagar os erros.
Distribuio de freqncias e Histograma:
Tabela de grupamentos simples (sem intervalo de classe):
Distribuio de freqncias:
Tabela de grupamentos com intervalo de classe:
Escolhendo um tamanho de classe = 0,10 mSv, o nmero de classes
ser: k = (1,34-0,23)/0,10 = 12 classes.
Distribuio de freqncias:
Tabela de grupamentos com intervalo de classe:
classe
Ponto
mdio
Freqncia
f
Freqncia
relativa - fr
Freqncia
acumulada - F
Freqncia
acum. rel. - Fr
0,20 0,30 0,25 1 1,1 1 1,1
0,30 0,40 0,35 3 3,3 4 4,4
0,40 0,50
0,45 2 2,2 6 6,6
0,50 0,60
0,55 6 6,7 12 13,3
0,60 0,70
0,65 10 11,1 22 24,4
0,70 0,80
0,75 16 17,8 38 42,2
0,80 0,90
0,85 18 20,0 56 62,2
0,90 1,00
0,95 14 15,6 70 77,8
1,00 1,10
1,05 10 11,1 80 88,9
1,10 1,20
1,15 6 6,7 86 95,6
1,20 1,30
1,25 3 3,3 89 98,9
1,30 1,40
1,35 1 1,1 90 100,0
total 90 100 %

Distribuio de freqncias:
Ogiva (polgono de freqncia acumulada)
histograma Polgono de
freqncia
Distribuio de freqncias:
regra emprica de Sturges:
nmero de classes = 1 + log
2
n = 1 + 3,32.log n
amplitute = x
mx
x
min
Mediana =
Moda = o ponto mdio da
classe de maior freqncia

=
i
i i
x
x
f
f
Mdia =
classes de n
amplitude
classe da tamanho
o
=
Exemplo 2:
88 , 4
78
1 . 25 , 11 2 . 75 , 9 3 . 25 , 8 15 . 75 , 6 24 . 25 , 5 20 . 75 , 3 9 . 25 , 2 4 . 75 , 0 (
x .
x
20 , 6 5 , 1
15
) 57 5 , 58 (
05 , 6 Q ..... ..... 5 , 58 78
4
3
Q para F
93 , 4 5 , 1
24
) 33 39 (
55 , 4 Q ....... .......... 39 Q para F
54 , 3 5 , 1
20
) 13 5 , 19 (
05 , 3 Q ..... ...... 5 , 19 78
4
1
Q para F
i
3 3
2 2
1 1
=
+ + + + + + +
= =
= -

+ = = - =
= -

+ = = =
= -

+ = = - =

i
i
f
f
Md
1
) x x .( f
s
2
i i


=

n
Exemplo 2:
disperso alta 0,15 As
disperso baixa 15 , 0 As
s
Md) - x (
3. As
>
<
=
) P 2.(P
Q Q
C
10 90
1 3

=
C = 0,263
C < 0,263
C > 0,263
Diagrama Box Plot
Boxplot fornece informaes sobre posio, disperso, assimetria,
caudas e valores discrepantes de um conjunto de dados.
Amplitude interquartil: AIQ = Q
3
Q
1
IC
95
= Md AIQ/n
Limite superior interno: Q
3
+ 1,5.AIQ
Limite superior externo: Q
3
+ 3.AIQ
Limite inferior interno: Q
1
- 1,5.AIQ
Limite inferior externo: Q
1
- 3.AIQ
Valor afastado
exemplo
3. FUNES DE DISTRIBUIO
3.1. Distribuies contnuas
Distribuio Normal ou de Gauss
(gera a chamada Estatstica Inferencial Paramtrica)
2
} 2 / ) exp{-(x
) , N( P(x) y
2 2
i

= = =
Distribuio normal
padronizada ou reduzida
N(0,1)
o
) x (
z desvio
i
i

= =
Distribuio Normal ou de Gauss
Tem formato de sino
simtrica em relao a mdia (=mediana=moda). A mdia aritmtica
o valor mais provvel de todos os valores
Desvios positivos e negativos so igualmente provveis
Desvios pequenos so mais provveis que desvios grandes
Fica perfeitamente definida pela mdia e desvio padro.
Distribuio Normal: valores de z e reas entre a mdia (zero) e z.
Distribuio Normal:
Limite de confiana: define um intervalo em torno de x
i
que provavelmente
contm .
INTERVALO DE CONFIANA: a magnitude do limite de confiana.
Nvel de confiana: fixa a probabilidade que um certo valor est dentro de
limites definidos.
Por exemplo: P(-1o s x
i
s -1o) = 68,27% ou 0,6827
Exerccio: O teor de Ca numa amostra varia de 50 a 60%. Aps um nmero
muito grande de anlises foi determinado o desvio padro relativo da
determinao = 3 . Se o resultado de uma anlise foi 55,30% em Ca, qual o
intervalo de confiana para o valor verdadeiro com uma probabilidade de 95%?
Na ausncia de erros determinados x = 1,96o ou = Xv = x 1,96o
o = 3/1000 . 55,30 = 0,17% 1,96o = 0,33% Xv = (55,30 0,33)%
Distribuio Normal: exemplos de clculos
a) Temos uma distribuio normal de valores
encontrados numa anlise de cinzas. Sabendo
que a mdia da populao 130,37 ppm e o =
5,50 ppm, estime a % de determinaes cujo
valor possa ser maior que 135,00 ppm.
20,05% P 84 , 0
50 , 5
37 , 130 0 , 135 x
z
i
= =

=
o

b) Seja uma distribuio normal de Cu numa
anlise de sedimento. Sabendo que = 100
ppm e o= 5 ppm, estime a % de determinaes
cujo valor seja < 98,5 ppm.
38,21% P 3 , 0
5
5 , 98 100 x
z
i
= =

=
o

Distribuio Normal: exemplos de clculos
c) A mdia de uma populao corresponde a
100 ppm. Qual deve ser o desvio padro para
que tenhamos 95% dos dados entre 98 e 102
ppm?
ppm 02 , 1
96 , 1
100 102
z
x
0,025 2,5% Pz
i
=

= = =

o
d) Seja uma distribuio normal de Fe numa
anlise de sururu. Sabendo que = 100 ppm e
o= 5 ppm, estime a % de determinaes cujo
valor fique entre 97 e 99 ppm.
% 93 , 7 P 2 , 0
5
99 100 x
z
1
1
1
= =

=
o

% 57 , 22 P 6 , 0
5
97 100 x
z
2
2
2
= =

=
o

% entre P
2
e P
1
= 22,57 7,93 = 14,64%
Teste de normalidade:
Para inferncia da populao a partir de mtodos paramtricos deve-se
primeiro testar a normalidade dos dados:
Anlise visual do histograma de freqncia, de sua assimetria,
coincidncia da mdia, mediana e moda.
Apresentao dos dados em escala probabilstica.
Uso de testes rigorosos: teste Qui-Quadrado; teste Kolmogorov-Smirnov.
Dados: 74-86-88-89-99-99-104-107-107-
109-110-111-113-115-134 Fr = F/(n+1)
Outro exemplo:
Transformao de uma varivel x em z.
Para distribuies descontnuas ou assimtricas
Assimetria direita: y= ln x, log x, y= 1/x
Assimetria esquerda: y= x
2
, y= x
3
x y =
3
x y =
o
- x
z =
Distribuio Log-normal
Distribuio Log-normal
Distribuio Log-normal
) log(s s
x
x
s
2
) s (ln
exp . x x
g
(50%) PC
(84,1%) PC
g
2
g
g = =
(
(

=
g
x
Teorema do Limite Central : A distribuio das mdias
amostrais tende para uma gaussiana quando n aumenta,
mesmo que a populao original no seja normal.
Desvio padro da mdia
(ou Erro Padro da Mdia) =
Intervalo de confiana:
Na prtica temos uma nica amostra e queremos a extenso para :
- z.( n / o ) < x < + z.( n / o )
x - z.( n / o ) < < x + z.( n / o ) , ou seja: = x z.( n / o )

= =
f
f
n
2
) x ( ) x (
) - x (
ou

o
o
o
Exemplo: Considere a alcalinidade mdia do rio Ca sendo igual a 19,6
mg de CaCO
3
/L, com uma variabilidade de o = 7,7 mg/L. Para uma
amostra recente de 16 observaes e mdia igual a 16,2 mg, estar ela
indicando que a alcalinidade do rio se modificou?
77 , 1
925 , 1
4 , 3
16 / 7 , 7
6 , 19 2 , 16 - x
z
calc.
=

=
/
=
n o
Para P(95%) z= 1,96
No h evidncias de alterao
Geralmente trabalhamos com pequenas amostras (n<20), e temos
que trabalhar com estimativa do desvio padro (s). Usa-se ento a
Estatstica de Student (Gosset).
2,78
1,96 (P
95%
)
DISTRIBUIO DE STUDENT
n
. x
s
t =
Onde: o o nvel de significncia (e 1-o o nvel de confiana)
v o grau de liberdade (n-1).
Intervalo de confiana:
IC
(1-o)
= x - t
(o;v)
( n / s ) < < x + t
(o;v)
( n / s )
Exemplo 1: Um analista realizou 4 anlises de Fe numa certa amostra e
encontrou o valor mdio de 31,40% e s=0,11%. Qual o IC da mdia para
95% de confiana ?
= (31,40 0,17)%
n
. x
s
t =
4
11 , 0
. 18 , 3 4 , 31 =
Exemplo 2: Sete medidas de pH foram obtidas para uma soluo tampo:
5,12 5,20 5,15 5,17 5,16 5,19 5,15. Calcule o intervalo de
confiana (com o nvel de 99%) para o valor verdadeiro de pH, considerando
que no exista erro sistemtico nas medidas.
Resultado: n= 7; mdia= 5,16; s= 0,027 Logo: v= 7-1=6 e t
0,01
= 3,71
Logo: = 5,16 0,04
7
027 , 0
. 71 , 3 16 , 5 Xv =
x
. x s t =
0,05 0,025 0,01 0,0005
Bicaudal
unicaudal
4. TESTE DE HIPTESES (ou de significncia)
Hiptese nula: H
0
= duas quantidades sob comparao ( e no caso
do teste-t, e s
1
e s
2
no caso do teste F) no apresentam diferenas
significativas (apenas devido a variaes randmicas).
Calcula-se ento a probabilidade da diferena observada ser resultado
do acaso. Uma baixa probabilidade indica um alto grau de significncia
da diferena, e menos provvel a hiptese nula verdadeira.
1
x 2
x
o(P) > 10%: Diferena no significativa. Nenhuma evidncia que sugira ser falsa a
hiptese nula.
o entre 10% e 5%: Possivelmente significativa. A hiptese nula fica sob suspeita,
mas uma evidncia maior requerida para rejeit-la.
o entre 5% a 1%:Significativa. A hiptese nula presumivelmente falsa, mas,
eventualmente uma maior evidncia pode ser necessria para a rejeio.
o < 1%: Diferena altamente significativa. A hiptese nula pode ser rejeitada
com segurana.
Para o teste geralmente usa-se o > 5% (isto o= 0,05).
o= 5% equivale a dizer que temos 1 chance em 20 de ns rejeitarmos a
Hiptese Nula quando de fato ela verdadeira. No sentido de estarmos
mais seguros que fizemos a deciso correta, um maior nvel de
significncia pode ser usado, usualmente 0,01 ou 0,001 (1 a 0,1%).
Em geral calcula-se o parmetro sob teste da distribuio e compara-se
com o tabelado (ou crtico). Se o valor calculado for menor que o crtico, a
hiptese nula aceita.
bicaudal
unicaudal
Resultado tem direo preferencial
Existe uma causa para a expectativa de variao
Teste mais restritivo.
Espera-se somente variaes randmicas.
Nenhuma razo para a difer. dos resultados
4.1. Caso de uma amostra
Teste de hiptese sobre a mdia da populao:
Foram obtidos os seguintes valores para a amostra de referncia contendo 38,9%
de mercrio: 38,9 ; 37,4 e 37,1 %. Existe evidncia de erros sistemticos ?
testaremos H
0
: x = (ou X
v
)
mdia= 37,8% s= 0,964% , logo: |t|= |(37,8-38,9).\3/0,964| = 1,98
Como t
c
= 4,3 (P=0,05), no h evidencia de erro sistemtico, pois t
o/2
< t
c
.
n s/
) - x (
t

=
Considerando um teste unicaudal (suspeita-se de erro sistemtico):
t
c
= 2,92 , ainda assim no h evidncia de erro sistemtico.
= x : H
1
Tipos de hipteses estatsticas:
Hiptese nula (H
0
): estabelece a ausncia de diferena entre os
parmetros. sempre a primeira a ser formulada.
Hiptese alternativa (H
1
): a hiptese contrria hiptese nula. Muitas
vezes a desejada.

<
>
x : H
x : H
1
0
4.2. Caso de duas amostras
Comparao de duas amostras:
A) Observaes no emparelhadas
Igualdade de varincia
Teste F de Fisher, H
0
: s
1
2
= s
2
2

F = s
1
2
/s
2
2
onde s
1
> s
2
. Aceitao da hiptese nula: F
calc .
< F
c


Igualdade de mdias
Teste t de Student, H
0
: x
1
= x
2

Desvio padro misturado (pooled): s
2
= [(n
1
-1)s
1
2
+ (n
2
-1)s
2
2
]/(n
1
+n
2
-2)
t = ) n / 1 n / 1 ( / ) x x (
2 1
2 1 + s onde t tem n
1
+ n
2
2 graus de liberdade.
Intervalo de confiana para a mdia (o=0,05):
= 37,8 4,3.0,964/\3 = 37,8 2,4 ou 35,4 40,2
Logo: o intervalo da mdia amostral contm o valor verdadeiro.
2
1 1
x x : H =
Ex: Dois mtodos para anlise de boro em plantas so comparados. Foram realizadas
10 rplicas para cada mtodo. As mdias diferem significativamente ? (P=0,05).
Espectrofotomtrico: x = 28,0 s = 0,3
Fluorimtrico: x = 26,25 s = 0,23
Resposta: Teste da igualdade da varincia: F
9,9
= 0,3
2
/0,23
2
= 1,7
Para teste bicaudal F
c
= 4,026
Como F < F
c
ento no existe diferena significativa entre as varincias.
Sabendo que s
1
= s
2
, podemos comparar as mdias:
s
2
= (9.0,3
2
+ 9.0,23
2
)/18 s = 0,267
t = (28,0 26,25)/0,267 ) 10 / 1 10 / 1 ( + = 14,7 t
c
= 2,1
como t > t
c
ento a hiptese nula rejeitada. Mesmo para um nvel de 0,1%
(P=0,001) t
c
= 3,9 , ou seja, se a hiptese nula verdadeira, a probabilidade desta alta
diferena surgir por acaso menor que 1 em 10000.
A) Observaes emparelhadas
Neste caso trabalharemos com as diferenas entre os dados emparelhados.

d
d s / n . x = t
Ex: As seguintes concentraes de Pb foram determinadas por 2 mtodos
diferentes em 4 pores teste. Existe diferena significativa entre as
mdias dos dois mtodos ?
poro Oxidao mida Extrao direta
1 71 76
2 61 68
3 50 48
4 60 57
Resultado: mdia das diferenas = d x = -1,75 desvio padro das difer. = s
d
= 4,99
Logo: t
calc.
= -0,70 e t
c
= 3,18 (P=0,05). Como |t
calc.
| < t
c
, a hiptese nula
retida. O computador resulta para P (|t|> 0,70) = 0,53, isto , uma diferena
altamente no significativa.
B)
ERRO DO TIPO 1 E DO TIPO 2
Todo teste de hiptese tem sua concluso sujeita a erro. O erro de
afirmar que existe uma diferena quando efetivamente ela no existe
(rejeitar incorretamente a H
0
) chamado de erro tipo 1tem P = o.
Pode-se tambm cometer o erro de aceitar H
0
quando no se deveria, ou
seja, afirmar uma igualdade quando o correto seria afirmar uma
diferena. Logo, erro tipo 2 ou |, cuja probabilidade muito difcil de se
calcular (seria necessrio na populao amostrada).
Diminuindo-se o (probab. de rejeio de H
0
sendo ela verdadeira) aumenta-se |
(aceitao de H
0
sendo ela falsa) Fig.A Como resolver aumentar nFig.B
Seja populao 1 (=190, o=8), populao 2 (=196,
o=8), e uma amostra (n=12, =194, o
x
=8/\12=2,31).
H
0:
a mdia da populao a que pertence as 12
amostras sob teste 190, ou
A
=
pop.1
H
1
: a mdia da pop. das 12 amostras 196, ou

A
=
pop.2
esquerda de z a rea = 0,1711
A amostra faz parte da populao 2, com erro o=0,05
e |=0,17, e poder de teste = 0,83 considerado alto.
95 , 0
- x
z 8 , 193 . 64 , 1 x
x
POP.2
x
POP.1
limite = = = + =
o

o
A
B
5. ANLISE DE VARINCIA (ANOVA)
utilizada para comparao de duas ou mais amostras (k amostras).
Se usssemos o teste t para comparar as amostras, duas a duas, a
probabilidade o (erro tipo 1) aumenta com o aumento de k.
Para k=2 o=0,05; p/ k=4 o=0,26.
Temos assim que usar a anlise de varincia, que compara as mdias em um
nico teste e visa identificar a existncia de ao menos uma diferena entre os
grupos, se alguma existir. Caso o resultado estatisticamente significativo,
pode-se aplicar em seguida tcnicas de comparaes mltiplas, e verificar
quais populaes diferem entre si.
5.1 Caso de populaes com observaes no emparelhadas
Igualdade das varincias:
H
0
: o
1
2
= o
2
2
= ....= o
k
2
= o
2
H
1
: pelo menos um valor de o
2
maior.
H
0
ser aceita se Fmx calculado (o
2
maior/o
2
menor) for menor ou igual a
Fmx (o,k,v), onde v=n-1 e n o da menor amostra.
Exemplos de utilizao da ANOVA
ou tratamento
ou varivel dependente
ou grupos
Fmx. calc.= s
4
2
/s
1
2
= 233,07/54,21 = 4,30 Fmx. Hartley (o;k;v) = Fmx.(0,05;4;5) =13,7
Teste da igualdade das varincias (homocedasticidade): F mximo de Hartley
Igualdade de mdias: Anova com Critrio nico One Way
3
5.2 Caso de populaes com observaes emparelhadas
Anlise de varincia com critrio duplo
6. AVALIAO DE VALORES EXTREMOS (OUTLIERS)
So definidos como membros de uma srie de valores que so
inconsistentes com os membros da srie.
A varincia e mdia so muito afetados pela presena de valores extremos.
Para avaliao dos outliers assume-se que os dados apresentam uma
distribuio normal.
Testes disponveis:
a) Teste Q (de 3 a 7 resultados)
b) Teste de Cochran (varincias)
c) Teste de Grubbs (valores individuais ou mdias)
H
0
= os valores provm do mesmo conjunto de dados ou da mesma populao e
a variao devida ao acaso.
Limites para rejeio:
< 10% de rejeio: os valores so rejeitados sem problemas.
de 10% a 15%: avaliao dos resultados pelo responsvel.
> 15% de rejeio: no aceitvel, todo o conjunto deve ser rejeitado.
Teste Q de Dixon:
amplitude a onde ou Q e coeficient
1 2 1
A
A
X X
A
X X
n n

=

1. Ordenar os valores do conjunto de dados.
2. Comparar o valor calculado Q com o valor tabelado a um dado nvel de
confiana.
Ex.: Seja os seguintes dados: 5,6 ; 5,4 ; 6,5 ; 5,4 ; 5,5 ; 5,3 ; 5,2
Ordem crescente: 5,2 ; 5,3 ; 5,4 ; 5,4 ; 5,5 ; 5,6 ; 6,5
rejeitar como 692 , 0
3 , 1
6 , 5 5 , 6
0,05) P ; 570 , 0 (
. . .
> =

=
= =
tab calc calc
Q Q Q
0,14 s 5,4 x : temos
6,5 valor o removendo
0,435 5,56 x
= =
= = s
Agora testar o par inicial, e
assim por diante.
Teste Cochran:
Para comparao de varincias (teste unilateral).
Limitao: todas as variveis dos conjuntos de
dados (l) devem ter o mesmo n
o
de repeties (n).
l
n
n
s
s
n C
l
i
i
l
i
i
mximo

=
=
= =
1
1
2
2

C
calc.
C
tab.
(5%) ACEITAR
C
tab.
(1%) C
calc.
> C
tab.
(5%) SUSPEITO
C
calc.
> C
tab.
(1%) DISPERSO
Teste Grubbs:
G
calc.
G
tab.
(5%) ACEITAR
G
tab.
(1%) G
calc.
> G
tab.
(5%) Suspeito
C
calc.
> C
tab.
(1%) DISPERSO
|
|
.
|

\
|


=

2
2
2
3
1
2
1
1
1
) 1 (
) 3 (
1
ou
s n
s n
G
s
x x
G
s
x x
G
s
x x
G
n
n
n
G
1
: x xxxxx ou xxxxx x
G
2
: x xxxxxx x
G
3
: xx xxxxxxx
7. CORRELAO
Diagrama de disperso
Coeficiente de correlao
produto-momento ou de
Pearson: -1 r +1

= ) 1 /( ) )( ( cov onde ,
cov
xy
n y y x x
s s
r
y x
sy
y x
xy
SQ SQ
SP
r
y y x x
y y x x
r

=


=


) ( ) (
) )( (
2 2
58 , 0
) 8 / 56 426 )( 8 / 40 232 (
8 / ) 56 40 ( 299
10.2 tab Ex.
) ( ) (
) )( (
2 2
2
2
2
2


=
(
(


(
(


r
n
y
y
n
x
x
n
y x
xy
r
soma dos produtos
soma dos quadrados
74 , 1
2 8
58 , 0 1
58 , 0
2
1
58 , 0 para
447 , 2 :
05 , 0 : H
2 2
.
6 ; 05 , 0
0
=

= =
= = 0 = H
2 = = 0 =
, 1
n
r
r
P
r
t r t
t t
n
r
calc

v o
v o
t
calc
< t
c
no se rejeita H
0
no existe
evidncia de correlao r casual.
Teste de hiptese para correlao
No-paramtrico
coef. de Spearman
Em geral faz-se a correlao no Excel e verifica-se a probabilidade de H
0
.
Para P<0,01 diferena altamente significativa (0), ou seja, boa correlao.
Coeficiente de determinao: r
2
informa que frao da variabilidade de uma caracterstica explicada
estatisticamente pela outra varivel.
Em um estudo realizado em 111 indgenas do sexo masculino a correlao
entre o peso e a estatura foi r = 0,58 (t =7,43, v=109, P<0,001). Pode-se
ento dizer que 34% (0,58
2
) da variao que se observa nestas pessoas
quanto ao peso corporal explicam-se porque elas variam tambm quanto
estatura. Os 66% restantes devem ser explicados or outros fatores.
Requisitos para a correlao:
Tanto a varivel x quanto a y tm distribuio normal.
A variao dos valores de x para cada valor fixo de y sempre a
mesma, isto , o valor de o
x
2
o mesmo no nos vrios nveis de y
(homocedasticidade)
Idem para os valores de y.
8. REGRESSO LINEAR
Aps obteno de r,
podemos calcular a
equao da reta que
melhor se ajusta aos
pontos do diagrama
(mtodo dos mnimos
quadrados):
y= a +b.x
x b y a
x x
y y x x
b =


= =


) (
) ).( (
SQ
SP
2
x
xy
bx a y + = : regresso de estimada reta A
Erros na interseo e inclinao da reta de regresso:

=
2
2 2
2
) (

) (

)

(
/
/
/
x x n
x
s s
x x
s
s
n
y y
s
x y a
x y
b x y
Diante destes erros podemos estimar o intervalo de confiana para a
reta de regresso populacional: y = o + |.x
IC
95
para o: a t.s
a
IC
95
para |: b t.s
b
Busca-se o valor de t (Student) com v =
n-2 graus de liberdade.
Exemplo:
295 0 784 364 4329 0 0409 0 112 4329 0 4329 0 5 9368 0 , / , , / , , / ,
/
= = = = = =
a b x y
s s s
11 , 0 93 , 1 0409 , 0 57 , 2 93 , 1
0,76 1,52 0,295 2,57 1,52 : confiana de intervalo
= =
= =
b
a
2
) (x x
i

36
16
4
0
4
16
36
112
48
04 0
93 1
03 4
01 0
5 01 0
= = =

=
= = 0 = H
2 = = 0 =
, 1
,
,

, :
, : H
.
; ,
0
b b
calc
s
b
s
B b
t
t t b
n b
v o
v o
t
calc
> t
c
rejeita-se H
0
a distncia entre b e zero de 48 erros
padres.
Concluso: o coeficiente de regresso populacional (B) no deve
ser zero, e portanto existe regresso de y sobre x.
Teste de hiptese para regresso
y = 1,9304x + 1,5179
R
2
= 0,9978
0
5
10
15
20
25
30
0 2 4 6 8 10 12 14
BIBLIOGRAFIA:
1. Callegari-Jacques, Sdia M. Bioestatstica Princpios e Aplicaes. Ed. Artmed, Porto
Alegre, 2003.
2. Miller, J.C and Miller, J.N. Statistics for Analytical Chemistry. 3rd Ed. Ellis Horwood
series in Analytical Chemistry, London, 1993.
3. Melo Jr., G. Apostila de Estatstica Aplicada ao Monitoramento Ambiental. Curso
apresentado no 1 Congresso Nacional de Meio Ambiente na Bahia, Feira de Santana,
out-1998.
4. Tauhata, L. e Almeida, E.S. Apostila de Estatstica e Teoria de Erros para Radioproteo.
Curso apresentado no Instituto de Radioproteo e Dosimetria IRD-CNEN, 1993.
5. Barros, C.B. Apostila de Estatstica Aplicada a Laboratrios de Ensaios. Curso
apresentado na Rede Capixaba de Metrologia, Vitria, ago/2006.
6. www.ime.usp.br/~sandoval/mae5755/Inferencia%20estatistica.pdf, acessado em
03/05/2007.
7. Skoog et al., Fundamentos de Qumica Analtica. Ed. Thompson, So Paulo, 2004.
PROGRAMAS ESTATSTICOS poderosas ferramentas
computacionais para avaliao dos dados estatsticos.
SPSS 11.5, Origin Pro 8, Minitab 15, Excel.