Académique Documents
Professionnel Documents
Culture Documents
Apostila de Bioestatstica
isra.sza@gmail.com
APOSTILA DE BIOESTATSTICA
PERITO CRIMINAL
Israel Souza
Professor do IFRJ
isra.sza@gmail.com
SOFEP - Niteri
Outubro de 2009
SOFEP
Niteri
Out/2009
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
PREPARE-SE
SOFEP
Niteri
Out/2009
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
1- ESTATSTICA DESCRITIVA
1.1 CLASSIFICAO DAS VARIVEIS
Por definio, varivel aquilo que varia. Assim, a noo de varivel aplicvel em toda e
qualquer cincia.
Dito de outro modo, variveis so os possveis resultados do fenmeno estudado.
As variveis podem ser classificadas de acordo com o nmero de valores que assume e
tambm de acordo com o papel na pesquisa. Assim temos:
1- Quanto ao nmero de valores:
a) qualitativas: so aquelas que se embasam nas caractersticas do fenmeno e assumem
uma classificao ou ordenao. Ex: sexo, opo partidria, classificao numa corrida (1, 2, etc.).
b) quantitativas: so aquelas que se embasam na quantidade do fenmeno, pode-se dizer
que somados dois valores possvel atingir um terceiro valor. Subdivide-se em:
discretas: originria de dados de contagem, ou seja, s assumem valores inteiros. Ex: n
de alunos, n de leses no esporte, n de gols marcados etc.
continuas: So aquelas que podem ser representadas por qualquer valor entre dois pontos
limites. Em geral esto associadas a medidas que tenham unidade (m, kg, l, m/s etc.). Ex: Peso
corporal, altura, VO2, etc.
2- Quanto ao papel na pesquisa:
- Varivel independente (VI): a varivel que supostamente exerce influncia sobre outra.
a varivel que o pesquisador ter sob controle.
- Varivel dependente (VD): a varivel que supostamente sofre a influncia de outra. O
pesquisador no tem controle sobre ela.
- Varivel estranha (VE): a varivel capaz de influenciar a situao de pesquisa (a VI, a
VD ou a relao entre ambas), mas que no do interesse do pesquisador.
Nesse sentido, em relao a VI, a ao do pesquisador ser sempre no sentido de maximizar
a sua influncia sobre a VD. Assim, num laboratrio, haver um controle extremo das variveis
estranhas, de modo melhor ser observada a influncia da VI sobre a VD. Em relao VE, a ao
do pesquisador ser sempre no sentido de atenuar ou, sempre que possvel, eliminar seus efeitos.
Em relao VD, a nica ao do pesquisador ser no sentido de mensurao. A VD, que
ser mensurada, pode ser medida em diferentes nveis de acordo com o interesse do pesquisador ou
da situao e do instrumental de pesquisa.
Niteri
Out/2009
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
apresentados, e no o valor absoluto. Ex: colocao numa prova de 100m, categorias de peso no
boxe.
Nvel intervalar: No nvel intervalar os nmeros permitem a diferenciao, a ordenao e a
identificao de intervalos. So utilizados quase todos os procedimentos estatsticos. A nica
exceo se aplica a situaes nas quais necessrio considerar a existncia de um zero real. Na
escala intervalar, arbitramos um ponto de partida, que ser considerado o zero da medida. Ex:
temperatura em Celsius, nota numa prova de matemtica.
Nvel de razo: No nvel de razo existem todas as possibilidades: diferenciao,
ordenao, determinao de intervalos e a existncia de um zero absoluto. Ex: tempo, peso, altura,
temperatura em Kelvin.
Assim, j podemos, num primeiro momento, listar os procedimentos estatsticos que podem
ser utilizados de acordo com o nvel de medida utilizado.
Quadro 1: Procedimentos estatsticos conforme o nvel de medida utilizado
ESCALA
NOMINAL
ORDINAL
CARACTERSTICA
DISTINO
DISTINO
ORDEM
DISTINO
INTERVALAR
ORDEM
DISTNCIA
ESTATSTICA APROPRIADA
Freqncia, porcentagem, qui-quadrado (X2)
Estatstica no-paramtrica: mediana, Mann-Whitney,
Correlao ordinal de Spearman, Coeficiente de
Contingncia, etc.
Estatstica paramtrica: Mdia, Mediana, Desvio Padro,
Correlao de Pearson, Teste t de Student, Anlise da
varincia, Regresso, Anlise da co-varincia, etc.
DISTINO
RAZO
ORDEM
DISTNCIA
Fonte: Adaptado de Levin (1987).
Niteri
Out/2009
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
geral, o problema constitui uma pergunta, Isto , uma forma interrogativa, que segue a forma: a
Varivel independente influencia a Varivel dependente? Esta deve ser uma pergunta possvel de
resposta do tipo sim ou no (KERLINGER, 2003).
A partir do problema elaboramos hiptese, que so respostas provisrias aos problemas e
so passveis de testagem (KERLINGER, 2003). Assim, enquanto um problema surge da dvida, a
hiptese surge da tentativa de soluo, ou seja, de resposta pergunta formulada no problema.
uma soluo a priori, fornecida com base no referencial terico disponvel. Nesse nterim, as
Hipteses estatsticas referem-se traduo matemtica da hiptese de pesquisa (hiptese
alternativa H1 ou Ha) e de uma hiptese contrria (hiptese nula - H0). De fato, todo esforo do
pesquisador se dar em funo de H0. Ele procurar rejeit-la, de modo a aceitar H1. A lgica a
seguinte: se os dados no permitem sustentar a hiptese nula, eu, ento, aceito a hiptese alternativa
como explicao provvel. Lembre-se como foi dito anteriormente, a cincias no lida com a
verdade, mas sim com probabilidades.
Tanto a pesquisa experimental como a no experimental seguem uma determinada lgica no
trato das variveis dependentes e independentes.
A lgica da pesquisa experimental consiste em se pegar 2 grupos equivalentes (ou seja, aos
quais foram aplicadas as tcnicas de controle da Varivel Estranha.); introduz-se a Varivel
independente em um dos grupos; mede-se a Varivel dependente em ambos os grupos, compara-se
a Varivel dependente nos dois grupos; as diferenas na Varivel dependente sero atribudas
Varivel independente, a qual ser considerada como a causa. As caractersticas da pesquisa
experimental: manipulao da varivel independente, designao aleatria dos sujeitos e rgido
controle das variveis estranhas (KERLINGER, 2003).
J a lgica da pesquisa no experimental consiste em selecionar grupos que se diferenciam
nos valores da Varivel independente a ser estudada; medir a Varivel dependente em ambos os
grupos; e comparar os resultados e as diferenas na Varivel dependente que sero relacionadas
Varivel independente (KERLINGER, 2003).
Niteri
Out/2009
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
[ LIi ; LSi [
ou
LIi
LSi
x=
xi
n
Niteri
Out/2009
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
Niteri
Out/2009
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
O DESVIO-
PADRO)
(xi )2
N
onde xi cada elemento da populao, e N so respectivamente a mdia e o nmero total de
elementos da populao.
O desvio padro pode ser calculado como sendo a raiz quadrada da varincia.
Propriedades
a) Somando-se ou subtraindo-se uma constante k a todos os dados o desvio padro no se altera
b) Multiplicando-se todos os dados por uma constante k, o desvio padro multiplicado por k.
c) sua unidade de medida a mesma da varivel em questo.
Um exemplo que demonstra bem a utilidade do desvio apresentado a seguir.
Sejam duas turmas do 2 ano do Ensino Mdio turma A e turma B. A mdia em matemtica
da Turma A 7,0 e a mdia em matemtica da Turma B tambm 7,0. Poderamos considerar estas
duas turmas como iguais. No entanto o desvia padro da nota em matemtica da turma A 0, isto
todos os alunos tiraram nota 7,0. J na turma B nem todos os alunos tiraram 7,0, alguns alunos
tiraram 0,0 e outros tiraram 10,0.
Isso exemplifica o conceito de variabilidade homogeneidade de uma coleo de dados.
SOFEP
Niteri
Out/2009
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
Varincia: A varincia uma medida estatstica da disperso dos dados em torno da mdia
de um conjunto de dados. obtida quando no extramos a raiz quadrada do desvio-padro. A
varincia amostral definida como:
(xi x )2
2
s =
n 1
j a varincia populacional :
(xi )2
2
=
N
Propriedades da varincia
a) A varincia de uma constante k nula
b) A varincia de uma soma ou diferena entre variveis a soma das varincias das variveis se
estas forem independentes.
c) Somando-se ou subtraindo-se uma constante k a todos os dados a varincia no se altera.
d) Multiplicando-se todos os dados por uma constante k, a varincia multiplicada por k2
Um dos inconvenientes da varincia que ela no possui a mesma unidade de medida da
varivel em questo.
1.4.4- Tabelas e Grficos
Tabelas e grficos so formas especficas de representao de dados. O objetivo fornecer
informaes rpidas e precisas a respeito das variveis em estudo.
Tabela um quadro que resume um conjunto de informaes.
Neste sentido algumas precaues devem ser tomadas.
a) No utilize mais casas decimais do que o necessrio
b) Proponha um ttulo explicativo e inclua as unidades de medida.
c) Inclua totais de linhas e/ou colunas para facilitar as comparaes.
d) Ordene colunas e/ou linhas quando possvel. Se no houver impedimentos, ordene-as
segundo os valores, crescente ou decrescentemente. Caso contrrio ordene segundo os
nveis ordinais da prpria varivel.
e) Em geral uma tabela possui mais linhas do que colunas, principalmente se o nmero de
colunas ultrapassarem o espao da pgina.
f) No analise a tabela descrevendo-a, mas sim comentando as principais tendncias
sugeridas pelos dados.
g) Descreva a fonte da tabela, se de outro estudo de outro autor, ou se elaborao prpria.
Exemplos:
MDIA
MEDIANA
DESVIO
PADRO
46
55,30
55,10
8,15
46
125,00
127,50
20,06
Idade (anos)
46
22,08
19,00
7,85
Variveis
Outro exemplo:
Tabela 3: Tempo de chegada das equipes de Ciclismo.
Colocao Mdia (min) Desvio Padro
1 lugar
120
10
2 lugar
135
13
3 lugar
160
14
Fonte: elaborao prpria.
SOFEP
Niteri
Out/2009
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
Neste caso temos a noo de ordenao devido ao nvel de medida da varivel (ordinal).
O caso a seguir mostra claramente quando o valor da freqncia deve ser seguido na
ordenao dos dados na tabela.
Tabela 4: Medalhas de ouro obtidas pelos pases na Olimpada de Atenas
Pas
Estados Unidos
China
Rssia
Austrlia
Japo
Alemanha
Frana
Itlia
Coria do Sul
Gr-Bretanha
Cuba
Ucrnia
Hungria
Romnia
Grcia
Brasil
Total
Nmero de
Medalhas de Ouro
35
32
27
17
16
14
11
10
9
9
9
9
8
8
6
5
225
Percentual
15,56
14,22
12,00
7,56
7,11
6,22
4,89
4,44
4,00
4,00
4,00
4,00
3,56
3,56
2,67
2,22
100,00
SOFEP
Niteri
Out/2009
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
Caso a varivel for mensurada no nvel ordinal, o grfico feito da mesma forma, alterandose a ordem na posio dos setores segundo a ordem crescente das categorias.
SOFEP
Niteri
Out/2009
10
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
1500
600
400
SARAMPO
HEPATITE
1000
0
TRPLICE
SABIN
BCG
a)
Em geral usa-se uma legenda explicativa, principalmente quando se faz uma
comparao visual de dois ou mais grupos.
b) Se a varivel for qualitativa ordinal, os valores assumidos pela varivel (categorias)
devem ser colocados em ordem no eixo adequado.
Grfico de Barras Justapostas: Para comparar dois ou mais grupos (fatores ou
tratamentos), podemos construir um s grfico composto de vrios grficos, um para cada grupo,
como no exemplo a seguir:
Tabela 6: Nmero de indivduos com e sem dengue de acordo com a escolaridade
Com
Sem Dengue
Total
Escolaridade
Dengue
n
f
n
f
n
f
Analfabeto
40
76.9
12
23.1
52
27.5
Fundamental
40
80.0
10
20.0
50
26.5
Mdio
40
88.9
5
11.1
45
23.8
Superior
40
95.2
2
4.8
42
22.2
Total
160
84.7
29
15.3
189 100.0
Fonte: Ayres e colaboradores, 2008
Um detalhe importante ao observar esta tabela a presena dos percentuais marginais, o que
nos permite realizar uma comparao entre o nmero de indivduos com e sem dengue, e (objetivo
do grfico a seguir) comparar os indivduos com e sem dengue em funo do nvel de escolaridade.
SOFEP
Niteri
Out/2009
11
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
SOFEP
Niteri
Out/2009
12
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
35
30
25
20
15
10
5
0
30
10
6
Gradu ados
E s pec ialis ta s
Mes tres
D outores
SOFEP
Niteri
Out/2009
13
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
80
VO2mx
70
60
50
40
30
Luta
Maratona
Remo
Modalidades Esportivas
O que podemos concluir ao compararmos o VO2mx dos atletas dessas trs modalidades
esportivas? Existem valores extremos (atpicos)? Qual grupo parece mais homogneo? Em qual a
variabilidade maior?
Histograma: O histograma um grfico que reflete a forma da distribuio de freqncias da
amostra. Tambm procura refletir a estrutura (forma) da populao de onde foi retirada a amostra.
Para construir um histograma necessrio primeiro repartir os dados por classes e depois calcular
as respectivas freqncias. O histograma um grfico de freqncias construdo a partir desta
tabela de freqncias (por classes).
Grfico 6: Histograma e polgono de freqncia para PAD em repouso.
SOFEP
Niteri
Out/2009
14
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
Vale ressaltar que neste caso os dados de peso e estatura constantes na linha 1 so de um
mesmo indivduo.
Grfico 7: Diagrama de disperso apresentando a relao entre peso e estatura.
250
Estatura (cm)
200
150
100
50
0
0
20
40
60
80
100
120
Peso (Kg)
Este tipo de grfico muito til para analisar o tipo de relao entre duas variveis, e
auxiliam na visualizao da correlao e da regresso (tpicos que sero abordados mais a frente).
Em geral os grficos de disperso podem apresentar a tipificao da relao das variveis em
termos de direo (nenhuma, positiva ou negativa), forma (linear e no-linear) e fora (nula, fraca
ou forte).
SOFEP
Niteri
Out/2009
15
Israel Souza
Apostila de Bioestatstica
Diagrama de disperso
1600
1400
1200
1000
800
600
400
200
0
30
25
Ansiedade
Renda
Diagrama de disperso
isra.sza@gmail.com
20
15
10
5
0
0
10
15
20
10
Anos de estudo
Diagrama de Disperso
14
12
10
8
6
4
2
0
VO2relativo
Tamanha da famlia
Diagrama de disperso
Situao scio-econmica
40
35
30
25
20
15
10
5
0
0
N de filhos
SOFEP
Niteri
Out/2009
16
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
SOFEP
Niteri
Out/2009
17
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
Esquematicamente:
a constante desconhecida e dever ser estimada a partir dos estudo e anlise dos n
elementos da amostra.
Assim, o erro amostral pode ser dado por:
ERRO AMOSTRAL = VALOR OBSERVADO VALOR ESPERADO
Na amostragem probabilstica se destacam a Amostragem Aleatria Simples, a Sistemtica,
a Estratificada e a Conglomerado.
Determinao do tamanho da Amostra: em todos os casos devemos ter uma idia do
tamanho da amostra que queremos para realizar a nossa pesquisa. Existem diversas frmulas para
isso. Cada caso um caso. No entanto podemos ter como guia geral uma frmula simples genrica
como a que se segue.
n0 =
1
E02
n=
N x n0
N + n0
onde
N tamanho da populao;
E0 erro amostral tolervel;
n0 primeira aproximao do tamanho da amostra;
n o tamanho da amostra.
SOFEP
Niteri
Out/2009
18
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
Quando o experimento for repetido um grande nmero de vezes, surgir uma regularidade
do resultado, isto , haver uma estabilidade da freqncia relativa da ocorrncia de um particular
resultado.
2.2.1- PROBABILIDADE
A cincia no nos oferece certeza. No oferece nem mesmo certeza relativa. Oferece
apenas conhecimento probabilstico: Se A for feito, ento provavelmente B ocorrer. Uma
maneira de definir a pesquisa dizer que ela um meio de ajudar a reduzir a incerteza. A pesquisa
emprica jamais pode nos dizer que alguma coisa certamente assim. Pode, entretanto, dizer: "As
probabilidades de tal coisa ser assim ou assado so de 70 para 30".(KERLINGER, 2003).
A probabilidade e o pensamento probabilstico so o ncleo da cincia e da pesquisa.
Infelizmente, difcil definir a probabilidade satisfatoriamente. Vamos usar uma abordagem
intuitiva.
A probabilidade de um acontecimento o nmero de casos "favorveis" dividido pelo
nmero total de casos (igualmente possveis). (KERLINGER, 2003).
Sempre h incerteza. As cincias naturais oferecem maior certeza do que as comportamentais.
Alis, todas as disciplinas cientficas so mais ou menos incertas. Todas as afirmativas, em outras
palavras, vm acompanhadas com um valor p implcito ou explcito. (KERLINGER, 2003).
Precisamos entender perfeitamente que cada assero, cada afirmativa de relao vem
acompanhada de uma "etiqueta" probabilstica. Sempre que dizemos "Se p, ento q", o que dizemos
"Se p, ento provavelmente q". O que acontece na vida se repete na cincia: a certeza um mito,
para sempre fora do nosso alcance. (KERLINGER, 2003).
Noes de probabilidade
Probabilidade (probability, chance, likelihood)
uma afirmao numrica sobre a possibilidade de que algum evento ocorra.
Quantifica o grau de incerteza de eventos, variando de 0 (0%) a 1 (100%).
Um evento impossvel de ocorrer tem probabilidade 0 (zero)
Um evento certo tem probabilidade 1 (um)
Quando se joga uma moeda, no se sabe se vai sair cara. Mas sabe-se que a probabilidade
de sair cara 0,5 = 50% = 1/2.
Dizer que a eficcia de uma vacina de 70% corresponde a dizer que cada indivduo
vacinado tem probabilidade 0,7 de ficar imune.
Deste modo, a probabilidade pode ser vista como uma medida da possibilidade de
ocorrncia de um particular evento. Um problema da definio clssica de probabilidade reside no
fato de em sua definio lanar-se mo do conceito de eventos equiprovveis, e portanto da
expresso a qual se deseja definir.
SOFEP
Niteri
Out/2009
19
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
Niteri
Out/2009
20
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
aprender o significado da expresso "rea sob a curva normal": aquela poro do plano,
compreendida entre a curva e a linha de base, que corresponde, em qualquer distribuio normal, a
100% dos dados considerados. A Figura abaixo ilustra essa caracterstica.
A natureza simtrica da curva normal leva-nos a tirar outra concluso importante: qualquer
distncia medida em "sigmas", acima ou abaixo da mdia, contm a mesma poro da rea sob a
curva. Ento, se 34,13% da rea total situam-se entre a mdia e 1DP acima de X, tambm 34,13%
da rea total situam-se entre a mdia e 1DP abaixo de X; se 47,72% situam-se entre a mdia e 2DP
acima de X, tambm 47,72% situam-se entre a mdia e 2DP abaixo de X; finalmente, se 49,87%
situam-se entre a mdia e 3DP acima de X, tambm 49,87% situam-se entre a mdia e 3DP abaixo
de X. (LEVIN, 1987).
Em outras palavras, como ilustra figura a seguir, 68,26% da rea total sob a
curva normal (34,13% + 34,13% = 68,26%) caem entre -1 e +1, sendo a mdia
(aritmtica), X, o ponto de referncia; 95,44% da rea total (47,72% + 47,72%) caem
entre - 2 e +2 a partir de X; 99,74% da rea total - que, alis, praticamente toda a
rea sob a curva - caem entre -3 e +3 (sempre X como ponto de partida).
Niteri
Out/2009
21
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
direita (acima) da mdia, enquanto que um escore z de -2,1 significa que o escore bruto
correspondente cai esquerda (abaixo) da mdia, num ponto ligeiramente superior a 2 DPs .
Obtemos um escore z atravs do clculo do escore-diferena que d a distncia de um X
qualquer at a mdia - e, ento, pela diviso dessa diferena por .
Este clculo til para saber o quanto um valor est distante da mdia em termos de desvio padro
Probabilidade e curva normal
A curva normal pode ser usada em conjuno com os escores z.
A curva normal uma distribuio na qual possvel determinar probabilidades associadas a
todos os pontos da linha de base. A curva normal uma distribuio de freqncias; a freqncia
total sob a curva igual a 100%; essa curva apresenta uma rea central que circunda a mdia, onde
se localizam os escores mais freqentes, e h, ainda, reas menores progressivamente mais
prximas de ambas as extremidades (caudas), onde encontramos, em pequenas propores, escores
muito altos ou muito baixos. Ento, em termos probabilsticos, podemos dizer que a probabilidade
decresce medida que, na linha de base, nos afastamos da mdia em ambos os sentidos.
Desse modo, dizer que 68,26% da freqncia total sob a curva normal caem entre -1 e
+1 , a partir da mdia, o mesmo que dizer que a probabilidade de cerca de 68 em 100 de
que um escore bruto qualquer caia dentro desse intervalo. De forma anloga, dizer que
95,44% da freqncia total sob a curva normal caem entre -2 e +2 , a contar da mdia, o
mesmo que dizer que a probabilidade de aproximadamente 95 em 100 de que um escore
bruto qualquer venha a situar-se dentro desse intervalo e assim por diante. (LEVIN, 1987).
Expressa sob a forma de razo (quociente), a probabilidade ser sempre um nmero que oscila
entre 0 e 1. A probabilidade de ocorrncia de um evento 0 quando estamos absolutamente seguros
de que ele no ocorrer; 1 quando estamos convencidos de que sem dvida nenhuma ele ocorrer.
O problema que os pesquisadores nunca esto totalmente seguros a respeito de coisa alguma! Em
conseqncia, podemos, via de regra, esperar encontrar probabilidades iguais a 0,60, 0,25 ou 0,05;
mas raras vezes possvel esperar reduzir a probabilidade a 0 ou, por outro lado, elev-la a 1.
(LEVIN, 1987).
Assimetria
A assimetria o grau de deformao de uma curva de freqncias. Uma distribuio de
freqncia simtrica, ou seja, que apresenta um grfico cuja as duas caudas possuem a mesma
configurao (figura a), quando a mdia, a mediana e a moda da srie forem iguais. A distribuio
de freqncia tambm pode ser assimtrica positiva (figura b) e assimtrica negativa (figura c), a
primeira possui uma cauda mais alongada direita e ocorre quando a mdia da srie for maior que a
moda e a segunda apresenta uma cauda mais alongada esquerda e ocorre quando mdia da srie
for menor que a moda.
SOFEP
Niteri
Out/2009
22
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
a)
b)
c)
A assimetria pode ser obtida pelo coeficiente de assimetria (Cs) que uma medida
adimensional..
A distribuio ser simtrica quando Cs = 0, se Cs for maior que zero a assimetria positiva
e se Cs for menor que zero a assimetria negativa.
Curtose
A curtose o grau de achatamento de uma distribuio em relao a uma distribuio
padro, denominada curva normal.
A distribuio que apresenta uma curva de freqncias mais fechada que a normal,
denominada leptocrtica (figura a). Quando a curva de freqncia mais aberta que a normal
recebe o nome de platicrtica (figura b) e a curva normal denominada de mesocrtica (figura c).
a)
b)
c)
SOFEP
Niteri
Out/2009
23
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
esteja entre 1,60 e 1,76 metros. Apesar disto, o uso de estimativas pontuais imprescindvel, haja
vistas, serem necessrias para a obteno das estimativas por intervalo.
Intervalos de confiana
Conhecendo-se a distribuio amostral do estimador, de um parmetro , pode-se facilmente
determinar um intervalo que apresente uma confiana 1 para , como ser visto a seguir.
IC ( )1 = X z a
X =
n
i =1 i
= 0,30
= 41,924 ;
Assim: IC ( )1 = x z a
2
z = z 0, 05 = z 0, 025 = 1,96
2
= 41,924 1,96
0,30
10
= 41,924 0,186
Varincia desconhecida
s
IC ( )1 = x t
,
n
2
t com n 1 graus de liberdade, onde n o tamanho da amostra.
2
E.x: A amostra abaixo foi extrada de uma populao normal. Construir o intervalo de confiana, de
95%, para .
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
9
8
12
7
9
6
11
6
10
9
SOFEP
Niteri
Out/2009
24
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
Temos:
X = 8,7 ; S
( xi x ) 2
i =1
(n 1)
10
i =1
( xi 8,7) 2
(10 1)
(9 8,7)2 + (8 8,7)2 + (128,7)2 + (7 8,7)2 + (9 8,7)2 + (6 8,7)2 + (118,7)2 + (6 8,7)2 + (108,7)2 + (9 8,7)2
=
= 4,01
9
Assim S 2 = 4,01 , com isso S 2
s
2
2
IC ( ) 0,95 = 8,7 t 0, 025
= 8,7 2,262
= 8,7 1,43 =
IC ( )1 = x t
n
10
10
2
IC ( ) 0,95 = 7,27 10,13
SOFEP
Niteri
Out/2009
25
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
3. ESTATSTICA INFERENCIAL
Agora iremos utilizar alguns testes de hiptese com deciso estatstica. A maioria desses
testes pressupe que amostra analisada tenha distribuio normal. O grfico de histograma e do
boxplot nos d uma idia da distribuio, porm podemos usar o teste Shapiro Wilk para
verificarmos se a distribuio no difere da normal.
Os testes de hiptese podem ser classificados como paramtricos e No-paramtricos
Paramtricos: calcula as diferenas numricas exatas entre os resultados.
No paramtricos: apenas consideram se certos resultados so superiores ou inferiores a outr
os resultados.
Requisitos para utilizao de testes paramtricos
Quando se pretende empregar um teste t de Student ou uma ANOVA para fazer
comparaes entre amostras (testes paramtricos), existe uma lista de requisitos que inclui, entre
outros:
1. que a varivel tenha sido mensurada num nvel intervalar;
2. que a distribuio seja simtrica e mesocrtica;
3. que a caracterstica estudada (varivel) tenha distribuio normal numa dada populao.
Sempre que no se pode admitir a simetria e a normalidade de distribuio, ou os dados
foram recolhidos num nvel de mensurao inferior ao intervalar, devemos recorrer a testes que
no-paramtricos.
Vantagens dos testes no-paramtricos
Podem ser utilizados, mesmo quando os seus dados s podem ser medidos num nvel ordinal
, isto , quando for apenas possvel orden-los por ordem de grandeza, podem ser utilizados mesmo
quando os seus dados so apenas nominais, isto , quando os sujeitos podem apenas ser
classificados em categorias.
3.1 - TESTES DE HIPTESES (TPICO COBRADO NAS PROVAS DO CESPE-UNB)
Para a realizao de um teste de hipteses, deve-se formular duas hipteses estatsticas, a saber:
Hiptese nula (H0): a hiptese que ser testada, sendo geralmente formulada com o intuito de
ser rejeitada.
Hiptese alternativa (H ou H1): qualquer hiptese que contrarie H0.
Rejeitar a hiptese nula quando deveramos t-la aceitado ocasiona o chamado erro
alfa (ou erro tipo I).
Erro beta (ou erro tipo II), assim que se designa o erro de aceitar a hiptese nula
quando, na verdade, ela deveria ter sido rejeitada.
SOFEP
Niteri
Out/2009
26
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
Rejeita
Ho
SOFEP
Aceita
Ho
Rejeita
Ho
Niteri
Out/2009
27
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
3.1.2- QUI-QUADRADO
O Qui-quadrado obtido somando-se a diferena ao quadrado entre as freqncias
observadas e as esperadas, dividido pelas freqncias esperadas.
Z=
SOFEP
Niteri
Out/2009
28
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
Com base no que foi visto neste tpico voc poder responder a questo 3, itens 4 e 5.
Com base no que foi visto neste tpico voc poder responder a questo 7, item C.
SOFEP
Niteri
Out/2009
29
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
SOFEP
Niteri
Out/2009
30
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
4. CORRELAO E REGRESSO
4.1 CORRELAO DE PEARSON
Com o auxlio do coeficiente de correlao (linear) de Pearson (r), podemos determinar a
fora e o sentido da relao entre as variveis X e Y desde que elas tenham sido mensuradas no
nvel intervalar. O r de Pearson reflete a extenso em que cada sujeito amostral consegue obter o
mesmo escore z nas duas variveis (X e Y).
Teste da Significncia do r de Pearson
O coeficiente de correlao (linear) d-nos uma medida precisa da fora e do sentido da
correlao (existente entre as variveis) na amostra estudada. Se tivermos extrado uma amostra
aleatria de uma particular populao, podemos ainda querer verificar se a associao obtida entre
X e Y existe de jato na populao, e no resulta meramente de erro amostral (= ao do acaso).
Para testar a significncia de uma medida de correlao, geralmente estabelecemos a hiptese
de que no existe correlao na populao. Com respeito ao coeficiente de correlao (linear) de
Pearson, a hiptese nula (H0) fixa que
r=0
enquanto que a hiptese experimental (hiptese alternativa, Ha ou H1) estabelece que
r0
semelhana do que fizemos em captulos anteriores, testamos a hiptese selecionando um
nvel de significncia igual a 0,05 ou 0,01, aplicando, a seguir, a prova adequada.
Requisitos para o Uso do Coeficiente de Correlao de Pearson
A fim de empregar-se corretamente o coeficiente de correlao de Pearson como medida de
associao entre as variveis X e Y, os seguintes requisitos devem ser levados em conta:
1. Correlao linear - o r de Pearson s se aplica a correlaes lineares entre X e Y. No existe
uma relao causal, apenas uma associao.
2. Dados intervalares - As variveis X e Y devem ser mensuradas, no mnimo, a nvel
intervalar, de sorte que seja possvel trabalhar com escores.
3. Amostragem casual - Os sujeitos amos trais devem ter sido extrados aleatoriamente de
uma dada populao. Se assim no for, no ter nenhum sentido a prova de significncia do
coeficiente obtido.
4. Variveis distribudas normalmente - Para que seja possvel testar a significncia do r de
Pearson, necessrio que ambas as variveis, X e Y, tenham distribuio normal na populao.
Quando as amostras so pequenas, qualquer descuido na observncia dessa normalidade de
distribuio pode comprometer seriamente a validade do r de Pearson. Entretanto, esse requisito
deixa de ter importncia to grande quando o tamanho das amostras igual a ou maior que 30.
Fora da correlao
Descobrir a existncia de uma relao no esclarece muito a respeito do grau de associao ou
correlao entre duas variveis. Muitas so as relaes estatisticamente significantes; poucas
expressam correlao perfeita ou exata. Ilustremos: sabemos que peso e estatura so variveis
associadas, uma vez que, quanto mais alta a pessoa, maior tende a ser seu peso. H numerosas
excees regra, entretanto. Algumas pessoas altas pesam muito pouco; algumas pessoas baixas
pesam muito. Da mesma forma, uma relao entre orientao para estudos universitrios e uso de
entorpecentes no prenuncia a possibilidade de encontrarmos centenas de no-viciados entre
estudantes que pretendam continuar a vida acadmica ou muitos viciados entre os que no planejam
freqentar a universidade.
Convencionalmente, num diagrama de disperso, a varivel X localiza-se no eixo horizontal,
enquanto que a varivel Y, no vertical.
Podemos dizer que a fora de correlao entre X e Y aumenta medida que os pontos no
diagrama de disperso, mais compactamente se agrupam em torno de uma reta imaginria. Portanto,
a Figura (homens) representa uma correlao mais forte do que a (mulheres), muito embora ambos
SOFEP
Niteri
Out/2009
31
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
os diagramas indiquem que a renda tende a aumentar com o aumento dos anos de escolarizao.
Tais dados, na verdade, sugerem fortemente que a renda das mulheres (com relao dos homens)
est menos relacionada com o nvel de escolaridade por elas atingido.
Diag ra ma d e disp e r s o
1600
1400
1200
1000
800
600
400
200
0
Renda
Renda
Diag ra ma d e disp e r s o
10
15
1600
1400
1200
1000
800
600
400
200
0
0
20
10
15
20
An o s d e e s tu d o
An os de e s tu d o
Homens
Mulheres
Ansiedade
30
25
20
15
10
5
0
0
10
Niteri
Out/2009
32
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
correlao linear. Tais coeficientes de correlao oscilam entre -1,00 e +1,00 conforme se segue:
-1,00 correlao negativa perfeita
-0,95 correlao negativa forte
-0,50 correlao negativa moderada
-0,10 correlao negativa fraca
0,00 ausncia de correlao
+0,10 correlao positiva fraca
+0,50 correlao positiva moderada
+0,95 correlao positiva forte
+1,00 correlao positiva perfeita
Vemos, pois, que valores numricos negativos, tais como -1,00, -0,95, -0,50 e -0,10, indicam
correlao negativa, enquanto que valores numricos positivos, como, por exemplo, +1,00, +0,95,
+0,50 e +0,10, so indicativos de correlao positiva. Em termos de grau de associao, quanto
mais prximo de 1,00 em ambos os sentidos, maior a fora da correlao. Como tal fora
independente do seu sentido, podemos dizer que -0,10 e +0,10 so iguais quanto fora (ambos
fracos); -0,95 e +0,95 tambm so iguais quanto a ela (ambos fortes). (LEVIN, 1987).
J para Byrman e Cramer, se:
0,2 Correlao muito fraca e sem significncia
0,2 < r 0,39 Correlao fraca
0,4 < r 0,69 Correlao moderada
0,7 < r 0,89 Correlao forte
0,9 < r 1 Correlao muito elevada
Propriedades do coeficiente de correlao:
- Amplitude: vai de 1 at +1 (por causa do modo como definido)
- Sinal: indica a direo (sinal negativo: direo negativa e vice-versa)
- Magnitude: Quanto mais prximo dos extremos (-1 e 1), mais forte a associao linear.
Valor de r prximo de zero significa que no h associao linear, podendo haver outro
tipo de relao entre as variveis, como uma quadrtica, por exemplo.
- O coeficiente de correlao uma quantidade adimensional. No afetada por mudanas
de escala das variveis.
- No se trata de uma percentagem.
4.2 REGRESSO LINEAR SIMPLES
O estabelecimento de uma correlao entre duas variveis pode ter utilidade na previso dos
valores de uma delas (Y) a partir do conhecimento dos valores da outra (X). A tcnica empregada
em tais previses conhecida por anlise de regresso.
Vimos que a fora de uma correlao entre X e Y aumenta medida que os pontos do
diagrama de disperso concentram-se em torno de uma reta imaginria. Podemos agora identificar
essa curva pelo nome de reta de regresso, que uma reta interpolatriz obtida a partir da nuvem de
pontos do diagrama de disperso.
J foi salientado anteriormente que h poucas correlaes perfeitas (+ 1,00 ou -1,00) que a
natureza apresenta. Este fato muito importante porque, como regra geral, as previses tomam-se
mais acuradas medida que o coeficiente de correlao aproxima-se de 1,00. Quando a correlao
entre duas variveis for forte, mas no perfeita, possvel, ainda assim, construir uma linha de
regresso (previso) que se "ajuste bem" ao conjunto de pontos do diagrama. Isso verdadeiro
mesmo que nem todos os pontos da nuvem caiam exatamente sobre a reta (o que, alis, o mais
comum); no ficamos impedidos de fazer previses, mas devemos aceitar o fato de que a previso
ser tanto mais imprecisa quanto mais distante o ponto estiver da linha de regresso.
SOFEP
Niteri
Out/2009
33
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
Equao de Regresso
A equao de regresso, em smbolos, resulta na seguinte frmula:
Y' = r (sy/sx) x r (sy/sx) X + Y
onde
Y' = valor terico de Y (como se trata de uma previso, Y pode ser diferente de Y)
r= coeficiente de correlao linear de Pearson (r) para a relao entre as variveis X e Y
sy = desvio padro (amostral) da varivel Y
sx = desvio padro (amostral) da varivel X
x = um particular valor de x
X = mdia aritmtica dos valores (amostrais) da varivel X
Y = mdia aritmtica dos valores (amostrais) da varivel Y.
Observem-se os aspectos importantes:
Anlise de regresso no adivinhao. Tambm no um processo de "acertar a mosca". O
conjunto de pontos do diagrama de disperso define uma tendncia. A reta interpolatriz (isto , de
regresso) apenas "sintetiza" essa tendncia e permite uma generalizao, sob a forma de equao,
como se todos os pontos cassem sobre ela.
Do que ficou dito em (1), acima, decorre que: a) se Y = f(X) for funo matemtica, as
previses sero pontuais, isto , por ponto, e a preciso ser grande; b) se Y = f(X) for funo
estatstica, as previses sero intervalares, isto , os valores de y' pertencero a um intervalo. Da
que (y' - Y) = erro de estimao.
Num exemplo hipottico de uma anlise de regresso entre as variveis X e Y gerou a
seguinte equao: Y = 0,45X + Y
Isto significa que a cada aumento de uma unidade na varivel X, a varivel Y aumentar em
0,45 unidades.
Coeficiente de determinao (R2): o quadrado do coeficiente de correlao de Pearson e
expresso em porcentagem. o percentual explicado da variao da varivel dependente pela reta de
regresso (modelo). O restante explicado pelo erro, que pode ser devido a ausncia de outras
variveis, erros de mensurao das variveis e ao erro aleatrio.
Coeficiente angular ou inclinao (da reta de regresso: Y = a + b * X): a variao de Y
por cada variao de X. Representado pela letra b.
Intercepto (da reta de regresso: Y = a + b * X): o valor de Y, quando X = 0. A maioria
das vezes no faz sentido interpretar este valor. Representado pela letra a.
Re gress o
y = 0,56 03 x - 3 ,87 53
2
R = 0 ,92 22
12
11
10
9
8
7
6
5
4
12
SOFEP
14
16
18
20
Niteri
22
24
26
28
Out/2009
34
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
BIBLIOGRAFIA BSICA:
AYRES, M.; AYRES JR, M.; AYRES, D. L. & SANTOS, A. S. BioEstat 5.0: Aplicaes
estatsticas nas reas das cincias biolgicas e mdicas. Sociedade Civil Mamirau. Par, 2008.
BARROS, M.V.G.; REIS, R.S.; HALLAL, P.R.C & FLORINDO, A.A. Anlise de Dados em
Sade. 2 Ed. Recife: EDUPE, 2005.
BUSSAB, W. O. & MORETTIN, P.A Estatstica Bsica. 5 Ed. So Paulo:Atual, 2006.
KERLINGER, F. N. Metodologia da pesquisa em cincias sociais. 9 reimpresso. So Paulo:
Pedaggica e Universitria, 2003.
LEVIN, J. Estatstica Aplicada a Cincias Humanas. 2 edio, Editora HARBRA, So Paulo
SP. 1987.
SPIEGEL, M. R. Estatstica. Rio de Janeiro: McGraw-Hill do Brasil. 1972
TRIOLA, M.F. Introduo Estatstica. 7 Ed. Rio de Janeiro: LTC, 1999.
VIEIRA, S. Bioestatstica: Tpicos Avanados. 2 Ed. Rio de Janeiro: Elsevier, 2004.
SOFEP
Niteri
Out/2009
35
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
EXERCCOS
1) Avalie as afirmaes a seguir a respeito do Coeficiente de Correlao (r) de Pearson entre
duas variveis.
I - Se r=1, as observaes esto todas sobre uma linha reta no diagrama de disperso.
CERTO
II - Se r>0, a varivel independente aumenta quando a varivel dependente aumenta.
CERTO
III -Se r<0, a varivel independente decresce quando a varivel dependente decresce.
ERRADO
IV - Se r=0, no existe relao entre as duas variveis.
ERRADO
2) Um teste de hiptese foi aplicado e, ao nvel de significncia de 5%, rejeitou-se Ho. O que
acontecer, se forem adotados os nveis de significncia de 1% e de 10%, respectivamente.
A) rejeitar-se- Ho em ambos os casos - ERRADO
B) rejeitar-se- Ho a 1% e nada se pode afirmar quanto ao de 10% - ERRADO
C) nada se pode afirmar quanto ao de 1% e rejeitar-se- Ho a 10% - CERTO
D) nada se pode afirmar em ambos os casos - ERRADO
E) Aceitar-se- Ho a 1% e rejeitar-se- Ho a 10% - ERRADO
3) Deseja-se saber se a exposio ao conjunto de produtos qumicos lanados atmosfera
pelas indstrias de um distrito industrial pode causar diminuio dos glbulos brancos nos
indivduos residentes em bairros contguos a esse distrito industrial. Para essa verificao,
colheu-se sangue de uma amostra de 100 indivduos adultos residentes nesses bairros, tendo
sido encontrada uma mdia de 5.950 leuccitos por mm3 de sangue. Nessa situao,
considerando que a mdia normalmente observada entre adultos seja de 6.000 leuccitos por
mm3, com um desvio-padro de 400 leuccitos por mm3e uma probabilidade de acerto de
95%, julgue os itens seguintes.
1 - As hipteses mais adequadas para o problema apresentado so:
H0 = a mdia de leuccitos da populao alterada pela poluio atmosfrica;
H1 = a mdia de leuccitos da populao mantm o valor = 6.000.
ERRADO
2 - A probabilidade de Erro Tipo I de 0,05. CERTO
3 - Se X RC1 ou se X RC2 , em que RC1 e RC2 so os pontos que determinam as regies
crticas de rejeio de hiptese, a hiptese H0 ser rejeitada. CERTO
4 - Considerando-se zp = 1,96 para o nvel de significncia proposto, pode-se concluir que a
diferena observada nas mdias devida s flutuaes prprias da amostragem. CERTO
5 - Dentro do nvel de significncia, se a mdia da amostra fosse de 5.900 leuccitos por mm3, o
resultado do teste de hiptese - aceitao ou rejeio - permaneceria o mesmo. ERRADO
4) Joo e Pedro trabalham numa empresa como tcnicos, mas, atuando em departamentos e
reas distintas de operao. Em um ms de trabalho, Joo produziu 45 peas e Pedro 89. Os
escores z ou escores padronizados correspondentes a esses graus brutos so:
para Joo z=1,27 e
para Pedro z= - 0,63.
Coloque F (falso) ou V (verdadeiro) nas afirmativas abaixo, em relao ao desempenho dos
tcnicos em termos de produtividade, assinalando a seguir a alternativa correta.
(V) Joo mais produtivo do que Pedro e seu escore superior mdia do seu prprio grupo.
(F) Pedro to produtivo quanto Joo, mas o seu escore inferior mdia do seu prprio grupo.
SOFEP
Niteri
Out/2009
36
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
SOFEP
Niteri
Out/2009
37
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
C) Para um nvel de confiana de 95% como critrio de dvida, com base nos dados obtidos, o
perito tem argumentos suficientes para duvidar da culpabilidade do acusado, pois pelo menos dois
dos elementos analisados possuem concentraes significativamente diferentes nos fragmentos de
vidro incrustados no casaco, em comparao com a vidraa de vidro belga.
CERTO
SOFEP
Niteri
Out/2009
38
Israel Souza
Apostila de Bioestatstica
isra.sza@gmail.com
Com base no texto CE e sabendo que as drogas A, B e C so utilizadas para o mesmo fim,
julgue os itens que se seguem.
A) A droga C a melhor escolha teraputica. ERRADO
B) A droga A, na dose administrada, no apresenta utilidade teraputica.CERTO
C) A droga que se apresenta em maior quantidade no organismo na maior parte do tempo mostrado
na figura a droga C, uma vez que possui a maior rea sob a curva. CERTO
D) A droga que atinge mais rapidamente a sua mxima concentrao plasmtica a droga C, que
seguida da droga B. A droga A a que leva o maior tempo para atingir sua mxima concentrao
plasmtica. ERRADO
E) Ointervalo compreendido entre as concentraes plasmticas de 25 g/mL e 40 g/mL pode ser
denominado de janela teraputica. CERTO
9) Julgue os itens abaixo:
A) As curvas de distribuio normal mostradas ao lado tm aproximadamente o mesmo desviopadro e mdias significativamente distintas.
ERRADO
B) O intervalo de confiana de uma medida pode ser corretamente definido pela expresso
abaixo, em que representa a mdia, t o parmetro de Student, s o desvio-padro e n, o nmero de
medidas. ERRADO
SOFEP
Niteri
Out/2009
39