Académique Documents
Professionnel Documents
Culture Documents
Bioestatstica
2010
Copyright 2009. Todos os direitos reservados desta edio SECRETARIA DE EDUCAO A DISTNCIA
(SEAD/UECE). Nenhuma parte deste material poder ser reproduzida, transmitida e gravada, por qualquer
meio eletrnico, por fotocpia e outros, sem a prvia autorizao, por escrito, dos autores.
EXPEDIENTE
Design instrucional
Antonio Germano Magalhes Junior
Igor Lima Rodrigues
Pedro Luiz Furquim Jeangros
Projeto grfico
Rafael Straus Timb Vasconcelos
Marcos Paulo Rodrigues Nobre
Coordenador Editorial
Rafael Straus Timb Vasconcelos
Diagramao
Emilson Pamplona Rodrigues de Castro
Ilustrao
Marcos Paulo Rodrigues Nobre
Revisor
Eliseu Marlnio Pereira de Lucena
Capa
Emilson Pamplona Rodrigues de Castro
PRESIDENTE DA REPBLICA
Luiz Incio Lula da Silva
MINISTRO DA EDUCAO
Fernando Haddad
SECRETRIO DE EDUCAO A DISTNCIA
Carlos Eduardo Bielschowsky
DIRETOR DO DEPARTAMENTO DE POLTICAS EM EDUCAO A DISTNCIA DPEAD
Hlio Chaves Filho
SISTEMA UNIVERSIDADE ABERTA DO BRASIL
Celso Costa
GOVERNADOR DO ESTADO DO CEAR
Cid Ferreira Gomes
REITOR DA UNIVERSIDADE ESTADUAL DO CEAR
Francisco de Assis Moura Araripe
VICE-REITOR
Antnio de Oliveira Gomes Neto
PR-REITORA DE GRADUAO
Josefa Lineuda da Costa Murta
COORDENADOR DA SECRETARIA DE EDUCAO A DISTNCIA
Antnio Germano Magalhes Jnior
COORDENADOR GERAL UAB/UECE
Francisco Fbio Castelo Branco
COORDENADORA ADJUNTA UAB/UECE
Josete de Oliveira Castelo Branco Sales
COORDENADORA DO CURSO DE CINCIAS BIOLGICAS
Germana Costa Paixo
COORDENADORA DE TUTORIA E DOCNCIA DO CURSO DE CINCIAS BIOLGICAS
Jeanne Barros Leal de Pontes Medeiros
Unidade 1
Conceitos Fundamentais....................................................................................................... 9
Captulo 1 - Elementos de matemtica............................................................................... 11
1.1 Somatrio (notao sigma)..............................................................................................11
1.2 Fenmenos determinsticos e aleatrios......................................................................... 11
1.3 Modelos matemticos.....................................................................................................12
1.4 Noes sobre conjuntos...................................................................................................15
1.5 Anlise combinatria.......................................................................................................17
Unidade 2
Descrio das amostras........................................................................................................ 23
Captulo 1 - Organizao tabular e grfica dos dados......................................................... 25
1.1 Representao tabular.....................................................................................................25
1.2 Representao grfica......................................................................................................31
Unidade 3
Noes de Probabilidade....................................................................................................... 53
Captulo 1 - Probabilidade conceitos fundamentais........................................................ 55
1.1. Conceito de probabilidade..............................................................................................55
1.2. Espao amostral e evento...............................................................................................55
1.3 Probabilidade: definio e propriedades......................................................................... 56
1.4 Adio de probabilidades.................................................................................................57
1.5 Probabilidade condicional................................................................................................58
1.6 Teorema da multiplicao............................................................................................. 59
Unidade 4
Associao de variveis......................................................................................................... 75
Captulo 1 - Correlao linear simples................................................................................ 77
1.1 Conceito de correlao....................................................................................................77
1.2 Diagrama de disperso.....................................................................................................77
1.3 Coeficientes de correlao linear (r) e de determinao (r2)...........................................79
Unidade 5
Inferncia Estatstica.............................................................................................................. 101
Captulo 1 - Noes sobre amostragem.............................................................................. 103
1.1 Populao e amostra........................................................................................................103
1.2 Variveis e escalas e medidas.......................................................................................... 104
1.3 Amostragem.....................................................................................................................105
Os autores.
Unidade
Conceitos Fundamentais
Objetivos:
Captulo 1
Elementos de matemtica
x = x
i =1
+ x2 + ... + xn
x
i =1
k =1
BIOESTATSTICA
11
Na elaborao de modelos, o ponto de partida a prtica (a observao, a experimentao), ou premissas tericas sugeridas pela prtica. Parmetros so medidas associadas a um dado fenmeno e a inter-relao entre
parmetros selecionados constitui um modelo matemtico. Resultados esperados so aqueles obtidos pela aplicao de um modelo, em contraposio
a resultados observados, obtidos diretamente da prtica.
12
BIOESTATSTICA
Ano
1972
327,3
327, 297
1974
330,0
330, 263
1976
332,0
333, 230
1978
335,3
336, 197
1980
338,5
339, 163
1982
1984
341,0
344,3
342, 130
345, 097
1986
347,0
348, 063
1988
351,3
351, 030
1990
354,0
353, 997
Soluo:
Vamos usar os dados da tabela acima para fazer um mapa de disperso, mostrado na Figura 1.2, onde t representa o tempo (em anos) e C
representa o nvel de CO2 (em ppm).
Figura 1.2 Mapa de disperso para o nvel mdio de CO2 (STEWART, 2003).
BIOESTATSTICA
13
Observe que os pontos esto muito prximos de uma linha reta, dessa
forma, natural escolher um modelo linear neste caso. Porm, h inmeras
possibilidades de retas que aproximam esses pontos; assim, qual deveramos usar? Do grfico, vemos que uma possibilidade a reta que passa pelo
primeiro e o ltimo ponto dado. A inclinao dessa reta
Figura 1.3 - Modelo linear atravs do primeiro e do ltimo ponto dado (STEWART, 2003).
Embora nosso modelo se ajuste razoavelmente aos dados, ele d valores mais altos do que a maior parte dos nveis reais de CO2. Um modelo
linear melhor obtido por meio de um procedimento da estatstica chamado
de regresso linear (ser estudada no captulo 8). Usando esse recurso estatstico chegamos a seguinte equao de regresso
C = 1,496667t 2624,826667
14
BIOESTATSTICA
r =
30kg 1
= = 50%
60kg 2
Janeiro
100
Julho
120
Dezembro
132
132 100 32
=
= 32%
100
100
{a, b, c, d , e}.
15
A B = { x / x A ou x B } . Dados dois conjuntos A e B, chama-se interseco de A e B o conjunto formado pelos elementos que pertencem a A e a
B, e escreve-se A B = { x / x A e x B } .
Exemplo 1.5 Faa as operaes de soma e interseco com os conjuntos A = { 1,2,3,4
Soluo
e B=
3,4
16
BIOESTATSTICA
1.5.1 Fatorial
Chama-se fatorial de um nmero inteiro no negativo n (n 0), o inteiro que se indica por n!, e tal que:
n! = n (n-1) (n-2)...3.2.1 , para n 2.
Para n = 0 ou n = 1, temos n! = 1
Exemplo 1.7 Encontre os valores de: a) 5! e b) 7!.
Soluo:
a) 5! = 5.4. 3. 2.1 = 120
b) 7! = 7.6.5! = 7.6.5! = 42. 120 = 5040
n
n!
=
k k! ( n k ) !
8
8 8.7.6.5.4.3.2.1 8.7.6
=
=
= 56
56
3 3.2.1.5.4.3.2.1 3.2.1
BIOESTATSTICA
17
.
.
.
.
.
.
.
.
.
18
BIOESTATSTICA
3. Expresse
2 +2+ 6 +2 2 .
BIOESTATSTICA
19
20
BIOESTATSTICA
21
Aa x Aa
Combinaes possveis
AA
Aa
aA
aa
25
25
25
25
Normais
(75%)
Fentipos
Albinos (25%)
AA x Aa
Combinaes possveis
AA
AA
Aa
Aa
25
25
25
25
Fentipos
Normais (100%)
22
BIOESTATSTICA
Unidade
Descrio das
amostras
Objetivos:
Captulo 1
Organizao tabular e grfica dos dados
BIOESTATSTICA
25
Soluo:
Tabela 1.1 - Nmero de internaes na Regio Sul do Brasil no ano de 2008, de acordo
com o Estado, clnica e clientela.
Estado
Paran
Clientela
Urbana
Rural
Sta Catarina
Rio G. Sul
Urbana
Urbana
Rural
Total
Rural
Cirrgica
Clnica
Mdica
Peditrica
Total
Sobreviventes
Vacinados
Sim
No
Total
Sim
Sim
n3
n4
Total
n1
n2
n = n1 + n2 + n3 + n4
26
BIOESTATSTICA
Para tabelas 1.2, uma medida adequada o coeficiente de YULE, definido por:
Y=
ac bd
ac + bd
Sobreviventes
Vacinados
Sim
No
Total
Sim
130
70
200
Sim
80
160
240
Total
210
230
440
Temos:
Y=
M N
M +N
BIOESTATSTICA
27
Onde:
M (frequncia das concordncias): o somatrio dos produtos de
cada elemento pela soma dos que lhe esto abaixo e direita, sendo
a leitura feita da esquerda para a direita.
N (frequncia das disconcordncias): o somatrio dos produtos
de cada elemento pela soma dos que lhe esto abaixo e esquerda,
sendo agora a leitura feita da direita para a esquerda.
Observao importante: S so considerados os elementos centrais
da tabela e nunca os totais.
Exemplo 1.3 Para os dados da Tabela 1.4 calcule o coeficiente Gama.
Tabela 1.4 - Associao entre glicemia e glicosria.
Glicemia
Glicosria
Normal
Aumentada
Total
10
+
++
+++
Total
6
6
3
24
6
8
17
32
12
14
20
56
G=
531 93 438
=
= 0, 70
531 + 93 624
Interpretao:
G = 0,70; associao direta entre grau de glicosria e hiperglicemia,
ou seja, da amostra estudada, fica sugerido que o aumento da glicosria se
desenvolve na mesma direo do aumento da glicemia.
28
BIOESTATSTICA
Xi =
L+l
2
i = 1, 2, 3, ..., k
BIOESTATSTICA
29
3,8
4,3
4,5
5,0
5,2
5,3
5,3
5,4
5,5
5,6
5,8
5,9
5,9
6,0
6,5
6,5
6,5
6,7
6,8
7,0
7,2
7,4
7,9
n = 30 (tamanho da amostra)
8,4
8,8
Primeiro precisamos definir o nmero de classes ( N ), o qual depender do tamanho da amostra e de sua homogeneidade ( quanto mais homogneos forem os dados, de menos classes necessitaremos). Em geral, N
no deve ser inferior a 5 (grande perda de informao), nem superior a 15
(prejuzo para a simplicidade).
Uma regra emprica que alguns autores adotam, respeitadas as observaes do pargrafo anterior :
N n , dando-se preferncia aproximao mpar, que facilita a
apreciao da simetria.
No nosso exemplo: N 30 ; escolhemos ento N = 5 para o nosso nmero de classes. A amplitude total dos dados 8,8 3,8 = 5,0. Logo, a amplitude de cada classe ser:
C=
5,0
= 1,0
5
Classes
Frequncia ( f i )
3,8 | 4,8
4,8 | 5,8
5,8 | 6,8
6,8 | 7,8
7,9 | 8,8
TOTAL
30
fr =
fi
30
BIOESTATSTICA
c) Frequncia absoluta acumulada (faa): a soma da frequncia absoluta de uma classe, com as frequncias absolutas de todas as
classes anteriores.
d) Frequncia relativa acumulada (fra): a soma da frequncia relativa de uma classe, com as frequncias relativas de todas as classes
anteriores.
Exemplo 2.5 Encontre todas as frequncias para os dados da Tabela 1.5.
Soluo:
Vamos organizar os dados da Tabela 1.5 para obtermos a Tabela 1.6.
Tabela 1.6 - Distribuio de frequncia da Iodemia (g/dL) em 30 pessoas normais.
fa
f r (%)
f aa
f ra
3,8 | 4,8
10,00
10,00
4,8 | 5,8
30,00
12
40,00
5,8 | 6,8
30,00
21
70,00
6,8 | 7,8
16,66
26
86,66
7,8 | 8,8
13,33
30
100,00
TOTAL
30
100,00
Classes
31
Figura 1.1 - Freqncias absolutas dos nveis sricos de colesterol para 1067 homens dos
EUA, com idades entre 25 e 34 anos, 1976-1980 (PAGANO e GAUVREAU, 2006).
32
BIOESTATSTICA
SRIES
QUANTIDADE DE ALUNOS
1 Srie
2 Srie
400
300
3 Srie
200
4 Srie
100
TOTAL
1000
BIOESTATSTICA
33
Observaes:
a) As reas dos setores ou as porcentagens correspondentes aos setores so, respectivamente, proporcionais aos dados da srie e so
obtidos por meio de uma simples regra de trs.
b) Se voc desejar o ngulo do setor, o TOTAL ser representado pelo
crculo, que corresponde a 360.
c) Se voc desejar a porcentagem correspondente a um dado qualquer,
o TOTAL ser representado por 100%.
Exemplo 1.4 Usando as informaes contidas na Tabela 1.5 e na
Figura 1.4, responda:
a) Calcule o ngulo do setor correspondente a 1 srie.
b) Se o ngulo do setor equivalente aos alunos da 3 srie 72, determine a sua porcentagem correspondente.
c) Se o ngulo do setor equivalente aos alunos da 1 srie de 144,
determine a sua porcentagem correspondente.
Soluo:
a) 100%
40%
b) 360
72
c) 360
360
X
100
X
100%
X = 144
X = 20%
X = 40%
144
X
A Figura 1.5 esclarece os clculos executados.
34
BIOESTATSTICA
e) Curvas de frequncias
Figura 1.7 -
BIOESTATSTICA
35
f) Frequncias acumuladas
Fr (%)
3,8
4,8
10
5,8
12
40
6,8
21
70
7,8
26
87
8,8
30
10
36
BIOESTATSTICA
Captulo 2
Medidas de tendncia central
2.1. Introduo
Quando dispomos os dados numa tabela de distribuio de frequncia, no possvel estabelecer pontos, em torno do quais os dados se distribuem. Quando o interesse apresentar um conjunto de valores, atravs
de um nico nmero, so usadas as medidas de tendncia central ou de
posio: mdia aritmtica (ou simplesmente mdia), mediana e moda.
x=
x
i =1
x=
89 + 91 + 95 + 100 + 78 + 105
= 93
6
BIOESTATSTICA
37
Soluo:
Temos:
x=
x=
x f
f
i
Idade (anos)
Frequncia (f)
26
28
30
32
3
10
12
5
37
20
Temos:
Refazendo a Tabela 2.1 obtemos a Tabela 2.2.
Tabela 2.2 - Distribuio de pacientes renais, segundo a idade.
Idade (anos)
(x i)
Frequncia
( f i)
xi f i
26
78
28
10
280
30
12
360
32
37
5
20
160
740
50
1618
38
BIOESTATSTICA
Ento:
x=
1618
= 32, 4
50
Classe
2,0 | 3,0
3,0 | 4,0
15
4,0 | 5,0
5,0 | 6,0
Total
23
2
42
Soluo:
Rearranjando a tabela anterior para obtermos a Tabela 2.4.
Tabela 2.4 - Distribuio de pesos (kg) de recm nascidos do sexo masculino.
Classe
Ponto mdio (x i)
Frequncia ( f i )
xi f i
2,0 | 3,0
3,0 | 4,0
4,0 5,0
5,0 | 6,0
2,5
3,5
4,5
5,5
2
15
23
2
5
52,5
103,5
11
42
172
Ento,
x=
172
= 4,1 kg
42
BIOESTATSTICA
39
n +1
, se n for mpar.
2
n
n
e + 1 , se n for par.
2
2
n + 1 35 + 1
=
= 18 valor da srie.
2
2
Idade (anos)
Frequncia
Frequncia
acumulada
26
28
30
32
10
12
5
13
25
30
37
20
50
40
50
BIOESTATSTICA
Temos:
50
= 25
2
A menor frequncia acumulada que supera este valor 30, que corresponde ao valor 32 da varivel, sendo este o valor mediano. Logo: Md = 32
anos.
Classe
Peso ( kg )
Frequncia
1
2
3
4
2,0 | 3,0
3,0 | 4,0
4,0 | 5,0
5,0 | 6,0
2
15
23
2
Frequncia
acumulada
2
17
40
42
42
Temos:
f
2
42
= 21
2
21 17
4
1 =
23
23
e a mediana ser dada por: Md = 4 +
4
= 4,17 . Logo, Md = 4, 17 kg.
23
BIOESTATSTICA
41
Classe
1
2
3
4
5
P.D.
5,0 | 6,5
6,5 | 8,0
8,0 | 9,5
9,5 | 12,0
12,0 | 13,5
Total
Frequncia
4
8
17
5
2
36
Soluo:
No caso de distribuio de frequncias, costuma-se usar para estimar
a moda a frmula de KING:
M0 = L +
Onde:
1
.c
1 + 2
42
9
.1,5 = 8, 6 cm/hg.
9 + 12
BIOESTATSTICA
Captulo 3
Medidas de disperso ou de variabilidade
Grupo
Pesos (kg)
60
62
64
66
68
70
72
74
76
II
60
61
62
63
68
73
74
75
76
III
60
65
66
67
68
69
70
71
76
BIOESTATSTICA
43
3.3 Varincia
A varincia mede a disperso dos dados em torno da mdia. Seu clculo relativamente complexo, no entanto, como leva em conta todos os valores da varivel, um ndice de variabilidade bastante estvel e, portanto,
um dos mais empregados. expresso pela frmula:
n
s2 =
( x x)
i =1
n 1
x=
x
i =1
34 + 35 + 36 + 37 + 38
= 36
5
Desvios
Quadrados
dos desvios
( xi x)
( xi x)
34
-2
35
-1
36
37
38
Dados
(x i)
180
10
Logo,
S2 =
10
2,5
4
A partir de uma manipulao algbrica podemos expressar a varincia pela seguinte frmula alternativa
s2 =
44
x2
( x ) 2
n 1
BIOESTATSTICA
Xi
(X i)2
34
1156
35
1225
36
1296
37
1369
38
1444
180
6490
Ento:
s2 =
(180) 2
5 2,5
4
6490
x=
6 + 8 + 10
= 8 g / dL
3
Xi
(X i)2
6
8
10
36
64
100
24
BIOESTATSTICA
200
45
Logo:
s2 =
(24) 2
3 =2
2
200
Ento:
S=
2 1, 41g / dL
Classe
Frequncia
2 | 4
4 | 6
5
6
6 | 8
8 | 10
10
4
10 | 12
30
Adota-se o seguinte dispositivo a semelhana do que clculo da mdia, para construo da Tabela 3.5.
Tabela 3.5 Calculo do desvio padro.
Classe
2
4
6
8
| 4
| 6
| 8
|10
10 |12
Ponto
mdio
(x)
3
5
7
9
Frequncia
(f)
fx
xx
f ( x x) 2
5
6
10
4
15
30
70
36
-4
-2
0
2
80
24
0
16
55
80
30
206
200
11
N= 30; x =
Temos
s2 =
206
7
30
200
s 2,6
30
46
BIOESTATSTICA
CONJUNTO DE PACIENTES
PESO (kg)
ALTURA (m)
Mdia: 58,0
Desvio padro: 4,5
Mdia: 1,65
Desvio padro: 0,08
s
x
Peso: C.V. =
4,5kg
= 7, 7%
58, 0kg
Altura: C.V. =
0, 08m
4,8%
1, 65m
Mdia: 90
Desvio padro: 1,5
Joo: Q.I. = 94
Mdia: 104
Desvio padro: 4,0
Ricardo: Q.I. = 108
47
Varivel reduzida: z =
xx
s
Joo: z =
Ricardo: z =
94 90
2, 7
1,5
108 104
= 1,0
4
Logo, como 2,7 > 1,0, Joo est melhor situado, em termos relativos.
Nesta unidade estudamos a construo de tabelas, com bastante nfase a as tabelas de distribuio de frequncias, pela sua grande importncia em estatstica. No captulo seguinte analisamos as medidas de tendncia
central (media, mediana e moda) destacando as suas principais vantagens
e restries. No captulo posterior foram estudadas as medidas de variabilidade amplitude total, varincia e desvio padro. Vimos que a varincia
e o desvio padro so medidas mais adequadas que a amplitude total e
por isso as mais utilizadas. Encerrando o ltimo captulo desta unidade,
analisamos uma importante medida de disperso relativa, o coeficiente de
variao, que nos d uma boa idia da homogeneidade, traduzindo-se em
maior confiabilidade experimental.
48
45
46
47
49
52
42
44
47
42
43
50
49
46
47
49
51
50
43
43
45
46
49
52
50
51
BIOESTATSTICA
83
84
107
109
109 93 96 101
104
105
95
99
91 105 109 98
94
89
108
85
95 90
99 93
95
106
96
98
84 94
97 103
82
97
96
114
1,8
2,7
3,6
2,7
3,2
3,2
3,2
3,2
2,7
4,5
3,6
2,3
4,1
2,7
1,8
3,2
2,3
2,7
4,5
5,0
3,6
uma distribuio de freqncias desses pesos.
3,6
1,4
2,3
16
4
9
5
3
6
7
3
5
2
24
8
17
19
7
2
5
20
13
5
10
4
23
5
6
12
3
3
26
4
5
3
5
5
5
3
7
5
3
6
5
4
7
4
5
3
4
4
7
3
5
6
4
4
7
6
12
3
2
5
BIOESTATSTICA
49
Diagnstico
Frequncia
Displasia
1.010
Tumor benigno
344
Tumor maligno
Inflamatrio
329
54
Diversos
288
1280
980
1090
1210
1300
1000
1110
1220
1310
1010
1110
1240
1360
1020
1120
1240
1380
1040
1130
1260
1420
1040
1140
1270
1460
1070
1180
1270
50
BIOESTATSTICA
A taxa de anormalidade
Define-se taxa de anormalidade, A, como o nmero relativo de casos
cujos valores se encontram fora de um intervalo de referncia (normalidade)
previamente definido.
Deste modo, para um conjunto X de n valores ordenados, (X={x1,x2,...,xn}
e x1 < x2 < ... < xn ), com os limites do intervalo de referncia definidos por
Li = x3 , Ls = xn -2 e n = 10, o valor de taxa de normalidade pode ser calculado.
A=
VA
n
Onde:
VA = nmero de valores fora do intervalo de normalidade
N = nmero total de valores do conjunto
E resulta igual a
A=
4
= 0, 4
10
O que significa que 40% dos valores do conjunto esto fora do padro
de normalidade. Evidentemente, o intervalo de variao de A est entre 0 e
1. Ainda, quanto mais prximo de 1 for o seu valor, maior ser a disperso
do conjunto e vice-versa. Todavia, entende-se que, se A=0, no existem valores anormais, embora a disperso possa existir (no ser nula).
Do ponto de vista conceitual, a taxa de anormalidade difere das outras
medidas de disperso porque seu clculo se baseia na ordem dos elementos
de um conjunto e no no seu valor (como no caso do desvio padro). Desta
forma, a taxa de anormalidade uma medida de variabilidade ordinal. A
Taxa de Anormalidade apresenta algumas vantagens e algumas desvantagens quando comparada com outras medidas de variabilidade, conforme
resumido a seguir.
Restries:
a) O intervalo que define o valor de referncia pode no existir
b) O intervalo nem sempre define um mesmo percentual da populao
como normal
c) Podem existir, para uma mesma varivel, distintas opinies de normalidade, dependendo do local ou da poca. Deste modo, a taxa de
anormalidade, enquanto medida de variabilidade, est restrita ao
tempo e ao local de onde os dados foram coletados.
d) Ao se tentar construir uma medida de variabilidade, imagina-se
que, se o resultado desta medida for igual a zero, deveria indicar,
naturalmente, que a disperso nula e, portanto, no existe. EnBIOESTATSTICA
51
tretanto, no caso da Taxa de Anormalidade, A=0, no significa necessariamente ausncia de disperso, ou concentrao total dos
dados, e sim que no existem valores considerados anormais no
conjunto. Esta diferena de definio da Taxa de Anormalidade
deve ser sempre levada em conta para se evitarem erros de conceito.
Vantagens:
a) A visualizao do significado de A imediato e muito forte
b) A informao que carrega, por si s, muito significativa e autoexplicativa.
c) O processo de clculo simples e rpido.
d) A disperso medida por A no afetada por valores exorbitantes,
pois trabalha com nmero de casos e no o valor desses casos. Desta forma, constitui um indicador de base ordinal.
(Extrado de ARANGO,2005)
52
BIOESTATSTICA
Unidade
Noes de
Probabilidade
Objetivos:
Captulo 1
Probabilidade conceitos fundamentais
tados possveis chama-se Espao amostral (E). Evento qualquer subconjunto do espao amostral.
Exemplo 5.1 Lanamento de um dado e registro do resultado
Espao amostral: E = {1,2,3,4,5,6}
Evento ocorrer nmero mpar: A = {1,3,5}
BIOESTATSTICA
55
Ateno!
Sendo E o espao amostral temos:
i) A Ac = E
ii) A Ac =
Exemplo 5.2 No lanamento de um dado, considere o evento A formado pelos resultados menores do que 3. O complementar de A (Ac) formado por todos os resultados maiores ou iguais a 3. Isto :
A = { 1,2}
Ac = {3,4,5,6}
n( A)
n( E )
Exemplo 1.3 Um casal normal para o albinismo tem um filho albino. Qual a probabilidade do prximo filho tambm ser albino?
Se o casal normal, mas j teve um filho albino, isto indicao
segura de que so heterozigotos em relao a esse carter; logo, o espao
amostral (G) dos gentipos dos descendentes dado pelo cruzamento:
Aa X Aa G = {(AA), (Aa),(aA),(aa)} e n(G) = 4
O evento correspondente a filho albino constitudo pelo gentipo aa,
ou seja :
A = {(aa)} n(A) = 1
Ento P(A) =
n( A) 1
=
n(G ) 4
1.3.2 Propriedades
Sendo E um espao amostral finito e no vazio e sendo A um evento
de E, tem-se que:
I ) P( ) = 0
II ) P(E) = 1
III ) 0 P(A) 1
IV) P(A) + P(Ac) = 1
De fato:
56
BIOESTATSTICA
I.
n()
0
=
=0
n( E ) n( E )
II . P(E) =
n( E )
=1
n( E )
0 n(A) n(E)
Dividindo cada membro dessa igualdade por n(E),
0
n( A)
n( E )
n( E )
n( E )
n( E )
0 P(A) 1
. Do princpio aditivo da
nE ) n( A) n( Ac )
=
+
n( E )
n( E ) n( E )
P(A) + P(Ac) = 1
Exemplo 1.4 Uma urna contm exatamente 10 etiquetas, numeradas de 1 a 10. Retira-se uma etiqueta da urna. Qual a probabilidade de se
obter:
a) Um nmero maior que 10?
b) Um nmero menor que 11?
O espao amostral do experimento E = {1,2,3,...,10}.
a) O evento que queremos A = {x E / x > 10} =
impossvel. Portanto, P(A) =0.
; logo, A evento
n( A B) n( A) n( B) n( A B)
=
+
57
1
4
1 1 1
+ =
4 4 2
58
BIOESTATSTICA
n( A B )
n( A)
n( A B ) 2
P(A/B) =
=
n( B )
3
B = {(AA),(Aa),(Aa)}
n (B) = 3
que:
n( A B )
n( A)
n( A B )
P( A B)
n( E )
=
P(B/A) =
n( A)
P( A)
n( E )
Finalmente:
P(A B ) = P(A) . P(B/A).
BIOESTATSTICA
59
60
5
1
5
=
= 5 por milho
1000 1000 1000000
BIOESTATSTICA
Captulo 2
Modelos probabilsticos em biologia
(2) Uma urna contm 3 bolas vermelhas e 5 brancas. Uma bola extrada,
observada sua cor e reposta na urna; este procedimento repetido 6
vezes. Cada extrao um ensaio, em que h dois resultados possveis:
bola vermelha ou bola branca. Neste caso, chamando o sucesso de bola
3
5
vermelha temos p =
eq=
8
8
Em suma, as premissas do modelo binomial so:
a) Situao envolvendo um nmero finito de tentativas;
b) Os resultados das diversas tentativas so independentes, de tal modo
que a probabilidade de certo resultado seja a mesma em cada tentativa;
c) Cada tentativa admite s dois resultados, mutuamente exclusivos,
tecnicamente chamados: sucesso e fracasso.
BIOESTATSTICA
61
P(k) = p q
k
nk
Onde:
n = nmero de tentativas independentes
k = nmero de sucessos dentre as n tentativas
p = probabilidade de sucesso em cada tentativa
q = 1 p, probabilidade de fracasso em cada tentativa
O problema de obter k sucessos em n ensaios de Bernoulli pode ser
encarado como um problema cujo espao amostral E = {0,1,2,...,n}, isto ,
cada elemento de E o nmero de sucessos em n ensaios de Bernoulli e a
distribuio de probabilidade dada por
P(k) = p q
k
nk
30
5
25
(0,1) (0,9) 0,102
5
Exemplo 2.3 Postula-se que certa dieta reduz a colesterolemia em
75% dos casos. Aplicada a uma amostra aleatria de 5 indivduos, qual a
probabilidade de exatamente 3 sucessos?
Soluo
Em cada escolha de um indivduo, consideremos os resultados:
Sucesso: a dieta reduz o colesterol em 75%
Fracasso: a dieta no reduz o colesterol em 75%
Ento p = 0,75; q = 0,25 ; n = 5
62
BIOESTATSTICA
5
3
53
(0, 75) (0, 25) = 10.0, 42.0, 0625 = 0, 2625
3
Isto , em cerca de 26,25% de amostras de 5 indivduos, ocorrero 3
sucessos.
Exemplo 2.4 As crianas com anemia de Cooley so, quase sempre,
filhos de casais assintomticos que correm risco de 25% de gerar outra
criana com essa anemia. Os casais com tais riscos podem ser diagnosticados por intermdio de exames laboratoriais relativamente simples. Entre
tais casais com cinco filhos qual o percentual esperado daqueles com anemia de Cooley manifestada em:
a) Um filho?
b) Trs filhos?
c) Todos os filhos?
Soluo:
Consideremos os seguintes resultados:
Sucesso: No ter anemia
Fracasso: ter anemia
Ento p = 0,75; q = 0,25; n =5
5
1
5
2
3
(0, 75) (0, 25) 0, 0879 = 8, 78%
2
b) P(3) =
1
4
c) ( ) = 0,001 = 0,1%
2 (l-se sigma
2 = npq
1
BIOESTATSTICA
63
2 = 10 .
1 1
.
= 2,5
2 2
1
= 60
4
1 3
= 6, 71
4 4
= npq = 240 x x
Exemplo 6.7 Ao reunir dados da literatura a respeito de uma anomalia hereditria verificou-se que, dentre 221 indivduos, filhos de pai ou
me com a referida anomalia, 114 eram normais (65 do sexo masculino e 49
do sexo feminino) e 107 apresentavam a mesma anomalia de um dos seus
genitores (58 do sexo masculino e 49 do sexo feminino) Na hiptese de que a
razo entre normais e anmalos entre os indivduos analisados 1:1 calcular o nmero esperado de anmalos, bem o desvio padro, em relao aos:
a) Indivduos do sexo masculino
b) Indivduos do sexo feminino
c) Conjunto dos 221 indivduos
Soluo:
Filhos
Masculino (M)
Feminino (F)
M+F
Normais
65
49
114
Anmalos
58
49
107
Total
123
98
221
= 221x0,5 x0,5 = 7, 43
64
BIOESTATSTICA
= np
O modelo matemtico de Poisson dado pela expresso:
P(k) =
k e
k!
Onde:
k = nmero de sucessos
e = base do logaritmo natural
3.000
(0,0012)3 (0,9988) 2.997
P(3) =
3
65
Ento:
P(3) =
66
BIOESTATSTICA
Evidentemente, a rea total sob a curva 1, ou 100%. Os valores dessas reas podem ser obtidos por integrao, mas na prtica so facilmente
calculados, atravs de uma tabela, a qual fornece diretamente a rea entre
a mdia e um dado valor da varivel.
Assim, vamos aceitar sem demonstrao que, se X uma varivel
aleatria com distribuio normal de mdia e desvio padro , ento a
varivel
Z=
i) P ( < X < x )
67
d) p(1,44 z 1,96)
e) p( z -1,96)
f) p( z 1,96)
Soluo:
A tabela vai nos fornecer diretamente esses valores: na primeira coluna voc procura os dois primeiros dgitos e na linha z o ltimo.
a) p(0 z 1,96)= 0,4750 = 47,50
b) p(0 z 2,56) = 0,4949
c) p(-1,44 z 0) = 0,4251
d) p(1,44 z 1,96) = p( 0 z 1,96) - p (0 z 1,44) = 0,4750 0,4251= 0,0499
e) p(z -1,96) = 0,5 0,4758 = 0,0242
f) p( z 1,96) = 2 ( 0,5 04758) = 0,0484
Para os casos (a) e (b) as reas so mostradas na Figura 6.4, e as reas dos demais casos ficam a cargo do leitor.
Exemplo 2.10. Pesos de baos na forma hepatoesplnica da esquistosomose se distribuem, normalmente, com mdia 250 g e desvio padro, 15 g.
Determine a probabilidade de um peso no intervalo 256 g e 280 g.
Soluo:
Temos:
Z=
Z1 =
256 250
= 0, 4
15
Z 2=
280 250
= 2, 0
15
68
BIOESTATSTICA
Nesta unidade foram abordados conceitos elementares sobre probabilidade em espaos amostrais finitos. Inicialmente foram definidos alguns
dos principais termos como espao amostral e evento e, a partir deles construiu-se a definio de probabilidade. A seguir foram enunciadas e justificadas as propriedades das probabilidades, ficando demonstrado que a probabilidade assume valores compreendidos entre 0 e 1, inclusive. Fechamos
o captulo 5, com um conceito muito importante probabilidade condicional. No captulo 6, foram apresentados os principais modelos probabilsticos (distribuio de probabilidade) binomial, Poisson e normal; que so de
inestimvel valor prtico. Todos os tpicos desenvolvidos foram permeados
por inmeros exemplos na rea biolgica, particularmente gentica.
BIOESTATSTICA
69
70
BIOESTATSTICA
BIOESTATSTICA
71
Os jogos de azar so usados pelo homem desde a antiguidade e constituem modelos de situaes comandadas pelo acaso. No de admirar,
portanto, que estejam associados aos primeiros interesses por uma anlise
matemtica da questo da incerteza. Embora alguns problemas especficos
j tivessem sido resolvidos antes dessa poca, as bases da teoria da probabilidade surgiram somente na metade do sculo XVII, em uma troca de
cartas entre dois ilustres matemticos franceses, Blaise Pascal (1623-1662)
e Pierre de Fermat (1601-1665), iniciada em 1654.
Esta correspondncia envolvia o problema de como dividir o prmio
de um jogo envolvendo vrias partidas se, por alguma razo, o jogo fosse
interrompido antes que algum jogador tivesse vencido o nmero de partidas
combinado previamente. O problema, que no era novo, foi apresentado a
Pascal por Antoine Gombaud, o Chevakier de Mer, homem de letras e membro da corte de Luis XIV. Pascal e Fermat apresentaram solues diferentes
para o problema, sendo que o primeiro buscou a resposta usando os valores
esperados de duas aes alternativas enquanto Fermat centrou a soluo
no clculo de probabilidades de um evento. Nenhum dos dois, no entanto,
publicou imediatamente seu resultado.
De Mer avaliou, depois, que o estudo matemtico das probabilidades
no era coisa que deveria ser pesquisada a fundo, e afirmou que o tempo
gasto nesse estudo poderia ser mais bem-empregado, opinio que felizmente no foi compartilhada por vrios matemticos da poca. Em 1655,
esteve na Frana o astrnomo, fsico e matemtico holands Christian Huygens (1629-1695), que tomou conhecimento do problema da diviso do prmio, e no sabendo da soluo dos franceses, dedicou-se a buscar tambm uma resposta. A soluo de Huygens acabou sendo publicada primeiro
(1657) que as de Pascal e Fermat (1679), naquele que seria o primeiro livro
a tratar do clculo de probabilidades.
O interesse pelo assunto comeou a crescer entre os matemticos.
Jacques Bernoulli (1654-1705), entre outras contribuies, enunciou e demonstrou a Lei dos grandes nmeros: Se n for suficientemente grande, a
diferena entre a frequncia relativa de um evento e a sua probabilidade
verdadeira um nmero desprezvel, importante teorema que uniu o conceito abstrato da probabilidade com a realidade com a realidade expressa
pelos nmeros. Pierre-Simon de Laplace (1749-1827), matemtico, fsico e
astrnomo francs, embora talvez mais conhecido pelas suas descobertas
em mecnica celeste, tambm tem uma participao importante no mbito
da teoria de probabilidades. Entre outras descobertas e proposies, Laplace notou que a distribuio binomial aproxima-se de uma normal quando
n cresce, desenvolveu diversos mtodos a serem usados em demografia,
entre eles um modo de construir tabelas de mortalidade, e verificou que na
Frana nasciam mais homens do que mulheres, na razo 25/24, aproximadamente. Laplace costumava dizer que a teoria de probabilidades nada
mais do que o bom senso transformado em clculo. Foi somente aps a
72
BIOESTATSTICA
BEIGUELMAN, B. Curso prtico de bioestatstica. Ribeiro Preto: Sociedade Brasileira de Gentica, 1988. 196 p.
CALLEGARI-JACQUES, S. M. Bioestatstica: princpios e aplicaes. Porto
Alegre: Artmed, 2003. 255 p.
HAZZAN, S. Fundamentos de matemtica elementar. So Paulo: Atual
Editora Ltda, 1993. v. 5, 149 p.
PAIVA, M. Matemtica. So Paulo: Editora Moderna, 1995.v. 2, 592 p.
OLIVEIRA, E. G.; MOREIRA, O, C. Guia para o ensino introdutrio da estatstica nos cursos da rea de sade. Fortaleza: Universidade Estadual do
Cear, 1987. 149 p.
VIEIRA, S. Introduo bioestatstica. Rio de Janeiro: Campus, 1988. 294 p.
BIOESTATSTICA
73
Unidade
Associao de
variveis
Objetivos:
Captulo 1
Correlao linear simples
BIOESTATSTICA
77
Aluno (n)
Disciplina
Matemtica (X)
Fsica (Y)
05
5,0
6,0
11
8,0
9,0
12
7,0
8,0
21
10,0
10,0
29
6,0
5,0
37
7,0
7,0
40
9,0
8,0
41
3,0
4,0
49
8,0
6,0
50
2,0
2,0
78
BIOESTATSTICA
1.3.1 Clculo de r
O instrumento empregado para a unidade da correlao linear o coeficiente de correlao de Pearson, estabelecido pela frmula seguinte:
r=
x y
xy n
2
2
x)
y)
(
(
2
2
x
y
n
n
Peso mido
Peso seco
6,69
2,04
7,71
2,25
6,49
2,01
7,38
2,21
6,14
1,87
7,43
2,30
10,23
2,83
7,32
1,92
Soluo:
Vamos refazer a tabela com os clculos necessrios, construindo a
Tabela 1.3 (vire a pgina)
BIOESTATSTICA
79
x2
y2
xy
6, 69
2, 04
44, 7561
4, 1616
13, 6476
7, 71
2, 25
59, 4441
5, 0625
17, 3475
6, 49
2, 01
42, 1201
4, 0401
13, 0449
7, 38
2, 21
54, 4644
4, 8841
16, 3098
6, 14
1, 87
37, 6996
3, 4969
11, 4818
7, 43
2, 30
55, 2049
5, 2900
17, 0890
10, 23
2, 83
104, 6529
8, 0089
28, 9509
7, 32
1, 92
53, 5824
3, 6864
14, 0544
17,43
451, 9245
38, 6305
131, 9259
59,39
Assim,
r=
131,9259
( 59,39 )
451,9245
8
8
2
17, 43)
(
38, 6305
ou seja,
r =
131,9259 129,3959625
2,5299375
Logo, r = 0,94140892 .
r 2 = 0,886250755
Isto significa que 88% da variao observada no peso mido so explicados pelo fato de que o peso seco tambm varia (e vice versa).
80
BIOESTATSTICA
Captulo 2
Regresso linear simples
Por outro lado, a anlise da Figura 8.2 revela uma aproximao linear. O motivo de se falar numa aproximao linear entre duas variveis x
e y, reside no fato de que os pares de valores ( xi , y i ) , i = 1, 2, ..., n (correspondente ao total de pares) representam pontos do plano que podem no se
localizar exatamente sobre a reta, mas se distribuem ao longo dessa reta,
em ambos os seus lados.
BIOESTATSTICA
81
Figura 2.2 Aproximao linear entre duas variveis x e y (THORNER e BONN, 1966;
citado por AGUIAR et al., 1988).
Na Figura 2.2 esto representados 15 pontos. Note-se que relativamente a cada ponto ( xi , y i ) devemos fazer a distino entre o valor observado y1 e o valor previsto pelo modelo y i , que calculado a partir de uma
relao funcional yi = 0,95 x1 585 , chamada equao de Regresso Linear.
Segundo Aguiar et al. (1988) a diferena ei = y i y i o erro experimental em que se incorre, no exemplo em questo, quando se procura estimar o valor de y (volume cardaco) a partir de x (massa heptica) no ponto
x = x i. Ainda segundo esses mesmos autores, se no existissem erros experimentais (que nada mais so do que flutuaes devidas ao azar ou nossa
ignorncia), ento a reta y = f(x) representaria de forma exata o fenmeno.
Entretanto, na prtica, fenmenos biolgicos exigem, via de regra, modelos
mais complexos para suas previses.
x y
xy n
a=
( x)
x n
2
b = y ax
82
BIOESTATSTICA
x
1
2
3
4
5
6
y
7
6
6
4
1
1
Faa um curvograma.
Encontre a equao de regresso.
Soluo:
O curvograma, como vimos, feito simplesmente plotando-se os pontos no plano cartesiano e ligando-os por segmentos de reta, como mostra a
Figura 2.3.
Para encontrarmos a de equao de regresso, precisamos fazer alguns clculos intermedirios, que so mostrados na Tabela 2.2.
BIOESTATSTICA
83
xy
x2
12
18
16
16
25
36
21
25
64
91
a=
64
( 21)( 25)
6
441
91
6
61 87,5 26,5
=
= 1,51
91 73,5 17,5
y = 1,51x + 9, 455
Observe a Tabela 2.3 a seguir onde comparamos os valores reais e os
valores obtidos pelo modelo:
Tabela 2.3 - Valores obtidos (
7, 945
6, 435
4,925
3, 415
1, 905
0,395
84
BIOESTATSTICA
4,0
8,0
16
15,0
32
22,6
64
36,4
128
45,3
256
60,0
xy
x2
4,0
4,0
1,0
8,0
32,0
16,0
16
15,0
240,0
256
32
22,6
723,2
1024
64
36,4
2.329,6
4096
128
45,3
5798,4
16384
256
60,0
15.360,0
65.536
501
191,3
24.487,2
87313
BIOESTATSTICA
85
a=
24487, 2
( 501)(191,3)
7
2
501)
(
87313
7
log x
0
Y
4,0
0,602
8,0
1,204
15,0
1,505
22,6
1,806
36,4
2,107
45,3
2,408
60,0
86
BIOESTATSTICA
log x
(log x).y
(log x)2
0,602
8,0
4,816
0,362
1,204
15,0
18,06
1,450
1,505
22,6
34,013
2,265
1,806
36,4
65,738
3,262
2,107
45,3
95,447
4,439
2,408
60,0
144,48
5,798
9,632
191,3
362,554
17,576
a=
362,554
( 9, 632 )(191,3)
7
2
( 9, 632 )
17,576
7
b = 27,328 22,9811,376
Logo,
modelo 2.
Como podemos observar pelo grfico de disperso, figura 2.5, depois
da transformao de x em log (x), a distribuio dos pontos continuou sendo
em torno de uma curva, logo o modelo linear ainda no parece adequado.
Com uma nova tentativa de melhorar o ajuste faremos transformaes nas
variveis x e y, como pode ser visto no exemplo 2.4.
Exemplo 2.4 - Considere os dados da Tabela 8.8.
Tabela 2.8 - Valores de x e valores de logaritmos de y.
log y
0, 602
0, 903
16
1, 176
32
1, 354
64
1, 561
128
1, 656
256
1, 778
BIOESTATSTICA
87
Soluo:
c)
a=
log y
x (log y)
x2
0, 602
0, 602
0, 903
3, 612
16
16
1, 176
18, 816
256
32
1, 354
43, 328
1024
64
1, 561
99, 904
4096
128
1, 656
211, 968
16384
256
1, 778
455, 168
65.536
501
9,030
833,398
87.313
833,398
( 501)( 9, 03)
7
2
501)
(
87.313
7
833,398 646, 29
187,108
=
= 0, 004
87.313 35.857, 286 51.455, 714
88
BIOESTATSTICA
log (x)
log (y)
0, 602
0, 602
0, 903
1, 204
1, 176
1, 505
1, 354
1, 806
1, 561
2, 107
1, 656
2,408
1, 778
BIOESTATSTICA
89
Tabela 2.8 - Clculos necessrios para obteno da curva de regresso de log (y)
contra log (x).
log (x)
log (y)
(log x)(log y)
(log x)2
0, 602
0, 602
0, 903
0, 543606
0, 362404
1, 204
1, 176
1, 415904
1, 449616
1, 505
1, 354
2, 037770
2, 265026
1, 806
1, 561
2, 819166
3, 261636
2,107
1,656
3, 489192
4,439449
2,408
1,778
4, 281424
5,798464
9,632
9, 03
14, 587062
17,576594
a=
14,587062
( 9, 03)( 9, 632 )
7
2
( 9, 632 )
17,576594
7
b=
= 0,500
9, 03
9, 632
0,5
= 0, 602
7
7
Variveis
Modelo 1
Modelo 2
Modelo 3
Modelo 4
12,522443
1,376000
18,407720
3,999447
13,151853
15,211940
18,923436
7,998895
16
15
15,669494
29,047881
21,134890
15,997790
32
22,6
19,026349
36,965851
24,490632
22,624292
64
36,4
25,740059
42,883821
32,885163
31,995580
128
45,3
39,167479
49,801792
59,292532
45,248583
256
60
66,022319
56,719762
192,75249
63,991160
ou
x
90
BIOESTATSTICA
Esta unidade teve como objetivo central estudar a associao de variveis e a possibilidade de estabelecer um modelo matemtico que permitisse
prever o valor de varivel conhecido o valor da outra. Inicialmente estudamos a correlao linear simples que pode ser calculada quando se deseja
saber se a variao de uma delas acompanha proporcional ou inversamente
a variao de outra. A regresso linear simples (estudada no captulo 8) se
baseia na construo de um modelo linear Y = a + bX, relacionando as duas
variveis, e permitindo que se faa previses restritas a determinados intervalos. Foram tambm discutidas algumas transformaes matemticas,
como por exemplo, o uso de logaritmos, para melhor ajustar o modelo linear.
1. Em um estudo conduzido na Itlia, 10 pacientes com hipertriglicedemia forma colocados sob dieta de baixas gorduras e altos carboidratos. Antes de inici-la as medidas de colesterol e de triglicerdeos
foram registrados para cada indivduo, conforme tabela abaixo:
Paciente
Nvel de colesterol
(mmol/L)
Nvel de
triglicerdeos
(mmol/L)
5,12
2,30
6,18
2,54
6,77
2,95
6,65
3,77
6,36
4,18
5,90
5,31
5,48
5,53
6,02
8,83
10,34
9,48
10
8,51
14,20
BIOESTATSTICA
91
Peso mdio
30
63,94
34
74,91
38
81,65
42
95,05
46
105,89
1,87
7,43
2,30
10,23
2,83
7,32
1,92
92
Idade gestacional
Peso ao nascer
28
1.250
30
1.750
32
1.250
34
1.750
35
1.750
36
2.250
37
1.750
38
2.250
39
2.750
39
3.250
39
4.250
40
2.250
40
3.250
40
3.750
41
2.750
41
3.250
42
4.250
BIOESTATSTICA
1,4
7,5
8,5
11
13
14
14,5
16
17
18
20
23
30
25
31,5
27,5
39,5
38
43
49
55
48,5
51
64,5
63
68
89
90
75
30
51
75
62
45
90
20
4,5
5,5
13
15
14
17
22
35
43
80
85
91
92
96
100
% Pb = Y
17
18
25
58
59
41
30
43
58
BIOESTATSTICA
93
Temperatura
Velocidade inicial
20
0,065
25
0,080
30
0,108
35
0,121
40
0,147
Ano
1970
2,419
1971
1,732
1972
1,361
1973
1,108
1974
0,996
1975
0,952
1976
0,904
1977
0,792
1978
0,701
1979
10
0,890
1980
11
0,799
1981
12
1,084
a) Construa um grfico de disperso bidimensional da taxa de fatalidade versus tempo. O que esse grfico sugere sobre a relao entre
as duas variveis?
b) Para modelar a tendncia nas taxas de fatalidade, ajuste a linha de
regresso y = ax + b, onde x representa o tempo (ano).
c) Transforme agora a varivel explicativa x para ln (x), crie um grfico de disperso da taxa de fatalidade versus logaritmo natural do
tempo (ano) e ajuste o modelo de regresso.
d) Transforme x em , crie um grfico de disperso da taxa de fatalidade versus o recproco do tempo (Ano) e ajuste o modelo de regresso.
94
BIOESTATSTICA
11. Em um estudo conduzido na Itlia, 10 pacientes com hipertrigliceridemia foram colocados sob dieta de baixas gorduras e altos carboidratos. Antes de inici-la, as medidas de colesterol e de triglicerdeos
foram registradas na Tabela 2.10.
Tabela 2.10 Nveis de colesterol de triglicerdeos de 10 pacientes
com hipertrigligeridemia.
Paciente
1
2
3
4
5
6
7
8
9
10
Nvel de colesterol
(m mol/L)
Nvel de triglicerdeos
(m mol/ L)
5,12
6,18
6,77
6,65
6,36
5,90
5,48
6,02
10,34
8,51
2,30
2,54
2,95
3,77
4,18
5,31
2,53
8,83
9,48
14,20
Nao
Imunizao %
Bolvia
Brasil
Camboja
Canad
China
Repblica Tcheca
Egito
Etipia
Finlndia
Frana
Grcia
ndia
Itlia
Japo
Mxico
Polnia
Rssia
Senegal
Turquia
Reino Unido
77
69
32
85
94
99
89
13
95
95
54
89
95
87
91
98
73
47
76
90
118
65
184
8
43
12
55
208
7
9
9
124
10
6
33
16
32
145
87
9
BIOESTATSTICA
95
Peso (kg)
23,0
22,7
21,2
21,5
17,0
28,4
19,0
14,5
19
19,5
22,0
21,5
20,5
20,6
21,0
25,0
21,0
20,0
19
19,0
Ano
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1
2
3
4
5
6
7
8
9
10
11
12
2,419
1,732
1,361
1,108
0,996
0,952
0,904
0,792
0,701
0,890
0,799
1,084
96
BIOESTATSTICA
0
33,10
20
89,52
40
210,89
60
438,98
1,4
7,5
8,5
11
13
14
14,5
16
17
18
20
23
30
25
31,5
27,5
39,5
38
43
49
55
48,5
51
64,5
63
68
% de anomalias
celulares
30
27
22
23
18
16
BIOESTATSTICA
97
98
BIOESTATSTICA
BIOESTATSTICA
99
Unidade
Inferncia Estatstica
Objetivos:
Captulo 1
Noes sobre amostragem
103
104
BIOESTATSTICA
1.3 Amostragem
O estudo deste captulo j nos deixou clara a importncia de se estudar amostras, mas vale a pena insistir nas vantagens do exame de simples
amostras sobre a anlise direta e inteira da populao, verificando algumas
consideraes feitas por Oliveira e Moreira (1987):
a) Se a populao infinita ou hipottica, evidente que s nos ser
permitido o uso de amostras. Mesmo que as populaes no sejam
infinitas mais vantajoso o exame apenas de amostras, porque:
b) Haver economia de tempo;
c) Haver economia de custos;
d) Examinando menos itens, temos mais chances de anlise aprofundada;
e) Em certos casos, o exame de toda a populao levar a destruio
de seus elementos, com prejuzos graves e irreversveis, alm de
concluses inteis. Por exemplo, para um hemograma, tomamos
apenas uma amostra de sangue do paciente; para que se examinasse o sangue total (populao), levaramos o paciente a um choque hipovolmico (teramos um perfeito diagnstico... para um defunto!);
f) Se no bastassem os argumentos j citados teramos um definitivo:
A EXPERINCIA TEM DEMONSTRADO QUE BOA AMOSTRAGEM
FUNCIONA!
BIOESTATSTICA
105
Para que os resultados obtidos atravs de amostras possam ser generalizados para a populao, isto , para que se possam realizar inferncias
vlidas, a amostra deve ser representativa da populao. A melhor maneira
de se obter uma amostra representativa empregar um procedimento aleatrio para seleo dos indivduos. Alguns mtodos bsicos de amostragem
(obteno de amostras) aleatrias so apresentados a seguir.
m!
3!
3.2!
=
= 3 . Estas amostras so AB, AC e BC (veja tamso possveis =
2!
2 2!(3 2)!
bm o captulo 1).
106
BIOESTATSTICA
BIOESTATSTICA
107
Captulo 2
Noes de inferncia estatstica
Consiste em avaliar uma medida populacional (parmetro) a partir da informao amostral (estatstica, substantivo comum). Em
geral, para evitar confuso, salienta-se a diferena entre as duas
medidas, assim: - letras romanas para as estatsticas ( X : mdia; s:
desvio padro) e gregas para os respectivos parmetros ( : mdia;
: desvio padro).
b) Teste de hipteses
Consiste em julgar hipteses sobre populaes utilizando os conhecimentos amostrais. V-se que a Inferncia Estatstica, em seus
dois ramos, prope-se a extrair concluses gerais (sobre a populao), dispondo somente de informaes particulares (amostrais),
procedimento que est, fatalmente sujeito a erro, que no pode ser
eliminado, mas que pode ser avaliado, merc dos recursos do clculo de probabilidades e da teoria da amostragem. O erro de que se
fala em estatstica no deve ser confundido com engano, erro grosseiro; antes, aqui o consideramos como conseqncia inevitvel da
tentativa de generalizao, da flutuao amostral.
impossvel, num simples captulo destinado a principiantes, descrever todos os fundamentos e recursos da inferncia estatstica,
de modo que apresentaremos somente, de forma elementar e sem
grandes preocupaes de rigor terico, exemplos simples de aplicaes do mtodo.
108
BIOESTATSTICA
a)
lao original.
b)
X =
quadrada do tamanho da amostra. O desvio padro de uma distribuio amostral se chama tambm de erro padro, no caso examinado: erro padro da mdia.
Existem outras distribuies amostrais, de significado igual ao explicado para as mdias: distribuies de propores amostrais, de diferenas
entre mdias amostrais etc...
Os conceitos expedidos nesse tpico so a essncia dos procedimentos da estatstica indutiva. Vamos a eles:
2.3 Estimao
Suponha-se que algum deseje avaliar a glicemia mdia de recmnascidos de mes diabticas e, para isso tome uma amostra de 100 dessas
crianas obtendo-se uma mdia de X =85mg/dL, a qual servir para dar
uma ideia do valor glicmico mdio de todos os recm-nascidos de mes
diabticas. O procedimento vlido, mas no d ideia do erro cometido na
estimao; por exemplo, de supor que examinando 500 crianas, teramos um erro menor, uma aproximao mais precisa do valor proporcional.
mais adequado utilizar um intervalo, chamado intervalo de confiana ,
obtido pela teoria:
X 1,96
s
, que em 95% dos casos conter a mdia populacional.
n
Observaes importantes!
1) 1,96 so os valores que, em unidades de varivel reduzida, compreende 95% sob a curva normal (captulo 6).
2) 1,96
s
o erro de estimativa.
n
BIOESTATSTICA
109
Soluo:
a) Para n = 49, a frmula nos fornece uma estimativa da mdia verdadeira no intervalo 1,7284 < < 1,8516, com 95% de confiana.
b) Se n = 30, a estimativa seria menos precisa com erro maior (0,0787)
comparado com o erro de 0,0616 para o caso de n = 49.
c) Uma situao seria aquela em que a amostra fosse igual a populao. Do ponto de vista prtico, amostras muito grandes minimizam
o erro.
p 1,96
p (1 p )
n
0,30 x0, 70
30
= 0,30 ; n = 100. O intervalo ser 0,30 1,96
= 0,30
100
100
0,09 = 30% 9% , ou seja o intervalo pedido de 21% a 39%.
p=
110
b) H1: hiptese alternativa, toda aquela diferente de H0; na associao entre tabagismo e cncer de pulmo, so hipteses alternativas, incidncia de cncer de pulmo dentre os fumantes maior
BIOESTATSTICA
A pergunta crucial agora : A DECISO TOMADA, COM BASE NA REGRA ESTABELECIDA, EST SEMPRE CORRETA?
BIOESTATSTICA
111
Vamos responder essa pergunta discutindo os possveis erros que podem ser cometidos.
O pesquisador pretende, com base em uma amostra de 8 registros,
testar H0 : p = 0,5. Ficou estabelecido que se o nmero registros de meninos
for igual a 0, 1, 2, 7 ou 8, a hiptese H0 : p = 0,5 dever ser rejeitada.
Entretanto, mesmo que a proporo de crianas do sexo masculino
nascidas na localidade durante os ltimos cinco anos seja p = 0,5, em uma
amostra de 8 registros pode no aparecer nenhum registro de menino ou
aparecer apenas 1, bem como aparecer um nmero elevado como 7 ou 8.
Ento, a regra de deciso que estabelecemos pode nos levar a rejeitar a
hiptese H0: p = 0,5, em casos onde essa hiptese verdadeira. claro que
podemos modificar a regra de deciso, mas isso no evita o aparecimento de
erros, logo no podemos estar certos de que a deciso tomada, em funo
dessa regra correta.
Assim, evitar qualquer um desses tipos de erro no possvel, pelo
que devemos nos contentar em lhes estabelecer um limite. Falaremos apenas para o do tipo I, mais importante, atravs do conceito seguinte.
z=
X1 X 2
s12 s22
+
n1 n2
112
BIOESTATSTICA
Exemplo 2.3 Um pesquisador, desejando averiguar possveis diferenas entre pesos de filhos recm-nascidos de mes no fumantes ( grupo
I ) e de filhos de mes fumantes ( grupo II ), toma, ao acaso, uma amostra
de cada grupo, obtendo os resultados:
GRUPOS
Dados
GRUPO I
GRUPO II
Nmero de crianas
n1 = 100
n12 = 80
Peso mdio
X 1 = 3,9kg
X 2 = 3,6kg
Desvio padro
s1 = 0,4kg
s2 = 0,4kg
Temos: H0: O peso de filhos de no fumantes igual ao dos filhos de fumantes; simbolicamente: 1 = 2
H1 : Os pesos mdios so diferentes 1 2
O valor da estatstica-teste :
z=
3,9 3, 6
0, 42 0,32
+
100
80
0,3
= 6 > 1,96
0, 05
Concluso:
Rejeita-se H0; existe uma diferena significativa, ao nvel de 5%, entre os
pesos de recm-nascidos de no fumantes e fumantes.
Nota: Os dados do exerccio acima so hipotticos, mas existem estudos
reais que mostram ser o tabagismo importante fator de gerao de crianas de
baixo peso (muitas, prematuras ponderais, ou seja, com peso inferior a 2,5kg).
Sim
No
Total
Sim
80
No
100
Total
45
135
BIOESTATSTICA
180
113
Preencha as caselas em branco, supondo que haja independncia entre sexo e hbito de fumar, ou seja, o percentual de masculinos dentre os
fumantes igual ao percentual de masculinos dentre os no fumantes.
Os resultados que voc obteve na resoluo do problema anterior, obtidos de uma hiptese terica (independncia entre os atributos) so cha-
C=
2
2 + n
, onde:
(o e) 2
(leia-se qui-quadrado) =
e
n o total geral da tabela
2
C = C.
min(m, n)
min(m, n) 1
C = C.
3
3
=C .
3 1
2
Antes de ilustramos o clculo do coeficiente de contingncia, vejamos
uma regra prtica para o clculo dos valores esperados (e): O valor esperado correspondente a cada casela obtido multiplicando-se o total da linha
114
BIOESTATSTICA
Masculino
Feminino
Total
112(e1)
88(e2)
200
180(e5)
120(e6)
300
600
400
58(e3)
B
AB
O
Total
250(e7)
42(e4)
150(e8)
100
400
1.000
200 x600
200x 400
100 x600
= 60 ;
= 120 ; e2 =
= 80; e3 =
1000
1000
1000
e1 =
e4 =
100 x 400
= 40
1000
e5=
300 x600
300 x 400
400 x600
= 180 ; e6 =
= 120 ; e7 =
= 240 ;
1000
1000
1000
e8 =
400 x 400
= 160
1000
Assim, temos a tabela completa (com valores observados fora dos parnteses e valores esperados dentro dos parnteses):
SEXO
Grupo sanguneo
Masculino
Feminino
Total
112(120)
88(80)
200
58(60)
42(40)
100
AB
180(180)
120(120)
300
250(240)
150(160)
400
Total
600
400
1.000
2 =
BIOESTATSTICA
115
8,17
0, 05 . O valor corrigido ser:
2,55 + 1000
Logo : C =
2
= 0,09. 2 0,07 , valor prximo de zero, o que sugere
2 1
C = 0,09
Numero observado
Masculino
44
Feminino
36
Total
80
Observados (o)
Esperados (e)
Masculino
44
40
Feminino
36
40
Total
80
80
2 =
<
3,84
Concluso:
Aceita-se H0, os dados so compatveis com a hiptese de igualdade de
nascimentos de machos e fmeas.
116
BIOESTATSTICA
No primeiro captulo desta unidade foram introduzidos conceitos fundamentais como amostra, populao e universo, sendo tais conceitos discutidos
no mbito das escalas de medidas, bem como foram apresentadas as principais tcnicas de amostragem , destacando a importncia da aleatoriedade neste
estudo. O captulo 10 destinou-se a introduzir o mais importante aspecto da
estatstica a inferncia. Tcnicas de grande alcance, como estimao e teste
de hipteses, foram apresentados dando um suporte para que o estudante, futuramente, possa melhor-los em cursos de ps-graduao.
BIOESTATSTICA
117
7. Um pesquisador admite que, em portadores de determinada doena, os grupos sanguneos (sistema ABO) se distribuem na proporo
A:B:O:AB::1:2:3:4. Analise esta hiptese luz dos seguintes dados de
observao sobre 200 pacientes, tomados aleatoriamente:
Grupo Sanguneo
Nmero de observaes
60
40
AB
35
65
Total
200
II
X 1 =260
X 2 = 250
n1 = 30
n2 = 30
s1= 20
Tamanho da amostra
s2= 25
II
X 1 =260
X 2 = 250
n1 = 100
n2 = 100
s1= 10
Tamanho da amostra
s2= 8
Teste, ao nvel de 5%, a hiptese de igualdade entre as mdias populacionais. Como explicar que, agora, embora mesmo persistindo a diferena
amostral: 260 250 = 10mg/dL, a concluso seja diferente da do exerccio
anterior?
10. Teste a hiptese de independncia para os dados da tabela abaixo, a
respeito dos efeitos de um processo de vacinao.
IMUNIZADOS
118
VACINADOS
SIM
NO
TOTAL
SIM
75
45
90
NO
40
45
85
TOTAL
115
60
175
BIOESTATSTICA
BIOESTATSTICA
119
120
BIOESTATSTICA
Anexo 1
Tabela 1A - Valores de
segundo o valor de
0,1
0,904837
3,1
0,045049
6,1
0,002243
0,2
0,818731
3,2
0,040762
6,2
0,002029
0,3
0,740818
3,3
0,036883
6,3
0,001836
0,4
0,670320
3,4
0,033373
6,4
0,001662
0,5
0,606531
3,5
0,030197
6,5
0,001503
0,6
0,548812
3,6
0,027324
6,6
0,001360
0,7
0,496585
3,7
0,024724
6,7
0,001231
0,8
0,449329
3,8
0,022371
6,8
0,001114
0,9
0,406570
3,9
0,020242
6,9
0,001008
1,0
0,367879
4,0
0,018316
7,0
0,000912
1,1
0,332871
4,1
0,016573
7,1
0,000825
1,2
0,301194
4,2
0,014996
7,2
0,000747
1,3
0,272532
4,3
0,013569
7,3
0,000676
1,4
0,246597
4,4
0,012277
7,4
0,000611
1,5
0,223130
4,5
0,011109
7,5
0,000553
1,6
0,201897
3,6
0,010052
7,6
0,000500
1,7
0,182684
4,7
0,009095
7,7
0,000453
1,8
0,165299
4,8
0,008230
7,8
0,000410
1,9
0,149569
4,9
0,007447
7,9
0,000371
2,0
0,135335
5,0
0,006738
8,0
0,000335
2,1
0,122456
5,1
0,006097
8,1
0,000304
2,2
0,110803
5,2
0,005517
8,2
0,000275
2,3
0,100259
5,3
0,004992
8,3
0,000249
2,4
0,090718
5,4
0,004517
8,4
0,000225
2,5
0,082085
5,5
0,004087
8,5
0,000203
2,6
0,074274
5,6
0,003698
8,6
0,000184
2,7
0,067206
5,7
0,003346
8,7
0,000167
2,8
0,060810
5,8
0,003028
8,8
0,000151
2,9
0,055023
5,9
0,002739
8,9
0,000136
3,0
0,049787
6,0
0,002479
9,0
0,000123
BIOESTATSTICA
121
Anexo 2
Tabela 2A - Distribuio normal reduzida P(0<Z<z).
ltimo dgito
122
0,0
0,0000
0,0040
0,0080
0,0120
0,0060
0,0199
0,0239
0,0279
0,0319
0,0359
0,1
0,0398
0,0438
0,0478
0,0517
0,0557
0,0596
0,0636
0,0675
0,0714
0,0753
0,2
0,0793
0,0832
0,0871
0,0910
0,0948
0,0987
0,1026
0,1064
0,1103
0,1141
0,3
0,1179
0,1217
0,1255
0,1293
0,1331
0,1368
0,1406
0,1443
0,1480
0,1517
0,4
0,1554
0,1591
0,1628
0,1664
0,1700
0,1736
0,1772
0,1808
0,1844
0,1879
0,5
0,1915
0,1950
0,1985
0,2019
0,2054
0,2088
0,2123
0,2157
0,2190
0,2224
0,6
0,2257
0,2291
0,2324
0,2357
0,2389
0,2422
0,2454
0,2486
0,2517
0,2549
0,7
0,2580
0,2611
0,2642
0,2673
0,2707
0,2734
0,2764
0,2794
0,2823
0,2852
0,8
0,2881
0,2910
0,2939
0,2967
0,2995
0,3023
0,3051
0,3078
0,3106
0,3133
0,9
0,3159
0,3186
0,3212
0,3238
0,3264
0,3289
0,3315
0,3340
0,3365
0,3389
1,0
0,3413
0,3438
0,3461
0,3485
0,3508
0,3531
0,3554
0,3577
0,3599
0,3621
1,1
0,3643
0,3665
0,3686
0,3708
0,3729
0,3749
0,3770
0,3790
0,3810
0,3830
1,2
0,3849
0,3869
0,3888
0,3907
0,3925
0,3944
0,3962
0,3980
0,3997
0,4015
1,3
0,4032
0,4049
0,4066
0,4082
0,4099
0,4115
0,4131
0,4147
0,4162
0,4177
1,4
0,4192
0,4207
0,4222
0,4236
0,4251
0,4265
0,4279
0,4292
0,4306
0,4319
1,5
0,4332
0,4345
0,4357
0,4370
0,4382
0,4394
0,4406
0,4418
0,4429
0,4441
1,6
0,4452
0,4463
0,4474
0,4484
0,4495
0,4505
0,4515
0,4525
0,4535
0,4545
1,7
0,4554
0,4564
0,4573
0,4582
0,4191
0,4599
0,4608
0,4616
0,4625
0,4633
1,8
0,4641
0,4649
0,4658
0,4664
0,4671
0,4678
0,4686
0,4693
0,4699
0,4706
1,9
0,4713
0,4719
0,4726
0,4732
0,4738
0,4744
0,4750
0,4756
0,4761
0,4767
2,0
0,4772
0,4778
0,4783
0,4788
0,4793
0,4798
0,4803
0,4808
0,4812
0,4817
2,1
0,4821
0,4826
0,4830
0,4834
0,4838
0,4842
0,4846
0,4850
0,4854
0,4857
2,2
0,4861
0,4864
0,4868
0,4871
0,4875
0,4878
0,4881
0,4884
0,4887
0,4890
2,3
0,4893
0,4896
0,4898
0,4901
0,4904
0,4906
0,4909
0,4911
0,4913
0,4916
2,4
0,4918
0,4920
0,4922
0,4925
0,4927
0,4929
0,4931
0,4932
0,4934
0,4936
2,5
0,4938
0,4940
0,4941
0,4943
0,4945
0,4946
0,4948
0,4949
0,4951
0,4952
2,6
0,4953
0,4955
0,4956
0,4957
0,4959
0,4960
0,4961
0,4962
0,4963
0,4964
2,7
0,4965
0,4966
0,4967
0,4968
0,4969
0,4970
0,4971
0,4972
0,4973
0,4974
2,8
0,4974
0,4975
0,4976
0,4977
0,4977
0,4978
0,4979
0,4979
0,4980
0,4981
2,9
0,4981
0,4982
0,4982
0,4983
0,4984
0,4984
0,4985
0,4985
0,4986
0,4986
3,0
0,4987
0,4987
0,4987
0,4988
0,4988
0,4989
0,4989
0,4989
0,4990
0,4990
BIOESTATSTICA