Académique Documents
Professionnel Documents
Culture Documents
F
iel a sua missão de interiorizar o ensino superior no estado Ceará, a UECE,
como uma instituição que participa do Sistema Universidade Aberta do
Brasil, vem ampliando a oferta de cursos de graduação e pós-graduação
na modalidade de educação a distância, e gerando experiências e possibili-
dades inovadoras com uso das novas plataformas tecnológicas decorren-
Ciências Biológicas
tes da popularização da internet, funcionamento do cinturão digital e
Bioestatística
massificação dos computadores pessoais.
Comprometida com a formação de professores em todos os níveis e
a qualificação dos servidores públicos para bem servir ao Estado,
os cursos da UAB/UECE atendem aos padrões de qualidade
estabelecidos pelos normativos legais do Governo Fede-
ral e se articulam com as demandas de desenvolvi-
Bioestatística
mento das regiões do Ceará.
Geografia
12
História
Educação
Física
Ciências Artes
Química Biológicas Plásticas Computação Física Matemática Pedagogia
Ciências Biológicas
Bioestatística
Geografia
2ª edição
Fortaleza - Ceará 9
12
História
2015
Educação
Física
Ciências Artes
Química Biológicas Plásticas Computação Física Matemática Pedagogia
Copyright © 2015. Todos os direitos reservados desta edição à UAB/UECE. Nenhuma parte deste material poderá
ser reproduzida, transmitida e gravada, por qualquer meio eletrônico, por fotocópia e outros, sem a prévia autori-
zação, por escrito, dos autores.
Editora Filiada à
ISBN: 978-85-78263-40-9
1. Bioestatística . I . Paiva , Rui Eduardo Brasileiro.
II. Título.
CDD: 312
Os autores
Capítulo
Parte 1
Conceitos Fundamentais
Procedimentos de ensino
Capítulo 1
Elementos de matemática
Objetivos
l Compreender e utilizar a notação de somatório (notação sigma).
l Revisar alguns conceitos de análise combinatória.
l Interpretar a equação de uma reta, como modelo linear.
l Compreender algumas idéias básicas sobre conjuntos.
∑x =x
i =1
i 1
+ x2 + ... + xn
n
b) 1 + 2 + 3 +...+ n = ∑k
k =1
10
SANTIAGO, G. S., PAIVA, R. E. B.
3. Modelos matemáticos
O comportamento dos fenômenos determinísticos é estudado, quantitativamen-
te, usando fórmulas matemáticas exatas (lei de Boyle-Mariotte, teorema de Pitá-
goras etc). No entanto, o estudo de fenômenos aleatórios (objeto de estudo as
estatística), do ponto de vista quantitativo é feito através de fórmulas matemá-
ticas aproximadas, que se conhecem como modelos matemáticos. Assim, um
modelo matemático é uma descrição matemática (frequentemente por meio
de uma função ou de uma equação) de um fenômeno do mundo real, tal como
o tamanho de uma população, a concentração de um fármaco no sangue, a
expectativa de vida de uma pessoa ou o custo de redução dos poluentes. Um
esquema básico na elaboração de um modelo é mostrado na Figura 1.1.
Bioestatística 11
Tabela 1.1
VARIAÇÃO DO NÍVEL DE DIÓXIDO DE CARBONO (CO2) SEGUNDO O ANO
Ano Níveis reais de CO2 (em ppm) Níveis obtidos de CO2 com uso do modelo
1972 327,3 327, 297
1974 330,0 330, 263
1976 332,0 333, 230
1978 335,3 336, 197
1980 338,5 339, 163
1982 341,0 342, 130
1984 344,3 345, 097
1986 347,0 348, 063
1988 351,3 351, 030
1990 354,0 353, 997
Fonte: Modificado de Stewart (2003).
Solução:
Vamos usar os dados da tabela acima para fazer um mapa de dispersão,
mostrado na Figura 1.2, onde t representa o tempo (em anos) e C representa
o nível de CO2 (em ppm).
Figura 1.2 – Mapa de dispersão para o nível médio de CO2 (STEWART, 2003).
Observe que os pontos estão muito próximos de uma linha reta, dessa
forma, é natural escolher um modelo linear neste caso. Porém, há inúmeras
possibilidades de retas que aproximam esses pontos; assim, qual deveríamos
usar? Do gráfico, vemos que uma possibilidade é a reta que passa pelo pri-
meiro e o último ponto dado. A inclinação dessa reta é
Bioestatística 13
Figura 1.3 – Modelo linear através do primeiro e do último ponto dado (STEWART, 2003).
5. Análise combinatória
Serão revistas algumas noções desse assunto em função de sua necessida-
de no estudo de probabilidade (Unidade 03).
5.1. Fatorial
Chama-se fatorial de um número inteiro não negativo n (n ≥ 0), o inteiro que se
indica por n!, e tal que:
n! = n (n-1) (n-2)...3.2.1 , para n ≥ 2.
Para n = 0 ou n = 1, temos n! = 1
Exemplo 1.7 – Encontre os valores de: a) 5! e b) 7!.
Solução:
a) 5! = 5.4. 3. 2.1 = 120
b) 7! = 7.6.5! = 7.6.5! = 42. 120 = 5040
Bioestatística 17
8 8.7.6.5.4.3.2.1 8.7.6
= = 56
= 56
3 3.2.1.5.4.3.2.1 3.2.1
Síntese da parte
Nesta parte foram revistos conceitos importantes de matemática que são im-
prescindíveis para compreensão satisfatória de alguns capítulos posteriores.
Iniciamos com o estudo de modelagem matemática, discutindo ideias que
serão muito úteis no estudo de modelos probabilísticos. Em seguida, foi in-
troduzido o importante conceito de aleatoriedade, de suma importância no
estudo de probabilidades. Conjuntos, um tema unificador da matemática, foi
abordado nos seus princípios, onde trabalhamos com as noções sobre ope-
rações entre conjuntos. Por fim fizemos um estudo de alguns aspectos da
combinatória, que estão muito presentes no estudo de estatística.
Atividades de avaliação
1. Responda os ítens seguintes:
a) Os fenômenos biológicos são, em geral, determinísticos ou aleatórios? Porque?
b) O resultado de um tratamento, o diagnóstico de uma doença, são fenôme-
nos aleatórios? Por quê?
2. Utilize a notação de somatório para expressar
n
2 +2+ 6 +2 2.
3. Expresse ∑ 2 f ( x ) sem usar somatório.
i =1
i
Texto complementar
A matemática e as profissões – geneticista
Ao pesquisar a transmissão de caracteres hereditários na reprodução das ervilhas,
Mendel valeu-se basicamente do cálculo de probabilidades para formular as leis que
deram início a esse importante ramo de estudo da biologia: a genética. A utilização
da matemática nesse campo é, portanto, uma questão de princípio. Sem esse instru-
mento básico de trabalho a genética não existiria.
Glória Maria Duccine Dal Colletto, geneticista doutorada pelo instituto de Ciências
Biológicas da USP, ressalta o papel essencial da matemática, e em especial o da esta-
tística, na condução de pesquisas genéticas e na análise dos resultados. “O domínio
do cálculo de probabilidades é indispensável nessa área”, afirma ela.
A respeito da matemática elementar e de seus principais tópicos, a pesquisadora co-
menta: “Não é muito comum, mas às vezes acontece de usarmos para a resolução de
alguns problemas em nosso trabalho a trigonometria, as transformações logarítmi-
cas, as matrizes e os sistemas lineares”.
Sobre a matemática de nível superior, Glória menciona o uso frequente de inferência
estatística (regressão linear simples e múltipla, análise de variância etc), das distribui-
ções normal e binomial, da média e da correlação. A aplicação de testes, segundo ela, é
imprescindível, destacando-se entre eles o teste do qui-quadrado, o teste de hipóteses
e o teste t de Student. “A aplicação do conhecimento matemático faz parte, enfim, da
rotina de trabalho do geneticista.”
Tomando fatos concretos, ligados à prática, a pesquisadora cita um exemplo interes-
sante de como a matemática pode ser utilizada na previsão e prevenção de proble-
mas congênitos quando a combinação entre os elementos de um casal pode resultar
em algum risco genético. O albinismo é um caso clássico da Genética no qual se re-
corre à utilização de estatística. Digamos que a doença seja causada por um par de
genes alelos: A (normal /dominante) e a (albino / recessivo). A probabilidade de uma
pessoa ser ou não Albina, tendo pais normais, porém portadores do alelo a, pode ser
visualizado no esquema a seguir:
Pais normais Aa x Aa
Combinações possíveis AA Aa aA aa
Pais normais AA x Aa
Combinações possíveis AA AA Aa Aa
Probabilidades de ocorrência (%) 25 25 25 25
Fenótipos Normais (100%)
“Como nesse caso do albinismo existem outra situações nas quais a genética, por
meio do recurso à matemática, prever e ajuda a prevenir problemas genéticos”, fina-
liza a geneticista. (Modificado de MACHADO, 1988).
Referências
ALENCAR FILHO, E. Aritmética dos inteiros. São Paulo: Nobel, 1987. 406 p.
GUELLI, C. A.; IEZZI, G.; DOLCE, O. Conjuntos, funções e inequações.
São Paulo: Editora Moderna Ltda, 1967. 265 p.
MACHADO, A. S. Matemática: temas e metas. São Paulo: Atual Editora, 1988. 196 p.
OLIVEIRA, E. G.; MOREIRA, O. C. Guia para o ensino introdutório da esta-
tística nos cursos da área de saúde. Fortaleza: UECE, 1987. 149 p.
STEWART, J. Cálculo. São Paulo: Pioneira Thomson, 2003. v. 1, 670 p.
VIEIRA, S. Introdução à bioestatística. Rio de Janeiro: Editora Campus,
1988. 294 p.
Capítulo
Parte 21
Procedimentos
Descrição das deamostras
ensino
Capítulo 2
Organização tabular e
gráfica dos dados
Objetivos
l Construir tabelas de acordo com algumas regras gerais.
l Estudar associação de variáveis através de tabelas bidimensionadas 2 x 2.
l Estudar associação de variáveis através de tabelas bidimensionadas n x n.
l Construir tabelas de distribuição de freqüências.
l Construir e interpretar os principais tipos de gráficos.
1. Representação tabular
As tabelas constituem uma importante forma de representação dos dados es-
tatísticos, quer pelo seu aspecto meramente descritivo, quer pela maior facili-
dade de análise que propicia, particularmente, nos estudos de associação, tão
úteis na investigação biomédica. Não existem regras rígidas para a confecção
de uma tabela, sendo a prática, ainda, a mentora decisiva para uma boa re-
presentação tabular. Alguns itens gerais, no entanto, serão considerados:
a) As tabelas deverão preencher dois requisitos fundamentais, nem sempre
fáceis de conciliar: SIMPLICIDADE e CLAREZA.
b) As tabelas deverão ser autossuficientes, no sentido de, para sua compre-
ensão, prescindir de consulta ao texto onde ela está inserida.
c) O título é obrigatório, para se obedecer à condição de auto-suficiência, e
nele devem se encontrar respostas às perguntas: Qual a natureza do fenô-
meno descrito? Onde ocorreu? Quando ocorreu?
d) O corpo da tabela, onde se encontram as informações numéricas, deve explicitar
as variáveis apresentadas e as suas unidades; não se deve deixar caselas (locais
para os números) em branco, utilizando, quando necessário, símbolos como: - :
não ocorrência do fenômeno;... : ausência de informação; ( ? ) dúvida sobre a
informação etc... Em geral, só se devem usar para separação dos dados, traços
horizontais; os traços verticais são antiestéticos, trabalhosos para quem vai fazê-
-los, inúteis, e omitidos, consequentemente na literatura científica.
26
SANTIAGO, G. S., PAIVA, R. E. B.
Solução:
Tabela 1.1
ac − bd
Y=
ac + bd
Tabela 1.3
TAXAS DE SOBREVIVÊNCIA DE CAMUNDONGOS SEGUNDO A VACINAÇÃO
Sobreviventes
Vacinados Sim Não Total
Sim 130 70 200
Sim 80 160 240
Total 210 230 440
Temos:
130 x160 − 70 x80 20.800 − 5.600 15.200
Y= = = ≅ 0,57
130 x160 + 70 x80 20.800 + 5.600 26400
Tabela 1.4
ASSOCIAÇÃO ENTRE GLICEMIA E GLICOSÚRIA
Glicemia
Glicosúria Normal Aumentada Total
0 9 1 10
+ 6 6 12
++ 6 8 14
+++ 3 17 20
Total 24 32 56
Interpretação:
G = 0,70; associação direta entre grau de glicosúria e hiperglicemia,
ou seja, da amostra estudada, fica sugerido que o aumento da glicosúria se
desenvolve na mesma direção do aumento da glicemia.
5,0
C= = 1,0
5
A distribuição de frequência desejada pode ser então:
Tabela 1.5
Tabela 1.6
2. Representação gráfica
O gráfico estatístico nada mais é do que uma outra forma de apresentação
dos dados estatísticos. Tem como objetivo fornecer, para quem o analisa, uma
informação direta e objetiva do fenômeno estudado. Assim, além de sintéticos
e claros, devem ser capazes de atrair a atenção do leitor, seja pelo apelo pic-
tórico, ou pela visão abrangente e dinâmica dos dados representados, o que
é mais difícil obter através da representação tabular.
Não se deve esquecer, contudo, que os gráficos são, em geral, mais
esboços, não encerrando, exatamente, as informações contidas nas tabelas.
Não obstante, certos gráficos, como os diagramas de dispersão, orientam
para uma análise estatística mais aprofundada (como será estudado em ca-
pítulos posteriores).
É importante que obedeça algumas características:
•• Simplicidade: deve ser destituído de detalhes supérfluos
•• Clareza: para possibilitar uma fiel interpretação dos valores representativos
do fato ou fenômeno estudado.
•• Veracidade: deve expressar a verdade sobre o fenômeno em estudo
Figura 1.1 – Freqüências absolutas dos níveis séricos de colesterol para 1067
homens dos EUA, com idades entre 25 e 34 anos, 1976-1980 (PAGANO e GAU-
VREAU, 2006).
Bioestatística 33
Observações:
a) As áreas dos setores ou as porcentagens correspondentes aos setores
são, respectivamente, proporcionais aos dados da série e são obtidos por
meio de uma simples regra de três.
b) Se você desejar o ângulo do setor, o TOTAL será representado pelo círculo,
que corresponde a 360º.
c) Se você desejar a porcentagem correspondente a um dado qualquer, o
TOTAL será representado por 100%.
Exemplo 1.4 – Usando as informações contidas na Tabela 1.5 e na Figura
1.4, responda:
Bioestatística 35
e) Curvas de frequências
O histograma é um gráfico amostral, que nos sugere um gráfico populacio-
nal, chamado curva de frequência. Os mais importantes modelos de curvas
de frequências são mostrados na Figura
Bioestatística 37
f) Frequências acumuladas
Simbolizadas pela letra maiúscula F, ao contrário das frequência simples,
indicam o número de valores abaixo a cada limite de classe. Para o caso
das iodemias tem-se a Tabela 1.4 de frequências acumuladas.
38
SANTIAGO, G. S., PAIVA, R. E. B.
Tabela 1.4
IODEMIAS DE FREQUÊNCIAS ACUMULADAS
Iodemia menor que F Fr (%)
3,8 0 0
4,8 3 10
5,8 12 40
6,8 21 70
7,8 26 87
8,8 30 10
2. Média aritmética ( x )
Média, que representaremos por x , é dada pela soma dos valores de todos
os dados divididos por n.
∑x i
x= i =1
Solução:
Temos:
140 + 91 + 95 + 100 + 78 + 105
=x = 101,5 mg %
6
Observamos neste exemplo que a média é muito sensível a valores
extremos da variável. Veja que a média aumentou aproximadamente 10%, de
modo que não é recomendável para distribuições muito assimétricas.
x=
∑x f i i
∑f i
Tabela 2.1
Temos:
Refazendo a Tabela 2.1 obtemos a Tabela 2.2.
Tabela 2.2
DISTRIBUIÇÃO DE PACIENTES RENAIS, SEGUNDO A IDADE
Idade (anos) (xi) Frequência ( fi ) xi fi
26 3 78
28 10 280
30 12 360
32 5 160
37 20 740
∑ 50 1618
Então:
1618
=x = 32, 4
50
2.2.2. Com intervalos de classes
Como não podemos operar com classe, representamos cada classe pela mé-
dia entre seus dois limites, e fazemos como no caso anterior.
Solução:
Rearranjando a tabela anterior para obtermos a Tabela 2.4.
Tabela 2.4
∑ 42 172
42
SANTIAGO, G. S., PAIVA, R. E. B.
Então:
172
x
= = 4,1 kg
42
3. Mediana (Md)
Considerando que uma variável assuma os seguintes valores: 10, 14, 16, 21 e
390, como já discutimos, em casos como esse, onde existem valores discre-
pantes, a média não vai ser bem representativa da distribuição como um todo,
pois que será influenciada pelo valor aberrante. Assim é preciso usar outras
medidas mais adequadas.
Define-se mediana, e indica-se por Md, como o valor tal que metade
dos dados ou são iguais ou são inferiores a ela.
Exemplo 2.5. Calcular a mediana para o conjunto de pesos de RN (kg): 2,7;
3,9; 4,1; 4,3; 5,4 e interpretar.
Solução:
Md = 4,1 kg
Esse valor significa que metade dos RN tem pesos menor ou igual
a 4,1 kg.
Solução:
n + 1 35 + 1
Md
Temos: = = = 18 valor da série.
2 2
3.2. Mediana de dados agrupados
3.2.1. Sem intervalos de classe
Neste caso, é suficiente identificar a frequência acumulada imediatamente
superior à metade da soma das frequências. A mediana será aquele valor da
variável que corresponde a tal frequência acumulada.
Exemplo 3.7 – Determine a mediana da distribuição mostrada na tabela 3.1.
Solução: A partir da Tabela 3.1 obtemos a Tabela 2.5.
Tabela 2.5
DISTRIBUIÇÃO DE PACIENTES RENAIS, SEGUNDO A IDADE
Idade (anos) Frequência Frequência acumulada
26 3 3
28 10 13
30 12 25
32 5 30
37 20 50
∑ 50
Temos:
∑=
f 50
= 25
2 2
A menor frequência acumulada que supera este valor é 30, que corres-
ponde ao valor 32 da variável, sendo este o valor mediano. Logo: Md = 32 anos.
Tabela 2.6
DISTRIBUIÇÃO DE PESOS (KG) DE RECÉM NASCIDOS DO SEXO MASCULINO
Classe Peso ( kg ) Frequência Frequência acumulada
1 2,0 | 3,0 2 2
2 3,0 | 4,0 15 17
3 4,0 | 5,0 23 40
4 5,0 | 6,0 2 42
∑ 42
Temos:
∑=
f 42
= 21
2 2
21 − 17 4
×1 =
23 23
4
e a mediana será dada por: Md =4 + =4,17 . Logo, Md = 4, 17 kg.
23
4. Moda (Mo)
Chama-se moda o valor que ocorre com maior frequência em uma série de
valores. É a medida de tendência central menos importante. Sua única vanta-
gem é que pode ser utilizada para todas as escalas de medidas, ao contrário
da média que só pode ser usada para escalas quantitativas (intervalos e ra-
zões) e da mediana que só pode ser usada a partir da escala ordinal.
Exemplo 2.8 – Calcular a moda para idades em que pacientes começaram a
apresentar presbiopia: 37; 40; 39; 39; 42; 39; 39; 41.
Solução: A idade modal é 39 anos.
Bioestatística 45
Exemplo 2.9 B Calcular a moda para as pressões diastólicas (cm / hg) dadas
na Tabela 2.7.
Tabela 2.7
PRESSÃO DIASTÓLICA (P.D) EM CM/HG
Classe P.D. Frequência
1 5,0 | 6,5 4
2 6,5 | 8,0 8
3 8,0 | 9,5 17
4 9,5 | 12,0 5
5 12,0 | 13,5 2
Total 36
Solução:
No caso de distribuição de frequências, costuma-se usar para estimar a moda
a fórmula de KING:
∆1
M0 = L + .c
∆1 + ∆ 2
Onde:
L – limite inferior da classe modal.
∆1 - diferença entre a frequência modal e a frequência anterior.
∆ 2 - diferença entre a frequência modal e a frequência posterior.
c – amplitude da classe modal.
Temos então: Como a classe modal é 3 vem:
L = 8,0; ∆1 = 17 – 8 = 9; ∆ 2 = 17 – 5 = 12; c = 1,5.
9
8, 0 +
Logo, M 0 = .1,5 =
8, 6 cm/hg.
9 + 12
Capítulo 4
Medidas de dispersão ou
de variabilidade
1. Importância da variabilidade
A variabilidade é um fator constante e decisivo nos seres vivos tornando possí-
vel a conservação do indivíduo e da espécie. Se não existisse diferença entre
os indivíduos, qualquer estímulo capaz de eliminar um deles, poderia eliminar
também toda a população. Assim, pode-se considerar a variabilidade, como
um dos estudos mais importantes da estatística, bastando dizer que se não
houvesse variabilidade entre os indivíduos, bastaria descrever um deles para
que se tivesse um conhecimento de toda a população (PINTO et al., 1981).
Dentre as medidas de variabilidade estudaremos:
a) Amplitude total;
b) Variância;
c) Desvio padrão;
d) Coeficiente de variação.
2. Amplitude total
Por definição, amplitude total é a diferença entre o maior e o menor valor ob-
servado. O seu cálculo é muito simples, o que é uma vantagem. No entanto,
não é uma boa medida de dispersão, porque seu cálculo se baseia apenas
nos valores extremos da amostra.
Exemplo 3.1 – Suponhamos três grupos de adultos, do sexo masculino, clas-
sificados segundo o peso (kg) como mostra o Quadro 3.1.
Quadro 3.1
GRUPOS DE ADULTOS SEGUNDO O PESO
Grupo Pesos (kg)
I 60 62 64 66 68 70 72 74 76
II 60 61 62 63 68 73 74 75 76
III 60 65 66 67 68 69 70 71 76
3. Variância
A variância mede a dispersão dos dados em torno da média. Seu cálculo é
relativamente complexo, no entanto, como leva em conta todos os valores
da variável, é um índice de variabilidade bastante estável e, portanto, um dos
mais empregados. É expresso pela fórmula:
n
∑ ( x − x)
i
2
s2 = i =1
n −1
É importante destacar que a variância tem pouca importância como es-
tatística descritiva, porém é extremamente importante na inferência estatísti-
ca, mas seu estudo mais aprofundado foge do escopo deste livro.
Exemplo 3.2 – Encontre a variância para o conjunto de dados a seguir:
Temperaturas (ºC) – 34; 35; 36; 37; 38
Solução:
Inicialmente calculamos a média
5
∑x i
34 + 35 + 36 + 37 + 38
=x =
i =1
= 36
5 5
De posse do valor médio podemos construir a Tabela 4.1.
Tabela 3.1
CALCULO DOS DESVIOS E QUADRADOS DOS DESVIOS
Quadrados dos desvios
Dados Desvios
( x i) ( xi − x) ( xi − x) 2
34 -2 4
35 -1 1
36 0 0
37 1 1
38 2 4
∑ 180 ∑ 0 ∑ 10
Logo,
10
S2 = ≅ 2,5
4
(∑ x ) 2
∑ x2 − n
s2 =
n −1
Vamos aproveitar os mesmos dados do Exemplo 3.2 para usar a nova
fórmula (Tabela 3.2).
Tabela 3.2
CALCULO DA VARIÂNCIA
Xi (Xi)2
34 1156
35 1225
36 1296
37 1369
38 1444
∑ 180 ∑ 6490
Então:
(180) 2
6490 −
s2 = 5 ≅ 2,5
4
Esta última fórmula além de mais prática é mais precisa. Quando a mé-
dia não é exata e tem que ser arredondada, cada desvio fica afetado ligeira-
mente do erro, devido a esse arredondamento.
4. Desvio padrão
É o protótipo das medidas de dispersão. Sendo simbolizado pela primeira le-
tra da palavra inglesa “standard”, que significa padrão. Define-se como a raiz
quadrada da variância. É importante observar que tem a mesma unidade de
medida dos dados.
Exemplo 3.3 – Calcule o desvio padrão para os valores de concentração
sérica de proteínas (em g/dL).
{6;8;10}
De início temos n=3
6 + 8 + 10
=x = 8 g / dL
3
Bioestatística 49
∑ 24 ∑ 200
(24) 2
Logo: 200 −
=s2 = 3 2
2
Então:
S= 2 ≅ 1, 41g / dL
Exemplo 3.4 – Calcule o valor do desvio padrão para a distribuição de frequ-
ências da Tabela 3.4.
Tabela 3.4
DISTRIBUIÇÃO DE FREQÜÊNCIA
Classe Frequência
2 | 4 5
4 | 6 6
6 | 8 10
8 | 10 4
10 | 12 5
∑ 30
Tabela 3.5
CALCULO DO DESVIO PADRÃO
Ponto médio Frequência
Classe
(x) (f) fx x−x f ( x − x) 2
2 | 4 3 5 15 -4 80
4 | 6 5 6 30 -2 24
6 | 8 7 10 70 0 0
8 | 10 9 4 36 2 16
10 | 12 11 5 55 4 80
∑ 30 206 0 200
50
SANTIAGO, G. S., PAIVA, R. E. B.
206
=
N= 30; x ≅7
30
Temos
200
s2 = ∴ s ≅ 2,6
30
5. Coeficiente de variação (C.V.)
Considere que foram feitas determinações pondo-estaturais em um conjunto
de pacientes, obtendo-se os seguintes resultados (Quadro 3.2):
Quadro 3.2
DETERMINAÇÕES PONDO-ESTATURAIS EM UM CONJUNTO DE PACIENTES
CONJUNTO DE PACIENTES
PESO (kg) ALTURA (m)
Média: 58,0 Média: 1,65
Desvio padrão: 4,5 Desvio padrão: 0,08
0, 08m
Altura: C.V. = ≅ 4,8%
1, 65m
Logo, o peso variou mais, não porque teve um desvio padrão maior,
mas sim maior C.V. Na experimentação biológica, considera-se que há um
bom controle das variações quando o C.V. não supera os 15%.
Segue-se, agora, a seguinte situação (Quadro 3.3):
Quadro 3.3
MÉDIA E DESVIO PADRÃO DO QUOCIENTE INTELECTUAL DE CRIANÇAS DESNUTRIDAS E BEM NUTRIDAS
QUOCIENTE INTELECTUAL (Q.I.)
CRIANÇAS DESNUTRIDAS CRIANÇAS BEM NUTRIDAS
Média: 90 Média: 104
Desvio padrão: 1,5 Desvio padrão: 4,0
João: Q.I. = 94 Ricardo: Q.I. = 108
Bioestatística 51
108 − 104
Ricardo: z = = 1,0
4
Logo, como 2,7 > 1,0, João está melhor situado, em termos relativos.
Síntese do Capítulo
Nesta parte estudamos a construção de tabelas, com bastante ênfase a as ta-
belas de distribuição de frequências, pela sua grande importância em estatísti-
ca. No capítulo seguinte analisamos as medidas de tendência central (media,
mediana e moda) destacando as suas principais vantagens e restrições. No
capítulo posterior foram estudadas as medidas de variabilidade – amplitude
total, variância e desvio padrão. Vimos que a variância e o desvio padrão são
medidas mais adequadas que a amplitude total e por isso as mais utilizadas.
Encerrando o último capítulo desta unidade, analisamos uma importante me-
dida de dispersão relativa, o coeficiente de variação, que nos dá uma boa
idéia da homogeneidade, traduzindo-se em maior confiabilidade experimental.
52
SANTIAGO, G. S., PAIVA, R. E. B.
Atividades de avaliação
1. Organize os dados em uma tabela
“Em Minas Gerais ocorreram 9 casos de tracoma, todos na zona urbana.
No ceará ocorreram 3.633 casos de tracoma, todos na zona urbana. No
Paraná ocorreram 1913 casos, sendo 1513 na zona rural e os restantes
na zona urbana. Em Pernambuco, ocorreram 3.016 casos, todos na zona
urbana” ( Fonte: Superintendência de campanhas de saúde pública).
2. Os dados seguintes são níveis séricos de ferro em adultos (mg/100 mL).
Organize a distribuição de frequência e calcule os tipos de frequência:
42 45 42 50 51 46
48 46 44 49 50 49
49 47 47 46 43 52
51 49 42 47 43 50
50 52 43 49 45 51
3. Organize a distribuição de frequência e calcule os tipos de frequência para
dosagem de açúcar em mg % de sangue de 40 indivíduos:
90 110 95 100 83 84 107 109
109 93 96 101 104 105 95 99
91 105 109 98 94 89 108 85
95 90 99 93 95 106 96 98
84 94 97 103 82 97 96 114
4. No seguinte conjunto de dados, são fornecidos os pesos (arredondados em
quilos) de crianças nascidas em certo intervalo de tempo:
1,8 3,6 1,8 2,7 3,6 2,7 3,2 3,2 3,2 3,6
4,5 4,1 3,2 2,7 4,5 3,6 2,3 4,1 2,7 1,4
3,2 2,7 1,8 3,2 2,3 2,7 4,5 5,0 3,6 2,3
a) Construa uma distribuição de freqüências desses pesos.
b) Encontre as frequências relativas.
c) Encontre as frequências acumuladas.
d) Encontre as frequências relativas acumuladas.
5. Os dados abaixo se referem ao tempo de incubação (em dia) para 70 casos
de doença:
Bioestatística 53
15 16 24 10 5 5 5
2
4 8 4 3 4 6
7
9 17 23 5 7 4
5
5 19 5 5 4 4
8
3 7 6 5 5 7
11 6 2 12 3 3 6
30 7 5 3 7 4 12
18 3 20 3 5 4 3
1
5 13 26 3 7 2
22 2 5 4 6 3 5
Tabela 3.6
DIAGNÓSTICO DE BIÓPSIAS DE MAMA, FEITAS ENTRE 1963 E 1972,
INCLUSIVE, NO HOSPITAL DOS SERVIDORES DO ESTADO, RJ
Diagnóstico Frequência
Displasia 1.010
Tumor benigno 344
Tumor maligno 329
Inflamatório 54
Diversos 288
Fonte: Piza et al. (1997) citado por Vieira (1988).
Texto Complementar
A taxa de anormalidade
Define-se taxa de anormalidade, A, como o número relativo de casos cujos valores se
encontram fora de um intervalo de referência (normalidade) previamente definido.
Deste modo, para um conjunto X de n valores ordenados, (X={x1,x2,...,xn}
e x1 < x2 < ... < xn ), com os limites do intervalo de referência definidos por
Li = x3 , Ls = xn -2 e n = 10, o valor de taxa de normalidade pode ser calculado.
VA
A=
n
Onde:
VA = número de valores fora do intervalo de normalidade
N = número total de valores do conjunto
E resulta igual a
4
A
= = 0, 4
10
O que significa que 40% dos valores do conjunto estão fora do padrão de normalidade.
Evidentemente, o intervalo de variação de A está entre 0 e 1. Ainda, quanto mais próximo
de 1 for o seu valor, maior será a dispersão do conjunto e vice-versa. Todavia, entende-se
que, se A=0, não existem valores anormais, embora a dispersão possa existir (não ser nula).
Do ponto de vista conceitual, a taxa de anormalidade difere das outras medidas de
Bioestatística 55
dispersão porque seu cálculo se baseia na ordem dos elementos de um conjunto e não no
seu valor (como no caso do desvio padrão). Desta forma, a taxa de anormalidade é uma
medida de variabilidade ordinal. A Taxa de Anormalidade apresenta algumas vantagens e
algumas desvantagens quando comparada com outras medidas de variabilidade, conforme
é resumido a seguir.
Restrições:
a) O intervalo que define o valor de referência pode não existir
b) O intervalo nem sempre define um mesmo percentual da população como normal
c) Podem existir, para uma mesma variável, distintas opiniões de normalidade, dependendo
do local ou da época. Deste modo, a taxa de anormalidade, enquanto medida de variabi-
lidade, está restrita ao tempo e ao local de onde os dados foram coletados.
d) Ao se tentar construir uma medida de variabilidade, imagina-se que, se o resultado desta
medida for igual a zero, deveria indicar, naturalmente, que a dispersão é nula e, portanto,
não existe. Entretanto, no caso da Taxa de Anormalidade, A=0, não significa necessaria-
mente ausência de dispersão, ou concentração total dos dados, e sim que não existem
valores considerados anormais no conjunto. Esta diferença de definição da Taxa de Anor-
malidade deve ser sempre levada em conta para se evitarem erros de conceito.
Vantagens:
a) A visualização do significado de A é imediato e muito forte
b) A informação que carrega, por si só, é muito significativa e auto-explicativa.
c) O processo de cálculo é simples e rápido.
d) A dispersão medida por A não é afetada por valores exorbitantes, pois trabalha com número
de casos e não o valor desses casos. Desta forma, constitui um indicador de base ordinal.
(Extraído de ARANGO,2005)
Referências
ARANGO, H. G. Bioestatística: teórica e computacional. Rio de Janeiro: Gua-
nabara Koogan, 2005. 423 p.
BEIGUELMAN, B. Curso Prático de Bioestatística. Ribeirão Preto: Socieda-
de Brasileira de Genética, 1988. x 156 p.
CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto
Alegre: ARTMED, 2003. 255 p.
DIAZ, F. R.; LÓPEZ, F. J. B. Bioestatística. São Paulo: Thomson, 2007. 284 p.
IEZZI, G.; DOLCE, O.; DEGENSZAJN, D. et al. Matemática: ciência e aplica-
ções. São Paulo: Atual Editora, 2006. v. 3, 95 p.
OLIVEIRA, E. G.; MOREIRA, O. C. Guia para o ensino introdutório da esta-
tística nos cursos da área de saúde. Fortaleza: UECE, 1987.149 p.
PAGANO, M.; GAUVREAU, K. Princípios de bioestatística. São Paulo:
Thomson, 2004. 506 p.
56
SANTIAGO, G. S., PAIVA, R. E. B.
1. Conceito de probabilidade
Há certos fenômenos (ou experimentos) que, embora sejam repetidos muitas
vezes e sob condições idênticas não apresentam o mesmo resultado. Por
exemplo, no lançamento de uma moeda perfeita, o resultado é imprevisível;
Não se pode determiná-lo antes de ser realizado. Não sabemos se sairá “cara”
ou “coroa”. Aos fenômenos (ou experimentos) desse tipo damos o nome de
fenômenos aleatórios ou casuais (veja também capítulo 01).
São exemplos de fenômenos aleatórios:
a) Lançamento de um dado;
b) Resultado de um jogo de roleta;
c) Número de pessoas que ganharão na loto.
Pelo fato de não sabermos o resultado exato de um fenômeno aleatório
é que buscamos os resultados prováveis, as chances, as probabilidades de
um determinado resultado ocorrer. A teoria das probabilidades é um ramo da
matemática que cria, elabora e pesquisa modelos para estudar experimentos
ou fenômenos aleatórios.
60
SANTIAGO, G. S., PAIVA, R. E. B.
Atenção!
Sendo E o espaço amostral temos:
i) A Ac = E
ii) A Ac = φ
Exemplo 1.2 – No lançamento de um dado, considere o evento A formado
pelos resultados menores do que 3. O complementar de A (Ac) é formado por
todos os resultados maiores ou iguais a 3. Isto é:
A = { 1,2}
Ac = {3,4,5,6}
Exemplo 1.3 – Um casal normal para o albinismo tem um filho albino. Qual a
probabilidade do próximo filho também ser albino?
Bioestatística 61
3.2. Propriedades
Sendo E um espaço amostral finito e não vazio e sendo A um evento de E,
tem-se que:
I ) P( φ ) = 0
II ) P(E) = 1
III ) 0 ≤ P(A) ≤ 1
IV) P(A) + P(Ac) = 1
De fato:
n(∅) 0
I. = = 0
n( E ) n( E )
n( E )
II . P(E) = =1
n( E )
5. Probabilidade condicional
Chama-se probabilidade condicional de um evento B a probabilidade desse
evento ocorrer considerando-se que já ocorreu um evento A. Indica-se por
P(B/A) e lê-se: probabilidade de B dado A.
Exemplo 1.7 – Considere como espaço amostral o conjunto de diagnósticos
num hospital; e sejam os eventos: A – diabetes e B – hipertensão. O símbolo
P(A/B) significa a probabilidade de um paciente ter diabetes, dado que é hiper-
tenso; da mesma forma P(B/A) representa a probabilidade de um indivíduo ser
hipertenso dado que é diabético. Atenção para que, em geral:
P(A/B) ≠ P(B/A)
Vamos analisar um problema genérico que nos permita chegar a uma
expressão para calcular essa probabilidade: o espaço amostral E de um ex-
perimento aleatório é finito e não vazio. A e B são eventos de E, com A ≠ φ .
Ao realizar-se o experimento, ocorre o evento A. Qual é a probabilidade de ter
ocorrido também o evento B?
Devemos calcular P(B/A). Como sabemos que ocorreu o evento A, o
espaço amostral fica reduzido a esse evento. O evento B, por sua vez, só
poderá ocorrer na interseção de A e B. Assim, temos que:
n( A B )
P(B/A) =
n( A)
Observe que, se A e B forem mutuamente exclusivos, então P(B/A) = 0
João e sua esposa Maria tem pigmentação normal. João é filho de um homem
normal e mulher albina; Maria é filha de uma mulher normal e pai albino. Qual
é a probabilidade de nascer uma criança heterozigota dada que é normal?
64
SANTIAGO, G. S., PAIVA, R. E. B.
Solução:
Pelo enunciado podemos escrever:
P: João X Maria
(Aa) (Aa)
F1: AA Aa Aa aa
Como já sabemos que a criança é normal o espaço amostral (F) fica
reduzido a {(AA), (Aa), (Aa)} onde n(F) = 3, então a probabilidade pedida é 2/3.
Vamos resolver agora usando a fórmula:
Evento A: ser heterozigoto ⇒ A = {(Aa),(Aa)}
Evenro B: ser normal ⇒ B = {(AA),(Aa),(Aa)} ⇒ n (B) = 3
n( A B ) 2
P(A/B) = =
n( B ) 3
6. Teorema da multiplicação
Seja E um espaço finito e não vazio. Sejam A e B eventos de E.
n( A B )
Vimos que P(B/A) =
n( A)
Dividendo o numerador e o denominador desta fração por n(E), temos que:
n( A B )
n( E ) P( A B)
P(B/A) = =
n( A) P( A)
n( E )
Finalmente:
P(A B ) = P(A) . P(B/A).
Se tivermos 2 eventos A e B, tais que P(B/A) = P(B), dizemos que A e B
são independentes e o teorema da multiplicação se reduz A:
P(A B ) = P(A).P(B)
Exemplo 1.9 – Se a desnutrição é independente da hidrocefalia, sendo que a
prevalência da primeira é 5 por mil, em certa comunidade, enquanto a segun-
da ocorre com frequência 1 por mil, qual a probabilidade de haver concomi-
tância desses dois eventos?
Solução:
P(Desnutrição Hidrocefalia) = P(Desn.).P(Hidroc.)
5 1 5
= = = 5 por milhão
1000 1000 1000000
Capítulo 6
Modelos probabilísticos
em biologia
1. Modelos probabilísticos
O cálculo de probabilidades “a priori” através da fórmula da definição desse
ente matemático, tal como foi apresentado no capítulo 5, oferece dificuldades
que se tornam maiores à medida que os eventos se referem a situações mais
complexas. Um modelo probabilístico é uma expressão matemática, aplicável
a muitas situações, desde que se respeitem certas premissas; assim, torna
possível o cálculo de uma probabilidade através de simples aplicações de
fórmulas ou, da leitura de uma tabela. Neste capítulo veremos alguns modelos
que oferecem maior chance de aplicação em problemas da área biomédica.
n
P(k) = p k q n − k
k
Onde:
n = número de tentativas independentes
k = número de sucessos dentre as n tentativas
p = probabilidade de sucesso em cada tentativa
q = 1 – p, probabilidade de fracasso em cada tentativa
O problema de obter k sucessos em n ensaios de Bernoulli pode ser
encarado como um problema cujo espaço amostral é E = {0,1,2,...,n}, isto é,
cada elemento de E é o número de sucessos em n ensaios de Bernoulli e a
distribuição de probabilidade é dada por
n
P(k) = p k q n − k
k
Tal distribuição é chamada binomial, pois cada probabilidade P(k) é cal-
culada pelo termo geral do binômio de Newton (p + q)n.
Exemplo 2.2 – Numa cidade, 10% das pessoas possuem o fator Rh+. Se 30
pessoas são selecionadas ao acaso, com reposição, qual a probabilidade de
exatamente 5 pessoas possuírem fator Rh+?
Solução:
Em cada escolha de uma pessoa, consideremos os resultados:
Sucesso: a pessoa tem fator Rh+
Fracasso: a pessoa não tem fator Rh+
Bioestatística 67
30 5 25
(0,1) (0,9) ≅ 0,102
5
Exemplo 2.3 – Postula-se que certa dieta reduz a colesterolemia em 75% dos
casos. Aplicada a uma amostra aleatória de 5 indivíduos, qual a probabilidade
de exatamente 3 sucessos?
Solução
Em cada escolha de um indivíduo, consideremos os resultados:
Sucesso: a dieta reduz o colesterol em 75%
Fracasso: a dieta não reduz o colesterol em 75%
Então p = 0,75; q = 0,25 ; n = 5
Estamos interessados em P(3)
5
75)3 (0, 25)5−3 10.0,
(0,= = 42.0, 0625 0, 2625
3
Isto é, em cerca de 26,25% de amostras de 5 indivíduos, ocorrerão 3
sucessos.
Exemplo 2.4 – As crianças com anemia de Cooley são, quase sempre, filhos
de casais assintomáticos que correm risco de 25% de gerar outra criança
com essa anemia. Os casais com tais riscos podem ser diagnosticados por
intermédio de exames laboratoriais relativamente simples. Entre tais casais
com cinco filhos qual o percentual esperado daqueles com anemia de Cooley
manifestada em:
a) Um filho?
b) Três filhos?
c) Todos os filhos?
Solução:
Consideremos os seguintes resultados:
Sucesso: Não ter anemia
Fracasso: ter anemia
Então p = 0,75; q = 0,25; n =5
5
a) P(1) = (0, 75) 4 (0,
= 25) 0,3955
= 39,55%
1
5 2 3
b) P(3) = (0, 75) (0, 25) 0, 0879 = 8, 78%
2
68
SANTIAGO, G. S., PAIVA, R. E. B.
1
c) ( )5 = 0,001 = 0,1%
4
1 1
σ 2 = 10 . . = 2,5
2 2
1 3
=σ npq
= 240 x =x 6, 71
4 4
Exemplo 2.7 – Ao reunir dados da literatura a respeito de uma anomalia he-
reditária verificou-se que, dentre 221 indivíduos, filhos de pai ou mãe com a
referida anomalia, 114 eram normais (65 do sexo masculino e 49 do sexo fe-
minino) e 107 apresentavam a mesma anomalia de um dos seus genitores (58
do sexo masculino e 49 do sexo feminino) Na hipótese de que a razão entre
normais e anômalos entre os indivíduos analisados é 1:1 calcular o número
esperado de anômalos, bem o desvio padrão, em relação aos:
Bioestatística 69
=σ 221x0,5 x0,5 7, 43
=
3. Distribuição de Poisson
A distribuição de Poisson pode ser considerada como um caso particular de
distribuição binomial, na qual a probabilidade da ocorrência de um aconteci-
mento é muito pequena. Entretanto, diferentemente da distribuição binomial,
que é definida por dois parâmetros (média e desvio padrão), a distribuição
de Poisson é definida por um único parâmetro – a média – já que, nela, a
variância é idêntica a média. Isto é, pode-se demonstrar que se p é um valor
muito pequeno e n tende a infinito, a distribuição binomial se aproxima de uma
distribuição de Poisson (ver exemplo 6.8, segundo VIEIRA, 1988).
Como foi dito a média e a variância da distribuição de Poisson, que indi-
camos por l (lê-se lambda), tem o mesmo valor e nos casos em que é usada
para aproximar a binomial, seu valor é dado pela expressão:
l = np
O modelo matemático de Poisson é dado pela expressão:
lk e − l
P(k) =
k!
Onde:
k = número de sucessos
e = base do logaritmo natural
l = constante do modelo para cada caso particular
70
SANTIAGO, G. S., PAIVA, R. E. B.
4. Distribuição normal
Os modelos apresentados nos itens anteriores referem-se a variáveis discre-
tas. Para o caso de variáveis contínuas, assume grande importância a distri-
buição normal, ou distribuição de Gauss. Antes de estudar referido modelo,
vale ressaltar que, para variáveis contínuas:
a) A probabilidade de um valor singular é zero.
b) Só há sentido em determinar probabilidade de intervalos.
Graficamente, trata-se de uma curva simétrica, centrada na média, as-
sintótica bilateralmente ao eixo das abscissas, tomando a clássica forma de
um sino (Figura 2.1).
Bioestatística 71
c) p(-1,44 ≤ z ≤ 0) = 0,4251
d) p(1,44 ≤ z ≤ 1,96) = p( 0 ≤ z ≤ 1,96) - p (0 ≤ z ≤ 1,44) = 0,4750 – 0,4251=
0,0499
e) p(z ≤ -1,96) = 0,5 – 0,4758 = 0,0242
f) p( z ≥ 1,96) = 2 ( 0,5 – 04758) = 0,0484
Para os casos (a) e (b) as áreas são mostradas na Figura 6.4, e as áre-
as dos demais casos ficam a cargo do leitor.
Síntese do Capítulo
Nesta parte foram abordados conceitos elementares sobre probabilidade em
espaços amostrais finitos. Inicialmente foram definidos alguns dos principais
termos como espaço amostral e evento e, a partir deles construiu-se a defi-
nição de probabilidade. A seguir foram enunciadas e justificadas as proprie-
dades das probabilidades, ficando demonstrado que a probabilidade assume
valores compreendidos entre 0 e 1, inclusive. Fechamos o capítulo 5, com um
conceito muito importante – probabilidade condicional. No capítulo 6, foram
apresentados os principais modelos probabilísticos (distribuição de probabi-
lidade) – binomial, Poisson e normal; que são de inestimável valor prático.
Todos os tópicos desenvolvidos foram permeados por inúmeros exemplos na
área biológica, particularmente genética.
Atividades de avaliação
1. Descreva o espaço amostral correspondente ao lançamento de dois dados
honestos e determine seu tamanho, ou seja, o número de elementos n (E).
2. No espaço da atividade 1, descreva o evento M correspondente à soma das
faces ser maior que 10 e determine n (M).
3. Um homem heterozigótico, do grupo sanguíneo A, casa-se com uma mu-
lher homozigótica do grupo sanguíneo B. Descreva o espaço amostral F
dos fenótipos dos descendentes e determine seu tamanho. Faça o mesmo
com o espaço amostral G dos genótipos.
4. No autocruzamento AaBbCc x AaBbCc, descreva o tamanho de cada um
dos espaços amostrais:
a) Genótipos dos descendentes
b) Fenótipos dos descendentes
c) Gametas dos descendentes
5. Na atividade 4, descreva e determine o espaço E caracterizado (no espaço
amostral dos gametas) pela ocorrência de gametas que apresentam ape-
nas genes dominantes.
6. Considere o espaço amostral dos pacientes em determinado dia, num hos-
pital-escola, e os eventos:
A: ocorrência de hepatite
Bioestatística 75
B: ocorrência de icterícia
Descreva os seguintes eventos:
a) Ac
b) Bb
c) A B
d) A B
e) (A B)c
f) (A B)c
g)Ac Bc
h) A Ac
i) B Bc
7. A queratose é devida a um gene dominante Q. Uma mulher com queratose, cujo
pai era normal, casa-se com um homem com queratose, cuja mãe era normal.
Determine a probabilidade de ser gerado um filho com a referida doença.
8. Sabe-se que o feocromacitoma (F) e a neurofibromatose (N) são neopla-
sias de células de um sistema comum. Se a ocorrência de F é de 1 para
2.000 , enquanto a de N é de 1 para 1.500, qual é a frequência teoricamente
esperada da ocorrência simultânea das enfermidades , sob a hipótese (não
correta) de que sejam condições independentes?
9. A miopia é recessiva na espécie humana.
a) Qual é a probabilidade de nascer uma criança míope de um casal normal,
heterozigoto para essa característica?
b) Sabendo que a cor dos olhos azuis é também recessiva, qual é a probabi-
lidade de o mesmo casal anterior ter filhos de olhos azuis e míopes, sendo
ambos de olhos castanhos, heterozigotos?
10. Uma pesquisa sobre os grupos sanguíneos do sistema ABO, na qual fo-
ram testadas 6.000 pessoas de uma mesma raça, revelou que 2527 tem o
antígeno A, 2234 o antígeno B e 1846 não tem nenhum antígeno. Nestas
condições, qual é a probabilidade de que uma dessas pessoas, escolhi-
das aleatoriamente, tenha os dois antígenos?
11. Se a probabilidade de um indivíduo ter sangue Rh- é de 10%, qual a proba-
bilidade de 5 indivíduos que se apresentam para exame do tipo de sangue
terem todos Rh-?
12. Um casal planeja ter 5 filhos. Admitindo que sejam igualmente prováveis
os resultados: filho do sexo masculino e filho do sexo feminino, qual a pro-
babilidade de o casal ter:
a) 5 filhos do sexo masculino?
76
SANTIAGO, G. S., PAIVA, R. E. B.
Texto Complementar
Probabilidade: um pouco de história
Os jogos de azar são usados pelo homem desde a antiguidade e constituem modelos
de situações comandadas pelo acaso. Não é de admirar, portanto, que estejam asso-
ciados aos primeiros interesses por uma análise matemática da questão da incerteza.
Embora alguns problemas específicos já tivessem sido resolvidos antes dessa época,
as bases da teoria da probabilidade surgiram somente na metade do século XVII, em
uma troca de cartas entre dois ilustres matemáticos franceses, Blaise Pascal (1623-
1662) e Pierre de Fermat (1601-1665), iniciada em 1654.
Esta correspondência envolvia o problema de como dividir o prêmio de um jogo en-
volvendo várias partidas se, por alguma razão, o jogo fosse interrompido antes que
algum jogador tivesse vencido o número de partidas combinado previamente. O pro-
blema, que não era novo, foi apresentado a Pascal por Antoine Gombaud, o Chevakier
de Meré, homem de letras e membro da corte de Luis XIV. Pascal e Fermat apresen-
taram soluções diferentes para o problema, sendo que o primeiro buscou a resposta
usando os valores esperados de duas ações alternativas enquanto Fermat centrou a
solução no cálculo de probabilidades de um evento. Nenhum dos dois, no entanto,
publicou imediatamente seu resultado.
De Meré avaliou, depois, que o estudo matemático das probabilidades não era coi-
sa que deveria ser pesquisada a fundo, e afirmou que o tempo gasto nesse estudo
“poderia ser mais bem-empregado”, opinião que felizmente não foi compartilhada
por vários matemáticos da época. Em 1655, esteve na França o astrônomo, físico e
matemático holandês Christian Huygens (1629-1695), que tomou conhecimento do
problema da divisão do prêmio, e não sabendo da solução dos franceses, dedicou-
-se a buscar também uma resposta. A solução de Huygens acabou sendo publicada
primeiro (1657) que as de Pascal e Fermat (1679), naquele que seria o primeiro livro
a tratar do cálculo de probabilidades.
O interesse pelo assunto começou a crescer entre os matemáticos. Jacques Bernoulli
(1654-1705), entre outras contribuições, enunciou e demonstrou a “Lei dos grandes
números: Se n for suficientemente grande, a diferença entre a frequência relativa de
um evento e a sua probabilidade verdadeira é um número desprezível”, importante te-
orema que uniu o conceito abstrato da probabilidade com a realidade com a realidade
expressa pelos números. Pierre-Simon de Laplace (1749-1827), matemático, físico e
astrônomo francês, embora talvez mais conhecido pelas suas descobertas em mecâ-
nica celeste, também tem uma participação importante no âmbito da teoria de pro-
babilidades. Entre outras descobertas e proposições, Laplace notou que a distribuição
binomial aproxima-se de uma normal quando n cresce, desenvolveu diversos métodos
a serem usados em demografia, entre eles um modo de construir tabelas de mortalida-
de, e verificou que na França nasciam mais homens do que mulheres, na razão 25/24,
aproximadamente. Laplace costumava dizer que a teoria de probabilidades nada mais
é do que o bom senso transformado em cálculo. Foi somente após a publicação de seu
trabalho “Théorie Analytique dês Probabilités” (1812) que as aplicações da teoria de
probabilidades se tornaram cientificamente justificáveis na prática.
78
SANTIAGO, G. S., PAIVA, R. E. B.
Referências
BEIGUELMAN, B. Curso prático de bioestatística. Ribeirão Preto: Socieda-
de Brasileira de Genética, 1988. 196 p.
CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto
Alegre: Artmed, 2003. 255 p.
HAZZAN, S. Fundamentos de matemática elementar. São Paulo: Atual Edi-
tora Ltda, 1993. v. 5, 149 p.
PAIVA, M. Matemática. São Paulo: Editora Moderna, 1995.v. 2, 592 p.
OLIVEIRA, E. G.; MOREIRA, O, C. Guia para o ensino introdutório da es-
tatística nos cursos da área de saúde. Fortaleza: Universidade Estadual do
Ceará, 1987. 149 p.
VIEIRA, S. Introdução à bioestatística. Rio de Janeiro: Campus, 1988. 294 p.
Capítulo
Parte 41
Procedimentos
Associação dedevariáveis
ensino
Capítulo 7
Correlação linear simples
Objetivos
l Conceituar evento e espaço amostral de um experimento.
l Representar graficamente uma correlação através do diagrama de dispersão.
l Definir correlação.
l Reconhecer quando a correlação é positiva, é negativa ou quando não há
correlação.
l Calcular e interpretar o coeficiente de correlação.
l Elaborar um curvograma.
l Compreender a ideia de aproximação linear.
l Encontrar a equação de regressão linear simples.
l Compreender o significado dos parâmetros.
1. Conceito de correlação
Avaliar se existe associação entre duas características quantitativas é objetivo
de muitos estudos em biologia. Um ecologista pode estar interessado em sa-
ber, por exemplo, se há associação entre a quantidade de chumbo medida na
água e o volume de dejetos despejados em determinado rio; um médico que-
rer avaliar se a pressão arterial está relacionada à idade das pessoas, quando
se pode demonstrar que existe associação entre duas variáveis quantitativas,
isto é, quando se constata que elas variam juntas, diz-se que as variáveis es-
tão correlacionadas. (CALLEGARI – JACQUES, 2003).
Assim, a correlação entre duas variáveis poderá ser calculada quando
se deseja saber se a variação de uma delas acompanha proporcional ou in-
versamente a variação da outra.
2. Diagrama de dispersão
O primeiro passo para se avaliar a correlação entre característica é a cons-
trução de um gráfico chamado diagrama de dispersão. Tal gráfico consta de
um sistema cartesiano de pontos que representam as variáveis envolvidas: a
82
SANTIAGO, G. S., PAIVA, R. E. B.
Tabela 1.1
NOTAS DE MATEMÁTICA E FÍSICA DE 10 ALUNOS DE UMA TURMA DA UECE
Disciplina
Aluno (n°)
Matemática (X) Física (Y)
05 5,0 6,0
11 8,0 9,0
12 7,0 8,0
21 10,0 10,0
29 6,0 5,0
37 7,0 7,0
40 9,0 8,0
41 3,0 4,0
49 8,0 6,0
50 2,0 2,0
Bioestatística 83
3.1. Cálculo de r
O instrumento empregado para a unidade da correlação linear é o coeficiente
de correlação de Pearson, estabelecido pela fórmula seguinte:
∑ xy − ∑ n∑
x y
r=
( ) ( )
2
2
∑ x 2 − ∑ x
∑ y 2 − ∑ y
n n
Solução:
Vamos refazer a tabela com os cálculos necessários, construindo a Ta-
bela 1.3 (vire a página)
Tabela 1.3
Assim,
131,9259 −
( 59,39 )(17, 43)
r= 8
( 59,39 ) (17, 43)
2 2
ou seja,
131,9259 − 129,3959625
r =
[ 451,9245 − 440,8965125][38, 6305 − 37,9756125]
2,5299375
r=
(11, 0279875)( 0, 6548875)
Logo, r = 0,94140892 .
Por outro lado, a análise da Figura 8.2 revela uma aproximação linear.
O motivo de se falar numa “aproximação linear” entre duas variáveis x e y, re-
side no fato de que os pares de valores ( xi , y i ) , i = 1, 2, ..., n (correspondente
ao total de pares) representam pontos do plano que podem não se localizar
exatamente sobre a reta, mas se distribuem ao longo dessa reta, em ambos
os seus lados.
Bioestatística 87
Figura 2.2 – Aproximação linear entre duas variáveis x e y (THORNER e BONN, 1966;
citado por AGUIAR et al., 1988).
∑ xy − ∑ n∑
x y
a= e b = y − ax
(∑ x)
2
∑x − n2
88
SANTIAGO, G. S., PAIVA, R. E. B.
Tabela 2.1
DADOS RELATIVOS A DUAS VARIÁVEIS x E y
x y
1 7
2 6
3 6
4 4
5 1
6 1
Faça um curvograma.
Encontre a equação de regressão.
Solução:
O curvograma, como vimos, é feito simplesmente plotando-se os
pontos no plano cartesiano e ligando-os por segmentos de reta, como
mostra a Figura 2.3.
Tabela 2.2
CÁLCULOS INTERMEDIÁRIOS PARA OBTENÇÃO DOS PARÂMETROS A E B
x y xy x2
1 7 7 1
2 6 12 4
3 6 18 9
4 4 16 16
5 1 5 25
6 1 6 36
∑ 21 25 64 91
64 −
( 21)( 25)
6 61 − 87,5 −26,5
a= = = = −1,51
441 91 − 73,5 17,5
91 −
6
b 4,17 − ( −1,51)( 3,5=
= ) 4,17 − ( −5, 285=) 9, 455
Então a reta é:
yˆ =
−1,51x + 9, 455
Observe a Tabela 2.3 a seguir onde comparamos os valores reais e os
valores obtidos pelo modelo:
Tabela 2.3
VALORES OBTIDOS ( y^ ) PELO MODELO LINEAR
x y ŷ
1 7 7, 945
2 6 6, 435
3 6 4,925
4 4 3, 415
5 1 1, 905
6 1 0,395
3. Transformações de variáveis
Existem gráficos de dispersão onde os pontos estão muito difusos, portanto,
não se dispondo em torno de uma reta, sugerindo que o modelo linear não é
apropriado para descrever o fenômeno. Neste caso, a transformação de vari-
90
SANTIAGO, G. S., PAIVA, R. E. B.
Tabela 2.5
CÁLCULOS NECESSÁRIOS PARA CONSTRUIR A REGRESSÃO DE y CONTRA x
x y xy x2
1 4,0 4,0 1,0
4 8,0 32,0 16,0
16 15,0 240,0 256
32 22,6 723,2 1024
64 36,4 2.329,6 4096
128 45,3 5798,4 16384
256 60,0 15.360,0 65.536
24487, 2 −
( 501)(191,3)
7 24487, 2 − 13691, 61429 10.795,58571
=a = = = 0, 209803437
( 501)
2
87313 − 35857, 28571 51.455, 71429
87313 −
7
b = 27,32857143 − 0, 209803437 × 71,57142857
= 27,32857143 − 15, 01593171
= 12,31263972
Utilizando os dados da Tabela 2.6, vamos construir a Tabela 2.7, que con-
tém os cálculos intermediários necessários para obtenção da curva de regressão.
Tabela 2.7
CÁLCULOS NECESSÁRIOS PARA A CONSTRUÇÃO DA REGRESSÃO DE y CONTRA LOG (x)
log x Y (log x).y (log x)2
0 4 0 0
0,602 8,0 4,816 0,362
1,204 15,0 18,06 1,450
1,505 22,6 34,013 2,265
1,806 36,4 65,738 3,262
2,107 45,3 95,447 4,439
2,408 60,0 144,48 5,798
362,554 −
( 9, 632 )(191,3)
=a 7 = 362,554 − 263, 229 99,325
= = 22,981
( 9, 632 )
2
17,576 − 13, 254 4,322
17,576 −
7
b = 27,328 − 22,981×1,376
Logo,
yˆ = 2 ,981 log x + 1,376 é a equação de regressão que chamaremos
de modelo 2.
Bioestatística 93
Solução:
c)
b) Utilizando os dados da Tabela 2.8, vamos construir a Tabela 2.9, que contém
os cálculos intermediários necessários para obtenção da curva de regressão.
94
SANTIAGO, G. S., PAIVA, R. E. B.
Tabela 2.9
833,398 −
( 501)( 9, 03)
7 833,398 − 646, 29 187,108
=a = = = 0, 004
( 501)
2
87.313 − 35.857, 286 51.455, 714
87.313 −
7
Solução:
a)
Tabela 2.8
CÁLCULOS NECESSÁRIOS PARA OBTENÇÃO DA CURVA DE REGRESSÃO DE LOG (y) CONTRA LOG (x)
log (x) log (y) (log x)(log y) (log x)2
0 0, 602 0 0
0, 602 0, 903 0, 543606 0, 362404
1, 204 1, 176 1, 415904 1, 449616
1, 505 1, 354 2, 037770 2, 265026
1, 806 1, 561 2, 819166 3, 261636
2,107 1,656 3, 489192 4,439449
2,408 1,778 4, 281424 5,798464
14,587062 −
( 9, 03)( 9, 632 )
=a = 7 0,500
( 9, 632 )
2
17,576594 −
7
9, 03 9, 632
b= − 0,5 × = 0, 602
7 7
Portanto, a equação de regressão de log (y) contra log (x) (modelo 4) é
log yˆ = 0,5 log x + 0,602 .
Observe a Tabela 2.12 que mostra os valores previstos pelos modelos
teóricos. Podemos notar que os valores previstos pelo modelo 4 são os que
mais se aproximam dos valores reais (y), sugerindo que a transformação de
variáveis pode ser uma boa estratégia para ajuste de um modelo.
Tabela 2.9
Síntese do Capítulo
Esta parte teve como objetivo central estudar a associação de variáveis e a
possibilidade de estabelecer um modelo matemático que permitisse prever o
valor de variável conhecido o valor da outra. Inicialmente estudamos a cor-
relação linear simples que pode ser calculada quando se deseja saber se a
variação de uma delas acompanha proporcional ou inversamente a variação
Bioestatística 97
Atividades de avaliação
1. Em um estudo conduzido na Itália, 10 pacientes com hipertriglicedemia for-
ma colocados sob dieta de baixas gorduras e altos carboidratos. Antes de
iniciá-la as medidas de colesterol e de triglicerídeos foram registrados para
cada indivíduo, conforme tabela abaixo:
X 89 90 75 30 51 75 62 45 90 20
Y 2 3 4 4,5 5,5 7 9 13 15 14
a) Estude a possível relação entre ambas variáveis obtendo seu grau de ajuste.
b) Que percentagem de sobrepeso podemos esperar para o limiar de reflexo 10?
8. Leva-se a cabo um estudo por meio de detectores radioativos da capacida-
de corporal para absorver ferro (Fe) e chumbo (Pb). Participam do estudo
10 sujeitos. A cada um é aplicada uma dose oral idêntica de ferro e de
chumbo. Depois de 12 dias, mede-se a quantidade de cada componente
retida no sistema corporal e, a partir disso, determina-se a percentagem
absorvida pelo corpo. Obtiveram-se os seguintes dados:
% Fe = X 17 22 35 43 80 85 91 92 96 100
% Pb = Y 8 17 18 25 58 59 41 30 43 58
Tabela 2.10
NÍVEIS DE COLESTEROL DE TRIGLICERÍDEOS DE 10 PACIENTES COM HIPERTRIGLIGERIDEMIA
Paciente Nível de colesterol (m mol/L) Nível de triglicerídeos (m mol/ L)
1 5,12 2,30
2 6,18 2,54
3 6,77 2,95
4 6,65 3,77
5 6,36 4,18
6 5,90 5,31
7 5,48 2,53
8 6,02 8,83
9 10,34 9,48
10 8,51 14,20
Fonte: Pagano e Gauvreau (2006).
Tabela 2.11
PORCENTAGEM DE CRIANÇAS IMUNIZADAS CONTRA DPT (DO INGLÊS (DIPHTERIA, PERTUSSIS, TETANUS)
E TAXA DE MORTALIDADE PARA CRIANÇAS DE 0 A 5 ANOS PARA 20 PAÍSES)
Nação Imunização % Taxa de mortalidade por 1.000 nascidos vivos
Bolívia 77 118
Brasil 69 65
Camboja 32 184
Canadá 85 8
China 94 43
República Tcheca 99 12
Egito 89 55
Etiópia 13 208
Finlândia 95 7
França 95 9
Grécia 54 9
Índia 89 124
Itália 95 10
Japão 87 6
México 91 33
Polônia 98 16
Rússia 73 32
Senegal 47 145
Turquia 76 87
Reino Unido 90 9
Fonte: Pagano e Gauvreau (2006).
16. Foi realizado um estudo para estabelecer uma equação mediante a qual
se possa utilizar a concentração de estrógeno na saliva (x) para estimar a
concentração de estrógeno em plasma livre (y), foram extraídos os seguin-
tes dados de 14 homens sadios:
X 1,4 7,5 8,5 9 9 11 13 14 14,5 16 17 18 20 23
Y 30 25 31,5 27,5 39,5 38 43 49 55 48,5 51 64,5 63 68
Fonte: Diaz e López (2007).
Quantidade de calcário 0 1 2 3 4 5
% de anomalias celulares 30 27 22 23 18 16
Texto Complementar
A interpretação dos parâmetros da regressão linear simples
Alguns experimentos utilizam diferentes tratamentos que variam apenas no nível do
fator que se deseja testar. Este é o caso de um ensaio para avaliação de desempenho
em coelhos quando os tratamentos consistem na mesma ração, com diferentes níveis
de fibra, digamos 7, 9, 11 e 13%. A razão de se investigar um intervalo tão restrito de
níveis de fibra prende-se à realidade econômica ou metabólica. Animais alimentados
com rações apresentando menos de 7% de fibra talvez tenham melhor desempenho,
mas a um custo mais alto de ração. Rações com mais de 13% de fibra não serão tão
adequadas ao animal que provavelmente mostrará menor desempenho. Portanto,
neste intervalo restrito, a resposta animal (peso) tende a se manifestar de maneira
linear, diminuindo o desempenho à medida que o nível de fibra aumenta. Esta depen-
dência do desempenho em relação à quantidade de fibra na ração pode ser matema-
ticamente definida como:
Y = a + bX
Onde ‘Y’ é a estimativa do desempenho animal (peso ao abate) alimentado com ração
contendo X% de fibra, ‘a’ é o coeficiente linear de regressão, correspondendo teorica-
mente ao valor de Y quando X=0, e ‘b’ é o coeficiente de regressão do percentual de
fibra sobre a resposta Y (peso).
Se no estudo sugerido de desempenho de coelhos, com relação aos níveis de fibra,
tivéssemos obtido o modelo
Y = 2,7 – 0,1X
Onde Y é a estimativa do peso ao abate (Kg) do coelho alimentado com ração X% de
fibra, poderemos interpretar:
Coeficiente linear (a = 2,7): para o nível zero de fibra (inviável na prática), o peso ao aba-
te seria de 2,7 Kg. O valor de ‘a’ neste caso não permite uma interpretação biológica e
apenas corresponde ao ponto de interseção que a reta apresenta com o eixo vertical Y.
Coeficiente de regressão (b = -0,1): para cada 1% de fibra na ração o desempenho po-
tencial do animal (peso) cai 0,1 kg (note que b < 0) no peso final. Se o valor de b fosse
-0,2, para cada 1% de fibra a mais, o peso ao abate cairia 0,2 Kg. Observe que quanto
maior o valor absoluto de b maior será a influência de X (fibra) sobre o peso de abate.
Um valor mais elevado de b corresponderá a uma reta mais inclinada e portanto com
maior influência de X sobre Y. Se não houver inclinação alguma , b = o e Y = a, definin-
do uma reta paralela ao eixo horizontal X, onde Y = a independente do valor atribuído
a X. Isto, portanto significaria que não haveria associação entre variáveis Y e X, Y in-
dependeria de X.
Estimativas de desempenho (peso ao abate) de animais sob diferentes níveis de fibra
na ração poderão ser feitas com segurança dentro daquele intervalo estudado (de 7
a 13%) e com alguma reserva para valores próximos aos limites de X, por exemplo:
Se X = 6%, Y = 2,7 – 0,1 (6) = 2,1 Kg
Se X = 14%, Y = 2,7 – 0,1(14) = 1,3 Kg
O modelo obtido Y = 2,7 – 0,1 X também permite determinar (teoricamente) o valor
percentual de fibra que não conduziria a desempenho algum (Y=0), ou seja:
0 = 2,7 – 0,1X, X = 27%
Bioestatística 105
Em ensaios exploratórios, informações como esta podem ser importantes, porque de-
finiriam o teor máximo de fibra admitido na ração para aquele animal. O verdadeiro
valor deste teor, entretanto, pode ser metabolicamente inferior aquela percentagem
(27%) porque utilizamos a pressuposição de efeito linear até aquela percentagem,
quando na realidade a estudamos apenas no intervalo de 7 a 13%. Outro ensaio de-
veria ser feito para obter a informação de tolerância máxima à fibra na ração
(Modificado de SAMPAIO, 1988).
Referências
AGUIAR, A. F. A.; XAVIER, A. F. S.; RODRIGUES, J. E. M. Cálculo para ciên-
cias médicas e biológicas. São Paulo: Editora Harbra, 1988. 351 p.
CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto
Alegre: Artmed, 2003. 255 p.
DIAZ, F. R.; LÓPEZ, F. J. B. Bioestatística. São Paulo: Thomson, 2007. 284 p.
PAGANO, M.; GAUVREAU, K. Princípios de bioestatística. São Paulo:
Thomson, 2004. 506 p.
SAMPAIO, I. B. M. Estatística aplicada à experimentação animal. Belo Ho-
rizonte: Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia,
1998. 220 p.
VIEIRA, S. Introdução à bioestatística. Rio de Janeiro: Campus, 1988. 294 p.
Capítulo 51
Procedimentos de ensino
Capítulo 9
Noções sobre amostragem
Objetivos
l Definir amostra, população e universo.
l Definir variável e dá exemplos dos seus vários tipos.
l Definir os principais tipos de amostragem.
l Conceituar inferência estatística.
l Compreender os conceitos de estimação e testes de hipóteses.
1. População e amostra
Dois conceitos iniciais devem ficar bem claros: o de população e o de amostra,
pois é delas que são extraídos os dados (informações) que dão origem às diver-
sas relações estatísticas, como média, desvio-padrão etc. Por ser, regra geral,
impraticável o estudo de toda a população, é desejável que se possa, a partir de
uma parcela dessa população (amostra), tirar conclusões sobre toda a popula-
ção. Este fato por si só já justifica o uso de amostras, mas há outras razões para
seu uso, como discutimos a seguir: se uma população é hipotética, é óbvio que
só podemos estudar uma amostra; por exemplo, se uma população consistir
de todos os indivíduos que são hipertensos (ou que ainda venham a ser), então
qualquer que seja o número de indivíduos estudados representam sempre uma
amostra. Observe que a população desse exemplo, embora muito grande, é
finita. Outra razão muito importante é que o estudo cuidadoso de uma amostra
tem maior valor científico do que o estudo sumário de toda a população, como
observamos no exemplo a seguir, extraído de Vieira (1988).
Exemplo 1.1 – Para estudar o efeito do uso tópico de flúor sobre a incidência
de cáries dentárias em crianças com idade escolar, não se recorre a toda a
população mesmo que o estudo se restrinja a uma área limitada em curto
espaço de tempo. Isto porque uma amostra de crianças submetidas a exa-
mes odontológicos periódicos fornece informações mais fidedignas do que a
população de crianças rapidamente examinadas antes e determinado tempo
após a aplicação tópica de flúor.
110
SANTIAGO, G. S., PAIVA, R. E. B.
3. Amostragem
O estudo deste capítulo já nos deixou clara a importância de se estudar amos-
tras, mas vale a pena insistir nas vantagens do exame de simples amostras
sobre a análise direta e inteira da população, verificando algumas considera-
ções feitas por Oliveira e Moreira (1987):
a) Se a população é infinita ou hipotética, é evidente que só nos será per-
mitido o uso de amostras. Mesmo que as populações não sejam infinitas
é mais vantajoso o exame apenas de amostras, porque:
b) Haverá economia de tempo;
c) Haverá economia de custos;
d) Examinando menos itens, temos mais chances de análise aprofundada;
e) Em certos casos, o exame de toda a população levará a destruição de seus
elementos, com prejuízos graves e irreversíveis, além de conclusões inú-
teis. Por exemplo, para um hemograma, tomamos apenas uma amostra de
sangue do paciente; para que se examinasse o sangue total (população),
levaríamos o paciente a um choque hipovolêmico (teríamos um perfeito
diagnóstico... para um defunto!);
f) Se não bastassem os argumentos já citados teríamos um definitivo: A EXPE-
RIÊNCIA TEM DEMONSTRADO QUE BOA AMOSTRAGEM FUNCIONA!
Bioestatística 113
2. Distribuições amostrais
Imaginemos uma população (de parâmetros desconhecidos µ e σ ), da
qual sejam extraídas todas as possíveis amostras de tamanho n (número de
elementos da amostra) e determinada a média de cada amostra; o conjunto
obtido será denominado distribuição amostral de médias ( ou população de
médias amostrais), demonstrando-se que os seguintes parâmetros:
a) µ X = σ , ou seja, a média das médias amostrais é igual a da população
original.
σ
b) σ X = n , ou seja, o desvio padrão das médias é uma fração do corres-
pondente valor populacional, sendo o denominador a raiz quadrada do ta-
manho da amostra. O desvio padrão de uma distribuição amostral se cha-
ma também de erro padrão, no caso examinado: erro padrão da média.
Existem outras distribuições amostrais, de significado igual ao explicado
para as médias: distribuições de proporções amostrais, de diferenças entre
médias amostrais etc...
Os conceitos expedidos nesse tópico são a essência dos procedimen-
tos da estatística indutiva. Vamos a eles:
3. Estimação
Suponha-se que alguém deseje avaliar a glicemia média de recém-nascidos
de mães diabéticas e, para isso tome uma amostra de 100 dessas crianças
obtendo-se uma média de X =85mg/dL, a qual servirá para dar uma ideia do
valor glicêmico médio de todos os recém-nascidos de mães diabéticas. O
procedimento é válido, mas não dá ideia do erro cometido na estimação; por
exemplo, é de supor que examinando 500 crianças, teríamos um erro menor,
uma aproximação mais precisa do valor proporcional. É mais adequado utili-
zar um intervalo, chamado intervalo de confiança , obtido pela teoria:
s
X ± 1,96 , que em 95% dos casos conterá a média populacional.
n
Observações importantes!
1ª) ± 1,96 são os valores que, em unidades de variável reduzida, compreende
95% sob a curva normal (capítulo 6).
s
2ª) 1,96 é o erro de estimativa.
n
3ª) O valor s (amostral) é usado ao invés do valor populacional σ , em geral
desconhecido, procedimento que só é válido para grandes amostras, de
tamanho superior a 30, as únicas aqui consideradas.
Bioestatística 117
4. Testes de hipóteses
Vamos introduzir esse tema com um exemplo simples, extraído de Oliveira e
Moreira (1987). “Suponha que certo indivíduo, suspeitando que uma moeda
é viciada, planeja o seguinte experimento: lançá-la, aleatoriamente, 6 vezes
e contar o número de resultados obtidos (caras ou coroas); rejeita a “honesti-
dade” da moeda se sempre que ocorrer a mesma face. Qual a probabilidade
(risco) de considerar viciada uma moeda honesta?”
118
SANTIAGO, G. S., PAIVA, R. E. B.
GRUPOS
Dados GRUPO I GRUPO II
Peso médio
X 1 = 3,9kg X 2 = 3,6kg
Desvio padrão s1 = 0,4kg s2 = 0,4kg
Conclusão:
Rejeita-se H0; existe uma diferença significativa, ao nível de 5%, entre os
pesos de recém-nascidos de não fumantes e fumantes.
Nota: Os dados do exercício acima são hipotéticos, mas existem es-
tudos reais que mostram ser o tabagismo importante fator de geração de
crianças de baixo peso (muitas, prematuras ponderais, ou seja, com peso
inferior a 2,5kg).
SEXO
Grupo sanguíneo Masculino Feminino Total
A 112(e1) 88(e2) 200
B 58(e3) 42(e4) 100
AB 180(e5) 120(e6) 300
O 250(e7) 150(e8) 400
Total 600 400 1.000
Bioestatística 123
Assim, temos a tabela completa (com valores observados fora dos pa-
rênteses e valores esperados dentro dos parênteses):
SEXO
Grupo sanguíneo Masculino Feminino Total
A 112(120) 88(80) 200
B 58(60) 42(40) 100
AB 180(180) 120(120) 300
O 250(240) 150(160) 400
Total 600 400 1.000
Para o cálculo do coeficiente de contingência, temos:
8,17
Logo : C = ≅ 0, 05 . O valor corrigido será:
2,55 + 1000
2
C = 0,09 = 0,09. 2 ≅ 0,07 , valor próximo de zero, o que sugere
2 −1
independência entre sexo e grupo sanguíneo, como era de se esperar.
∴ χ2 < 3,84
Conclusão:
Aceita-se H0, os dados são compatíveis com a hipótese de igualdade de
nascimentos de machos e fêmeas.
Síntese do Capítulo
No primeiro capítulo desta parte foram introduzidos conceitos fundamentais
como amostra, população e universo, sendo tais conceitos discutidos no âm-
bito das escalas de medidas, bem como foram apresentadas as principais
técnicas de amostragem , destacando a importância da aleatoriedade neste
estudo. O capítulo 10 destinou-se a introduzir o mais importante aspecto da
estatística – a inferência. Técnicas de grande alcance, como estimação e
teste de hipóteses, foram apresentados dando um suporte para que o estu-
dante, futuramente, possa melhorá-los em cursos de pós-graduação.
Bioestatística 125
Atividades de avaliação
1. Considere como universo os habitantes da cidade de Felizlândia em setem-
bro de 2009. Descreva 5 populações e 5 amostras oriundas desse universo.
2. Responda ao que se pede:
a) Dê exemplos de variáveis nas escalas nominal, ordinal, intervalar e de razões.
b) Variáveis na escala intervalar podem ser somadas? E na escala ordinal?
c) Variações de temperatura podem ser divididas? Por quê?
d) Tempo é uma variável intervalar? Por quê?
e) Idade é variável em escala de razões? Por quê?
3. Suponha uma população com 5 elementos A, B, C D e E, da qual se deseja
obter uma amostra casual simples de tamanho 3. Quantas amostras são
possíveis? Quais são elas?
4. Um pesquisador dispõe de 10 cobaias para realizar um experimento sobre
a toxicidade de uma droga. Os cinco primeiros animais que ele consegue
pegar são utilizados para o teste da droga e os 5 restantes servirão de con-
trole. Esta amostragem não é boa. Como você agiria?
5. Em uma pesquisa de mercado para serviços odontológicos em certa cida-
de, foi estabelecida a seguinte técnica de amostragem: tomou-se uma lista
de nomes de clientes de uma loja de um shopping center, onde a lista está
em ordem alfabética do último sobrenome, e se amostrou o quinto de cada
10 nomes da lista. Discuta este procedimento.
6. Admitindo que o desvio padrão de taxas de ureia plasmática em adultos nor-
mais é de 3mg/dL, qual o tamanho mínimo da amostra para que se tenha
um erro de estimativa não superior a 0,5mg/dL?
7. Um pesquisador admite que, em portadores de determinada doença, os gru-
pos sanguíneos (sistema ABO) se distribuem na proporção A:B:O:AB::1:2:3:4.
Analise esta hipótese à luz dos seguintes dados de observação sobre 200
pacientes, tomados aleatoriamente:
126
SANTIAGO, G. S., PAIVA, R. E. B.
Grupos
I II
Média X 1 =260 X 2 = 250
Desvio padrão s1= 20 s2= 25
Tamanho da amostra n1 = 30 n2 = 30
Teste, ao nível de 5%, a hipótese de igualdade entre as médias populacionais.
Grupos
I II
Texto complementar
Efeito indesejável no levantamento de dados: efeito placebo
O efeito placebo ocorre quando um indivíduo participante de um experimento, mas
não tratado, acredita estar recebendo o tratamento e passa a relatar melhoras em
seus sintomas. Uma forma de administrar placebo por via oral em Placebo é uma
substância neutra, isto é, que não apresenta nenhum princípio ativo capaz de com-
primidos consiste em dar ao indivíduo um comprimido de farinha. Outra forma é
apresentar a substância diluída em uma bebida, como suco ou chá. Normalmente, os
comprimidos de placebo possuem o mesmo formato dos comprimidos verdadeiros,
isto é, aqueles que contém o princípio ativo. A intenção com esse procedimento é a
de que o paciente, ao tomar o placebo, de fato pense estar tomando uma substância
que irá lhe trazer uma mudança de estado. Naturalmente, nada deveria ocorrer com
ele e, se relatar melhora, obviamente estar sendo objeto do efeito placebo. Este pro-
cedimento é de fundamental importância para isolar a ação do sal ao se testar sua
eficácia. O procedimento experimental empregado para testar o efeito de determina-
da substância eliminando o efeito placebo consiste em separar os pacientes em dois
grupos. O primeiro – denominado controle – recebe comprimidos de placebo; en-
quanto o segundo – denominado tratamento – recebe os comprimidos verdadeiros.
Devido ao fato de os pacientes participantes do experimento não saberem ao certo
se estão sendo tratados (recebendo o comprimido verdadeiro), um estudo que adota
esse procedimento é denominado estudo cego ou blind
Referências
ARANGO, H. G. Bioestatística: teórica e computacional. Rio de Janeiro: Gua-
nabara Koogan, 2005. 423 p.
CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto
Alegre: Artmed, 2003. 255 p.
OLIVEIRA, E. G.; MOREIRA, O. C. Guia para o ensino introdutório da esta-
tística nos cursos da área de saúde. Fortaleza: UECE, 1987.149 p.
VIEIRA, S. Introdução à bioestatística. Rio de Janeiro: Editora Campus,
1988. 294 p.
Sobre os autores
Genário Sobreira Santiago
•• Bacharel em Medicina veterinária (UECE - 1985);
•• Licenciado em Matemática (UECE - 2007);
•• Mestre em Zootecnia (UFMG - 1990);
•• Doutor em Ciência Animal (UFMG - 2001);
•• Atualmente é Professor Adjunto da UECE.
F
iel a sua missão de interiorizar o ensino superior no estado Ceará, a UECE,
como uma instituição que participa do Sistema Universidade Aberta do
Brasil, vem ampliando a oferta de cursos de graduação e pós-graduação
na modalidade de educação a distância, e gerando experiências e possibili-
dades inovadoras com uso das novas plataformas tecnológicas decorren-
Ciências Biológicas
tes da popularização da internet, funcionamento do cinturão digital e
Bioestatística
massificação dos computadores pessoais.
Comprometida com a formação de professores em todos os níveis e
a qualificação dos servidores públicos para bem servir ao Estado,
os cursos da UAB/UECE atendem aos padrões de qualidade
estabelecidos pelos normativos legais do Governo Fede-
ral e se articulam com as demandas de desenvolvi-
Bioestatística
mento das regiões do Ceará.
Geografia
12
História
Educação
Física
Ciências Artes
Química Biológicas Plásticas Computação Física Matemática Pedagogia