Vous êtes sur la page 1sur 40

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

APOSTILA DE BIOESTATSTICA
PERITO CRIMINAL

Israel Souza
Professor do IFRJ
isra.sza@gmail.com

SOFEP - Niteri
Outubro de 2009

SOFEP

Niteri

Out/2009

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

PREPARE-SE

Este um material de apoio s aulas ministradas no curso preparatrio.


Ele foi redigido em linguagem simples e acessvel, com base numa bibliografia que trata o
assunto numa linguagem compreensvel queles que no so estatsticos.
Procuramos cobrir todo o contedo exigido pela organizadora do concurso (CESPE-UnB).
Mas a experincia ao analisar diversas provas nos mostra que determinado contedo tem
sido mais cobrado que outros.
Para o cargo em questo extremamente comum a cobrana dos seguintes conhecimentos:
 Mdia
 Desvio Padro
 Intervalo de Confiana
 Teste z
 Teste t
 Interpretao de grficos
claro que qualquer contedo exigido e apresentado neste material pode ser utilizado em
alguma questo do concurso, por isso recomendamos o estudo de todo o material, mas procure dar
uma nfase especial aos tpicos listados anteriormente.
No Material estes tpicos sero ressaltados com a seguinte mensagem:
TPICO COBRADO NAS PROVAS DO CESPE-UNB
Ateno especial nestes tpicos.
Organize seus horrios de estudo, mantenha sempre a calma, relaxe sempre que possvel.
Fao do estudo um momento de prazer.
Quaisquer dvidas entrem em contato por e-mail.
Abraos!
E um bom estudo!

SOFEP

Niteri

Out/2009

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

1- ESTATSTICA DESCRITIVA
1.1 CLASSIFICAO DAS VARIVEIS
Por definio, varivel aquilo que varia. Assim, a noo de varivel aplicvel em toda e
qualquer cincia.
Dito de outro modo, variveis so os possveis resultados do fenmeno estudado.
As variveis podem ser classificadas de acordo com o nmero de valores que assume e
tambm de acordo com o papel na pesquisa. Assim temos:
1- Quanto ao nmero de valores:
a) qualitativas: so aquelas que se embasam nas caractersticas do fenmeno e assumem
uma classificao ou ordenao. Ex: sexo, opo partidria, classificao numa corrida (1, 2, etc.).
b) quantitativas: so aquelas que se embasam na quantidade do fenmeno, pode-se dizer
que somados dois valores possvel atingir um terceiro valor. Subdivide-se em:
discretas: originria de dados de contagem, ou seja, s assumem valores inteiros. Ex: n
de alunos, n de leses no esporte, n de gols marcados etc.
continuas: So aquelas que podem ser representadas por qualquer valor entre dois pontos
limites. Em geral esto associadas a medidas que tenham unidade (m, kg, l, m/s etc.). Ex: Peso
corporal, altura, VO2, etc.
2- Quanto ao papel na pesquisa:
- Varivel independente (VI): a varivel que supostamente exerce influncia sobre outra.
a varivel que o pesquisador ter sob controle.
- Varivel dependente (VD): a varivel que supostamente sofre a influncia de outra. O
pesquisador no tem controle sobre ela.
- Varivel estranha (VE): a varivel capaz de influenciar a situao de pesquisa (a VI, a
VD ou a relao entre ambas), mas que no do interesse do pesquisador.
Nesse sentido, em relao a VI, a ao do pesquisador ser sempre no sentido de maximizar
a sua influncia sobre a VD. Assim, num laboratrio, haver um controle extremo das variveis
estranhas, de modo melhor ser observada a influncia da VI sobre a VD. Em relao VE, a ao
do pesquisador ser sempre no sentido de atenuar ou, sempre que possvel, eliminar seus efeitos.
Em relao VD, a nica ao do pesquisador ser no sentido de mensurao. A VD, que
ser mensurada, pode ser medida em diferentes nveis de acordo com o interesse do pesquisador ou
da situao e do instrumental de pesquisa.

1.2 NVEIS DE MEDIDA DAS VARIVEIS


A correta definio dos nveis de medida de uma varivel de extrema importncia para a
pesquisa. O nvel de medida da varivel se refere preciso da medida utilizada. Por definio,
medir atribuir nmeros a qualidades mediante uma determinada regra. Assim como os nveis de
medida variam, variam tambm as regras utilizadas na atribuio de valores numricos a
qualidades.
Nvel nominal: o primeiro nvel de medida, o mais elementar o nominal. Neste nvel, a
utilizao de nmeros se baseia no princpio de diferenciao dos nmeros. Em toda e qualquer
escala de nvel nominal, poderamos utilizar letras, ou outro smbolo qualquer. Os nmeros no
podem ser analisados como indicadores de quantidade, mas sim como coisas diferentes. Ex:
Cdigo Internacional de Doena, sexo, religio, esporte praticado.
Nvel ordinal: neste nvel, alm de permitir a diferenciao, a medida j possui uma noo
de ordem. Os diferentes nmeros indicam a existncias de valores diferenciados em relao
varivel, permitindo identificar maior e menor posse de uma determinada caracterstica. O
importante neste nvel de medida a estrutura hierrquica segundo a qual os dados so
SOFEP

Niteri

Out/2009

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

apresentados, e no o valor absoluto. Ex: colocao numa prova de 100m, categorias de peso no
boxe.
Nvel intervalar: No nvel intervalar os nmeros permitem a diferenciao, a ordenao e a
identificao de intervalos. So utilizados quase todos os procedimentos estatsticos. A nica
exceo se aplica a situaes nas quais necessrio considerar a existncia de um zero real. Na
escala intervalar, arbitramos um ponto de partida, que ser considerado o zero da medida. Ex:
temperatura em Celsius, nota numa prova de matemtica.
Nvel de razo: No nvel de razo existem todas as possibilidades: diferenciao,
ordenao, determinao de intervalos e a existncia de um zero absoluto. Ex: tempo, peso, altura,
temperatura em Kelvin.
Assim, j podemos, num primeiro momento, listar os procedimentos estatsticos que podem
ser utilizados de acordo com o nvel de medida utilizado.
Quadro 1: Procedimentos estatsticos conforme o nvel de medida utilizado
ESCALA
NOMINAL
ORDINAL

CARACTERSTICA
DISTINO
DISTINO
ORDEM
DISTINO

INTERVALAR

ORDEM
DISTNCIA

ESTATSTICA APROPRIADA
Freqncia, porcentagem, qui-quadrado (X2)
Estatstica no-paramtrica: mediana, Mann-Whitney,
Correlao ordinal de Spearman, Coeficiente de
Contingncia, etc.
Estatstica paramtrica: Mdia, Mediana, Desvio Padro,
Correlao de Pearson, Teste t de Student, Anlise da
varincia, Regresso, Anlise da co-varincia, etc.

DISTINO
RAZO

ORDEM

Mdia geomtrica, coeficiente de variao, Logaritmos

DISTNCIA
Fonte: Adaptado de Levin (1987).

1.3 CONCEITOS BSICOS EM PESQUISA COM UTILIZAO DA ESTATSTICA


Testar sistematicamente nossas idias sobre a natureza da realidade muitas vezes requer uma
pesquisa cuidadosamente planejada e executada, que envolve diversos estgios, onde (adaptado de
LEVIN, 1987):
1. O problema a ser estudado reduzido a uma hiptese testvel. Por exemplo: "o volume de
mitocndrias na musculatura estriada maior que na musculatura lisa. Reduzir um problema a
uma hiptese testvel significa definir o problema e a(s) hiptese(s) em termos operacionais. Uma
definio operacional explcita comportamentos observveis (direta ou indiretamente);
2. Um conjunto de instrumentos adequado desenvolvido. Por exemplo, so elaborados um
questionrio ou esquema de uma entrevista, ou um teste especfico selecionado (microscopia);
3. Dados so coletados, isto , o pesquisador pode ir a campo e fazer uma contagem ou um
inqurito. Subentende-se a obteno da amostra a partir da populao;
4. Descrio dos dados. Compreende um conjunto de operaes, numricas ou grficas,
efetuadas sobre os dados estatsticos determinando a sua distribuio; procede-se sua ordenao,
codificao e representao por meio de quadros e tabelas.
5. Os dados so analisados em cotejo com as hipteses iniciais. Consiste em tirar
concluses sobre a distribuio da populao, determinar o seu grau de confiana e ainda
formular hipteses, tentando verific-las, quanto ao fenmeno em estudo; e
6. Os resultados da anlise so interpretados e comunicados ao pblico, por exemplo, por
meio de conferncia ou publicao.
Uma das etapas do planejamento a definio do Problema de pesquisa. O problema
entendido como o fator que d incio a um estudo cientfico. Ele surge, basicamente, de trs
maneiras: 1) quando h falhas nos resultados das investigaes; 2) quando os resultados de vrias
pesquisas esto em desacordo ou 3) quando existe uma informao inexplicada. De maneira
SOFEP

Niteri

Out/2009

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

geral, o problema constitui uma pergunta, Isto , uma forma interrogativa, que segue a forma: a
Varivel independente influencia a Varivel dependente? Esta deve ser uma pergunta possvel de
resposta do tipo sim ou no (KERLINGER, 2003).
A partir do problema elaboramos hiptese, que so respostas provisrias aos problemas e
so passveis de testagem (KERLINGER, 2003). Assim, enquanto um problema surge da dvida, a
hiptese surge da tentativa de soluo, ou seja, de resposta pergunta formulada no problema.
uma soluo a priori, fornecida com base no referencial terico disponvel. Nesse nterim, as
Hipteses estatsticas referem-se traduo matemtica da hiptese de pesquisa (hiptese
alternativa H1 ou Ha) e de uma hiptese contrria (hiptese nula - H0). De fato, todo esforo do
pesquisador se dar em funo de H0. Ele procurar rejeit-la, de modo a aceitar H1. A lgica a
seguinte: se os dados no permitem sustentar a hiptese nula, eu, ento, aceito a hiptese alternativa
como explicao provvel. Lembre-se como foi dito anteriormente, a cincias no lida com a
verdade, mas sim com probabilidades.
Tanto a pesquisa experimental como a no experimental seguem uma determinada lgica no
trato das variveis dependentes e independentes.
A lgica da pesquisa experimental consiste em se pegar 2 grupos equivalentes (ou seja, aos
quais foram aplicadas as tcnicas de controle da Varivel Estranha.); introduz-se a Varivel
independente em um dos grupos; mede-se a Varivel dependente em ambos os grupos, compara-se
a Varivel dependente nos dois grupos; as diferenas na Varivel dependente sero atribudas
Varivel independente, a qual ser considerada como a causa. As caractersticas da pesquisa
experimental: manipulao da varivel independente, designao aleatria dos sujeitos e rgido
controle das variveis estranhas (KERLINGER, 2003).
J a lgica da pesquisa no experimental consiste em selecionar grupos que se diferenciam
nos valores da Varivel independente a ser estudada; medir a Varivel dependente em ambos os
grupos; e comparar os resultados e as diferenas na Varivel dependente que sero relacionadas
Varivel independente (KERLINGER, 2003).

1.4 DESCREVENDO AS VARIVEIS


Toda anlise inicia-se pela descrio das variveis. Uma anlise descritiva conta com
algumas estatsticas bsicas como: valor mnimo, mximo, quartis, mdia e mediana, desvio padro
e varincia. Deste modo temos uma boa descrio dos valores obtidos na varivel em questo.
Neste tpico iremos verificar as principais tcnicas estatsticas na descrio de variveis. O
clculo secundrio, atente para os conceitos e aplicaes das tcnicas.

1.4.1- Distribuio de freqncias


Os valores que uma ou mais variveis podem assim so passveis de sintetizao. Sintetizar
esses valores muito til quando se trabalhar com uma grande quantidade de dados e para uma
melhor compreenso desses dados podemos agrup-los em nmeros de classes, intervalos e
categorias.
Surge ento o conceito de freqncia que pode ser definida como o nmero de vezes em que
se repete um determinado valor
As informaes relevantes sobre uma varivel podem ser obtidas atravs de sua distribuio
de freqncias. Em geral, a distribuio de freqncias apresentada em forma de tabela contendo
valores distintos da varivel e as freqncias correspondentes.
A freqncia pode ser absoluta (nmero de vezes que o valor aparece) ou relativa (nmero
de vezes que o valor aparece dividido pelo total de valores), percentual (a freqncia relativa
multiplicada por 100) ou acumulada (a soma das freqncias at determinado valor).
Se varivel foi medida em nvel nominal ou ordinal, basta relatar as freqncias (absoluta,
relativa, percentual ou acumulada) de cada categoria.
SOFEP

Niteri

Out/2009

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Tabela 1: Freqncias dos cursos de graduao


Curso
i acumulada r (%)
r acumulada (%)
i
Matemtica
9
9
18
18
Biologia
22
31
44
62
Medicina
13
44
26
88
Fisioterapia
6
50
12
100
Nota: i = freqncia absoluta; r = freqncia relativa

Quando a varivel foi mensurada no nvel intervalar ou de razo interessante utilizar


intervalos de classe (de preferncia de mesma amplitude), onde a freqncia se refere ao nmero de
valores da varivel em cada intervalo.
Deve-se utilizar o procedimento a seguir:
a) Estabelea o nmero de intervalos de classe. O recomendado entre 5 e 15.
No existe regra, o pesquisador que ir definir.
b) Calcule a amplitude dos dados
d) Componha os limites dos intervalos. Para o primeiro intervalo considere como limite
inferior o valor da observao de menor magnitude.
e) Os intervalos podem ser denotados como

[ LIi ; LSi [
ou

LIi

LSi

isto , fechado esquerda e aberto direita.


f) Finalmente, classifique cada observao no intervalo de classe correspondente
(freqncias absolutas). A partir dessas as demais freqncias so obtidas.
1.4.2- Medidas de posio (TPICO COBRADO NAS PROVAS DO CESPE-UNB, EM ESPECIAL A MDIA)
Medidas de posio ou medidas de tendncia central, como o prprio nome sugere,
procuram descrever uma varivel num grupo em termos de um nico nmero, com o objetivo de
representar como essa varivel est presente naquele grupo. Existem diferentes critrios para isso a
escolha ir depender dos nossos objetivos e das condies em que nos encontramos.
Mdia Aritmtica: a mdia aritmtica de um conjunto de dados o valor obtido
somando-se todos os elementos do conjunto e dividindo-se a soma pelo nmero total de elementos.
Ou de outro modo, o somatrio de n dividido por n.

x=

xi
n

onde x a mdia aritmtica, xi os dados do conjunto amostral e n o nmero de valores.


Essa medida apresenta um nico resultado, mais tpico ou representativo, a fim de caracterizar
a realizao de todo o grupo. interessante observar que esse nmero ir definir melhor alguns
indivduos do que outros. um princpio parecido como da democracia, em que a vontade da
maioria, no de todos, a que vigora.
Propriedades da Mdia:
a) A soma dos desvios de um conjunto de dados em relao a sua mdia nula.
b) A soma dos quadrados dos desvios de um conjunto de dados em relao a uma constante
k mnima quando k for a mdia.
c) A mdia de um conjunto de dados acrescidos ou subtrados em cada elemento de uma
constante k igual a mdia original somada ou subtrada desta constante.
d) Multiplicando-se todos os dados por uma constante k, a nova mdia multiplicada por k
Caractersticas:
a) muito influenciada pelos valores extremos da distribuio;
b) Localiza-se, em geral, na classe de maior freqncia;
SOFEP

Niteri

Out/2009

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

c) Na sua determinao so considerados todos os dados da distribuio;


d) A sua preciso est na razo direta do nmero de observaes com que calculada;
e) nica para um conjunto de dados.
f) No pode ser calculada para dados agrupados que apresentam classes extremas abertas.
Mediana: A mediana o elemento que ocupa a posio central de uma srie de dados. Para
encontr-la os dados devem estar dispostos em ordem crescente ou decrescente. Se tivssemos que
dividir um pedao de barbante em dois pedaos iguais, intuitivamente iramos trabalhar com a
mediana. Se tivermos um nmero mpar de integrantes num grupo, podemos obter a mediana
inicialmente ordenando os indivduos de acordo com o valor na varivel de interesse. Em seguida,
poderamos identificar o indivduo que divide a amostra em dois subgrupos, um de valor alto e um
de valor baixo na medida da varivel. O valor desse indivduo, ser a mediana. Nota-se que ele no
ir compor nenhum dos grupos. Se tivermos um nmero par de integrantes no grupo, ser tirada
uma mdia do valor dos dois mais prximos do centro da distribuio e o resultado ser a mediana
Propriedades da Mediana:
a) A soma dos mdulos dos desvios dos dados em relao mediana mnima.
b) Somando-se ou subtraindo-se uma constante (k) a todas as observaes, a mediana
somada ou subtrada desta constante (k).
c) Multiplicando-se todas as observaes por uma constante (k), a mediana multiplicada
por esta constante (k)
Caractersticas:
a) Pode ser obtida em distribuies de freqncias que apresentem classes com limites
indefinidos;
b) muito empregada em pesquisas nas quais os valores extremos tm pouca importncia;
c) No influenciada por valores extremos e sim pelo nmero de observaes;
Por extenso do conceito de mediana, podemos falar de quartis, decis e percentis. Em outras
palavras, podemos pensar em valores que dividem o conjunto em partes iguais em relao a uma
varivel.
No caso de querermos dividir a amostra em quatro partes iguais, podemos falar de quartis. Se
quisermos dividir os valores em dez partes iguais, falaremos de decis e, finalmente, se dividirmos a
amostra em cem partes iguais, falaremos de percentis (Spiegel, 1972).
Quartis: os quartis dividem uma srie ordenada de dados em quatro (4) partes iguais, e cada
uma delas contem ou 25% das observaes. Assim, o Q1 (primeiro quartil) o valor da varivel
que deixa atrs de si 25% das observaes; o Q2 (segundo quartil) o valor da varivel que deixa
atrs de si 50% das observaes e coincide com a mediana; o Q3 (terceiro quartil) o valor da
varivel que deixa atrs de si 75% das observaes.
A subtrao do primeiro quartil do terceiro quartil (Q3 Q1) denomina-se intervalo
interquartlico, e o intervalo onde encontramos 50% das observaes, estando abaixo 25% e acima
25% das observaes. Vale lembrar que os intervalos Q1-Q2 e Q2-Q3 no tm necessariamente a
mesma amplitude, mas sim o mesmo nmero de observaes.
Moda: A moda se refere ao valor que ocorre mais freqentemente numa distribuio. H
casos em que no existe moda (amodal) e casos em que a moda no nica (bimodal, multimodal).
Propriedades da Mediana:
a) Somando-se ou subtraindo uma constante a todos os dados, a moda somada ou subtrada
da mesma constante.
b) Multiplicando-se todos os dados por uma constante k, a moda multiplicada por esta
constante
Caractersticas:
a) No afetada por valores extremos, desde que estes no constituam a classe modal.
b) No apresenta boas propriedades algbricas.
SOFEP

Niteri

Out/2009

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

c) Maximiza o nmero de desvios iguais a zero.

1.4.3- Medidas de disperso (TPICO COBRADO NAS PROVAS DO CESPE-UNB, EM ESPECIAL

O DESVIO-

PADRO)

Em muitas situaes interessa ao pesquisador conhecer no somente a medida de tendncia


central, mas tambm a variabilidade dessa medida. Nesse nterim, so teis as medidas de disperso
ou de variabilidade.
Amplitude Total: A amplitude total de um conjunto de dados a diferena entre o maior e
o menor valor deste. Para calcul-la, basta subtrair o menor valor do maior.
AT = xmx xmn
Quanto maior a amplitude total de um conjunto de dados, maior a disperso ou
variabilidade dos valores. A amplitude total tem o grave inconveniente de depender somente dos
valores extremos da srie, desprezando assim os valores intermedirios, o que a torna insensvel
disperso dos demais valores.

Desvio-Padro: O desvio-padro e a varincia so medidas que levam em


considerao a totalidade dos valores da varivel em estudo, o que faz delas ndices de variabilidade
bastante estveis e, por isso mesmo, os mais geralmente empregados. Assim, pode-se definir o
desvio-padro como uma medida da magnitude do espalhamento ou disperso dos dados em relao
mdia da srie.
A expresso para o clculo do desvio-padro amostral (s) :
s=

onde xi cada elemento do conjunto de dados, x a mdia do conjunto e n o nmero total de


elementos deste.
J para o desvio-padro populacional () a expresso :
=

(xi )2

N
onde xi cada elemento da populao, e N so respectivamente a mdia e o nmero total de
elementos da populao.
O desvio padro pode ser calculado como sendo a raiz quadrada da varincia.
Propriedades
a) Somando-se ou subtraindo-se uma constante k a todos os dados o desvio padro no se altera
b) Multiplicando-se todos os dados por uma constante k, o desvio padro multiplicado por k.
c) sua unidade de medida a mesma da varivel em questo.
Um exemplo que demonstra bem a utilidade do desvio apresentado a seguir.
Sejam duas turmas do 2 ano do Ensino Mdio turma A e turma B. A mdia em matemtica
da Turma A 7,0 e a mdia em matemtica da Turma B tambm 7,0. Poderamos considerar estas
duas turmas como iguais. No entanto o desvia padro da nota em matemtica da turma A 0, isto
todos os alunos tiraram nota 7,0. J na turma B nem todos os alunos tiraram 7,0, alguns alunos
tiraram 0,0 e outros tiraram 10,0.
Isso exemplifica o conceito de variabilidade homogeneidade de uma coleo de dados.

SOFEP

Niteri

Out/2009

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Varincia: A varincia uma medida estatstica da disperso dos dados em torno da mdia
de um conjunto de dados. obtida quando no extramos a raiz quadrada do desvio-padro. A
varincia amostral definida como:
(xi x )2

2
s =
n 1
j a varincia populacional :
(xi )2

2
=
N
Propriedades da varincia
a) A varincia de uma constante k nula
b) A varincia de uma soma ou diferena entre variveis a soma das varincias das variveis se
estas forem independentes.
c) Somando-se ou subtraindo-se uma constante k a todos os dados a varincia no se altera.
d) Multiplicando-se todos os dados por uma constante k, a varincia multiplicada por k2
Um dos inconvenientes da varincia que ela no possui a mesma unidade de medida da
varivel em questo.
1.4.4- Tabelas e Grficos
Tabelas e grficos so formas especficas de representao de dados. O objetivo fornecer
informaes rpidas e precisas a respeito das variveis em estudo.
Tabela um quadro que resume um conjunto de informaes.
Neste sentido algumas precaues devem ser tomadas.
a) No utilize mais casas decimais do que o necessrio
b) Proponha um ttulo explicativo e inclua as unidades de medida.
c) Inclua totais de linhas e/ou colunas para facilitar as comparaes.
d) Ordene colunas e/ou linhas quando possvel. Se no houver impedimentos, ordene-as
segundo os valores, crescente ou decrescentemente. Caso contrrio ordene segundo os
nveis ordinais da prpria varivel.
e) Em geral uma tabela possui mais linhas do que colunas, principalmente se o nmero de
colunas ultrapassarem o espao da pgina.
f) No analise a tabela descrevendo-a, mas sim comentando as principais tendncias
sugeridas pelos dados.
g) Descreva a fonte da tabela, se de outro estudo de outro autor, ou se elaborao prpria.
Exemplos:

Tabela 2: Descrio das variveis utilizadas no estudo.


N

MDIA

MEDIANA

DESVIO
PADRO

Volume sistlico (mL)

46

55,30

55,10

8,15

Volume Diastlico (mL)

46

125,00

127,50

20,06

Idade (anos)

46

22,08

19,00

7,85

Variveis

Fonte: Elaborao Prpria

Outro exemplo:
Tabela 3: Tempo de chegada das equipes de Ciclismo.
Colocao Mdia (min) Desvio Padro
1 lugar
120
10
2 lugar
135
13
3 lugar
160
14
Fonte: elaborao prpria.

SOFEP

Niteri

Out/2009

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Neste caso temos a noo de ordenao devido ao nvel de medida da varivel (ordinal).
O caso a seguir mostra claramente quando o valor da freqncia deve ser seguido na
ordenao dos dados na tabela.
Tabela 4: Medalhas de ouro obtidas pelos pases na Olimpada de Atenas
Pas
Estados Unidos
China
Rssia
Austrlia
Japo
Alemanha
Frana
Itlia
Coria do Sul
Gr-Bretanha
Cuba
Ucrnia
Hungria
Romnia
Grcia
Brasil
Total

Nmero de
Medalhas de Ouro
35
32
27
17
16
14
11
10
9
9
9
9
8
8
6
5
225

Percentual
15,56
14,22
12,00
7,56
7,11
6,22
4,89
4,44
4,00
4,00
4,00
4,00
3,56
3,56
2,67
2,22
100,00

Fonte: Comit Olmpico Internacional, 2006.

Os grficos tm a excelente propriedade de impactar visualmente o leitor, mostrando uma


impresso rpida e consistente do fenmeno estudado. Grficos nos mostram o comportamento de
uma varivel ou ento a relao entre variveis.
Sugestes para construo de grficos
a) Proponha um ttulo explicativo.
b) Escolha o tipo de grfico apropriado para os dados.
c) Rotule os eixos apropriadamente, incluindo unidades de medida.
d) Procure escolher adequadamente as escalas dos eixos para no distorcer a informao
que se pretende transmitir. Se o objetivo for comparar as informaes de dois os mais grficos, use
a mesma escala.
e) Inclua indicaes de quebra nos eixos para mostrar que a origem (zero) est deslocada.
f) Altere as dimenses do grfico at encontrar o formato adequado.
g) Inclua uma legenda.
h) No exagere nas ilustraes que acompanham o grfico para no o poluir visualmente,
mascarando seus aspectos mais relevantes.
Requisitos fundamentais para a representao grfica:
- Simplicidade
- Clareza
- Veracidade
Grficos para variveis qualitativas
Alguns os grficos so mais indicados para determinados tipos de variveis do que outros.
Em alguns casos pode-se at ser invivel utilizar determinado grfico.

SOFEP

Niteri

Out/2009

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Quadro 2: Utilizao dos grficos de acordo com o nvel de medida da varivel.


Nvel de Medida
Grfico Utilizado
- Circular (setor, pizza, torta)
- Grfico de Barras
Nominal
- Grfico de Barras Justapostas
- Grficos Pictricos
- Grfico de Barras
- Grfico de Barras Justapostas
Ordinal
- Circular (setor, pizza, torta)
- Grficos Pictricos

Grficos Circulares (Grficos de Setores, ou Pizza, ou Torta): o cuidado a tomar neste


tipo de grfico o nmero de categorias utilizadas. Um nmero muito grande (>5) pode poluir o
grfico e dificultar a sua interpretao.
Sejam os dados:
Tabela 5: Nmero de vacinas aplicadas no Posto de Sade xx
Vacina
Quantidade Percentual
BCG
3000
28,6
SABIN
5000
47,6
TRPLICE
1500
14,3
SARAMPO
600
5,7
HEPATITE
400
3,8
Total
10500
100
Fonte: Ayres e colaboradores, 2008

Grfico 1: Nmero de vacinas aplicadas no Posto de Sade xx.

Fonte: Ayres e colaboradores, 2008

Caso a varivel for mensurada no nvel ordinal, o grfico feito da mesma forma, alterandose a ordem na posio dos setores segundo a ordem crescente das categorias.

SOFEP

Niteri

Out/2009

10

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Grfico de Barras (ou Diagrama de Barras): Para a confeco de um grfico de barras,


constri-se um eixo horizontal ou vertical, e em intervalos apropriados, nesse eixo, colocam-se
retngulos sobre o eixo cujas alturas representam, proporcionalmente, as freqncias das
caractersticas observadas da varivel em estudo. Neste tipo de grfico as barras devem apresentarse separadas, pois, do contrrio, sua unio poder implicar continuidade. Alm disso, as categorias
resultantes de variveis nominais podem ser dispostas em qualquer ordem ao longo do eixo
horizontal (LEVIN. 1987).
Para os mesmos dados do exemplo anterior (tabela 4) temos:
Grfico 2: Nmero de vacinas aplicadas no Posto de Sade xx.
6000
5000
5000
4000
3000
3000
2000

1500
600

400

SARAMPO

HEPATITE

1000
0
TRPLICE

SABIN

BCG

Fonte: Ayres e colaboradores, 2008

a)
Em geral usa-se uma legenda explicativa, principalmente quando se faz uma
comparao visual de dois ou mais grupos.
b) Se a varivel for qualitativa ordinal, os valores assumidos pela varivel (categorias)
devem ser colocados em ordem no eixo adequado.
Grfico de Barras Justapostas: Para comparar dois ou mais grupos (fatores ou
tratamentos), podemos construir um s grfico composto de vrios grficos, um para cada grupo,
como no exemplo a seguir:
Tabela 6: Nmero de indivduos com e sem dengue de acordo com a escolaridade
Com
Sem Dengue
Total
Escolaridade
Dengue
n
f
n
f
n
f
Analfabeto
40
76.9
12
23.1
52
27.5
Fundamental
40
80.0
10
20.0
50
26.5
Mdio
40
88.9
5
11.1
45
23.8
Superior
40
95.2
2
4.8
42
22.2
Total
160
84.7
29
15.3
189 100.0
Fonte: Ayres e colaboradores, 2008

Um detalhe importante ao observar esta tabela a presena dos percentuais marginais, o que
nos permite realizar uma comparao entre o nmero de indivduos com e sem dengue, e (objetivo
do grfico a seguir) comparar os indivduos com e sem dengue em funo do nvel de escolaridade.

SOFEP

Niteri

Out/2009

11

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Grfico 3: Nmero de indivduos com e sem dengue de acordo com a escolaridade

Fonte: Ayres e colaboradores, 2008

O que podemos concluir ao olharmos para este grfico?


As possibilidades de utilizao de grficos so inmeras, podemos usar dados absolutos,
relativos, etc.
No exemplo abaixo utilizamos os mesmo dados, porm, ao invs da freqncia absoluta
utilizamos a freqncia relativa (escolaridade). Tal grfico denominado de grfico de barras ou
colunas superpostas.
Grfico 4: Percentual de indivduos com e sem dengue de acordo com a escolaridade

Fonte: Ayres e colaboradores, 2008

SOFEP

Niteri

Out/2009

12

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Polgonos de freqncias: Outra representao grfica comumente usada o polgono de


freqncias. Muito embora o polgono de freqncias tenha flexibilidade bastante para ajustar-se a
uma ampla variedade de situaes, ele tende a sugerir muito mais continuidade do que
discriminao; da sua particular utilidade na representao de dados ordinais ou intervalares
(LEVIN, 1987).
A lu n o s Pr e s e n te s n o cu r s o ( po r titu la o )

35
30
25
20
15
10
5
0

30

10
6

Gradu ados

E s pec ialis ta s

Mes tres

D outores

Acrescente-se, ainda, que os pontos num grfico cumulativo so marcados sobre


perpendiculares levantadas a partir dos limites superiores de cada intervalo de classe, coisa que no
ocorre com o polgono de freqncias comum, onde as marcaes tm como referncia os pontos
mdios das classes. Isto se explica pelo fato de que qualquer freqncia acumulada representa o
nmero total de sujeitos compreendidos, ao mesmo tempo, dentro e abaixo de um intervalo de
classe particular (LEVIN, 1987).
Grficos para variveis quantitativas
Para variveis mensuradas ao nvel intervalar ou de razo devemos trabalhar com intervalos
de classe, ou ento utilizar as medidas de tendncia central e de disperso, neste caso os grficos
mais utilizados so o Boxplot (caixa) e o Histograma. Outra forma, especialmente quando queremos
ver a relao de duas variveis, o grfico de disperso.
Boxplot: o boxplot permite a descrio de dados e a visualizao de sua variabilidade, o que
permite a comparao entre diferentes grupos.
Para a construo do boxplot obtm-se primeiro as seguintes estatsticas: Q1, mediana (Q2),
Q3, amplitude interquartlica (Q3 Q1).
O boxplot obtido seguindo-se os seguintes passos: a) numa reta so marcados Q1, Q2 e
Q3. b) acima dessa reta constri-se um retngulo com limites iguais s posies de Q1 e Q3,
cortado por um segmento de reta na posio relativa mediana (Q2). c) a partir dos limites do
retngulo, traam-se linhas at encontrar um extremo (valor mximo - ii ou mnimo - i) ou um valor
correspondente a 1,5 da amplitude interquartlica, se o extremo estiver a mais distante do que isso.
Os pontos fora desta marcao so chamados de pontos extremos (outliers), ou observaes
discrepantes ou ainda de valores atpicos.

SOFEP

Niteri

Out/2009

13

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Observe abaixo a representao do grfico Boxplot para os dados de VO2mx de atletas de


3 modalidades esportivas (dados fictcios). Nele a mdia est representada pelo segmento de reta da
cor vermelha.
Grfico 5: Boxplot para o VO2mx de atletas de 3 modalidades
90

80

VO2mx

70

60

50

40

30
Luta

Maratona

Remo

Modalidades Esportivas

Fonte: Elaborao prpria

O que podemos concluir ao compararmos o VO2mx dos atletas dessas trs modalidades
esportivas? Existem valores extremos (atpicos)? Qual grupo parece mais homogneo? Em qual a
variabilidade maior?
Histograma: O histograma um grfico que reflete a forma da distribuio de freqncias da
amostra. Tambm procura refletir a estrutura (forma) da populao de onde foi retirada a amostra.
Para construir um histograma necessrio primeiro repartir os dados por classes e depois calcular
as respectivas freqncias. O histograma um grfico de freqncias construdo a partir desta
tabela de freqncias (por classes).
Grfico 6: Histograma e polgono de freqncia para PAD em repouso.

Fonte: Adaptado de Ayres e colaboradores, 2008

SOFEP

Niteri

Out/2009

14

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Grfico de Disperso: O grfico de disperso exibe graficamente os relacionamentos entre


duas variveis. Os pontos de um grfico de disperso so baseados em pares de observaes
Sendo os dados de estatura e peso de 10 alunos:
Tabela 7: Peso e estatura dos alunos avaliados
Peso (Kg) Estatura (cm)
50
140
45
130
55
150
80
170
40
120
90
180
60
150
70
160
45
140
100
200
Fonte: Elaborao prpria

Vale ressaltar que neste caso os dados de peso e estatura constantes na linha 1 so de um
mesmo indivduo.
Grfico 7: Diagrama de disperso apresentando a relao entre peso e estatura.
250

Estatura (cm)

200

150

100

50

0
0

20

40

60

80

100

120

Peso (Kg)

Fonte: Elaborao prpria

Este tipo de grfico muito til para analisar o tipo de relao entre duas variveis, e
auxiliam na visualizao da correlao e da regresso (tpicos que sero abordados mais a frente).
Em geral os grficos de disperso podem apresentar a tipificao da relao das variveis em
termos de direo (nenhuma, positiva ou negativa), forma (linear e no-linear) e fora (nula, fraca
ou forte).

SOFEP

Niteri

Out/2009

15

Israel Souza

Apostila de Bioestatstica

Diagrama de disperso

1600
1400
1200
1000
800
600
400
200
0

30
25
Ansiedade

Renda

Diagrama de disperso

isra.sza@gmail.com

20
15
10
5
0
0

10

15

20

10

Nota e m m ate m tica

Anos de estudo

Diagrama de Disperso

14
12
10
8
6
4
2
0

VO2relativo

Tamanha da famlia

Diagrama de disperso

Situao scio-econmica

40
35
30
25
20
15
10
5
0
0

N de filhos

Como voc classificaria os grficos de disperso apresentados acima em termos de direo,


forma e fora?

SOFEP

Niteri

Out/2009

16

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

2. AMOSTRAGEM, PROBABILIDADE E ESTIMAO DE PARMETROS


Vamos abordar conceitos bsicos de amostragem, probabilidade (em especial aquela
relacionada distribuio normal) e a estimao de parmetros.
Estes so conceitos primordiais para a inferncia estatstica, e conseqentemente para
escolha adequada do teste estatstico.
Procure ter em mente o seu objeto de estudo. Ou ainda, reveja alguns artigos cientficos e
procure identificar os conceitos descritos abaixo.
2.1 TIPOS DE AMOSTRAGEM
Neste tpico devemos ter em mente estas trs definies:
- Populao ou universo um conjunto de elementos que possui pelo menos uma
caracterstica em comum.
- Amostra o subconjunto de uma populao, ou ainda, uma parte retirada da populao
para estudo segundo uma tcnica adequada de maneira a garantir sua representatividade.
- Amostragem uma tcnica de escolher amostras que permitem garantir a casualidade na
escolha, e pode ser classificada em probabilstica ou no-probabilstica.
Importncia do uso de amostras.
a) Conveniente no estudo de populaes grandes.
b) Indispensvel no estudo de populaes infinitas.
c) Custo reduzido
d) Indispensvel em estudos nos quais a coleta de dados implica na destruio do material
utilizado.
Para evitar problemas na amostragem deve-se observar:
a) Definio do universo que ser amostrado face aos objetivos e definio do problema da
pesquisa.
b) Definio da unidade da amostra que ser base do processo da seleo.
c) Tamanho da amostra. Apesar da existncia de vrias frmulas, a amostra varia muito de
pesquisa para pesquisa. Porm, deve se levar em conta o tamanho da populao. Todavia, algumas
observaes podem ser levadas em consideraes, a saber: 1) Quanto maior o nmero de elementos
numa amostra, menor os desvios dos parmetros em relao ao valor esperado da populao. 2)
Quanto maior a homogeneidade da populao, menor a amostra a ser pesquisada.
Uma boa amostra permite:
capacidade de generalizar estimativas da amostra para toda a populao.
Imparcialidade.
Menor erro amostral possvel, dado o custo, tempo e restries operacionais.
Capacidade de medir a preciso das estimativas.
Amostragem no-probabilstica: quando as unidades amostrais so escolhidas a esmo ou
intencionalmente; por exemplo, escolhendo alunos da sua turma, amigos ou vizinhos. Destacam-se
dentre elas as amostragens por Convenincia, por Julgamento e por Quota.
Amostragem probabilsticas: quando as unidades amostrais so escolhidas mediante
mecanismos de sorteio.
Pelo mesmo motivo da busca da imparcialidade e representatividade usadas no plano
experimental, sempre que se puder deve-se planejar o levantamento evitando a parcialidade (vcio)
na seleo, escolhendo-se os elementos que participaro da amostras aleatoriamente; ou seja usando
amostra probabilstica.
A partir do estudo do conjunto de dados obtido na amostra, faz-se uma extrapolao dos
seus resultados para a populao toda. Essa extrapolao chamada inferncia.

SOFEP

Niteri

Out/2009

17

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Esquematicamente:

a constante desconhecida e dever ser estimada a partir dos estudo e anlise dos n
elementos da amostra.
Assim, o erro amostral pode ser dado por:
ERRO AMOSTRAL = VALOR OBSERVADO VALOR ESPERADO
Na amostragem probabilstica se destacam a Amostragem Aleatria Simples, a Sistemtica,
a Estratificada e a Conglomerado.
Determinao do tamanho da Amostra: em todos os casos devemos ter uma idia do
tamanho da amostra que queremos para realizar a nossa pesquisa. Existem diversas frmulas para
isso. Cada caso um caso. No entanto podemos ter como guia geral uma frmula simples genrica
como a que se segue.

n0 =

1
E02

n=

N x n0
N + n0

onde
N tamanho da populao;
E0 erro amostral tolervel;
n0 primeira aproximao do tamanho da amostra;
n o tamanho da amostra.

2.2 CONCEITOS BSICOS E DISTRIBUIO DE PROBABILIDADES


Processo aleatrio:
Qualquer fenmeno que gere resultado incerto ou casual.
Ex.:
Jogar uma moeda e observar a sua face superior;
Sexo do primeiro filho de um casal;
Nmero de chips defeituosos encontrados num lote de 100 chips;
Peso de uma pessoa.
Caractersticas de um processo (experimento) aleatrio
Cada experimento pode ser repetido indefinidamente sob as mesmas condies;
No se conhece a priori o resultado do experimento, mas pode-se descrever todos os
possveis resultados;

SOFEP

Niteri

Out/2009

18

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Quando o experimento for repetido um grande nmero de vezes, surgir uma regularidade
do resultado, isto , haver uma estabilidade da freqncia relativa da ocorrncia de um particular
resultado.

2.2.1- PROBABILIDADE
A cincia no nos oferece certeza. No oferece nem mesmo certeza relativa. Oferece
apenas conhecimento probabilstico: Se A for feito, ento provavelmente B ocorrer. Uma
maneira de definir a pesquisa dizer que ela um meio de ajudar a reduzir a incerteza. A pesquisa
emprica jamais pode nos dizer que alguma coisa certamente assim. Pode, entretanto, dizer: "As
probabilidades de tal coisa ser assim ou assado so de 70 para 30".(KERLINGER, 2003).
A probabilidade e o pensamento probabilstico so o ncleo da cincia e da pesquisa.
Infelizmente, difcil definir a probabilidade satisfatoriamente. Vamos usar uma abordagem
intuitiva.
A probabilidade de um acontecimento o nmero de casos "favorveis" dividido pelo
nmero total de casos (igualmente possveis). (KERLINGER, 2003).
Sempre h incerteza. As cincias naturais oferecem maior certeza do que as comportamentais.
Alis, todas as disciplinas cientficas so mais ou menos incertas. Todas as afirmativas, em outras
palavras, vm acompanhadas com um valor p implcito ou explcito. (KERLINGER, 2003).
Precisamos entender perfeitamente que cada assero, cada afirmativa de relao vem
acompanhada de uma "etiqueta" probabilstica. Sempre que dizemos "Se p, ento q", o que dizemos
"Se p, ento provavelmente q". O que acontece na vida se repete na cincia: a certeza um mito,
para sempre fora do nosso alcance. (KERLINGER, 2003).
Noes de probabilidade
Probabilidade (probability, chance, likelihood)
uma afirmao numrica sobre a possibilidade de que algum evento ocorra.
Quantifica o grau de incerteza de eventos, variando de 0 (0%) a 1 (100%).
Um evento impossvel de ocorrer tem probabilidade 0 (zero)
Um evento certo tem probabilidade 1 (um)
Quando se joga uma moeda, no se sabe se vai sair cara. Mas sabe-se que a probabilidade
de sair cara 0,5 = 50% = 1/2.
Dizer que a eficcia de uma vacina de 70% corresponde a dizer que cada indivduo
vacinado tem probabilidade 0,7 de ficar imune.
Deste modo, a probabilidade pode ser vista como uma medida da possibilidade de
ocorrncia de um particular evento. Um problema da definio clssica de probabilidade reside no
fato de em sua definio lanar-se mo do conceito de eventos equiprovveis, e portanto da
expresso a qual se deseja definir.
SOFEP

Niteri

Out/2009

19

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

2.2.2- A CURVA NORMAL


Apesar dessa grande diversidade, h uma distribuio de freqncias com a qual muitos de
ns j nos familiarizamos, se no por outra razo, pelo fato de termos sido classificados de acordo
com ela por nossos professores. Essa distribuio, comumente chamada curva normal, um modelo
terico ou ideal que resulta muito mais de uma equao matemtica do que de um real delineamento
de pesquisa com posterior coleta de dados. Entretanto, a utilidade da curva normal para o
pesquisador pode ser evidenciada atravs de suas aplicaes a efetivas situaes de pesquisa
(LEVIN, 1987).
Caractersticas da Curva Normal
A curva normal um tipo de curva simtrica, suave, cuja forma lembra um sino e, por isso,
amplamente conhecida por "curva em sino". possvel que o aspecto mais marcante dessa curva
seja a sua simetria; se "dobrssemos" a curva em seu ponto central (que corresponde freqncia
mxima), daramos origem a duas metades, sendo que cada uma delas seria a imagem espelhada da
outra. (LEVIN, 1987).
Alm disso, a curva normal unimodal, isto , possui um s (pico ou) ponto de freqncia
mxima; esse ponto, por sua vez, aquele situado no meio da distribuio (curva), em que a mdia,
a mediana e a moda coincidem. A partir do topo (central, arredondado), a curva normal "cai"
gradualmente at formar as caudas (duas, uma de cada lado), que se estendem de forma indefinida,
aproximando-se cada vez mais da linha de base (eixo das abscissas) sem, entretanto, jamais toc-la.
(LEVIN, 1987).

----------------------------------------------------Formato da Curva Normal


Se atentssemos para as caractersticas fsicas dos seres humanos, estatura, por exemplo,
veramos que a maioria dos adultos estaria na faixa que vai de 152 cm (aprox.) at 183 cm (aprox.),
com muito pouca gente menor que 152 cm ou maior que 183 cm. (LEVIN, 1987).
O mundo hipottico da curva normal no difere de forma radical do mundo "real" em que
vivemos no momento. Fenmenos tais como estatura, QI, orientao poltica, desgaste dos pisos
etc. aproximam-se, na prtica, at que muito bem da distribuio normal terica. Pelo fato de tantos
fenmenos terem essa caracterstica - isto , pelo fato de ela ocorrer to freqentemente na natureza
(e por outras razes que logo se tornaro aparentes) - pesquisadores de diferentes campos tm feito
uso extensivo da curva normal, aplicando-a aos dados que eles coletam e analisam.
Observe-se, porm, que alguns fenmenos no campo social - como em qualquer outro simplesmente no se ajustam noo terica da distribuio normal. Muitas distribuies so
assimtricas; outras tm mais de uma moda; outras so simtricas, mas no tm a forma de "sino".
Como exemplo concreto, consideremos a distribuio de riqueza no mundo. fato bem conhecido
que "os que tm" superam de longe "os que no tm".
Vemos, assim, que no possvel aplic-la com liberdade a todas as distribuies que o
pesquisador obtm, e deve, ao contrrio, ser usada com uma boa dose de bom senso. Felizmente os
estatsticos sabem que grande quantidade de fenmenos de interesse segue o modelo normal.
(LEVIN, 1987).
A rea sob a curva normal
A fim de podermos empregar a curva normal na soluo de problemas, precisamos, antes,
SOFEP

Niteri

Out/2009

20

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

aprender o significado da expresso "rea sob a curva normal": aquela poro do plano,
compreendida entre a curva e a linha de base, que corresponde, em qualquer distribuio normal, a
100% dos dados considerados. A Figura abaixo ilustra essa caracterstica.

A rea sob a Curva Normal

A natureza simtrica da curva normal leva-nos a tirar outra concluso importante: qualquer
distncia medida em "sigmas", acima ou abaixo da mdia, contm a mesma poro da rea sob a
curva. Ento, se 34,13% da rea total situam-se entre a mdia e 1DP acima de X, tambm 34,13%
da rea total situam-se entre a mdia e 1DP abaixo de X; se 47,72% situam-se entre a mdia e 2DP
acima de X, tambm 47,72% situam-se entre a mdia e 2DP abaixo de X; finalmente, se 49,87%
situam-se entre a mdia e 3DP acima de X, tambm 49,87% situam-se entre a mdia e 3DP abaixo
de X. (LEVIN, 1987).
Em outras palavras, como ilustra figura a seguir, 68,26% da rea total sob a
curva normal (34,13% + 34,13% = 68,26%) caem entre -1 e +1, sendo a mdia
(aritmtica), X, o ponto de referncia; 95,44% da rea total (47,72% + 47,72%) caem
entre - 2 e +2 a partir de X; 99,74% da rea total - que, alis, praticamente toda a
rea sob a curva - caem entre -3 e +3 (sempre X como ponto de partida).

Porcentagens da rea Total sob a Curva Normal Compreendidas

O clculo da distncia sigma a partir de X produz um valor chamado escore z ou


escore padronizado, que indica, em unidades de desvio padro, o sentido e o grau com que um
dado escore bruto se afasta da mdia da distribuio qual ele pertence.
Assim, um escore z de + 1,4 indica que o escore bruto fica a 1,4 DPs (ou quase 1+1/2 DPs)
SOFEP

Niteri

Out/2009

21

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

direita (acima) da mdia, enquanto que um escore z de -2,1 significa que o escore bruto
correspondente cai esquerda (abaixo) da mdia, num ponto ligeiramente superior a 2 DPs .
Obtemos um escore z atravs do clculo do escore-diferena que d a distncia de um X
qualquer at a mdia - e, ento, pela diviso dessa diferena por .

Este clculo til para saber o quanto um valor est distante da mdia em termos de desvio padro
Probabilidade e curva normal
A curva normal pode ser usada em conjuno com os escores z.
A curva normal uma distribuio na qual possvel determinar probabilidades associadas a
todos os pontos da linha de base. A curva normal uma distribuio de freqncias; a freqncia
total sob a curva igual a 100%; essa curva apresenta uma rea central que circunda a mdia, onde
se localizam os escores mais freqentes, e h, ainda, reas menores progressivamente mais
prximas de ambas as extremidades (caudas), onde encontramos, em pequenas propores, escores
muito altos ou muito baixos. Ento, em termos probabilsticos, podemos dizer que a probabilidade
decresce medida que, na linha de base, nos afastamos da mdia em ambos os sentidos.
Desse modo, dizer que 68,26% da freqncia total sob a curva normal caem entre -1 e
+1 , a partir da mdia, o mesmo que dizer que a probabilidade de cerca de 68 em 100 de
que um escore bruto qualquer caia dentro desse intervalo. De forma anloga, dizer que
95,44% da freqncia total sob a curva normal caem entre -2 e +2 , a contar da mdia, o
mesmo que dizer que a probabilidade de aproximadamente 95 em 100 de que um escore
bruto qualquer venha a situar-se dentro desse intervalo e assim por diante. (LEVIN, 1987).
Expressa sob a forma de razo (quociente), a probabilidade ser sempre um nmero que oscila
entre 0 e 1. A probabilidade de ocorrncia de um evento 0 quando estamos absolutamente seguros
de que ele no ocorrer; 1 quando estamos convencidos de que sem dvida nenhuma ele ocorrer.
O problema que os pesquisadores nunca esto totalmente seguros a respeito de coisa alguma! Em
conseqncia, podemos, via de regra, esperar encontrar probabilidades iguais a 0,60, 0,25 ou 0,05;
mas raras vezes possvel esperar reduzir a probabilidade a 0 ou, por outro lado, elev-la a 1.
(LEVIN, 1987).

Assimetria
A assimetria o grau de deformao de uma curva de freqncias. Uma distribuio de
freqncia simtrica, ou seja, que apresenta um grfico cuja as duas caudas possuem a mesma
configurao (figura a), quando a mdia, a mediana e a moda da srie forem iguais. A distribuio
de freqncia tambm pode ser assimtrica positiva (figura b) e assimtrica negativa (figura c), a
primeira possui uma cauda mais alongada direita e ocorre quando a mdia da srie for maior que a
moda e a segunda apresenta uma cauda mais alongada esquerda e ocorre quando mdia da srie
for menor que a moda.
SOFEP

Niteri

Out/2009

22

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

a)

b)

c)

A assimetria pode ser obtida pelo coeficiente de assimetria (Cs) que uma medida
adimensional..
A distribuio ser simtrica quando Cs = 0, se Cs for maior que zero a assimetria positiva
e se Cs for menor que zero a assimetria negativa.
Curtose
A curtose o grau de achatamento de uma distribuio em relao a uma distribuio
padro, denominada curva normal.
A distribuio que apresenta uma curva de freqncias mais fechada que a normal,
denominada leptocrtica (figura a). Quando a curva de freqncia mais aberta que a normal
recebe o nome de platicrtica (figura b) e a curva normal denominada de mesocrtica (figura c).

a)

b)

c)

2.2.3- INTERVALOS DE CONFIANA PARA MDIA E PARA PROPORO.


TRATA-SE DE UM ASSUNTO RECORRENTE NAS PROVAS ORGANIZADAS PELO CESPE-UNB

Estimao por ponto e por intervalo.


Quando a estimativa de um parmetro populacional dada por um nico valor, tem-se uma
estimativa pontual do parmetro populacional, desconhecido, como por exemplo: a altura mdia de
uma amostra de 500 universitrios 1,68m, uma estimativa pontual da verdadeira altura mdia da
populao de universitrios. Porm sabe-se que x ~ N ( ;

) , assim sendo, para cada amostra


n
retirada da populao, poder se obter uma diferente estimativa para . Deste modo, torna-se mais
interessante obter-se, a partir, de uma determinada amostra, um intervalo que apresente uma
probabilidade conhecida de conter o verdadeiro parmetro populacional, ou seja, obter uma
estimativa por intervalo para o parmetro em questo. Como por exemplo P(1, 60 1, 76) = 0,
95, ou seja existe 0,95 de probabilidade de que a verdadeira mdia populacional esteja entre 1,60 e
1,76 metros, ou ainda existe 95% de confiana em se afirmar que a verdadeira mdia populacional

SOFEP

Niteri

Out/2009

23

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

esteja entre 1,60 e 1,76 metros. Apesar disto, o uso de estimativas pontuais imprescindvel, haja
vistas, serem necessrias para a obteno das estimativas por intervalo.
Intervalos de confiana
Conhecendo-se a distribuio amostral do estimador, de um parmetro , pode-se facilmente
determinar um intervalo que apresente uma confiana 1 para , como ser visto a seguir.

Intervalo de confiana para a mdia


Varincia conhecida (TPICO COBRADO NAS PROVAS DO CESPE-UNB)
E o intervalo de confiana para , com uma confiana 1 pode ser ento escrito como:

IC ( )1 = X z a

em que n o tamanho da amostra.


n
EX.: Os dados abaixo apresentam condutividade trmica de uma amostra de 10 peas metlicas
(ferro).
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
41,60
41,48
42,34
41,95
41,86
42,18
41,72
42,26
41,81
42,04
Obtenha o I.C. (95%) da mdia da condutividade trmica nessas peas metlicas, para = 0,30 .
Soluo:
2

X =

n
i =1 i

= 0,30

= 41,924 ;

Assim: IC ( )1 = x z a
2

z = z 0, 05 = z 0, 025 = 1,96
2

= 41,924 1,96

0,30
10

= 41,924 0,186

ento IC. ( ) 0,95 =( 41,738 < < 42,110 )

Varincia desconhecida
s
IC ( )1 = x t
,
n
2
t com n 1 graus de liberdade, onde n o tamanho da amostra.
2

E.x: A amostra abaixo foi extrada de uma populao normal. Construir o intervalo de confiana, de
95%, para .
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
9
8
12
7
9
6
11
6
10
9

SOFEP

Niteri

Out/2009

24

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Temos:
X = 8,7 ; S

( xi x ) 2
i =1
(n 1)

10

i =1

( xi 8,7) 2

(10 1)

(9 8,7)2 + (8 8,7)2 + (128,7)2 + (7 8,7)2 + (9 8,7)2 + (6 8,7)2 + (118,7)2 + (6 8,7)2 + (108,7)2 + (9 8,7)2
=
= 4,01
9
Assim S 2 = 4,01 , com isso S 2
s
2
2
IC ( ) 0,95 = 8,7 t 0, 025
= 8,7 2,262
= 8,7 1,43 =
IC ( )1 = x t
n
10
10
2
IC ( ) 0,95 = 7,27 10,13

Amostras Grandes (n > 30)


A medida que aumenta-se o tamanho da amostra, a distribuio t se Student se aproxima da
distribuio normal, deste modo, quando se estiver trabalhando com amostras grandes (n > 30)
pode-se utilizar a distribuio normal padronizada, z em lugar da t na obteno dos intervalos de
confiana mesmo que 2 seja desconhecida, isto , utilizar S 2 .

SOFEP

Niteri

Out/2009

25

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

3. ESTATSTICA INFERENCIAL
Agora iremos utilizar alguns testes de hiptese com deciso estatstica. A maioria desses
testes pressupe que amostra analisada tenha distribuio normal. O grfico de histograma e do
boxplot nos d uma idia da distribuio, porm podemos usar o teste Shapiro Wilk para
verificarmos se a distribuio no difere da normal.
Os testes de hiptese podem ser classificados como paramtricos e No-paramtricos
Paramtricos: calcula as diferenas numricas exatas entre os resultados.
No paramtricos: apenas consideram se certos resultados so superiores ou inferiores a outr
os resultados.
Requisitos para utilizao de testes paramtricos
Quando se pretende empregar um teste t de Student ou uma ANOVA para fazer
comparaes entre amostras (testes paramtricos), existe uma lista de requisitos que inclui, entre
outros:
1. que a varivel tenha sido mensurada num nvel intervalar;
2. que a distribuio seja simtrica e mesocrtica;
3. que a caracterstica estudada (varivel) tenha distribuio normal numa dada populao.
Sempre que no se pode admitir a simetria e a normalidade de distribuio, ou os dados
foram recolhidos num nvel de mensurao inferior ao intervalar, devemos recorrer a testes que
no-paramtricos.
Vantagens dos testes no-paramtricos
Podem ser utilizados, mesmo quando os seus dados s podem ser medidos num nvel ordinal
, isto , quando for apenas possvel orden-los por ordem de grandeza, podem ser utilizados mesmo
quando os seus dados so apenas nominais, isto , quando os sujeitos podem apenas ser
classificados em categorias.
3.1 - TESTES DE HIPTESES (TPICO COBRADO NAS PROVAS DO CESPE-UNB)
Para a realizao de um teste de hipteses, deve-se formular duas hipteses estatsticas, a saber:
Hiptese nula (H0): a hiptese que ser testada, sendo geralmente formulada com o intuito de
ser rejeitada.
Hiptese alternativa (H ou H1): qualquer hiptese que contrarie H0.

 Rejeitar a hiptese nula quando deveramos t-la aceitado ocasiona o chamado erro
alfa (ou erro tipo I).
 Erro beta (ou erro tipo II), assim que se designa o erro de aceitar a hiptese nula
quando, na verdade, ela deveria ter sido rejeitada.

SOFEP

Niteri

Out/2009

26

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

3.1.1 NVEIS DE SIGNIFICNCIA (TPICO COBRADO NAS PROVAS DO CESPE-UNB)


O p-valor (nvel de significncia observado) o menor valor para o qual H0 seria rejeitada,
quando um procedimento de teste especfico usado em um determinado conjunto de dados. Assim,
quando pvalor implica na rejeio de H0 no nvel . Ou se pvalor > implica na no rejeio
de H0 no nvel .
Traduzindo: Para decidir se a diferena amostral obtida estatisticamente significante resultado de uma real diferena entre as populaes e no apenas produto de erro amostral -
habitual estabelecer um nvel de confiana (tambm chamado nvel de significncia), nvel esse que
representa a probabilidade com que a hiptese nula pode ser rejeitada com confiana (segurana).
Ou, dizendo de outro modo, a probabilidade com que a hiptese experimental pode ser aceita (com
confiana). Em conseqncia, decidimos pela rejeio da hiptese nula sempre que for muito
pequena a probabilidade de que a diferena amostral tenha sua origem no erro de amostragem (por
exemplo, 5 casos em 100). (LEVIN, 1987).
Por uma questo de conveno, usamos o nvel de confiana (significncia) de 0,05 (= 5%).
Em termos mais simples, estamos dispostos a rejeitar a hiptese nula se a diferena amostral obtida
ocorrer por acaso somente 5 vezes ou menos em 100 (isto , 5% no mximo). O nvel de confiana
de 0,05 foi indicado graficamente na Figura 8.6. Como ela bem ilustra, este nvel de confiana
encontra-se nas reas pequenas das caudas da distribuio de diferenas entre mdias. Essas so as
reas sob a curva que representam uma distncia de (mais ou menos) 1,96 desvios padres
contados a partir de zero, que a mdia das diferenas.
Os nveis de confiana no nos oferecem garantia absoluta quanto correo da hiptese nula.
Sempre que decidimos rejeit-la a um certo nvel de significncia, expomo-nos ao risco e estar
tomando a deciso errada. (LEVIN, 1987).
NVEIS DE SIGNIFICNCIA
Abordagem do valor Crtico
Quando o valor de p no for calculado adotamos o modelo do valor crtico. Assim se o valor
calculado do teste (t, z) se posiciona na regio de aceitao estabelecida pelo valor crtico
(tabelado), para o nvel de significncia de 0,05 ou menor, aceitamos a hiptese nula. Caso
contrrio (valor calculado cai na regio de rejeio) rejeitamos a hiptese nula.

Rejeita
Ho

SOFEP

Aceita
Ho

Rejeita
Ho

Niteri

Out/2009

27

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

3.1.2- QUI-QUADRADO
O Qui-quadrado obtido somando-se a diferena ao quadrado entre as freqncias
observadas e as esperadas, dividido pelas freqncias esperadas.

O = nmero de casos observados na i-sina categoria;


E = nmero de casos esperados na i-sina categoria quando H0 verdadeira;
K = nmero de categorias; e Gl = (K 1)
Das diversas utilidades do teste qui-quadrado uma delas comparar freqncias numa tabela
de contingncia.
O teste de Qui-Quadrado utilizado para comparao entre as freqncias observadas e as
esperadas segundo um modelo probabilstico qualquer.
utilizado para testar se existe diferena significativa entre o nmero observado de objetos,
ou respostas, ocorrendo em cada categoria e um nmero esperado baseado na hiptese nula H0.
Ele estabelece o grau de correspondncia entre as observaes e esperadas em cada
categoria.
O mais "popular" teste no-paramtrico de significncia utilizado em pesquisa chamase qui-quadrado (2).
A hiptese nula para o teste de qui-quadrado estabelece que as populaes no diferem
relativamente freqncia com que ocorre uma caracterstica particular; por outro lado, a hiptese
experimental estabelece que as diferenas amostrais refletem diferenas reais na populao matriz a partir da freqncia relativa de uma dada caracterstica.
Requisitos para o uso do qui-quadrado
1. "Comparao" entre duas ou mais amostras.
2. Dados pertencentes ao nvel nominal de mensurao.
3. Amostragem aleatria.
4. As freqncias esperadas (tericas) por casela no devem ser muito pequenas.
3.1.3- TESTE Z: (TPICO COBRADO NAS PROVAS DO CESPE-UNB)
Este teste utilizado quando conhecemos a varincia da populao, os dados so
independentes e seguem uma distribuio normal.
A hiptese nula define que (mdia populacional) possui um valor numrico especfico, 0.
Seja X1, ...,Xn uma amostra aleatria de tamanho n da populao normal.
Ento, a mdia amostral X possui uma distribuio normal com valor esperado = e desvio
padro = / n
A estatstica Z obtida pala padronizao de X sob a suposio de H0 ser verdadeira.

Z=

Da mesma maneira podemos dizer:

SOFEP

Niteri

Out/2009

28

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Com base no que foi visto neste tpico voc poder responder a questo 3, itens 4 e 5.

3.1.4- TESTE t (TPICO COBRADO NAS PROVAS DO CESPE-UNB)


Teste de hiptese para a mdia atravs do uso da distribuio t de Student.
A distribuio t, com n 1 gl, utilizada quando a distribuio amostral da mdia segue a
distribuio normal, mas desconhecido.
Para a abordagem do valor crtico, o procedimento idntico ao descrito para a distribuio
Z, sendo que o teste estatstico dado por:

e temos as seguintes hipteses:


H0: No existe diferena significativa entre as mdias da populao e da amostra;
H1: Existe diferena significativa entre as mdias da populao e da amostra;
Da mesma maneira podemos dizer:

Com base no que foi visto neste tpico voc poder responder a questo 7, item C.
SOFEP

Niteri

Out/2009

29

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

3.1.5- ANLISE DA VARINCIA


Para fazer uma anlise de varincia, a variao total de um conjunto de escores tratada
como sendo divisvel em dois componentes: a distncia dos escores brutos com relao s mdias
dos grupos a que pertencem - e a isto se chama variao dentro dos grupos -, e a prpria distncia
existente entre as mdias dos vrios grupos o que recebe o nome de variao entre grupos.
(LEVIN, 1987).
De modo similar, a anlise de varincia comporta uma razo F, cujo numerador representa a
variao entre os grupos comparados, e cujo denominador contm uma estimativa da variao
dentro desses grupos. A estatstica F (razo F) indica o tamanho da diferena entre os grupos em
funo do tamanho da variao dentro de cada grupo. Da mesma forma como era verdade para a
estatstica t, quanto maior a estatstica F (quanto maior a variao entre os grupos com relao
variao dentro dos grupos), maior a probabilidade de rejeitar-se a hiptese nula e aceitar-se a
hiptese experimental. (LEVIN, 1987).
Um F significante d-nos uma informao a respeito da diferena global existente entre os
grupos (amostras) estudados. Se estivssemos pesquisando a diferena entre apenas duas mdias
amostrais, nenhuma anlise adicional seria necessria para a interpretao de nosso resultado: em
tal situao, a diferena obtida ou estatisticamente significante ou no, dependendo da magnitude
de F. Entretanto, quando encontramos um F significante relacionado com diferenas entre trs ou
mais mdias, pode ocorrer que seja importante determinar onde se situam essas diferenas. (LEVIN,
1987).
Felizmente, estatsticos desenvolveram vrios outros testes que permitem fazer comparaes
mltiplas a partir de um F significante e localizar onde se situam as diferenas significantes entre
mdias. O teste DHS de Tukey um dos mais teis no terreno da comparao mltipla. (Obs.: DHS
significa "diferena honestamente significante".)
O DHS de Tukey usado apenas quando um F significante j foi obtido. Por este mtodo, o
que fazemos comparar a diferena entre quaisquer duas mdias com a DHS. Uma diferena entre
duas mdias diz-se estatisticamente significante s se for igual a ou maior que a DHS. (LEVIN,
1987).
A anlise de varincia s deve ser feita depois de o pesquisador ter levado em conta as
seguintes exigncias:
1. Comparao entre trs ou mais mdias independentes - A razo F geralmente empregada
para fazer-se uma comparao entre trs ou mais mdias extradas de amostras independentes. A
estatstica F no se presta para testes em que o nmero de amostras menor que dois. Porm, no
caso especfico de duas amostras, tanto faz usar F ou t.
2. Dados intervalares - Ao fazer uma anlise de varincia, pressupomos ter atingido o nvel
intervalar de mensurao. Por igual raciocnio, dados categorizados ou ordenados no devem ser
usados.
3. Amostragem casual - Nossas amostras devero ter sido extradas aleatoriamente, de uma
dada populao de escores.
4. Distribuio normal - Admitimos que a varivel em foco possui, na populao da qual se
extraem as amostras, distribuio normal.

SOFEP

Niteri

Out/2009

30

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

4. CORRELAO E REGRESSO
4.1 CORRELAO DE PEARSON
Com o auxlio do coeficiente de correlao (linear) de Pearson (r), podemos determinar a
fora e o sentido da relao entre as variveis X e Y desde que elas tenham sido mensuradas no
nvel intervalar. O r de Pearson reflete a extenso em que cada sujeito amostral consegue obter o
mesmo escore z nas duas variveis (X e Y).
Teste da Significncia do r de Pearson
O coeficiente de correlao (linear) d-nos uma medida precisa da fora e do sentido da
correlao (existente entre as variveis) na amostra estudada. Se tivermos extrado uma amostra
aleatria de uma particular populao, podemos ainda querer verificar se a associao obtida entre
X e Y existe de jato na populao, e no resulta meramente de erro amostral (= ao do acaso).
Para testar a significncia de uma medida de correlao, geralmente estabelecemos a hiptese
de que no existe correlao na populao. Com respeito ao coeficiente de correlao (linear) de
Pearson, a hiptese nula (H0) fixa que
r=0
enquanto que a hiptese experimental (hiptese alternativa, Ha ou H1) estabelece que
r0
semelhana do que fizemos em captulos anteriores, testamos a hiptese selecionando um
nvel de significncia igual a 0,05 ou 0,01, aplicando, a seguir, a prova adequada.
Requisitos para o Uso do Coeficiente de Correlao de Pearson
A fim de empregar-se corretamente o coeficiente de correlao de Pearson como medida de
associao entre as variveis X e Y, os seguintes requisitos devem ser levados em conta:
1. Correlao linear - o r de Pearson s se aplica a correlaes lineares entre X e Y. No existe
uma relao causal, apenas uma associao.
2. Dados intervalares - As variveis X e Y devem ser mensuradas, no mnimo, a nvel
intervalar, de sorte que seja possvel trabalhar com escores.
3. Amostragem casual - Os sujeitos amos trais devem ter sido extrados aleatoriamente de
uma dada populao. Se assim no for, no ter nenhum sentido a prova de significncia do
coeficiente obtido.
4. Variveis distribudas normalmente - Para que seja possvel testar a significncia do r de
Pearson, necessrio que ambas as variveis, X e Y, tenham distribuio normal na populao.
Quando as amostras so pequenas, qualquer descuido na observncia dessa normalidade de
distribuio pode comprometer seriamente a validade do r de Pearson. Entretanto, esse requisito
deixa de ter importncia to grande quando o tamanho das amostras igual a ou maior que 30.
Fora da correlao
Descobrir a existncia de uma relao no esclarece muito a respeito do grau de associao ou
correlao entre duas variveis. Muitas so as relaes estatisticamente significantes; poucas
expressam correlao perfeita ou exata. Ilustremos: sabemos que peso e estatura so variveis
associadas, uma vez que, quanto mais alta a pessoa, maior tende a ser seu peso. H numerosas
excees regra, entretanto. Algumas pessoas altas pesam muito pouco; algumas pessoas baixas
pesam muito. Da mesma forma, uma relao entre orientao para estudos universitrios e uso de
entorpecentes no prenuncia a possibilidade de encontrarmos centenas de no-viciados entre
estudantes que pretendam continuar a vida acadmica ou muitos viciados entre os que no planejam
freqentar a universidade.
Convencionalmente, num diagrama de disperso, a varivel X localiza-se no eixo horizontal,
enquanto que a varivel Y, no vertical.
Podemos dizer que a fora de correlao entre X e Y aumenta medida que os pontos no
diagrama de disperso, mais compactamente se agrupam em torno de uma reta imaginria. Portanto,
a Figura (homens) representa uma correlao mais forte do que a (mulheres), muito embora ambos
SOFEP

Niteri

Out/2009

31

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

os diagramas indiquem que a renda tende a aumentar com o aumento dos anos de escolarizao.
Tais dados, na verdade, sugerem fortemente que a renda das mulheres (com relao dos homens)
est menos relacionada com o nvel de escolaridade por elas atingido.
Diag ra ma d e disp e r s o

1600
1400
1200
1000
800
600
400
200
0

Renda

Renda

Diag ra ma d e disp e r s o

10

15

1600
1400
1200
1000
800
600
400
200
0
0

20

10

15

20

An o s d e e s tu d o

An os de e s tu d o

Homens

Mulheres

Diagramas de Disperso Ilustrativos de Diferenas na "Fora da Relao" entre "Escolaridade" e "Renda"


(Homens e Mulheres).

Sentido da correlao. (LEVIN, 1987).


A correlao pode ser classificada, quanto ao sentido, em positiva ou negativa. Uma
correlao positiva indica que os respondentes que obtiveram escores altos na varivel X tendem a
obter escores tambm altos na varivel Y. De forma recproca, respondentes que obtm escores
baixos em X tendem a obter escores tambm baixos em Y (e, nesse caso, a correlao tambm
positiva). A correlao positiva pode ser ilustrada a partir da relao entre escolaridade e renda.
Como j vimos antes, respondentes com muitos anos de escolaridade tendem a apresentar rendas
anuais maiores do que aqueles que freqentaram a escola por poucos anos.
Diz-se que h correlao negativa quando, com relao aos mesmos respondentes, medida
que se obtm escores altos na varivel X, h a propenso de se obterem escores baixos na Y.
Reciprocamente, ocorrer tambm correlao negativa se, em correspondncia a valores baixos na
varivel X, existir uma tendncia a valores altos na varivel Y.
A relao ansiedade e rendimento acadmico exemplo caracterstico de correlao negativa.
O desempenho tende a diminuir medida que a ansiedade aumenta.
Diagrama de dispe rso

Ansiedade

30
25
20
15
10
5
0
0

10

Nota e m m ate m tica

Correlao entre ansiedade e desempenho acadmico.


Coeficiente de correlao
O procedimento que permite trabalhar com correlaes no lineares (curvilneas) situa-se
alm do escopo deste texto. Por essa razo, vamos voltar nossa ateno para os chamados
coeficientes de correlao linear, que expressam, numericamente, tanto a fora quanto o sentido da
SOFEP

Niteri

Out/2009

32

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

correlao linear. Tais coeficientes de correlao oscilam entre -1,00 e +1,00 conforme se segue:
-1,00  correlao negativa perfeita
-0,95  correlao negativa forte
-0,50  correlao negativa moderada
-0,10  correlao negativa fraca
0,00  ausncia de correlao
+0,10  correlao positiva fraca
+0,50 correlao positiva moderada
+0,95  correlao positiva forte
+1,00  correlao positiva perfeita
Vemos, pois, que valores numricos negativos, tais como -1,00, -0,95, -0,50 e -0,10, indicam
correlao negativa, enquanto que valores numricos positivos, como, por exemplo, +1,00, +0,95,
+0,50 e +0,10, so indicativos de correlao positiva. Em termos de grau de associao, quanto
mais prximo de 1,00 em ambos os sentidos, maior a fora da correlao. Como tal fora
independente do seu sentido, podemos dizer que -0,10 e +0,10 so iguais quanto fora (ambos
fracos); -0,95 e +0,95 tambm so iguais quanto a ela (ambos fortes). (LEVIN, 1987).
J para Byrman e Cramer, se:
0,2 Correlao muito fraca e sem significncia
0,2 < r 0,39 Correlao fraca
0,4 < r 0,69 Correlao moderada
0,7 < r 0,89 Correlao forte
0,9 < r 1 Correlao muito elevada
Propriedades do coeficiente de correlao:
- Amplitude: vai de 1 at +1 (por causa do modo como definido)
- Sinal: indica a direo (sinal negativo: direo negativa e vice-versa)
- Magnitude: Quanto mais prximo dos extremos (-1 e 1), mais forte a associao linear.
Valor de r prximo de zero significa que no h associao linear, podendo haver outro
tipo de relao entre as variveis, como uma quadrtica, por exemplo.
- O coeficiente de correlao uma quantidade adimensional. No afetada por mudanas
de escala das variveis.
- No se trata de uma percentagem.
4.2 REGRESSO LINEAR SIMPLES
O estabelecimento de uma correlao entre duas variveis pode ter utilidade na previso dos
valores de uma delas (Y) a partir do conhecimento dos valores da outra (X). A tcnica empregada
em tais previses conhecida por anlise de regresso.
Vimos que a fora de uma correlao entre X e Y aumenta medida que os pontos do
diagrama de disperso concentram-se em torno de uma reta imaginria. Podemos agora identificar
essa curva pelo nome de reta de regresso, que uma reta interpolatriz obtida a partir da nuvem de
pontos do diagrama de disperso.
J foi salientado anteriormente que h poucas correlaes perfeitas (+ 1,00 ou -1,00) que a
natureza apresenta. Este fato muito importante porque, como regra geral, as previses tomam-se
mais acuradas medida que o coeficiente de correlao aproxima-se de 1,00. Quando a correlao
entre duas variveis for forte, mas no perfeita, possvel, ainda assim, construir uma linha de
regresso (previso) que se "ajuste bem" ao conjunto de pontos do diagrama. Isso verdadeiro
mesmo que nem todos os pontos da nuvem caiam exatamente sobre a reta (o que, alis, o mais
comum); no ficamos impedidos de fazer previses, mas devemos aceitar o fato de que a previso
ser tanto mais imprecisa quanto mais distante o ponto estiver da linha de regresso.

SOFEP

Niteri

Out/2009

33

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Equao de Regresso
A equao de regresso, em smbolos, resulta na seguinte frmula:
Y' = r (sy/sx) x r (sy/sx) X + Y
onde
Y' = valor terico de Y (como se trata de uma previso, Y pode ser diferente de Y)
r= coeficiente de correlao linear de Pearson (r) para a relao entre as variveis X e Y
sy = desvio padro (amostral) da varivel Y
sx = desvio padro (amostral) da varivel X
x = um particular valor de x
X = mdia aritmtica dos valores (amostrais) da varivel X
Y = mdia aritmtica dos valores (amostrais) da varivel Y.
Observem-se os aspectos importantes:
Anlise de regresso no adivinhao. Tambm no um processo de "acertar a mosca". O
conjunto de pontos do diagrama de disperso define uma tendncia. A reta interpolatriz (isto , de
regresso) apenas "sintetiza" essa tendncia e permite uma generalizao, sob a forma de equao,
como se todos os pontos cassem sobre ela.
Do que ficou dito em (1), acima, decorre que: a) se Y = f(X) for funo matemtica, as
previses sero pontuais, isto , por ponto, e a preciso ser grande; b) se Y = f(X) for funo
estatstica, as previses sero intervalares, isto , os valores de y' pertencero a um intervalo. Da
que (y' - Y) = erro de estimao.
Num exemplo hipottico de uma anlise de regresso entre as variveis X e Y gerou a
seguinte equao: Y = 0,45X + Y
Isto significa que a cada aumento de uma unidade na varivel X, a varivel Y aumentar em
0,45 unidades.
Coeficiente de determinao (R2): o quadrado do coeficiente de correlao de Pearson e
expresso em porcentagem. o percentual explicado da variao da varivel dependente pela reta de
regresso (modelo). O restante explicado pelo erro, que pode ser devido a ausncia de outras
variveis, erros de mensurao das variveis e ao erro aleatrio.
Coeficiente angular ou inclinao (da reta de regresso: Y = a + b * X): a variao de Y
por cada variao de X. Representado pela letra b.
Intercepto (da reta de regresso: Y = a + b * X): o valor de Y, quando X = 0. A maioria
das vezes no faz sentido interpretar este valor. Representado pela letra a.

Re gress o
y = 0,56 03 x - 3 ,87 53
2

R = 0 ,92 22

12
11
10
9
8
7
6
5
4
12

SOFEP

14

16

18

20

Niteri

22

24

26

28

Out/2009

34

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

BIBLIOGRAFIA BSICA:
AYRES, M.; AYRES JR, M.; AYRES, D. L. & SANTOS, A. S. BioEstat 5.0: Aplicaes
estatsticas nas reas das cincias biolgicas e mdicas. Sociedade Civil Mamirau. Par, 2008.
BARROS, M.V.G.; REIS, R.S.; HALLAL, P.R.C & FLORINDO, A.A. Anlise de Dados em
Sade. 2 Ed. Recife: EDUPE, 2005.
BUSSAB, W. O. & MORETTIN, P.A Estatstica Bsica. 5 Ed. So Paulo:Atual, 2006.
KERLINGER, F. N. Metodologia da pesquisa em cincias sociais. 9 reimpresso. So Paulo:
Pedaggica e Universitria, 2003.
LEVIN, J. Estatstica Aplicada a Cincias Humanas. 2 edio, Editora HARBRA, So Paulo
SP. 1987.
SPIEGEL, M. R. Estatstica. Rio de Janeiro: McGraw-Hill do Brasil. 1972
TRIOLA, M.F. Introduo Estatstica. 7 Ed. Rio de Janeiro: LTC, 1999.
VIEIRA, S. Bioestatstica: Tpicos Avanados. 2 Ed. Rio de Janeiro: Elsevier, 2004.

SOFEP

Niteri

Out/2009

35

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

EXERCCOS
1) Avalie as afirmaes a seguir a respeito do Coeficiente de Correlao (r) de Pearson entre
duas variveis.
I - Se r=1, as observaes esto todas sobre uma linha reta no diagrama de disperso.
CERTO
II - Se r>0, a varivel independente aumenta quando a varivel dependente aumenta.
CERTO
III -Se r<0, a varivel independente decresce quando a varivel dependente decresce.
ERRADO
IV - Se r=0, no existe relao entre as duas variveis.
ERRADO
2) Um teste de hiptese foi aplicado e, ao nvel de significncia de 5%, rejeitou-se Ho. O que
acontecer, se forem adotados os nveis de significncia de 1% e de 10%, respectivamente.
A) rejeitar-se- Ho em ambos os casos - ERRADO
B) rejeitar-se- Ho a 1% e nada se pode afirmar quanto ao de 10% - ERRADO
C) nada se pode afirmar quanto ao de 1% e rejeitar-se- Ho a 10% - CERTO
D) nada se pode afirmar em ambos os casos - ERRADO
E) Aceitar-se- Ho a 1% e rejeitar-se- Ho a 10% - ERRADO
3) Deseja-se saber se a exposio ao conjunto de produtos qumicos lanados atmosfera
pelas indstrias de um distrito industrial pode causar diminuio dos glbulos brancos nos
indivduos residentes em bairros contguos a esse distrito industrial. Para essa verificao,
colheu-se sangue de uma amostra de 100 indivduos adultos residentes nesses bairros, tendo
sido encontrada uma mdia de 5.950 leuccitos por mm3 de sangue. Nessa situao,
considerando que a mdia normalmente observada entre adultos seja de 6.000 leuccitos por
mm3, com um desvio-padro de 400 leuccitos por mm3e uma probabilidade de acerto de
95%, julgue os itens seguintes.
1 - As hipteses mais adequadas para o problema apresentado so:
H0 = a mdia de leuccitos da populao alterada pela poluio atmosfrica;
H1 = a mdia de leuccitos da populao mantm o valor = 6.000.
ERRADO
2 - A probabilidade de Erro Tipo I de 0,05. CERTO
3 - Se X RC1 ou se X RC2 , em que RC1 e RC2 so os pontos que determinam as regies
crticas de rejeio de hiptese, a hiptese H0 ser rejeitada. CERTO
4 - Considerando-se zp = 1,96 para o nvel de significncia proposto, pode-se concluir que a
diferena observada nas mdias devida s flutuaes prprias da amostragem. CERTO
5 - Dentro do nvel de significncia, se a mdia da amostra fosse de 5.900 leuccitos por mm3, o
resultado do teste de hiptese - aceitao ou rejeio - permaneceria o mesmo. ERRADO
4) Joo e Pedro trabalham numa empresa como tcnicos, mas, atuando em departamentos e
reas distintas de operao. Em um ms de trabalho, Joo produziu 45 peas e Pedro 89. Os
escores z ou escores padronizados correspondentes a esses graus brutos so:
para Joo z=1,27 e
para Pedro z= - 0,63.
Coloque F (falso) ou V (verdadeiro) nas afirmativas abaixo, em relao ao desempenho dos
tcnicos em termos de produtividade, assinalando a seguir a alternativa correta.
(V) Joo mais produtivo do que Pedro e seu escore superior mdia do seu prprio grupo.
(F) Pedro to produtivo quanto Joo, mas o seu escore inferior mdia do seu prprio grupo.
SOFEP

Niteri

Out/2009

36

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

(F) No possvel comparar a produtividade de ambos os tcnicos, devido ao fato de atuarem em


reas distintas.
(F) Pedro mais produtivo do que Joo, mas nada se pode afirmar sobre a sua posio relativa aos
demais operrios do seu grupo.
(V) A comparao da produtividade dos operrios em termos de graus brutos pode conduzir a
concluses errneas.
5) Se o coeficiente de correlao linear amostral para um conjunto de n pares de observaes
de duas variveis aleatrias contnuas igual a 0,85, ento o coeficiente de determinao da
reta de regresso ajustada aproximadamente igual a:
A) 0,74; - ERRADO
B) 0,42;- ERRADO
C) 0,72;- CERTO
D) 0,85;- ERRADO
E) 0,95.- ERRADO

6) Nveis de confiana para alguns valores de z

Duas amostras de lcool combustvel - I e II - foram analisadas segundo o mtodo NBR5992,


para a determinao do teor de lcool e do grau de hidratao pela medida da massa
especfica a 20 C. Para um nvel de confiana de 95%, a amostra I apresentou o resultado de
810,6 0,8 kg/m3 e a amostra II apresentou o valor de 809,8 0,8 kg/m3. As anlises foram
feitas em triplicata.
De acordo com a norma pertinente, a especificao para lcool combustvel - lcool etlico
hidratado combustvel (AEHC) - prev a faixa de aceitao entre 807,6 e 811,0 kg/m3. Com
base na tabela acima e nos dados fornecidos, e considerando que 3 = 1,73, julgue os itens que
se seguem.
A- A amostra I encontra-se fora dos limites de aceitao especificados pela norma. CERTO
B- A amostra II est fora dos limites da faixa de aceitao. ERRADO
C- O nvel de confiana de 95% significa que a probabilidade de a massa especfica obtida para a
amostra I estar entre os valores de 809,8 e 811,4 kg/m3 95%. ERRADO
D- Sabendo-se que o valor obtido para a amostra II uma mdia calculada a partir das medidas
feitas em triplicata de uma nica amostra, se o nvel de confiana desejado fosse de 99%, o valor
obtido para a amostra II seria expresso por 809,8 1,1 Kg/m3. ERRADO
E- Para 95%de nvel de confiana, a faixa de tolerncia para as amostras I e II corresponde a uma
preciso na medida da ordem de 0,1%, a metade da preciso inserida na especificao da norma
pertinente. ERRADO

SOFEP

Niteri

Out/2009

37

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

7) Um perito criminal recebeu em seu laboratrio, como principal evidncia em um caso


criminal, pequenos fragmentos de vidro encontrados incrustados no casaco de um suspeito de
assassinato. Esses fragmentos so idnticos em composio a uma rara vidraa belga de vidro
manchado quebrada durante o crime. O perito decidiu ento determinar os elementos As, Co,
La, Sb e Th no vidro incrustado no casaco do suspeito para verificar se este era do mesmo
material da vidraa belga.

A tcnica escolhida para essas determinaes foi a espectroscopia de absoro atmica.As


mdias e os desvios-padro das anlises em triplicata desses cinco elementos nas amostras de
vidro retiradas do casaco, bem como os valores conhecidos para a vidraa belga so
mostrados na tabela acima. Considerando essa situao hipottica, que 3 = 1,73 e que o
parmetro t de Student para 2 graus de liberdade e 95% de confiana igual a 4,303, julgue
os itens a seguir, que se referem s tcnicas espectroscpicas de anlise e anlise estatstica
de dados.
A) A mdia da concentrao de As pode ter sido obtida a partir dos valores individuais 121 g/g,
130 g/g e 143 g/g. ERRADO
B) O desvio-padro s para qualquer um dos elementos analisados pode ser corretamente calculado
por meio da equao abaixo, em que x1, x2 e x3 so os valores individuais de concentrao obtidos
para cada alquota analisada.
CERTO

C) Para um nvel de confiana de 95% como critrio de dvida, com base nos dados obtidos, o
perito tem argumentos suficientes para duvidar da culpabilidade do acusado, pois pelo menos dois
dos elementos analisados possuem concentraes significativamente diferentes nos fragmentos de
vidro incrustados no casaco, em comparao com a vidraa de vidro belga.
CERTO

8) O grfico ao lado expressa a concentrao plasmtica das drogas A, B e C, em relao ao


tempo, aps administrao nica da dose estabelecida para cada droga. Deve-se considerar
que a concentrao mxima tolerada de cada uma das drogas (nvel limite de concentrao
plasmtica, a partir do qual a droga passa a produzir efeitos colaterais importantes) de 40
g/mL e o nvel plasmtico efetivo das mesmas (nvel que deve ser alcanado para que a droga
produza efeitos teraputicos) de 25 g/mL.

SOFEP

Niteri

Out/2009

38

Israel Souza

Apostila de Bioestatstica

isra.sza@gmail.com

Com base no texto CE e sabendo que as drogas A, B e C so utilizadas para o mesmo fim,
julgue os itens que se seguem.
A) A droga C a melhor escolha teraputica. ERRADO
B) A droga A, na dose administrada, no apresenta utilidade teraputica.CERTO
C) A droga que se apresenta em maior quantidade no organismo na maior parte do tempo mostrado
na figura a droga C, uma vez que possui a maior rea sob a curva. CERTO
D) A droga que atinge mais rapidamente a sua mxima concentrao plasmtica a droga C, que
seguida da droga B. A droga A a que leva o maior tempo para atingir sua mxima concentrao
plasmtica. ERRADO
E) Ointervalo compreendido entre as concentraes plasmticas de 25 g/mL e 40 g/mL pode ser
denominado de janela teraputica. CERTO
9) Julgue os itens abaixo:
A) As curvas de distribuio normal mostradas ao lado tm aproximadamente o mesmo desviopadro e mdias significativamente distintas.
ERRADO

B) O intervalo de confiana de uma medida pode ser corretamente definido pela expresso
abaixo, em que representa a mdia, t o parmetro de Student, s o desvio-padro e n, o nmero de
medidas. ERRADO

SOFEP

Niteri

Out/2009

39

Vous aimerez peut-être aussi