Académique Documents
Professionnel Documents
Culture Documents
A Conduo da Anlise
2014/1
Thierry R. Gasnier
Universidade Federal do Amazonas
Sumrio
Introduo ............................................................................................ 3
1. Estatstica na perspectiva do usurio ........................................... 4
1.1 A necessidade de estatstica .................................................... 4
1.2 Complexidade estatstica ........................................................ 4
1.3 Questo, hiptese, previso e evidncia. ................................ 6
1.4 Tipos de evidncias .................................................................. 9
1.5 Validao de evidncias ........................................................ 12
1.6 Estatsticas intuitiva e frequentista ...................................... 16
1.7 Da amostra populao........................................................ 18
2. Do problema biolgico ao estatstico. ......................................... 20
2.1 Entidades ................................................................................ 20
2.2 Propriedades .......................................................................... 21
2.3 Tabelas e grficos EPR ......................................................... 22
2.4 Relaes entre variveis ........................................................ 22
2.5 A estatstica para estabelecer relaes. ................................ 23
3. Confiana na medida e independncia....................................... 27
3.1 Nveis e escalas de medida .................................................... 27
3.2 Atribuio de nveis nominais e ordinais............................. 29
3.3 Exatido, preciso e acurcia. .............................................. 30
3.4 Distribuies de frequncias ................................................. 34
3.5 Parmetros populacionais .................................................... 36
3.6 Intervalos de confiana de parmetros................................ 37
3.7 Independncia para parmetros univariados ..................... 41
3.8 Independncia em anlises de relaes ................................ 42
3.9 Consideraes complementares ........................................... 44
4. A lgica dos testes de hipteses ................................................... 50
4.1 O mtodo hipottico dedutivo............................................... 50
4.2 Estabelecendo hipteses de trabalho ................................... 52
4.3 Descartando hipteses com procedimentos ..................... 54
4.4 Descartando a hiptese do acaso ...................................... 56
4.5 Nvel de significncia e tipos de erros. ................................. 58
4.6 Consideraes complementares ........................................... 60
Introduo
No ttulo A Conduo da Anlise, o termo Conduo serve para reforar uma analogia entre anlise
na pesquisa e dirigir um veculo (carro, bicicleta,
etc.) que foi utilizada no texto. Talvez o principal
aspecto desta analogia seja que dirigir uma atividade quase assustadoramente complexa a princpio,
mas, depois de algum tempo de treinamento, vai
ficando cada vez mais fcil, mesmo sem deixar de
ser complexa, tendendo a tornar-se agradvel. O
mesmo pode ocorrer com o conhecimento sobre
medida, planejamento e anlise dos dados, ao passo que deixam de ser uma preocupao incmoda
para se tornar parte natural do cotidiano da pesquisa. O termo anlise deve ser compreendido em um
sentido bem amplo, pois a confiana em um resultado no depende apenas da anlise matemtica. Um
bom estatstico sempre pergunta como os dados
foram medidos e coletados antes de ajudar na anlise, de forma que no inapropriado utilizar este
sentido amplo para deixar o ttulo mais compacto.
Este livro no uma introduo estatstica, uma
introduo bioestatstica aplicada, isto , ao uso
de ferramentas estatsticas para a resoluo de
problemas biolgicos. importante separarmos dois
contextos da estatstica, o contexto da criao e
fundamentao matemtica e o contexto da aplicao. H profissionais que desenvolvem ferramentas
estatsticas e avaliam suas aplicaes e limitaes,
mas h tambm pessoas que sabem utilizar estas
ferramentas com competncia apenas com a base
necessria para o seu uso. O primeiro como um
engenheiro de carros ou um construtor de instrumentos musicais e o segundo como um piloto ou
um msico. Quando uma pessoa que conhece a
fundamentao e a aplicao vai ajudar outra pessoa com um problema estatstico, no se espera
que a primeira explique noes de clculo de probabilidade e faa demonstraes de frmulas (questes mecnicas), espera-se que ela v direto ao
assunto e explique qual a ferramenta apropriada,
quais suas premissas e limitaes, como se realiza
o teste em um programa estatstico e quais so os
grficos mais apropriados para comunicar os resultados (questes de conduo). Por isto, o contedo
de um livro de apoio na formao de estatsticos
(como para engenheiros ou construtores de instrumentos) deve ser diferente de um livro de apoio para
usurios (como para pilotos ou msicos). Ainda que
alguns livros de bioestatstica tenham esta proposta,
cessrios, mas preciso ter claro que o problema que define esta necessidade. Uma pessoa que optou por no aprender estatstica est
limitando sua capacidade de analisar dados e
de resolver problemas.
1. Estatstica na perspectiva
do usurio
1.1 A necessidade de estatstica
Para formar usurios, necessria uma abordagem que leve em conta que a pesquisa
semelhante forma cotidiana complexa de se
pensar. Quando fazemos pesquisa precisamos,
em primeiro lugar, ter conhecimento do referencial terico do assunto de pesquisa, pois sem
ele estamos perdidos. Nosso referencial terico
como um mapa necessrio a cada momento,
e dele que nascem as questes de pesquisa.
Cada pesquisa tem o seu referencial, por isto,
neste texto comearemos com o passo seguinte, discutindo algo sobre questes e hipteses
de pesquisas (cap. 1 e 4). Nem todas as pes-
voc precisa construir seu mapa mental conceitual sobre o assunto, isto , consolidar a base
conceitual consultando pessoas e com uma
pesquisa bibliogrfica sria. Levantamento bibliogrfico uma tarefa intil se voc no estudar o material. Estudar no apenas ler, dificilmente se consegue elaborar um projeto interessante sem um grau de envolvimento emocional
com o problema. A informao no vem apenas
de livros, necessrio desenvolver a capacidade de observar. Isto significa estar atento, procurar oportunidades de ver fenmenos de interesse e tentar aplicar a teoria aprendida na leitura para interpretar suas observaes. Este o
momento de gestao da pesquisa, quando ela
precisa tomar forma. Esta etapa demanda tempo e muita concentrao, esquea o estilo de
vida Fast Food quando estiver elaborando um
projeto.
As questes podem ser simples, mas as respostas podem ser muito complexas. Exemplos
de questes de pesquisa: a) Como possvel a
coexistncia de duas espcies de aranhas armadeiras muito semelhantes em uma determinada floresta?; b) Por que os dinossauros se
extinguiram?; c) Quais os motivos das notas
baixas do Brasil no exame Pisa (Programme for
International Student Assessment)? Algumas
vezes as questes surgem inesperadamente,
como quando surgem pessoas com uma doena estranha desconhecida, mas o mais comum
na atividade cientfica irmos atrs das questes. Levantar boas questes envolve a capacidade de observao e o conhecimento do referencial terico, inclusive para perceber que a
questo relevante e merece ser estudada. A
boa questo no garante uma boa pesquisa,
mas difcil imaginar uma pesquisa boa e original sem uma questo bem definida boa e original.
Nossas descries da realidade param no momento que aparecem dvidas sobre o que estamos vendo. O que pensou o primeiro bilogo
que viu clulas em um microscpio? Provavelmente foi o que so estas caixinhas?. Quando
h questes sem resposta imediata pela simples observao, criamos alternativas de res-
postas possveis e investigamos se esto corretas ou no. Estas respostas possveis so chamadas de Hipteses. Talvez a primeira hiptese
sobre as caixinhas tenha sido que eram meras
ornamentaes casuais do primeiro organismo
observado, mas esta hiptese teria cado com
as observaes posteriores de outros organismos. Em algum momento surgiu a hiptese que
as caixinhas eram uma espcie de diviso na
organizao de todos os organismos. Esta hiptese no se sustentou realmente para todos os
organismos, mas sustentou-se para os organismos pluricelulares. Hoje a teoria celular no
mais tratada como uma possvel resposta
para aquela questo, mas como um fato inquestionvel e um dos pilares da Biologia moderna.
Portanto, o que era hiptese tornou-se descrio, pois faz parte do que aceitamos como realidade.
Figura 1.3- Uma hiptese uma possvel resposta para uma questo.
Para avaliar se efetivamente ela a resposta correta, precisamos
contrastar previses exclusivas dela com os dados (evidncias).
Frequentemente a estatstica uma til ferramenta para realizar este
contraste.
Algumas vezes, uma descoberta uma evidncia factual que gera uma hiptese que ela
mesma sustenta. o caso da descoberta do
peixe primitivo chamado Celacanto em 1938 A
ideia que este peixe no estava extinto nasceu
e se comprovou no mesmo momento em que o
peixe foi identificado como um verdadeiro Celacanto. Esta foi uma das maiores descobertas da
paleontologia, em funo da posio deste peixe na filogenia dos tetrpodes. Dificilmente esta
ideia gerada da prpria evidncia seria chamada de hiptese, mas a evidncia certamente
do tipo factual, pois bastou uma observao
para termos convico da afirmao.
Uma Evidncia Factual no significa uma evidncia definitiva e verdadeira, Colombo achava
que a terra era redonda e mostrou que o mundo
no terminava em um abismo no meio do Atlntico, mas errou ao achar que tinha chegado s
ndias. Evidncias factuais, como todas as outras, dependem de premissas vlidas, isto , de
condies explicitas ou no que justifiquem a
confiana na afirmao. Ainda que estejamos
sempre sujeitos a erros, no preciso muito
esforo para encontrar inmeros exemplos de
evidncias factuais que revolucionaram a cincia e que foram utilizadas para construir nossas
certezas de muitas questes do cotidiano.
10
As evidncias so do tipo contextual principalmente nos fenmenos em que h uma dependncia espacial ou temporal importante. Nestes
exemplos utilizamos avaliaes contextuais
qualitativas, mas h casos em que so utilizadas tcnicas estatsticas mais precisas e complexas que so especficas para diferentes situaes (e. g. Geoestatstica, Anlises de sries
temporais). No abordaremos estas tcnicas,
mas dedicaremos o captulo 6 a estudos observacionais em que o cuidado redobrado com o
contexto pode permitir a utilizao de uma estatstica mais simples.
As anlises que envolvem evidncias sistmicas sempre foram importantes na cincia. Uma
dificuldade em trabalhar com evidncias sistmicas que nem sempre fcil convencer pessoas, mesmo com vrios bons argumentos. O
desenvolvimento da estatstica frequentista no
sculo XX possibilitou a criao de critrios
poderosos e objetivos de avaliao de uma
evidncia (quando a evidncia for um conjunto
de dados independentes), a ponto de influenciar o conceito do que cincia. Para muitos
iniciantes, a cincia verdadeira aquela que
envolve estudos experimentais, repeties e
testes estatsticos. O problema que nem sempre a realidade se apresenta como um conjunto
de dados independentes, como ocorre em um
laboratrio. Como usar estatstica para analisar
a revoluo francesa? A exigncia de testes
para considerarmos uma teoria como cientfica
vlida somente se utilizarmos o termo teste
com um significado mais amplo que o de teste
estatstico. Hipteses na Histria, Arqueologia,
Sociologia, Geografia Humana, Economia, Astronomia, Evoluo e outras reas predominantemente no experimentais podem ser testadas
por contraste com outras hipteses comparando
a coerncia do conjunto de cada uma delas, e
lembrando que cada conjunto deve possuir
elementos empricos envolvidos. (e. g. documentos e fatos histricos, objetos arqueolgicos, observaes de corpos celestes).
11
12
lhas de cola no centro do seu territrio de forrageio. As medidas de D e PI parecem ser equivalentes a TA e DA, mas no so idnticas e as
diferenas podem comprometer a interpretao.
Por exemplo, voc no encontra relao e considera isto evidncia contrria sua hiptese.
Entretanto, isto poderia ser um erro de escolha
de varivel operacional. Imagine que a mudana de atividade ocorresse na durao da atividade diria e no em deslocamento por hora e
os insetos capturados nas armadilhas podem
no ser as mesmas espcies da dieta do lagarto. A m escolha de variveis operacionais pode
levar a erros de interpretao sobre relaes
previstas para variveis tericas.
Binrio
(Categ. de 2)
Categrico
Ordinal ou
Quantitativo
Condio NP
Quantitativo
Condio P
Tabela de
Contingncia (TC)
(b) Graf: Se
Seo III
Mann- Whitney;
Cochrans TT (c)
Graf: Seo IV
Teste t (de 2
grupos) (d)
Graf: Seo IV
Tabela de
Contingncia (b)
Graf: Seo III
Dicotomizar VI ou
ar teste
t
VD e usar
apropriado (Max.
Balano) (g)
Kruskal-Wallis
(e)
Graf: Seo IV
Anlise de
Varincia (f)
Graf: Seo IV
Correlao de
Postos/ RNL(h)
Graf: Seo V
Correlao de
Postos/ RNL(h)
Graf: Seo V
Correlao de
Postos/ RNL(h)
Graf: Seo V
Pearson/
Regresso
Linear/ RNL (j)
Graf: Seo V
V. ind.
Binrio
(cat. de 2)
Categrico
Teste de 2 prop.,
T. Exato de
Fisher ou T.C. (a)
Graf: Seo III
Tabela de
Contingncia (b)
II
Graf: Seo III
Ordinal
Mann- Whitney;
Cochrans TT (c)
Graf: Seo VI
Quantitativo
Regresso
Logstica (i)
Graf: Seo VI
Dicotomizar VI ou
VD (Max. Balano)
(g)
2) Validao de anlise. A abordagem matemtico-estatstica escolhida realmente apropriada para a interpretao dos resultados?
Podemos errar na escolha e na forma de aplicar
testes estatsticos, mas fcil aprender a evitar
isto para as anlises mais comuns na pesquisa.
Nos captulos 4 e 5 apresentaremos as bases
conceituais para a escolha e aplicao de testes. Exemplos de erro: utilizar um teste sem
considerar suas premissas ou basear-se apenas em grficos de barras ou em propores
para concluir algo que exige um teste ou intervalos de confiana. A utilizao de testes fracos
onde testes poderosos poderiam ser aplicados
tambm um erro, embora seja menos grave
(cap. 7). A figura 1.7, tirada da apostila de prtica, simboliza esta forma de validao pela escolha correta do tipo de teste em funo da
natureza dos dados.
13
uma amostra de intenes de voto para presidente de 1000 pessoas do Amazonas e uma
amostra de 1000 pessoas bem espalhadas por
todo o Brasil. Qual delas uma amostra mais
confivel para falarmos da inteno de votos
dos brasileiros? Voc se surpreenderia se os
resultados fossem muito diferentes? Os de dentro (a amostra) so igualmente representativos
dos externos (toda a populao) nas duas
situaes? H dois tipos de Validao Externa:
Validao Externa por Representatividade.
Medidas coletivas (ou parmetros populacionais) so aquelas obtidas com um conjunto de
dados de uma varivel, como o peso mdio de
crianas recm-nascidas ou a frequncia de
intenes de votos em determinado local, momento ou situao particular. Elas geralmente
so feitas com base em amostras. A validao
externa de medidas coletivas depende basicamente de tcnicas de se obter uma amostra
representativa da populao, como no exemplo
das intenes de votos. Fala-se em Independncia Externa quando se aplica estas tcnicas
porque a representatividade anula os efeitos
tendenciosos de agrupamentos espaciais, temporais e de situao. Voltaremos a discutir representatividade no captulo 3.
Figura 1.8- Esquema de coleta simbolizando o planejamento amostral que objeto de anlise da validao
interna.
14
15
16
voc gostaria de casar, mas teme muito a possibilidade separao; qual a chance disto
ocorrer? Se voc quisesse uma avaliao do
tipo que se usa mais nas pesquisas cientficas,
voc teria que casar com ele (a) umas 30 vezes
em condies semelhantes atual e verificar a
taxa de sucesso para tomar uma deciso com o
tipo de estatstica que vamos trabalhar neste
curso. Naturalmente que isto impossvel neste
exemplo e em muitas situaes do cotidiano,
mas bem mais comum isto ser possvel na
pesquisa, especialmente em estudos experimentais.
17
18
1.4- b. Ninhos de cupins. Voc percebe que algumas espcies de cupins fazem seus ninhos no alto
de rvores enquanto outras espcies fazem ninhos
no solo com uma parte do ninho acima do solo e um
terceiro grupo de espcies fazem ninhos completamente subterrneos.
Exerccios:
1.8- Qual a diferena entre um problema de validao interna e um problema de validao externa?
19
2. Do problema biolgico ao
estatstico.
Os livros de estatstica vm com exemplos
prontos para a anlise de dados. Entretanto,
uma das maiores dificuldades dos estudantes
a transformao de problemas biolgicos (ou de
outras cincias, ou cotidianos) em problemas
estatsticos. Neste captulo, descreveremos
sucintamente a Abordagem EPR (Entidade,
Propriedade e Relao) de Macnaugton (2002)
que ajuda a transformar problemas biolgicos (e
outros) em problemas estatsticos. Macnaughton mostrou que h alguns conceitos to bsicos que passam despercebidos, e que so chaves para se compreender como se monta um
problema antes de iniciar o planejamento de
coleta de dados e para determinar quais sero
os testes mais adequados anlise dos dados
obtidos. Vejamos estes conceitos.
2.1 Entidades
Se voc prestar ateno aos seus pensamentos
cotidianos em um dado momento, provavelmente concordar que estamos pensando sobre
diversos tipos de coisas. Por exemplo, neste
minuto voc poderia estar pensando em um
amigo ou em um compromisso que tem marcado para a tarde. Estas coisas so exemplos de
entidades (Fig. 2.1).
Existem muitos tipos de entidades: Objetos
fsicos reais simples (montanhas, automveis,
lagos, pessoas, rvores) ou coletivos (cadeias
de montanhas, florestas, alcateias, turma de
alunos; populao; conjunto de elementos em
um grupo, espcie biolgica); Objetos imaginrios (fadas, universos paralelos, teorias, conceitos); Processos/aes (um experimento, uma
reao qumica, uma reunio, um beijo; uma
viagem, a fora necessria para levantar certo
objeto). Cada tipo de entidade uma categoria
que nomeia diversas entidades unitrias (montanha 1, montanha 2, etc.)
20
2.2 Propriedades
Cada tipo de entidade tem associado a ela uma
gama de atributos ou propriedades (Fig. 2.2).
Carros tm peso, cor, marca e ano de fabricao. rvores tm altura, nome da espcie, posio em um mapa. Bandos de passarinhos tm
um nome da espcie, um nmero de indivduos,
uma razo sexual. Cada entidade tem um valor
para cada propriedade (no existe carro sem
peso, podemos at no saber o valor, mas ele
existe).
Propriedades tambm so chamadas de aspectos, atributos, caractersticas, fatores, qualidades ou tratamentos. Os nomes das propriedades geralmente so substantivos que nomeiam
qualificadores (localizao, cor, beleza, idade,
velocidade, quantidade, valor de pH). As propriedades tambm podem ser aes realizadas ou
sofridas (ou no) por uma entidade. Por exemplo, tomar chocolate (sim ou no) propriedade na frase fulano tomou chocolate. Os nomes
de propriedades tambm podem ser abreviaes de aes. Por exemplo, a propriedade
tomou chocolate (s/n) torna-se apenas Chocolate (s/n).
Os valores das propriedades so adjetivos
(vermelho, velho, rpido, grande, brasileiro,
estudioso), advrbios (aqui, agora, longe, mal,
sim, no, talvez, muito, pouco), numerais com
funes quantitativas, ordinais ou de rtuloplanta no 135 e datas), s vezes smbolos
(,, ou O+), e at substantivos. Quando os
valores so substantivos, eles tm funo qualificadora, isto , tem papel de adjetivo. As propriedades origem, local de formao e espcie
para a entidade pessoa tem os valores Brasil,
USP e Homo sapiens que substituem os adjetivos brasileiro, Uspiano e humano. Como vimos na seo anterior, a espcie Pitangus sulphuratus um substantivo, mas faz parte da
funo qualificadora na expresso aps o verbo
na frase este pssaro da espcie P. sulfuratus.
21
de resultados.
Tamanho
Fmeas
22
A relao entre duas variveis pode ser obscurecida ou confundida pela existncia de outros
fatores (conhecidos ou no) influenciando nos
valores da varivel resposta, por isto, um dos
desafios em um estudo conseguir estabelecer
23
O primeiro passo no estudo das relaes bivariadas (e multivariadas em geral) montar uma
tabela EPR. Comece com a hiptese (e. g. a
ingesto de chocolate causa espinhas), passe
para uma previso com uma varivel preditora
(tomou chocolate- sim/no) e uma varivel
resposta (nmero de espinhas). A entidade
inicialmente algum ou algo a quem estas
propriedades podem ser atribudas, no caso,
pessoa (pessoa 1, pessoa 2, etc.). Faa uma
coluna para numerar as entidades (opcional),
24
planilhas EPR podem ser utilizadas para analisar a mesma previso (embora no seja exatamente a mesma quando as entidades so
diferentes).
Pense em problemas prticos. Neste lago pegaremos bastante peixe? Este paciente ser curado? A plantao produzir mais se plantarmos
em abril ou se esperarmos at setembro? Neste
local encontraremos cobras venenosas? Se no
sabemos as respostas (pois no temos uma
mquina de viajar no tempo ou um orculo) e
no podemos esperar o futuro para tomar decises, o que fazer? Se conseguirmos identificar
relaes entre variveis, podemos fazer previses. Se soubermos que lagos de gua branca
sempre tem muito peixe, e que um determinado
lago tem gua branca, ento podemos prever
que provavelmente haver muito peixe nele. Se
soubermos que pessoas que tm temperatura
alta geralmente esto com infeces, e que
uma determinada substncia controla infeces,
podemos predizer que ela provavelmente ter
diminuio na febre e se sentir melhor se tomar esta substncia. Esta ao aparentemente
banal de estabelecer relaes um dos pilares que sustenta a cincia. A explicao outro
objetivo da cincia, mas se pensarmos bem, ela
est intimamente ligada ao estabelecimento de
relaes.
Algumas hipteses envolvem apenas uma varivel, o que implica em uma coluna na planilha
EPR. Considere a hiptese a resistncia de
peixes ornamentais ao transporte influenciada
pelo sexo do peixe. Podemos testa-la com a
previso que partindo de uma populao de 50
machos e 50 fmeas, a proporo de fmeas ao
final ser maior. Sobrevivem 25 machos e 40
fmeas, que uma diferena estatisticamente
significativa. A forma de determinar isto ser
abordada no captulo 5, o que nos importa agora que a concluso baseia-se apenas na varivel sexo (a entidade peixe). H hipteses
com varivel preditora e varivel resposta que
utilizam testes univariados (testes pareados).
Considere a hiptese: a agilidade de adultos do
sexo masculino diminui aps a ingesto de apenas uma lata de cerveja. Sua previso que
a velocidade na execuo de certa tarefa complexa menor depois da ingesto de uma lata
de cerveja. Ento voc mede a diferena de
velocidade antes e depois da cerveja para vrias pessoas. Repare que sua anlise vai se
basear apenas em uma varivel, a diferena de
velocidade, mas h uma varivel preditora im-
25
Exerccios:
2.1- Cite exemplos originais de entidades do tipo
objeto fsico, do tipo entidade coletiva e do tipo processo, com duas propriedades inerentes a cada tipo
de entidade.
2.12) Escolha uma relao para explicar dificuldades com validao da medida, validao
interna e validao externa.
2.8- De um exemplo original de uma relao proximal e uma final para explicar o mesmo fenmeno.
26
3. Confiana na medida e
independncia
Neste captulo abordaremos: a) a incerteza em
medidas de valores individuais em funo da
forma de atribuir uma categoria ou da falta de
preciso ou de acurcia em instrumentos ou
procedimentos de medida; b) a variao natural
em valores quantitativos na forma de distribuies de frequncias; c) a incerteza na estimativa de parmetros populacionais e d) a importncia da independncia entre unidades amostrais na estimativa de parmetros populacionais. Para discutir estes assuntos sero apresentados alguns termos.
Tamnho da aranha(mm)
Phoneutria reidyi
25
20
v
?
15
10
5
0
Abr
Ago
Ms da coleta 2001/2002
Figura 3.1- Neste grfico EPR h seis nveis na varivel Ms da coleta, 19
nveis na varivel Tamanho da aranha e trs nveis na varivel Sexo.
27
Ordinais: Existe uma sequncia ordenada relevante entre os nveis na anlise. A diferena
entre um nvel e o prximo de posio apenas, no h uma quantificao. Por exemplo,
no podemos saber se o segundo lugar em uma
corrida chegou mais prximo do primeiro ou do
terceiro apenas com a posio da chegada.
Outros exemplos: abundncia na escala nula,
rara, intermediria, comum ou muito comum;
vento na escala fraco, moderado, forte, violento
e furaco; notas na escala A, B, C, D ou reprovado; idade na escala filhote, jovem pr
reprodutivo, adulto novo, adulto velho; tipo de
solo na escala arenoso, intermedirio arenoso,
intermedirio argiloso ou argiloso. Voc pode
usar nmeros nestas escalas, mas preciso
lembrar que estes nmeros no so quantidades.
Quantitativas: Variveis quantitativas possuem
valores numricos que efetivamente representam quantidades. No so variveis quantitativas aquelas que possuem valores numricos
que representam apenas ordem ou rtulo de
uma categoria.
Muitos livros de estatstica dividem a escala
quantitativa em duas: Razo e Intervalar. Esta
separao envolve um detalhe matemtico que
raramente relevante para o uso das tcnicas
estatsticas que abordaremos, de forma que no
a utilizaremos. Outra separao comum na
escala quantitativa entre nmeros contnuos
(nmeros Reais) e descontnuos (nmeros
Inteiros). A questo da continuidade relevante
porque os saltos dos nmeros entre nveis
podem exigir ajustes nos clculos estatsticos.
como se fossem buracos na estrada de nossos
28
29
Por serem interpretaes, as atribuies nominais e ordinais sempre esto sujeitas a erros,
como na identificao de uma espcie, na determinao de qual doena um paciente teve,
ou no sentido de um sim no pargrafo anterior.
importante definir cuidadosamente os critrios
de atribuio, principalmente quando a subjetividade pode ter um papel importante na deciso
de valor. Em muitos estudos de comportamento,
importante se detalhar o significado de categorias de comportamento utilizadas para permitir comparaes (etograma). Se voc chamar de
comportamento agressivo apenas quando
animais efetivamente lutam, vai considerar o
comportamento mais raro do que outra pessoa
que considere qualquer demonstrao de agressividade.
30
possvel que o aparelho est descalibrado. Neste caso, talvez seja bom ir ao hospital e obter
uma medida confivel. Se o hospital confirmar a
presso alta, pelo menos voc sabe que pode
confiar na acurcia do aparelho para as prximas medidas.
31
A medida da acurcia til para corrigir distores pela calibragem. Em equipamentos, como
vimos acima, comum haver padres para a
calibragem, mas ocasionalmente precisamos
calibrar procedimentos de outras formas. Imagine que voc tivesse que estimar visualmente
tamanhos de jacars distncia. Neste caso,
voc pode calibrar esta capacidade estimando
tamanhos de objetos semelhantes a jacars
(como troncos) distncia e depois verificar
como est se saindo medindo os objetos com
uma trena. Se tiver tendncia a superestimar o
tamanho, reduza suas estimativas e se tiver
tendncia a superestimar, aumente as estimativas. Se puder capturar jacars, conveniente
repetir a avaliao para melhorar a sua capacidade de estimar. Ningum consegue acertar
precisamente todas as medidas, mas voc pode
se considerar calibrado quando a quantidade
de subestimativas semelhante quantidade
de superestimativas.
A preciso costuma ser medida pelo seu inverso, a disperso dos valores (Fig. 3.4-2). Quanto menor a preciso, mais dispersos sero os
32
Quadro 3.1- A mdia aritmtica (1) um parmetro populacional utilizado em clculos de muitas medidas paramtricas.
Quando estimada com base em uma amostra, ela geralmente
simbolizada com um X ou um Y com uma barra encima. O
Desvio Absoluto Mdio (2) uma medida simples e intuitiva
de disperso. O Desvio Padro (3) uma medida bem mais
utilizada, com a mesma essncia do DAM. A frmula de DP
apresentada utilizada quando o determinamos com base em
uma amostra, que a situao mais comum. N= Tamanho
amostral; xi= cada valor registrado na amostra; = smbolo
matemtico de somatrio que significa que deve se somar os
termos a seguir na frmula. Curiosidade matemtica: a estatstica paramtrica utiliza estimativas inicialmente tendenciosas
que necessitam ajustes. o caso do desvio padro da amostra
com seu denominador (N-1). Por que no calculamos a mdia
dos desvios elevados ao quadrado com o denominador N? De
fato, no clculo de um desvio padro de um conjunto completo
de dados o denominador N. O problema que para determinar o desvio padro populacional com base em uma amostra
estaremos subestimando a disperso com o denominador N,
porque nossa mdia no a mdia real, mas uma estimativa
que necessariamente mais central ao conjunto de dados em
questo. Ao dividir por (N-1) temos um valor mais aproximado do DP da populao.
33
34
35
Figura 3.8- Quando temos uma distribuio normal, podemos determinar com base na mdia e no desvio padro
(DP), como os dados se distribuem e a proporo a cada
intervalo entre um, dois e trs desvios padres acima e
abaixo da mdia.
Os parmetros de variveis quantitativas envolvem contagens, como o nmero mdio de clulas brancas por campo em uma lmina de sangue, ou medidas contnuas, como o desvio
padro no tamanho (em m) de indivduos de
uma populao de Artemia salina. Note que as
contagens neste tipo de parmetro no so de
unidades amostrais, mas de algo que est em
cada unidade amostral. No exemplo da lmina
36
Nas sees anteriores vimos medidas de disperso como o Desvio Padro e a Amplitude do
Intervalo Interquartil. Se a impreciso da medida
for pouco relevante em relao variao natural, estas medidas tambm so parmetros
populacionais (quando toda a populao foi
amostrada), ou estimativas de parmetros populacionais (quando o clculo foi feito por uma
amostra), pois a variao uma caracterstica
de uma populao.
37
38
10
:0
0
09
:0
0
08
:0
0
07
:0
0
06
:0
0
05
:0
0
los de confiana. As mais utilizadas para o parmetro mdia tm sido o Erro Padro (Quadro
3.2) e uma estimativa paramtrica do Intervalo
de Confiana da Mdia (ICM) de 95% (ou
IC95% da mdia) calculada a partir do valor do
erro padro. importante no confundir o erro
padro com o desvio padro. O desvio padro
uma medida de disperso de valores da populao; uma caracterstica desta populao que
ganha preciso quanto maior a amostra usada
para estim-lo. O erro padro um intervalo de
confiana da mdia (equivale a um IC68%) que
diminui quanto maior for o tamanho da amostra
utilizada na estimativa. Sempre que usar um ou
outro obrigatrio explicitar de qual se trata.
O erro padro e o intervalo de confiana paramtrico so simtricos acima e abaixo da media. Este um dos problemas desta forma de
calcular intervalos de confiana que fica claro
no exemplo da figura 3.8. Note que foi omitida a
parte negativa do intervalo de confiana no
horrio 10:00hs. Isto foi feito porque sabemos
que no existe quantidade negativa de nctar.
Quando a distribuio de frequncias muito
assimtrica, como ocorreu neste exemplo, medidas paramtricas de intervalos de confiana
devem ser evitadas.
Quadro 3.2- Clculo paramtrico do Intervalo de Confiana IC95% da mdia. O clculo do Desvio Padro foi apresentado no Quadro 3.1.
39
Quadro 3.3- Determinao de Intervalos de Confiana pela tcnica de Reamostragem chamada Bootstrap. Funciona
como se o computador clonasse os dados vrias vezes, recriando algo semelhante populao original (como os
nmeros na tabela acima). Tendo esta populao, o computador retira uma amostra do mesmo tamanho amostral da
amostra inicial (representada em destaque na tabela) e calcula o valor do parmetro (e. g. a mdia). Depois repete o
processo muitas vezes (e. g. 1000 vezes), obtendo repeties de estimativa do parmetro. Ento retira uma porcentagem
dos valores extremos (e. g.. 5% para obter um IC95%) e obtm os limites do Intervalo de Confiana.
40
41
42
43
44
45
Administrar projetos de pesquisa uma atividade complexa, de forma que no podemos ignorar custos, tempo, praticidade e questes logsticas na determinao da preciso e acurcia
que ser utilizada. importante conhecer ideais
metodolgicos (e. g. medidas precisas e no
tendenciosas, tamanhos amostrais grandes,
amostragens aleatrias, etc.), mas estes ideais
no so leis metodolgicas absolutas, so apenas diretrizes que devem ser levadas muito a
srio. Acontece que h limites logsticos, fsicos
e morais que ocasionalmente nos impedem de
medir e coletar dados da forma ideal. essencial entender a diferena entre um comportamento cuidadoso para evitar interpretaes
equivocadas e uma paranoia metodolgica (seo 1.5). Um treinamento metodolgico no
pode te proibir de agir nestas condies, mas
ensinar como redobrar o cuidado quando for
necessrio. No existe uma nica metodologia
correta, existem metodologias apropriadas (ou
no) considerando o contexto e as alternativas
disponveis para resolver um problema.
Vamos abordar situaes concretas. necessrio diferenciar trs situaes nas medidas individuais: a) quando h uma deciso importante a
46
Como vimos na seo 3.6, a acurcia na medida de um parmetro maximizada quanto melhor a representatividade amostral. Se a amostragem aleatria no possvel, o que muito
comum, procure o mtodo de coleta que mais
se aproxima daquilo que voc esperaria obter
em uma amostra que fosse aleatria. H muitas
formas sistemticas de coletar os dados que
permitem obter amostras representativas. Tambm h formas de analisar os dados para obter
resultados mais representativos (e. g. a mdia
ponderada). Se nada disto for possvel, procure
coletar amostras o mais distante possvel dentro
47
48
Exerccios:
1) O que so escalas de medida? Apresente um
exemplo original de cada uma delas.
2) Faa um grfico EPR com trs nveis de medida ordinais no eixo x e com cinco nveis quantitativos no eixo Y. Represente 20 entidades
neste grfico.
49
Chamaremos a hiptese emprica que queremos testar de hiptese de trabalho. Como vimos
na seo 1.3, uma hiptese (de trabalho) emprica uma afirmao que tem consequncias
empricas constatveis. O teste de uma hiptese baseia-se justamente na deduo de previses desta hiptese e na verificao que as
previses realmente ocorrem. Parece fcil, mas
tem dois problemas.
O primeiro problema que observar qualquer
coisa que a hiptese prev no evidncia
suficiente para provar que a hiptese est correta. As previses para testes precisam definir
condies especiais para reduzir incertezas ao
mnimo. A fase dedutiva do mtodo hipottico
dedutivo termina na previso; mas o que vem
depois? A prova emprica baseia-se na coerncia entre previso e evidncia e na excluso por
julgamento de grau de razoabilidade (qualitativo-sistmico) e/ou clculo de razoabilidade
(probabilidade) de todas as outras possibilidades de se obter esta mesma evidncia. Este
ser o assunto na maior parte do captulo.
50
51
Ainda h uma hiptese a considerar: as formigas poderiam ter conseguido retornar por sorte.
Poderiam ter andado a esmo pela rea e por
acaso encontrado a pequena abertura do formigueiro. Entretanto, procure imaginar a situao,
no eram 2m ou 10 m, eram 100 m. uma
distncia enorme para as formigas andarem ao
acaso e encontrarem o formigueiro apenas por
sorte. Seria muito mais provvel que elas
simplesmente se perdessem se no tivessem orientao. A hiptese de terem encontrado ao acaso to improvvel que
pode ser tranquilamente descartada.
Para aprofundar a ideia do mtodo hipottico dedutivo, vamos representa-la de
forma mais visual (fig. 4.2) e vamos ver as
partes envolvidas. A hiptese de trabalho
tem uma posio central no processo, o
que natural, porque ela que est sendo
testada e dela que partem as previses
que sero utilizadas. Vemos no esquema
que existem vrias hipteses que poderiam competir com ela como explicaes
alternativas para o que se encontrou como
evidncias. No so hipteses de interesse
prprio de pesquisa, por isto utilizamos as
aspas, so antes possibilidades que preci-
52
de hipteses de trabalho se baseiam na probabilidade de hipteses concorrentes. Algo improvvel algo raro, mas no algo impossvel,
seno nem seria testado. O problema que a
observao ou um resultado raro no prova
nada se no soubermos quantas outras observaes ou testes foram feitos para se chegar a
este resultado raro. Vamos entender isto analisando dois exemplos.
Podemos analisar cientificamente se pessoas
com alegadas capacidades extrassensoriais
podem ajudar na soluo de crimes? Claro que
sim. Chame a pessoa que diz ter estes poderes,
escolha um crime no resolvido aleatoriamente
e pea para ela predizer com preciso onde
est um corpo desaparecido. Se ela conseguir
prever que o corpo est enterrado do lado do
terceiro pinheiro esquerda da caverna do urso, pode contrat-la. Algum dir: Por que
perder tempo com este teste se j h vrios
registros confiveis de pessoas que previram
coisas que resolveram crimes; estes registros
no bastam para provar a existncia da mediunidade? O problema que estes registros no
teriam se tornado registros se a adivinhao
no fosse correta, teriam cado no esquecimento, de forma que no sabemos a taxa de fracasso. Imagine que milhares de pessoas fazem
centenas de previses ousadas. Fatalmente
algumas destas previses sero corretas. Por
isto, no basta te mostrarem alguns registros
impressionantes, isto no prova nada. No d
para confiar porque sabemos que houve uma
inflao de testes. Nossa estatstica intuitiva
fraca para lidar com alguns tipos de clculos de
probabilidade e h coisas em que queremos
acreditar ignorando o razovel. Por que pessoas com alegadas capacidades extrassensoriais
nunca decidem quebrar a banca dos cassinos
ao invs de tentar nos convencer dos seus poderes? Tomamos decises com base em probabilidades isoladas, mas tudo muda quando
temos muitos testes. As observaes do passado so teis para levantar hipteses (e. g. de
possveis mdiuns), mas devem ser vistas com
muita desconfiana como provas se no tivermos informaes adicionais suficientes.
53
Na bolsa de valores h corretores que so considerados geniais com base na proporo das
aes que eles recomendaram e que tiveram
lucros excepcionais, e eles so contratados com
salrios milionrios. Ser que eles valem estes
salrios ou so simplesmente os ganhadores na
loteria das bolsas? Estudos mostraram que,
depois dos sucessos excepcionais, estes corretores brilhantes no tinham mais sucesso que
corretores medianos. No percebemos isto
porque nossas convices que o sucesso est
ligado competncia so to fortes que nos
cegam para perceber que muitas vezes o sucesso fortemente influenciado pelo acaso.
Resultados extremamente positivos so evidncia de competncia, mas a evidncia torna-se
fraca se o nmero de tentativas for elevado.
Achamos que alguns corretores so brilhantes
com base em seus resultados extremamente
positivos porque esquecemos que h milhares
de corretores realizando milhes de operaes
durante anos.
com
A inflao de testes certamente principal causa de falsas evidncias no intencionais publicadas na cincia. Trata-se de um problema real
que no recebe a ateno devida em cursos de
metodologia. A principal forma de anulamos ou
minimizamos a hiptese da inflao evitar o
teste de hipteses irrelevantes e sem
uma justificativa. A hiptese da inflao de teses um complemento da
hiptese do acaso. Se voc ficar testando muitas possibilidades, voc vai
distorcer no conjunto o significado de
cada teste individual. Uma pesquisa
no precisa se restringir a uma hiptese de trabalho. Pode haver vrias
questes e hipteses envolvendo o
tema em estudo, mas importante
restringir os testes a hipteses relevantes para no escolher apenas os resultados significativos. Voltaremos a este
assunto quando abordarmos testes
mltiplos no captulo 7.
Figura 4.3- Evidncias favorveis hiptese de trabalho no tem validade
se no houve procedimentos apropriados.
54
o autor reescrever com mais detalhes para eliminar esta potencial varivel de confundimento.
Se o erro de fato ocorreu, o pesquisador provavelmente teria de refazer a coleta. O pesquisador competente descarta estas hipteses de
erro procedimental planejando bem seu estudo
e o conduzindo com seriedade e depois defende que fez isto explicando tudo que for relevante para o avaliador poder concluir que realmente
o procedimento foi vlido.
55
56
tativa. Se uma hiptese de trabalho estiver certa, quanto mais informao obtiver, maior ser o
acmulo de informao contrria hiptese do
acaso. importante entender este conceito, que
a base do processo de rejeio do TSHN.
(No se preocupe com as frmulas matemticas
que eventualmente apaream no texto, como na
Tab. 4.1 e no Quadro 4.1, mais importante
entender o processo.). Repare que no estamos calculando a probabilidade dela ter a
habilidade, mas dos dados apoiarem a hiptese que ela tem quando na realidade no
tem.
Nmero de acertos
seguidos
1
2
3
4
5
6
7
8
9
10
Probabilidade
0.5
0.25
0.125
0.0625
0.03125
0.015625
0.0078125
0.00390625
0.001953125
0.000976563
57
Suponha que tenhamos realizado o experimento com 8 rainhas jovens e tenhamos obtido 5
(62,5%) que escavaram em solo argiloso e 3
(37,5%) que escavaram em solo arenoso. O
esperado, supondo que no haja preferncia
por solos, seria que 50% das formigas escavariam em solo arenoso e a outra metade em solo
argiloso. O resultado obtido foi na direo da
previso da hiptese de trabalho. O problema
que esta diferena tambm compatvel com a
hiptese nula. No quadro 4.1 realizamos o clculo de probabilidade para a mesma diferena
percentual com tamanhos amostrais diferentes.
O que vemos que a probabilidade de se obter
a mesma proporo de formigas escavando em
solo argiloso sem ter escolhido este solo (isto ,
ao acaso) vai diminuindo at valores absurdamente improvveis. E quando a probabilidade
do resultado ocorrer ao acaso muito pequena,
ela descartada.
No existe um valor mgico universal que separe meros indcios de evidncia segura, a ideia
de definir um valor que regras objetivas precisam ser definidas antes do jogo (o termo tcnico a priori). O valor limite pr-determinado
de probabilidade abaixo do qual se rejeita a
hiptese nula chamado Nvel de Significncia, e representado pela letra grega (alfa).
Os valores mais utilizados so 0,05; 0,01 e (raramente) 0,001, dependendo do grau de rigor
que se quer assumir. Algo parecido acontece
quando determinamos a nota mnima abaixo da
qual reprovamos o aluno, que pode ser 5, 6 ou
7. Ao escolher um nvel de significncia voc
est definindo sua chance de errar, ou melhor,
voc est definindo qual tipo de erro voc est
mais disposto a aceitar. isto que ser explicado adiante.
Quadro 4.1 Probabilidade calculada pelo mtodo 2com base no obtido (O)
o esperado central (E). .
58
Um assassino solto algo ruim e deve ser evitado. Entretanto, um inocente preso por assassinato algo mais grave. Por que assumir que a
inocncia de uma pessoa tem prioridade sobre
o risco para resto da populao? Parece estranho, mas esta foi a concluso de um longo processo civilizatrio. Acontece que crimes costumam deixar pistas e bom lembrar que um dia
poderamos ser ns mesmos em um banco de
rus. Enfim, a regra que toda pessoa deve ser
considerada inocente at que haja uma evidncia realmente convincente de que ela culpada.
Entretanto, por melhor que seja a justia, ela
nunca ser perfeita e h quatro resultados possveis em um julgamento: 1) podemos mandar
prender uma pessoa inocente (injustia);
2) Podemos mandar prender um assassino;
3) Podemos libertar uma pessoa inocente e
4) podemos libertar um assassino (impunidade).
A tabela 4.3 resume estas possibilidades.
Basicamente, queremos evitar erros. Uma forma de evitar erros de deciso obter mais informao relevante. H tcnicas (subutilizadas)
de amostragem at atingir critrios de deciso
(e. g. amostragem sequencial). Entretanto, o
mais comum que a informao seja limitada
(por tempo, dinheiro ou porque todas as pistas
foram exaustivamente exploradas). A forma de
agir neste caso depende da prioridade que damos em evitar o Erro Tipo I e em evitar o Erro
Tipo II. Ao assumir como premissa a inocncia
do ru, estamos dando prioridade em evitar o
Erro Tipo I. A nica forma de evitar o Erro Tipo I
de forma absoluta seria decidir pela inocncia
sem julgamento e independente de provas, o
Inocente
Culpado
Realidade
Deciso
H0 Verdadeira
H0 Falsa
Culpado
Injustia
Deciso
Correta
Rejeita H0
Erro tipo I
Deciso
Correta
Inocente
Deciso
Correta
Impunidade
Aceita H0
Deciso
Correta
Erro tipo II
Realidade
Deciso
59
Suponha que a probabilidade de um falso positivo em um exame de AIDS tenha sido estabe-
60
61
das em conta.
Evidncia contra Ho
Muito Forte
Forte
Mdia
Nvel de aprendizado
a) Peso da evidncia
contra a Hiptese Nula
b) Analogia
(prova de 100 questes de
Verdadeiro ou Falso)
Muito Alto
Alto
Mdio
0
Negativo?
50%
100%
Erros
0
Negativa?
0.05
0.001 0.01
0.5
Figura 4.3 A probabilidade calculada em um teste estatstico serve como medida do peso da evidncia contrria Hiptese Nula. Quanto menor o valor de P, maior a evidncia contrria Hiptese Nula. Valores intermedirios de P indicam situao indefinida e valores muito altos so estranhos. Ver a explicao no
texto com uma analogia com uma prova com alternativas do tipo verdadeiro ou falso.
62
que em P=0,04.
bm a forma mais natural para apresentar resultados que utilizam tcnicas de reamostragem,
como o Bootstrap (seo 3.6). A terceira vantagem que mais fcil se realizar um teste de
hipteses de trabalho de semelhana.
63
clnicas e tem em mos um resultado com nveis elevados de uma substncia que indica
uma doena muito grave, como Cncer ou
AIDS, mas os nveis no so to elevados a
ponto de ter certeza. Se voc apresentar o resultado como positivo e for um falso positivo, a
pessoa passar por uma angustia profunda
para depois descobrir que no tinha a doena.
Por outro lado, se apresentar o resultado como
negativo, pode estar adiando a chance da pessoa se tratar e ter uma sobrevida mais longa e
melhor ou at uma cura. O que fazer? Nesta
situao, a ao em caso de Sim (iniciar o
tratamento) diferente da ao no caso de
No (liberar o paciente), que tambm difere no
caso de Talvez (realizar mais exames).
64
doenas, muitas vezes se realiza repete exames de outra natureza para avaliar um sintoma
complementar da mesma doena. No caso do
aa, importante investigar outras possibilidades de contgio. Se a coleta de dados for da
mesma natureza, a hiptese nula pode acabar
sendo aceita aps uma coleta exaustiva, considerando que j deveria ter sido rejeitada se
fosse falsa.
S possvel se definir quantos dados precisamos coletar para considerar uma coleta suficientemente exaustiva para dar um veredito
No se tivermos um valor de efeito mnimo
de referncia. Por exemplo, digamos que voc
queira saber o efeito de uma substncia sobre a
presso sangunea de ratos. Se a substncia
aumentar a presso da grande maioria dos
ratos, ter rejeitado a hiptese nula. Se no
obtiver nenhuma diferena significativa (isto ,
alm do que esperamos ao acaso), aceitar a
hiptese nula. No entanto, no pode dizer que
no haja efeito, pois ele pode ser to sutil que
no pde ser detectado com o tamanho amostral do experimento. Por outro lado, se voc
perguntar se existe um efeito de aumentar pelo
menos 10% a presso sangunea, e tiver algumas informaes sobre os dados, ento poder
calcular o tamanho amostral necessrio a partir
de uma probabilidade de Erro Tipo II (ou Beta,
) pr definida por voc.
g) Efeitos colaterais
Em algumas situaes, particularmente no desenvolvimento de remdios, alimentos ou produtos que possam oferecer riscos ambientais ou
sade humana, temos de ir alm das consideraes sobre o erro tipo I e tipo II. Imagine uma
substncia com potencial para diminuir os enjos durante a gravidez. Podemos testar estatisticamente se o remdio efetivo fixando o erro
tipo I e at o erro tipo II, definindo um tamanho
amostral apropriado com base em coletas preliminares. Esta anlise permitir que se defina
dentro dos critrios discutidos neste captulo se
o remdio efetivo ou no para reduzir o enjo.
Entretanto, este teste s avalia o enjo, no
garante que este remdio no tenha contra
indicaes. Um remdio chamado Talidomida
foi usado na dcada de 1960 contra enjo na
gravidez e causou malformaes em muitos
bebs.
65
Exerccios
4.1- A lgica dos testes de hipteses um assunto mais amplo do que a utilizao de clculos estatsticos em testes de hipteses. Explique.
4.2- Qual o risco da inflao de testes e como
ele pode ser evitado?
4.3- Quais hipteses costumam ser descartadas por procedimentos preventivos durante um
planejamento experimental?
4.4- Como descartada a hiptese do acaso? Utilize na sua resposta os conceitos de
a) Hiptese Nula; b) Probabilidade calculada;
c) Nvel de significncia ().
4.5- Por que precisamos de um nvel de significncia em um processo de deciso.
66
Tabela 4.2 Anlise e ao em diferentes situaes em funo do custo do Erro Tipo I (falso positivo) e do Erro Tipo II
(falso negativo) e do nmero de etapas de coleta de dados. As formas de analisar os dados mais comuns na pesquisa
esto em destaque.
Alto ou Mdio
Baixo
Baixo ou mdio
Muito Alto ou
Alto
Mdio
Mdio
Custo
Falso
Negativo
Baixo
Muito Alto
Custo
Falso
Positivo
Tempo
Exemplo
Anlise e Ao
nico
Poucas Etapas
67
68
V. dep
Binrio
(Categ. de 2)
Categrico
Ordinal ou
Quantitativo
Condio NP*
Quantitativo
Condio P*
Tabela de
Contingncia (TC)
(b) Graf: Seo III
Mann- Whitney;
Cochrans TT (c)
Graf: Seo IV
Teste t (de 2
grupos) (d)
Graf: Seo IV
Tabela de
Contingncia (b)
Graf: Seo III
Dicotomizar VI ou
VD e usar teste
apropriado (Max.
Balano) (g)
Kruskal-Wallis
(e)
Graf: Seo IV
Anlise de
Varincia (f)
Graf: Seo IV
Correlao de
Postos/ RNL(h)
Graf: Seo V
Correlao de
Postos/ RNL(h)
Graf: Seo V
Correlao de
Postos/ RNL(h)
Graf: Seo V
Pearson/
Regresso
Linear/ RNL (j)
Graf: Seo V
V. ind.
Binrio
(cat. de 2)
Categrico
Teste de 2 prop.,
T. Exato de
Fisher ou T.C. (a)
Graf: Seo III
Tabela de
Contingncia (b)
Graf: Seo III
Ordinal
Mann- Whitney;
Cochrans TT (c)
Graf: Seo VI
Quantitativo
Regresso
Logstica (i)
Graf: Seo VI
Dicotomizar VI ou
VD (Max. Balano)
(g)
69
Freqncia relativa
1.0
Normal
0.8
0.6
0.4
0.2
0.0
Freqncia relativa
1.0
0.8
Poisson
0.6
0.4
0.2
0.0
10
12
70
40
Resistncia
30
20
10
AB
Tipo Sangneo
71
10
V. Dep. Quant
10
9
8
7
6
5
-1
10
0.5
1.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
1.5
2.0
2.5
3.0
3.5
-1
-2
0.0
-2
5
0.0
Resduos de Y em X
Resduos de Y em X
Tendncia retilinear
Repare que os resduos esto homogeneamente distribudos ao longo do eixo da varivel preditora. Um desvio de normalidade ocorre quando aplicamos um modelo retilinear a uma relao que na realidade curvilinear (figura 5.4).
Repare que os resduos no se distribuem homogeneamente ao longo do eixo da varivel
preditora, inicialmente eles so muito altos,
depois muito baixos e ao final muito autos novamente. (*usamos o termo retilinear porque o
termo linear no se restringe a modelos com
uma reta; vrios modelos curvilineares tambm
entram nesta categoria segundo Zuug et al
2009)
72
Var. Dependente
Resistncia
30
20
20
10
0
0
Var. Independente
10
AB
Tipo Sangneo
Figura 6Heterogeneidade de varincias da varivel resposta entre nveis quantitativos da varivel preditora.
A condio de nmero de nveis efetivos suficiente uma extenso da premissa de normalidade. Se houver menos que cinco nveis efetivos na varivel resposta, ento o salto de um
nvel para o outro proporcionalmente grande,
igual ou maior que 20% da amplitude (diferena
entre o menor e o maior valor). Portanto, no se
pode falar em uma curva normal, o mximo
uma escada normal, e estamos forando o
nosso algoritmo paramtrico devido descontinuidade dos valores. Por isto, quando voc tiver
seis nveis efetivos ou menos na varivel resposta, deveria utilizar um teste no paramtrico.
Quando voc tiver 10 ou mais nveis efetivos,
ento, dependendo das outras premissas, poder utilizar um teste paramtrico.
Homogeneidade de varincias. Tambm
chamada de homocedasticidade, a homogeneidade (ou similaridade) de varincias da varivel
resposta entre nveis da varivel preditora
73
Tamanho
15
10
Sexo
74
VARIVEL Y
vas, a distribuio dos dados deveria ser aproximadamente homognea ao longo do eixo x.
Se dividirmos os dados da varivel quantitativa
em 3 a 5 intervalos, a quantidade de dados em
cada um deles no deve ser muito diferente.
O balano algo que podemos controlar facilmente em situaes experimentais. Em situaes no experimentais em que temos possibilidade de coletar bastante, podemos estratificar
a amostra de forma a obter balano (e. g. coletar 10 indivduos de cada espcie, tanto das
comuns como das raras). Entretanto, quando h
poucos dados, podemos ter dificuldade para
obter balano. Imagine que as aranhas do exemplo acima fossem fsseis raros, como obter
mais fmeas se so to raras?
15
10
10
15
VARIVEL X
20
25
75
Exerccios
5.1- Represente com um grfico EPR uma situao
com uma varivel preditora com 4 nveis efetivos
ordinais (no quantitativos) e uma varivel resposta
quantitativa com mais de 10 nveis efetivos e forte
diferena na varincia entre os nveis.
5.2- Represente com um grfico EPR uma situao
com varivel preditora binria em que um dos nveis
apresenta uma distribuio de dados claramente
discrepante de uma distribuio normal e o outro
nvel com uma distribuio claramente compatvel
com uma distribuio normal com 10 entidades em
cada nvel.
5.7 Contrastes
76
5.7- Represente com um grfico EPR uma situao com uma varivel preditora com 4 nveis
categricos (no quantitativos ou ordinais) e
uma varivel resposta quantitativa com mais de
10 nveis efetivos. Neste grfico deve haver um
forte desbalano (>50%) entre o nvel mais representado e o menos representado na varivel
preditora.
5.8- Quais as premissas dos testes paramtricos apresentadas neste captulo e qual teste
paramtrico pode ser realizado sem homogeneidade de varincias entre os nveis das variveis preditoras.
77
6. Planejamento Amostral
6.1 Independncia
amostrais
No caso de perguntas sobre relaes, que envolvem duas ou mais variveis (sendo pelo
menos uma preditora e pelo menos uma resposta), a independncia, significa que Os valores da(s) varivel (is) preditora(s) foram manipulados ou escolhidos de forma que as influncias
de relaes com potenciais variveis de confundimento sobre a relao em estudo foram
todas anuladas ou radicalmente reduzidas.
(cap.3).
entre
unidades
O planejamento amostral tem por objetivo determinar a melhor forma de coletar os dados
prevenindo relaes esprias (este captulo) e
obtendo o mximo de poder para a nossa anlise (prximo captulo) dentro das possibilidades
logsticas do estudo. A introduo sobre coleta
de dados do captulo 3 ser aprofundada nestes
dois captulos.
Procedimento: coleta de 20 borboletas em janeiro e 20 em julho.Na figura ao lado representamos uma parte da tabela EPR. As entidades
seriam borboletas e as propriedades seriam
tamanho e sexo. A relao est representada
pela seta.
Tamanho Sexo
12
m
10
m
11
f
11
f
78
H algo errado com este procedimento? O grfico abaixo mostra que o tamanho dos animais
em janeiro (verde) maior que em julho (branco) Tambm vemos que em janeiro encontramos mais machos e em julho mais fmeas.
Machos e fmeas de janeiro tm os mesmos
tamanhos; machos e fmeas de julho tm o
mesmo tamanho. Portanto, no h dimorfismo
sexual de tamanho. Entretanto, se no levamos
em conta as variaes temporais de tamanho e
de abundncia, aparece uma falsa evidncia de
dimorfismo.
Tamanho
Janeiro ( ) Julho (
Machos
Fmeas
Estudo 3. Pergunta: A temperatura do ar condicionado influi sobre a capacidade de concentrao durante uma avaliao?
Tamanho Sexo
12
m
10
m
11
f
11
f
poca
1
1
1
1
Relao esprea
Relaes causais
79
80
Taxa de
captura
Tipo de
gua
local
23
29
3
5
branca
branca
preta
preta
Lago 1
Lago 1
Lago 2
Lago 2
Lago
secou
nos
ltimos 5
anos?
no
no
sim
sim
quando estamos realizando um estudo cuidadoso de relaes causais que precisamos avaliar variveis externas. Vejamos os tipos de variveis externas e como lidar com elas.
Voc poderia comparar a correlao entre dados climticos efetivamente medidos (e. g. Choveu) e as previses feitas por dois modelos
climticos (um dizia que ia chover e o outro
no). Note que as previses de clima no causam o clima, entretanto, tanto o clima como as
previses so influenciadas pelas condies
atmosfricas anteriores. Aqui o estudo de correlao nos conduz a concluses concretas
A correlao frequentemente estudada como
uma forma de obter indcios de relaes causais, mas a concluso tende a ser menos concreta. Por exemplo, podemos verificar se a abundncia de uma espcie (e. g. uma presa)
est correlacionada com a abundncia de outra
espcie (e. g. seu predador). A existncia de
uma correlao negativa um indcio que o
predador influi sobre a densidade da presa, mas
um indcio fraco, pois h outras explicaes
81
Figura 6-2- Mapa conceitual mostrando duas Variveis em Questo (mais escuro) e diversas variveis externas.
Vamos discutir esta classificao em um exemplo. A figura 6.2 representa um mapa conceitual
de uma questo sobre o efeito do tipo de gua
sobre a quantidade de tambaquis em lagos. A
ideia que gua branca tem mais nutrientes
que possibilitam uma maior produo de frutos
das rvores da borda que so o principal alimento para os peixes adultos.
Digamos que fizemos a coleta de dados em 15
lagos de gua branca e 15 de gua preta e
obtivemos uma relao significativa (P<0,05)
entre o tipo de gua e a abundncia de peixes.
Levamos o trabalho a um congresso e as pessoas questionam sua concluso.
1) Dra. Kaufman, economista da USP, observou que os lagos de gua preta esto mais
prximos da metrpole e levanta a possibilidade da diferena na quantidade de peixes
ser causada mais pela presso do consumo
do que por diferenas ambientais.
2) Dr. Fisher pergunta sobre a experincia dos
pescadores que ajudaram no estudo e per-
82
A pergunta sobre as nascentes aceitvel como curiosidade e pode at ser til para especulaes relacionadas questo. Entretanto,
uma pergunta inofensiva para a questo especfica. A questo do estudo no era o que determinava o tipo de gua entre os lagos. Partia-se
do fato de que elas so diferentes para se questionar as consequncias disto. Esta varivel
afeta a varivel resposta, mas justamente pelo
seu efeito na preditora, de forma que no cria
uma relao espria. Por isto chamada de
Varivel Pr-Explicativa
Ns nem pensamos em verificar a lua. Entretanto, acreditvamos que ela realmente seria irrelevante. Nenhum estudo anterior chegou a sugerir este efeito, este peixe tem hbitos diurnos
e as coletas entre lagos foram intercaladas,
sendo improvvel que houvesse coincidido um
maior nmero de coletas em um tipo de gua
associado a um tipo de lua. Seja por questes
biolgicas ou por questes da forma como os
dados foram coletados, consideramos que esta
varivel no seria uma fonte de relaes esprias. Por isto esta varivel foi considerada uma
83
H trs sentidos para a palavra controle, o sentido tratamento, o sentido de funo e o sentido
de estratgia.
84
85
Aps formarmos grupos iguais, aplicamos tratamentos diferentes em cada grupo. Portanto,
esta abordagem s est disponvel para estudos experimentais. Tecnicamente, o que fizemos chama-se atribuio aleatria dos nveis
da varivel preditora. Se a diferena entre os
grupos for maior do que a esperada ao acaso
comparado com uma probabilidade limite pr
estabelecida (), dizemos que rejeitamos a
hiptese nula e que temos uma prova estatstica
para nossa hiptese alternativa.
Esta forma de controle previne contra tendenciosidade, isto , contra erro tipo I, mas no
contra rudo. Por isto, Geralmente este controle
feito junto com outras formas de controle,
como veremos na Abordagem Experimental
(seo 6.6)
Controle sistemtico simples.
O controle aleatrio mais fiel s frmulas estatsticas do que o controle sistemtico, mas a
diferena pode ser considerada mnima, e a
amostragem sistemtica apresenta algumas
vantagens. Estatsticos divergem sobre qual dos
86
Os blocos permitem a realizao de aleatorizaes mltiplas, o que pode ser muito importante, pois nem sempre as aleatorizaes podem
ser feitas em um nico momento. Por exemplo,
podemos no ter espao suficiente em um nico
momento na casa da vegetao para todas as
replicatas necessrias para um experimento.
Os blocos so especialmente teis em abordagens no experimentais, pois podem controlar
todas as variveis externas ao bloco, o que no
pouco. Se todos os nveis da varivel preditora puderem ser encontrados em um bloco de
dimenses espaciais/ temporais muito menores
do que as dimenses da rea/ Perodo de estudo, os blocos reduzem drasticamente o efeito
de variveis externas e so fortemente recomendveis. Neste caso, eles servem para diminuir tanto a chance de erro tipo I como de erro
tipo II.
Caso haja Variveis Externas que sejam potenciais Variveis de confundimento dentro de
blocos, recomendvel a utilizao de algum
controle sobre estas variveis.
Controle por fixao de variveis externas.
Em estudos experimentais, a fixao de variveis externas uma forma de controle de rudo.
Quanto mais variveis externas puderem ser
fixas, maior o poder do experimento. Portanto,
uma forma de reduzir erros tipo II.
Em estudos quase experimentais e no experimentais, a fixao de variveis externas tam-
87
Figura 10- Chave para a escolha de abordagens de pesquisa. VI= Varivel Independente; VR= Varivel resposta; VE=
Varivel Externa.
88
Em estudos experimentais ou no experimentais, a anlise com nveis livres mais complexa, de forma que recomendada a ajuda de
uma pessoa que entenda do assunto. De qualquer forma, a incluso normalmente tem um
papel principal de controle anti rudo no estudo
experimental e de controle anti tendenciosidade
no estudo no experimental. Um exemplo de
incluso de varivel em um estudo no experimental foi apresentado na seo 6.2, na anlise
do dimorfismo sexual de borboletas.
89
A
A
X1
Xc
O
O
Onde cada A representa um grupo selecionado aleatriamente. X1 representa um tratamento e Xc outro tratamento ou o controle. O
representa uma observao. Se houvesse mais
tratamentos seriam X2, X3, etc. Portanto, em
cada linha temos um grupo escolhido aleatoriamente, tratado de forma diferente e observado
posteriormente.
H uma segunda categoria de experimentos
denominados quase experimentos, ou experimento de pr-teste e ps-teste de grupos no
aleatrios. H vrias abordagens escolhidas
em funo do tipo de limitao e de opes
para mitigar os efeitos da falta de aleatorizao.
A simples simples representada assim:
N
N
O
O
X1
Xc
O
O
90
N O X1 O Xc O
N O Xc O X1 O
Neste caso h trocas de tratamentos entre os
grupos, o que considerado um planejamento
bastante forte, desde que no haja influncia da
ordem dos tratamentos.
Outra opo elaborada:
N1 O
N1 X1 O
N2 O
N2 Xc O
Neste caso a metade do primeiro grupo observada no pr- teste e a outra metade passa
pelo tratamento e observada no ps-teste. O
segundo grupo tem metade medida no pr-teste
e a outra metade tem uma medida no ps-teste
como controle (Xc). Se sua observao inicial
pode influir sobre a observao final (e. g. realizar uma prova prepara as pessoas para a segunda prova), voc pode separar a classe 1 em
duas partes, uma que faz a prova antes do mtodo testado e outra que faz a prova depois. A
sala 2 um controle feito da mesma forma.
Comparando as diferenas entre a linha 1 e a
linha 2 com as diferenas entre a linha 3 e a
linha 4 teremos uma avaliao sem o efeito do
aprendizado da prova.
91
92
das variveis em estudo, no a todas as variveis externas, pois algumas podem estar controladas.
Do ponto de vista estritamente lgico, a abordagem ao acaso no estudo de relaes seria perda de tempo, pois sempre poderia haver variveis de confundimento em que sequer pensamos. Entretanto, testar hiptese no s um
jogo matemtico, nosso conhecimento de biologia tambm conta. Normalmente conhecemos o
sistema que estudamos o suficiente para imaginar quais so as principais candidatas a variveis de confundimento. Em um estudo sobre o
efeito de um nutriente sobre o crescimento de
plantas precisamos suspeitar do efeito da sazonalidade climtica, no nos preocupamos muito
com um efeito da lua e consideramos irrelevantes eventuais alteraes no campo magntico
da terra. Se pudermos controlar as variveis
externas relevantes das formas descritas na
seo 6.4, podemos assumir que um resultado
significativo realmente corrobora a nossa hiptese alternativa.
93
necessrio para um estudo de aves. A aleatorizao menos recomendvel do que uma amostragem sistemtica como um grid. Outro
critrio o da autocorrelao espacial ou temporal, em que se avalia se a varincia entre
valores vizinhos menor do que a varincia
geral, indicando que a distncia entre unidades
amostrais precisa ser aumentada. Avaliaes
grficas de ausncia de autocorrelao podem
ser importantes complementos aos testes.
94
Se a varivel preditora no for manipulvel (estudo no experimental), podemos utilizar a estratgia de escolher os valores naturais dos
nveis por intercalao ou com os nveis da
Varivel preditora ou da Varivel resposta organizados em blocos.
Neste captulo apresentamos uma srie de tcnicas para reduzir a chance de variveis externas obscurecerem os efeitos da varivel preditora, ou pior, gerar relaes esprias. A diretriz
mais genrica que devemos planejar cuidadosamente e com bom senso. Como foi dito antes,
a validao interna uma fase crtica de um
trabalho. Vale a pena pensar bem antes de
comear para no ter que recomear.
.
Exerccios:
6.1- A independncia entre unidades amostrais uma expresso infeliz para descrever
uma premissa de testes estatsticos. Explique
por que a expresso no apropriada e qual a
independncia que premissa para qualquer
teste estatstico.
95
96
7. Maximizando o poder do
teste
Segurana, custo e poder. Estas so as trs
preocupaes para se aperfeioar um carro de
corrida. As pessoas que apenas assistem s
corridas pensam que a nfase est em conseguir um carro mais potente (veloz). Entretanto,
no d para usar uma turbina se o carro nem
fosse conseguir fazer curvas; o piloto precisa
chegar vivo para ganhar o campeonato. A segurana a prioridade. O outro fator bvio o
custo. Por isto, o desafio ter criatividade para
superar limitaes tecnolgicas e aumentar o
poder sem comprometer a segurana e dentro
dos recursos que temos.
testes
O poder de um teste sua capacidade de rejeitar uma hiptese nula, isto , quanto mais poderoso for um teste menor a chance de levar a um
erro tipo II. Contribuem para um maior poder:
a) Perguntas mais objetivas; b) Um maior tamanho amostral; c) Medidas mais precisas;
d) coletas feitas de forma a limitar o rudo (variao no tendenciosa de variveis que no so
o objeto do estudo); e) Maior poder no tipo do
97
Para a tabela EPR temos pessoa como entidade nos dois procedimentos, mas as propriedades do primeiro so a varivel preditora Refrigerante (Gluglu ou Gostoso) e a varivel resposta
Nota (0 a a 10), enquanto na segunda abordagem as propriedades so uma varivel para a
primeira coluna Nota do Gluglu (0 a 10) e uma
varivel para a segunda medida (nota do Gostoso (0 a 10). Na segunda abordagem no te-
98
entre pessoas. Se o crtico pegar um refrigerante e o generoso pegar o outro, esta diferena
no ser tendenciosa, mas adicionar varincia
anlise, reduzindo o poder do teste.
99
Figura 7.1- Esquema de desenho em bloco com 4 "subunidades" amostrais por bloco.
Exemplo:
Problema 1- A pureza do caf difere entre as
marcas A, B, C. D e E?
Problema 2- A pureza do caf varia entre marcas? [Voc escolhe ao acaso (livremente) 5
marcas de caf (A, X, F, T e M) para representar todas as marcas.]
Problema 3- A produtividade do feijo muda ao
se adicionar 0 (controle), 2 e 4 mg de Nitrognio
ao solo?
Problema 4- A produtividade do feijo diferente em funo da concentrao de nitrognio no
solo (valores de campo variando ao acaso ou
livremente entre 0 e 4 mg de N).
Os problemas 1 e 2 e os problemas 3 e 4 parecem iguais, mas no so. Nos problemas 1 e 3
os valores dos nveis so definidos e fixos pelo
pesquisador e nos problemas 2 e 4 eles so
valores "ao acaso".
100
Varivel dependente
101
Figura 14 Resumo das diretrizes para maximizar testes estatsticos (ver texto).
102
c) Quanto maior o nmero de nveis quantitativos (= preciso) maior o poder do teste. Evite
medidas grosseiras se puder ter medidas mais
exatas. Especialmente crticas so as medidas
com menos de 10 nveis na varivel resposta.
Entretanto, no precisa exagerar na preciso,
pois a relao custo da preciso e benefcio em
ganho de poder no retilinear. Se voc obtiver
mais de vinte nveis com seu velho pHmetro
com duas casas decimais, fique tranquilo, no
h necessidade de comprar um pHmetro dez
vezes mais caro para ganhar mais uma casa
decimal. E lembre-se, mais importante do que a
preciso de um aparelho que ele esteja adequadamente calibrado.
103
Caso no haja certeza que a relao seria monotnica, ento a prioridade obrigatoriamente
a descrio da relao, mesmo que nosso interesse seja sobre a existncia da relao.
Quando a varivel for de natureza categrica
(no ordinal), ento, quanto menor o nmero de
nveis mais poderoso tende a ser o teste. Aqui,
naturalmente depender de quais nveis entraro na anlise. Por exemplo, se queremos comparar a eficincia de diferentes marcas de rao, um teste com muitas marcas ser pouco
poderoso, enquanto um teste comparando apenas duas marcas ser mais poderoso para um
mesmo nmero de amostras. Digamos que a
marca A seja a melhor e a marca B seja a pior.
A incluso de 10 marcas pode levar-nos a aceitar a hiptese nula que a ausncia de diferenas entre marcas. Comparaes aos pares tm
maior poder individualmente, mas a comparao conjunta de cada par possvel constitui
testes mltiplos. Da mesma forma que foi sugerido com os testes mltiplos, a abordagem mais
poderosa seria escolher poucas comparaes
com base em amostras preliminares ou algum
outro critrio relevante.
104
Exerccios
7.2- Cite seis aspectos em um estudo que contribuem para um maior poder.
105
106
8. Glossrio
Abordagem Experimental- Pesquisa na qual
os valores das variveis preditoras so manipulados para verificar seu efeito sobre a Varivel
resposta, em duas condies, com controle
absoluto de variveis externas ou com controle
estatstico por aleatorizao na atribuio dos
nveis da varivel preditora.
Abordagem Quase experimental- Pesquisa
com manipulao dos valores da Varivel preditora para verificar seu efeito sobre a varivel
resposta, mas sem controle absoluto ou estatstico com atribuio aleatria de nveis.
Abordagem No Experimental- Pesquisa sem
manipulao nos valores das variveis preditoras.
Acurcia- o grau de proximidade com a medida verdadeira.
Aleatrio- Por sorteio ou processo equivalente.
No sinnimo de ao acaso.
Alfa ()- Nvel de significncia adotado antes de
realizar um teste estatstico que indica a probabilidade de erro tipo I.
Ao acaso- Devido a um conjunto de pequenas causas preditoras entre si, que se prendem
a leis ignoradas e que determinam um acontecimento qualquer, no sinnimo de aleatrio.
Autocorrelao- Relao entre valores medidos em sequncia espacial ou temporal, por
exemplo, relao entre Xi e Xi+1, onde i a
isima medida.
Balano- Igualdade (balano perfeito) ou semelhana no nmero de entidades para cada nvel
da varivel preditora.
Bloco- Conjunto de unidades amostrais que
funcionam como entidade em uma tabela EPRBloco. Nesta tabela, as linhas so os blocos e
as colunas propriedades em cada unidade amostral.
Contraste- Avaliao a posteriori em uma Analise de Varincia paramtrica ou no paramtrica para determinar quais nveis so significativamente diferentes.
Controle- Diferentes tipos de aes planejadas
para aumentar a confiabilidade e poder de um
teste.
107
108
109