Vous êtes sur la page 1sur 10

Captulo 8: Um pouco de Estatstica

Grupo: - Carolina S. Person - Larissa F. Vaccari - Natlia A. Marques - Natlia P. Chaves

Viviane F. Duarte

Inferncia Estatstica Inferncia Estatstica fazer afirmaes sobre caractersticas de uma populao, baseando-se em resultados de uma amostra. O uso de informaes da amostra para concluir sobre o todo faz parte da atividade diria da maioria das pessoas. Basta observar como uma cozinheira verifica se o prato que ela est preparando tem ou no a quantidade adequada de sal. Ou ainda, quando uma dona-de-casa, aps experimentar um pedao de laranja numa banca de feira, decide se as compra ou no. Essas so decises baseadas em procedimentos amostrais. Ex.: Consideremos uma pesquisa para estudar os salrios dos 500 funcionrios da Companhia Milsa. Seleciona-se uma amostra de 36 indivduos, e anotam-se os seus salrios. A varivel a ser observada o salrio. A populao formada pelos 500 funcionrios da companhia. A amostra constituda pelos 36 indivduos selecionados. Na realidade, estamos interessados nos salrios; portanto, para sermos mais precisos, devemos considerar como populao os 500 salrios correspondentes aos 500 funcionrios. Conseqentemente, a amostra ser formada pelos 36 salrios dos indivduos selecionados. Podemos estudar a distribuio dos salrios na amostra, e esperamos que a mesma reflita a distribuio de todos os salrios, desde que a amostra tenha sido colhida com cuidado (Bussab, Morettin, 1987). Usamos uma amostra e no a populao toda por vrios motivos, tais como: custo alto para obter informao da populao toda; tempo muito longo para obter informao da populao toda; algumas vezes impossvel, por exemplo, estudo de

poluio atmosfrica; algumas vezes logicamente impossvel, por exemplo, em ensaios destrutivos. Caractersticas de uma populao que diferem de um indivduo para outro e as quais temos interesse em estudar so chamadas variveis. Exemplos so: comprimento, massa, idade, temperatura, nmero de ocorrncias, etc. Cada unidade (membro) da populao que escolhido como parte de uma amostra fornece uma medida de uma ou mais variveis, chamadas observaes. (Shimakura, 2004). A Inferncia Estatstica torna-se necessria, por exemplo, para prever a durao mdia da vida til de uma calculadora manual (com base no desempenho de muitas dessas calculadoras); estimar o valor da avaliao no ano 2005 de todas as propriedades particulares do condado de Orange (Califrnia), (com base na tendncia dos negcios, nas projees de populao, etc); comparar a eficincia de duas dietas para reduzir peso (com base nas perdas de peso de pessoas que se submeteram s dietas); determinar a dosagem ideal de um novo medicamento (com base em testes feitos em pacientes voluntrios de hospitais selecionados aleatoriamente); ou prever o fluxo de trfego em uma rodovia ainda em construo (com base no trfego observado em rodovias alternativas) (Freund, Simon, 2000). Amostragem Amostragem: a operao que consiste em tomar um certo nmero de elementos (ou seja, uma amostra) no conjunto dos elementos que queremos observar ou tratar (populao). A maior parte das decises em estatstica fundamenta-se numa amostragem; a generalidade e a validade das concluses dependem do valor da amostragem. Amostra: o conjunto dos elementos relativamente aos quais se recolheram efetivamente dados. Populao: o conjunto dos elementos de entre os quais se poderia escolher a amostra, ou seja, o conjunto de elementos que possuem as caractersticas que queremos observar (DHainaut, 1997).

O objetivo de uma investigao cientfica descobrir (entender, estudar) alguma caracterstica de certa populao. Como, em geral, impossvel ou impraticvel examinar toda a populao, examinamos parte e com base nestes dados fazer inferncias a respeito

de toda populao. Temos que distinguir entre populao alvo e populao amostrada. Populao alvo: aquela em que estamos interessados em estudar. Em pesquisas eleitorais para presidente, a populao alvo so todos os eleitores do Brasil. Populao amostrada: aquela da qual retiramos a nossa amostra. Em pesquisas eleitorais para presidente, a populao amostrada so adultos que moram nas 396 cidades selecionadas. Se a populao amostrada no a mesma que a populao alvo, as concluses (inferncias) obtidas atravs da amostra somente so vlidas para a amostrada. populao

Importncia da amostragem A amplitude das concluses de um estudo estatstico est limitada pela qualidade do processo de amostragem. Se a amostra for representativa de uma populao bem definida, as concluses que da podemos tirar aplicam-se a toda populao com uma margem de incerteza que pode calcular-se com preciso, no caso das amostras aleatrias (DHainaut, 1997). O tamanho da amostra e como selecion-la fazem parte de um protocolo que se deve ser seguido para que o resultado estatstico seja vlido. Deve ser usada amostragem aleatria simples (mtodo do chapu), o que nem sempre acontece por causa de certas impossibilidades (populao muito grande, impossvel ter acesso a certas informaes, etc.). A amostragem por cotas, por exemplo, utilizada em situaes como essas. Esse tipo de amostragem um processo conveniente, relativamente barato. Divide-se a populao em subgrupos (homem e mulher, negro e branco, jovem e idoso etc.) e calcula-se o tamanho proporcional de cada um desses conjuntos. A partir disso, define-se o total de entrevistas a serem feitas, as quais sero divididas de acordo com as propores encontradas para cada subgrupo. Quanto mais variveis forem controladas na definio das cotas, melhor a representatividade da pesquisa, ou seja, o seu grau de similaridade com a populao. O tamanho da amostra

independe da populao pesquisada. No Brasil, opta-se por um universo que gira em torno de 2 mil pessoas (Revista Pesquisa Fapesp, 2006). Tamanho da amostra Clculo do tamanho mnimo da amostra No existe nmero fixo para o tamanho da amostra a ser estudada. H uma soluo para cada caso, dependendo: (1) Do tipo de problema que se quer resolver. Exemplos de problemas possveis so: caracterizar uma varivel ainda noinvestigada na populao; comparar duas populaes quanto a uma varivel dada; verificar se duas variveis esto relacionadas. (2) Do tipo de varivel. Estudos envolvendo variveis qualitativas geralmente exigem amostras maiores. Dentre as variveis quantitativas, as que apresentam maior variabilidade nos dados tambm exigem amostras maiores. (3) Da magnitude do erro estatstico aceito pelo pesquisador. Quanto menos o pesquisador quer errar em suas concluses, maior dever ser o tamanho da amostra. (4) Do tamanho da diferena considerada importante pelo pesquisador em uma comparao entre grupos. Diferenas menores exigem amostras maiores. (5) Do poder desejado para o teste, isto , da probabilidade de que a amostra identifique uma diferena de efeito real. (6) Do tempo, verbas e pessoal disponveis, bem como da dificuldade em se obterem os dados e da complexidade do experimento. O tamanho mnimo amostral obtido a partir da anlise estatstica que se pretende realizar, posteriormente, com os dados do experimento. Tanto nos testes de hipteses quanto no clculo de intervalos de confiana, est embutida uma medida do erro amostragem, que o erro padro. Ora, este se envolve com o tamanho amostral (n), sendo, portanto, um ponto de partida natural para a determinao de n. O nmero de frmulas para se obter n acompanha a multiplicidade de tratamentos estatsticos passveis. (Callegari Jacques, 2003).

importante destacar que a determinao do tamanho da amostra, atravs da frmula estatstica, no garantia de resultados significantes. Alm disso, existe a possibilidade de se perder unidades experimentais, seja com animais que morrem devido ao tratamento utilizado, ou pessoas que mudam de endereo ou saem no meio da pesquisa. P-valor Em estatstica, e especificamente no campo dos testes de hipteses, o valor p, ou tambm p-valor, a probabilidade de que a amostra podia ter sido tirada de uma populao, assumindo que a hiptese nula seja verdadeira. Um valor de 0,05 (0,003), por exemplo, indica que existe a probabilidade de 5% (0,3%) de que a amostra que estamos a testar possa ser tirada, assumindo que a hiptese nula verdadeira. Interpretao do resultado: Valor p prximo de 0 um indicador que a H0 falsa. Valor p prximo de 1 no h evidncia suficiente para rejeitar a H0. Normalmente considera-se um valor p de 0,05 como o patamar para avaliar a H0. Se o valor p for inferior a 0,05 podemos rejeitar a H0. Em caso contrrio, no temos evidncia que nos permita rejeitar H0 (o que no significa automaticamente que seja verdadeira). Em situaes de maior exigncia usado um valor p inferior a 0,05 (Wikipedia). Ex.: Desejava-se verificar se as pessoas sabiam a diferena entre chocolate diet e o normal. Trs pesquisadores fizeram o experimento. Sendo que S (sucesso) significa acerto sobre qual era o chocolate e que F (fracasso) significa erro sobre qual era o chocolate. 1 T C S F 32 18 50 25 25 50 p-valor = 0,11 2 T C S F 35 15 50 25 25 50 p-valor = 0,05 3 T C S F 35 15 50 26 24 50 p-valor = 0,03

- Por p-valor podemos ver que o 3 teste o que nos mostra que as pessoas sabem a diferena entre chocolate diet e o normal.

Hiptese Uma hiptese um enunciado formal das relaes esperadas entre pelo menos uma varivel independente e uma varivel dependente. Nas pesquisas exploratrias, as hipteses podem se tornar questes de pesquisa. Estas questes pela sua especificidade, devem dar testemunho do trabalho conceitual efetuado pelo pesquisador e, pela sua clareza, permitir uma resposta interpretvel. Hiptese alternativa (H1): As hipteses de uma pesquisa devem enunciar-se por propostas to claras e especficas quanto possvel. Via de regra, o que quer se mostrar, por exemplo: as atitudes em relao Matemtica interferem diretamente na formao das atitudes em relao Estatstica. Hiptese nula (H0): A hiptese nula a negao da hiptese alternativa, por isso, via de regra, voc sempre torce para que ela seja rejeitada, como no caso seguinte: as atitudes em relao Matemtica no interferem na formao das atitudes em relao Estatstica. Esta a hiptese que est sendo testada por qualquer teste estatstico. (Scio Estatstica Pesquisa & Consultoria Ltda., 2006). Como atribuir H0 e H1 1 modo: status quo conservadora; a hiptise j aceita pelas pessoas; o tratamento padro; etc. 2 modo: atravs dos erros tipo I e tipo II. Erros tipo I e tipo II Erro tipo I: rejeitar a hiptese nula (H0), sendo que ela verdadeira. Ou seja, admite-se a existncia de uma diferena sistemtica ainda que, na realidade, no exista. Erro tipo II: adotar a hiptese nula (H0), sendo que ela falsa. Ou seja, conclui-se que no h diferena significativa ainda que na realidade, haja uma diferena sistemtica (DHainaut, 1997). Deciso H0 verdadeiro H0 falso Rejeito H0 Erro tipo I No rejeito H0 Erro tipo II

Erro tipo I o mais grave. Nvel de Significncia Nunca podemos estar inteiramente certos de que a hiptese nula se deve aceitar ou rejeitar. Para tomar uma deciso tenta-se avaliar quais as possibilidades da hiptese numa no ser verdadeira, e adota-se a seguinte regra arbitrria (devida a Fisher): - se houver mais de 5% de possibilidades da diferena observada ser devida ao acaso, considera-se a hiptese nula e diz-se que a diferena no significativa (N.S.). - se houver 5% de possibilidades, ou menos, da diferena ser devida ao acaso, rejeita-se a hiptese nula e diz-se que esta diferena : * Significativa (S.) se a diferena observada tiver mais de 1% de possibilidades de ser devida ao acaso; * Muito Significativa (M.S.) se a diferena observada tiver 1% de possibilidades, ou menos, de ser devida ao acaso. Nveis de Significncia - Diferena no significativa para p-valor > 0,1; - Diferena significativa para p-valor 0,05, significativa, S; - Diferena significativa para p-valor 0,01, muito significativa, M.S. (DHainaut, 1997). Intervalo de Confiana um intervalo centrado na estimativa pontual, cuja probabilidade de conter o verdadeiro valor do parmetro igual ao nvel de confiana. Ou seja, a probabilidade de erro na estimao por intervalo, quantificar o quanto se pode estar errado. Nvel de Confiana a probabilidade de que o Intervalo de Confiana (teorico, antes de serem atribuidos os valores da amostra) contenha o verdadeiro valor do parmetro. (Scio Estatstica Pesquisa & Consultoria Ltda., 2006).

No caso em que a varivel resposta tenha distribuio aproximadamente Gaussiana, ou se o tamanho da amostra for razoavelmente grande) para se construir o IC: Se se procurar o intervalo de confiana: - A 99%, multiplicar S por 2,58 (aproximadamente: 2,6); - A 95%, multiplicar S por 1,96 (aproximadamente: 2); - A 68%, multiplicar S por 1 (ou seja, no modificar S). (DHainaut, 1997). Margem de erro Por se tratar de estatsticas e no nmeros absolutos, toda pesquisa apresenta uma margem de erro que depende do tamanho da amostra estudada e dos resultados obtidos. Isso ocorre porque no entrevistado todo universo da populao, mas apenas uma parte representativa deste. Trabalhando dessa maneira, h sempre um erro amostral, conhecido e calculado especificamente para cada pesquisa eleitoral. Para uma mesma amostra, quanto maior a homogeneidade da populao pesquisada, menor ser o erro amostral e vice-versa. Por isso no existe um erro amostral nico e fechado para a pesquisa como um todo, pois em cada informao fornecida pela pesquisa h um erro correspondente. No caso das pesquisas eleitorais, esses erros so geralmente desiguais para diversos candidatos em funo da distribuio geogrfica do eleitorado de cada um deles. A margem de erro comumente divulgada refere-se a uma estimativa de erro mximo, considerando-se um modelo de amostragem aleatrio simples. Dessa maneira, os resultados de uma pesquisa devem ser interpretados dentro de um intervalo que estabelea limites estimativa obtida: o chamado intervalo de confiana. No caso de pesquisas eleitorais feitas pelo IBOPE, o intervalo de confiana sempre pr-estabelecido antes do inicio da pesquisa, de comum acordo entre o cliente e o IBOPE: geralmente, fica em torno de 95%. Isso quer dizer que se uma pesquisa fosse realizada 100 vezes em 95 delas o resultado ficaria dentro da margem de erro. Assim, quando se diz que o percentual dos que tm inteno de votar no candidato A de 30%, significa que existe uma probabilidade de 95% de o percentual de eleitores que tm inteno de votar no candidato A estar compreendido no intervalo: [30% - erro amostral; 30% + erro amostral] Agora, considerando uma margem de erro de 3 pontos percentuais para esse candidato, o intervalo de confiana dele, com uma confiabilidade de 95%, seria o

seguinte: [30% - 3%; 30% + 3%] = [27%; 33%] Errado: Isso significa dizer que, considerando o mesmo modelo amostral, se 100 amostras forem tiradas da populao, em 95 delas o ndice deste candidato variar entre 27% e 33% (IBOPE). !!!!!

Isso significa dizer que, considerando o mesmo modelo amostral, se 100 amostras forem tiradas sob as mesmas condies, em aproximadamente 95 delas, o IC construido contera o verdadeiro valor do indice do candidato.

Referncias Bibliogrficas 1) Bussab WO, Morettin PA. Estatstica Bsica (Mtodos Quantitativos). 4 edio. So Paulo: Atual; 1987.p.181-182. 2) Universidade Federal do Paran. Leg: Laboratrio de Estatstica e Geoinformao. Disponvel em: http://leg.ufpr.br/~shimakur/CE001/node29.html 3) Freund JE, Simon GA. Estatstica Aplicada: Economia, Administrao e Contabilidade. 9 edio. Porto Alegre: Bookman; 2000.p.16 4) D-Hainaut L. Conceitos e Mtodos da Estatstica. Volume I | Uma varivel a uma dimenso. 2 edio. Lisboa: Fundao Calouste Gulbenkian;1997.p.16-17; 25; 162163. 5) Revista Pesquisa Fapesp. Disponvel em: http://www.revistapesquisa.fapesp.br/?art=3049&bd=1&pg=2&lg=

6) Scio Estatstica Pesquisa & Consultoria Ltda. Disponvel em: http://www.socio-estatistica.com.br/Edestatistica/glossario.htm

7) Callegari - Jacques, SM. Bioestatstica: Princpios e Aplicaes. Porto Alegre: Artmed, 2003. p.146.

8) Wikipedia Disponvel em: http://pt.wikipedia.org/wiki/valor_p Acessado em novembro de 2007. 9) IBOPE Disponvel em: http://www.ibope.com.br/calandraWeb/BDarquivos/sobre_pesquisas/pesquisa_eleitoral. html e http://www.ibope.com.br/calandraWeb/servlet/CalandraRedirect?temp=5&proj=PortalI BOPE&pub=T&db=caldb&comp=biblioteca&docid=A5352299F76B4EEC83256EB50 06C54E9 10) Vieira, S. Metodologia cientfica para a rea de sade. So Paulo: Sarvier; 1984. p 81 e 82.