Vous êtes sur la page 1sur 64

Estatstica descritiva

Probabilidade, Amostragem e Distribuies

Teste de Hipteses e Significncia Estatstica


Luana Elayne C. Souza Tiago Jess S. Lima

Estatstica descritiva
Conceitos bsicos

A Estatstica envolve tcnicas para coletar, organizar, descrever, analisar e interpretar dados, ou provenientes de experimentos, ou vindos de estudos observacionais.
Dados Informaes Decises

Estatstica
Conceitos bsicos
Amostras e populaes Medidas de tendncia central Tcnicas grficas para descrever os dados Distribuio normal Medidas de variabilidade

Amostras e populaes
Populao: se refere a grupos distintos de pessoas, animais, objetos.

Como em geral as populaes so muito grandes, se faz necessrio o uso de amostras para represent-las. Estas so formadas por uma frao da populao em estudo.

Populao e amostra
Amostra: seleo de elementos de uma populao
So mais baratas, mais rpidas de obter e mais convenientes.

Empregamos estatstica para generalizarmos os resultados obtidos de amostras para toda a populao. Portanto, preciso estar seguro de que qualquer amostra utilizada verdadeiramente representativa da populao alvo.

Populao e amostra
Estatsticas descrevem amostras e so representadas por letras latinas (x, s).
Parmetros descrevem populaes representados por letras gregas ( , ). Empregamos estatsticas amostrais para estimar parmetros populacionais.

Estatsticas descritivas: descrever nossas amostras.


Estatsticas inferenciais: generalizar os resultados para a populao

Medidas de tendncia central


Uma medida de tendncia central de um conjunto de dados fornece uma indicao do escore tpico deste conjunto;
Mdia

Mediana
Moda

Mdia
calculada pela soma de todos os valores da amostra dividindo pelo nmero total de valores.
Dificilmente conseguimos utilizar a mdia de uma amostra como uma estimativa da mdia de uma populao.

Mediana
o valor que est no meio da amostra, isto , apresenta o mesmo nmero de valores acima e abaixo dela.
calculada com a ordenao de todos os valores e com a tomada do valor que est no meio

Mediana

Moda
o valor mais repetido.

Qual tendncia central usar?


O que deve ser considerado quando for escolher uma medida de tendncia central que ela deve dar a voc uma boa indicao do valor tpico da amostra.

calculada a partir de valores reais, sendo sensvel a valores extremos.

indicada quando h valores extremos.

Indica para variveis categricas.

Erro amostral
Sempre que selecionarmos uma amostra de alguma populao, ir existir incerteza sobre quo representativa a amostra realmente.
Se calcularmos uma estatstica amostral, nunca estaremos seguros sobre o quanto ela poder diferir do parmetro populacional. Erro amostral: no utilizamos todos os membros da populao. Em geral, quanto maior o tamanho da amostra mais prxima a sua mdia da mdia populacional.

Descrio grfica dos dados


uma das formas de analisar e apresentar os dados.

Histograma de frequncia
uma boa forma de inspecionarmos os nossos dados visualmente, por exemplo, observamos o valor modal apenas procurando a coluna mais alta, ou observamos se os dados apresentam uma distribuio normal.
5 4 3 2 1 0

Histograma de frequncia
40 35

30
25 20 15 10 5 0 0-4 5-9 Escores de depresso 10-14 15-19 20-24 25-59 60-64

Box plot ou caixa e bigodes


Fornece uma indicao clara dos valores extremos.

Box plot ou caixa e bigodes

Diagrama de disperso
empregado para examinar o relacionamento entre duas variveis.

Erro de amostragem: ilustrao

Distribuio normal
til conhecer a forma como os dados se distribuem, pois muitos testes estatsticos fazem suposies sobre como os dados so distribudos.
Ou seja, os testes so vlidos apenas se os dados se distribuem de certa forma. Uma das mais importantes distribuies a normal.

Distribuio normal
Para que uma populao seja classificada como normal, deve apresentar as seguintes caractersticas: A populao deve ter a forma de sino. As caudas encontram o eixo x no infinito.

A populao deve ser simtrica em torno da mdia.

Distribuio normal
tambm uma funo da sua mdia e desvio padro, ou seja, uma vez conhecido esses dois valores podemos desenhar a curva por meio de sua frmula.

Variao das distribuies


Outro aspecto importante dos valores de uma amostra ou populao o quo dispersos eles so, ou seja, quanto variao existe nos dados.
Amplitude: a diferena entre os valores mximos e mnimos.
Entretanto no nos fornece nenhuma informao quanto variao no interior do conjunto de dados.

Desvio padro: fornece uma indicao do que ocorre entre os dois extremos, ele nos informa o quanto os valores variam em torno da mdia.
Cada valores varia em torno da mdia para mais ou para menos

Variao das distribuies


1, 4, 5, 6, 9, 11
1) Calculamos a mdia (M=6) 2) calculamos os desvios com relao a mdia (-5,-2,1,0,1,3,5). o resultado da some de todos igual a zero. 3) Para eliminar os valores negativos eleva cada um ao quadrado (25,4,1,0,9,25) 4) calcula a mdia destes resultados (10,67) 5) o DP a raiz quadrada da varincia 10,67 3,27.

Isso indica que a maioria dos resultados esto 3,27 unidades acima ou abaixo da mdia

Variao das distribuies

Verificamos que aproximadamente 70% dos dados esto situados em um intervalor de desvio padro a contar da mdia

Distribuies
Curtose: grau de achatamento ou afunilamento de uma distribuio.

Distribuies no-normais
Muitas vezes nossos dados no se distribuem normalmente;
s vezes, os desvios da normalidade so consequncia de erros amostrais.

importante verificar o formato da distribuio, j que muitas tcnicas estatsticas partem do pressuposto de que os dados analisados so distribudos normalmente.
Teste Kolmogorov-Smirnov Teste de Shapiro-Wilk

Caso os dados no sejam normais empregamos estatsticas no-paramtricas.

Distribuies no-normais
Distribuio assimtrica: a distribuio que apresenta caudas acentuadamente maiores em uma direo.
Nesses casos recomendvel utilizar a mediana e a moda, ao invs da mdia.

Distribuies no-normais
Distribuio bimodal: o tipo de distribuio na qual encontramos duas modas acentuadas
Em geral os dados so provenientes de duas populaes distintas (p. ex. torcerdores e no torcedores de futebol).

Probabilidade, amostragem e distribuies

Probabilidade
Para aprendermos estatstica necessrio que tenhamos um bom entendimento do conceito de probabilidade.
Probabilidade = n de resultados desejados n de resultados possveis

As probabilidades so geralmente expressas em forma de percentagens e em nmeros decimais (0 a 1). A probabilidade de jogarmos um dado e obtermos um nmero par?

Probabilidade
A probabilidade condicionada envolve um evento que depende de outro.
Ex: contrair cncer caso voc seja fumante.

As tcnicas probabilidades;

estatsticas

so

fundamentadas

em

Portanto, importante estarmos ciente da falibilidade de tais tcnicas

Distribuio normal padro


uma distribuio com forma normal, de mdia zero e desviopadro igual a 1.
Ela nos permite comparar valores de amostras diferentes, valores de uma mesma amostra e muito mais. Para utiliz-la preciso transformar os valores das estatsticas amostrais em valores da normal padro.

Distribuio normal padro


O resultado denominado de valor z, que indica o valor de entrada acima ou abaixo da mdia em unidades de DP;
Se o valor z positivo, seu valor est acima da mdia, se for negativo, encontra-se abaixo da mdia. Se o valor for igual a 1 (um) significa que est um desvio-padro acima da mdia da distribuio. Ex: A mdia para valores de Q.I 100 e o DP 15, ento se voc tem um Q.I de 135, seu valor z :

135-100 = 2,33 desvios padres acima da mdia 15

Distribuio normal padro


A distribuio normal padro uma distribuio de probabilidade, seu encanto a existncia de uma associao com cada valor da distribuio. A rea abaixo da curva representa a probabilidade de se obter determinado valor em um dado intervalo

Distribuio normal padro


Outra utilidade da distribuio normal padro podermos utiliz-la para calcular a poro da populao que teria um valor acima ou abaixo do escore de um indivduo em determinado teste. Quando falamos em propores, estamos nos referindo rea abaixo da curva normal padro, para a qual consultamos a tabela.

P. ex.: o QI 135, apresentaria um valor z de 2,33.

Distribuio normal padro


Inserir figura 3.5

Comparando populaes
Tambm podemos utilizar a distribuio normal padro para comparar populaes. Nesse caso devemos comparar o que desejamos com outros grupos.
P. ex.: Seu desempenho em uma prova de psicologia social foi de 64% e em uma de psicometria foi de 45%. Em qual voc foi melhor se comparado aos dois grupos?

Para sabermos isso precisamos converter os escores em valores z.

Suponhamos que Psicologia Social apresentou mdia 55% e desvio padro de 9%;
J Psicometria apresentou mdia de 40% e desvio padro de 4%.

PS: 64-55 = 1 9

PM: 45-40 = 1,25 4

Assim voc est 1 DP acima da mdia em Psicologia Social e 1,25 DP acima da mdia em Psicometria, portanto, est melhor em Psicometria.

Probabilidade e pesquisa
Em pesquisa, geralmente generalizamos resultados de amostras para populaes.
Isso significa que no sabemos se o padro de resultados que obtivemos em nossas amostras realmente reflete a realidade nas populaes ou se resultado do erro amostral. Deste modo, seria vantajoso calcularmos a probabilidade dos valores amostrais resultarem de erro da amostragem Logo, uma das maneiras mais simples de aplicar probabilidade pesquisa estimar parmetros populacionais a partir de estatsticas amostrais e calcular intervalos de confiana.

Distribuies amostrais
Se calcularmos a mdia de muitas amostras de uma populao especfica, teremos traado a distribuio amostral da mdia.
Teorema Central do Limite um teorema que afirma que quando o tamanho da amostra aumenta, a distribuio amostral da sua mdia aproxima-se cada vez mais de uma distribuio normal. Este resultado fundamental na teoria da inferncia estatstica

Intervalos de confiana
Embora saibamos que a mdia de nossa amostra uma aproximao da mdia da populao, geralmente no temos muita certeza da preciso desta aproximao.
Os intervalos de confiana podem nos ajudar a estimar a preciso da mdia de nossa amostra. Como trabalhamos com estimativas, no temos garantia de que o intervalo, de fato, envolve a mdia da populao. Este intervalo depende do tamanho da amostra utilizada. Os intervalos de confiana nos do um conjunto de valores no qual podemos ter 95% de confiana de que a mdia amostral contenha a mdia populacional.

Erro padro
O desvio-padro da distribuio amostral da mdia um conceito importante e denominado de erro padro. Ele fornece uma medida do grau com que as medias amostrais se desviam da mdia populacional (mdia da mdias). Ento se sabemos o erro padro, podemos estimar a preciso da nossa estimativa da mdia populacional. importante lembrar que a medida do grau de variao da mdia o desvio-padro e que o desvio-padro das mdias amostrais chamado de erro padro
Tamanho da amostra Erro padro

Teste de Hipteses e Significncia Estatstica

Objetivo
Explicar como podemos aplicar nosso conhecimento de probabilidades e distribuies amostrais para testar hipteses estabelecidas em nossas pesquisas.

Aplicando probabilidades pesquisa: teste de hipteses


Na realizao de uma pesquisa, as amostras selecionadas podem no constituir uma representao acurada da populao.

Aplicando probabilidades pesquisa: teste de hipteses


O fato que, devido ao erro amostral, as amostras que utilizamos podem no refletir de forma fiel a populao de onde foram retiradas.
Para cada populao que tivermos, cada um dos padres amostrais apresentados ter uma probabilidade maior ou menor de ocorrer, e o valor desta probabilidade depender do tamanho da amostra utilizado.

Aplicando probabilidades pesquisa: teste de hipteses


Constitui um dos problemas enfrentados quando conduzimos uma pesquisa o fato de no sabermos qual o padro existente na populao de interesse. De fato, o motivo de realizarmos a pesquisa , em primeiro lugar, determinar este padro. Estamos tentando obter concluses sobre a populao a partir das amostras. A partir da amostra precisamos decidir acerca de como a populao. Contudo, como j vimos, as amostras no necessariamente refletem de forma acurada a populao. Assim, precisamos de algum meio de avaliar a probabilidade de que a amostra selecionada seja um retrato fiel da populao.

Aplicando probabilidades pesquisa: teste de hipteses


Os testes estatsticos nos serviro de auxlio nesta deciso. O que um teste estatstico faz determinar uma probabilidade, denominada de valor p. Este valor p nos informa sobre a maior ou menor possibilidade de obtermos o resultado devido ao erro amostral caso no exista relacionamento entre as variveis da populao. Em outras palavras, o teste estatstico indica qual a probabilidade de observarmos o padro de dados caso ele no exista (se a hiptese nula for verdadeira).

Hiptese nula
H0 no existe relacionamento entre as variveis. H1 existe relacionamento entre as variveis. H0 no existe diferena entre os dois grupos. H1 existe diferena entre os dois grupos. Se voc ler que o pesquisador rejeitou a hiptese nula, significa que a probabilidade de obter os resultados encontrados se a hiptese nula fosse verdadeira to pequena que se torna mais sensato acreditar na hiptese de pesquisa (alternativa).

Lgica dos testes de hipteses


Formular as hipteses;

Se existe uma relao, h que se descartar a hiptese de que essa relao seja por erro amostral (ou seja, que H0 seja verdadeira).

Medir as variveis envolvidas e examinar o relacionamento entre elas; Calcular a probabilidade de obter tal relacionamento se no existir relao alguma na populao (se H0 verdadeira); Se esta probabilidade calculada suficientemente pequena, sugere que o padro encontrado improvvel de ter sido originado por acaso e, desta forma, provavelmente reflete um relacionamento genuno na populao.

Nvel de significncia
Como decidimos que a probabilidade que calculamos no teste de hipteses suficientemente pequena para que rejeitemos a hiptese nula?
0,05

A probabilidade associada com cada teste estatstico chamada de valor p ou alfa (). Resultados so relatados como significativos ou nosignificativos. Significncia estatstica versus significncia psicolgica.

Testes estatsticos
Uma vez que se tenha uma medida da fora de um relacionamento, precisamos encontrar a probabilidade de encontrar tal relacionamento unicamente devido ao erro amostral. Se pudermos converter a informao que temos sobre a intensidade do relacionamento em um valor de distribuio de probabilidade, poderemos determinar a probabilidade de que tal valor seja obtido por acaso. Deve-se enfatizar que as probabilidades calculadas se baseiam na hiptese de que as nossas amostras so selecionadas aleatoriamente da populao.

Testes estatsticos
Se os valores esto tanto em uma ou outra das regies indicadas, podemos concluir que tal relacionamento improvvel de ter ocorrido por acaso, isto , no poderia ser resultado do erro amostral.

Erro do Tipo I
Suponha que avaliando a relao entre duas variveis, voc conclua que h relao entre elas, rejeitando a hiptese nula. Suponhamos agora que, na verdade, no existe tal relao entre as variveis na populao e tenhamos encontrado um efeito ocorrido apenas por acaso.
Cometemos o erro do Tipo I (rejeitar H0 quando ela verdadeira).

Se a significncia do teste () 5%, temos uma chance de 1 em 20 de cometer este erro, caso a hiptese nula seja rejeitada.
Replicao se voc observa um fenmeno uma vez, ento pode ter sido por acaso; se o observa duas, trs ou mais vezes, pode estar certo de que um resultado autntico.

Erro do Tipo II
Este erro consiste em no rejeitar H0 quando ela , de fato, falsa.
Suponha que pretendamos averiguar se existe relacionamento entre a quantidade de lcool consumido e a coordenao de uma pessoa. Um estudo realizado, e verifica-se que existe uma grande probabilidade, digamos 0,8 (80%), de que a relao observada na amostra tenha ocorrido por acaso. Voc concluir, portanto, que no existe relacionamento entre quantidade ingerida de lcool e coordenao.

Essa ser uma concluso correta? Obviamente ela incorreta, pois todas as evidncias apontam o contrrio. Esse o motivo de existirem leis que probem dirigir aps beber. Nesse caso, podemos ter cometido um erro do Tipo II, isto , rejeitamos a hiptese de pesquisa quando ela de fato verdadeira.

Erro do Tipo II
Se voc cometeu um erro do Tipo II, convm se perguntar por que , se existe relao entre as variveis na populao, o seu estudo falhou na sua deteco.
Existem vrios motivos para a ocorrncia deste tipo de problema:
1. 2. 3. Por puro acaso, voc pode ter selecionado pessoas com alta tolerncia ao lcool; Um estudo mal projetado; Tamanhos amostrais muito pequenos.

Esses fatores afetam a capacidade da pesquisa em detectar relaes ou diferenas reais na populao.

Por que estabelecer = 0,05?


E por que no = 0,20?
Porque significa que vamos tolerar um erro do Tipo I de 1 a cada 5. Isto um critrio de significncia bastante liberal.

E por que no = 0,001?


Aqui temos uma probabilidade bem menor de cometermos o erro do Tipo I (1 em 100 de rejeitarmos H0 quando verdadeira), porm aumentamos a probabilidade de cometermos o erro do Tipo II, uma vez que existiro poucas possibilidades de rejeitarmos H0.

Testes unilaterais e bilaterais


Hiptese unilateral: Aumentando as horas de estudo a nota da prova tambm aumenta. Hiptese unilateral: Aumentando a ansiedade ao teste a nota da prova diminui.

Hiptese bilateral: Existe uma relao entre ansiedade e lembranas negativas.

Hipteses subjacentes ao uso dos testes estatsticos


1. Os dados amostrais devem ser distribudos normalmente
(lembra-se do uso dos diagramas de caixas e bigodes, caule e folhas, histogramas e dos testes de normalidade).

2. As varincias amostrais devem ser aproximadamente iguais (geralmente esta violao no to catastrfica se voc
tem o mesmo nmero de participantes em cada uma das condies).

3. No devem existir escores extremos (outliers) (muitos


testes paramtricos envolvem o clculo da mdia, e esta bastante sensvel a valores extremos, podendo distorcer os resultados).

Obrigado!