Vous êtes sur la page 1sur 9

Introduo Estatstica

1- Objeto da Estatstica Estatstica uma cincia exata que visa fornecer subsdios ao analista para coletar, organizar, resumir, analisar e apresentar dados. Trata de parmetros extrados da populao, tais como mdia ou desvio padro. A estatstica fornece-nos as tcnicas para extrair informao de dados, os quais so muitas vezes incompletos, na medida em que nos do informao til sobre o problema em estudo, sendo assim, objetivo da Estatstica extrair informao dos dados para obter uma melhor compreenso das situaes que representam. Quando se aborda uma problemtica envolvendo mtodos estatsticos, estes devem ser utilizados mesmo antes de se recolher a amostra, isto , deve-se planejar a experincia que nos vai permitir recolher os dados, de modo que, posteriormente, se possa extrair o mximo de informao relevante para o problema em estudo, ou seja, para a populao de onde os dados provm. Quando de posse dos dados, procura-se agrup-los e reduzi-los, sob forma de amostra, deixando de lado a aleatoriedade presente. Seguidamente o objetivo do estudo estatstico pode ser o de estimar uma quantidade ou testar uma hiptese, utilizando-se tcnicas estatsticas convenientes, as quais realam toda a potencialidade da Estatstica, na medida em que vo permitir tirar concluses acerca de uma populao, baseando-se numa pequena amostra, dando-nos ainda uma medida do erro cometido. Exemplo: Ao chegarmos a uma churrascaria, no precisamos comer todos os tipos de saladas, de sobremesas e de carnes disponveis, para conseguirmos chegar concluso de que a comida de boa qualidade. Basta que seja provado um tipo de cada opo para concluirmos que estamos sendo bem servidos e que a comida est dentro dos padres. 2- Populao e amostra Qualquer estudo cientfico enfrenta o dilema de estudo da populao ou da amostra. Obviamente teria-se uma preciso muito superior se fosse analisado o grupo inteiro, a populao, do que uma pequena parcela representativa, denominada amostra. Observa-se que impraticvel na grande maioria dos casos, estudar-se a populao em virtude de distncias, custo, tempo, logstica, entre outros motivos. A alternativa praticada nestes casos o trabalho com uma amostra confivel. Se a amostra confivel e proporciona inferir sobre a populao, chamamos de inferncia estatstica. Para que a inferncia seja vlida, necessria uma boa amostragem, livre de erros, tais como falta de determinao correta da populao, falta de aleatoriedade e erro no dimensionamento da amostra. Quando no possvel estudar, exaustivamente, todos os elementos da populao, estudam-se s alguns elementos, a que damos o nome de Amostra. Exemplo: Se o objetivo for estudar o desempenho escolar de um colgio, indicado estudar as notas dos alunos ao final do ano letivo. A partir da poderemos facilmente obter a percentagem de aprovaes e reprovaes. Agora, se o interesse for aprofundar o estudo, saber se, por exemplo, o sucesso no estudo pode ser atribudo para as alunas ou alunos, deveremos recolher no somente a informao relativa nota do aluno que aprovou ou no, mas tambm para cada um, o sexo. Aprovados Masculino 28% Feminino 13% Total 41% Quando a amostra no representa corretamente a populao diz-se enviesada e a sua utilizao pode dar origem a interpretaes erradas.

3- Dados, tabelas e grficos. Distribuio de freqncia. Quando da anlise de dados, comum procurar conferir certa ordem aos nmeros tornando-os visualmente mais amigveis. O procedimento mais comum o de diviso por classes ou categorias, verificando-se o nmero de indivduos pertencentes a cada classe. 1. Determina-se o menor e o maior valor para o conjunto: 2. Definir o limite inferior da primeira classe (Li) que deve ser igual ou ligeiramente inferior ao menor valor das observaes: 3. Definir o limite superior da ltima classe (Ls) que deve ser igual ou ligeiramente superior ao maior valor das observaes: 4. Definir o nmero de classes (K), que ser calculado usando . Obrigatoriamente deve estar compreendido entre 5 a 20. 5. Conhecido o nmero de classes define-se a amplitude de cada classe: 6. Com o conhecimento da amplitude de cada classe, define-se o limite para cada classe (inferior e superior) Exemplo: 5,1 6,3 6,7 7,3 7,8 8,5 9,4 10,4 5,3 6,3 6,8 7,4 7,9 8,6 9,5 10,6 5,3 6,3 6,8 7,5 7,9 8,7 9,5 10,8 5,6 6,4 6,9 7,5 8 8,8 9,6 10,9 5,8 6,4 6,9 7,6 8 8,9 9,8 11,2 5,9 6,4 7 7,6 8,1 8,9 9 11,5 6 6,5 7,1 7,6 8,2 9 9 11,8 6,1 6,5 7,1 7,7 8,3 9,1 10 12,3 6,2 6,6 7,2 7,7 8,4 9,2 10,2 12,7 6,2 6,7 7,2 7,8 8,5 9,4 10,2 14,9

Regras para elaborao de uma distribuio de freqncias: 1. Determina-se o menor e o maior valor para o conjunto Valor mnimo: 5,1 Valor mximo: 14,9 2. Definir o limite inferior da primeira classe (Li) que deve ser igual ou ligeiramente inferior ao menor valor das observaes LI: 5,1 3. Definir o limite superior da ltima classe (Ls) que deve ser igual ou ligeiramente superior ao maior valor das observaes: LS: 14,9

4. Definir o nmero de classes (K), que ser calculado usando 5.

. Obrigatoriamente deve estar compreendido entre 5 a 20. Neste caso, K igual a 8,94, aproximadamente, 9. Conhecido o nmero de classes define-se a amplitude de cada classe:

No exemplo, a ser igual a: 1,11 6. Com o conhecimento da amplitude de cada classe, definem-se os limites para cada classe (inferior e superior), onde limite Inferior ser 5,1 e o limite superior ser 15 + 1,23.

Intervalo de Classe 05,00 a 06,11 06,12 a 07,23 07,24 a 08,35 08,36 a 09,47 09,48 a 10,59 10,60 a 11,71 11,72 a 12,83 12,84 a 13,95 13,96 a 15,07

Freqncia Absoluta(Fabsol) 8 22 18 13 10 5 3 0 1 80

Freqncia Acumulada Freqncia Relativa (FR) 8 10,0% 30 27,50% 48 22,50% 61 16,25% 71 12,50% 76 6,25% 79 3,75% 79 0,0% 80 1,25% 100%

OBS:

FR =

FA x100 Fabsol

Distribuies simtricas A distribuio das frequncias faz-se de forma aproximadamente simtrica, relativamente a uma classe mdia.

Caso especial de uma distribuio simtrica Quando dizemos que os dados obedecem a uma distribuio normal, estamos tratando de dados que distribuem em forma de sino. Distribuies Assimtricas A distribuio das freqncias apresenta valores menores num dos lados:

Distribuies com "caudas" longas Observamos que nas extremidades h uma grande concentrao de dados em relao aos concentrados na regio central da distribuio.

4- Moda Define-se moda como sendo: o valor que surge com mais freqncia se os dados so discretos, ou, o intervalo de classe com maior freqncia se os dados so contnuos. Assim, da representao grfica dos dados, obtm-se imediatamente o valor que representa a moda ou a classe modal Esta medida especialmente til para reduzir a informao de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais no se pode calcular a mdia e por vezes a mediana.

5- Mediana A mediana, uma medida de localizao do centro da distribuio dos dados, definida do seguinte modo: Ordenados os elementos da amostra, a mediana o valor (pertencente ou no amostra) que a divide ao meio, isto , 50% dos elementos da amostra so menores ou iguais mediana e os outros 50% so maiores ou iguais mediana Para a sua determinao utiliza-se a seguinte regra, depois de ordenada a amostra de n elementos: Se n mpar, a mediana o elemento mdio. Se n par, a mediana a semi-soma dos dois elementos mdios.

5.1-Consideraes a respeito de Mdia e Mediana Se se representarmos os elementos da amostra ordenada com a seguinte notao: X1:n , X2:n , ... , Xn:n ento uma expresso para o clculo da mediana ser: Como medida de localizao, a mediana mais robusta do que a mdia, pois no to sensvel aos dados. 1- Quando a distribuio simtrica, a mdia e a mediana coincidem. 2- A mediana no to sensvel, como a mdia, s observaes que so muito maiores ou muito menores do que as restantes (outliers). Por outro lado a mdia reflete o valor de todas as observaes. Como j vimos, a mdia ao contrrio da mediana, uma medida muito influenciada por valores "muito grandes" ou "muito pequenos", mesmo que estes valores surjam em pequeno nmero na amostra. Estes valores so os responsveis pela m utilizao da mdia em muitas situaes em que teria mais significado utilizar a mediana. A partir do exposto, deduzimos que se a distribuio dos dados: 1. for aproximadamente simtrica, a mdia aproxima-se da mediana 2. for enviesada para a direita (alguns valores grandes como "outliers"), a mdia tende a ser maior que a mediana 3. for enviesada para a esquerda (alguns valores pequenos como "outliers"), a mdia tende a ser inferior mediana.

6- Medidas de tendncia Central As mais importantes medidas de tendncia central so as mdias aritmtica, mdia aritmtica para dados agrupados, mdia aritmtica ponderada, mediana, moda, mdia geomtrica,

mdia harmnica, quartis. Quando se estuda variabilidade, as medidas mais importantes so: amplitude, desvio padro e varincia.

Medidas Mdia aritmtica Mdia aritmtica agrupados para dados

Mdia aritmtica ponderada Mediana Moda Mdia geomtrica Mdia harmnica Quartil 1) Se n impar, o valor central, 2) se n par, o valor a mdia dos dois valores centrais. Valor que ocorre com mais freqncia.

Sendo a mdia uma medida to sensvel aos dados, preciso ter cuidado com a sua utilizao, pois pode dar uma imagem distorcida dos dados. Pode-se mostrar, que quando a distribuio dos dados "normal", ento a melhor medida de localizao do centro, a mdia. Sendo a Distribuio Normal uma das distribuies mais importantes e que surge com mais freqncia nas aplicaes, (esse fato justifica a grande utilizao da mdia). A mdia possui uma particularidade bastante interessante, que consiste no seguinte: se calcularmos os desvios de todas as observaes relativamente mdia e somarmos esses desvios o resultado obtido igual a zero. A mdia tem uma outra caracterstica, que torna a sua utilizao vantajosa em certas aplicaes: Quando o que se pretende representar a quantidade total expressa pelos dados, utilizase a mdia. Na realidade, ao multiplicar a mdia pelo nmero total de elementos, obtemos a quantidade pretendida. 6 - Medidas de disperses Introduo No captulo anterior, vimos algumas medidas de localizao do centro de uma distribuio de dados. Veremos agora como medir a variabilidade presente num conjunto de dados atravs das seguintes medidas: 6.1- Medidas de disperso Um aspecto importante no estudo descritivo de um conjunto de dados, o da determinao da variabilidade ou disperso desses dados, relativamente medida de localizao do centro da amostra. Supondo ser a mdia, a medida de localizao mais importante, ser relativamente a ela que se define a principal medida de disperso - a varincia, apresentada a seguir.

6.2- Varincia Define-se a varincia, como sendo medida que se obtm somando os quadrados dos desvios das observaes da amostra, relativamente sua mdia, e dividindo pelo nmero de observaes da amostra menos um.

6.3- Desvio-padro Uma vez que a varincia envolve a soma de quadrados, a unidade em que se exprime no a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou disperso com as mesmas unidades que os dados, tomamos a raiz quadrada da varincia e obtemos o desvio padro: O desvio padro uma medida que s pode assumir valores no negativos e quanto maior for, maior ser a disperso dos dados. Algumas propriedades do desvio padro, que resultam imediatamente da definio, so: o desvio padro ser maior, quanta mais variabilidade houver entre os dados.

Exemplo: Em uma turma de aluno, verificou-se atravs da anlise das notas de 15 alunos, o seguinte desempenho: Alunos Conceito na Prova 1 4,3 2 4,5 3 9 4 6 5 8 6 6,7 7 7,5 8 10 9 7,5 10 6,3 11 8 12 5,5 13 9,7 14 9,3 15 7,5 Total 109,8 Mdia 7,32 Desvio Padro 1,77 Observamos no exemplo, que a dia das provas, foi estimada em 7,32 com desvio padro em 1,77. Conclumos que a maioria das notas concentrou-se em 9,09 e 5,55.

Distribuio Normal A distribuio normal a mas importante distribuio estatstica, considerando a questo prtica e terica. J vimos que esse tipo de distribuio apresenta-se em formato de sino, unimodal, simtrica em relao a sua mdia.

Considerando a probabilidade de ocorrncia, a rea sob sua curva soma 100%. Isso quer dizer que a probabilidade de uma observao assumir um valor entre dois pontos quaisquer igual rea compreendida entre esses dois pontos.

68,26% => 1 desvio 95,44% => 2 desvios 99,73% => 3 desvios Na figura acima, tem as barras na cor marrom representando os desvios padres. Quanto mais afastado do centro da curva normal, mais rea compreendida abaixo da curva haver. A um desvio padro, temos 68,26% das observaes contidas. A dois desvios padres, possumos 95,44% dos dados comprendidos e finalmente a trs desvios, temos 99,73%. Podemos concluir que quanto maior a variablidade dos dados em relao mdia, maior a probabilidade de encontrarmos o valor que buscamos embaixo da normal. Propriedade 1: "f(x) simtrica em relao origem, x = mdia = 0; Propriedade 2: "f(x) possui um mximo para z=0, e nesse caso sua ordenada vale 0,39; Propriedade 3: "f(x) tende a zero quando x tende para + infinito ou - infinito; Propriedade 4: "f(x) tem dois pontos de inflexo cujas abscissas valem mdia + DP e mdia - DP, ou quando z tem dois pontos de inflexo cujas abscissas valem +1 e -1. Para se obter a probabilidade sob a curva normal. Exemplo: As alturas de grupo de crianas so tidas como normais em sua distribuio, com desvio padro em 0,30m e mdia em 1,60. Qual a probabilidade de um aluno medir (1) entre 1,50 e 1,80, (2) mais de 1,75 e menos de 1,48? (1) z1= (1,50-1,60)/0,30=-0,33 z2= (1,80-1,60)/0,30= 0,67 Ento, z1 (0,1293) + z2 (0,2486) = 37,79% (2) z1= (1,75-1,60)/0,30=0,30 0,500-0,1915 = 30,85% (3) Z1= (1,48-1,50)/0,30 =-0,4 0,500-0,1554 = 34,46%

Exerccios

1. Supondo que a varivel escolhida de um pesquisa, seja nominal e a populao finita de 600 indivduos (onde 60% dos indivduos so mulheres). Deseja-se trabalhar com um alpha de 5% e um erro amostral de 7%. Calcule o tamanho da amostra. 2. Organize os dados abaixo em uma tabela de distribuio de freqncia, contendo o intervalo de classe, a freqncia absoluta, a freqncia acumulada, a freqncia relativa e a freqncia relativa acumulada. 20 22 23 23 23 24 24 24 ,4 ,3 ,1 ,5 ,8 ,1 ,3 ,3 6 26 25 25 25 25 25 25 25 ,0 ,0 ,1 ,3 ,3 ,4 ,6 ,7 8 26 26 26 26 26 26 26 26 ,0 ,1 ,2 ,2 ,3 ,5 ,6 ,7 8 27 27 27 25 27 27 28 28 ,1 ,1 ,3 ,7 ,7 ,9 ,0 ,3 7

24, 25, 26, 28,

3. Trs arremessadores de disco, treinam para a Olimpada. Os atletas arremessam seus discos a 66 metros de distncia (em mdia), com desvio padro de 6,1 metros. Qual a probabilidade de um atleta lanar seu disco entre 64 e 67 metros? 4. Foi encomendado um estudo para avaliao de uma entidade de ensino superior. Para isso, aplicou-se um questionrio e obteve-se respostas de 110 alunos. Indique: a) a varivel em estudo; c) a populao em estudo; b) a amostra escolhida; 5. Indique abaixo quais amostras so consideradas boas: a) Em um cinema, desejou-se verificar quais eram as intenes de voto para a prxima eleio. As pessoas entrevistadas, eram as que estavam presentes b) Para saber a opinio a respeito de mtodos contraceptivos, resolveu-se aplicar um estudo em uma escola de ensino fundamental, junto aos alunos. 6. Em uma pesquisa realizada em uma escola, identificou-se os seguintes indicadores (1) idade (2) anos de estudo (3) ano de escolaridade (4) renda (5) sexo (6) local de estudo (7) conceito obtido na ltima prova de biologia (8) Quantidade de livros que possui a) Das variveis acima, quais so as quantitativas e quais so as qualitativas? b) Das variveis quantitativas, diga quais so discretas 9. Porque se realiza na Estatstica, o estudo descritivo?

10. Num quartel, constatou-se que o peso mdio de 40 soldados era de 69 Kilos. Posteriormente, verificou-se que a balana estava desregulada, ocasionando um peso indicado superior em 15 gramas ao peso verdadeiro. Qual era a mdia verdadeira dos pesos dos soldados? 11. Ao procurar emprego, um determinado cidado, teve que optar por duas ofertas dispostas em um classificados. Qual a que representa a melhor opo? Porque? Oferta 1 Oferta 2 Mdia Salarial 890,00 950,00 Mediana 800,00 700,00 Desvio Padro 32,00 38,00 12. Um produto pesa, em mdia, 10g, com desvio-padro de 2 g. embalado em caixas com 50 unidades. Sabe-se que as caixas vazias pesam 500g, com desvio-padro de 25g. Admitindo-se uma distribuio normal dos pesos e independncia entre as variveis dos pesos do produto e da caixa, calcular a probabilidade de uma caixa cheia pesar mais de 1050g.

Utilize a figura acima para o desenvolvimento da questo, onde a primeira repartio, direita, representa a probabilidade da caixa pesar 1050g.

Vous aimerez peut-être aussi