Vous êtes sur la page 1sur 35

UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMTICA - DEPARTAMENTO DE ESTATSTICA

MAT 027 - ESTATISTICA IV

A P O S T I L A 1: E S T A T I S T I C A D E S C R I T I V A
1

PREFCIO

Prefcio primeria verso A atual estrutura complexa de nossa sociedade introduziu a necessidade de um estudo cada vez mais detalhado acerca das informaes disponveis. Assim, todos os cursos da Universidade tm, em algum momento, necessidade de fazer uso da Estatstica, como metodologia, dado o carter quantitativo de grande parte das pesquisas realizadas. Assim, em alguma fase de seu trabalho, o pesquisador se v s voltas com o problema de analisar e entender uma massa de dados, relevante ao seu particular objeto de estudos. Se forem informaes sobre uma amostra ou populao, ele necessitar resumir os dados para que estes sejam informativos, ou para compar-los com outros resultados, ou ainda para julgar sua adequao a alguma teoria. Segundo BERQU et alii (1981), o papel da Estatstica na pesquisa cientca est em contribuir junto ao investigador: na formulao das hipteses cientcas e xao das regras de deciso; no fornecimento de tcnicas para um eciente delineamento de pesquisa; na coleta, tabulao e anlise dos dados empricos (estatstica descritiva) e em prover testes de hipteses a serem realizados de tal modo que a incerteza da inferncia indutiva possa ser expressa em um nvel probabilstico pr-xado (estatstica indutiva). Este curso de estatstica de apenas um semestre objetiva primordialmente que o aluno conhea a linguagem (jargo da estatstica) e as palavras-chave para poder trocar idias e/ou consultar um estatstico, bem como que o aluno tenha o mnimo conhecimento tcnico para realizao de uma futura anlise, fornecendo com certa segurana as interpretaes dos dados. Alm disso, esse conhecimento permitir uma leitura mais crtica de artigos de sua rea de interesse. Esperamos que, apesar da abordagem ampla e supercial, este curso possa contribuir para a formao dos futuros licenciados e bacharis no que tange metodologia estatstica. Leila Denise Alves Ferreira em 2001.

Prefcio segunda verso Esta nova verso da apostila do curso Estatstica IV, uma disciplina ministrada essencialmente aos alunos de graduao da rea de sade na UFBa, reapresenta o material inicialmente proposto pela professora Leila, agora com algumas correes que se zeram necessrias a partir das experincias vividas pelos professores que a utilizou nesses 4 ltimos semestres. Fundamentalmente, as diferenas entre as duas verses dizem respeito a algumas falhas de impresso, detectadas principalmente em algumas frmulas, alm das guras que receberam nova denio visual. A verso on line, agora apresentada no formato pdf, pode ser baixada a partir do endereo: www.est.ufba.br/mat027. O curso est dividido em trs mdulos: Estatstica Descritiva, Probabilidade e Inferncia, cujo objetivo proporcionar ao aluno o conhecimento bsico de Estatstica para uso em situaes relacionadas com o seu campo de estudo. Maristela D. de Oliveira e Angelo Marcio O. Santanna em 2002.

Introduo

A palavra estatstica deriva da expresso status, em latim, e signica o estudo do estado. Foi pensada pelos ingleses, no sculo XVI, como uma cincia poltica, destinada a descrever caractersticas de um estado ou pas, tais como populao, rea, riqueza e recursos naturais (Laurenti et al. 1985), envolvendo compilaes de dados e grcos. Em 1662, John Graunt publicou informes estatsticos sobre nascimentos e mortes. A partir da deuse incio ao desenvolvimento da probabilidade e estatstica, sobretudo a partir do sculo XVII, com o estudo das grandes epidemias que assolavam o mundo, dando ensejo ao desenvolvimento da demograa. Em cada sculo seguinte mais e mais reas foram se incorporando ao conjunto das que faziam uso da estatstica. Na ltima dcada, com a grande revoluo da informtica, houve um avano signicativo das reas de probabilidade e estatstica, com o desenvolvimento de softwares mais poderosos, deixando disposio do pesquisador muitas ferramentas alternativas ao seu trabalho (BOTTER, et alii, 1996) Hoje em dia a maior parte das decises tomadas em quase todas as reas de atividade humana moderna (por exemplo, avaliao de novos tratamentos mdicos e de novos terminais de atendimento bancrio, do planejamento de pesquisas cientcas, de estratgias de marketing e investimento, para citar algumas) tm suas bases na estatstica - denida, a grosso modo, como a coleta, anlise e interpretao de dados, ou de forma mais ampla, como a cincia da tomada de deciso perante incertezas. Como j foi dito anteriormente, a Estatstica engloba um grande leque de ferramentas de anlise. Com nalidade didtica iremos dividir a estatstica em dois grandes grupos: a) Estatstica Descritiva: Por conta da quantidade de dados geralmente ser to grande, extremamente difcil captar intuitivamente as informaes que os dados contm. necessrio, portanto, que as informaes sejam reduzidas at o ponto em que se possa interpret-las mais claramente. A estatstica descritiva vai resumi-las atravs do uso de certas medidas-sntese, que tornem possvel a interpretao de resultados. No sentido mais amplo, suas funes so: coleta de dados; organizao e classicao destes dados; apresentao atravs de grcos e tabelas; clculo de coecientes (estatsticos), que permitem descrever resumidamente os fenmenos. b) Indutiva ou Inferncia Estatstica : Consiste em obter e generalizar concluses; ou seja, inferir propriedades para o todo com base na parte, no particular. tratada atravs de tcnicas e mtodos que se fundamentam na Teoria das Probabilidades. Em estatstica utilizaremos extensivamente os termos populao e amostra. Assim, deniremos esses termos no contexto da estatstica: Populao: conjunto da totalidade dos elementos (valores, pessoas, medidas) a serem estudados. Congrega todas as observaes que sejam relevantes para o estudo de uma ou mais caractersticas dos indivduos. Podem ser tanto seres animados ou inanimados. Amostra: um subconjunto de elementos extrados de uma populao. Censo: uma coleo de dados relativos a todos os elementos de uma populao. O esquema a seguir tenta sintetizar, com um exemplo, as etapas de uma pesquisa estatstica:

Populao

Amostra

Tratamento de dados

Inferncia estatstica

Estatstica descritiva

Teoria das probabilidades

2
2.1

ESTATSTICA DESCRITIVA
FASES DO TRABALHO ESTATSTICO

A estatstica est envolvida em todas as etapas de um projeto de pesquisa. A seguir as fases de um trabalho cientifco so citadas do ponto de vista do trabalho estatstico. As fases do trabalho estatstico so do mbito da Estatstica Descritiva, e so as principais fases as seguintes: 1. Denio do Problema: formulao completa do problema a ser estudado. Levantamento de outros trabalhos realizados no mesmo campo e anlogos, uma vez que parte da informao de que se necessita pode ser encontrado nestes ltimos. 2. Planejamento: determinao do procedimento necessrio para resolver o problema e, em especial, como levantar informaes sobre o assunto objeto de estudo. Preocupao com a formulao correta das perguntas, qualquer que seja a modalidade de coleta de dados. nesta fase que ser escolhido o tipo de levantamento a ser utilizado, que pode ser censitrio ou por amostragem. Outros elementos importantes a serem pr-estabelecidos desta fase so: o cronograma das atividades (xao de prazo para as vrias fases); os custos envolvidos; exame das informaes disponveis; o delineamento da amostra (se necessria); a forma como sero escolhidos os dados; elaborao do questionrio. 3. Coleta de dados (quesitos especcos para obter informaes desejadas): refere-se obteno, reunio e registro sistemtico de dados, com um objetivo determinado. Alm dos registros feitos pelo prprio pesquisador, pode-se recorrer a fontes externas de dados. 4. Crtica dos questionrios: leitura dos questionrios, observao de respostas incompletas, erradas. Supresso de valores estranhos ao levantamento. 5. Apurao dos dados: consiste em resumir os dados, atravs de sua contagem e agrupamento. um trabalho de condensao e de tabulao dos dados, que chegam ao analista de forma desorganizada, tornando impossvel a tarefa de apreender todo o seu signicado pela simples leitura. Nos dias atuais esta apurao tornou-se sinnimo de organizao de base de dados, que realizada em computadores. 6. Apresentao dos Dados: h duas formas de apresentao: 4

(a) Apresentao Tabular: apresentao numrica dos dados. As tabelas tm a vantagem de conseguir expor, sinteticamente, e em um s local, os resultados sobre determinado assunto, de modo a se obter uma viso global mais rpida daquilo que se pretende analisar. (b) Apresentao Grca: constitui uma apresentao geomtrica. de extrema importncia, no sentido de permitir uma viso rpida, fcil e clara do fenmeno e sua variao. 7. Anlise e Interpretao dos Dados: O interesse maior consiste em tirar concluses que auxiliem o pesquisador a resolver seu problema. A analise dos dados estatsticos est ligada essencialmente ao clculo de medidas, cuja nalidade principal descrever o fenmeno. Assim, o conjunto de dados a ser analisado pode ser expresso por nmeros-resumos, as estatsticas, que evidenciam caractersticas particulares desse conjunto. O signicado exato de cada um desses valores ser explicado posteriormente.

2.2

CLASSIFICAO DE VARIVEIS

Deniremos varivel como qualquer atributo/caracterstica que exera inuncia no fenmeno estudado. Por exemplo, desejamos registrar a idade das pessoas ao morrer, a estatura ou peso dos indivduos, o rendimento das famlias em uma grande cidade, o nmero de empregados dispensados, por ms, em uma grande empresa, a distribuio dos alunos por sexo, etc. Antes da escolha da anlise descritiva apropriada necessria a classicao da varivel de interesse, pois a adequao da tcnica est diretamente relacionada ao tipo de varivel em questo. De acordo com a estrutura numrica as variveis podem ser classicadas em: Quantitativas - se os resultados das observaes sero expressos sempre atravs de nmeros, que representam contagens ou medidas. Ex: Idade, Altura, Peso, Nmero de nascidos vivos, Populao. Qualitativas - se os resultados das observaes sero expressos atravs de categorias, que se distinguem por alguma caracterstica no-numrica. Ex: Sexo, Nvel de escolaridade, Cor da pele, Estado civil, Tipo sanguneo. As variveis qualitativas podem ser classicadas, por sua vez, em: 1. Nominal - caracteriza-se por dados que consistem apenas em nomes, rtulos ou categorias. Os dados no podem ser dispostos segundo um esquema ordenado. Ex: Estado civil 2. Ordinal - envolve dados que podem ser dispostos em alguma ordem, mas as diferenas entre os valores dos dados no podem ser determinadas ou no tem sentido. Ex: Nvel de escolaridade. Em relao s variveis quantitativas, estas podem ser classicadas em: 1. Discreta - s pode assumir valores pertencentes a um conjunto nito ou enumervel. Ex: Nmero de alunos presentes s aulas de determinado professor; nmero de mortos em um surto de determinada doena. Geralmente, seus valores so resultados de um processo de contagem, razo pela qual seus valores so expressos atravs de nmeros inteiros no-negativos. 2. Contnua - pode assumir qualquer valor pertencente a um determinado intervalo do conjunto dos Reais. Ex: Estatura e peso de atletas de um time de voley; temperatura mxima diria. Pode-se dizer que a varivel contnua resulta normalmente de mensuraes.

2.3

TIPOS DE SRIES ESTATSTICAS

Srie estatstica uma sucesso de dados estatsticos que medem a intensidade do fenmeno, segundo suas caractersticas qualitativas ou quantitativas. As sries estatsticas sero classicadas de acordo com a variao de trs elementos: tempo, local e o fato. So elas: Srie Histrica - aquela em que o elemento que serve como base de classicao a frao do tempo, como o dia, o ms, o ano, o sculo, etc.. Ex: : Taxa de mortalidade infantil nos ltimos 10 anos na cidade do Salvador-Ba. Srie Geogrca - aquela que apresenta como elemento varivel somente o local (fator geogrco). Ex: A produo de cereais no Brasil, em 1996, segundo os Estados produtores. Srie Especca - aquela srie que apresenta como elemento ou carter varivel o fato(ou espcie), permanecendo xos a poca e o local. Ex: Os alunos de uma Faculdade, em determinado ano, classicados segundo o tipo sanguneo. Srie Mista - refere-se s sries que so combinaes de outros tipos de sries j estudadas. Classicao da populao brasileira segundo as Unidades da Federao e o sexo.

2.4
2.4.1

APRESENTAO DOS DADOS


ELABORAO DE TABELAS

Aps a apurao, h a necessidade de os dados e os resultados obtidos a partir daqueles serem dispostos de uma forma ordenada e resumida, a m de auxiliar o pesquisador na anlise e facilitar a compreenso das concluses apresentadas ao leitor. Os dados e os resultados so ento apresentados na forma de tabelas. Uma tabela deve ser auto-suciente, isto , deve ter signicado prprio, de modo a prescindir, quando isolada, de consultas ao texto. A elaborao de tabelas obedece Resoluo no 886, de 26 de outubro de 1966, do Conselho Nacional de Estatstica. Uma tabela possui elementos essenciais e complementares. Os elementos essenciais so: Ttulo - obrigatrio. Deve conter a designao do fato observado, o local e a poca em que foi registrado. Deve ser claro e conciso. colocado na parte superior da tabela. Corpo da tabela - o conjunto de colunas e linhas onde se encontram as informaes numricas sobre o fato observado. Casa, clula ou cela - o cruzamento de cada linha com uma coluna, onde se tem a frequncia com que a categoria aparece. Cabealho - a parte superior da tabela, onde se especica o contedo de cada coluna. Coluna indicadora - a parte da tabela em que se especica o contedo de cada linha. Os elementos complementares so: Fonte - a indicao da entidade responsvel pelo fornecimento ou elaborao dos dados. colocado no rodap da tabela. Notas - so colocadas abaixo da fonte, se necessrias. Contm informaes gerais destinadas a conceituar ou esclarecer o contedo das tabelas. Chamadas - tambm colocadas no rodap (se necessrias). Servem para esclarecer minncias em relao s casas, colunas ou linhas.

Algumas observaes fazem-se importantes na elaborao de uma tabela. So elas: 1. Nenhuma casa da tabela deve car em branco. Na ausncia de um dado numrico, emprega-se alguns dos sinais convencionais, como hfen, reticncias, etc. (Veja explicao em sala de aula com seu professor). 2. As tabelas devem ser fechadas no alto e embaixo por linhas horizontais, no sendo fechadas direita ou esquerda por linhas verticais. facultativo o emprego de traos verticais para a separao de colunas no corpo da tabela. 3. Em publicaes que compreendem muitas tabelas, estas devem ser numeradas em ordem crescente, conforme a ordem do aparecimento. 4. Os totais e subtotais devem ser destacados. 5. Dever ser mantida a uniformidade, quanto ao nmero de casas decimais. 2.4.2 DISTRIBUIO DE FREQUNCIA

As distribuies de frequncias constituem-se num caso particular das sries estatsticas, nas quais todos os elementos so xos. Agora os dados referentes ao fenmeno so apresentados atravs de gradaes, onde feita a correspondncia entre categorias ou valores possveis e as frequncias respectivas. A denio de alguns conceitos ser importante para o uso da linguagem apropriada ao elaborarmos e analisarmos as distribuies de frequncias. No total, so 9 conceitos a serem apresentados. A seguir deniremos 5 primeiros, vlidos para quaiquer distribuio de freqncias, e mais adiante apresentaremos os 4 ltimos, especcos para dados agrupados em classes.: 1. Dados Brutos - o conjunto dos dados numricos obtidos aps a coleta dos dados. Ex: Idade dos alunos do curso de medicina veterinria da UFBA, no ano de 1993. 24 - 23 - 22 - 28 - 35 - 21 - 23 - 33 - 34 - 24 - 21 - 25 - 36 - 26 - 22 - 30 - 32 - 25 26 - 33 - 34 - 21 - 31 - 25 - 31 - 26 - 25 - 35 - 33 - 31 Como pode ser observado, os valores esto dispostos de forma desordenada. Em razo disso, pouca informao se consegue obter inspecionando-se os dados anotados. Mesmo uma informao to simples como a de saber os valores mnimos e mximo requer um certo exame dos dados coletados. 2. Rol - o arranjo dos dados brutos em uma determinada ordem crescente ou decrescente. Ex: Utilizando os mesmos dados anteriores: 21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31 -32 - 33 - 33 33 - 34 - 34 - 34 - 35 - 35 - 36 Apresenta vantagens concretas em relao aos dados brutos. Ela torna possvel visualizar, de forma bem ampla, as variaes dos dados, uma vez que os valores extremos so percebidos de imediato. Mas, a anlise com este tipo de disposio comea a se complicar quando o nmero de observaes tende a crescer. 3. Amplitude total ou range (A) - a diferena entre o maior e o menor valor observado da varivel em estudo. Ex: Utilizando os mesmos dados anteriores: A = 36 - 21 = 15. 4. Frequncia absoluta simples (fi ) - o nmero de vezes que o elemento aparece na amostra ou o nmero de elementos pertencentes a uma classe.

5. Frequncia total (ft ) - a soma das frequncias simples absolutas de todos os elementos observados. Para condensarmos melhor os dados, aconselhvel a elaborao de distribuies de frequncia. Uma tabela com distribuio de frequncia uma tabela onde se procura fazer um arranjo dos valores e suas respectivas frequncias, onde a frequncia de determinado valor ser dado pelo nmero de observaes ou repeties de um valor ou de uma modalidade. As tabelas de frequncias podem representar tanto valores individuais como valores agrupados em classes. Essas tabelas podem ser classicadas em: Distribuio de Frequncias de Dados Tabulados No-Agrupados em Classes - uma tabela onde os valores da varivel aparecem individualmente. Esse tipo de distribuio utilizado geralmente para representar uma varivel discreta, com pouca variedade de valores. Exemplo : Utilizando os mesmos dados anteriores, a tabela a seguir representa a distribuio de frequncias de dados no agrupados. Tabela 1: Idade dos alunos do curso de medicina veterinria da UFBA, no ano de 1993. Idade (Xi ) fi 21 3 22 2 23 2 24 1 25 4 26 3 28 1 30 1 31 3 32 1 33 3 34 3 35 2 36 1 TOTAL (fi ) 30 Fonte: (dados hipotticos) Este tipo de tabela no aconselhvel quando estamos trabalhando com variveis que apresentam uma grande quantidade de valores distintos, uma vez que a tabela poder car muito extensa, dicultando, alm de sua elaborao, as anlises e concluses dos dados pesquisados. Note que a soma das frequncias absolutas simples sempre igual ao nmero total de valores observados. Distribuio de Frequncias de Dados Agrupados em Classes. Muitas vezes com o objetivo de resumir os dados originais em uma distribuio de frequncias, utilizaremos os dados agrupados em classes e no mais individualmente. Classe pode ser denida como sendo os subintervalos da Amplitude Total de uma varivel (grupo de valores). Quando a varivel objeto de estudo for contnua geralmente ser conveniente agrupar os valores observados em classes. Se, por outro lado, a varivel for discreta e o nmero de valores representativos dessa varivel for muito grande, recomenda-se o agrupamento dos dados em classes. Nesse ltimo caso, o procedimento visa a evitar certos inconvenientes, como: 8

1. grande extenso da tabela, dicultando, tanto quanto os dados brutos, a leitura e a interpretao dos resultados apurados. 2. o aparecimento de diversos valores da varivel com frequncia nula. 3. impossibilidade ou diculdade de visualizao do comportamento do fenmeno como um todo, bem como de sua variao. Este tipo de tabela informa, de imediato, a tendncia de a srie se concentrar em torno de um valor central, alm de proporcionar uma viso panormica do comportamento da varivel, o que seria impossvel de se fazer a partir da lista dos dados brutos. Ex: Utilizando os mesmos dados anteriores, temos:

Tabela 2: Idade dos alunos do curso de medicina veterinria da UFBA, no ano de 1993. Idade Frequncias (fi ) 21 | 24 7 24 | 27 8 27 | 30 1 30 | 33 5 33 | 36 9 TOTAL 30 Fonte: (dados hipotticos)

O smbolo | indica a incluso do limite inferior do intervalo naquela classe. Outras possibidades so: | , || , Para construo de tabelas de frequncia para dados agrupados em classe os 4 conceitos listados a seguir, complementam os 5 primeiros j apresentados: 1. Denio do nmero de classes - representado por k. importante que a distribuio conte com um nmero adequado de classes. Se esse nmero for escasso, os dados originais caro to comprimidos que pouca informao poder ser extrada desta tabela. Se, por outro lado, forem utilizadas muitas classes, haver algumas com frequncia nula ou muito pequena, apresentando uma distribuio irregular e prejudicial interpretao do fenmeno. Para determinar o nmero de classes h diversos mtodos. Ns aprenderemos duas solues: (a) k = 5, para n 25 e k = n , para n > 25. (b) Frmula de Sturges: K = 1 + 3, 3 log10 n, onde n o tamanho da amostra Exemplo: Se n = 49 teramos:

pelo primeiro mtodo: k = 7 pelo segundo mtodo: k = 1 + 3, 3 log10 49 ==> k = 6, 58 ==> k 7 Mesmo tendo outros critrios de determinao do nmero de classes, o que se deve ter em mente que a escolha depender sobretudo da natureza dos dados e da unidade de medida em que eles se encontram, e no somente de regras muitas vezes arbitrrias e pouco exveis. Para facilitar a anlise conveniente que se mantenham os intervalos de classe sempre constantes. 2. Limites de Classe - Os limites de classe so seus valores extremos. No exemplo anterior de distribuio de frequncia, o valor 21 denominado limite inferior da primeira classe, enquanto o valor 24 denominado limite superior da primeira classe. 9

3. Amplitude do Intervalo de Classe (h) - A amplitude de um intervalo de classe corresponde ao comprimento desta classe. Numericamente, sua amplitude pode ser denida como a diferena existente entre os limites superior (ou inferior) de duas classes consecutivas. Ex: Utilizando os mesmos dados anteriores: h = 24 21 = 3 4. Pontos Mdios ou Centrais da Classe (xj ) - a mdia aritmtica simples entre o limite superior e o inferior de uma mesma classe. Ex: Utilizando os mesmos dados anteriores: x1 =
24+21 2

= 22, 5

Para obter os pontos mdios das demais classes, basta acrescentar ao ponto mdio da classe precedente a amplitude do intervalo de classe.

TIPOS DE FREQUNCIAS Absoluta Frequncias Simples Relativa

Frequncia Acumulada

Abaixo de Absoluta (crescente) Relativa Acima de Absoluta Relativa (dcrescente)

1. Frequncia Simples:

(a) Frequncia Simples Absoluta (fi ) - o nmero de repeties de um valor individual ou de uma classe de valores da varivel. Trata-se do caso visto at o presente momento. (b) Frequncia Simples Relativa (fri ) - representa a proporo de observaes de um valor individual ou de uma classe, em relao ao nmero total de observaes. Trata-se, portanto, de um nmero relativo. fri =
f Pi fi

fi ft

(1)

Desejando expressar o resultado em termos percentuais, multiplica-se o quociente obtido por 100: fri = 2. Frequncias Acumuladas: (a) Frequncias Acumuladas Abaixo de : i. Absoluta (Fiab ) - a soma da frequncia simples absoluta de uma classe ou de um dado valor com as frequncias simples absolutas das classes ou dos valores anteriores. A expresso abaixo de refere-se ao fato de que as frequncias a serem acumuladas correspondem aos valores menores ou anteriores ao valor ou classe cuja frequncia acumulada se deseja obter, incluindo no clculo a frequncia do valor ou da classe. utilizada toda vez que se procura saber quantas observaes existem at uma determinada classe ou valor individual. 10
fi n .100

(2)

ii. Relativa (Friab ) - a soma da frequncia simples relativa dessa classe ou desse valor com as frequncias simples relativas das classes ou dos valores anteriores. (b) Frequncias Acumuladas Acima de: i. Absoluta (Fiac ) - representa o nmero de observaes existentes alm do valor ou da classe, incluindo no clculo as observaes correspondentes a esse valor ou a essa classe. Para obter este tipo de frequncia, basta somar frequncia simples absoluta da classe ou do valor individual, as frequncias simples absolutas das classes ou dos valores individuais posteriores. ii. Relativa (Friac ) - igual soma da frequncia simples relativa dessa classe ou desse valor com as frequncias simples relativas das classes ou dos valores posteriores. Exemplo com as frequncias apresentadas.

Tabela 3: Idade dos alunos do curso de medicina veterinria da UFBA, no ano de 1993. Idade N o de alunos(fi ) fri fri (%) Fiab Fiab (%) Fiac Fiac (%) 21 | 24 7 0.23 23 7 23 30 100 24 | 27 8 0.27 27 15 50 23 77 27 | 30 1 0.03 3 16 53 15 50 30 | 33 5 0.17 17 21 70 14 47 33 | 36 9 0.30 30 30 100 9 30 TOTAL 30 1.00 100 ... ... ... ... Fonte: (dados hipotticos)

2.4.3

APRESENTAO GRFICA

A apresentao grca um complemento importante da apresentao tabular. A principal vantagem de um grco sobre a tabela prende-se ao fato de que ele permite conseguir uma visualizao imediata da distribuio dos valores observados. Propiciam os grcos uma idia preliminar mais satisfatria da concentrao e disperso dos valores, uma vez que atravs deles os dados estatsticos se apresentam em termos de grandezas visualmente interpretveis. Os grcos devem ser auto-explicativos e de fcil compreenso, de preferncia sem comentrios inseridos. Devem ser simples, atrair a ateno do leitor e inspirar conana. Todo grco deve apresentar um ttulo e uma escala, dispensando esclarecimentos adicionais no texto. Os grcos podem ser cartogramas ou diagramas. Identiquemos cada um deles: 1. Cartogramas - so mapas geogrcos ou topogrcos em que as frequncias das categorias de uma varivel so projetadas nas reas especcas do mapa, utilizando-se cores ou traados cujos signicados constam em legendas anexadas s guras. Em epidemiologia, os mapas alnetados so de grande emprego para apreciar o aparecimento e expanso de certas molstias. Esse tipo de representao grca de grande utilidade em Sade Pblica, sobretudo na elaborao de inquritos epidemiolgicos em que se deseja conhecer a distribuio geogrca de casos e bitos de uma determinada doena epidmica. 2. Diagramas - so grcos em que a magnitude das frequncias representada por certa mensurao de uma determinada gura geomtrica. So os grcos mais usados na representao de sries estatsticas e se apresentam atravs de uma grande variedade de tipos. 11

Tipos de Diagramas: (a) Grcos em Linhas ou Grcos Lineares - So frequentemente usados para a representao de sries temporais. As linhas so mais ecientes neste tipo de grco porque permitem a deteco de intensas utuaes nas sries e tambm possibilitam a representao de vrias sries em um mesmo grco. (b) Grcos Pictricos (Pictogramas) - So grcos construdos a partir de guras ou conjunto de guras representativas da intensidade ou das modalidades do fenmeno. So grcos muito comuns em jornais e revistas, tendo como principal vantagem o fato de despertar a ateno do pblico leitor. (c) Grcos em Barras - Tm por nalidade comparar grandezas, por meio de retngulos de igual largura e alturas proporcionais s respectivas grandezas. Cada barra representa a intensidade de uma modalidade ou atributo. (d) Grcos em Colunas - Prestam-se mesma nalidade dos grcos em barras horizontais, sendo, entretanto, preferveis a esses ltimos quando as legendas a se inscreverem sob os retngulos forem breves. (e) Grcos de Colunas Remontadas ou de Barras Agrupadas - So utilizados para estabelecer comparaes entre duas ou mais categorias. (f) Grcos em Setores - So utilizados para representar valores absolutos ou porcentagens complementares. Utilizados quando se pretende comparar cada valor da srie com o total. A seguir podemos encontrar alguns tipos de diagramas, sendo que o Box-Plot ser explicado mais adiante.

a. Grco em linha:
Grfico 1. Quantidade de resduos industriais jogados no rio Acushnet, em partes por milho, em New Bedford, estado de Massachussetts. 1990.
10

c. Grco em barras
Grfico 2. A produo de cereais no Brasil, segundo os Estados produtores, em 1996. Bahia 21

8 7, 5

Freqncia

5, 8

5, 7 4, 9 5, 1

Estados

Sergipe

38

Piau

27

Maranho
0 1980 1981 1982 1983 1984

10 0 10 20 30 Freqncias 40 50

Pe rodo

12

d. Grco em colunas
Grfico 3. Consumo de gasolina, em milhas por galo (mpg) de 5 modelos compactos de automvel, em Prince, estado de Massachussetts. 1990 38 28 41 35 26

e. Grco em colunas remontadas


Grfico 4. Consumo de equipamentos, em milhes de unidades, de uma determinada cidade, em Pernambuco.

10 8 Freqncias 6 4 2 0
1,2 0,5 3,6 2,7 1,2 2,7 3,8 2,4 3 4,2 5

50 40 Cosumo (mpg) 30 20 10 0

8,5

Mazda 808

Vega

Toyota Corolla Modelos

Dodge Colt

Toyota Celica
Produtos

1996 1997

f. Grco em setores
Grfico 5. A produo de cereais no Brasil, segundo os Estados produtores, 1996. 10% 22%

g. Box-Plot
2100

D istribuio do peso de todas as crianas prem aturas ao nascer e aps dez dias de aplicao da dieta alim entar. H ospital W W W , Salvador, 1998.

2000

1900

1800

28%

1700

1600

40%

Maranho Piau Se rgipe Bahia

1500

1400
N = 100 100

P eso ao N asc er

P eso aps 10 dias

2.4.3.1 GRFICOS REPRESENTATIVOS DAS DISTRIBUIES DE FREQUNCIA A representao grca das distribuies de frequncia feita atravs do histograma e do polgono de frequncia. 1. Histograma - um grco formado por um conjunto de retngulos justapostos, de forma que a rea de cada retngulo seja proporcional frequncia da classe que ele representa. 2. Polgonos de Frequncia - Unindo por linhas retas os pontos mdios das bases superiores dos retngulos do histograma, obtm-se outra representao dos dados, denominada polgono de frequncia. Maiores informaes sobre esses e outros tipos de grco sero fornecidas em aula pelo professor. CURIOSIDADE: Florence Nightingale Florence Nightingale (1820-1910) conhecida por muitos como a fundadora da prosso de enfermeira, mas ela tambm salvou milhares de vidas utilizando a estatstica. Ao encontrar um hospital em ms condies

13

sanitrias e sem suprimentos, tratou de melhorar essas condies e passou a utilizar a estatstica para convencer as autoridades da necessidade de uma reforma mdica mais ampla. Elaborou grcos originais para mostrar que, durante a guerra da Crimia, morreram mais soldados em consequncia de ms condies sanitrias do que em combate. Florence Nightingale foi a pioneira na utilizao no s da estatstica social como das tcnicas de grcos. Fonte: TRIOLA, Mrio. Introduo Estatstica. LTC Editora, 7a edio. Rio de Janeiro, 1999

2.5

MEDIDAS DE TENDNCIA CENTRAL

Vimos at agora a sintetizao dos dados sob a forma de tabelas, grcos e distribuies de frequncias. Agora, vamos aprender o clculo de medidas que possibilitem representar um conjunto de dados relativos observao de determinado fenmeno de forma resumida. As medidas de tendncia central so tambm chamadas de medidas de posio, e estabelecem o valor em torno do qual os dados se distribuem. Vale a pena chamar a ateno que, para o clculo dessas medidas, necessrio que a varivel seja quantitativa. As principais medidas de tendncia central so: 2.5.1 Mdias.

So as medidas de tendncia central mais comumente utilizadas para descrever resumidamente uma distribuio de frequncia. Mdia Aritmtica 1. Mdia Aritmtica Simples: dada pelo quociente entre a soma dos valores observados e a frequncia total ( o nmero total de observaes). Genericamente, podemos escrever: X= onde xi =valor genrico da observao n = tamanho da amostra =no . de observaes Este tipo de mdia aritmtica ser calculada quando os valores no estiverem tabulados, ou seja, quando aparecerem representados individualmente como o caso dos dados brutos, por exemplo. Ex: Temos uma amostra de 10 crianas de 5 anos de idade, com dados referentes a seus pesos (em kg): 23,0 20,0 22,0 19,0 25,0 28,2 24,0 21,0 27,0 21,0 n = 10 X= 23, 0 + 20, 0 + 22, 0 + 19, 0 + 25, 0 + 28, 2 + 24, 0 + 21, 0 + 27, 0 + 21, 0 = X = 23, 0 10
P xi n

(3)

Isso signica que o peso mdio de 23,0 kg. claro que foram obtidos pesos de crianas desta idade que se encontram abaixo ou acima do valor mdio. No entanto, a mdia representa um valor tpico (Soares & Siqueira,1999). 2. Mdia Aritmtica Ponderada: a mdia aritmtica calculada quando os dados estiverem agrupados em distribuies de frequncia. Os valores x1 , x2 , ..., xn sero ponderados pelas respectivas frequncias absolutas f1 , f2 , ..., fn . 14

Ento teremos: X= Exemplos: (a) Para tabelas de distribuio de dados no agrupados (TABELA 4): Tabela 4: Nmero de cries em crianas de 7 anos de idade. Candeias.1990. c N o de dentes careados (xi ) No de crianas (fi ) xi fi 0 3 0 1 2 2 2 4 8 3 2 6 4 1 4 5 1 5 TOTAL 13 25 Fonte: (dados hipotticos) X= 0 (3) + 1 (2) + 2 (4) + 3 (2) + 4 (1) + 5 (1) 2+8+6+4+5 25 = = = 1, 923 2, 0 13 13 13 O nmero mdio de cries por criana 2,0 entre a populao avaliada em Candeias, ou seja, em mdia cada criana de 7 anos apresenta 2 cries.
P xi fi n

(b) Para tabelas de distribuio de dados agrupados em classes (TABELA 5): Tabela 5: Casos de Aids segundo faixa etria. Bahia. 1993. Faixa Etria fi (1000) xi (ponto mdio) xi fi 15 | 25 25 20 500 25 | 35 30 30 900 35 | 45 15 40 600 45 | 55 10 50 500 TOTAL 80 ... 2500 Fonte: (dados hipotticos) X= xi fi 2500 = ... ==> X = 31, 25 31, 0 n 80 Interpretao: A idade mdia dos pacientes de Aids na Bahia, em 1993, foi de 31 anos. A desvantagem da mdia aritmtica relaciona-se com a existncia de valores extremos (muito grandes ou muito pequenos), que podem distorcer o resultado nal. H casos em que outros tipos de mdia so mais adequados, como a mdia geomtrica ou harmnica. P

Mdia Geomtrica 1. Tambm pode ser simples ou ponderada, conforme se utilize ou no em seu clculo uma tabela de frequncias. 2. Mdia Geomtrica Simples: A mdia geomtrica de n valores denida, genericamente, como a raiz n-sima do produto entre eles. Dados n valores x1 , x2 , ..., xn , a mdia geomtrica desses valores ser: Xg = n x x ..... x 1 2 n 15 (4)

3. Mdia Geomtrica Ponderada: a mdia geomtrica quando os dados estiverem agrupados em uma distribuio de frequncia. Ser calculada por meio da expressso: q (5) X g = fi xf1 xf2 .....xfn n 1 2 A mdia geomtrica usada principalmente em problemas envolvendo mudanas proporcionais. Em Demograa utilizada para se estimar a populao de determinada localidade, quando se supe crescimento geomtrico. Tambm utilizada em biologia para anlises relacionadas com crescimento de organismos, como bactrias, por exemplo, ou contagem de ovos de parasitas.

Mdia Harmnica: o inverso da mdia aritmtica dos inversos. Os inversos dos valores ,X1 , X2 , ..., Xn sero: Xh = 1
i=1 n P 1 xi

1 1 1 X1 , X2 , ..... Xn ,Assim,

como X =

i=1

n P

xi , temos:

1
1 1 1 + X +.....+ X X1 n 2

De maneira anloga, temos a denio de mdia harmnica para dados agrupados em classes. Esse tipo de mdia , sobretudo, usada para construo de ndices econmicos. Em geral, temos :X h 6 X g 6 X. CURIOSIDADE: Um cidado mdio Um homem americano mdio chama-se Robert. Tem 31 anos, altura de 1,75 cm, pesa 78 kg, seu manequim 48, cala sapatos tamanho 43 e tem 85 cm de cintura. Consome anualmente 5,6 kg de massa, 11,8 kg de bananas, 1,8 kg de batatas fritas, 8,15 kg de sorvete e 35,8 kg de carne. Em cada ano, v televiso durante 2567 horas e recebe 585 cartas ou assemelhados pelo correio. Aps comer sua poro de batatas fritas, ler a correspondncia e ver televiso, ele termina o dia com 7,7 horas de sono. O dia seguinte comea com 21 minutos de transporte para um emprego, onde trabalha 6,1 horas. Fonte: TRIOLA, Mrio. Introduo Estatstica. LTC Editora, 7a edio. Rio de Janeiro, 1999 Mediana (Md) denido como o valor que divide uma srie ordenada de tal forma que pelo menos a metade dos itens sejam iguais ou maiores do que ela, e que a outra metada dos itens sejam menores do que ela. Colocados em ordem crescente, a mediana o elemento que ocupa a posio central. Como a mediana divide os dados ordenados ao meio, ela no sensvel a valores discrepantes. A depender de como estejam os dados, deve-se diferenciar a forma como encontra-se a mediana. 1. Determinao da Mediana de Valores no-tabulados. Processa-se a partir de um rol ou lista ordenada dos dados. Podem ocorrer duas hipteses com relao ao nmero de observaes n: que ele seja mpar ou par. Veremos os dois casos: (a) Nmero mpar de observaes: Requer, em primeiro lugar, que se determine a ordem em que se encontra a mediana na srie. Para isto encontramos: Emd =
n+1 2

n = P n 1
i=1

xi

(6)

O passo seguinte ser localizar a mediana na lista de valores, de acordo com o resultado obtido no clculo do elemento mediano (Emd ). 16

(b) Nmero par de observaes: Neste caso, o elemento mediano ser determinado atravs da expresso: Emd =
n 2

(7)

A mediana ser determinada pela mdia aritmtica entre os valores que ocupam a posio denida pelo elemento mediano e a posio sucessora. 2. Determinao da Mediana de Valores Tabulados no-Agrupados em Classes. Da mesma forma como foi calculado anteriormente, deniremos o elemento mediano. Em seguida, acrescentaremos tabela de frequncia uma coluna de frequncias acumuladas abaixo de absoluta. Com o uso destas frequncias encontraremos a posio denida pelo elemento mediano, na qual estar a mediana. Exemplo: Clculo da mediana para os dados da tabela 4 da seco de mdia. Tabela 6: Nmero de cries em crianas de 7 anos de idade. Candeias. 1990. N o de dentes careados (xi ) 0 1 2 3 4 5 TOTAL Fonte: (dados hipotticos) Soluo: n = 13 ==> Emd =
(n+1) 14 2 =2

No de crianas (fi ) 3 2 4 2 1 1 13

Fiab 3 5 9 11 12 13 ...

= 7.

Como n mpar > a mediana denida pelo valor que ocupa a 7a posio. Com base nas informaes da coluna que contm as frequncias acumuladas abaixo de absoluta, a mediana igual a 2. Interpretao: 50% das crianas de 7 anos apresentaram 2 ou menos cries numa comunidade de Candeias em 1990. 3. Determinao da Mediana de Valores Tabulados Agrupados em Classes. Neste caso, encontramos o elemento mediano atravs da frmula Emd = n , no se fazendo distino 2 entre nmero par ou mpar de observaes. A partir da, determinaremos a classe mediana, aps a qual a mediana ser calculada atravs da seguinte expresso: Md = l + h. Emd Fant fmd onde, l = limite inferior da classe mediana; h = amplitude do intervalo de classe Emd = elemento mediano Fant = frequncia acumulada at a classe anterior classe mediana f md = frequncia absoluta simples da classe mediana. (8)

17

Exemplo: Clculo da mediana para os dados da Tabela 5 Casos de Aids segundo faixa etria. Bahia. 1993 Faixa Etria fi (1000) Fiab 15 | 25 25 25 25 | 35 30 55 35 | 45 15 70 45 | 55 10 80 TOTAL 80 ... Fonte: (dados hipotticos) n = 80 ==> Emd = 80 = 40. 2 O elemento que ocupa a 40a posio encontra-se na 2a classe. Logo, Md = 25 + 10(4025) ==> Md = 30 30 Interpretao: 50% dos pacientes de Aids na Bahia, em 1993, tinham idade igual ou inferior a 30 anos. 2.5.2 Moda (Mo)

A moda outra medida de tendncia central, sendo, no entanto a menos importante. Sua vantagem que pode ser usada para variveis qualitativas. Genericamente, pode-se denir a moda como o valor mais frequente da distribuio. 1. Determinao da Moda de Valores No-Tabulados. Considerando um conjunto ordenado de valores, a moda ser o valor predominante, o valor mais frequente desse conjunto. Embora seu signicado seja o mais simples possvel, nem sempre a moda existe (distribuio amodal) e nem sempre nica. Se apresentar apenas uma moda diremos que unimodal; se possuir duas modas diremos que bimodal; se tiver vrias modas (mais que duas) diremos que multimodal. 2. Determinao da Moda para Valores Tabulados. No caso de dados tabelados no agrupados em classe, a determinao da moda imediata, bastando para isso, consultar a tabela, localizando o valor que apresenta a maior frequncia. Exemplo: Tabela 7: Indivduos segundo o tipo sanguneo. Tipo de Sangue Frequncia O 417 A 292 B 94 AB 17 TOTAL 820 Fonte: (dados hipotticos) Os dados apresentados mostram que na amostra o sangue tipo O ocorreu com maior frequncia. Ento, para esta amostra, a moda sangue do tipo O. Tratando-se de uma tabela de frequncias com valores tabulados e agrupados em classes, o procedimento no imediato, sendo disponveis alguns mtodos de clculo distintos. Qualquer que seja o mtodo adotado, o primeiro passo para determinar a moda localizar a classe que apresenta a maior frequncia, comumente chamada de classe modal. 18

Nesse curso deniremos apenas o mtodo da moda bruta, que consiste em tomar o ponto mdio da classe modal como sendo a moda. A classe modal ser aquela que apresentar a maior frequncia absoluta simples. Exemplo:

Tabela 8: Notas da 1a Avaliao dos Alunos de Estatstica IV da UFBA. 1996.1 Notas Alunos(fi ) xi 0 | 2 3 1 2 | 4 5 3 4 | 6 7 5 6 | 8 6 7 8 |10 1 9 TOTAL 22 ... Fonte: (dados hipotticos)

Para este exemplo temos que a terceira classe a classe modal (fi = 7)e a moda bruta ser seu ponto mdio: Mo = 5. Interpretao: A nota mais frequente na 1a avaliao foi 5, 0.

2.6

SEPARATRIZES

So as medidas que separam o rol ou a distribuio de frequncias em partes iguais. Vimos que a mediana divide a distribuio em duas partes iguais quanto ao nmero de elementos de cada parte. Agora vamos estudar outras medidas que dividem a distribuio em partes iguais, que sero as chamadas separatrizes. So elas: 2.6.1 Quartis (Qi):

Os quartis dividem um conjunto de dados em quatro partes iguais. Assim:

Q1 0% 25%

Q2 50%

Q3 75% 100%

Q1 : 1o quartil. Deixa Q2 : 2o quartil. Deixa Q3 : 3o quartil. Deixa Genericamente, para expresso:

25% dos elementos antes do seu valor 50% dos elementos antes do seu valor. Coincide com a mediana 75% dos elementos antes do seu valor. determinar a ordem ou posio do quartil a ser calculado, usaremos a seguinte EQi =
in 4

(9)

onde: i = nmero do quartil a ser calculado n = nmero de observaes. Para dados agrupados em classes, encontraremos os quartis de maneira semelhante usada para o clculo da mediana: Qi = l + h. [EQi Fant ]
fQi

(10)

19

onde, l = limite inferior da classe que contm o quartil desejado h = amplitude do intervalo de classe EQi = elemento quartlico Fant = frequncia acumulada at a classe anterior classe mediana f Qi = frequncia absoluta simples da classe quartlica.

2.6.2

Decis(Di):

Os decis dividem um conjunto de dados em dez partes iguais. Assim:

D1 0%

D2

D3 30%

D4 40%

D5

D6

D7

D8

D9 90% 100%

10% 20%

50% 60%

70% 80%

De maneira geral, para calcular os decis, recorreremos expresso que dene a ordem em que o decil se encontra: EDi =
in 10

(11)

Para dados agrupados em classes, encontraremos os decis de maneira semelhante usada para clculo da mediana e dos quartis. 2.6.3 Percentis ou Centis (Ci):

So as medidas que dividem a amostra em 100 partes iguais. Assim:

C1 C2 C3
0% 1% 2% 3%

C50
50%

C97 C98 C99


97% 98% 99%100%

O elemento que denir a ordem do centil ser encontrado pelo emprego da expresso: ECi =
in 100

(12)

onde: i = nmero identicador do centil n = nmero total de observaes Para dados agrupados em classes, encontraremos os centis de maneira semelhante utilizada para clculo da mediana, dos quartis e dos decis. Exemplo: Com base na tabela de distribuio de frequncias abaixo encontre: a) Primeiro quartil ; b) Septuagsimo quinto centil ; c) Nono decil

Resoluo: a) Q1 Encontrar a posio do primeiro quartil: 20

Tabela 9: Consumo mdio de eletricidade (kw/hora) entre usurios. Rio de Janeiro. 1980. Consumo (Kwh) No de usurios (fi ) Fiab 5 | 25 4 4 25 | 45 6 10 45 | 65 14 24 65 | 85 26 50 85 | 105 14 64 105 | 125 8 72 125 | 145 6 78 145 | 165 2 80 TOTAL 80 ... Fonte: (dados hipotticos) EQ1 = n = 80 = 20 4 4 O Q1 est localizado na 20a posio, logo encontra-se na 3a classe. Com base nesses dados, calcularemos Q1 da seguinte forma: Q1 = 45 + 20[2010] = 59.29 14 Interpretao: 25% dos usurios consomem at 59,59 kwh. De maneira anloga, 75% dos usurios consomem mais de 59,59 kwh. b) C75 Encontrar a posio do centil 75: n EC75 = 75 100 = 75 (80) = 60 100 O C75 est localizado na 60a posio, logo encontra-se na 5a classe. Com base nesses dados, calcularemos C75 da seguinte forma: C75 = 85 + 20[6050] = 99.29 14 Interpretao: 75% dos usurios consomem at 99,29 kwh. De maneira anloga, 25% dos usurios consomem mais de 99,29 kwh. c) D9 Encontrar a posio do 9o decil: n ED9 = 9 10 = 9 (80) = 72 10 O D9 est localizado na 72a posio, logo encontra-se na 6a classe. Com base nesses dados, calcularemos D9 da seguinte forma: D9 = 105 + 20[7264] = 125 8 Interpretao: 90% dos usurios consomem at 125 kwh. De maneira anloga, 10% dos usurios consomem mais de 125 kwh.

2.7

MEDIDAS DE DISPERSO

Para avaliar o grau de variabilidade ou disperso dos valores de um conjunto de nmeros, lanaremos mo das estatsticas denominadas medidas de disperso. Essas nos proporcionaro um conhecimento mais completo do fenmeno a ser analisado, permitindo estabelecer comparaes entre fenmenos da mesma natureza e mostrando at que ponto os valores se distribuem acima ou abaixo da medida de tendncia central. 2.7.1 TIPOS DE MEDIDAS DE DISPERSO

1. Amplitude Total ou Intervalo Total (A) => a diferena entre os valores extremos da srie. A = Xmx Xmn a

21

A amplitude nos d a idia do campo de variao dos valores da srie. No entanto, devemos frisar que a amplitude no uma boa medida de disperso porque seu clculo se baseia apenas nos valores extremos da amostra e no em todos os dados. 2. Desvio-Padro (S) => a medida de disperso mais usada e mais importante. Mede a concentrao dos dados em torno da mdia. dado pela soma dos quadrados dos desvios dividido pelo nmero total de observaes. (a) Desvio-padro de dados brutos: s
n P (xi x)2 i=1 n 1

S=

(13)

Exemplo: Calcular o desvio-padro do conjunto A = {10, 12, 13, 20, 25, 34, 45}X = 22, 71 Tabela 10: Clculo do Desvio Padro. Xi di = (xi x) d2 = (xi x)2 i 10 -12,714 161,646 12 -10,714 114,790 13 -9,714 94,362 20 -2,714 7,366 25 2,286 5,226 34 11,286 127,374 45 22,286 496,666 P 2 TOTAL ... di = 1.007, 430

S=

(b) Desvio-padro de dados tabulados: Quando os valores vierem dispostos em uma tabela de frequncias, o clculo do desvio-padro se far atravs da seguinte frmula: s
k P (xi x)2 fi n1 i=1

1.007,430 6

= 12, 958

S=

(14)

onde xi = ponto mdio da classe Exemplo: Calcular o desvio-padro para os dados da Tabela 12. s k P xj fj k P (xi x)2 fi q 80.780 = X = i=1 n = 630 ==> X = 79, 5 S= 80 79 ==> S = 31, 977 n1 i=1 3. Varincia (S 2 ) =>Ser dada pelo quadrado do desvio-padro. S2 =
n P (xi x)2 i=1 n 1

(15)

22

Tabela 11: Distribuio de frequncias do consumo de energia eltrica (kwh). Consumo (Kwh) N o de Usurios (fi ) xi xi fi (xi x) (xi x)2 (xi x)2 fi 5 | 25 4 15 60 -64,5 4160,25 16641,0 25 | 45 6 35 210 -44,5 1980,25 11881,5 45 | 65 14 55 770 -24,5 600,25 8403,5 65 | 85 26 75 1950 -4,5 20,25 526,5 85 | 105 14 95 1330 15,5 240,25 3363,5 105 | 125 8 115 920 35,5 1260,25 10082,0 125 | 145 6 135 810 55,5 3080,25 18481,5 145 | 165 2 155 310 75,5 5700,25 11400,5 TOTAL 80 ... 6360 ... ... 80780 Fonte: (dados hipotticos) Interpretao do desvio-padro (anloga da varincia): Devemos ter em mente que o desvio-padro mede a variao entre valores. Assim:

Se os valores estiverem prximos uns dos outros, ento o desvio-padro ser pequeno, e consequentemente os dados sero homogneos. Se os valores estiverem distantes uns dos outros, ento o desvio-padro ser grande, e consequentemente os dados sero heterogneos. A desvantagem do uso da varincia perante o uso do desvio-padro que a unidade de medida utilizada igual ao quadrado da unidade de medida dos dados. No entanto, por conta da maior facilidade do trato algbrico com funes quadrticas, a varincia ser a medida de disperso mais utilizada quando tratarmos da inferncia estatstica. 4. Coeciente de Variao (CV) => Trata-se de uma medida relativa de disperso, til para comparao em termos relativos do grau de concentrao em torno da mdia de sries distintas. dado por: CV = S 100. X (16)

Como o CV uma medida que exprime a variabilidade relativa mdia, usualmente expresso em porcentagem. Exemplo: Grupo I > CV = 66, 67%, S = 2, X = 3 GrupoII > CV = 3, 64%, S = 2, X = 55 Como vemos, a disperso dos dados a mesma para os dois grupos. Entretanto as mdias so diferentes. Isso determina a diferena da disperso relativa, medida pelo coeciente de variao. Neste caso, o desvio 2 muito mais importante para o grupo I do que para o grupo II, o que conrmado atravs do CV. Obs: Para efeitos prticos, costuma-se considerar que o CV superior a 50% indica alto grau de disperso e, consequentemente, pequena representatividade da mdia. Enquanto que para valores inferiores a 50%, a mdia ser tanto mais representativa quanto menor for o valor de seu CV. Exemplo: A Tabela 13 representa a distribuio de recm-nascidos vivos, segundo o peso, em gramas. Calcule o desvio-padro, a varincia e o coeciente de variao, e compare os resultados encontrados com as respostas apresentadas. 23

Tabela 12: Peso de recm-nascidos. Peso (em gramas) (fi ) Xi 500 | 1000 1 750 1000 | 1500 3 1250 1500 | 2000 22 1750 2000 | 2500 115 2250 2500 | 3000 263 2750 3000 | 3500 287 3250 3500 | 4000 99 3750 4000 | 4500 32 4250 TOTAL 80 ... Fonte: SAME/ FCM/ UNICAMP

Soluo: Inicialmente precisaremos calcular a mdia aritmtica, cujo valor para este conjunto de dados de 2998,8 gramas. Com esta informao pode-se, ento, encontrar o desvio padro (555,2 gramas) e a varincia (308.240,6 gramas2). Para avaliar a variabilidade desses dados o coeciente de variao uma ferramenta fundamental, permitindo uma anlise mais clara sobre a importncia da disperso dos pesos desses recm-nascidos. Assim, o Coeciente de Variao = 18,5%, o que indica que no h uma grande variabilidade entre os pesos dos recm-nascidos avaliados, que se apresentam homogneos.

2.8

MEDIDAS DE ASSIMETRIA

As medidas de assimetria so utilizadas para avaliar o grau de assimetria da distribuio de frequncias, sendo que assimetria pode ser denida como o grau de deformao de uma curva de frequncias. Vamos aprender algumas formas de avaliar a assimetria das curvas de frequncia dos dados: 2.8.1 Relao entre mdia, mediana e moda

Uma primeira vericao da assimetria pode ser feita atravs da comparao entre os valores observados para a mdia, mediana e moda. Desta forma teremos abaixo esta relao, com a respectiva representao grca atravs de polgono de frequncias. a) Se a distribuio simtrica: (X = Md = Mo)

M o d a = M ed ia = M ed iana

24

b) Se a distribuio assimtrica positiva ou direita: (X > Md > Mo)

Mo Med Media

c) Se a distribuio assimtrica negativa ou esquerda: (X < Md < Mo)

Media Med Mo

2.8.2

Coeciente de Assimetria de Pearson (Sk)

Indica o grau de distoro da distribuio em relao uma distribuio simtrica. dado por: Sk = Interpretao: Se Sk = 0, a distribuio simtrica Se Sk > 0, a distribuio assimtrica positiva Se Sk < 0, a distribuio assimtrica negativa X Mo S (17)

2.8.3

Coeciente Quartil de Assimetria (eQ )

O coeciente Quartil de Assimetria (eQ )=> um coeciente muito til, sobretudo quando no temos o desvio-padro. dado por: eQ = Q3 2Md + Q1 Q3 Q1 (18)

onde 1 < eQ < 1 Interpretao: Se eQ = 0, a distribuio simtrica Se eQ > 0, a distribuio assimtrica positiva 25

Se eQ < 0, a distribuio assimtrica negativa Exemplo: Avalie a assimetria da distribuio dos pesos de recm-nascidos vivos do exemplo anterior. a) Relao entre mdia, mediana e moda. X = 2998, 8; Md = 3012, 2; Mo = 3250, 0 Logo : X < Md < Mo = curva assimtrica negativa b) Coeciente de assimetria de Pearson: Sk = XMo = 2998,83250,0 = 0, 45 = curva assimtrica negativa S 555,2 c) Coeciente quartil de assimetria: eQ = Q3 2Md+Q1 = 3370,22(3012,2)+2622,6 = 0, 04 = curva assimtrica negativa Q3 Q1 33702662,6

2.9

COMPARAO ENTRE PROPORO, RAZO E TAXA

Iremos realizar uma discusso breve destes termos e da distino entre eles. Do ponto de vista estatstico representam medidas simples, mas que permitem estabelecer comparao entre grupos. 2.9.1 PROPORO (frequncia relativa simples)

A proporo de indivduos de uma dada categoria denida atravs do quociente entre o nmero de indivduos pertencentes a essa categoria e o nmero total de indivduos considerados, devendo as categorias ser mutuamente exclusivas e exaustivas. A proporo expressa mais comumente em percentagem. Algumas medidas importantes na anlise do processo sade-doena so denidas como propores, como, por exemplo, as seguintes: PROPORES UTILIZADAS EM MORTALIDADE 1. Mortalidade proporcional segundo a idade Exemplo: Proporc. Mort..de menores de 1ano = no de bitos em menores de 1ano, reaA, tempo t total de bitos, rea A, tempo t

Tabela 13: Proporo de bitos por acidentes de trnsito na faixa etria de 15-29 anos de idade. Regio Nordeste. Brasil. 1980-1995. Ano No debitos por acid. trnsito entre 15 - 29 No total de btos por acid. trnsito Proporo 1980 1025 3462 29,61 1995 1705 5543 30,76 Fonte: MS/ DATASUS 2. Mortalidade proporcional segundo o sexo Exemplo: Mort. Proporc. para o sexo feminino = 3. Mortalidade proporcional segundo causas Serve para indicar a importncia de determinada causa ou grupo de causas em uma determinada rea e, at certo ponto, representam subsdio para o delineamento de prioridades no setor sade. no de bitos pela doena D, rea A, tempo t Exemplo: Mort. Proporc. pela doena D = total de bitos, rea A, tempo t no de bitos em ind. sexo feminino, rea A, tempo t total de bitos, rea A, tempo t

26

2.9.2

RAZO ( ou ndice)

O termo razo usado quando A e B representam caractersticas separadas e distintas, e calculamos o quociente entre o nmero de elementos que representam cada uma das categorias. Como exemplos de razes temos: mdicos/habitantes; leitos/habitantes; telefones/habitantes; cobertura vegetal/total rea. Exemplo:

Tabela 14: Populaes masculina e feminina e razo de masculinidade (por 1000 mulheres), segundo as grandes Regies do Brasil. 1980. Sexo Masculino Feminino Razo de Masculinidade Regies Norte 2992144 2893392 1034,1 Nordeste 17054379 17801090 958,1 Sudeste 25731364 26014954 989,1 Sul 9529280 9509655 1002,1 Centro-Oeste 3838932 3705675 1036,0 BRASIL 59146099 59924766 987,0 Fonte: LAURENTI, Estatstica de Sade, E.P.U. 1987

Interpretao: No Brasil, em 1980, a razo de masculinidade assumiu o valor de 987.0 homens para 1000 mulheres. 2.9.3 TAXA ( ou Coeciente)

usual multiplicar-se o resultado obtido por um nmero mltiplo de 10, que constitui a chamada base do coeciente qual deve, obrigatoriamente, ser acrescentada a unidade de referncia usado no denominador (habitantes, mulheres, homens, nascidos vivos, etc...). Quando se calcular um coeciente est implcita sempre a noo de risco de acontecimento do fenmeno em estudo. Assim, um coeciente sempre calculado para determinado perodo de tempo bem especicado e para uma rea delimitada. no total de bitos, rea A, tempo t Exemplo: Coeciente geral de mortalidade = Populao total, rea A, tempo t Tabela 15: Populao, bitos e coeciente geral de mortalidade, em alguns subdistritos do Municpio de So c Paulo. 1967). Subdistrito Populao btos Coec. (por 1000 habitantes) Bela Vista 69000 1318 19,1 Consolao 60300 4291 71,5 Jardim Amrica 49300 7725 159,6 Liberdade 62300 3413 54,7 Capela do Socorro 77764 280 3,6 Moca 52967 213 4,0 Tatuap 285000 811 2,9 Tucuruvi 345918 839 2,4 Vila Formosa 101000 418 4,1
Fonte: LAURENTI, R. A medida das doenas. In: FORATTINI, O P. Epidemiologia Geral. So Paulo, Edgard Blucher, Ed. Da Universidade de So Paulo, 1976.

Exemplo: Coeciente de Prevalncia =

no casos existentes, rea A, tempo t Populao total, rea A, tempo t 27

Os coecientes de morbidade referem-se frequncia e gravidade das doenas. Diferena entre taxa e razo: Na razo o que est expresso no denominador no est sujeito ao risco de vir a apresentar o evento que est expresso no numerador. Assim, quando se apresenta a relao bitos/populao, trata-se de um coeciente. Est indicando que aquilo que est expresso no denominador (populao) est sujeito ao risco de apresentar o evento discriminado no numerador. J a relao hospital/populao no expressa risco. D apenas a informao do nmero de hospitais por habitantes.

BOX-PLOT

O box-plot um mtodo alternativo ao histograma para representar os dados. O box-plot fornece informaes sobre as caractersticas de posio, disperso, assimetria, comprimento das caudas e outliers de um conjunto de dados. No entanto, a maior importncia desse tipo de grco est na identicao de possveis outliers no conjunto de dados. A construo de um box-plot exige que tenhamos o valor mnimo, o primeiro quartil, a mediana, o terceiro quartil e o valor mximo. Como a mediana revela uma tendncia central, ao passo que os quartis indicam a disperso dos dados (atravs do clculo do intervalo interquartil), os box-plot tm a vantagem de no serem to sensveis a valores extremos como outras medidas baseadas na mdia e no desvio-padro. Um dos aspectos mais convenientes do uso dos box-plot a possibilidade de comparao entre dois ou mais conjuntos de dados. Exemplo: Idade dos indivduos, segundo o nmero de infeces por dengue. Salvador. 1998.
120 100 Idade (em anos) 80 60 40 20 0 -20
N= 476 384 655 1445 1563 1551 1504 1462 1575 1578 1540 1534 1431 1471 1536 1583 1449 1452 1567 1584 1579 1484 1423 1437 1466 1425 1478

1 Nmero de infeces

Fonte: TEIXEIRA, Glria, et alii. Dinmica de circulao do vrus do dengue em distintos espaos intraurbanos de uma grande cidade submetida a um programa de combate vetorial. ISC/UFBA. 2000. Em sala de aula sero apresentados mais detalhes sobre este tpico.

3.1

MEDIDA DE ASSOCIAO PARA VARIVEIS QUANTITATIVAS: CORRELAO LINEAR

At o momento todas as anlises foram discutidas para cada varivel individualmente. A tcnica a ser estudada a seguir refere-se a problemas que envolvam conjuntos de dados que possuem duas ou mais variveis quantitativas.

28

A vericao da existncia e do grau de relao entre variveis quantitativas objeto do estudo da correlao. Por exemplo, pode-se desejar saber se existe relao entre o peso e a altura de um indivduo; ou entre a temperatura do ambiente e a produo de frutas. A investigao da relao de duas variveis, tais como estas, usualmente comea com uma tentativa para descobrir a forma aproximada dessa relao, representando-se gracamente os dados como pontos no plano x, y. Tal grco denominamos grco de disperso. Por meio dele pode-se prontamente vericar se existe alguma relao pronunciada e, em caso positivo, se a relao pode ser tratada como aproximadamente linear. Aps esta vericao, pode-se medir o grau em que as variveis esto relacionadas. A esta medida chamaremos de coeciente de correlao, r, que denido pela seguinte frmula: P P P XY ( X)( Y ) n (19) r = rh P 2 (P X)2 i hP 2 (P Y )2 i X n Y n O coeciente de correlao, r, mede a fora da associao linear entre as duas variveis avaliadas. No entanto, vale a pena ressaltar que esta somente uma medida vlida se as duas variveis esto relacionadas linearmente, ou seja, se a relao visualizada no grco de disperso deve lembrar o desenho de uma reta. Como propriedade, o r deve satisfazer seguinte condio: 1 r 1,onde os valores de r s sero iguais a 1 se os pontos estiverem totalmente sobre uma linha reta. Sua interpretao depender do valor numrico e do sinal, podendo ser classifada como: correlao linear positiva (0 < r < 1), correlao linear perfeita positiva (r = 1), correlao negativa (1 < r < 0), correlao perfeita negativa (r = 1), correlao nula (r = 0). Quando duas variveis forem independentes, o coeciente de correlao ser nulo.

3.2

MEDIDAS DE ASSOCIAO PARA VARIVEIS QUALITATIVAS

Como foi dito, o uso do coeciente de correlao linear somente valido para duas variveis quantitativas. No entanto, em muitas situaes, o pesquisador se v s voltas com variveis qualitativas. Desta forma, a seguir apresentaremos algumas formas simples de anlise da relao entre duas variveis qualitativas. Caso 1 Tabelas bidimensionais 2 2 Um pesquisador est avaliando duas variveis qualitativas, sendo que cada uma delas apresenta apenas duas modalidades mutuamente exclusivas. Deseja-se vericar independncia entre as variveis em estudo, ou seja, ausncia de associao entre estas. Esta associao pode ser feita pela comparao das propores em cada uma das categorias. No entanto, esta comparao no teria limites denidos para a indicao de associao. Deste modo, estaremos propondo a utilizao de uma medida singular, de limites bem denidos, que nos informe sobre a intensidade da associao, caso exista.

Tabela 16: Tabela terica de associao entre duas variveis. c Var2 Cat 21 Cat 22 TOTAL Var1 Cat 11 a b N1. Cat 12 c d N2. TOTAL N.1 N.2 N

Para tabelas 2 2, uma medida adequada o coeciente de YULE, que pode ser denido por: Y = ad bc ad + bc 29 (20)

Na interpretao do coeciente de YULE, preciso saber: 1. O valor de Y est compreendido no intervalo fechado de 1 at +1. 2. Y = 0 corresponde a independncia 3. Y 6= 0 corresponde a associao entre as variveis. Em termos descritivos, o coeciente de YULE apresenta a informao que permite a vericao de associao entre duas variveis qualitativas. Do ponto de vista da inferncia estatstica, outras tcnicas podero ser utilizadas. No entanto, no faro parte do contedo programtico deste curso. Exemplo: Considere que um pesquisador toma, ao acaso, 2 amostras de cobaias isognicas, susceptveis a determinado vrus. As cobaias da primeira amostra so injetadas com uma vacina experimental, e as da segunda amostra so injetadas com uma substncia incua (grupo controle). Todos as cobaias so ento expostas ao vrus e, depois de determinado perodo de exposio, vericam-se os sobreviventes de cada amostra. lcito concluir (ou pelo menos suspeitar) luz destes dados que o uso da vacina est associado ao padro de sobrevivncia destes animais? Vacinados Sim No TOTAL Soluo: a = 130; b = 70; c = 80; d = 160 Clculo do coeciente de YULE: Y = ad bc (130x160) (70x80) 20800 5600 15200 = = = = 0.58 ad + bc (130x160) + (70x80) 20800 + 5600 26400 Sobreviventes Sim No 130 70 80 160 210 230 TOTAL 200 240 440

Logo, os dados sugerem a existncia de uma associao entre o uso da vacina e o padro de sobrevivncia aps a exposio ao vrus em estudo. Caso 2 Tabelas bidimensionais r s A desvantagem do uso do coeciente de YULE que esta medida restringe-se na anlise de tabelas 2 2. Suponha-se, no entanto, que as duas variveis qualitativas em estudo apresentem uma r categorias e outra s categorias mutuamente exclusivas. Neste caso, a medida a ser utilizada baseia-se na diferena entre os valores observados e esperados em cada uma das categorias, sendo denominada coeciente de contingncia de Pearson. O uso deste coeciente contrape os resultados observados (simbolizados pela letra O) pelo pesquisador com aqueles resultados esperados (simbolizados pela letra E) obtidos a partir de uma hiptese terica de independncia entre os atributos. Assim, se os resultados observados forem prximos aos esperados, isto sugere independncia entre os atributos; caso contrrio, estaremos afastados da hiptese de independncia, sugerindo-se uma associao entre os atributos. Levando-se isto em considerao, utilizaremos uma estatstica chamada de Qui-quadrado, que mede a discrepncia entre os valores, e que denida por: 2 =
n P [(O E)2 ] E i=1

(21)

Os valores esperados so encontrados mediante a suposio de independncia, ou seja, caso no exista associao entre as variveis espera-se que os valores encontrados no se apresentem em propores diferentes segundo as categorias. Assim, obtm-se o valor esperado correspondente a cada casela multiplicando-se o total

30

da linha (em que se encontra a casela) pelo total da coluna (em que se encontra a casela), sendo este produto dividido pelo total geral (N) O coeciente de contigncia de Pearson dado pela seguinte expresso: C= 2 2 + n (22)

Interpretao do coeciente: C = 0 indica independncia; C > 0 sugere associao. Obs: Este coeciente falho em determinar o sentido da associao (direta ou inversa). Alm disso, h ausncia de um limite superior, que varia para cada estrutura da tabela. Para contornar este segundo problema, sugere-se o uso do coeciente corrigido C, que tem a expresso: Ccor = C. onde: min(r, s) min(r, s) 1 (23)

r = nmero de categorias da varivel 1 s = nmero de categorias da varivel 2 Exemplo: Neste estudo deseja-se vericar se existe associao entre as variveis sexo e grupo sanguneo. Os dados coletados encontram-se dispostos na tabela seguinte.
Grupo Sanguneo A B AB O TOTAL Sexo Masculino Feminino 112 88 58 42 180 120 250 150 600 400 TOTAL 200 100 300 400 1000

Soluo: Os valores dispostos na tabela anterior referem-se aos resultados observados no estudo em questo. Precisamos encontar os resultados esperados para cada casela. E11 = (n1.)(n.1) = (200)(600) = 120 N 1000 E12 = (n1.)(n.2) = (400)(200) = 80, e assim por diante para todas as caselas. N 1000 Assim obteremos a tabela completa (com os resultados observados fora dos parnteses e os resultados esperados dentro dos parnteses) disposta da seguinte forma:
Grupo Sanguneo A B AB O TOTAL Sexo Masculino Feminino 112 (120) 88 (80) 58 (60) 42 (42) 180 (180) 120 (120) 250 (240) 150 (160) 600 400 TOTAL 200 100 300 400 1000

Para clculo da estatstica Qui-quadrado teremos: n P [(O E)2 ] 2 2 2 2 2 = = (112120) + (8880) + (5860) + ..... + (150160) 120 80 60 160 E i=1 2 = 2, 55 Logo, para o clculo do coeciente de contingncia de Pearson, teremos: 2,55 C = 2,55+1000 = 0, 05 31

Utilizando-se a correo do coeciente de contingncia, teramos: 2 Ccor = 0.05 21 = 0, 10 Assim, como o resultado foi um valor prximo de zero, isto sugere independncia entre sexo e grupo sanguneo, como era de se esperar. NOTAS FINAIS: 1. Apesar da existncia de outras medidas de associao, essas apresentadas nesta seco podem ser consideradas as medidas descritivas bsicas. 2. A existncia de associao no signica necessariamente relao de causa e efeito.

EXERCCIOS DE FIXAO

1) Em um estudo estatstico a caracterstica de interesse pode ser qualitativa (nominal ou ordinal) ou quantitativa (discreta ou contnua). Classique as variveis nos exemplos que se seguem: a) populao: moradores de uma certa cidade varivel: cor dos olhos (pretos, castanhos, azuis, verdes) b) populao: casais residentes em uma certa cidade varivel 1: nmero de lhos varivel 2: classe econmica c) populao: candidatos a um exame vestibular varivel 1: renda familiar varivel 2: sexo (masculino, feminino) varivel 3: nmero de pessoas na famlia d) populao: sabonetes de certa marca varivel: peso lquido e) populao: aparelhos produzidos por uma linha de montagem varivel: nmero de defeitos por unidade 2) Especique o tipo de srie estatstica que deve ser construda para atender ao objetivo de cada uma das situaes abaixo: a) O diretor de marketing da empresa G.L.T. S.A., fabricante de componentes eletrnicos, deseja examinar a evoluo de suas vendas em 1975, ms a ms, no Brasil. b) Um laboratrio farmacutico est interessado em conhecer o comportamento das vendas de trs de seus produtos no Brasil em 1994. c) O H.G.E. necessita saber o nmero de bitos por principais grupos de causa em idosos no ltimos 5 anos. d) O A.A. (Alcoolatras Annimos) deseja saber o nmero de pessoas que frequentaram as reunies no ano de 1995, em todas as capitais do Brasil. 3) Elabore tabelas com os dados abaixo, classicando a srie estatstica de cada uma delas: a) Segundo o Anurio Estatstico do Brasil, a produo de leo de mamona no Cear, em 1971, foi de 8.610 toneladas, em Pernambuco, 32.100 toneladas, na Bahia foi de 28.778 toneladas, e em So Paulo foi de 62.012 toneladas. b) Segundo a Equipe Tcnica de Estatstica Agropecuria, a produo de peles de alguns animais silvestres, na Bahia, em 1965, em toneladas, foi a seguinte: Ariranha, 159; Capivara, 1.927; Gato do mato, 27.154; Porco do mato, 18.843. No ano de 1966, registraram-se os seguintes dados, em toneladas: Ariranha, 143; Capivara, 2.410; Gato do mato, 29.800; Porco do mato, 19.635. c) Segundo a Anurio Estatstico do Brasil, editado pelo IBGE, a populao presente recenseada no Brasil, segundo o sexo, foi a seguinte: em 1940, 41.236.315 habitantes; sendo 20.614.088 do sexo masculino e 32

20.622.227 do sexo feminino; em 1950, a populao total foi 51.944.397, sendo 25.885.001 do sexo masculino. Em 1960, para o total de 70.119.071 habitantes, registrou-se a presena de 35.108.354 mulheres. E em 1970, a populao total alcanou 93.204.379 habitantes, sendo 46.330.629 do sexo masculino. 4) Para os conjuntos de dados a seguir: a) Determinar o nmero de classes pela regra de Sturges b) Construir a tabela de frequncias absolutas simples c) Determinar: c.1) as frequncias simples relativas c.2) as frequncias absolutas e relativas acumuladas (abaixo de) c.3) as frequncias absolutas e relativas acumuladas (acima de) d) Construir um histograma e um polgono de frequncias 4.1) Os dados seguintes representam 20 observaes relativas ao ndice pluviomtrico em determinados municpios do Estado: Milmetros 144 152 160 151 154 145 142 146 141 150 de Chuva 159 160 157 146 141 150 142 141 143 158

4.2) Considere os seguintes dados sobre a distribuio de valores de metabolismo basal (cal/dia) em 35 adolescentes: 910 1070 1190 1280 960 1080 1200 1280 980 1090 1210 1300 1000 1110 1220 1310 1010 1110 1240 1360 1020 1120 1240 1380 1040 1130 1260 1420 1040 1140 1270 1460 1070 1180 1270

5) Calcule para cada uma das distribuies abaixo as seguintes medidas: a) de tendncia central: mdia aritmtica, mediana e moda b) de disperso: amplitude total, desvio-padro e varincia 5.1. Pesos de recm-nascidos (em kg): 2.7; 3.9; 4.1; 4.3; 5.4 5.2. Taxas sanguneas de uria (mg/dl): 27; 31; 32; 34; 46; 61 5.3. Idade de pacientes renais (em anos): Idade 26 28 30 32 37 TOTAL 33 fi 3 10 12 5 19 49

5.4. Nmero de atendimentos em servio mdico por funcionrios de uma empresa: No de Atendimento 0 1 2 3 4 TOTAL 5.5. Altura de 140 alunos (em cm):
Estaturas (cm) No de Alunos 145|150 2 150|155 10 155|160 27 160|165 38 165|170 27 170|175 21 175|180 8 180|185 7

fi 24 21 3 51 1 50

c) Calcule o primeiro quartil, o quadragsimo centil e o nono decil para o conjunto de dados 5.5. d) Avalie a assimetria do conjunto de dados 5.5 6) Como parte de uma investigao sobre o efeito da variao de temperatura em ratos, a taxa de perda de gua em um grupo de ratos foi determinada para um srie de temperaturas pela absoro de gua ocorrida em um particular tempo. Os resultados seguintes foram obtidos: Temperatura (o C) gua Absorvida (mg) 15 2794 20 2924 25 3175 30 3340 35 3576

Considere: x = temperatura (varivel independente); e y =a quantidade de gua absorvida (variveldependente). Analise a correlao entre estas duas variveis. Construa inicialmente um diagrama de disperso. 7) Os box plots a seguir mostram as distribuies de vendas de uma loja, referentes aos anos de 1995, 1996 e 1997. Analise-os e descreva o comportamento dessas trs distribuies:
1997

1996

1995

10

20

30

40

50

60

70

( m ilh e s)

8) Decidiu-se investigar a distribuio salarial dos prossionais com nvel universitrio em duas regies A e B. As informaes pertinentes foram obtidas e encontram-se no quadro abaixo, expressas em salrios mnimos. Com base nestes dados, responda: a) Que medidas podem ser calculadas a partir das que se encontram no quadro? b) Faa uma descrio rpida das principais diferenas entre o salrio destes prossionais? Regio A B Mdia 20.000 20.000 DP 4.00 6.00 Mediana 20.32 18.00 Moda 20.15 17.00 34 Q1 17.32 16.00 Q3 22.68 24.00 Min 8.00 14.00 Mx 32.00 42.00

9) Verique se existe associao entre as duas variveis dos exemplos a seguir: 9.1. Hbito de fumar e sexo: Grupo Sanguneo Sim No TOTAL 9.2. Estado civil e aprovao no vestibular: Estado Civil Solteiro Casado Separado Outros TOTAL Aprovado 120 45 180 255 600 Reprovado 80 55 120 145 400 TOTAL 200 100 300 400 1000 Sexo Masculino Feminino 20 60 25 75 45 135 TOTAL 80 100 180

Bibliograa

BERQU, SOUZA, GOTLIEB. Bioestatstica. So Paulo: Editora Pedaggica e Universitria Ltda, 1980. BOTTER, et alii. Noes de estatstica: Notas de aula. Instituto de Matemtica e Estatstica. USP. Fevereiro, 1996. BUSSAB, Wilton O , MORETTIN, Pedro A . Estatstica Bsica. 4a ed. So Paulo: Atual Editora, 1980. FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade. Curso de Estatstica. 3a ed. Editora Atlas, 1990. LAURENTI, et elii. Estatsticas de sade. 2a ed. So Paulo: E.P.U., 1987. LOPES, Paulo Afonso. Probabilidades e Estatstica. Editora R.A . 1999 MORETTIN, Luiz Gonzaga. Estatstica Bsica. 7a ed. Editora Makron Books. Vols. 1 e 2. 1999. MORAES, Lia Terezinha L.P. Notas de aulas (diversos). Departamento de Estatstica. UFBA.1996. SOARES, Jos Francisco; SIQUEIRA, Arminda Lcia. Introduo Estatstica Mdica. 1a edio. Belo Horizonte: Departamento de Estatstica. UFMG.1999. SOUNIS, Emlio. Bioestatstica. So Paulo: Editora McGraw-Hill do Brasil Ltda, 1979. TOLEDO, Geraldo Luciano, OVALLE, Ivo Izidoro. Estatstica Bsica. 2a ed. So Paulo: Editora Atlas, 1994. TRIOLA, Mrio. Introduo Estatstica. 7a ed. Editora LTC. 1999 VIEIRA, Snia. Introduo Estatstica. Rio de Janeiro: Editora Campus Ltda, 1981.

35