Vous êtes sur la page 1sur 202

ESTATSTICA

BSICA

autor

FERNANDO DE FIGUEIREDO BALIEIRO

1 edio
SESES
rio de janeiro 2015

Conselho editorial sergio augusto cabral; roberto paes; gladis linhares


Autora do original valria aparecida ferreira
Projeto editorial roberto paes
Coordenao de produo gladis linhares
Projeto grfico paulo vitor bastos
Diagramao bfs media
Reviso lingustica amanda duarte aguiar
Reviso de contedo paula tavares da cunha melo
Imagem de capa pavalache stelian | dreamstime.com
Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida
por quaisquer meios (eletrnico ou mecnico, incluindo fotocpia e gravao) ou arquivada em
qualquer sistema ou banco de dados sem permisso escrita da Editora. Copyright seses, 2015.
Dados Internacionais de Catalogao na Publicao (cip)
F383e Ferreira, Valria

Estatstica bsica / Valria Ferreira

Rio de Janeiro: SESES, 2015.

184 p.: il.

isbn: 978-85-5548-129-1

1. Probabilidade. 2. Funes de variveis. 3. Regresso Linear.


I. SESES. II. Estcio.
cdd 519.2

Diretoria de Ensino Fbrica de Conhecimento


Rua do Bispo, 83, bloco F, Campus Joo Ucha
Rio Comprido Rio de Janeiro rj cep 20261-063

Sumrio
1. Conceitos Iniciais e Apresentao dos Dados por
meio de Distribuies de Frequncias e Grficos 7
Objetivos 8
1.1 Definio de Estatstica
9
1.2 Conceitos bsicos da Estatstica
10
1.3 Coleta de dados
16
1.3.1 Tcnicas de amostragem
17
1.3.1.1 Tcnicas de amostragem probabilstica (ou aleatria)
18
1.3.1.1.1 Amostragem aleatria simples
18
1.3.1.1.2 Amostragem estratificada
19
1.3.1.1.3 Amostragem sistemtica
20
1.3.1.1.4 Amostragem por conglomerado
21
1.3.1.2 Tcnicas de amostragem no probabilstica (ou no aleatria) 22
1.3.1.2.1 Amostragem por convenincia
22
1.3.1.2.2 Amostragem por quota
23
1.4 Distribuio de frequncias
25
1.5Grficos
32
1.5.1 Tipos de grficos
33
1.5.1.1 Grfico de linhas
33
1.5.1.2 Grfico de barras
35
1.5.1.3 Grfico de setores
37
1.5.1.4Histograma
38
1.5.1.5 Polgono de frequncias
39
1.5.1.6 Diagrama de Pareto
39
1.5.1.7 Diagrama de disperso
41
1.6 Utilizao do Microsoft Excel na Construo de Grficos
43
Reflexo 46
Referncias bibliogrficas
47

2. Medidas Resumo

49

Objetivos 50
2.1 Medidas de tendncia central
51
2.1.1 Mdia aritmtica
51
2.1.1.1 Propriedades da mdia
54
2.1.2Moda
54
2.1.3Mediana
55
2.1.4 Clculos das medidas de tendncia central para dados
agrupados em intervalos de classes
59
2.2 Medidas de disperso
63
2.2.1 Mnimo, mximo e amplitude
64
2.2.2 Desvio mdio, varincia e desvio padro amostrais
65
2.2.2.1 Uma regra prtica para interpretar o desvio-padro
67
2.2.2.2 Propriedades do desvio padro
68
2.2.3 Coeficiente de variao
72
2.2.4 Clculos da varincia e do desvio padro para dados
agrupados em intervalos de classes
73
2.3 Medidas separatrizes ou de ordenamento
75
2.3.1Quartis
75
2.3.2 Decis e Percentis
77
2.3.3 Clculo das medidas separatrizes para dados
agrupados em intervalos de classes
78
2.4 Medidas de assimetria e curtose
86
2.5 Utilizao do Microsoft Excel na Anlise de Dados
92
Reflexo 95
Referncias bibliogrficas
95

3. Distribuio de Probabilidade Normal

97

Objetivos 98
3.1 Varivel aleatria
99
3.2 Distribuio Normal
99
3.3 Utilizao do Microsoft Excel no clculo de probabilidades normais 118
Reflexo 124
Referncias bibliogrficas
125

4. Teste de Hipteses

127

Objetivos 128
4.1 Fundamentos do teste de hipteses
129
4.2 Teste de hipteses para a mdia populacional
131
4.2.1 Tipos de erros, nvel de significncia e estatstica de teste
131
4.2.2 Deciso e interpretao
135
4.3 Teste de hipteses para duas amostras
139
4.3.1 Testes para diferenas entre mdias
140
4.3.1.1 Amostras independentes com desvios
padres desconhecidos e diferentes
141
4.3.1.2 Amostras independentes com desvios
padres desconhecidos e iguais
144
4.3.1.3 Amostras independentes com desvios padres conhecidos 148
4.3.1.4 Amostras dependentes
150
4.4 Utilizao do Microsoft Excel para testes de duas amostras
154
4.4.1 Comparao de duas mdias com desvios padres
desconhecidos e diferentes
154
4.4.2 Comparao de duas mdias (amostras dependentes)
157
Reflexo 162
Referncias bibliogrficas
163

5. Correlao e Regresso Linear Simples

165

Objetivos 166
5.1 Diagrama de disperso
167
5.2 Coeficiente de correlao linear
168
5.3 Teste de hipteses para correlao
173
5.4 Regresso linear simples
175
5.5 Coeficiente de determinao
181
5.6 Utilizao do Microsoft Excel na anlise de regresso e correlao 185
Reflexo 195
Referncias bibliogrficas
196

1
Conceitos Iniciais e
Apresentao dos
Dados por meio
de Distribuies
de Frequncias e
Grficos

Nesse primeiro captulo, estudaremos conceitos bsicos da Estatstica e


como organizamos e apresentamos um conjunto de dados por meio de distribuies de frequncias e grficos apropriados.
Os conceitos abordados neste captulo so muito importantes, pois qualquer
estudo ou pesquisa deve ser conduzido a partir dos conhecimentos adquiridos neste primeiro momento, para que os resultados obtidos na anlise sejam um instrumento confivel para tomadas de decises.

OBJETIVOS
Aps o estudo dos conceitos e tcnicas que sero apresentados, esperamos que voc consiga:
Descrever a populao e a amostra em um estudo;
Identificar e classificar os diferentes tipos de variveis presentes em um estudo;
Compreender a que se destina cada uma das reas da Estatstica;
Entender as caractersticas dos vrios tipos de amostragens probabilsticas utilizados para
coleta de dados;
Construir distribuies de frequncias e grficos apropriados.

captulo 1

1.1 Definio de Estatstica


muito comum nos meios de comunicao, como jornais, revistas, televiso e
internet, nos depararmos com informaes estatsticas. Por exemplo:
Os institutos de pesquisas divulgam com frequncia resultados obtidos
em pesquisas que tm por objetivo avaliar o governo do presidente em exerccio.
As taxas de cesrias, no Brasil, no sistema privado e no SUS.
O percentual de aumento, ou reduo, no preo da cesta bsica.
Incidncia estimada de cncer de mama nos estados do Brasil.
Para que estas informaes sejam obtidas, precisamos coletar dados para
transform-los em informaes. Portanto, podemos definir a Estatstica da seguinte maneira:
Estatstica um conjunto de tcnicas utilizadas para a coleta, organizao,
resumo, anlise e interpretao de dados.
Quando o foco est nas cincias biolgicas e da sade, usamos o termo
bioestatstica.
A Estatstica tem um papel fundamental em diversas reas do conhecimento, pois o uso de tcnicas estatsticas apropriadas fornece informaes que auxiliam no processo de tomada de decises. Por exemplo, a eficcia de um novo
medicamento para reduzir o LDL colesterol feito por meio de um teste clnico
com pacientes. A anlise dos dados obtidos informar se a reduo estatisticamente significante.
Mtodos estatsticos so essenciais no estudo de situaes em que as variveis
de interesse esto sujeitas, inerentemente, a flutuaes aleatrias. Isto acontece
muito na rea da sade. Por exemplo, mesmo que o estudo seja feito com pacientes homogneos, observamos uma grande variabilidade, por exemplo, na resposta
a algum tipo de tratamento. Ento, para estudar problemas clnicos, precisamos
de uma metodologia capaz de tratar a variabilidade de forma adequada.
O avano da informtica e a popularizao dos computadores contriburam
para o uso de mtodos estatsticos. Antigamente, era muito demorado fazer anlises de muitas informaes, e agora, com o auxlio do computador, as anlises so
feitas rapidamente. Alm disto, com o avano da informtica, novas tcnicas de
anlise de dados foram introduzidas, principalmente mtodos grficos. Muitos
pacotes estatsticos foram desenvolvidos e so usados tanto no meio acadmico

captulo 1

como em indstrias, como, por exemplo, Minitab, SPSS e SAS. Utilizamos tambm
o Microsoft Office Excel, que possui opes para certas tcnicas estatsticas. Apesar
do grande auxlio fornecido pelos pacotes estatsticos e pelo Excel, precisamos ter
um conhecimento terico slido para saber qual tcnica estatstica utilizar para
resolver um problema, alm de saber analisar e interpretar os resultados obtidos.
A Estatstica pode ser dividida em duas grandes reas: a estatstica descritiva e a inferncia estatstica.
Na estatstica descritiva, utilizamos tcnicas destinadas a organizar, descrever e resumir os dados. Os dados so tabulados e apresentados por meio de
grficos e resumidos atravs de medidas numricas. Desta maneira, as informaes estatsticas so apresentadas de maneira clara e de fcil entendimento.
Na inferncia estatstica (ou inferncia indutiva), utilizamos dados amostrais para fazer estimativas, testar hipteses e fazer previses sobre caractersticas de uma populao. Veremos, a seguir, alguns conceitos que facilitaro o
entendimento da importncia da inferncia estatstica.

1.2 Conceitos bsicos da Estatstica


CONCEITOS
Conjunto formado por todos os elementos (pessoas, objetos, me-

POPULAO

didas, respostas e outros) que tm a caracterstica que se deseja


estudar.

AMOSTRA

Subconjunto representativo da populao de interesse.

PARMETRO

Medida numrica que descreve alguma caracterstica de uma po-

ESTATSTICA

Medida numrica que descreve alguma caracterstica de uma

10

captulo 1

pulao.

amostra.

CONCEITOS
VARIVEL

Caracterstica de interesse no estudo.

DADOS

Respostas coletadas da varivel em estudo.

CENSO

Conjunto de dados obtidos atravs de todos os elementos da populao.

Vale ressaltar que o termo populao refere-se no somente a um conjunto


de pessoas. Podemos citar alguns exemplos de populaes: todos os habitantes da cidade de So Paulo; todos os carros produzidos, em determinado ano,
por uma montadora; todos os acidentes ocorridos em determinada extenso
de uma rodovia durante um feriado prolongado; todo o sangue no corpo de
uma pessoa ou todos os pacientes traumatizados atendidos na Unidade de
Emergncia do Hospital das Clnicas de Ribeiro Preto da Universidade de So
Paulo, no ano de 2014.
Em muitos estudos, muito difcil podermos trabalhar com todos os elementos da populao. Quando isto ocorre, retiramos um conjunto menor de
elementos da populao, que denominado amostra.
A amostra um subconjunto representativo da populao de interesse e
por meio dela que o estudo estatstico feito, de maneira a obtermos informaes importantes sobre a populao da qual a amostra foi extrada.
De acordo com Vieira (2008, p. 4).
As razes que levam os pesquisadores a trabalhar com amostras e no com toda a
populao so poucas, mas absolutamente relevantes.
Custo e demora dos censos.
Populaes muito grandes.
Impossibilidade fsica de examinar toda a populao.
Comprovado valor cientfico das informaes coletadas por meio de amostras.

captulo 1

11

Podemos justificar a primeira razo, custo e demora dos censos, analisando


as pesquisas eleitorais. As prvias eleitorais so feitas regularmente e publicadas. Analisar todos os milhes de eleitores do Brasil em um curto espao de
tempo torna-se impossvel para o pesquisador. Vamos lembrar que nosso pas
possui uma vasta extenso territorial, fazendo com que a pesquisa leve muito
tempo e gere um custo muito alto.
No caso de populaes muito grandes, impossvel estud-las por inteiro.
Por exemplo, se temos interesse de estudar determinada planta em uma mata.
O nmero de plantas matematicamente finito, mas to grande, que pode ser
considerado infinito para qualquer estudo prtico.
Em algumas situaes, impossvel examinar toda a populao. Por exemplo, na anlise de sangue de uma pessoa, no podemos observar toda a populao de interesse.
E, por fim, a coleta de dados por meio de uma amostra tem maior valor
cientfico do que se estivssemos estudando brevemente toda a populao.
Por exemplo, um pesquisador social tem interesse em estudar hbitos e comportamentos relacionados sade da criana e do adolescente de uma grande
cidade brasileira. melhor fazer uma avaliao criteriosa e cuidadosa de dados amostrais do que uma avaliao rpida e resumida de toda a populao de
crianas e adolescentes da cidade.
A Figura 1.1 ilustra os conceitos de populao e amostra e as reas da estatstica descritiva e inferencial, com seus respectivos objetivos.

Figura 1.1 Populao e amostra. Fonte: MAGALHES e LIMA (2004, p. 3).

12

captulo 1

Quando temos acesso a todos os elementos que desejamos estudar, ou seja, a populao, no necessrio o uso de tcnicas da inferncia estatstica.

Um levantamento de dados obtidos por meio de toda a populao chamado censo. Esta palavra familiar, pois no nosso pas, a cada 10 anos, o Instituto
Brasileiro de Geografia e Estatstica (IBGE) faz o Censo Demogrfico do Brasil.
Com as informaes obtidas pelos censos, podemos conhecer a distribuio
territorial e as principais caractersticas das pessoas e dos domiclios. Estas
informaes so imprescindveis para a definio de polticas pblicas e a tomada de decises de investimentos.

CONEXO
Em pocas de recenseamento, uma declarao muito comum : o recenseador no passou
em minha residncia. Para entender a metodologia adotada pelo IBGE, leia as informaes disponveis em: <http://saladeimprensa.ibge.gov.br/noticias?view=noticia&id=1&busca=1&idnoticia=1866> Acesso em: 30 de Abr. 2015.

Os dados obtidos por meio de uma populao ou amostra, so provenientes


da(s) varivel(eis) em estudo. Varivel uma caracterstica de interesse no estudo. Por exemplo, podemos ter interesse nas variveis idade, gnero, renda e escolaridade dos clientes de determinada Unidade Bsica de Sade. As respostas obtidas em cada uma destas variveis formaro o conjunto de dados a ser estudado.
Para uma melhor compreenso dos conceitos expostos acima, vamos analisar o exemplo a seguir.

EXEMPLO
1.1: Um hospital e maternidade possui 3 200 funcionrios. O departamento de recursos
humanos fez uma pesquisa de clima organizacional com 620 funcionrios selecionados nos
diversos setores do hospital e um dos tpicos abordados foi o grau de satisfao com os
benefcios oferecidos pela empresa. A anlise dos dados mostrou que 55% dos funcionrios
esto satisfeitos com os benefcios oferecidos. De acordo com as informaes contidas no
enunciado, vamos identificar:

captulo 1

13

a)

A populao em estudo.

b)

A varivel em estudo.

c)

O tamanho da amostra.

d)

A informao numrica 55% um parmetro ou uma estatstica?


Resoluo

a)

Populao em estudo: 3 200 funcionrios do hospital e maternidade.

b)

Varivel em estudo: nvel de satisfao com os benefcios oferecidos.

c)

Tamanho da amostra: 620 funcionrios.

d)

A informao numrica 55% uma estatstica, pois esta informao foi obtida atravs

de dados amostrais.

Quando coletamos dados referentes varivel ou s variveis em estudo,


podemos obter respostas numricas ou no numricas. intuitivo pensar que
quando as respostas so numricas, estamos trabalhando com dados quantitativos e, quando as respostas no so numricas, os dados so qualitativos.
No caso do Exemplo 1.1, os dados coletados so qualitativos, pois duas das
possveis respostas dos funcionrios so: insatisfeito ou satisfeito.
Como os dados so provenientes das variveis em estudo, podemos classificar as variveis da mesma forma: variveis qualitativas (ou categricas) ou
quantitativas.
As variveis qualitativas podem ser classificadas como qualitativas nominais ou ordinais. Se existir uma ordenao natural, elas so classificadas como
qualitativas ordinais. Caso contrrio, elas so classificadas como variveis qualitativas nominais. Por exemplo, variveis como gnero (masculino e feminino)
e estado civil (solteiro, casado, vivo, etc.) so classificadas como qualitativas
nominais. Agora, variveis como desempenho de um profissional (pssimo,
regular ou bom) e grau de instruo (ensino fundamental, ensino mdio, superior) so classificadas como qualitativas ordinais.

No caso das variveis quantitativas, elas podem ser classificadas como
quantitativas discretas ou contnuas. As variveis quantitativas discretas so
resultantes de uma operao de contagem, assumindo respostas cujos nmeros so inteiros. J as variveis quantitativas contnuas so resultantes de
mensuraes, assumindo valores que pertencem a um intervalo de nmeros
reais, ou seja, nmeros decimais. Por exemplo, nmero de faltas ao trabalho

14

captulo 1

por motivo de sade (0, 1, 2,...) e nmero de peas defeituosas em um lote (0,
1, 2, 3,...) so classificadas como quantitativas discretas, enquanto que peso,
altura, renda familiar (salrios mnimos) so classificadas como quantitativas
contnuas.
Podemos atribuir cdigos numricos s categorias de respostas de algumas
variveis qualitativas. Por exemplo, para a varivel gner, podemos associar o cdigo 1 para o sexo feminino e 2 para o sexo masculino. Mas isto no a torna uma
varivel quantitativa, ou seja, no podemos, por exemplo, calcular uma mdia
destas respostas, pois no conseguiramos interpretar o resultado obtido.

Figura 1.2 Classficao das variveis.

EXEMPLO
1.2: Vamos classificar as seguintes variveis:
a)

Nmero de peas defeituosas produzidas em uma linha de montagem.

b)

Peso de pacientes.

c)

Fumante.

d)

Tipo sanguneo.

e)

Grau de satisfao do consumidor com determinado produto.


Resoluo

a)

Varivel quantitativa discreta, pois as possveis respostas so 0, 1, 2, 3, etc. (as respos-

tas assumem somente valores inteiros).


b)

Varivel quantitativa contnua, pois as possveis respostas so 58,7; 89,8; etc. (as res-

postas podem assumir valores decimais).

captulo 1

15

c)

Varivel qualitativa nominal, pois as possveis respostas so sim ou no. (as possveis

respostas so categricas).
d)

Varivel qualitativa nominal, pois as possveis respostas so A, AB, B ou O (as possveis

respostas so categricas).
e)

Varivel qualitativa ordinal, pois as possveis respostas so nada satisfeito, pouco sa-

tisfeito, satisfeito, muito satisfeito (as possveis respostas so categricas e possuem uma
ordenao natural, do menor grau de satisfao para o maior).

Outra maneira comum de classificar os dados atravs do uso dos nveis de mensurao intervalar e de razo. No nvel intervalar, as diferenas so significativas, mas no
existe ponto inicial zero natural e as razes no tm sentido e, no nvel de mensurao
de razo, h um ponto inicial zero natural e as razes so significativas.

1.3 Coleta de dados


J sabemos que para, fazer qualquer estudo estatstico, precisamos coletar dados.
Esta coleta pode ser feita atravs de estudos observacionais ou experimentos.
Em estudos observacionais, no h qualquer tentativa de controlar ou modificar os elementos que faro parte do estudo. Por exemplo, uma pesquisa
feita por institutos de pesquisa um estudo observacional, pois os dados so
geralmente coletados atravs de uma entrevista ou preenchimento de um questionrio. Neste estudo, as respostas das pessoas so simplesmente coletadas e
registradas, sem qualquer tipo de controle ou modificao.
Em um experimento, aplicamos algum tratamento e observamos o seu efeito sobre os elementos que esto participando do estudo. Por exemplo, uma indstria farmacutica est interessada em testar uma nova medicao no tratamento de pessoas com colesterol alto. Um grupo de pacientes com altos nveis
colesterol recebe o tratamento e passa a ser observado.
Sabemos, tambm, que um estudo estatstico pode ser feito com todos
os elementos da populao ou com uma parte desta populao (amostra).
Quando o estudo for feito com dados amostrais, deveremos ter muito cuidado

16

captulo 1

na maneira de coletar estes dados. De acordo com TRIOLA (2008, p. 17), se os


dados amostrais no forem coletados de maneira apropriada, eles podem ser
de tal modo inteis que nenhuma manipulao estatstica poder salv-los.
Para que possamos usar os resultados obtidos na amostra para fazer inferncias sobre a populao de interesse, precisamos garantir que a amostra
seja representativa desta populao. Por exemplo, no Exemplo 1.1, se os 620
funcionrios forem selecionados somente em um dos setores da empresa, no
podemos garantir que esta amostra seja representativa de todos os funcionrios, pois parece pouco provvel que os outros funcionrios dos diversos setores tenham a mesma avaliao sobre o grau de satisfao com os benefcios
oferecidos.
Veremos agora quais tcnicas de amostragem podemos utilizar para garantir a representatividade da populao.

1.3.1 Tcnicas de amostragem


Temos dois tipos de amostragem, a que chamamos de probabilstica (ou aleatria) e a no probabilstica (ou no aleatria).
A amostragem ser probabilstica se todos os elementos da populao tiverem probabilidade conhecida, e diferente de zero, de pertencer amostra. Caso
contrrio, a amostragem ser no probabilstica.
Quando selecionamos os elementos que faro parte da amostra, podemos
permitir que eles sejam selecionadas mais de uma vez. Neste caso, estamos trabalhando com amostragem com reposio. Na amostragem sem reposio, o
elemento sorteado removido da populao. Se pensarmos na quantidade de
informao que a amostra conter, a amostragem sem reposio mais adequada. Mas, amostragem com repetio implica independncia entre os elementos selecionados. Isto facilita o desenvolvimento de propriedades de estimadores que so estudos em tcnicas da inferncia estatstica.
Na prtica podemos considerar a seleo dos elementos como independentes quando pequenas amostras so retiradas de grandes populaes, pois raro
selecionar o mesmo elemento duas vezes.
Segundo TRIOLA (2008, p. 132), Eis uma diretriz comum: se o tamanho da
amostra no maior que 5% do tamanho da populao, tratamos a seleo das
unidades experimentais como sendo independentes (mesmo que as selees
sejam feitas sem reposio, pois tecnicamente elas so dependentes).

captulo 1

17

Estudaremos agora algumas tcnicas muito utilizadas de amostragem


probabilstica.
1.3.1.1 Tcnicas de amostragem probabilstica (ou aleatria)
A grande vantagem das amostras probabilsticas medir a preciso da amostra obtida, baseando-se no resultado contido na prpria amostra (BUSSAB;
MORETTIN, 2002, p. 261).
Nas tcnicas descritas a seguir, usaremos N para denotar o tamanho da populao e n para indicar o tamanho da amostra.
Utilizaremos um mesmo exemplo para explicar as diferentes tcnicas de
amostragem, com o objetivo de evidenciar as caractersticas de cada uma delas.
1.3.1.1.1 Amostragem aleatria simples
Neste tipo de amostragem, a seleo dos elementos que faro parte da amostra
feita de maneira bem simples: quando estamos trabalhando com uma populao finita, temos como obter uma listagem de todos os N elementos que
compem a populao. Para fazer a seleo, escrevemos cada elemento da
populao em um carto, colocamos em uma urna e sorteamos a quantidade
de cartes de acordo com o tamanho da amostra. Neste procedimento, todo
elemento da populao tem a mesma probabilidade de pertencer amostra.
Quando a populao for muito grande, o procedimento descrito torna-se invivel. Nestes casos, contamos com o auxlio do Excel, que gera nmeros aleatrios atravs da funo ALEATORIOENTRE. Para utilizarmos este tipo de amostragem, desejvel que a populao seja homognea, ou seja, que os elementos
sejam similares sob o ponto de vista da varivel em estudo. Caso a populao
seja heterognea, h o risco de se obter uma amostra pouco representativa
da populao em estudo. Por exemplo, a populao de funcionrios de uma
empresa difere quanto ao gnero, faixa de idade, grau de escolaridade e faixa
salarial, e quando selecionarmos uma amostra aleatria de funcionrios pode
acontecer de no serem sorteados elementos com algumas destas caractersticas. E, os funcionrios que se enquadram em cada uma destas caractersticas
podem ter avaliaes diferentes quanto varivel em estudo.

18

captulo 1

EXEMPLO
1.3: Uma universidade est elaborando uma pesquisa com objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando aperfeioamento
e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. Qual deve ser o procedimento para a obteno
de uma amostra aleatria simples?
Resoluo
Para obtermos uma amostra aleatria simples de 8% dos 4 500 estudantes, precisamos
sortear 360. Como poderemos fazer este sorteio? Temos como obter o nome ou registro
acadmico de cada um dos alunos facilmente. Estas informaes esto disponveis na secretaria acadmica da universidade. Os nomes ou registros acadmicos so escritos em pedaos de papel. Aps colocar, separadamente, as informaes em

4 500 papis, eles so

colocados em uma urna. Misturamos bem e sorteamos um papel. Repetimos o procedimento at que 360 papis sejam sorteados. Os nomes (ou registros acadmicos) selecionados
correspondem aos alunos que comporo a amostra. A descrio do sorteio foi feita desta
maneira para facilitar o entendimento deste tipo de amostragem. Nos dias atuais, colocamos
todos os nomes em uma planilha do Excel e utilizamos a funo ALEATRIOENTRE.

1.3.1.1.2 Amostragem estratificada


Utilizamos esta tcnica quando identificamos que a populao heterognea
para a varivel de interesse no estudo. Neste caso, dividimos a populao em
grupos mais homogneos (subgrupos), que so os estratos. Aps a identificao dos estratos, selecionamos os elementos que faro parte da amostra atravs de uma amostragem aleatria simples de cada estrato ou atravs de uma
seleo proporcional ao nmero de elementos existentes em cada estrato. Voltando ao exemplo da seleo de uma amostra de funcionrios de um hospital
e maternidade, podemos dividir a populao de funcionrios nos seguintes estratos: gnero, faixa de idade, grau de escolaridade e faixa salarial. Dentro de
cada estrato, os elementos so similares.

captulo 1

19

EXEMPLO
1.4: Uma universidade est elaborando uma pesquisa com objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando aperfeioamento
e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. H uma suspeita de que mulheres so mais criteriosas na avaliao institucional. De acordo com informaes acadmicas, aproximadamente
60% dos estudantes so do sexo feminino. Qual deve ser o procedimento para a obteno
de uma amostra estratificada?
Resoluo
De acordo com as informaes, vamos separar os estudantes em dois estratos: estudantes do sexo masculino e estudantes do sexo feminino. Depois, obtemos uma amostra aleatria simples de cada estrato (gnero) e reunimos os dados selecionados dos dois estratos
em uma s amostra estratificada.

Como sabemos que 60% dos estudantes so do sexo feminino e,consequentemente,


40% do sexo masculino, podemos fazer uma seleo proporcional ao nmero de estudantes em cada estrato. Neste caso, selecionaramos aleatoriamente 216 estudantes
no estrato do sexo feminino (360 x 0,6) e 144 estudantes no estrato do sexo masculino (360 x 0,4).

1.3.1.1.3 Amostragem sistemtica


A seleo dos elementos, quando utilizamos a amostragem sistemtica, feita
segundo um sistema preestabelecido (sistematicamente). Para estabelecermos
o sistema de seleo, ordenamos os elementos da populao (formando uma
lista) de forma a identific-los pela posio e, aps o nmero inicial ser selecionado aleatoriamente, os elementos que faro parte da amostra sero selecionados segundo intervalos regulares que ocorrem a partir do nmero inicial.
Precisamos tomar cuidado ao estabelecer o sistema de seleo dos elementos,
pois tendncias podem surgir se houver algum tipo de sequncia peridica ou
cclica nos elementos da populao que foram ordenados.

20

captulo 1

EXEMPLO
1.5: Uma universidade est elaborando uma pesquisa com o objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando ao aperfeioamento e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. Qual deve ser o procedimento para a obteno
de uma amostra sistemtica?
Resoluo
Na amostragem sistemtica, precisamos de uma lista dos elementos que compem a
populao. Aps conseguir uma listagem com todos os estudantes, precisamos encontramos
N
4 500
=12,5 . Como k no um nmero
a frao amostral k= . No nosso exemplo, k=
n
360
inteiro, devemos arredondar para o inteiro mais prximo, ou seja, vamos considerar k = 13.

O prximo passo escolher aleatoriamente um nmero entre 1 e 13 (por


meio de um sorteio). Por exemplo, vamos supor que o nmero sorteado seja 4.
Ento, o primeiro estudante selecionado ser o que est na quarta posio da
listagem. Depois, a partir do nmero 4, contamos 13 e selecionamos o prximo
estudante, e assim por diante, at completar a amostra de 360 estudantes.
1.3.1.1.4 Amostragem por conglomerado
Neste tipo de amostragem, dividimos a populao em subgrupos (conglomerados) de elementos heterogneos, em seguida selecionamos aleatoriamente alguns conglomerados e escolhemos todos os elementos desses conglomerados
selecionados para compor a amostra.
A diferena entre a amostragem estratificada e por conglomerado que na
amostragem estratificada os elementos dentro de cada subgrupo so homogneos e, no caso dos conglomerados, os elementos dentro de cada subgrupo so
heterogneos. A amostragem estratificada usa uma amostra de elementos de
todos os estratos, enquanto que a amostragem por conglomerado usa todos os
elementos dos conglomerados selecionados.

captulo 1

21

EXEMPLO
1.6: Uma universidade est elaborando uma pesquisa com objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando aperfeioamento
e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. Qual deve ser o procedimento para a obteno
de uma amostra por conglomerados?
Resoluo
Nesta situao, podemos formar conglomerados com os alunos matriculados em cada
um dos cursos da universidade. Por exemplo, conglomerado formado com todos os estudantes matriculados no curso de Administrao, ou conglomerado formado com todos os
estudantes matriculados no curso de Enfermagem e assim por diante. Aps a identificao
dos conglomerados, sorteamos alguns deles e entrevistamos todos os estudantes dentro de
cada conglomerado sorteado.

Os estudantes dentro de cada conglomerado so heterogneos, ou seja, h diversidades de informaes quanto a idade, estado civil, renda, gnero, etc.

1.3.1.2 Tcnicas de amostragem no probabilstica (ou no aleatria)


De acordo com BRUNI (2010, p. 173)
A amostragem no probabilstica consiste em uma amostragem subjetiva, em que a variabilidade dos resultados da amostra no pode ser obtida com preciso, ao contrrio da
amostragem probabilstica. Impede a mensurao do erro da inferncia que indesejado
-, porm, resulta em custos ainda mais baixos em uma coleta de dados ainda mais rpida.

1.3.1.2.1 Amostragem por convenincia


Na amostragem por convenincia, os elementos amostrais so escolhidos por
serem mais acessveis, gerando informaes de forma rpida e barata. Por
exemplo, no nosso exemplo da avaliao da universidade, um professor de

22

captulo 1

Clculo pode escolher todos os alunos que cursam sua disciplina, nos diversos
cursos em que leciona, para compor a amostra que ser utilizada na pesquisa.
Neste tipo de seleo, o professor restringe a escolha dos alunos que faro parte da amostra, pois estudantes que no tm aula com ele estaro excludos de
participar da amostra.
1.3.1.2.2 Amostragem por quota
Neste tipo de amostragem, os elementos que fazem parte da amostra so retirados
da populao segundo quotas estabelecidas de acordo com a distribuio desses
elementos na populao. A descrio deste tipo de amostragem nos faz lembrar da
amostragem estratificada. A diferena que, aqui, os elementos so selecionados
por julgamento, e no de maneira aleatria, e depois confirmamos as caractersticas dos elementos amostrados. Por ser relativamente barato, este tipo de amostragem muito utilizado em levantamentos de opinio e pesquisa de mercado.

CONEXO
Uma leitura interessante sobre a amostragem no probabilstica encontrada no seguinte
trabalho: Amostragem no Probabilstica: Adequao de Situaes para uso e Limitaes de
amostras por Convenincia, Julgamento e Quotas. Disponvel em: < http://www.fecap.br/
adm_online/art23/tania2.htm>. Acesso em: 30 de Abr. 2015.

Aps a definio de qual tipo de amostragem ser utilizada em uma pesquisa, a pergunta que naturalmente surge : Qual o tamanho da amostra que devemos utilizar? H frmulas estatsticas bem conhecidas para determinao do
tamanho amostral, mas a aplicao dessas frmulas exige conhecimentos que
no abordaremos neste livro.
De acordo com VIEIRA (2008, p. 13)
Mais importante saber que no basta ter em mos uma frmula, ou um programa de
computador para estimar o tamanho da amostra. preciso algum conhecimento prvio
(estimativas preliminares de um ou mais parmetros, obtidas de amostras pilotos ou da
literatura) e uma boa dose de bom senso.

captulo 1

23

CONEXO
Para uma leitura introdutria sobre clculo do tamanho de amostras, o artigo: Anlise a respeito do tamanho de amostras aleatrias simples: uma aplicao na rea de Cincia da Informao aborda diferentes procedimentos estatsticos para a determinao do tamanho
de uma amostra aleatria simples. Disponvel em: <http://dgz.org.br/ago05/Art_01.htm>.
Acesso em: 30 de Abr. 2015.

Mesmo planejando e executando bem o processo de coleta da amostra,


provavelmente haver algum erro nos resultados. Por exemplo, voltando ao
Exemplo 1.1, se selecionarmos uma amostra com outros 620 funcionrios
provavelmente encontraremos uma estimativa diferente para a proporo de
funcionrios satisfeitos com os benefcios oferecidos. Ou, ainda, poderamos
tirar uma amostra que fornea um resultado muito diferente daquele que seria
obtido se trabalhssemos com a toda a populao. Ento, de acordo com o raciocnio exposto, podemos definir dois tipos de erros:

ERRO
AMOSTRAL

a diferena entre o resultado amostral e o verdadeiro resultado da populao; tais erros resultam das flutuaes amostrais devidas ao acaso.

Ocorre quando os dados amostrais so coletados, registrados

ERRO NO
AMOSTRAL

ou analisados incorretamente (tal como a seleo de uma


amostra tendenciosa, o registro incorreto dos dados ou o uso
de um instrumento de medida defeituoso).

Se os dados amostrais so coletados por meio de um processo probabilstico,


esperamos que eles sejam representativos da populao e, assim, podemos analisar o erro amostral, mas devemos ter o cuidado de minimizar o erro no amostral.
Agora que j sabemos que os dados so obtidos por meio de elementos provenientes de uma populao ou de uma amostra e que, caso sejam dados amostrais, devemos tomar o cuidado de selecionar elementos que sejam os mais parecidos possveis com a populao do qual foram extrados, vamos aprender a
organizar os dados.

24

captulo 1

Aps a obteno dos dados, por exemplo, atravs de experimentos, cadastros, entrevistas ou preenchimento de questionrios, obtemos o conjunto de
dados brutos, ou seja, dados que ainda no foram organizados. Neste momento comeamos com a apurao, isto , organizao dos dados brutos. Isto
feito por meio da construo da distribuio de frequncias, que estudaremos
a seguir.

1.4 Distribuio de frequncias


Em um estudo estatstico, temos como maior interesse conhecer o comportamento da(s) varivel(eis) presentes no estudo. Isto se torna fcil quando organizamos as respostas da varivel em uma distribuio de frequncias. Mas, o que
uma distribuio de frequncias?
Distribuio de frequncias uma tabela em que se resumem grandes
quantidades de dados, determinando o nmero de vezes, que cada dado ocorre
(frequncia) e a porcentagem com que aparece (frequncia relativa).

O processo de contagem do nmero de vezes, que cada dado ocorre fica
facilitado se ordenarmos os dados. A uma sequncia ordenada (crescente ou
decrescente) de dados brutos damos o nome de Rol.

Vamos formalizar os conceitos das frequncias que utilizaremos na
construo da distribuio de frequncias:
Frequncia absoluta ou simplesmente frequncia (f): o n de vezes, que
cada dado aparece na pesquisa.
Frequncia relativa ou percentual (fr): o quociente da frequncia absoluta
pelo nmero total de dados. Esta frequncia pode ser expressa em porcentagem. O valor de (fr x100) definido como fr (%).
Veremos mais adiante que, em algumas anlises, precisaremos das informaes das frequncias acumuladas:
Frequncia acumulada (fa): a soma de cada frequncia com as que lhe so
anteriores na distribuio.

captulo 1

25

Frequncia relativa acumulada (fra): o quociente da frequncia acumulada pelo nmero total de dados. Esta frequncia tambm pode ser expressa em
porcentagem. O valor de (fra x100) definido como fra (%).
A seguir apresentamos a estrutura de uma distribuio de frequncias.
NOME DA VARIVEL

FREQUNCIA

FREQUNCIA RELATIVA (%)

nmero total de elementos em


estudo

100,00

Respostas da varivel

Total

Segundo VIEIRA (2003, p. 47)


1.

As tabelas devem ser delimitadas, no alto e embaixo, por traos horizontais. Esses

traos podem ser mais fortes do que os traos feitos no interior da tabela; as tabelas
no devem ser delimitadas, direita e esquerda, por traos verticais;
2.

O cabealho deve ser delimitado por traos horizontais;

3.

Podem ser feitos traos verticais no interior da tabela, separando as colunas;

4.

As tabelas devem ter significado prprio, isto , devem ser entendidas mesmo

quando no se l o texto em que esto apresentadas;


5.

As tabelas devem ser numeradas com algarismos arbicos. Pode ser adotada a

numerao progressiva por sees.


6.

Quando dois ou mais tipos de informao tiverem sido agrupados em um s con-

junto, esse conjunto entra na tabela sob a denominao outros.

EXEMPLO
1.7: Um questionrio foi aplicado aos dez candidatos a uma vaga no departamento financeiro de uma loja de departamentos e alguns dos resultados obtidos esto apresentados no
quadro a seguir. Vamos organizar os dados das variveis grau de escolaridade e idade em
distribuio de frequncias.

26

captulo 1

CANDIDATO DA VAGA

TEMPO DE EXPERINCIA
NA REA

GRAU DE ESCOLARIDADE

IDADE

Ensino Mdio

30

Ensino Superior

35

12

Ensino Superior

26

Ensino Mdio

22

Ensino Mdio

28

Ps Graduao

30

10

Ensino Mdio

26

Ensino Superior

33

Ps Graduao

35

10

Ensino Mdio

23

As variveis, ou seja, as caractersticas de interesse nos candidatos so: grau de escolaridade, idade e tempo de experincia na rea da vaga. Candidato no varivel! Esta
coluna simplesmente informa que so 10 candidatos, com suas respectivas caractersticas. Os nmeros poderiam ser substitudos pelos nomes dos candidatos.

Resoluo
A distribuio de frequncias contm 3 colunas: a varivel em estudo, a frequncia e a
frequncia relativa (%). Toda tabela deve conter um ttulo que explique o contedo da tabela.

Tambm podemos utilizar como cabealho para a segunda coluna a palavra Frequncia.

GRAU DE ESCOLARIDADE

NMERO DE CANDIDATOS

FREQUNCIA RELATIVA (%)

Ensino Mdio

50

Ensino Superior

30

Ps Graduao

20

Total

10

100

Tabela 1.1 Distribuio dos candidatos, segundo grau de escolaridade


O nmero de candidatos 5 para o grau de escolaridade Ensino Mdio, pois, analisando o
Quadro 1 verificamos que 5 candidatos possuem esta escolaridade (candidatos 1, 4, 5, 7 e 10).
5
100 = 50% .
A frequncia relativa (%) para este grau de escolaridade obtida fazendo
10

captulo 1

27

O mesmo procedimento feito para encontrar os valores referentes ao grau de escolaridade


Ensino Superior e Ps Graduao.
Analisando as informaes, observamos que, dos 10 candidatos vaga, 50% deles possuem Ensino Mdio, seguidos por 30% com Ensino Superior e 20% com Ps-Graduao.

IDADE

NMERO DE CANDIDATOS

FREQUNCIA RELATIVA (%)

22

10

23

10

26

20

28

10

30

20

33

10

35

20

Total

10

100

Tabela 1.2 Distribuio dos candidatos, segundo a idade.


Pelo Quadro 1, verificamos que h repetio das idades 26 (candidatos 3 e 7), 30 (candidatos 1 e 6) e 35 (candidatos 2 e 9).
Por meio das informaes contidas na Tabela 1.2, observamos que a idade mnima dos
candidatos 22 anos e a mxima 35 anos. Podemos concluir, tambm, que 70% dos
candidatos tm no mximo 30 anos (30 anos de idade ou menos).
Podemos observar que a estrutura da distribuio de frequncias a mesma tanto para
variveis qualitativas quanto para variveis quantitativas. No caso de variveis quantitativas,
colocamos os valores numricos em ordem crescente.
Como dissemos anteriormente, em algumas anlises precisamos da frequncia acumulada, como na construo de um grfico denominado Ogiva e no clculo de medidas separatrizes para dados organizados em intervalos de classes. Construiremos, agora, uma distribuio
de frequncias com a frequncia acumulada absoluta e a frequncia acumulada relativa (%).

28

IDADE

NMERO DE CANDIDATOS

FREQUNCIA
RELATIVA (%)

FREQUNCIA
ACUMULADA

FREQUNCIA ACUMULADA RELATIVA


(%)

22

10

10

23

10

20

26

20

40

28

10

50

30

20

70

captulo 1

IDADE

NMERO DE CANDIDATOS

FREQUNCIA
RELATIVA (%)

FREQUNCIA
ACUMULADA

FREQUNCIA ACUMULADA RELATIVA


(%)

33

10

90

10

100

35

20

Total

10

100

A coluna da frequncia acumulada obtida somando cada frequncia com as que lhe
so anteriores e a frequncia acumulada relativa (%) obtida dividindo a frequncia acumulada pelo nmero total de dados (X 100).
Por exemplo, a frequncia acumulada associada idade 30 obtida somando a frequn
cia desta resposta com as frequncias anteriores (1 + 1 + 2 + 1 + 2 = 7) e a frequncia
7
acumulada relativa (%) obtida fazendo
100 = 70% .
10
Quando estamos analisando uma varivel quantitativa contnua, comum os valores no
se repetirem. Se construirmos uma distribuio de frequncias como na Tabela 1.2, ela ficar
muito extensa e no atingiremos o objetivo de resumir o conjunto de dados. Nestes casos,
conveniente agrupar os dados em intervalos de classes. O mesmo procedimento pode ser
feito quando a varivel for quantitativa discreta e apresentar um nmero grande de dados,
mas com valores com pouca repetio.
Identificamos os seguintes valores em um intervalo de classe:

LIMITE INFERIOR
(LI)

o menor valor que a varivel pode assumir em uma


classe de frequncia;

serve de limite para estabelecer qual o maior valor que

LIMITE SUPERIOR
(LS)

a varivel pode assumir em uma classe de frequncia,


mas, geralmente, os valores iguais ao limite superior no
so computados naquela classe e sim na seguinte;

PONTO MDIO (PM)

a mdia aritmtica entre o Li e o Ls da mesma classe,


Li + Ls
ou seja Pm =
2

AMPLITUDE (H)

a diferena entre o Ls e o Li da classe, ou seja,


h = Ls Li;

captulo 1

29

Na construo de uma distribuio de frequncias com intervalos de classes devemos


ter respostas para estes dois questionamentos:
Qual o nmero de classes que a tabela deve ter?
Qual o tamanho (ou a amplitude) das classes?
Podemos usar o bom senso e escolher arbitrariamente quantas classes e qual a amplitude que estas classes devem ter.
Quando no tivermos nenhuma referncia sobre qual deve ser o nmero de classes a
se trabalhar, podemos utilizar o critrio que sugerido por vrios autores. Chama-se regra
da raiz:
k n

onde k indica o nmero de classes que vamos construir e n o nmero de observaes


do conjunto de dados. muito comum o valor obtido para k no ser inteiro, ento, vamos
aproximar para o inteiro prximo de k.
Para encontrar a amplitude e o nmero de observaes em cada classe, vamos seguir
os seguintes passos:
Achar o mnimo e o mximo dos dados.

R
, onde
k
R=valor mximo valor mnimo . O valor de h ser a amplitude da classe. Normalmente

Para

determinar

amplitude

de

cada

classe

calcularemos

o valor encontrado para h no inteiro. Nestes casos, podemos aproximar para o inteiro
prximo para facilitar a construo das classes.
Contar o nmero de observaes que pertencem a cada intervalo de classe. Esses nmeros so as frequncias absolutas das classes.
Calcular as frequncias relativas de cada classe.
De modo geral, a quantidade de classes no deve ser inferior a 5 e nem superior a 20.
Se o nmero de classes for muito pequeno, perderemos informao, e com um nmero grande de classes, o objetivo de resumir os dados fica prejudicado.
Construiremos intervalos de classe fechados esquerda. A representao deste tipo
de intervalo :
Li | Ls
Por exemplo:
5 | 10

30

captulo 1

Pertencem a este intervalo valores iguais ou superiores ao limite inferior do intervalo


(neste exemplo, 5) e inferiores ao limite superior (neste exemplo, 10). Se houver o nmero
10 no conjunto de dados, ele entra no prximo intervalo de classe.
1.8: Os dados abaixo referem-se frao de colesterol de muito baixa densidade, em miligramas por decilitro (mg/dl), em indivduos do sexo feminino. Vamos organizar este conjunto
de dados numa distribuio de frequncias.
22

22

24

24

25

26

26

26

26

26

26

26

27

27

27

28

28

28

28

28

28

28

28

28

28

29

29

29

29

29

29

30

30

30

30

30

30

30

30

30

30

30

32

34

34

34

34

34

35

35

35

35

35

35

35

36

36

37

39

39

40

40

45

48

Resoluo:
Apesar da varivel em estudo (frao de colesterol de muito baixa densidade) estar apresentada na forma discreta, h uma variao grande de nmeros. Se construirmos uma distribuio de frequncias colocando os nmeros do menor para o maior, a tabela ficar extensa.
Ento, nesta situao, conveniente agrupar os dados em intervalos de classes.
Primeiro, precisamos saber quantas classes vamos construir. Para isto, utilizaremos a
frmula:
64 = 8

Ento, construiremos 8 classes. Agora, vamos encontrar o tamanho (amplitude) de cada


uma das classes:

valor mximo valor mnimo 48 22

3, 3
8
8

Portanto, vamos construir classes de amplitude 4 cada uma (arredondamos o valor de h


para facilitar a construo das classes). Quando consideramos 4 como amplitude, o nmero
de classes passa a ser 7 (esta alterao no gera problema algum!).

captulo 1

31

FRAO DE COLESTEROL DE BAIXA


DENSIDADE

FREQUNCIA

FREQUNCIA RELATIVA (%)

22 | 26

7,81

26 | 30

26

40,63

30 | 34

12

18,75

34 | 38

15

23,44

38 | 42

6,25

42 | 46

1,56

46 | 50

1,56

Total

64

100,00

Tabela 1.4 Distribuio de frequncias do nmero de horas extras dos funcionrios.

Neste exemplo construmos classes de mesma amplitude, mas isto no obrigatrio.


Quando construmos classes de amplitudes diferentes, devemos tomar cuidado na construo de um grfico denominado histograma, que veremos mais adiante.
Agora que j aprendemos como apresentar os dados coletados em distribuies de frequncias, vamos estudar como estes mesmos dados so utilizados na construo de grficos.

1.5 Grficos
Os grficos estatsticos so utilizados frequentemente nos meios de comunicao. Em geral, as pessoas tem mais facilidade de compreender as informaes
que esto contidas numa tabela por meio de grficos. H uma quantidade muito grande de grficos disponveis em softwares estatsticos e no Excel, mas devemos ter em mente que a construo de grficos deve ser feita cuidadosamente! Por exemplo, a construo de um grfico desproporcional em suas medidas
pode nos levar a concluses equivocadas.

CONEXO
Um texto interessante que chama reflexo sobre a necessidade de abordagens pedaggicas mais efetivas para o ensino e a aprendizagem de grficos est disponvel em: <http://
www.ufrrj.br/emanped/paginas/conteudo_producoes/docs_22/carlos.pdf>.
30 de Abr. 2015.

32

captulo 1

Acesso em:

1.5.1 Tipos de grficos


Os grficos mais utilizados so: grfico de linhas, diagramas de rea (como por
exemplo: grfico de barras e grfico de setores) e grficos para representar as
distribuies de frequncias construdas com intervalos de classes (como por
exemplo: polgono de frequncias e histograma).
De acordo com VIEIRA (2013, p. 17):
Cada tipo de grfico tem indicao especfica, mas, de acordo com as normas brasileiras:
Todo grfico deve apresentar ttulo e escala;
O ttulo deve ser colocado abaixo da ilustrao.
As escalas devem crescer da esquerda para a direita e de baixo para cima.
As legendas explicativas devem ser colocadas, de preferncia, direita da figura.
Os grficos devem ser numerados, na ordem em que so citados no texto.
Os dois eixos devem apresentar legenda.

Nos itens a seguir abordaremos os grficos de linhas, barras, setores, histograma, polgono de frequncias, Pareto e disperso. Sempre que possvel utilizaremos as distribuies de frequncias que construmos nos exemplos anteriores, para mostrar que as informaes contidas em ambos so as mesmas.
1.5.1.1 Grfico de linhas
O grfico de linhas (grfico de sries temporais) utilizado quando os dados
estiverem distribudos segundo uma varivel no tempo (meses, anos, etc.). Esse
tipo de grfico retrata as mudanas nas quantidades com respeito ao tempo
atravs de uma srie de segmentos de reta. muito eficiente para mostrar possveis tendncias no conjunto de dados.

EXEMPLO
1.9: A Tabela 1.5 fornece o nmero de casos de dengue no Brasil, no perodo 2000 2013.

captulo 1

33

ANO

NMERO DE CASOS

2000

135.228

2001

385.783

2002

696.472

2003

274.975

2004

70.174

2005

147.039

2006

258.680

2007

496.923

2008

632.680

2009

406.269

2010

1.011.548

2011

764.032

2012

589.591

2013

1.452.489

Tabela 1.5 Nmero de casos de dengue - Brasil. Fonte: Disponvel em : < http://portalsaude.saude.gov.br/images/pdf/2014/julho/31/Dengue-classica-at---2013.pdf >. Acesso
em: 17 jun. 2015.
O grfico que melhor representa este conjunto de dados o grfico em linhas, j que os
dados se reportam a uma srie no tempo (srie temporal). O grfico est ilustrado na Figura 1.3.

Figura 1.3 Grfico de linha para o nmero de casos de dengue no Brasil.

34

captulo 1

Analisando a Figura 1.3 observamos uma oscilao no nmero de casos de dengue, no


Brasil, no perodo em estudo. O nmero de casos em 2013, comparado 2012, aumentou,
aproximadamente 146%!

1.5.1.2 Grfico de barras


O grfico de barras bastante utilizado quando a varivel em estudo for qualitativa (dados categricos). No eixo horizontal especificamos os nomes das
categorias e no eixo vertical construmos uma escala com a frequncia ou a
frequncia relativa. As barras tero bases de mesma largura e alturas iguais
frequncia ou frequncia relativa.
As barras podem estar na posio horizontal ou vertical. O Excel denomina um grfico
de barras na posio vertical como grfico de colunas.

EXEMPLO
1.10: A Tabela 1.6 apresenta a distribuio, por tipo sanguneo, de 120 recm- nascidos em
uma maternidade. Vamos apresentar as informaes por meio de um grfico de barras (na
posio horizontal e vertical).

TIPO SANGUNEO

FREQUNCIA

FREQUNCIA RELATIVA (%)

33

27,50

AB

4,17

21

17,50

61

50,83

Total

120

100,00

Tabela 1.6: Distribuio, por tipo sanguneo, de recm-nascidos em uma maternidade.

captulo 1

35

Figura 1.4 Grfico de barras para a varivel tipo sanguneo dos recm-nascidos.
A Figura 1.5 apresenta as barras na posio horizontal, e elas so construdas com base na
frequncia relativa (%). Nesta situao, as categorias so apresentadas no eixo vertical e no
eixo horizontal construmos a escala, utilizando a frequncia absoluta ou a frequncia relativa
(geralmente em porcentagem). H a opo de colocarmos tais frequncias acima das barras.

Figura 1.5 Grfico de barras para a varivel tipo sanguneo dos recm-nascidos.

Vale a pena ressaltar que as informaes contidas nestes dois grficos so as mesmas
que esto apresentadas na Tabela 1.6.

36

captulo 1

1.5.1.3 Grfico de setores


O grfico de setores, tambm conhecido como grfico de pizza, um dos grficos mais utilizados para representar variveis qualitativas nominais (desde que
o nmero de categorias seja pequeno) e bastante apropriado quando se deseja visualizar a proporo que cada categoria representa do total.

EXEMPLO
1.11: Em uma universidade h 4 500 estudantes, dos quais 60% so do sexo feminino e
40% do sexo masculino. Os dados esto apresentados na Tabela 1.7.

GNERO

FREQUNCIA

FREQUNCIA RELATIVA (%)

Feminino

2 700

60,00

Masculino

1 800

40,00

Total

4 500

100,00

Tabela 1.7 Distribuio dos alunos, segundo o gnero.


Vamos apresentar as informaes em um grfico de setores.

Figura 1.6 Grfico de setores para a varivel gnero dos estudantes.


Os grficos que sero apresentados a seguir so grficos construdos segundo uma
distribuio de frequncias com intervalos de classes. So eles: o histograma e o polgono
de frequncias.

captulo 1

37

1.5.1.4 Histograma
Um histograma semelhante ao diagrama de barras, porm refere-se a uma
distribuio de frequncias construda com intervalos de classes. Por isso,
apresenta uma diferena: no h espaos entre as barras. Os intervalos de classes so colocados no eixo horizontal enquanto as frequncias so colocadas no
eixo vertical. As frequncias podem ser absolutas ou relativas.

EXEMPLO
1.12: Vamos construir um histograma para os dados da Tabela 1.4.

Figura 1.7 Histograma para a frao de colesterol de baixa densidade.


O histograma muito utilizado para visualizarmos a natureza da distribuio dos dados.
Estudaremos as formas de distribuies (simtricas ou assimtricas) no prximo captulo.

Utilizamos a frequncia ou a frequncia relativa para construir o histograma, desde que


os intervalos de classes tenham mesma amplitude. Caso contrrio, temos que encontrar a densidade de frequncia, que obtida pelo quociente da frequncia absoluta pela
amplitude do intervalo de classe.

38

captulo 1

1.5.1.5 Polgono de frequncias


Podemos dizer que o polgono de frequncias um grfico de linha de uma
distribuio de frequncias. No eixo horizontal so colocados os pontos mdios de cada intervalo de classe e, no eixo vertical, so colocadas as frequncias
absolutas ou relativas (como no histograma). Para se obter as interseces do
polgono com o eixo das abscissas, devemos encontrar o ponto mdio da classe
anterior primeira e o ponto mdio da classe posterior ultima.
O histograma e o polgono de frequncias so grficos alternativos e contm a mesma informao. Fica a critrio de quem est conduzindo o estudo a
escolha de qual deles utilizar.
Considerando os dados da Tabela 1.4, temos o polgono de frequncias representado pela Figura 1.8.

Figura 1.8 Polgono de frequncias para a frao de colesterol de baixa densidade.

1.5.1.6 Diagrama de Pareto


O Diagrama de Pareto um grfico de barras que utilizado para representar
as ocorrncias das categorias de uma varivel qualitativa. Neste tipo de grfico,
as barras so arranjadas em ordem decrescente de altura, a partir da esquerda
para a direita, com a categoria que ocorre com maior frequncia aparecendo
em primeiro lugar.

captulo 1

39

A grande utilidade deste diagrama a de permitir uma fcil visualizao e


identificao das causas ou problemas mais importantes, possibilitando a concentrao de esforos sobre os mesmos. O diagrama de Pareto uma das sete
ferramentas da qualidade.

EXEMPLO
1.13: A distribuio de frequncias a seguir apresenta as reclamaes fundamentadas de
2013, por rea, na Fundao Procon SP.

REA

FREQUNCIA

FREQUNCIA RELATIVA (%)

Produtos

9 683

31,15

Assuntos Financeiros

8 464

27,23

Servios Essenciais

5 298

17,04

Servios Privados

4 838

15,56

Sade

1 408

4,53

Habitao

1 327

4,27

Alimentos

67

0,22

Total

31 085

100,00

Tabela 1.8 Reclamaes no Procon SP por rea, em 2013. Fonte: Disponvel em: < http://
www.procon.sp.gov.br/pdf/ranking_2013_coment.pdf >. Acesso em: 03 de Maio. 2015.
Vamos representar as informaes contidas na Tabela 1.8 em um diagrama de Pareto.

Figura 1.9 Reclamaes no Procon SP, por rea.

40

captulo 1

Analisando o grfico, observamos que, em 2013, o maior nmero de reclamaes fundamentadas foi na rea de produtos, seguido por assuntos financeiros.

1.5.1.7 Diagrama de disperso


O diagrama de disperso um grfico muito utilizado quando temos interesse
em visualizar a relao entre duas variveis quantitativas, denominadas X e Y.
Para constru-lo, cada para ordenado colocado em suas determinadas coordenadas (x,y).

EXEMPLO
1.14: Uma construtora quer verificar a eficcia de seus anncios em determinado programa
de televiso. O objetivo verificar se h relao entre a quantidade de anncios e o nmero
de apartamentos vendidos. A tabela abaixo mostra o nmero de anncios que foram ao ar,
durante seis meses, e o correspondente nmero de apartamentos vendidos de um edifcio
em lanamento.

NMERO DE ANNCIOS (X)

NMERO DE APARTAMENTOS VENDIDOS (Y)

10

15

18

22

12

25

15

30

19

Tabela 1.9 Nmero de anncios publicados e nmero de apartamentos vendidos.


Para verificarmos, visualmente, se h relao entre o nmero de anncios que foram ao
ar e o nmero de apartamentos vendidos, construmos o diagrama de disperso.

captulo 1

41

Figura 1.10 Diagrama de disperso do nmero de anncios e nmero de apartamentos


vendidos.

Pela anlise grfica observamos que medida que o nmero de anncios que foram ao
ar aumenta, ocorre um aumento no nmero de apartamentos vendidos. Como identificamos
uma relao entre as duas variveis, podemos medir a intensidade da relao e fazer previses do nmero de apartamentos vendidos a partir de um valor especfico de anncios.
Estudaremos estes conceitos no Captulo 5.
Vimos que os grficos nos transmitem informaes contidas no conjunto de dados, de
maneira simples e de fcil compreenso. Apesar de ser uma ferramenta eficaz, precisamos
tomar cuidado na construo dos grficos para no obtermos concluses enganosas. Os
principais erros na elaborao de um grfico so:

GRFICO SUCATA

neste tipo de grfico, h um uso excessivo de figuras que


podem ocultar a informao que se deseja transmitir.

quando utilizamos informaes de mais de um conjunto de

AUSNCIA DE
BASE RELATIVA

dados de tamanhos diferentes em um mesmo grfico, com


o objetivo de fazer comparaes, devemos utilizar a frequn
cia relativa em vez da frequncia absoluta.

42

captulo 1

as escalas empregadas devem ser coerentes com o tama-

EIXO VERTICAL
COMPRIMIDO

nho da figura exibida. Se o eixo vertical estiver comprimido, as diferenas reais entre as categorias de respostas da
varivel podem ficar distorcidas.

AUSNCIA DO
PONTO ZERO

a ausncia do ponto zero no eixo vertical tende a produzir


uma impresso enganosa do comportamento dos dados,
exagerando eventuais variaes.

1.6 Utilizao do Microsoft Excel na Construo


de Grficos
Os grficos apresentados no item 1.5 foram construdos utilizando o Microsoft
Excel. Estudaremos, agora, quais os procedimentos que devemos seguir para
elaborar o grfico de barras. Os procedimentos para construo de outros grficos so semelhantes ao que vamos apresentar. Utilizaremos a verso 2010.
1o passo: Digitar em uma planilha as respostas da varivel (numrica ou categrica) e suas respectivas frequncias ou frequncias relativas. Para exemplificar, utilizaremos os dados do Exemplo 1.7.

Figura 1.11 Entrada dos dados

captulo 1

43

2 passo: Neste passo, selecionamos os dados. Podemos escolher a frequncia absoluta ou relativa. Neste caso, o grfico ser construdo com a frequncia absoluta (colunas selecionadas: A e B, sem os ttulos!). Aps a seleo, escolher a aba Inserir e depois selecionar o tipo de grfico a ser elaborado. Vamos
escolher a primeira opo para o grfico de Coluna (lembre-se, que j vimos
que o Excel denomina o grfico de barras verticais como coluna). Clicar em OK.

Figura 1.12 Escolha do tipo de grfico.

3 passo: O grfico elaborado est na Figura 1.13. Observando as informaes, percebemos que temos que format-lo, pois no h necessidade de legenda e os eixos esto sem ttulo. Como opo, tambm podemos remover as
linhas horizontais que aparecem no corpo do grfico (linhas de grade).

Figura 1.13 Grfico de barras verticais elaborado.

44

captulo 1

4 passo: Para iniciar a formatao, clicamos sobre o grfico e aparecer


Ferramentas de Grfico com algumas opes de escolha. Clicar em Layout e
logo em seguida Ttulos dos Eixos. Utilizamos as duas opes: uma para colocar ttulo no eixo horizontal e a outra para colocar o ttulo no eixo vertical. A
Figura 1.14 ilustra a escolha para o Ttulo do Eixo Horizontal Principal, com a
opo Ttulo Abaixo do Eixo. Aps a insero do ttulo horizontal, seguimos o
mesmo procedimento para o eixo vertical.

Figura 1.14 Procedimento para inserir ttulos nos eixos.

5 passo: A Figura 1.15 apresenta o grfico com ttulos nos eixos horizontal
e vertical. Para finalizar, vamos excluir a legenda e as linhas de grade.

Figura 1.15 Grfico com ttulo nos eixos.

6 passo: As excluses da legenda e das linhas de grade tambm podem ser


feitas por meio de Ferramentas de Grfico. Clicar em Layout e logo em seguida
em Legenda. Escolher a opo Nenhuma (Desativar legenda). Depois, clicar

captulo 1

45

em Linhas de grade, escolher a opo Linhas de Grade Horizontais Principais e


clicar em Nenhuma. A Figura 1.16 apresenta o grfico finalizado.

Figura 1.16 Grfico de barras horizontais para a varivel Grau de escolaridade dos candidatos.

Agora, basta copiar e colar, por exemplo, em um arquivo formato DOC e interpretar as informaes obtidas por meio da anlise grfica.
Para montar os outros grficos com o auxlio do Excel, basta seguirmos os
mesmos passos descritos acima. H pequenas diferenas entre a montagem de
um tipo de grfico e outro, mas fcil verificar quais procedimentos devem ser
seguidos.

REFLEXO
Estamos encerrando nosso primeiro captulo. Vimos, aqui, alguns conceitos que so fundamentais na compreenso do restante do contedo apresentado neste livro.
Com os conceitos adquiridos, voc ser capaz de coletar dados de maneira apropriada,
saber identific-los como qualitativos ou quantitativos e apresent-los por meio de tabelas
e grficos.
Estamos apenas no comeo. Muitas tcnicas (muito interessantes!) ainda sero abordadas. E lembre-se que o conhecimento e o domnio da Estatstica certamente ajudaro voc a
tomar s decises mais acertadas.

46

captulo 1

LEITURA
No endereo http://m3.ime.unicamp.br/recursos/1338 voc encontrar dois udios interessantes, primeiro mdulo e segundo mdulo, que introduz o conceito de Estatstica e anlise
e dados por meio de informaes sobre gravidez na adolescncia.

REFERNCIAS BIBLIOGRFICAS
BRUNI, Adriano L. Estatstica Aplicada Gesto Empresarial. 2. ed. So Paulo: Atlas, 2010.
BUSSAB, Wilton de O. ; MORETTIN, Pedro A. Estatstica Bsica. 5. ed. So Paulo: Saraiva, 2002.
MAGALHES, Marcos N.; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008. Disponvel
em:<http://saladeimprensa.ibge.gov.br/noticias?view=noticia&id=1&busca=1&idnoticia=1866>
Acesso em: 30 abr. 2015.
OLIVEIRA, Tania M. Veludo. Disponvel em: < http://www.fecap.br/adm_online/art23/tania2.htm>.
Acesso em: 30 abr. 2015.
OLIVEIRA, Ely F. Tannuri; GRCIO, Maria C. Cabrini. Disponvel em: <http://dgz.org.br/ago05/Art_01.
htm>. Acesso em: 30 abr. 2015.
MONTEIRO, Carlos E. Ferreira. Disponvel em: < http://www.ufrrj.br/emanped/paginas/conteudo_
producoes/docs_22/carlos.pdf > Acesso em: 30 abr. 2015.
Disponvel em: < http://www.procon.sp.gov.br/pdf/ranking_2013_coment.pdf >. Acesso em: 03 maio
2015.
Disponvel em : < http://portalsaude.saude.gov.br/images/pdf/2014/julho/31/Dengue-classicaat---2013.pdf >. Acesso em: 17 jun. 2015.
FUSHIGIRA, Vanessa; OLIVEIRA, Samuel R.; SARTI, Luis R. Disponvel em: < http://m3.ime.unicamp.
br/recursos/1338 >. Acesso em: 03 maio 2015.

captulo 1

47

48

captulo 1

2
Medidas Resumo

No primeiro captulo vimos que, aps a coleta dos dados brutos, fundamental a organizao e apresentao dos dados em distribuies de frequncias e
grficos apropriados. Atravs deles, conseguimos ter uma viso geral do comportamento da varivel em estudo. Alm das distribuies de frequncias, podemos resumir ainda mais um conjunto de dados quantitativos encontrando
valores que sejam representativos de todo o conjunto.
Temos interesse em encontrar valores que descrevam duas caractersticas
do conjunto de dados:
A tendncia central dos dados, ou seja, o centro em torno do qual os dados
se distribuem.
A variabilidade do conjunto de dados, ou seja, a maneira como os dados
esto dispersos.
Estudaremos, primeiramente, as medidas de posio ou tendncia central
e, em seguida, as medidas de disperso e separatrizes.

OBJETIVOS
Este captulo aborda como podemos resumir um conjunto de dados quantitativos por meio de
medidas resumo. Esperamos que, atravs dos conhecimentos aprendidos, voc seja capaz de:
Calcular e interpretar as medidas de tendncia central e as medidas de disperso;
Compreender a importncia das medidas separatrizes e utiliz-las para identificar a forma
da distribuio dos dados.

50

captulo 2

2.1 Medidas de tendncia central


2.1.1 Mdia aritmtica
A mdia aritmtica, ou simplesmente mdia, a medida de tendncia central
mais conhecida.
Em muitas situaes nos deparamos com informaes referentes mdia:
o tempo mdio de espera em um consultrio mdico de 20 minutos, a mdia
aritmtica final de um estudante na disciplina de Matemtica 7,2, a taxa mdia de juros das operaes de crdito para financiamento imobilirio est em
9,23%, etc.
Como fazemos para encontrar estas estatsticas que resumem todo o conjunto de dados em um nico valor?
Para calcularmos a mdia precisamos somar os valores que aparecem no
conjunto de dados e dividir pelo total de valores contidos neste conjunto.
Vamos formalizar esta definio apresentando uma frmula matemtica:

i =1x i
n

x=

em que:
X mdia (lemos como x barra).
n

xi
i =1

: somatrio de n observaes (X1, X2, X3, ..., Xn); X1 representa o primei-

ro valor observado, X2 representa o segundo valor observado e assim por diante,


Xn representa o n-simo valor observado.
n: nmero de observaes no conjunto de dados.
A frmula apresentada para o clculo da mdia utilizada para dados amostrais. Quando estivermos trabalhando com dados de toda a populao, usamos uma notao diferente. O nmero de observaes i denotado por N e utilizamos a letra grega (Mi)
para indicar a mdia, ou seja, =

xi .

i=1

captulo 2

51

EXEMPLO
2.1: Um questionrio foi aplicado aos dez candidatos a uma vaga no setor financeiro de uma
clnica de cirurgia plstica e uma das variveis em estudo era a idade dos candidatos. Os
dados obtidos foram:
30

35

26

22

28

30

26

33

35

23

Vamos encontrar a idade mdia dos candidatos vaga.


Resoluo
Sabemos que para encontrar a mdia, somamos todos os valores e dividimos pela quantidade de valores no conjunto de dados. Para nos familiarizarmos, vamos utilizar a frmula:

i=1x i = x1 + x2 + x3 + + x10 = 30 + 35 + 26 + + 23 = 288 = 28,8 anos


n

x=

10

10

10

Portanto, a idade mdia dos candidatos 28,8 anos.


Quando os dados estiverem organizados em uma distribuio de frequncias, podemos
utilizar a seguinte frmula:

x i fi
x = i =1
k

Para utilizarmos esta frmula, acrescentamos uma coluna na distribuio de frequncias:

FREQUNCIA RELATIVA
(%)

FREQUNCIA

x1

f1

x1 f1

x2

f2

x2 f2

...

...

...

xn

fn

Total

nmero total de observaes no conjunto de


dados

FREQUNCIA RELATIVA
(%)

x1 fi

xn fn
k

100,00

xi fi
i =1

Tabela 2.1 Estrutura da distribuio de frequncias para o clculo da mdia por meio dos
dados tabelados.

52

captulo 2

S faz sentido acrescentarmos a coluna (x1 f1) se quisermos encontrar a mdia, ou seja,
ela uma coluna auxiliar do clculo.
2.2: Construindo uma distribuio de frequncias para os dados do Exemplo 2.1, obtemos:

IDADE

NMERO DE CANDIDATOS

FREQUNCIA RELATIVA (%)

22

10

23

10

26

20

28

10

30

20

33

10

35

20

Total

10

100

Tabela 2.2 Distribuio dos candidatos, segundo a idade.


Vamos encontrar a idade mdia dos candidatos vaga por meio da distribuio de frequncias.
Resoluo
Como os dados j esto organizados em uma distribuio de frequncias, basta acrescentarmos uma coluna na tabela:

IDADE (x1)

NMERO DE CANDIDATOS
(fi)

FREQUNCIA RELATIVA
(%)

(x1 fi)

22

10

22

23

10

23

26

20

52

28

10

28

30

20

60

33

10

33

35

20

70

Total

10

100

288

Tabela 2.3 Clculo da coluna auxiliar para encontrar a mdia.


Ento:

i =1x i fi
k

x =

288
= 28, 8 anos
10

captulo 2

53

A mdia aritmtica possui algumas propriedades importantes, que estudaremos no prximo item.

2.1.1.1 Propriedades da mdia


1. A soma dos desvios zero, ou seja:
n

x x)=0
(
i 

i =1

di

Em palavras: os desvios so encontrados fazendo a diferena entre cada valor do conjunto de dados e a mdia aritmtica do conjunto. A soma dos desvios
encontrados zero, para qualquer conjunto de dados.
2. Quando somamos (ou subtramos) uma constante de todos os valores de
um conjunto de dados, a mdia fica somada (ou subtrada) por esta constante.
3. Quando multiplicamos (ou dividimos) uma constante de todos os valores de um conjunto de dados, a mdia fica multiplicada (ou dividida) por esta
constante.
Outro tipo de mdia muito utilizada, por exemplo, no clculo da mdia final de um estudante em uma disciplina ou na nota final do candidato em um concurso, a mdia
ponderada. Na mdia ponderada so atribudos aos valores importncias diferentes.
Por exemplo, um estudante pode fazer 4 provas durante o semestre e para cada prova atribudo um peso. O clculo da mdia ponderada feito por meio do somatrio
das multiplicaes entre valores e pesos, divididos pelo somatrio dos pesos, ou seja,
x i pi , em que Pi so o pesos atribudos.
xp =
pi

2.1.2 Moda
A moda de um conjunto de dados a resposta (ou respostas) que aparece(m)
com maior frequncia. A moda, diferentemente das outras medidas de posio, tambm pode ser encontrada quando a varivel em estudo for qualitativa.

54

captulo 2

Portanto, a resposta para a moda pode ser o valor ou a categoria que aparece
com a maior frequncia. Existem conjuntos de dados em que nenhuma resposta aparece mais vezes que outras. Neste caso, dizemos que o conjunto de dados
no apresenta moda.
Em outros casos, podem aparecer duas ou mais respostas de maior frequncia no conjunto de dados. Nestes casos, dizemos que o conjunto de dados
bimodal e multimodal, respectivamente.
No conjunto de dados apresentados no Exemplo 2.1, temos que as respostas
que aparecem com maior frequncia (frequncia 2) so: 26, 30 e 35. Portanto:
Mo = 26, 30 e 35 anos

Neste caso, a distribuio multimodal.

2.1.3 Mediana
A mediana uma medida que divide o conjunto de dados ordenados ao meio, deixando a mesma quantidade de valores abaixo dela e acima. Por isto, ela tambm
uma medida separatriz, pois separa o conjunto de dados em dois grupos: pelo
menos 50% dos valores ordenados so maiores ou iguais ao valor da mediana e pelo
menos 50% dos valores ordenados so menores ou iguais ao valor da mediana.
O clculo para se encontrar a mediana difere no caso do nmero de elementos (n) do conjunto de dados ser par ou mpar.
Se o nmero de elementos do conjunto de dados for mpar, ento a mediana
ser exatamente o valor do meio, ou seja:

Md = x n +1
2

Se o nmero de elementos do conjunto de dados for par, ento a mediana


ser exatamente a mdia dos dois valores do meio, isto :

xn + xn
Md =

+1

em que x n , x n +1 e x n +1 indicam as observaes que ocupam as posies


2
2
2
do meio do conjunto de dados.

captulo 2

55

EXEMPLO
2.3: Os dados abaixo se referem aos batimentos cardacos para 15 pacientes que chegaram
ao hospital em estado de parada respiratria e inconscientes. Vamos encontrar a mediana.
167

150

125

120

150

150

140 136

120

150

125

140 148

120

125

150

167

Resoluo
Para encontrarmos a mediana, os dados precisam estar ordenados:
120

120

120

125

125

125

136 140

140 148

150 150

150

Temos n = 15 observaes, ento:

Md = x n+1
2

Md = x15+1 = x8
2

ou seja, a mediana o valor que ocupa a oitava posio do conjunto de dados ordenados,
Md = 140
Repare que a observao 140 divide o conjunto de dados ao meio, com 7 observaes
abaixo dela e 7 observaes acima dela.
Ento, conclumos que pelo menos 50% dos valores so maiores ou iguais a 140 batidas
por minuto.
Tambm podemos encontrar a mediana quando os dados esto apresentados em uma
distribuio de frequncias. Para isto, seguimos o seguinte procedimento:
1 Passo: identificaremos a frequncia acumulada imediatamente superior metade do
somatrio do nmero de observaes do conjunto de dados:
n
2
2 Passo: a mediana ser o valor da varivel associada frequncia acumulada imediatamente superior ao valor encontrado no 1 Passo.

56

captulo 2

n
for ser exatamente igual a uma das frequncias acumuladas fa, o clculo da
2
mediana ser a mdia aritmtica entre dois valores da varivel: xi e xi+1. O valor da varivel xi
n
ser aquele associado = fa e o valor da varivel xi+1 ser aquele que est imediatamente
2
aps xi na distribuio de frequncias.
Quando

Para facilitar a compreenso, vamos aplicar no prximo exemplo o passo a passo descrito acima.
2.4: O nmero de faltas ao trabalho, no ltimo semestre, dos 30 funcionrios de uma clnica,
so:

NMERO DE FALTAS

FREQUNCIA DE FUNCIONRIOS

10

Resoluo
Vamos organizar uma distribuio de frequncias incluindo a frequncia acumulada.
Valor da varivel

NMERO DE
FALTAS

FREQUNCIA

FREQUNCIA
RELATIVA (%)

0
1
2
3
Total

9
10
5
6
30

30,00
33,33
16,67
20,00
100,00

associado frequncia acumulada igual a 19

fa
9
19
24
30

Frequncia
mulada

acu-

imedia-

tamente superior
a 15

Seguindo o roteiro:
1 Passo:
n 30
= = 1
2 2
A frequncia acumulada imediatamente superior a 15 fa = 19.
2 Passo: a mediana ser o valor da varivel associado frequncia acumulada imediatamente superior ao valor encontrado no 1 Passo. Portanto:
Md=1 falta

captulo 2

57

Lembre que o valor da varivel est na primeira coluna da tabela!


Em algumas situaes, a mediana pode ser a medida de tendncia central mais representativa para o conjunto de dados em estudo. Vamos entender quando isto ocorre analisando o prximo exemplo.
2.5: Trinta residncias de um bairro foram selecionadas para participar de uma pesquisa e
uma das variveis em estudo era a renda familiar (salrios mnimos). Os dados obtidos foram:
4,3

5,1

5,7

6,4

6,8

7,1

7,4

7,6

8,2

8,7

8,9

9,2

9,5

9,7

10,0

10,4

10,6

11,2

11,4

11,6

11,7

11,9

12,1

12,3

12,4

12,4

12,7

13,2

13,5

91,3

Vamos calcular a mdia e a mediana para este conjunto de dados.


Resoluo
Para encontrar a mdia, somamos todos os valores e dividimos por 30, ou seja:
x =

4, 3 + 5,1+ 5, 7 +  + 913
,
373, 3
=
= 12, 44 s.m.
30
30

Ou seja, conclumos que a renda familiar mdia dos moradores das 30 residncias selecionadas 12,44 salrios mnimos.
Analisando o conjunto de dados, observamos que o valor encontrado para a mdia est
acima dos valores de 26 observaes do conjunto! Por que isto ocorreu? Temos uma observao discrepante, ou seja, muito maior que as outras, que 91,3. Esta observao puxa
a mdia para cima, fazendo com que tenhamos uma interpretao enganosa sobre o centro
em torno do qual os dados se distribuem.

A mdia aritmtica muito sensvel a valores extremos, ento, dizemos que a mdia no
uma medida de tendncia central resistente.

Agora, vamos analisar o que acontece no clculo da mediana.


Temos n = 30 observaes, ento:
x 30 + x 30
Md =
Md =

58

captulo 2

2
x15 + x16
2

+1

ou seja, a mediana a mdia entre os valores que ocupam a dcima quinta e dcima
sexta posio do conjunto de dados ordenados.
Md =

10 + 10, 4
= 10, 2 s.m.
2

Com o resultado obtido para a mediana, observamos que ela no afetada pela observao discrepante, sendo, portanto, a medida de tendncia central mais representativa para
este conjunto de dados.
Agora que j sabemos calcular e interpretar a mdia, moda e mediana, podemos utiliz
-las para detectar assimetria em um conjunto de dados:
Se a distribuio dos dados for exatamente simtrica, a mdia, a moda e a mediana so
exatamente iguais. Para distribuies aproximadamente simtricas, as trs medidas so
prximas.
Se a distribuio dos dados apresentar assimetria esquerda, em geral, a mdia menor
que a mediana; e se apresentar assimetria direita, em geral, a mediana menor que a
mdia.

A distribuio dos dados assimtrica quando se estende mais para um lado do que
para o outro e simtrica se a metade esquerda do seu histograma se comporta de
maneira praticamente igual da sua metade direita. No Captulo 1 vimos que o histograma um grfico muito utilizado para identificar a forma da distribuio dos dados.

2.1.4 Clculos das medidas de tendncia central para dados


agrupados em intervalos de classes
Aprendemos, at agora, a calcular as medidas de posio central pelo conjunto
de dados brutos ou pela distribuio de frequncias sem intervalos de classes.
E quando os dados estiverem apresentados em intervalos de classes, como vamos calcular tais medidas? Quando agrupamos as observaes em classes, perdemos a informao dos valores que esto dentro de cada classe. Neste caso,
vamos supor que todos os valores dentro de uma classe tenham seus valores
iguais ao ponto mdio desta classe.

captulo 2

59

Por exemplo, vamos supor que o intervalo de 10| 15 tenha frequncia 5. No sabemos quais so os valores destas 5 observaes, s podemos afirmar que so maiores
ou iguais a 10 e menores que 15. Ento, assumiremos que as 5 observaes so iguais
a 12,5, que o ponto mdio deste intervalo.

Vamos aprender a calcular as medidas de tendncia central para dados


agrupados atravs do exemplo a seguir.

EXEMPLO
2.6: Uma professora de Cincias, interessada em fazer uma aula prtica com seus alunos,
fez um levantamento dos pesos, em quilogramas, de cada um deles. Os dados esto apresentados na Tabela 2.4.

PESO (KG)

FREQUNCIA

FREQUNCIA RELATIVA (%)

40 | 45

5,59

45 | 50

25

17,48

50 | 55

50

34,97

55 | 60

40

27,97

60 | 65

20

13,99

Total

143

100,00

Tabela 2.5 Distribuio de frequncias dos pesos dos alunos.


Resoluo
Mdia
Para encontrarmos a mdia, precisamos acrescentar duas colunas na distribuio de
frequncias: x i (ponto mdio da classe ) e x i fi .
Para o clculo da mediana, precisaremos da frequncia acumulada. Ento, vamos acrescentar mais uma coluna contendo tais frequncias.

PESO (KG)

FREQUNCIA

FREQUNCIA
RELATIVA(%)

xi

xi fi

FREQUNCIA
ACUMULADA

40 | 45
45 | 50
50 | 55
55 | 60

8
25
50
40

5,59
17,48
34,97
27,97

42,5
47,5
52,5
57,5

340
1.187,5
2.625
2.300

8
33
83
123

60

captulo 2

PESO (KG)

FREQUNCIA

FREQUNCIA
RELATIVA(%)

60 | 65
Total

20
143

13,99
100,00

FREQUNCIA
ACUMULADA

xi

xi fi

62,5

1.250
7.702,50

143

Tabela 2.6 Clculos das colunas auxiliares para encontrar a mdia e a mediana.

Para encontrar o ponto mdio, basta fazer Pm =


40 + 45
= 42, 5 .
valo, Pm =
2

Li + Ls
. Ento, para o primeiro inter2

Substituindo os valores encontrados na frmula, temos:

i =1x i fi
k

x =

7.702, 50
= 53, 86kg
143

Moda
Existem vrias definies para localizar a posio da moda em uma classe modal, mas a
mais simples definir a moda como o ponto mdio da classe modal.
Portanto, neste exemplo, a classe modal 50 | 55 (pois, apresenta a maior frequncia
= 50) e, vamos considerar a moda o ponto mdio desta classe, ou seja:
Mo = 52, 5kg

Mediana
Para o clculo da mediana utilizaremos uma frmula que, a princpio, pode parecer um
pouco complexa ou trabalhosa, mas veremos que as quantidades que precisamos para substituir na frmula so fceis de serem obtidas. Utilizaremos a seguinte frmula para o clculo
da mediana para dados agrupados em intervalos de classes:
Md = linf

md

hmd n

F
fmd 2 aant

em que:
linf : : limite inferior do intervalo que contm a mediana;
md

hmd : : amplitude do intervalo de classe que contm a mediana;


fmd : : nmero de observaes do intervalo que contm a mediana;

captulo 2

61

n: nmero total de observaes da distribuio de frequncias;


Fa

ant

: : frequncia acumulada do intervalo anterior quele que contm a mediana.

A primeira informao que precisamos saber qual intervalo contm a mediana. Este
intervalo est associado frequncia acumulada imediatamente superior n .
2
n 143
, , o intervalo que contm a mediana 50 | 55
Pela Tabela 2.5, como= = 715
2
2
(pois fa = 83).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:
linf : : 50
md

hmd : : 55 50 = 5
fmd : : 50
n: 143
Fa

ant

: : 33

Intervalo que
contm

mediana

pa do intervalo

PESO (KG)

FREQUNCIA

40 | 45
45 | 50
50 | 55
55 | 60
60 | 65
Total

8
25
50
40
20
143

FREQUNCIA
ACUMULADA
8
33
83
123
143

anterior quele
que contm a
mediana

Nmero de observaes do intervalo que con-

tm a mediana

Tabela 2.7 Identificao dos valores que sero utilizados no clculo da mediana.

Substituindo os valores encontrados na frmula, temos:


Md = linf

md

hmd n

F
fmd 2 aant

5 143

33
50 2

Md = 50
0 + 3, 85 = 53, 85kg
Md = 50 +

Pelo menos 50% das observaes so maiores ou iguais a 53,85 kg.

62

captulo 2

As medidas resumo calculadas quando os dados estiverem agrupados em intervalos de


classes so apenas aproximaes dos verdadeiros valores, pois substitumos os valores
das observaes pelo ponto do mdio do intervalo de classe.

As medidas de posio que estudamos no bastam para descrever um conjunto de dados. Tais medidas tm como objetivo indicar o centro em torno do
qual os dados esto dispersos, mas no informam o quanto os dados se dispersam. Por exemplo, uma pergunta natural que surge aps o clculo da mdia
: ser que as observaes do conjunto de dados esto prximas ou distantes
(dispersas) do valor mdio encontrado?
Veremos, no prximo item, algumas medidas que nos auxiliam na resposta
a este questionamento.

2.2 Medidas de disperso


Antes de aprendermos a calcular algumas medidas de disperso, vamos entender o conceito de variabilidade com o exemplo a seguir.

EXEMPLO
2.7: Os dados abaixo se referem aos salrios de 10 funcionrios que possuem o cargo de
enfermeiro chefe nas cidades e regio metropolitana de So Paulo e Belo Horizonte.
S.P

3 250

4 125

5 270

6 029

9 840

5 127

6 350

4 250

7 125

3 850

B.H.

5 250

5 025

5 270

5 550

5 870

5 625

5 120

5 840

5 720

5 946

i =1x i
n

x SP =

3250 + 4125 +  + 7125 + 3850


= 552160
, reais
10

5250 + 5025 +  + 5720 + 5946


= 552160
, reais
10

i =1x i
n

x BH =

Embora as mdias sejam iguais, observamos claramente que a variabilidade dos salrios
na cidade de So Paulo e regio metropolitana maior que em Belo Horizonte. Portanto, a
mdia descreve bem a situao em Belo Horizonte, mas no em So Paulo.

captulo 2

63

Agora que ficou claro o conceito de disperso ou variabilidade, vamos aprender a calcular
as medidas de disperso.

2.2.1 Mnimo, mximo e amplitude


O mnimo e o mximo de um conjunto de dados so, respectivamente, o menor
e o maior valor do conjunto.
A amplitude de um conjunto de dados a diferena entre o valor mximo e
o valor mnimo dos dados, ou seja:
Amplitude = x ( mximo ) x ( mnimo )

EXEMPLO
2.8: Considerando os dados do Exemplo 2.7, vamos encontrar o mnimo, o mximo e a amplitude do conjunto de dados na cidade de So Paulo e regio metropolitana.
Resoluo

MNIMO

MXIMO

AMPLITUDE

3 250

9 840

6 590

Tabela 2.8 Valores mnimo, mximo e amplitude dos salrios em So Paulo e regio metropolitana.

Pela amplitude, observamos que a diferena entre o salrio mais alto e o


mais baixo de R$ 6 590,00. Apesar de ser uma medida fcil de calcular e interpretar, a amplitude no muito utilizada, pois leva em conta somente dois
valores de todo o conjunto de dados. Este clculo permite que dois conjuntos
de dados com variabilidades muito diferentes tenham mesma amplitude e,
permite, tambm, que valores extremos aumentem muito a amplitude.
O conveniente utilizarmos uma medida que utilize todas as observaes
do conjunto de dados. Estudaremos nos prximos itens medidas que tm
como princpio bsico analisar a disperso de cada observao em relao
mdia dessas observaes.

64

captulo 2

2.2.2 Desvio mdio, varincia e desvio padro amostrais


Antes de apresentarmos as frmulas para o clculo do desvio mdio e da varincia, vamos entender qual o conceito de desvio em estatstica. Desvio nada
mais do que a distncia entre qualquer observao do conjunto de dados em
relao mdia aritmtica deste mesmo conjunto:
desvio = observao mdia
desvio = x x

intuitivo pensar que se os desvios em relao mdia so pequenos, as


observaes esto concentradas em torno da mdia e, portanto, a variabilidade
dos dados pequena. Agora, se os desvios so grandes, porque as observaes
esto dispersas e, portanto, a variabilidade dos dados grande.
J vimos, na propriedade 1 da mdia que,n para qualquer conjunto de dados,
a soma dos desvios igual a zero. Ento, ( x i x ) no uma boa medida de
i =1
disperso, pois ela no seria nada informativa sobre a disperso das observaes. Para contornar o resultado desta propriedade,
podemos considerar o ton
(
x

x
)
tal dos desvios em valor absoluto, ou seja, i
. Mas, somente o uso deste
i =1
total pode causar dificuldades de interpretao quando estivermos comparando conjunto de dados com nmeros diferentes de observaes. Ento, o conveniente definir a medida como mdia, obtendo o desvio mdio:

xi x
dm = i =1
n

O desvio mdio uma mdia dos valores absolutos dos desvios em relao
mdia. Esta medida utiliza o mdulo que, por suas caractersticas matemticas, torna difcil o estudo de suas propriedades. Ento, vamos definir uma
medida que utiliza o quadrado dos desvios em relao mdia.
A varincia amostral uma medida de disperso que pode ser interpretada
como uma mdia dos quadrados dos desvios, ou seja:
s2 =

2
n
i =1( x i x ) = ( x1 x )2 + ( x2 x )2 +  + ( xn x )2

n 1

n 1

captulo 2

65

O denominador, n 1, so os graus de liberdade associados varincia. Uma explicao


detalhada da utilizao de n 1 no denominador encontrada em TRIOLA (2008, p. 83).

Uma frmula alternativa para o clculo da varincia :

s2 =

( i =1x i )2
n

x2
i =1 i

n 1

em que:
xi2 : soma de cada valor observado ao quadrado;
2
( xi ) : quadrado da soma de todos os valores observados;
n : nmero total de observaes no conjunto de dados.
Apesar, de primeira vista, a frmula alternativa parecer mais complicada,
os clculos exigidos so feitos com menor nmero de operaes aritmticas.
Quando os dados estiverem organizados em uma distribuio de frequncias, podemos utilizar a seguinte frmula:
s2 =

2
k
2
2
2
i =1( x i x ) fi = ( x1 x ) f1 + ( x 2 x ) f2 + + ( x k x ) fk

n 1

n 1

Ou, pela frmula alternativa:

i =1x i2 fi
n

s2 =

( i =1x i fi )2

n 1

Como a varincia envolve os quadrados dos desvios, a unidade de medida da


varincia igual ao quadrado da medida das observaes (por exemplo, mim2,
kg2, m2 etc). As unidades elevadas ao quadrado associadas varincia tornam
difcil a interpretao do valor numrico.
Para obtermos uma medida de variabilidade cuja unidade de medida seja
a mesma do conjunto de dados, extramos a raiz quadrada da varincia. Esta
medida denominada desvio padro amostral:
s = s2

66

captulo 2

em que:
s: desvio padro;
s2: varincia.
Da maneira que o desvio padro definido, podemos concluir que:
O desvio padro uma medida de variao de todos os valores a partir da
mdia.
O valor do desvio padro maior ou igual a zero. Ser zero apenas quando
todos os valores do conjunto de dados forem iguais.
Valores muito prximos resultaro em desvios padres pequenos, enquanto que valores mais espalhados resultaro em desvios padres maiores.
O valor do desvio padro pode aumentar drasticamente com a incluso de
um ou mais valores discrepantes.
A unidade de medida do desvio padro a mesma do conjunto de dados.
O desvio padro utilizado para comparar a variabilidade de dois conjuntos de dados diferentes quando as mdias forem aproximadamente iguais e
quando as unidades de medidas para os dois conjuntos forem as mesmas.
As frmulas apresentadas para o clculo da varincia e do desvio padro so aplicadas
quando estamos trabalhando com dados amostrais. No caso do conjunto de dados ser
a prpria populao, o denominador da varincia N e substitumos s2 por (: letra
2
n
(x x ) e o
grega sigma). Ento, a frmula da varincia populacional 2 = i =1 i
N
desvio padro populacional = 2

2.2.2.1 Uma regra prtica para interpretar o desvio-padro


Depois que calculamos o desvio-padro, surge uma pergunta: como
interpret-lo?
Para conjuntos de dados que tenham distribuio com forma aproximadamente de sino, valem as seguintes consideraes:
Cerca de 68% das observaes do conjunto de dados ficam a 1 desvio padro da mdia, ou seja, ( x s ) e ( x + s ) .

captulo 2

67

Cerca de 95% das observaes do conjunto de dados ficam a 2 desvios padres da mdia, ou seja, ( x 2s ) e ( x + 2s ) .
Cerca de 99,7% das observaes do conjunto de dados ficam a 3 desvios
padres da mdia, ou seja, ( x 3s ) e ( x + 3s ) .

Figura 2.1: Regra prtica para interpretao do desvio-padro. Fonte: TRIOLA (2008, p. 81).

Em uma distribuio em forma de sino, as frequncias comeam baixas, crescem at


uma frequncia mxima e depois decrescem para uma frequncia baixa. Alm disto, a
distribuio deve ser aproximadamente simtrica, com frequncias igualmente distribudas em ambos os lados da frequncia mxima.

Como a mdia aritmtica, o desvio padro tambm possui algumas propriedades importantes, que apresentaremos a seguir.
2.2.2.2 Propriedades do desvio padro
1. Quando somamos (ou subtramos) uma constante de todos os valores
de um conjunto de dados, o desvio padro no se altera.
2. Quando multiplicamos (ou dividimos) uma constante de todos os valores de um conjunto de dados, o desvio padro fica multiplicado (ou dividido)
por esta constante.

68

captulo 2

EXEMPLO
2.9: Os dados abaixo referem-se s notas finais de dois alunos, um deles est na turma da
manh e o outro na turma da noite, na disciplina Bioestatstica.

MANH

9,5

7,5

3,5

6,0

6,5

2,0

7,0

1,0

NOITE

5,0

5,5

5,0

6,5

6,0

4,5

5,5

5,0

Vamos calcular as medidas de disperso. De acordo com as informaes, qual aluno


apresenta maior variabilidade nas notas?
Resoluo
Analisando as notas dos alunos, conseguimos identificar que as notas do aluno da manh esto variando mais, enquanto que as notas do aluno da noite esto mais prximas umas
das outras. Os dois alunos apresentam o mesmo desempenho mdio na disciplina, pois:

i =1x i
n

x manh =

9, 5 + 7, 5 + 3, 5 + + 1
= 5, 375
8

i =1x i
n

x noite =

5 + 5, 5 + 5 + + 5
= 5, 375
8

Para exercitar as frmulas, vamos resolver este exerccio de duas maneiras: da maneira
como os dados esto apresentados no enunciado e depois organizando-os em uma distribuio de frequncias.
Primeira maneira aluno manh
O valor mnimo 1 e o mximo 9,5. Portanto, a amplitude 8,5 pontos, ou seja a diferena entre a menor nota e a maior 8,5 pontos.
Para encontrarmos a varincia, vamos utilizar a frmula alternativa:

i=1xi2
n

2 =

( i=1xi )2
n

Neste exemplo, utilizaremos a frmula da varincia populacional, pois estamos trabalhando com todas as notas dos alunos na disciplina Bioestatstica.

captulo 2

69

Precisamos encontrar a soma de cada valor observado ao quadrado:


( 9, 5) + ( 7, 5) + ( 3, 5) + (6, 0)2 + ( 6, 5) + ( 2, 0 ) + (7, 0)2 + (10
, )2 = 291
2

Agora, precisamos encontrar o quadrado da soma de todos os valores observados:


( 9, 5 + 7, 5 + 3, 5 + 6, 0 + 6, 5 + 2, 0 + 7, 0 + 10
, ) = ( 43) = 1849
2

Temos todos os valores necessrios para substituir na frmula:

2 =

( i =1x i )2
n

x2
i =1 i

291

(43)2
8

,
291 231125
59, 875
=
= 7, 48 pontos2
8
8

O desvio padro :
= 7, 48 = 2, 74 pontos

Vamos seguir o mesmo procedimento para encontrar as medidas de disperso para as


notas do aluno da noite.
O valor mnimo 4,5 e o mximo 6,5. Ento, a amplitude 2,0 pontos, ou seja, a diferena entre a menor nota e a maior 2,0 pontos.
Para o clculo da varincia precisamos das seguintes quantidades:
( 5, 0 ) + ( 5, 5) + ( 5, 0 ) + (6, 5)2 + ( 6, 0 ) + ( 4, 5) + (5, 5)2 + (5, 0)2 = 234
2

(5, 0 + 5, 5 + 5, 0 + 6, 5 + 6, 0 + 4, 5 + 5, 5 + 5, 0 )2 = (43)2 = 1849


Substituindo os valores encontrados na frmula da varincia, temos:

i =1x i2
n

2 =

( i =1x i )2

1849
,
2, 875
8 = 234 231125
= 0, 36 ponto2
=
8
8
8

234

O desvio padro :
= 0, 36 = 0, 60 ponto

70

captulo 2

Vamos colocar as informaes em um quadro para facilitar a interpretao dos resultados obtidos.

MEDIDAS DE
DISPERSO

MNIMO

MXIMO

AMPLITUDE

VARINCIA

DESVIO PADRO

ALUNO - MANH

1,0

9,5

8,5

7,48

2,74

ALUNO -NOITE

4,5

6,5

2,0

0,36

0,60

Tabela 2.9 Medidas de disperso para as notas dos dois alunos.


Apesar de j estar claro analisando as notas dos dois alunos, confirmamos atravs das
medidas de disperso que as notas do aluno da manh apresentam maior variabilidade. Apesar das mdias das notas dois alunos serem iguais, todas as medidas de disperso indicam
maior variabilidade nas notas do aluno da manh. Vale ressaltar que a varincia tem a unidade de medida elevada ao quadrado, portanto, utilizamos o desvio padro para interpretar o
resultado obtido.
Segunda maneira aluno noite
Agora, vamos calcular as medidas por meio dos dados apresentados em uma distribuio
de frequncias. Na distribuio de frequncias, acrescentamos duas colunas (xi fi e xi2 fi)
cujos somatrios so exigidos na frmula da varincia. Utilizaremos as notas do aluno da
noite para aprender a fazer os clculos por meio dos dados tabulados. Aps o aprendizado,
faa o mesmo procedimento com o aluno da manh e compare com os resultados obtidos
atravs da primeira maneira. Voc encontrar os mesmos resultados!

NOTAS (xi)

FREQUNCIA (fi)

FREQUNCIA
RELATIVA (%)

xi fi

xi2 fi

4,5

12,50

4,5

20,25

37,50

15

75

5,5

25,00

11

60,5

12,50

36

6,5

12,50

6,5

42,25

Total

100,00

43

234

Tabela 2.10 Clculos das colunas auxiliares para encontrar a varincia aluno noite.
Pela distribuio de frequncias tambm identificamos o mnimo (primeira nota) como
4,5, o mximo (ltima nota) como 6,5 e amplitude 2.

captulo 2

71

Utilizamos os somatrios das duas ltimas colunas da Tabela 2.6 para encontrar a varincia:

i=1xi2 fi
n

2 =

( i=1xi fi )2

234

(43)2

,
234 231125
2, 875
=
= 0, 36 ponto2
8
8

O desvio padro :
= 0, 36 = 0, 60 ponto

No Exemplo 2.9 utilizamos o desvio padro para comparar as notas dos dois
alunos, pois as mdias so iguais e as variveis em estudo so as mesmas (as
notas). Agora, quando queremos comparar as variabilidades de dois conjuntos
que apresentam mdias bem diferentes e cujas variveis em estudo so diferentes tambm, utilizamos uma medida de variabilidade denominada coeficiente
de variao. Veremos, no prximo item, como calcular esta medida.

2.2.3 Coeficiente de variao


O coeficiente de variao (cv) definido como o quociente entre o desvio-padro e a mdia, e frequentemente expresso em porcentagem. Ele mede o grau
de variabilidade do conjunto de dados. Quando calculamos o desvio-padro,
obtemos um valor que pode ser grande ou pequeno, dependendo da varivel
em estudo. O fato de ele ser um valor considerado alto relativo, pois dependendo da varivel que est sendo estudada e da mdia, esta variao dos dados
pode ser relativamente pequena. Ento, o coeficiente de variao serve para calcular o grau de variao dos dados em relao mdia aritmtica. Alm disto,
serve tambm para comparar a variabilidade de conjuntos de dados cujas variveis em estudo so diferentes, pois ele adimensional. Obtemos esta medida
por meio do seguinte clculo:
s
cv = 100
x
onde s o desvio-padro e x a mdia aritmtica.

72

captulo 2

Alguns autores consideram a seguinte regra emprica para a interpretao


do coeficiente de variao:
Baixa disperso: C. V. 15%
Mdia: C. V. 15% - 30%
Alta: C. V. 30%

2.2.4 Clculos da varincia e do desvio padro para dados


agrupados em intervalos de classes
O clculo da varincia e do desvio padro para dados apresentados em tabelas
com intervalos de classes feito de maneira semelhante ao clculo da mdia.
Utilizamos o ponto mdio do intervalo de classe para representar os valores dentro de cada classe. Ento, acrescentamos trs colunas na tabela x i , x i fi e x 2i fi ,
que so necessrios para o clculo da varincia.

EXEMPLO
2.10: A Tabela 2.7 apresenta as frequncias de nveis sricos de colesterol para homens, de
determinada cidade, entre 25 e 35 anos.

NVEL DE COLESTEROL (MG/100 ML)

FREQUNCIA

FREQUNCIA RELATIVA (%)

80 | 120

13

1,21

120 | 160

150

14,02

160 | 200

442

41,31

200 | 240

299

27,94

240 | 280

115

10,75

280 | 320

34

3,18

320 | 360
360 | 400
Total

11
6
1.070

1,03
0,56
100,00

Tabela 2.11 Distribuio de frequncias de nveis sricos de colesterol para homens, entre
25 e 35 anos.
Vamos encontrar a varincia e o desvio padro para os dados apresentados na Tabela 2.7.
Resoluo
Acrescentando as trs colunas adicionais para os clculos, temos:

captulo 2

73

NVEL DE
COLESTEROL
(MG/100 ML)

FREQUNCIA

FREQUNCIA
RELATIVA (%)

xi

xi fi

xi2 fi

80 | 120

13

1,21

100

1.300

130.000

120 | 160

150

14,02

140

21.000

2.940.000

160 | 200

442

41,31

180

79.560

14.320.800

200 | 240

299

27,94

220

65.780

14.471.600

240 | 280

115

10,75

260

29.900

7.774.000

280 | 320

34

3,18

300

10.200

3.060.000

320 | 360

11

1,03

340

3.740

1.271.600

360 | 400

0,56

380

2.280

866.400

Total

1.070

100,00

213.760

44.834.400

Tabela 2.12 Clculos das colunas auxiliares para encontrar a varincia e o desvio padro.

Substituindo os valores na frmula da varincia, temos:

s2 =
=

( i =1x i fi )2
n

n 2
x f
i =1 i i

n 1

44.834.400

( 213.760 )2

1.070
1.070 1

44.834.400 42.704.053,83 2.130.346,17


mg
=
= 1.992,84

1.069
1.069
100ml

O desvio padro :

s
=

=
1.992,84 44,64

mg
100ml

Agora que j aprendemos os conceitos das medidas de tendncia central e


de disperso, bem como efetuar os clculos para encontr-las, sabemos que a
mdia e o desvio-padro so influenciados pela presena de valores extremos
no conjunto de dados, portanto, podem no ser adequados para representar o
conjunto. Para contornamos situaes em que isto ocorre, podemos calcular
outras medidas descritivas, que veremos a seguir. Estudaremos conceitos referentes s medidas separatrizes ou de ordenamento e forma da distribuio
dos dados.

74

captulo 2

2.3 Medidas separatrizes ou de ordenamento


As medidas separatrizes ou de ordenamento so: quartis, decis e percentis.
Os quartis (Q1, Q2 e Q3), como o prprio nome sugere, divide a distribuio
dos dados ordenados em quatro partes, sendo, Q1 o quartil que separa os 25%
valores inferiores dos 75% superiores, Q2 o que divide o conjunto ao meio ( a
mediana) e Q3 o que separa os 75% valores inferiores dos 25% superiores.
Os decis, por sua vez, dividem a distribuio dos dados em 10 partes ( Di , i = 1, 2,, 9 ) e os percentis dividem a distribuio em 100 partes
( Pi = 1,2,,99 ) .
No h um consenso universal sobre um procedimento nico para o clculo
das medidas separatrizes, e diferentes calculadoras e softwares estatsticos podem produzem resultados ligeiramente diferentes.

2.3.1 Quartis
Como os quartis so medidas separatrizes precisamos, primeiramente, ordenar o conjunto de dados.
n
O primeiro quartil (Q1) ser a observao que ocupar a posio . O segun4
2n
do quartil (Q2) ser a observao que ocupar a posio
e o terceiro quartil
4
3n
(Q3) ser a observao que ocupar a posio
. Quando fazemos estas divi4
ses para encontrar as posies dos quartis, pode acontecer do resultado ser
um nmero inteiro ou um nmero fracionrio. Ento, adotaremos a seguinte
conveno:
Se a diviso resultar num nmero fracionrio, arredonde-o para cima e o
valor do quartil ser a observao encontrada nesta posio.
Se a diviso for um nmero inteiro, o quartil ser a mdia aritmtica da
observao que ocupar a posio encontrada com a observao que ocupar a
posio imediatamente seguinte.

EXEMPLO
2.11 Abaixo esto listadas as medidas de entrada calrica diria, registradas em quilocalorias
por quilograma, para uma amostra de adolescentes que sofrem de bulimia:

captulo 2

75

15,9

18,9

25,1

16,0

19,6

25,2

16,5

21,5

25,6

17,0

21,6

28,0

17,6

22,9

28,7

18,1

23,6

29,2

18,4

24,1

30,9

18,9

24,5

30,6

Vamos encontrar primeiro, segundo e terceiro quartil.


Resoluo
Para encontrarmos os quartis, precisamos ordenar o conjunto de dados. Ento:
15,9

16,0

16,5

17,0

17,6

18,1

18,4

18,9

18,9

19,6

21,5

21,6

22,9

23,6

24,1

24,5

25,1

25,2

25,6

28,0

28,7

29,2

30,6

30,9

( )

Posio do primeiro quartil Q1 :

24 24
=
=6.
4
4

Como a diviso resultou em um valor inteiro, o primeiro quartil ser o resultado da mdia
aritmtica entre o valor que est na sexta posio e o valor que est stima posio.

Q1 =

18,1 + 18, 4
= 18, 25
2

Ento, pelo menos 25% das observaes so menores ou iguais a 18,25 quilocalorias
por quilograma e, pelo menos, 75% das observaes so maiores ou iguais a 18,25 quilocalorias por quilograma.

( )

Posio do segundo quartil Q2 :

2
2 24
=
= 12
4
4

Como a diviso resultou em um valor inteiro, o segundo quartil ser o resultado da mdia
aritmtica entre o valor que est na dcima segunda posio e o valor que est na dcima
terceira posio.

Q2 =

21,6 + 22, 9
= 22, 25
2

Temos que pelo menos 50% das observaes so menores ou iguais a 22,25 quilocalorias por quilograma e pelo menos 50% das observaes so maiores ou iguais a 22,25
quilocalorias por quilograma.

( )

Posio do terceiro quartil Q3 =

76

captulo 2

3 n 3 24
=
= 18
4
4

Como a diviso resultou em um valor inteiro, o terceiro quartil ser o resultado da mdia
aritmtica entre o valor que est na dcima oitava posio e o valor que est na dcima nona
posio.

Q3 =

25, 2 + 25,6
= 25, 4
2

Neste conjunto de dados, pelo menos 25% das observaes so maiores ou iguais
a 25,4 quilocalorias por quilograma e pelo menos 75% das observaes so menores ou
iguais a 25,4 quilocalorias por quilograma.

Assim como a mdia, o desvio padro no uma medida de disperso resistente. Para
conjunto de dados com valores discrepantes, uma medida de disperso alternativa ao
desvio padro uma medida denominada amplitude interquartil, ou distncia interquartil, definida como a diferena entre o terceiro e o primeiro quartil, ou seja, Dq = Q3 Q1.
No Exemplo 2.11, temos que a distncia interquartil Dq = Q3 Q1 =25,4 18,25=7,15.
Note que a amplitude interquartil contm, aproximadamente, 50% das observaes
centrais.

2.3.2 Decis e Percentis


Para o clculo dos decis e dos percentis seguiremos o mesmo procedimento que foi
adotado para o clculo dos quartis. O decil Dk ser a observao que ocupar a posio Pk; e o percentil ( k n ) , k = 1, 2, 9 ser a observao que ocupar a posio
(k n)
. 10
, k = 1, 2, 99
10

EXEMPLO
2.12: Uma pesquisa feita com 40 brasileiros com 16 anos e mais, durante 15 dias, teve como
objetivo saber quantas horas por dia eles usavam a internet, de segunda a sexta-feira. Os
dados obtidos foram:

captulo 2

77

2,4

2,7

2,9

3,1

3,3

3,5

3,5

3,8

3,9

4,0

4,0

4,1

4,2

4,3

4,4

4,4

4,6

4,8

4,9

5,0

5,0

5,0

5,2

5,3

5,4

5,5

5,7

5,9

6,0

6,1

6,2

6,3

6,5

6,6

6,7

6,8

6,8

7,0

7,1

7,1

Resoluo
O decil D6 ser a observao que ocupar a posio

(6x40 )

ordenados.

10

= 24 no conjunto de dados

Como a diviso resultou em um valor inteiro, o sexto decil ser o resultado da mdia
aritmtica entre o valor que est na vigsima quarta posio e o valor que est na vigsima
quinta posio.
D6 =

5, 3 + 5, 4
= 5, 35
2

Temos que pelo menos 60% das observaes so menores ou iguais a 5,35 horas.
( 87 40 )
O percentil P87 ser a observao que ocupar a posio
= 34, 8 no conjunto
100
de dados ordenados.
Como a diviso resultou em um valor fracionrio, vamos arredondar para 35. Portanto, o
percentil P87 o valor que est na trigsima quinta posio.
P87 = 6, 7

Neste conjunto de dados, pelo menos 13% das observaes so maiores ou iguais a
6,7 horas.
As medidas de ordenamento tambm podem ser calculadas para dados agrupados em
intervalos de classes. Os clculos so parecidos com aquele que utilizamos para calcular a
mediana. Vamos estud-los no prximo item.

2.3.3 Clculo das medidas separatrizes para dados agrupados em


intervalos de classes
Para calcularmos os quartis, decis e percentis para dados agrupados em intervalos de classes utilizamos uma nica frmula, que segue a ideia que foi descrita para o clculo da mediana:

78

captulo 2

Pk = linf +
k

hk
fk

k n

Faant
100

em que:
n: nmero total de observaes da distribuio de frequncias;
k: 1, 2 , ..., 99;
linf : limite inferior da classe encontrada;
k
hk: amplitude do intervalo;
Faant : frequncia acumulada anterior da classe Pk;
fk: frequncia absoluta da classe encontrada Pk.
Podemos utilizar esta frmula geral, pois Q1 = P25 ,Q2 = P50 e Q3 = P75 e
D1 = P10 ,D2 = P20 ,..., D9 = P90 .

EXEMPLO
2.13: Vamos utilizar os dados do Exemplo 2.6 para encontrar o Q1, D3 e P85

PESO (KG)

FREQUNCIA

FREQUNCIA ACUMULADA

40 | 45

45 | 50

25

33

50 | 55

50

83

55 | 60

40

123

60 | 65

20

143

Total

143

Primeiro Quartil (Q1)


A primeira informao que precisamos saber qual intervalo contm o primeiro quartil. Este intervalo est associado frequncia acumulada imediatamente superior
k n 25 143
=
= 35, 75 . O valor de K igual a 25, pois Q1 = P25, ou seja, estamos calculan100
100
do o vigsimo quinto percentil. Pelo Quadro 2.4, temos que o intervalo que contm o primeiro
quartil de 50 | 55 (pois fa = 83).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:

captulo 2

79

linf : 50
k

hk: 55 50 = 5
fk: 50
n: 143
Faant : 33
k: 25 (o primeiro quartil o vigsimo quinto percentil)
Pk = linf +
k

hk
fk

k n

Faant
100

5 25 143

33
50 100

5
= 50 +
( 35, 75 33)
50
5
= 50 +
( 2, 75) = 50, 275
50

P25 = 50 +
P25
P25

Ento, pelo menos 25% das observaes so menores ou iguais a 50,275 kg.
Terceiro Decil (D3)
O intervalo que contm o terceiro decil est associado frequncia acumulada imediak n 30 143
=
= 42, 9 . Pelo Quadro 2.4, temos que o intervalo que
100
100
contm o terceiro decil de 50 | 55 (pois fa = 83). Ento:
tamente superior
linf : 50
k

hk: 55 50 = 5
fk: 50
n: 143
Faant : 33
k: 30 (o primeiro quartil o vigsimo quinto percentil)
Pk = linf +
k

hk
fk

k n

Faant
100

5 30 143

33
50 100

5
= 50 +
( 9, 9 ) = 50, 99
50

P30 = 50 +
P30

Pelo menos 30% das observaes so menores ou iguais a 50,99 kg.

80

captulo 2

Octogsimo quinto percentil (P85)


k n 85 143
=
= 12155
, , temos que o intervalo que contm o octogsimo quinto
Como
100
100
percentil de 55 | 60 (pois fa = 123). Ento:
linf : 55
k

hk: 60 55 = 5
fk: 40
n: 143
Faant : 83
k: 85
Pk = linf +
k

hk k n

Faant
fk 100

5 85 143

83
40 100

5
= 55 +
( 38, 55) = 59, 82
40

P85 = 55 +
P85

Por meio do P85, observamos que pelo menos 15% das observaes so maiores ou
iguais a 59,82 kg.

Perceba que o 2 quartil, o 5 decil e o 50 percentil representam a prpria mediana,


ou seja, todas estas medidas separatrizes (Q2B, D5B, e P50), dividem a distribuio dos
dados ao meio, deixando o mesmo nmero de dados em cada uma das partes.

Agora que j sabemos calcular e interpretar as medidas de disperso e separatrizes, podemos utilizar estas informaes para construir um grfico denominado boxplot (diagrama de caixa). Este grfico construdo utilizando
os valores mnimo, mximo e os quartis. Estes valores so conhecidos como
resumo dos cinco nmeros. O boxplot informa, entre outras coisas, a posio,
variabilidade e simetria dos dados. A posio central dada pela mediana (Q2)
e a disperso pela amplitude interquartil (dq). Com as posies relativas de Q2
Q1, Q2 e Q3, temos ideia da assimetria da distribuio. A Figura 2.3 ilustra um
boxplot.

captulo 2

81

Figura 2.2 Boxplot.Fonte: BUSSAB e MORETTIN (2002, p. 48).

De acordo com Bussab e Morettin (2002, p. 48)


Para construir este diagrama, consideremos um retngulo onde esto representados
a mediana e os quartis. A partir do retngulo, para cima, segue uma linha at o ponto
mais remoto que no exceda LS = q3 + (1,5) dq, chamado limite superior. De modo
similar, da parte inferior do retngulo, para baixo, segue uma linha at o ponto mais
remoto que no seja menor do que LI = q1 + (1,5) dq, chamado limite inferior. Os
valores compreendidos entre esses dois limites so chamados valores adjacentes. As
observaes que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos sero chamadas pontos exteriores e representadas por asteriscos. Essas so
observaes destoantes das demais e podem ou no ser o que chamamos de outliers
ou valores atpicos.

Os boxplots so particularmente teis quando temos interesse em comparar dois ou mais conjuntos de dados, especialmente quando so construdos na
mesma escala. Vamos verificar sua importncia atravs do exemplo a seguir.

82

captulo 2

EXEMPLO
2.14: Vamos utilizar os dados do Exemplo 2.9 para construir os boxplots associados a cada
um dos alunos.

Figura 2.3 Boxplot das notas dos dois alunos.


Pela anlise grfica, observamos que as duas distribuies so assimtricas (a distncia
da mediana para os quartis no a mesma), o mesmo podendo ser observado a respeito da
distncia dos pontos mnimo e mximo em relao mediana. Observamos, tambm, que as
notas do aluno da manh apresentam maior variabilidade (observando os valores utilizados
na escala).
Sabemos que podemos identificar distribuies simtricas e assimtricas utilizando as
medidas de posio e por meio da interpretao grfica, analisando o histograma e o boxplot.
Alm disto, podemos calcular o grau de assimetria e o grau de achatamento ou alongamento
de uma distribuio. Vamos aprender a fazer estes clculos.
2.15: Em um estudo que investiga as causas de morte entre pessoas com asma severa, os
dados foram registrados para dez pacientes que chegaram ao hospital em estado de parada
respiratria e inconscientes. A Tabela 2.9 lista os batimentos cardacos para os dez pacientes
na internao do hospital. Vamos construir o boxplot para este conjunto de dados.

captulo 2

83

PACIENTE

BATIMENTO CARDACO

167

150

125

120

150

150

40

136

120

10

150

Tabela 2.13 Batimentos cardacos para dez pacientes asmticos em estado de parada
respiratria. Fonte: PAGANO; GAUVREAU (2004, p. 49).

Para a construo do boxplot, vamos seguir a descrio que est logo aps a Figura 2.2.
Precisaremos dos quartis, ento vamos ordenar os dados:
40

120

120

125

136

150

150

150

150

167

Como n = 10 pacientes, e utilizando os conceitos adquiridos neste captulo, temos:


Q1 = 120
136 + 150
= 143
2
Q3 = 150
Q2 =

A distncia interquartil obtida por:


dq = Q3 Q1
dq = 150 120 = 30

Agora, temos as informaes necessrias para encontrar o limite superior (LS) e limite
inferior (LI):

84

captulo 2

L S = Q3 + (15
, ) dq
LS = 150 + (15
, ) 30 = 195
e
LI = Q1 (15
, ) dq
LI = 120 (1, 5) 30 = 75

Ento, com estas informaes, obtemos o boxplot apresentado na Figura 2.4.

Figura 2.4 Boxplot para os dados da Tabela 2.9.


Vamos interpretar os valores contidos na Figura 2.4:
O retngulo construdo utilizando os quartis, ou seja,
=
Q1 120
=
, Q2 143 e Q3 = 150, .
A partir do retngulo, para cima, segue uma linha at o ponto mais remoto que no exceda
L S = Q3 + (15
, ) dq , ou seja, que no exceda 195. O valor mais remoto que no excede
195 167.
A partir do retngulo, para baixo, segue uma linha at o ponto mais remoto que no seja
menor do que L S = Q1 (15
, ) dq ou seja, que no seja menor que 75. O valor mais remoto
que no menor que 75 120.
As observaes que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos so chamados pontos exteriores e representados por asteriscos. Essas so observaes destoantes das demais e podem ou no ser o que chamamos de outliers ou valores
atpicos. Neste conjunto de dados temos uma observao destoante das demais, que a
resposta 40, representada no boxplot pelo asterisco.

captulo 2

85

2.4 Medidas de assimetria e curtose


Uma distribuio de frequncia ser simtrica se a metade esquerda de seu histograma praticamente uma imagem espelhada de sua metade direita. Uma
distribuio de frequncia ser assimtrica se a cauda do grfico se prolongar
mais de um lado do que do outro. Uma distribuio ser assimtrica esquerda (negativamente assimtrica) se a sua cauda se prolongar para a esquerda.
Uma distribuio ser assimtrica direita (positivamente assimtrica) se a sua
cauda se prolongar para a direita.

Figura 2.5 Curvas simtricas e assimtricas. Fonte: BRUNI (2010, p. 85).

Uma das maneiras de se calcular o grau de assimetria de uma distribuio


por meio do segundo coeficiente de Pearson:
AS =

Q1 + Q3 2 Q2
Q3 Q1

em que:
Q1: primeiro quartil
Q2: segundo quartil
Q3: terceiro quartil
Se:
1. AS = 0: distribuio simtrica (a mdia, a moda e a mediana so iguais)

86

captulo 2

2. AS > 0: distribuio assimtrica positiva ou assimtrica direita (em geral, a mdia maior que a mediana, que maior que a moda).
3. AS < 0: distribuio assimtrica negativa ou assimtrica esquerda (em
geral, a mdia menor que a mediana, que menor que a moda).
Alm do estudo da simetria da distribuio, podemos ter interesse em estudar o grau de achatamento ou alongamento da distribuio. De acordo com
a anlise das formas das distribuies, podemos classific-las das seguintes
maneiras:
Platicrtica
Mesocrtica
Leptocrtica
O grau de curtose pode ser medido por meio da seguinte frmula:
k=

Q3 Q1

2 (P90 P10 )

em que:
Q1: primeiro quartil
Q3: terceiro quartil
P10: dcimo percentil
P90: nonagsimo percentil
Dependendo do valor encontrado para o coeficiente de curtorse, a distribuio ser classificada da seguinte maneira:
1. k = 0,263: distribuio mesocrtica, ou seja, nem chata nem delgada.
2. k > 0,263: distribuio leptocrtica, ou seja, delgada.
3. k < 0,263: distribuio platicrtica, ou seja, achatada.

EXEMPLO
2.16 Os dados abaixo representam as vendas ( 1 000 reais) de uma amostra de vendedores de produtos hospitalares de uma determinada empresa.

captulo 2

87

Figura 2.6 Histograma para a varivel vendas mensais de uma amostra de vendedores de
produtos hospitalares de uma empresa.

Vamos calcular os coeficientes de assimetria e de curtose.


Resoluo
Pela anlise do histograma visualizamos uma distribuio aproximadamente simtrica,
pois a metade esquerda do histograma se comporta de maneira praticamente igual a metade direita. Para calcular os coeficientes de assimetria e curtose, precisamos obter algumas
medidas separatrizes. Vamos colocar as informaes contidas no histograma em um quadro,
para facilitar os clculos, e aproveitamos para exercitar o clculo das medidas separatrizes
para dados agrupados em classes.

VENDAS MENSAIS
( 1 000)

NMERO DE
VENDEDORES

0 | 300

300 | 600

24

29

600 | 900

48

77

900 | 200

22

99

1 200 | 1 500

103

Total

103

Tabela 2.14 Vendas mensais de vendedores do gnero alimentcio.

88

FREQUNCIA
ACUMULADA

captulo 2

Primeiro Quartil
A primeira informao que precisamos saber qual intervalo contm o primeiro quartil. Este intervalo est associado frequncia acumulada imediatamente superior
k n 25 103
=
= 25, 75 . O valor de k igual a 25, pois Q1 = P26, ou seja, estamos calculan100
100
do o vigsimo quinto percentil. Pelo Quadro 2.5, temos que o intervalo que contm o primeiro
quartil de 300 | 600 (pois fa = 29).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:
linf : 300
k

hk: 600 - 300 = 300


fk: 24
n: 103
Faant : 5
k: 25
Pk = linf +
k

hk
fk

k n

Faant
100

300 25 103

5
24 100

300
= 300 +
( 25, 75 6 )
24
300
= 300 +
(19, 75) = 546, 875
24

P25 = 300 +
P25
P25

Segundo Quartil
k n 50 103
Como
=
= 515
, , temos que o intervalo que contm o segundo quartil de
100
100
600 | 900 (pois fa = 77). Ento:
linf : 600
k

hk: 900 - 600 = 300


fk: 48
n: 103
Faant : 29
k: 50

captulo 2

89

Pk = linf +
k

hk
fk

k n

Faant
100

300 50 103

29
48 100

300
= 600 +
( 22, 5) = 740, 625
48

P50 = 600 +
P50

Terceiro Quartil
Seguindo o mesmo procedimento utilizado para encontrar o intervalo que contm o primeiro quartil, temos que o intervalo que contm o terceiro quartil est associado frequncia
k n 75 103
acumulada imediatamente superior
=
= 77, 25 . O valor de k igual a 75, pois
100
100
Q3 = P75. Pelo Quadro 2.5, temos que o intervalo que contm o terceiro quartil de 900 |
1 200 (pois fa = 99).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:
linf : 900
k

hk: 1200 - 900 = 300


fk: 22
n: 103
Faant : 77
k: 75
Pk = linf +
k

hk k n

Faant
fk 100

300 75 103

77
22 100

300
= 900 +
( 77, 25 77)
22
300
= 900 +
( 0, 25) = 900 + 3,4
409 = 903, 409
22

P75 = 900 +
P75
P75

Dcimo percentil (P10)


k n 10 103
Como
=
= 10, 3 , temos que o intervalo que contm o dcimo percentil de
100
100
300 | 600 (pois fa = 29). Ento:
linf : 600
k

hk: 600 - 300 = 300


fk: 24
n: 110

90

captulo 2

Faant : 5
k: 10
Pk = linf +
k

hk
fk

k n

Faant
100

300 10 103

5
24 100

300
P10 = 300 +
( 5, 3) = 366, 25
24
P10 = 300 +

Nonagsimo percentil (P90)


k n 90 103
Como
=
= 92, 7 , temos que o intervalo que contm o nonagsimo percen100
100
til de 900 | 1 200 (pois fa = 99). Ento:
linf : 900
k

hk: 1200 - 900 = 300


fk: 22
n: 103
Faant : 77
k: 90
Pk = linf +
k

hk
fk

k n

Faant
100

300 90 103

77
22 100

300
= 900 +
(15, 7) = 1114, 09
22

P90 = 900 +
P90

Agora, substitumos os valores encontrados na frmula do segundo coeficiente de Pearson:


AS =

Q1 + Q3 2 Q2
Q3 Q1

546, 875 + 903, 409 2 ( 740, 625)


903, 409 546, 875
30, 966
AS =
= 0, 0869
356, 534
AS =

captulo 2

91

Apesar do AS > 0, o valor encontrado est bem prximo do zero, ento, podemos considerar a distribuio aproximadamente simtrica, comprovando o que havamos interpretado
por meio do histograma.
Calculando o coeficiente de curtose:
k=

Q3 Q1

2 (P90 P10 )

k=

903, 409 546, 875


2 (1114, 09 366, 25)

k=

290, 42
356, 534
=
= 0,194
2 ( 747, 84 ) 1495, 68

Como K = 0,263, temos que a distribuio denominada platicrtica (achatada).

2.5 Utilizao do Microsoft Excel na Anlise


de Dados
A maioria das medidas apresentadas neste captulo podem ser obtidas utilizando o Excel. Para isto, o suplemento Ferramenta de Anlise deve estar ativo.
Caso ele esteja ativo, deve aparecer o cone Anlise de Dados aps clicar na aba
Dados.
muito comum este suplemento no aparecer ativo. Caso isto acontea,
devemos seguir o seguinte procedimento:
Clicar no Boto Office e em seguida Opo do Excel. Escolher Suplementos
e clicar;
Escolher na lista Suplementos de Aplicativos Inativos a opo Ferramenta
de Anlise e clicar em Ir...
Selecionar o seguinte suplemento disponvel: Ferramenta de anlise e clicar em OK.
Com o suplemento ativo, podemos fazer vrias anlises estatsticas!

92

captulo 2

Vamos utilizar os dados do Exemplo 2.7 para exemplificar como os clculos


so obtidos utilizando o Excel. Utilizaremos a verso Excel 2010.
1o passo: Digitar em uma planilha as respostas da(s) varivel(eis).

Figura 2.7 Entrada dos dados.

2 passo: Neste passo, clicar em Dados e, em seguida, Anlise de Dados.


Aparecer uma caixa de dilogo com uma lista de Ferramentas de anlise.
Clicar em Estatstica descritiva e OK.

Figura 2.8 Escolha da ferramenta de anlise.

captulo 2

93

3 passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo


Intervalo de entrada, selecionar os dados arrastando com o mouse desde A1 at B11.
Marcar Rtulos na primeira linha (desde que os nomes das colunas tenham sido selecionados). Em Opes de sada, escolher Nova planilha (as estatsticas calculadas
sairo em uma planilha diferente daquela que utilizamos para digitar a entrada dos
dados, basta identific-la no rodap) e, por fim, escolher Resumo Estatstico e Ok.

Figura 2.9 Entrada das informaes em Estatstica descritiva.

4 passo: As informaes obtidas estaro em uma nova planilha (rodap da


planilha). Todas as medidas que esto destacadas foram abordadas ao longo
do captulo, exceto Erro padro.

Figura 2.10 Resumo estatstico dos salrios de enfermeiros padro nas cidades de So
Paulo e Belo Horizonte.

94

captulo 2

Devemos observar que a palavra Amplitude substituda por Intervalo e


que Moda escrita como Modo. Quando um conjunto de dados no apresenta
moda, o resultado que aparece #N/D. Vale ressaltar que o resumo estatstico
do Excel no apresenta todas as respostas para a moda, caso o conjunto seja
bimodal ou multimodal. No Exemplo 2.7 no calculamos as medidas de posio, a varincia, o desvio padro e os coeficientes de assimetria e curtose. Mas,
sabemos como calcul-las. Encontre as medidas e compare com os resultados
apresentados na Figura 2.9. Lembre-se, que h vrias maneiras de se calcular
as medidas separatrizes, ento, os valores encontrados podem divergir daqueles encontrados pelo Excel!

REFLEXO
Neste captulo aprendemos diversas medidas que so utilizadas para gerar informaes estatsticas de conjuntos de dados quantitativos. Alm de saber calcul-las, o mais importante
conseguir interpretar os resultados obtidos e identificar em quais situaes uma medida
pode ser mais representativa que outra. E, no podemos esquecer que o clculo de uma
medida resumo isoladamente pode no ser til na comparao de dois ou mais conjuntos de
dados, pois eles podem ter, por exemplo, mesma mdia, mas variabilidades completamente
diferentes. Em situaes como esta, uma anlise mais completa necessita do clculo do
desvio padro e do coeficiente de variao.

LEITURA
No endereo http://m3.ime.unicamp.br/recursos/1315 voc ter a oportunidade de ouvir
dois mdulos que exploram um problema envolvendo mdias ponderadas e que ressalta o
cuidado que devemos ter quando utilizamos a mdia como nica informao.

REFERNCIAS BIBLIOGRFICAS
ARANGO, Hctor G. Bioestatstica Terica e Computacional. Rio de Janeiro: Editora Guanabara
Koogan S.A., 2001.
BRUNI, Adriano L. Estatstica Aplicada Gesto Empresarial. 2. ed. So Paulo: Atlas, 2010.
BUSSAB, Wilton de O. ; MORETTIN, Pedro A. Estatstica Bsica. 5. ed. So Paulo: Saraiva, 2002.

captulo 2

95

PAGANO, Marcello.; GAUVREAU, Kimberlee. Princpios de Bioestatstica. So Paulo: Pioneira


Thomson Learning, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
OLIVEIRA, Samuel R.; TEIXEIRA, Thiago; SANTOS, Joa P. de Oliveira.
Disponvel em: < http://m3.ime.unicamp.br/recursos/1315 >. Acesso em: 20 jun. 2015.

96

captulo 2

3
Distribuio de
Probabilidade
Normal

Nos captulos anteriores, tivemos como objetivo mostrar como organizamos e


resumimos um conjunto de dados. Estudamos como construir distribuies
de frequncias e grficos e como calcular e interpretar medidas de tendncia
central e variabilidade. Neste captulo, estudaremos a distribuio mais importante na Estatstica, que a distribuio normal. Esta distribuio ocorre
frequentemente em situaes reais e desempenham papel importante nos
mtodos de inferncia estatstica, pois, muitos deles, exigem que os dados
amostrais sejam provenientes de uma populao que tenha distribuio que
no se afaste drasticamente de uma distribuio normal.

OBJETIVOS
Esperamos que, atravs dos conhecimentos aprendidos neste captulo, voc seja capaz de:
Compreender o conceito de varivel aleatria contnua;
Compreender as caractersticas da curva normal, fazer a transformao de uma varivel
aleatria que tem distribuio normal em uma varivel aleatria Z e encontrar probabilidades
por meio da tabela da distribuio normal padro.

98

captulo 3

3.1 Varivel aleatria


Antes de comearmos a estudar a distribuio normal, precisamos esclarecer o
conceito de varivel aleatria.
Uma varivel aleatria X representa um valor numrico associado a cada um dos resultados de um experimento aleatrio.

H dois tipos de variveis aleatrias: as discretas e as contnuas.


As variveis aleatrias discretas assumem valores em um conjunto enumervel e as variveis aleatrias contnuas assumem valores em qualquer intervalo dos nmeros reais.
Estas definies so similares quelas apresentadas no Captulo 1, com a
diferena que agora aparece a palavra aleatria, para indicar que a cada possvel valor da varivel atribumos uma probabilidade de ocorrncia. Estudamos,
tambm, que podemos representar graficamente dados contnuos, agrupados
em intervalos de classes, por meio de histogramas. A anlise deste grfico nos
auxilia na identificao da forma da distribuio dos dados, por exemplo, conseguimos identificar se a distribuio simtrica e se apresenta forma de sino.
Como dissemos anteriormente, neste captulo estudaremos a distribuio
normal. Nesta distribuio, a varivel em estudo contnua, ou seja, pode assumir qualquer valor em um intervalo dos nmeros reais e seu grfico simtrico
e em forma de sino.

3.2 Distribuio Normal


A distribuio normal uma distribuio contnua de probabilidade de uma
varivel aleatria X. Seu grfico chamado de curva normal.
Segundo LARSON (2004, p. 160)
A distribuio normal tem as seguintes propriedades:
1.

A mdia, a mediana e a moda so iguais.

2.

A curva normal tem formato de sino e simtrica em torno da mdia.

captulo 3

99

3.

A rea total sob a curva normal igual a 1.

4.

A curva normal aproxima-se mais do eixo x medida que se afasta da mdia em

ambos os lados, mas nunca toca o eixo.

Dois parmetros, e , determinam completamente o aspecto de uma curva normal. A mdia () informa a localizao do eixo de simetria e o desvio padro () descreve quanto os dados se espalham em torno da mdia.
A curva normal tem dois parmetros, e . Eles determinam a posio e a forma da
distribuio.

Figura 3.1 Distribuies Normais N (, )2, .Fonte: http://www.cultura.ufpa.br/dicas/biome/bionor.htm

As curvas normais a, b e c apresentam mdias iguais (por isto esto localizadas na mesma posio no eixo x), mas apresentam desvios padro diferentes
(por isto a curva c, que apresenta maior desvio padro, mais achatada e a curva
a, que apresenta menor desvio padro, mais fechada em torno da mdia).
A curva d apresenta mdia diferente das outras curvas, por isto est localizada numa posio diferente no eixo x.

100

captulo 3

A Figura 3.1 nos mostra que temos uma famlia de distribuies normais,
diferenciadas por suas mdias e desvios padres.
Para obtermos a curva da distribuio normal, utilizamos a seguinte funo densidade
de probabilidade:
2

1 x


1
f (x ) =
e 2
2

em que < x < . Valores especficos para e geram diferentes curvas, como as
apresentadas na Figura 3.1. A maneira de fazer o grfico a mesma que utilizamos
para qualquer funo que relaciona x e y ou x e f (x).

Como a rea total sob a curva de densidade igual a 1, existe uma correspondncia entre rea e probabilidade (TRIOLA, 2008, p. 196).
Quando utilizamos a funo densidade de probabilidade da distribuio
normal para fazer clculos, percebemos que valores mais fceis para e so
= 0 e = 1. Considerando estes valores para os parmetros, matemticos
calcularam diferentes reas sob a curva, que so apresentadas em uma tabela.
Como existe uma correspondncia entre rea e probabilidade, utilizamos a tabela para encontrar probabilidades.
A distribuio normal cuja mdia zero e varincia 1 chamada distribuio
normal reduzida ou distribuio normal padronizada e indicada pela letra Z.
De acordo com VIEIRA (2008, p. 213).
A distribuio normal reduzida tem grande importncia:
1.

As probabilidades associadas distribuio normal reduzida so dadas em ta-

belas, o que torna fcil saber as probabilidades associadas a essa distribuio. Basta
procurar na tabela.
2.

Podemos transformar qualquer varivel aleatria X com distribuio normal de

mdia e desvio padro conhecidos numa distribuio normal reduzida.


3.

Dos itens 1 e 2 segue-se que qualquer probabilidade associada a X pode ser

obtida transformando X (distribuio normal) em Z (distribuio normal reduzida).

captulo 3

101

A Figura 3.2 apresenta a curva de uma distribuio normal reduzida.

Figura 3.2 Distribuio normal reduzida Z ~ N (0,1).

Podemos transformar qualquer varivel aleatria X com distribuio normal


em Z (distribuio normal reduzida). Mas, como fazemos esta transformao?
Se X ~ N (
, 2 ) ento a varivel aleatria definida por:
Z=

ter mdia zero e varincia 1, ou seja, Z ~ N (0,1).


A tabela fornecida no final do livro, utilizada nos clculos das probabilidades, nos fornece P(0 Z zc) = P, isto ,

Figura 3.3 rea correspondente P(0 Z zc) = P fornecida pela tabela

102

captulo 3

A caracterstica de simetria da distribuio normal implica em: P (Z 0) = 0,5 = P (Z 0).

Vamos aprender a fazer a transformao e utilizar a tabela com o exemplo


a seguir.

EXEMPLO
3.1: Seja X ~N (50,25). Calcular:
f)

P (50 x 56)

g)

P (39 x 57)

h)

P (62 x 64)

i)

P (X 58)
Resoluo
Primeiro, precisamos saber interpretar X ~N (50,25). Lemos da seguinte maneira: a

varivel aleatria X tem distribuio normal com mdia 50 e varincia 25. Como, precisamos
do desvio padro para utilizar na transformao, = 2 = 25 = 5 .
a)

P (50 x 56)
Agora, hachuramos a rea do intervalo que queremos encontrar (50 x 56) na curva

normal.

50 50
=0
5
56 50 6
Z2 =
= = 12
,
5
5
Z1 =

captulo 3

103

Apresentaremos, a seguir, uma parte da tabela que est no final do livro.

Vamos aprender a encontrar a rea (probabilidade) por meio da tabela. Na primeira coluna da esquerda (z) identificamos o nmero que obtemos na transformao com uma casa
decimal e, a segunda casa decimal do nmero, est nas colunas (0 a 9). O nmero 1,2 igual
a 1,20, ou seja, a segunda casa decimal 0. Vamos linha 1,2 e na coluna 0. O nmero
encontrado 0,3849. Ento:
P ( 50 X 56 ) = P ( 0 Z 12
, ) = 0, 3849

104

captulo 3

b)

P (39 x 57)

Transformando para encontrar o novo intervalo correspondente varivel aleatria Z:


39 50
= 2, 2
5
57 50
Z2 =
= 14
,
5
Z1 =

Observao: Devido simetria, P ( 2, 2 Z 0 ) = P ( 0 Z 2, 2 )


Precisamos encontrar as reas (probabilidades) hachuradas na tabela e som-las.

Ento:
P ( 39 X 57) = P ( 2, 2 Z 0 ) + P ( 0 Z 14
, ) = 0, 4861+ 0, 4192
= 0, 9053

captulo 3

105

c)

P (62 x 64)

Transformando:
62 50
= 2, 4
5
64 50
Z2 =
= 2, 8
5
Z1 =

O objetivo deste item alertar para o fato que a tabela fornece a rea do zero ao valor
tabelado. A rea hachurada neste item no corresponde rea fornecida diretamente na
tabela. Ento, como encontramos a rea procurada? Se encontrarmos a rea 0 Z 2,8
e a rea 0 Z 2,4 (que so obtidas na tabela) e subtrairmos as duas reas, encontramos
justamente a rea hachurada!

106

captulo 3

Portanto:
P ( 62 X 64 ) = P ( 2, 4 Z 2, 8 ) = P ( 0 Z 2, 8 ) P ( 0 Z 2, 4 )
P ( 62 X 66 ) = 0,4
4974 0, 4918 = 0, 0056

d)

P (X 58)

Transformando:
Z=

58 50
= 16
,
5

captulo 3

107

Neste item, tambm temos que encontrar uma rea que no fornecida diretamente pela tabela. Como a rea total sob a curva 1 e a distribuio simtrica, temos que
P (Z 0) = P (Z 0). Ento:

P ( X 58 ) = P ( Z 16
, ) = P ( Z 0 ) P ( 0 Z 16
, ) = 0, 5 0, 4452 = 0, 0548

As probabilidades podem ser expressas das seguintes maneiras: fraes, decimais ou


percentuais. Neste livro, apresentaremos os resultados na forma decimal. Para expressarmos na forma percentual, basta multiplicar o valor decimal por 100.

3.2: A taxa de glicose no sangue humano uma varivel aleatria com distribuio normal de
mdia = 100 mg por 100 ml de sangue e desvio padro = 6 mg por 100 ml de sangue.
Calcule a probabilidade de um indivduo apresentar taxa:
a)

Superior a 110 mg por 100 ml de sangue;

b)

Entre 90 e 100 mg por 100 ml de sangue.


Fonte: VIEIRA (2008, p. 225).

Resoluo
X: taxa de glicose no sangue humano
X ~ N (100, (62))

108

captulo 3

a)

P (X > 100)

Para encontrar esta probabilidade, devemos transformar a varivel X na varivel normal


reduzida Z:
Z=

X 110 100 10
,
=
=
= 167

6
6

P ( 90 X 100 ) = P ( 167
, Z 0 ) = 0, 4525

captulo 3

109

Observao: Se quisermos apresentar o resultado obtido em forma de porcentagem,


basta multiplicarmos o resultado obtido por 100, ou seja:
P ( X > 110 ) = 0, 0475 100 = 4, 75%

b)

P (90 x 100)

Transformando:
Z=

10
X 90 100
,
=
=
= 167
6
6

P ( 90 X 100 ) = P ( 167
, Z 0 ) = 0, 4525
3.3: Uma fbrica de chocolate comercializa barras que pesam em mdia 200g. Os pesos so
normalmente distribudos. Sabe-se que o desvio-padro igual a 40g. Calcule a probabilidade de uma barra de chocolate escolhida ao acaso:

110

captulo 3

a)

pesar entre 200 e 250 g.

b)

pesar entre 170 e 200 g.

c)

pesar mais que 230 g.

d)

pesar menos que 150 g.


Resoluo:
X: peso das barras de chocolate
X ~ N (200,(402)

a)

P (200 x 250)

Para encontrar esta probabilidade, devemos transformar a varivel X na varivel normal


reduzida Z:
X1 200 200
=
=0

40
X 250 200 50
=
=
= 125
Z2 = 2
,

40
40

Z1 =

P (170 X 200 ) = P ( 0, 75 Z 0 ) = P ( 0 Z 0, 75 ) = 0, 2734

captulo 3

111

b)

P (170 x 200)

Transformando:
X1 170 200 30
=
=
= 0, 75

40
40
X 200 200 0
=
=
=0
Z2 = 2

40
40

Z1 =

P (170 X 200 ) = P ( 0, 75 Z 0 ) = P ( 0 Z 0, 75 ) = 0, 2734


c)

P (X 200)

112

captulo 3

Z1 =

X1 230 200 30
=
=
= 0, 75
40
40

P ( X 230 ) = P ( Z 0, 75) = 0, 5 P ( 0 Z 0, 75) = 0, 5 0, 2734 = 0, 2266

d)

P (X 150)

Transformando:
Z1 =

X1 150 200
50
,
=
=
= 125

40
40

P ( X 150 ) = P ( Z 125
, ) = 0, 5 P ( 125
, Z 0 ) = 0, 5 0, 3944 = 0,1056

captulo 3

113

3.4: Uma clnica de emagrecimento recebe pacientes adultos com peso seguindo uma distribuio
Normal com mdia 130 kg e desvio padro 20 kg. Para efeito de determinar o tratamento mais adequado, os 25% pacientes de menor peso so classificado de magros, enquanto os 25% de maior
peso de obesos. Determine os valores que delimitam cada uma dessas classificaes.
Fonte: MAGALHES;LIMA (2004, p. 203).
Resoluo
Este exerccio, diferentemente dos anteriores, fornece a rea (probabilidade) e precisamos encontrar os valores crticos.
Do enunciado:
X: peso de paciente adultos
X ~ N (130,(202))

Construmos a curva normal desta maneira, pois o enunciado informa: os 25% pacientes
de menor peso so classificado de magros, enquanto os 25% de maior peso, de obesos.
Encontrar os valores que delimitam cada uma destas classificaes significa ter que
encontrar X1 e X2.
De acordo com a distribuio normal reduzida:

Sabemos que P (Z 0) = P (Z 0) = O,5, ento, P(zc Z 0) = 0,25 e P(0 Z zc) = 0,25


Portanto, temos que responder as seguintes perguntas:
Qual o valor crtico ( zc), tal que P(zc Z 0) = 0,25?
Qual o valor crtico (zc), tal que P(0 Z zc) = 0,25?

114

captulo 3

Para encontrarmos estes valores, precisamos encontrar a rea = 0,25 dentro da tabela e
verificar qual o valor crtico associado a esta rea.

No corpo da tabela no h a rea = 0,25, exatamente, ento, selecionamos os dois valores mais prximos (0,2486 e 0,2517). O valor crtico associado a estas duas reas 0,678.
Utilizando a transformao da varivel X na varivel Z:
X1

X 130
0, 678 = 1
20
X1 130 = 13, 56
Z1 =

X1 = 13, 56 + 130
X1 = 116,4
44 kg

em que: zc = Z1
X 2

X 130
0, 678 = 2
20
X 2 130 = 13, 56
Z2 =

X 2 = 13, 56 + 130
X 2 = 143, 56 kg
em que: zc = Z2
Os pacientes so classificados como magros se pesam at 116,44 kg e so classificados como obesos se pesam pelo menos 143,56 kg.

captulo 3

115

3.5: Nos dias atuais, dor crnica nas costas tornou-se frequente em crianas que carregam
mochilas muito cheias e pesadas. As crianas tm o hbito de carregar livros escolares, notebooks, estojos, calculadoras, entre outros, tudo amontoado dentro da mochila, fazendo com
que a chance de ocorrer algum espasmo muscular nos ombros e no pescoo e dor na coluna
aumente. Uma pesquisa mostrou que o peso total carregado diretamente proporcional ao
volume da mochila. O volume de uma mochila vendida comercialmente segue uma distribuio normal com mdia 10 litros e desvio padro 1,8 litros. Encontre um intervalo simtrico
em torno da mdia, tal que 80% de todos os volumes de mochilas fiquem neste intervalo.
Resoluo
Do enunciado:
X: volume das mochilas
X ~N (10,(1,82))
Encontrar um intervalo simtrico em torno da mdia tal que 80% de todos os volumes
fiquem neste intervalo, significa encontrar X1 e X tal que:

De acordo com a distribuio normal reduzida:

Portanto, temos que responder as seguintes perguntas:


Qual o valor crtico ( zc), tal que P(zc Z 0) = 0,40?
Qual o valor crtico (zc), tal que P(0 Z zc) = 0,40?

116

captulo 3

Para encontrarmos estes valores, precisamos encontrar a rea = 0,40 dentro da tabela
e verificar qual o valor crtico associado a esta rea.

No corpo da tabela no h a rea = 0,40, exatamente, ento, selecionamos os dois valores mais prximos (0,3997 e 0,4015). O valor crtico associado a estas duas reas 1,285.
Utilizando a transformao da varivel X na varivel Z:
X1

X 10
1285
= 1
,
18
,
X1 10 = 2, 313
Z1 =

X1 = 2, 313 + 10
X1 = 7, 687 litros

em que: zc = Z1
X 2

X 10
1285
= 2
,
18
,
X 2 10 = 2, 313
Z2 =

X 2 = 2, 313 + 10
X 2 = 12, 313 litros

captulo 3

117

em que: zc = Z2
Portanto, 80% das mochilas tm volume entre 7,687 e 12,313 litros.

3.3 Utilizao do Microsoft Excel no clculo


de probabilidades normais
Para realizar os clculos, seguimos estes procedimentos:
1 Passo: Clicar na aba Frmulas e, em seguida, em Mais Funes. Selecionar
Estatstica e depois DIST.NORM.N.

Figura 3.4 Seleo da funo Distribuio Normal.

2 Passo: Aps clicar em DIST.NORM.N aparecer uma janela onde teremos que colocar os argumentos da funo. Vamos calcular as probabilidades
no Excel utilizando os dados do Exemplo 3.3.
X ~ N (200,(402))

118

captulo 3

d) P (200 x 250)

Figura 3.5 Preenchimento dos argumentos da funo.

Da mesma maneira que fizemos no clculo da distribuio binomial, vamos


entender como devemos preencher cada uma das informaes exigidas:
X: o valor cuja distribuio desejamos obter. No item a) queremos encontrar P (200 x 250), portanto um dos valores X = 250.
Mdia: a mdia aritmtica da funo. Neste exemplo, = 200.
Desv_padro: o desvio padro da distribuio. No exemplo, = 40.
Cumulativo: um valor lgico: para a funo de distribuio cumulativa,
use VERDADEIRO. Para a funo de densidade de probabilidade, use FALSO.
Quando cumulativo = VERDADEIRO, a rea calculada comea na cauda esquerda da curva normal at o x da frmula indicada, ou seja, P (X x) . Sempre utilizaremos VERDADEIRO.
Aps o preenchimento, clicar em OK e aparecer na planilha o resultado da
probabilidade:

captulo 3

119

Figura 3.6 Valor da probabilidade P (X 250).

Vamos interpretar o valor encontrado para a probabilidade: pela definio


do argumento Cumulativo, a probabilidade encontrada rea correspondente
com incio na cauda esquerda da curva normal at 250. Ou seja:
P ( X 250 ) = 0, 89435

Podemos reescrever esta probabilidade da seguinte maneira:


P ( X 250 ) = P ( X 200 ) + P ( 200 X 250 )

Queremos encontrar P (200 X 250) . Ento:


P ( 200 X 250 ) = P ( X 250 ) P ( X 200 )

120

captulo 3

P ( 200 X 250 ) = 0, 89435 0, 5 = 0, 39435

Obs.: Como a rea total sob a curva 1 e a distribuio simtrica, temos


que P ( X 200 ) = P ( X 200 ) = 0, 5
e) P (170 x 200)
Para usar a probabilidade calculada pelo argumento Cumulativo, vamos reescrever a probabilidade pedida como:
P (170 X 200 ) = P ( X 200 ) P ( X 170 )

J sabemos que P (x 200) = 0,5 ento, vamos calcular por meio do Excel
P (x 170).

Figura 3.7 Preenchimento dos argumentos da funo.

captulo 3

121

Agora, vamos clicar em OK para encontrar o valor de P (x 170).

Figura 3.8 Valor da probabilidade P (x 170).

Ento:
P (170 X 200 ) = P ( X 200 ) P ( X 170 )
P (170 X 200 ) = 0, 5 0, 226627 = 0,2
273373

f)

P (x 230)

Novamente, o argumento Cumulativo no fornece diretamente a probabilidade pedida. Ento, reescrevendo:

122

captulo 3

Figura 3.9 Preenchimento dos argumentos da funo.

Figura 3.10 Valor de P (x 230)

captulo 3

123

Ento:
P ( X 230 ) = ` rea total P ( X 230 )
P ( X 230 ) = 1 0, 773373 = 0, 226627

Obs.: O valor da probabilidade igual a 1 aparece, pois a rea total sob a curva
normal 1.
g) P (x 150)
Esta probabilidade fornecida diretamente pelo argumento Cumulativo.

Figura 3.12 Valor de P (x 150).

Portanto:
P ( X 150 ) = 0,10565

REFLEXO
Durante todo este captulo nos dedicamos a estudar a distribuio normal. Aprendemos que,
para encontrar a probabilidade de uma varivel aleatria que segue o modelo normal assumir
determinados valores, precisamos utilizar a distribuio normal padro (para encontrar probabilidades diretamente da tabela). Alm de encontrar probabilidades, no podemos esquecer

124

captulo 3

quais as caractersticas da curva normal, pois esta distribuio exigida em muitas tcnicas
da inferncia estatstica e, com isso, precisaremos saber identificar se os dados amostrais
so provenientes de uma populao normal.

LEITURA
No endereo http://m3.ime.unicamp.br/recursos/1332 voc encontrar comentrios em
dois udios, primeiro mdulo e segundo mdulo, sobre a curva gaussiana (curva em forma de
sino) e uma discusso envolvendo conceitos de mdia e mediana.

REFERNCIAS BIBLIOGRFICAS
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MAGALHES, Marcos N.; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
Disponvel em: < http://www.cultura.ufpa.br/dicas/biome/bionor.htm >. Acesso em: 01 jun. 2015.
NOIMAN, Caroline; OLIVEIRA, Samuel R.; SARTI, Luis R. Disponvel em:
< http://m3.ime.unicamp.br/recursos/1332 >. Acesso em: 01 jun. 2015.

captulo 3

125

126

captulo 3

4
Teste de
Hipteses

Estudamos, no Captulo 1, que a Estatstica pode ser dividida em duas grandes


reas: a estatstica descritiva e a inferncia estatstica. Na inferncia estatstica (ou inferncia indutiva), utilizamos dados amostrais para fazer estimativas, testar hipteses e fazer previses sobre caractersticas de uma populao.
Muitos pesquisadores sociais e da rea da sade trabalham com amostras,
com o objetivo de generalizar os resultados obtidos para as populaes de
onde estas amostras foram retiradas. Por exemplo, pesquisadores da rea
mdica utilizam testes de hipteses para a tomada de decises sobre novos
medicamentos.
Ao longo deste captulo, concentraremos nossos estudos em uma das tcnicas da inferncia estatstica mais utilizada, que o teste de hipteses.

OBJETIVOS
Com a tcnica estudada neste captulo, esperamos que voc seja capaz de:
Compreender os fundamentos do teste de hipteses;
Distinguir os erros do tipo I e do tipo II;
Realizar um teste de hipteses para verificar a diferena entre duas mdias populacionais,
no caso de amostras dependentes;
Realizar um teste de hipteses para verificar a diferena entre duas mdias populacionais,
no caso de amostras independentes.

128

captulo 4

4.1 Fundamentos do teste de hipteses


Um teste de hipteses um procedimento padro para se testar uma afirmativa
sobre uma propriedade da populao (TRIOLA, 2008, p. 306).
Por exemplo, com base em estudos anteriores, sabe-se que o efeito imunolgico de determinada vacina se prolonga por mais de um ano em apenas 20%
das pessoas que a tomam. Uma nova vacina foi desenvolvida para a mesma
finalidade. necessrio testar se a nova vacina melhor que a atual, ou seja, se
a proporo de pessoas imunizadas aps um ano maior que 20%. Como a eficcia da vacina varia de pessoa para pessoa, precisamos utilizar algum mtodo
estatstico para chegarmos a uma concluso sobre a eficcia desta nova vacina.
Por meio de um teste de hipteses, tomamos decises em presena da variabilidade, ou seja, verificamos se estamos diante de uma diferena real ou de uma
diferena devida simplesmente flutuao aleatria ao processo.
A afirmativa sobre a propriedade da populao (normalmente um parmetro populacional) chamada de hiptese estatstica. Para testarmos uma hiptese estatstica, devemos estabelecer um par de hipteses, tal que uma delas
representa uma afirmativa e a outra, o seu complemento. A hiptese que contm a afirmativa de igualdade a hiptese nula (representada por H0) e o complemento da hiptese nula a hiptese alternativa (representada por H1 ou H0).
Representamos a hiptese alternativa usando um destes smbolos: < .> ou .
Por exemplo, se uma afirmativa para a mdia populacional que ela assume
o valor k, alguns pares possveis de hiptese nula e alternativa so:
=k
H 0 :

H
:

1 > k

=k
H 0 :

H
:

1 <k

=k
H :
0

H
1 k

Segundo TRIOLA (2008, p. 309), se voc est fazendo um estudo e deseja


usar um teste de hipteses para apoiar sua afirmativa, esta deve ser escrita de
modo a se tornar a hiptese alternativa (e deve ser expressa usando apenas os
smbolos < .> ou ). Ou seja, voc no deve apoiar uma afirmativa de que um
parmetro seja igual a algum valor especfico.

captulo 4

129

EXEMPLO
4.1: Identifique as hipteses que esto sendo testadas em cada caso.
a)

Um fabricante afirma que sua vacina previne 85% dos casos de certa doena. Um gru-

po de mdicos desconfia que a vacina no seja to eficiente assim.


b)

Um fabricante de bateria para automveis alega que a vida mdia de um determinado

modelo de 40 meses. Um proprietrio de automvel deseja testar essa afirmao.


c)

Uma empresa instalou um equipamento antipoluio sonora com o objetivo de manter

o rudo mdio abaixo de 65 decibis. O sindicato decide testar se o equipamento est ou


no cumprindo sua funo.
Resoluo
a)

H0 : p = 0, 85

H1 : p < 0, 85
Indicamos a proporo populacional por p. O fabricante faz uma afirmao sobre o pa-

rmetro populacional, ou seja, que a proporo de casos prevenidos pela vacina de 85%.
Como o grupo de mdicos desconfia que a vacina no to eficiente assim (ou seja, que a
proporo menor que 85%), definimos a hiptese alternativa como p > 0,85.
b)

H0 : = 40

H1 : 40

A mdia populacional representada por . Neste item, o proprietrio deseja testar a


afirmao do fabricante (que a vida mdia da bateria de 40 meses), portanto, utilizamos o
smbolo na hiptese alternativa.
c)

H0 : = 65

H1 : < 65

A empresa afirma que o equipamento instalado mantm o rudo mdio abaixo de 65


decibis. O sindicato deseja testar se o rudo mdio est abaixo de 65 decibis aps a instalao do equipamento, portanto, utilizamos na hiptese alternativa o smbolo <.
Podemos realizar testes de hipteses para a mdia, desvio padro e proporo populacionais, mas, neste captulo, focaremos nosso estudo em teste de hipteses para a mdia.
Podemos realizar testes de hipteses para a mdia, desvio padro e proporo populacionais, mas, neste captulo, focaremos nosso estudo em teste de hipteses para a mdia.

130

captulo 4

4.2 Teste de hipteses para a mdia


populacional
Para a realizao de um teste de hipteses, alm de estabelecermos as hipteses nula e alternativa, precisamos seguir algumas etapas e, para isto, a compreenso dos seguintes conceitos so imprescindveis: erros do tipo I e II, nvel
de significncia, estatstica de teste, regio crtica, valor crtico e concluso do
teste baseado no mtodo tradicional ou do valor P.

4.2.1 Tipos de erros, nvel de significncia e estatstica de teste


No podemos esquecer que, quando realizamos um teste de hipteses, estamos utilizando dados amostrais e, por isto, devemos aceitar o fato de que a
deciso de rejeitar ou no H0 pode estar incorreta. A nica maneira de se ter
certeza de que H0 verdadeira ou falsa testar toda a populao e sabemos que
isto , muitas vezes, impossvel. Ento, quando realizamos um teste de hipteses, dois erros podem ser cometidos:
1. Rejeitar a hiptese H0, quando tal hiptese verdadeira, e
2. No rejeitar a hiptese H0, quando ela deveria ser rejeitada.
Ao erro cometido em 1., denominamos erro do tipo I, enquanto que ao erro
cometido em 2., denominamos erro do tipo II.
A Figura 4.1 resume os resultados possveis na realizao de um teste de
hipteses.
SITUAO
Deciso

H0 verdadeira

H0 falsa

Rejeitar H0

Erro do tipo I

Deciso correta

No rejeitar H0

Deciso correta

Erro do tipo II

Figura 4.1 Resultados possveis na realizao de um teste de hipteses.

A probabilidade de cometermos o erro do tipo I denotada por e a probabilidade de cometermos o erro do tipo II denotada por . Desejamos que
as probabilidades e sejam prximas de zero, mas a teoria nos mostra que,

captulo 4

131

medida que diminumos o erro do tipo I, a probabilidade de erro do tipo II


tende a aumentar. Ento, ao definir as hipteses, o erro mais importante a ser
evitado o erro do tipo I. A probabilidade mxima permitida de ocorrer um erro
do tipo I denominada nvel de significncia. As escolhas comuns para so
0,05; 0,01 e 0,10.
Aps a identificao das hipteses nula e alternativa e da especificao do
nvel de significncia, utilizamos dados de uma amostra aleatria para calcular
o valor da estatstica de teste.
Segundo TRIOLA (2008, p. 310)
A estatstica de teste um valor usado para se tomar a deciso sobre a hiptese nula
e encontrada pela converso da estatstica amostral (como a proporo amostral
p ou a mdia amostral x ou o desvio padro s) em um escore (como z, t e x2) com a
suposio de que a hiptese nula seja verdadeira.

Utilizamos as seguintes estatsticas de teste para a mdia:


z=

ou

t=

x
s
n

Podemos observar que esta estatstica de teste pode se basear na distribuio normal ou na distribuio t de Student. A utilizao de uma estatstica ou
de outra depende de algumas condies que devem ser satisfeitas, que estudaremos a seguir.
A forma da distribuio t de Student parecida com a da distribuio normal: tem mdia
t = 0, como a distribuio normal padronizada, com mdia ; simtrica, mas apresenta
caudas mais alongadas, ou seja, maior variabilidade do que a normal. Quando aumentamos o tamanho da amostra, a distribuio t de Student tende para a distribuio normal.

A escolha da estatstica de teste para a realizao de um teste de hipteses


para a mdia populacional depende do conhecimento, ou no, do valor do desvio padro populacional.

132

captulo 4

ESTATSTICA DE TESTE
z=

t=

n
x
s
n

CONDIES
- A amostra uma amostra aleatria simples.
- O valor do desvio padro populacional conhecido.
Pelo menos uma das condies seguintes verdadeira: a populao
normalmente distribuda ou n > 30.
- A amostra uma amostra aleatria simples.
- O valor do desvio padro populacional no conhecido.
Pelo menos uma das condies seguintes verdadeira: a populao
normalmente distribuda ou n > 30.'

O nmero de graus de
liberdade (g.l.) n 1
Nota: Critrios para decidir se a populao ou no normalmente distribuda: A populao no
precisa ser exatamente normal, mas deve parecer simtrica de alguma forma e sem outliers. O teste
t robusto contra um afastamento da normalidade, ou seja, o teste funciona razoavelmente bem se o
afastamento no for extremo.

Tabela 4.1 Escolha da estatstica de teste.

Depois que encontramos o valor da estatstica de teste, passamos etapa de


decidir pela rejeio ou no da hiptese nula. Esta deciso feita utilizando o
mtodo do valor p ou o mtodo tradicional.
De acordo com VIEIRA (2008, p. 250), o valor p diz quo provvel seria obter
uma amostra tal qual a que foi obtida, quando a hiptese nula verdadeira.
O valor p o menor nvel no qual H0 pode ser rejeitado, ou seja, quando
utilizamos o mtodo do valor p a hiptese nula rejeitada se p . Quando
utilizamos softwares estatsticos e o Excel para realizar um teste de hipteses,
os resultados obtidos informam o valor p.
Alm do mtodo do valor p podemos utilizar o mtodo tradicional para decidir por rejeitar ou no a hiptese nula. Para utiliz-lo, precisamos das seguintes
informaes:

REGIO CRTICA (OU


REGIO DE REJEIO)

conjunto de todos os valores da estatstica de teste


que nos fazem rejeitar a hiptese nula.

qualquer valor que separa a regio crtica dos valores da


estatstica de teste que no levam rejeio da hiptese

VALOR CRTICO

nula. Para encontrarmos este valor, precisamos analisar


a natureza da hiptese nula, a distribuio amostral (normal ou t de Student) e o nvel de significncia.

captulo 4

133

O que significa o valor crtico depender da natureza da hiptese nula?


Um teste de hipteses pode ser bicaudal (ou bilateral), unilateral esquerda
(monocaudal esquerdo) ou unilateral direita (monocaudal direito). A identificao de cada um destes tipos feita por meio da hiptese alternativa.
Temos que:
Se a hiptese alternativa H1 contiver o smbolo <, o teste de hipteses ser
um teste unilateral esquerda, ou seja, a regio crtica (e o valor crtico) esto
na cauda esquerda sob a curva.
Se a hiptese alternativa H1 contiver o smbolo >, o teste de hipteses ser
um teste unilateral direita, ou seja, a regio crtica (e o valor crtico) esto na
cauda direita sob a curva.
Se a hiptese alternativa H1 contiver o smbolo , o teste de hipteses ser
um teste bilateral, ou seja, a regio crtica (e os valores crticos) esto nas duas
caudas sob a curva.
Estas informaes so mais fceis de serem visualizadas atravs da Figura 4.2.

Figura 4.2 Testes bilateral, unilateral esquerda e unilateral direita.Fonte: TRIOLA (2008,
p. 313).

134

captulo 4

Quando estamos realizando testes bilaterais, devemos dividir igualmente o nvel de significncia entre as duas caudas que constituem a regio crtica. Por exemplo, em um
teste bilateral com nvel de significncia = 0,05, h uma rea de 0,025 em cada uma
das caudas. Para testes que so unilaterais esquerda ou direita, a rea da regio
crtica na cauda respectiva .

4.2.2 Deciso e interpretao


Para concluir um teste de hipteses, precisamos tomar uma das seguintes
decises:
Rejeitar a hiptese nula.
Deixar de rejeitar a hiptese nula.
A deciso feita usando um dos seguintes mtodos estudados: mtodo do
valor P ou mtodo tradicional. O mtodo do valor p muito utilizado quando a
anlise estatstica est sendo feito atravs de algum software estatstico ou pelo
Excel.
MTODOS
Tradicional
Rejeitar H0 se a estatstica de teste ficar dentro
da regio crtica.
Deixar de rejeitar H0 se a estatstica de teste no
ficar dentro da regio crtica.

Valor P
Rejeitar H0 se o valor P .
Deixar de rejeitar H0 se o valor P > .

Agora que j sabemos quais as etapas que devemos seguir para a realizao
de um teste de hipteses, vamos apresentar, a seguir, um sumrio.
1.
2.
3.
4.
5.

Estabelecer as hipteses nula e alternativa.


Especificar o nvel de significncia.
Calcular a estatstica de teste, utilizando os dados amostrais.
Definir a forma da regio crtica, com base na hiptese alternativa.
Concluir o teste com base no mtodo tradicional ou no valor p.

captulo 4

135

EXEMPLO
4.2: Um laboratrio farmacutico lanou no mercado um novo medicamento contra dor de
cabea, retirando de circulao o antigo, com a justificativa que este novo medicamento tem
ao mais rpida. O antigo medicamento tinha um tempo mdio de 30 minutos para o incio
do efeito. Em uma amostra aleatria de 35 pessoas que tomaram o novo medicamento, obteve-se um tempo mdio de 27 minutos, com desvio padro de 4 minutos. Testar a eficcia
do novo medicamento, ao nvel de 5%.
Resoluo
Neste estudo, temos uma amostra aleatria de 35 pessoas. No conhecemos o desvio
padro populacional e o tamanho amostral n > 30. Portanto, os requisitos necessrios
para a realizao do teste de hipteses para a mdia populacional com desconhecido
esto satisfeitos.
Agora, seguiremos os passos necessrios para a realizao do teste:
1.

Hipteses:

H0 : = 30 ( o novo medicamento n o mais eficaz que o antigo )

H1 : < 30 ( o novo medicamento mais eficaz que o antigo )

2.

O nvel de significncia = 50

3.

A estatstica de teste :
t=

x 27 30
3
=
=
= 4, 4371
s
4
0, 676123
n
35

4.

O nmero de grau de liberdade n 1 = 35 1 = 34

5.

O valor crtico :

P(|t DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


G. L.

0.50

0.20

0.10

0.05

0.04

0.02

0.01

0.005

0.001

31
32
33
34

0.682
0.682
0.682
0.682

1.309
1.309
1.308
1.307

1.696
1.694
1.692
1.691

2.040
2.037
2.035
2.032

2.144
2.141
2.138
2.136

2.453
2.449
2.445
2.441

2.744
2.738
2.733
2.728

3.022
3.015
3.008
3.002

3.633
3.622
3.611
3.601

136

captulo 4

P(|t DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


35
36
120

0.682
0.681
0.677

1.306
1.306
1.289

1.690
1.688
1.658

2.030
2.028
1.980

2.133
2.131
2.076

2.438
2.434
2.358

2.724
2.719
2.617

2.996
2.990
2.860

3.591
3.582
3.373

0.674
0,25

1.282
0,10

1.645
0,05

1.960
0,025

2.054
0,02

2.326
0,01

2.576
0,005

2.807
0,0025

3.290
0,0005

O valor crtico tc = 1,691.


6.

Concluso:

Como o teste unilateral esquerda (pois, H1 contm o sinal <), o valor crtico encontrado levando em conta o nvel de significncia que est na ltima linha da tabela. Por isto
escolhemos a terceira coluna ( = 0,05).
Rejeitamos H0 se t = tc. Como 4,4371 < 1,691, a estatstica de teste est na rea de
rejeio. Portanto, rejeitamos H0, ou seja, os dados amostrais fornecem evidncias suficientes para se concluir que o tempo mdio de ao do novo medicamento inferior ao tempo
mdio de ao do antigo medicamento.
4.3: Um experimento foi conduzido para estudar o nvel mdio de colesterol no sangue. Em
uma amostra aleatria de 50 pacientes, a mdia amostral encontrada foi 268 mg/100 ml.
Estudos anteriores nos informam que o desvio padro populacional = 60 mg/100ml.
Teste a hiptese de que = 260, contra a alternativa de que > 260. Utilize um nvel de 5%.
Resoluo
Neste estudo, temos uma amostra aleatria de 50 pacientes. Conhecemos o desvio padro populacional e o tamanho amostral n > 30. Portanto, os requisitos necessrios para
a realizao do teste de hipteses para a mdia populacional com conhecido esto satisfeitos.

captulo 4

137

Agora, seguiremos os passos necessrios para a realizao do teste:


1.

Hipteses:
= 260
H0 :

H
:

>
260
1

2.

O nvel de significncia = 0,05.

3.

A estatstica de teste :
z=

4.

x 268 260
8
8
=
=
=
= 0, 9428

60
60
8, 485243
7, 0711
n
50

O valor crtico :

O valor crtico zc = 1,645.


5.

Concluso:

138

captulo 4

Como o teste unilateral direita (pois, H1 contm o sinal >) e a rea de z = 0 at o final
da cauda direita 0,5, temos que 0,5 0,05 = 0,45. Devemos encontrar o valor 0,45 (ou
valores prximos a este) no corpo da tabela. Portanto, o valor crtico z = 1,645.
Rejeitamos H0 se z > zc. Como 0,9428 > 1,645, a estatstica de teste no est na rea de
rejeio. Portanto, no rejeitamos H0, ou seja, os dados amostrais no fornecem evidncias
suficientes para se concluir que o nvel mdio de colesterol maior que 260 mg/100 ml.

Neste primeiro momento, apresentamos os procedimentos necessrios


para a realizao de um teste de hipteses para um parmetro populacional (no
caso, a mdia populacional). A seguir, utilizaremos o teste de hipteses para
comparar parmetros de duas populaes. Boa parte da teoria necessria ao desenvolvimento das tcnicas que sero apresentadas j foi discutida no item 4.2.

4.3 Teste de hipteses para duas amostras


A realizao de um teste de hipteses para duas amostras tem por objetivo testar uma afirmao comparando parmetros de duas populaes.
Nas mais diversas reas de atuao profissional e de pesquisa, h uma busca contnua pelo desenvolvimento de novos mtodos ou procedimentos que
superem, ou melhorem, os j existentes. Por exemplo, a eficcia de um novo
medicamento testada por meio de dados amostrais, em que uma amostra utiliza o medicamento padro e outra utiliza o novo medicamento. Por meio de
um teste de hipteses, verificamos a eficcia, ou no, do novo medicamento.
Mas, por que a necessidade de dois conjuntos amostrais e da realizao do teste de hipteses? Se todos os pacientes se comportassem de maneira idntica
em relao ao tratamento utilizado, poderamos examinar poucos deles com
o novo medicamento e o medicamento padro e a deciso seria obtida de maneira rpida e fcil, sem a necessidade de anlise estatstica. Porm, a reao
de um tratamento varia de indivduo para indivduo e, na maioria dos casos,
no h um tratamento timo para todos os pacientes. Ento, para identificar
o tratamento mais eficiente, o estudo feito por meio de uma seleo de duas
amostras e, por meio do teste de hipteses, feita a comparao dos resultados
obtidos. J estudamos, no item 4.1, que, por meio de um teste de hipteses,
tomamos decises em presena da variabilidade.

captulo 4

139

Para a realizao de um teste de hipteses para duas amostras, extramos


uma amostra aleatria de cada uma das populaes, usamos uma estatstica
de teste e estabelecemos uma concluso (mesmo procedimento que utilizamos
no caso de uma nica amostra).
Realizaremos testes para comparao de duas mdias. Sendo 1 e 2 os parmetros populacionais, temos as possveis hipteses nula e alternativa:
H0 : 1 = 2
,

H1 : 1 2

H0 : 1 2
,

H1 : 1 > 2

H0 : 1 2

H1 : 1 < 2

Tambm podemos escrever as hipteses nula e alternativa da seguinte maneira:

H0 : 1 2 = 0
,

H1 : 1 2 0

H0 : 1 2 0
,

H1 : 1 2 > 0

H0 : 1 2 0

H1 : 1 2 < 0

4.3.1 Testes para diferenas entre mdias


Quando utilizamos duas amostras, podemos nos deparar com as seguintes
situaes:
Duas amostras independentes, com desvios padres populacionais desconhecidos e diferentes;
Duas amostras independentes, com desvios padres populacionais desconhecidos e iguais;
Duas amostras independentes, com desvios padres populacionais
conhecidos;
Duas amostras dependentes.
As situaes descritas acima nos informam que 2 amostras podem ser dependentes ou independentes. Qual a diferena entre estas classificaes?
Duas amostras so independentes se os valores amostrais selecionados de
uma populao no esto relacionados com os valores amostrais selecionados
da outra populao. E, duas amostras so dependentes (ou emparelhadas) se os
membros de uma amostra podem ser usados para se determinarem os membros
da outra amostra.

140

captulo 4

Podemos identificar o uso de amostras independentes quando um grupo


de pacientes tratado com determinada droga para reduo de colesterol, enquanto que outro grupo de pacientes tratado com placebo. A independncia
ocorre, pois os pacientes tratados com a droga no esto de forma alguma relacionados com os pacientes tratados com placebo.
No caso de amostras dependentes, por exemplo, o peso de um grupo de pessoas medido antes e aps uma dieta. Cada par de medidas antes/depois se
refere mesma pessoa.
4.3.1.1 Amostras independentes com desvios padres desconhecidos e diferentes
Como j verificamos na resoluo de exemplos anteriores, antes da realizao
de qualquer teste de hipteses, precisamos verificar se algumas condies referentes aos dados esto satisfeitas.
Segundo TRIOLA (2008, p. 372), os requisitos necessrios para a realizao
deste teste so:
1.

1 e 2 so desconhecidos e no se faz qualquer suposio sobre igualdade de 1 e 2.

2.

As duas amostras so independentes.

3.

Ambas as amostras so amostras aleatrias simples.

4.

Uma, ou ambas, das seguintes condies satisfeita: Os dois tamanhos amos-

trais so ambos grandes (com n1 > 30 e n2 > 30) ou ambas as amostras provm de
populaes com distribuies normais (Para amostras pequenas, a exigncia de normalidade relaxada, no sentido de que os procedimentos funcionam bem, desde que
no haja outliers e o afastamento da normalidade no seja extremo).

Seguimos os seguintes passos para a realizao do teste de hipteses:


1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia ().
3. Determinaremos a estatstica de teste:
t=

x1 x 2 (
1
2)
s12 s22
+
n1 n2

captulo 4

141

4. Determinaremos o nmero de graus de liberdade: menor de n1 1 e


n2 1.
5. Determinaremos os valores crticos na Tabela 2 Apndice.
6. Concluso:
Se t estiver na regio de rejeio, rejeitamos H0. Caso contrrio, no rejeitamos H0.
Neste livro, utilizaremos uma estimativa simples e conservadora para o nmero de graus
de liberdade: o menor de n1 1 e n2 1. Os pacotes estatsticos, em geral, utilizam uma
estimativa mais precisa, porm mais difcil de ser calculada, dada por:
2

s12 s22
+
n n
g .l . = 12 2 2
s12
s22


n1 + n2
n1 1 n2 1
Apesar dos dois mtodos resultarem, geralmente, em nmeros diferentes de graus de
liberdade, a concluso do teste raramente afetada pela escolha.

EXEMPLO
4.4: Dois grupos de indivduos participaram de um experimento planejado para testar o efeito da frustrao sobre a agressividade. O grupo experimental de 35 indivduos, escolhidos
aleatoriamente, recebeu um quebra-cabea frustrante para resolver, enquanto o grupo de
controle de 35 indivduos, escolhidos aleatoriamente, recebeu uma verso no frustrante do
mesmo quebra cabea. Mediu-se, ento, o nvel de agressividade para ambos os grupos. Enquanto o grupo experimental (frustrao) acusou um escore mdio de agressividade x1 = 5
e um desvio padro S1 = 2,4, o grupo de controle (no frustrao) teve um escore mdio de
agressividade x2 = 3 e um desvio padro S2 = 1,5 (escores mdios mais altos indicam maior
agressividade). Com esses resultados, teste a hiptese nula de que no h diferena quanto
agressividade entre as condies de frustrao e no frustrao. O que o resultado desse
teste indica? Utilizar = 0,05.
Fonte: Adaptado (LEVIN, 2004, p. 259).

142

captulo 4

Resoluo
Neste estudo, temos duas amostras independentes, que foram selecionadas aleatoriamente. No conhecemos os desvios padres das duas populaes e no h suposies
sobre a igualdade destes desvios. Os tamanhos amostrais so grandes (com n1 > 30 e
n2 > 30). Portanto, os requisitos necessrios para a realizao do teste de hipteses para
amostras independentes com desvios padres desconhecidos e diferentes esto satisfeitos.

GRUPO EXPERIMENTAL

GRUPO DE CONTROLE

x1 = 5

x2 = 3

S = (2,4) = 5,76

S = (1,5)2 = 2,25

n1 = 36

n2 = 35

2
1

2
2

Agora, seguiremos os passos necessrios para a realizao do teste:


1.

Hipteses:
H0 : 1=
2

2
H1 : 1

2.

O nvel de significncia = 0,05.

3.

A estatstica de teste :
t=

x1 x 2 ( 1
2)
s12
n1

4.

s22

n2

530
2
2
=
=
= 4,1807
5, 76 2, 25
0, 228857143 0, 478390
+
35
35

O nmero de graus de liberdade o menor entre n1 e n2. Como os dois tamanhos amos-

trais so iguais, g.l. 35 1 = 34.


5.

Os valores crticos so:

P(|t DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


G. L.
29
30
31

0.50
0.683
0.683
0.682

0.20
1.311
1.310
1.309

0.10
1.699
1.697
1.696

0.05
2.045
2.042
2.040

0.04
2.150
2.147
2.144

0.02
2.462
2.457
2.453

0.01
2.756
2.750
2.744

0.005
3.038
3.030
3.022

captulo 4

0.001
3.660
3.646
3.633

143

P(|t DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


32
33
34
35
36

0.682
0.682
0.682
0.682
0.681

1.309
1.308
1.307
1.306
1.306

1.694
1.692
1.691
1.690
1.688

2.037
2.035
2.032
2.030
2.028

2.141
2.138
2.136
2.133
2.131

2.449
2.445
2.441
2.438
2.434

2.738
2.733
2.728
2.724
2.719

3.015
3.008
3.002
2.996
2.990

3.622
3.611
3.601
3.591
3.582

Os valores crticos so t c = 2, 032 e t c = 2, 032


6.

Concluso:

Como o teste bilateral, rejeitamos H0 se t > tc ou t > tcComo t = 4,1807 , a estatstica


de teste est na rea de rejeio. Portanto, rejeitamos H0, ou seja, os dados amostrais fornecem evidncias suficientes para apoiar a afirmativa de que h diferena quanto agressividade entre as condies de frustrao e no frustrao.
Neste exemplo, consideramos desvios padres desconhecidos e diferentes, que o mais
comum de acontecer. Caso os desvios padres possam ser considerados iguais, o procedimento para a realizao do teste muda. Abordaremos esta situao no prximo item.

4.3.1.2 Amostras independentes com desvios padres desconhecidos e iguais


Quando as varincias populacionais no forem conhecidas, mas for razovel
supor que tenham o mesmo valor, ambas so utilizadas para se estimar 2. A
melhor maneira para combinar essas duas estimativas formar uma mdia
ponderada. O estimador resultante de 2 :
sp2 =

144

captulo 4

( n1 1) s12 + ( n2 1) s22
n1 + n2 2

Este valor chamado estimador combinado de Image, pois combina as informaes de ambas as amostras.
De acordo com TRIOLA (2008, p. 378), os requisitos necessrios para a realizao deste teste so:
1.

Os dois desvios padres populacionais no so conhecidos, mas supe-se que

sejam iguais, isto , 1 = 2.


2.

As duas amostras so independentes.

3.

Ambas as amostras so amostras aleatrias simples.

4.

Uma ou as duas condies seguintes so satisfeitas: Os dois tamanhos amostrais

so ambos grandes (com n1 > 30 e n2 > 30) ou ambas as amostras provm de populaes com distribuies normais (Para pequenas amostras, a exigncia de normalidade
relaxada, no sentido de que os procedimentos funcionam bem, desde que no haja
outliers e os desvios da normalidade no sejam acentuados).

Os passos para a realizao do teste de hiptese so:


1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia ().
3. Determinaremos a estatstica de teste:
t=

x1 x 2 (
1
2 )
sp

1 1
+
n1 n2

4. Determinaremos o nmero de graus de liberdade: n1 + n2 1.


5. Determinaremos os valores crticos na Tabela 2 Apndice.
6. Concluso:
Se t estiver na regio de rejeio, rejeitamos H0. Caso contrrio, no rejeitamos H0.
Para usar este teste, precisamos verificar que os desvios padres das duas
amostras so iguais. Uma maneira usar um teste preliminar de 1 = 2. De
acordo com TRIOLA (2003), alguns autores ressaltam que dificilmente sabemos
que 1 = 2. Eles analisam o desempenho de diferentes testes, considerando

captulo 4

145

tamanhos amostrais e poderes dos testes e concluem que o esforo deve ser
empregado em aprender o mtodo descrito no item 4.3.1.1 (desvios padres
desconhecidos e diferentes).
A menos que algum problema e/ou exerccio j fornea alguma informao
sobre desvios padres desconhecidos e iguais, vamos trat-los como diferentes
e usar o mtodo descrito no item 4.3.1.1.

EXEMPLO
4.5: Um estudo foi conduzido para determinar se a fumaa de cigarro de uma gestante
tem algum efeito no contedo mineral sseo da criana por ela gerada, sob outros aspectos saudveis. Uma amostra aleatria de 77 recm-nascidos cujas mes fumaram durante
a gravidez tem um contedo mineral mdio sseo de x1 = 0,098 g/cm e desvio padro
S1 = 0,026 g/cm; uma amostra aleatria de 161 bebs cujas mes no fumavam tem mdia
x2 = 0,095 g/cm e desvio padro S2 = 0,025 g/cm. Assuma que as varincias das populaes originais sejam iguais. Estabelea as hipteses nula e alternativa para o teste bilateral
e conduza o teste ao nvel de significncia 0,05. O que podemos concluir?
Fonte: PAGANO (2004, p. 250).
Resoluo
Temos duas amostras independentes, que foram selecionadas aleatoriamente. Os tamanhos amostrais so grandes (com n1 > 30 e n2 > 30) e os desvios padres so desconhecidos, mas, supostamente iguais (o enunciado informa que devemos assumir que as varincias
das populaes so iguais). Portanto, os requisitos necessrios para a realizao do teste de
hiptese para amostras independentes com desvios padres desconhecidos e iguais esto
satisfeitos.

AMOSTRAS
Mes que fumaram
durante a gravidez
Mes que no fumaram
durante a gravidez

77

0,098

0,026

161

0,095

0,025

Vamos realizao do teste:


1.

Hipteses:
1 =
H0 :
2

H
2
0 1

146

captulo 4

De acordo com o enunciado, o teste bilateral.


2.

O nvel de significncia = 0,05.

3.

A estatstica de teste :
t=

x1 x 2 (
1
2 )
sp

1 1
+
n1 n2

em que:
sp2 =
=

( n1 1) s12 + ( n2 1) s22 = (77 1)( 0, 026 )2 + (161 1) ( 0, 025)2 = 0, 051376 + 0,10


n1 + n2 2

77 + 161 2

236

0,151376
= 0, 0006414
236

e
sp = 0, 0006414 = 0, 02533
Ento:
t=

x1 x 2 (
1
2 )
sp

1 1
+
n1 n2

0, 003
0, 098 0, 095
0, 003
=
= 0, 8548
=
0, 02533 0,138558 0, 0035096
1
1
0, 02533
+
77 161

4.

O nmero de graus de liberdade n1 + n2 2 = 236 .

5.

Os valores crticos so:

P(|T DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


G. L.
1
2
3
4
5
6
7
8

0.50
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706

0.20
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397

0.10
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860

0.05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306

0.04
15.894
4.849
3.482
2.999
2.757
2.612
2.517
2.449

0.02
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896

0.01
63.656
9.925
5.841
4.604
4.032
3.707
3.499
3.355

0.005
0.001
127.321 636.578
14.089 31.600
7.453
12.924
5.598
8.610
4.773
6.869
4.317
5.959
4.029
5.408
3.833
5.041

captulo 4

147

P(|T DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


110
120

6.

0.677
0.677
0.674
0,25

1.289
1.289
1.282
0,10

1.659
1.658
1.645
0,05

1.982
1.980
1.960
0,025

2.078
2.076
2.054
0,02

2.361
2.358
2.326
0,01

2.621
2.617
2.576
0,005

2.865
2.860
2.807
0,0025

3.381
3.373
3.290
0,0005

Concluso

Como o teste bilateral, rejeitamos H0 se t < tc ou t > tc. Como 0,85 > 1,96, a estatstica
de teste no est na rea de rejeio. Portanto, no rejeitamos H0, ou seja, os dados amostrais no fornecem evidncias suficientes para apoiar a afirmativa de a fumaa de cigarro de
uma gestante tem algum efeito no contedo mineral sseo da criana por ela gerada.

4.3.1.3 Amostras independentes com desvios padres conhecidos


Como dito anteriormente, os desvios padres populacionais 1 e 2 raramente
so conhecidos, mas, se forem, a estatstica de teste baseia-se na distribuio
normal. Como nos casos anteriores, para a realizao do teste, temos que verificar alguns requisitos.
De acordo com TRIOLA (2008, p. 378)
1.

Os dois desvios padres populacionais so ambos conhecidos.

2.

As duas amostras so independentes.

3.

Ambas as amostras so amostras aleatrias simples.

4.

Uma ou as duas condies seguintes so satisfeitas: Os dois tamanhos amostrais

so ambos grandes (com n1 > 30 e n2 > 30) ou ambas as amostras provm de popula

148

captulo 4

es com distribuies normais (Para pequenas amostras, a exigncia de normalidade


relaxada, no sentido de que os procedimentos funcionam bem, desde que no haja
outliers e os desvios da normalidade no sejam acentuados).

Novamente, utilizaremos os seguintes passos para a realizao do teste:


1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia ().
3. Determinaremos a estatstica de teste:
z=

x1 x 2 (
1
2 )
12 22
+
n1 n2

4. Determinaremos os valores crticos na Tabela 1 Apndice.


5. Concluso:
Se z estiver na regio de rejeio, rejeitamos H0. Caso contrrio, no rejeitamos H0.
As situaes descritas para amostras independentes podem ser visualizadas na Figura 4.3.

Figura 4.3 Mtodos para inferncia sobre duas mdias independentes. Fonte: TRIOLA (2003).

captulo 4

149

Agora, estudaremos o caso em que as amostras so dependentes.


4.3.1.4 Amostras dependentes
Neste caso, desejamos comparar duas mdias populacionais sendo que, para
cada unidade amostral, realizamos duas medies da caracterstica de interesse. No geral, estas medies so tomadas antes e aps uma dada interveno.
Voltando ao exemplo j citado sobre o peso de um grupo de pessoas. A medio
feita antes e aps uma dieta e cada par de medidas antes/depois se refere
mesma pessoa.
No caso de amostras dependentes, tambm precisamos verificar alguns requisitos para a realizao do teste.
Segundo TRIOLA (2008, p. 384)
1.

Os dados amostrais consistem em dados emparelhados.

2.

As amostras so amostras aleatrias simples.

3.

Uma, ou ambas, das seguintes condies so satisfeitas: O nmero de pares de

dados grande (n > 30) ou os pares tm diferenas que so provenientes de uma populao com distribuio aproximadamente normal. (Se houver um afastamento radical
de uma distribuio normal, no devemos usar os mtodos deste item, mas devemos
usar mtodos no paramtricos).

Passos para a realizao do teste:


1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia ().
3. Determinaremos a estatstica de teste:
t=

d
d
sd
n

4. Determinaremos o nmero de graus de liberdade: n 1.


5. Determinaremos os valores crticos na Tabela 2 Apndice.
6. Concluso:
Se t estiver na regio de rejeio, rejeitamos H0. Caso contrrio, no rejeitamos H0.

150

captulo 4

Vamos compreender a notao utilizada na estatstica de teste:


d: diferena individual entre os dois valores em um nico par.
d: valor mdio das diferenas d para a populao de todos os pares.
d : valor mdio das diferenas d para dados amostrais emparelhados.
sd: desvio padro das diferenas d para os dados amostrais emparelhados.
n: nmero de pares de dados.

EXEMPLO
4.6: Um estudo foi realizado com o objetivo de investigar a eficcia de uma dieta de emagrecimento. O quadro a seguir apresenta os pesos, em kg, de 10 pessoas selecionadas
aleatoriamente. Os pesos foram registrados antes e aps a dieta. Vamos supor que os dados
so provenientes de uma populao normalmente distribuda. Use um nvel de significncia
de 5% para testar a afirmativa que a dieta de emagrecimento eficaz na reduo do peso.
Antes

77

61

60

80

90

75

85

58

89

67

Depois

80

57

60

74

87

68

90

50

82

63

Resoluo
Temos um estudo com amostras dependentes (ou emparelhadas), pois cada par de medidas antes/depois se refere mesma pessoa.
Avaliando os requisitos necessrios para a realizao do teste, temos: os dados amostrais
so emparelhados, a amostra aleatria simples e proveniente de uma distribuio normal.
Ento, podemos realizar o teste de acordo a avaliao das informaes do enunciado.
Realizando os passos do teste, temos:
1.

Hipteses:
d = 0
H0 :

H
:

d <0
0

2.

O nvel de significncia = 0,05..

3.

A estatstica de teste :
Para encontrar o valor da estatstica, precisamos encontrar o valor mdio das diferenas

e o desvio padro das diferenas. Vamos acrescentar algumas colunas no Quadro 4.5, para
facilitar os clculos.

captulo 4

151

Tabela 4.2 Clculos auxiliares no clculo da mdia e do desvio padro das diferenas.
Ento, a mdia amostral :

d 31 = 3,1
d = i =1 =
n

10

e a varincia amostral :

i =1di2
n

s2 =

( i =1di )2
n

n 1

273

( 31)2

10
10 1

9
273 96,1 176,9
=
= 19, 66
9
9

Portanto, o desvio padro amostral :


=
s

=
19, 66 4, 43

Substituindo os valores encontrados, temos:


t=

152

captulo 4

d
d 3,1 0
3,1
=
=
= 2, 2129
sd
4, 43
14009
,
10
n

4.

O nmero de graus de liberdade (g.l.) n 1 = 10 1 = 9.

5.

O valore crtico :

P(|t DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


G. L.
1
2
3
4
5
6
7
8
9
10
11

0.50
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.674
0,25

0.20
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.282
0,10

0.10
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.645
0,05

0.05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
1.960
0,025

0.04
15.894
4.849
3.482
2.999
2.757
2.612
2.517
2.449
2.398
2.359
2.328
2.054
0,02

0.02
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.326
0,01

0.01
0.005
0.001
63.656 127.321 636.578
9.925
14.089 31.600
5.841
7.453
12.924
4.604
5.598
8.610
4.032
4.773
6.869
3.707
4.317
5.959
3.499
4.029
5.408
3.355
3.833
5.041
3.250
3.690
4.781
3.169
3.581
4.587
3.106
3.497
4.437
2.576
2.807
3.290
0,005
0,0025 0,0005

Tabela 4.3 Valores crticos da distribuio t de Student


6.

Concluso

Como o teste unilateral esquerda (pois, H1 contm o sinal <), o valor crtico encontrado levando em conta o nvel de significncia que est na ltima linha da tabela. Por isto
que escolhemos a terceira coluna ( = 0,05).
Rejeitamos H0 se t < t0. Como 2,2129 < 1,833, a estatstica de teste est na rea de
rejeio. Portanto, rejeitamos H0, ou seja, os dados amostrais fornecem evidncias suficientes para se concluir que a dieta eficaz na reduo do peso.

captulo 4

153

4.4 Utilizao do Microsoft Excel para testes


de duas amostras
Vamos utilizar duas ferramentas disponveis no Excel para a realizao de testes de hiptese para a comparao de duas mdias: Teste T: duas amostras
presumindo varincias diferentes e Teste T: duas amostras em par para mdias. Estas escolhas se devem ao fato delas serem as mais utilizadas na rea
profissional e de pesquisas. A verso utilizada o Excel 2010.
Como mencionado no Captulo 2, o suplemento Ferramenta de Anlise
deve estar ativo. Caso seja necessrio, seguir os procedimentos descritos no
Captulo 2 para ativar este suplemento.

4.4.1 Comparao de duas mdias com desvios padres


desconhecidos e diferentes

EXEMPLO
4.7: Uma empresa de computadores desenvolveu um novo curso que, comparado com o usual, apresenta novas tcnicas para reparar computadores pessoais. Trinta e um estagirios foram selecionados aleatoriamente em dois grupos: 31 deles fizeram o curso usual e os outros
31 frequentaram o novo curso. Aps 8 semanas, todos os estagirios foram submetidos ao
mesmo exame final. De acordo com os resultados apresentados a seguir, h evidncias de
que os dois cursos apresentam resultados diferentes em termos de habilidade nos reparos?
As pontuaes mais altas indicam maior habilidade nos reparos. Use = 0,05.

Resoluo:
Vamos seguir os seguintes passos para a realizao do teste:
1 Passo: Digitar os dados das duas amostras na planilha:

154

captulo 4

Figura 4.4 Valores das pontuaes obtidas pelos estagirios, nos dois tipos de cursos.
2 Passo: Para a anlise do nosso exemplo, clicamos na janela Dados e a seguir em
Anlise de dados. Escolhemos a Ferramenta de Anlise Teste T: duas amostras presumindo varincias diferentes e, em seguida, OK.

Figura 4.5 Escolha da Anlise de dados Teste T: duas amostras presumindo varincias
diferentes.

captulo 4

155

3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo Intervalo
da varivel 1, selecionar os dados arrastando com o mouse desde A2 at A32. No campo
Intervalo da varivel 2, selecionar os dados arrastando com o mouse desde B2 at B32.
Em Hiptese da diferena de mdia, digitamos 0 (a hiptese 1 = 2 pode ser escrita como
1 2 = 0). O nvel de significncia = 0,05. Em Opes de sada, escolher Nova planilha
(as estatsticas calculadas sairo em uma planilha diferente daquela que utilizamos para digitar a entrada dos dados, basta identific-la no rodap) e, por fim, clicar em Ok.

Figura 4.6 Entrada dos dados para a realizao do teste.


4 Passo: Os resultados abaixo foram apresentados em uma nova planilha. Vamos entender as informaes que esto grifadas:
1.

Mdia: mdia de cada amostra.

2.

Varincia: varincia de cada amostra.

3.

Observaes: nmero de observaes em cada amostra

4.

Hiptese da diferena de mdias: 1 2 = 0.

5.

g.l.: graus de liberdade (calculada por meio da frmula descrita no box explicativo).

6.

Stat t: valor da estatstica de teste.

7.

P(T < = t): valor p para o teste bicaudal (bilateral).

8.

t crtico bicaudal: valores crticos para um teste bicaudal (bilateral).

156

captulo 4

Figura 4.7 Resultados obtidos a partir do Teste t duas amostras presumindo varincias
diferentes, para os dados do Exemplo 4.7.

Sabemos que podemos concluir um teste de hipteses utilizando o mtodo do valor P


e o mtodo tradicional. Ao longo do captulo, utilizamos o valor da estatstica de teste e dos
valores crticos para tomar uma deciso sobre rejeitar ou deixar de rejeitar a hiptese nula.
Agora, por meio dos resultados obtidos pelo Excel, tambm podemos concluir pelo valor p.
Como 0,313 > 0,05, deixamos de rejeitar a hiptese nula. Pelo mtodo tradicional, como o
teste bilateral, rejeitamos H0 se t < tc ou t < tc. Como t = 1,02, a estatstica de teste no
est na rea de rejeio, pois 1,02 < 2,00029. Portanto, deixamos de rejeitar H0, ou seja,
os dados amostrais no fornecem evidncias suficientes para apoiar a afirmativa de que os
cursos apresentam resultados diferentes em termos de habilidade nos reparos de computadores pessoais.

4.4.2 Comparao de duas mdias (amostras dependentes)


Para este caso, utilizaremos os dados do Exemplo 4.6.
Vamos seguir os seguintes passos para a realizao do teste:

captulo 4

157

Figura 4.8 Pesos, kg, de 10 pessoas, antes e depois de uma dieta.

2 Passo: Para a anlise do exemplo, clicamos na janela Dados e a seguir em


Anlise de dados. Escolhemos a Ferramenta de Anlise Teste T: duas amostras em par para mdias e, em seguida, OK.

Figura 4.9 Escolha da Anlise de dados Teste T: duas amostras em par para mdias.

158

captulo 4

3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo Intervalo da varivel 1, selecionar os dados arrastando com o mouse desde
A2 at A11. No campo Intervalo da varivel 2, selecionar os dados arrastando
com o mouse desde B2 at B11. Em Hiptese da diferena de mdia, digitamos
0 (a hiptese 1 = 2 pode ser escrita como 1 2 = 0.). O nvel de significncia
= 0,05. Em Opes de sada, escolher Nova planilha (as estatsticas calculadas
sairo em uma planilha diferente daquela que utilizamos para digitar a entrada
dos dados, basta identific-la no rodap) e, por fim, clicar em Ok.

Figura 4.10 Entrada dos dados para a realizao do teste.

4 Passo: Os resultados abaixo foram apresentados em uma nova planilha.


Vamos entender as informaes que esto grifadas:
1.
2.
3.
4.
5.
6.

Observaes: nmero de observaes.


Hiptese da diferena de mdias: 0 = 0.
gl: graus de liberdade.
Stat t: valor da estatstica de teste.
P(T < = t): valor p para o teste unicaudal (unilateral).
t crtico unicaudal: valores crticos para um teste unicaudal (unilateral).

captulo 4

159

Figura 4.11 Resultados obtidos a partir do Teste t duas amostras em par para mdias,
para os dados do Exemplo 4.6.

Nesta anlise, tambm temos a informao do valor p. Como 0,027 < 0,05,
rejeitamos a hiptese nula, mesma concluso que aquela obtida pelo mtodo
descrito ao longo do captulo (-2,2111 < -1,833). Portanto, os dados amostrais
fornecem evidncias suficientes para se concluir que a dieta eficaz na reduo
do peso.
O valor p tambm pode ser obtido atravs da funo TESTE.T. Para explicar
o procedimento, vamos utilizar os dados do Exemplo 4.6. Aps digitar os dois
conjuntos de dados, como na Figura 4.8, seguimos os seguintes passos: na aba
Frmulas, clicar em Mais Funes , Estatstica e escolher TESTE.T. Esta sequncia apresentada na Figura 4.12.

160

captulo 4

Figura 4.12 Escolha da funo estatstica TESTE.T.

Aps clicar em TESTE.T aparecer uma janela em que temos que preencher
os argumentos da funo:
1. Matriz1: o primeiro conjunto de dados, ou seja: A2:A11;
2. Matriz2: o segundo conjunto de dados, ou seja: B2:B11;
3. Caudas: especifica o nmero de caudas da distribuio a ser retornado:
Para distribuio unicaudal, digitamos 1 e para distribuio bicaudal, digitamos 2. No nosso exemplo, o teste unicaudal, portanto, digitamos 1.
4. Tipo: o tipo de teste t. Para testes pareados, digitamos 1. Para testes
com variao igual das duas amostras, digitamos 2 e para variao desigual,
digitamos 3. No nosso exemplo, o teste t para amostras dependentes (ou seja,
pareadas). Ento, digitamos 1.
Aps o preenchimento de todos os argumentos, clicamos em OK e aparecer o valor p. As informaes esto apresentadas na Figura 4.13.

captulo 4

161

Figura 4.13 Probabilidade associada ao teste t de Student.

Observamos que o valor p obtido o mesmo daquele grifado na Figura 4.11.


Como a concluso de um teste pode ser feita pelo mtodo tradicional ou do valor
p, caso a escolha seja pelo valor p, a funo estatstica TESTE.T torna a anlise
mais rpida, sem a necessidade de fazer o procedimento pela Anlise de Dados.

REFLEXO
Ao longo deste captulo, estudamos uma das ferramentas mais importantes da inferncia
estatstica, que so os testes de hipteses. Aprendemos a realizar testes para a mdia populacional, nos casos de uma ou duas amostras.
Com os exemplos apresentados, pudemos observar a grande aplicabilidade dos testes
de hipteses na rea da sade.
Quando queremos fazer comparaes sobre os parmetros de duas populaes, no
basta selecionarmos duas amostras e analisarmos somente as estatsticas amostrais obtidas.
Precisamos testar a afirmativa sobre estes parmetros analisando os dados amostrais, por
meio da realizao de um teste apropriado e, a partir da concluso do teste, teremos evidncias para apoiar ou no a afirmativa sobre os parmetros.
No podemos esquecer que os testes no podem ser utilizados indiscriminadamente. H
requisitos que devem ser verificados! Com um planejamento correto para a obteno dos dados
amostrais, podemos fazer uso de mais uma ferramenta imprescindvel na tomada de decises!

162

captulo 4

LEITURA
Sugerimos que voc assista ao vdeo que est no seguinte endereo: http://m3.ime.unicamp.
br/recursos/1098. Voc aprender algumas tcnicas de planejamento de experimento, bem
como verificar a importncia da formulao correta de uma hiptese na anlise estatstica.

REFERNCIAS BIBLIOGRFICAS
FARIAS, Alfredo A.; SOARES, Jos F.; CSAR, Cibel C. Introduo Estatstica. 2 ed. Rio de Janeiro:
LTC, 2003.
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
LEVIN, Jack; FOX, James A. Estatstica para Cincias Humanas. 9 ed. So Paulo: Prentice Hall,
2004.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MAGALHES, Marcos N. ; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
PAGANO, Marcello.; GAUVREAU, Kimberlee. Princpios de Bioestatstica. So Paulo: Pioneira
Thomson Learning, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
RIFO, Laura L. Ramos; CAMARNEIRO, Fbio; SANTOS, Jos P. de Oliveira.
Disponvel em: < http://m3.ime.unicamp.br/recursos/1098 >. Acesso em: 03 maio 2015.

captulo 4

163

164

captulo 4

5
Correlao e
Regresso Linear
Simples

No Captulo 2, estudamos como podemos descrever os dados provenientes de


uma varivel quantitativa por meio de medidas resumo. Agora, estudaremos
uma tcnica estatstica denominada correlao. Por meio dela, verificamos
se existe relao entre duas variveis quantitativas: uma, chamada varivel Y
(dependente ou resposta), e a outra, chamada varivel X (independente ou explanatria). Direcionaremos nosso estudo no relacionamento linear entre as
variveis X e Y.
Se identificarmos uma relao linear entre as variveis X e Y, podemos determinar a equao da reta que melhor modela os dados. Esta reta chamada
reta de regresso, e sua equao chamada equao de regresso. Com esta
equao, podemos prever o valor da varivel resposta associada com um valor
fixo da varivel explicativa. Para encontrarmos a equao de regresso, utilizaremos a tcnica de regresso linear simples.
Um exemplo do estudo de correlao e regresso linear simples pode ser
feito para verificar a relao entre o comprimento e a idade gestacional de bebs nascidos com at 1500 gramas. Havendo uma relao, podemos encontrar
a equao de regresso e utiliz-la para estimar o comprimento do beb para
determinado valor atribudo idade gestacional.

OBJETIVOS
Com as tcnicas estudadas neste captulo, esperamos que voc seja capaz de:
Construir e interpretar o diagrama de disperso;
Calcular e interpretar o coeficiente de correlao linear;
Compreender os conceitos bsicos da regresso linear simples;
Estimar a equao de regresso e utiliz-la para fazer previses.

166

captulo 5

5.1 Diagrama de disperso


Quando estudamos duas variveis quantitativas, temos interesse em responder
as seguintes questes:
H algum tipo de relao entre as variveis X e Y?
Qual o tipo de relacionamento entre elas?
Qual a intensidade da relao?
Neste tipo de estudo, temos um par de resultados (x, y) para cada elemento
da amostra, ou seja, a anlise dos dados envolve a resposta de duas variveis
para cada elemento da amostra. Antes de conduzirmos qualquer tipo de anlise, devemos construir um grfico denominado diagrama de disperso, com o
objetivo de verificar se existe uma relao entre as variveis X e Y. Neste diagrama, os pares ordenados (x, y) representam pontos em um plano coordenado. A
varivel X representada no eixo das abscissas (horizontal) e a varivel Y no eixo
das ordenadas (vertical).
A Figura 5.1 apresenta alguns tipos de correlao.

Figura 5.1 Diagramas de disperso com alguns tipos de correlao. Fonte: LARSON
(2004, p. 334).

captulo 5

167

Com o auxlio do diagrama de disperso, podemos identificar a forma, a direo e a intensidade da relao particular existente entre duas variveis quantitativas. Na Figura 5.1, identificamo,s nos dois primeiros grficos superiores ,
uma forma bem definida: os dados dispem-se aproximadamente ao longo de
uma linha reta, portanto, verificamos um padro linear. Tambm, identificamos nestes dois grficos, uma direo bem clara: No grfico esquerda, medida que x cresce, y tende a decrescer e, no da direita, medida que x cresce, y
tende a crescer. A intensidade de uma relao determinada por quo prximo
os pontos se aproximam mais de uma reta. Analisando os dois grficos inferiores, verificamos que o da esquerda no mostra qualquer forma, sugerindo que
no h relao entre x e y. O grfico direita mostra uma forma bem distinta,
sugerindo uma relao entre x e y, cuja forma no de uma reta.

5.2 Coeficiente de correlao linear


A anlise do diagrama de disperso nos auxilia na verificao de uma possvel
relao linear entre as variveis X e Y, mas a intensidade da correlao entre as
variveis so determinadas utilizando o coeficiente de correlao linear (r).
O coeficiente de correlao um nmero adimensional, ou seja, no tem
unidade de medida. Os valores mnimo e mximo que o coeficiente pode assumir so, respectivamente, -1 e 1. Quando isto ocorre, dizemos que h uma relao linear perfeita entre as variveis X e Y, ou seja, no diagrama de disperso,
todos os pares (x, y) se encontrariam sobre uma linha reta. Valores prximos de
zero para o coeficiente de correlao linear indicam que x e y no esto linearmente relacionadas, ressaltando que pode haver outro tipo de relacionamento
entre x e y, mas no o linear. Se os valores da varivel y tendem a aumentar conforme os valores da varivel x aumentam, teremos r positivo, e dizemos que x e
y so positivamente correlacionadas. Agora, se os valores da varivel y tendem
a diminuir conforme os valores da varivel x aumentam, teremos r negativo, e
dizemos que x e y so negativamente correlacionadas. O coeficiente de correlao linear no resistente, ou seja, a presena de outliers pode afetar bastante
o valor de r.
O coeficiente de correlao linear de Pearson definido pela seguinte
frmula:

168

captulo 5

r=

( x y ) ( x ) ( y )
n ( x ) ( x ) n ( y ) ( y )
n

i =1 i i

i =1 i

i =1 i

2
i =1 i

i =1 i

2
i =1 i

1 r 1

i =1 i

A correlao no faz distino entre a varivel explicativa e a varivel resposta, ou seja,


no clculo do coeficiente de correlao linear, no importa qual varivel chamada de
x e qual chamada de y. O clculo de r feito com dados amostrais. Se tivssemos
todos os pares de valores populacionais x e y, substituiramos r por (letra grega r).

Podemos calcular o coeficiente de correlao linear para qualquer conjunto


de dados amostrais em pares. Mas, no podemos esquecer que estamos usando
dados amostrais para tomar uma deciso sobre dados populacionais. Ento,
para determinarmos se o coeficiente de correlao populacional significante, precisamos realizar um teste de hiptese.
Para se testar hipteses ou fazer inferncias sobre r, precisamos verificar
alguns requisitos.
Segundo TRIOLA (2008, p . 413)
1.

A amostra de dados emparelhados (x,y) uma amostra aleatria de dados quan-

titativos independentes. ( importante que os dados amostrais no tenham sido coletados com o uso de mtodo no apropriado, por exemplo, amostra de resposta voluntria).
2.

O exame visual do diagrama de disperso deve confirmar que os pontos se apro-

ximam do padro de uma reta.


3.

Quaisquer outliers devem ser removidos caso se saiba que so erros. Os efeitos

de quaisquer outros outliers devem ser considerados pelo clculo de r com e sem o
outlier includo.

Utilizaremos os dados do Exemplo 5.1 para construir o diagrama de disperso e para calcular o coeficiente de correlao linear.

EXEMPLO
5.1: A Tabela 5.1 fornece o peso e a estatura de 10 pessoas adultas, do sexo feminino.

captulo 5

169

ALTURA (X)

PESO (Y)

156

53,5

158

58,4

163

59,4

162

56,4

165

61,2

172

57,5

173

67,3

174

69,7

179

77,2

183

81,6

Tabela 5.1 Peso, em kg, e altura, em cm, de 10 pessoas adultas, do sexo feminino.
Vamos construir o diagrama de disperso e calcular o coeficiente de correlao linear.
Resoluo
Primeiro, vamos construir o diagrama de disperso colocando cada par (x,y) no plano e
depois verificamos, visualmente, o comportamento conjunto das variveis.

Figura 5.2 Diagrama de disperso para os dados sobre a altura e o peso de 10 mulheres
adultas.

170

captulo 5

Analisando o diagrama de disperso, observamos que, medida que a altura aumenta, o


peso tende a aumentar. Portanto, o diagrama nos sugere que as variveis x e y so positivamente correlacionadas. Para medir a intensidade da correlao, vamos calcular o coeficiente
de correlao linear. Para efetuar este clculo, vamos acrescentar trs colunas na tabela
original dos dados, obtendo o seguinte quadro:

ALTURA (X)

PESO (Y)

XY

X2

156

53,5

8.346

24.336

2.862,25

158

58,4

9.227,2

24.964

3.410,56

163

59,4

9.682,2

26.569

3.528,36

162

56,4

9.136,8

26.244

3.180,96

165

61,2

10.098

27.225

3.745,44

172

57,5

9.890

29.584

3.306,25

173

67,3

11.642,9

29.929

4.529,29

174

69,7

12.127,8

30.276

4.858,09

179

77,2

13.818,8

32.041

5.959,84

183

81,6

14.932,8

33.489

6.658,56

= 1.685

= 642, 2

= 108.902, 5 = 284.657

Y2

= 42.039, 6

Para obtermos os valores da coluna (x y), multiplicamos cada par (x , y), ou seja, 156
53,5, 158 58,4 e assim por diante. Os valores x2 so obtidos elevando ao quadrado cada
valor da primeira coluna, ou seja, 156 156 = 24.336; 158 158 = 24,964, e assim por diante. Finalmente, obtemos y2 fazendo cada valor da segunda coluna ao quadrado, isto , 53,5
53,5 = 2.286,25; 58,4 58,4 = 3.410,56, e assim por diante.
Com os totais de cada uma das colunas, temos todos os valores necessrios para substituir na frmula do coeficiente de correlao linear:

captulo 5

171

r=

( x y ) ( x ) ( y )
n ( x ) ( x ) n ( y ) ( y )
n

2
i =1 i

r=

i =1 i i

i =1 i

i =1 i

2
i =1 i

i =1 i

i =1 i

10 (108.902, 5) (1.685) ( 642, 2 )


10 ( 284.657) (1.685) 10 ( 42.039, 6 ) ( 642, 2 )
2

1.089.025 1.082.107
2.846.570 2.839.225 420.396 412.420, 84
6.918
6.918
6.918
r=
=
=
= 0, 9039
7.345 7.975,16 85, 7030 89, 3038 7.653, 60

r=

Como r = 0,9039, conclumos que as variveis peso e altura so fortemente correlacionadas.


Aps o clculo do coeficiente de correlao linear, comum utiliz-lo para fazer inferncias sobre a natureza da relao entre x e y. Quando fazemos isto, precisamos tomar os
seguintes cuidados:
Uma alta correlao no implica necessariamente que haja uma relao de causa e efeito
entre x e y.
Uma baixa correlao no implica, necessariamente, que x e y no estejam correlacionadas. Apenas podemos afirmar que no esto fortemente e linearmente relacionadas. O
diagrama de disperso pode retratar um padro que sugere uma forte relao no linear.
Devemos, tambm, ter o cuidado em interpretar correlaes baseadas em mdias de
valores.
De acordo com TRIOLA (2008, p. 417),

As mdias suprimem a variao individual e podem aumentar o coeficiente de correlao. Um estudo produziu um coeficiente de correlao 0,4 para dados emparelhados
que relacionavam renda e educao entre indivduos, mas o coeficiente de correlao
linear se tornou 0,7 quando foram usadas mdias regionais.

Um exemplo antigo, mas muito interessante, foi dado por um estatstico que mostrou que havia correlao positiva entre o nmero de recm-nascidos e o nmero

172

captulo 5

de cegonhas em uma pequena cidade da Dinamarca, no decorrer dos anos 30. A


correlao entre essas duas variveis espria: no indica relao de causa e efeito.
Existe uma terceira varivel, o crescimento da cidade, que implicava tanto no nmero
de recm-nascidos (quanto maior a cidade, mais crianas nascem) quanto no nmero
de casas com chamins, perto das quais as cegonhas faziam seus ninhos (VIEIRA,
2008, p. 120).

Como j dissemos anteriormente, o coeficiente de correlao obtido por


meio de dados amostrais. Para fazermos inferncias sobre o coeficiente de correlao populacional , realizaremos um teste de hipteses utilizando o coeficiente de correlao amostral.

5.3 Teste de hipteses para correlao


Estudamos, no Captulo 4, que o teste de hipteses um mtodo da inferncia
estatstica, em que utilizamos dados amostrais de uma populao para testar
uma afirmativa sobre uma propriedade desta populao.
Para a realizao de um teste de hipteses para correlao, devemos seguir
os seguintes passos:
1. Estabelecer as hipteses nula e alternativa:
H0 : = 0 ( no h correlao linear significante )

H1 : 0 ( h coorrelao linear significante )

em que o coeficiente de correlao populacional.


2. Determinar a estatstica de teste:
t=

r
1 r 2
n 2

em que n o nmero de pares ordenados e r o coeficiente de correlao


amostral de Pearson.

captulo 5

173

3. Especificar o nvel de significncia. Normalmente, utilizamos = 0,01,


= 0,05 ou = 0,10.
4. Determinar o nmero de graus de liberdade: g.l. = n 2.
5. Concluso:
Se |t| > valores crticos, encontrado na Tabela 2 - Apndice, rejeitamos H0
e conclumos que h uma correlao linear significante.
Se |t| valores crticos, encontrado na Tabela 2 - Apndice, deixamos de
rejeitar H0. Ou seja, no h evidncia suficiente para se concluir que haja uma
correlao linear.

EXEMPLO
5.2: Utilizando os dados do Exemplo 5.1, vamos testar a hiptese de que h uma correlao
entre o peso e a altura de pessoas adultas, do sexo feminino. Considerar = 0,05.
Resoluo
As hipteses so:

H0 : = 0 ( no h correlao linear significante )

H1 : 0 ( h correlao linear significante )

A estatstica de teste :
t=

r
1 r 2
n 2

0, 9039
1 ( 0, 9039 )
10 2

0, 9039
0, 9039
0, 9039
=
= 5, 977
=
0
,
151230284
0, 022870599
1 0, 81703521
8

Como = 0,05 e o nmero de graus de liberdade n 2 = 10 2 =8, os valores


crticos so t = 2,306. O teste bicaudal devido maneira que as hipteses foram estabelecidas (= e ).
9.

P(|T DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


G. L.
1
G. L.
1

174

0.50
1.000
0.50
1.000

0.20
3.078
0.20
3.078

captulo 5

0.10
6.314
0.10
6.314

0.05
12.706
0.05
12.706

0.04
15.894
0.04
15.894

0.02
31.821
0.02
31.821

0.01
63.656
0.01
63.656

0.005
0.001
127.321 636.578
0.005
0.001
127.321 636.578

P(|T DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


2
3
4
5
6
7
8
9
10
11
12
110
120

0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.695
0.677
0.677
0.674
0,25

1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.289
1.289
1.282
0,10

2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.659
1.658
1.645
0,05

4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
1.982
1.980
1.960
0,025

4.849
3.482
2.999
2.757
2.612
2.517
2.449
2.398
2.359
2.328
2.303
2.078
2.076
2.054
0,02

6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.361
2.358
2.326
0,01

9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
2.621
2.617
2.576
0,005

14.089
7.453
5.598
4.773
4.317
4.029
3.833
3.690
3.581
3.497
3.428
2.865
2.860
2.807
0,0025

31.600
12.924
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
3.381
3.373
3.290
0,0005

Tabela 5.2 Valores crticos da distribuio t de Student

De acordo com a estatstica de teste e os valores crticos, temos que 5,977 > 2,306.
Portanto, rejeitamos H0, ou seja, h uma correlao linear significante entre o peso e a altura
das mulheres.
Quando determinamos, por meio do teste de hipteses, que a correlao linear significante, podemos encontrar a reta que melhor descreve os dados observados. Esta reta
obtida por meio da equao de regresso, que utilizada para prever o valor da varivel y para
determinado valor da varivel x.

Aprenderemos, a seguir, como encontrar e equao de regresso.

5.4 Regresso linear simples


De acordo com Moore et al. (2006, p.95)
Uma reta de regresso uma linha reta que descreve como uma varivel de resposta y
muda medida que uma varivel explicativa x tambm varia. Frequentemente utilizamos
uma reta de regresso para predizer o valor de y a partir de um determinado valor de x.

captulo 5

175

Para obtermos a reta de regresso, precisamos da equao de regresso.


Esta equao estimada utilizando a tcnica de regresso linear simples. A
equao de regresso expressa a relao entre a varivel independente (x) e a
varivel dependente ( y ). Voltando ao nosso exemplo do incio do captulo, a
idade gestacional do beb a varivel independente e, a partir de determinado
valor atribudo a ela, podemos prever o comprimento do beb (que varivel
dependente) utilizando a equao de regresso.
A regresso linear simples envolve uma varivel independente e uma varivel dependente. A anlise de regresso envolvendo duas ou mais variveis independentes chamada de anlise de regresso mltipla.

Antes de comearmos o estudo para encontrar a equao de regresso, vamos relembrar qual a equao de uma reta.
A equao tpica de uma reta y = mx + b, em que m o coeficiente angular e
b o intercepto. O coeficiente angular informa a inclinao da reta em relao
ao eixo das abscissas (x).
Se m for um nmero:
positivo, a reta crescente;
negativo, a reta decrescente;
zero, a reta paralela ao eixo das abscissas.
O coeficiente linear a ordenada do ponto em que a reta corta o eixo das
ordenadas (y).
Em Estatstica, a equao de regresso expressa na forma:
y = b0 + b1x

Os coeficientes b0 e b1 so estatsticas amostrais usadas para estimarem os


parmetros populacionais 0 e 1. Portanto, utilizaremos dados amostrais em
pares para estimar a equao de regresso. A notao y (y chapu) serve para
distinguir entre um valor observado y e o valor correspondente y , que encontrado utilizando a reta de regresso.

176

captulo 5

Utilizaremos as seguintes frmulas para encontrar os coeficientes b0 e b1,


respectivamente:
b1 =

) ( x ) ( y )
n ( x ) ( x )

x
i =1 i

yi
n

2
i =1 i

i =1 i

i =1 i

i =1 i

e b0 = y b1 x
Podemos observar que o numerador do clculo do estimador b1 exatamente o numerador do coeficiente de correlao linear e o denominador o valor obtido dentro da
primeira raiz do denominador do coeficiente de correlao linear.

Vamos lembrar que:

xi
x = i =1

( mdia da varivel x )

yi
y = i =1

( mdia da varivel y )

n
n

Analisando a frmula para calcular b0, observamos que este coeficiente s pode ser
encontrado aps o clculo de b1.

CONEXO
A reta de regresso a que melhor se ajusta aos dados amostrais. O critrio especfico usado para se determinar qual reta se ajusta melhor a propriedade dos mnimos quadrados.
Uma leitura interessante sobre a propriedade dos mnimos quadrados pode ser encontrada
em TRIOLA (2008, p. 435).

Uma observao importante: diferentemente do clculo do coeficiente de correlao linear r, a distino entre a varivel independente e a varivel dependente essencial. Se
invertermos os papis das duas variveis, obteremos uma reta de regresso diferente.

captulo 5

177

5.3: Vamos utilizar os dados do Exemplo 5.1 para encontrar a equao de regresso.
Resoluo
Precisaremos das informaes contidas no Quadro 5.1.

ALTURA (X)

PESO (Y)

XY

X2

Y2

156

53,5

8.346

24.336

2.862,25

158

58,4

9.227,2

24.964

3.410,56

163

59,4

9.682,2

26.569

3.528,36

162

56,4

9.136,8

26.244

3.180,96

165

61,2

10.098

27.225

3.745,44

172

57,5

9.890

29.584

3.306,25

173

67,3

11.642,9

29.929

4.529,29

174

69,7

12.127,8

30.276

4.858,09

179

77,2

13.818,8

32.041

5.959,84

183

81,6

14.932,8

33.489

6.658,56

= 1.685

= 642, 2

= 108.902, 5 = 284.657

Os valores de b1 e b0 so, respectivamente,


b1 =

b1 =

) ( x ) ( y )
n ( x ) ( x )

x
i =1 i

yi
n

2
i =1 i

i =1 i

i =1 i

i =1 i

10 (108.902, 5) (1.685) ( 642, 2 )


10 ( 284.657) (1.685)

6.918
= 0, 941865
7.345
b0 = y b1 x
b1 =

b0 = 64, 22 0, 941865 (168, 5)


b0 = 64, 22 158, 704253 = 94, 4843

178

captulo 5

= 42.039, 6

xi
x = i =1
n

pois,

1685
=
= 168, 5 e y =
10

i =1y i
n

642, 2
= 64, 22
10

Portanto, a equao de regresso :


y = 94, 4843 + 0, 9419 x

Agora que j conhecemos a equao de regresso, a pergunta que surge : como podemos interpret-la?
Segundo TRIOLA (2008, p. 434)

Ao se trabalhar com duas variveis relacionadas por uma equao de regresso, a mudana marginal em uma varivel a quantidade que ela varia quando a outra varivel
varia de exatamente uma unidade. A inclinao b1 na equao de regresso representa
a mudana marginal em y quando x varia de uma unidade.

Ento, para os dados da Tabela 5.1, referentes ao peso e altura das 10 mulheres, a
equao de regresso tem uma inclinao 0,9419, que mostra que, se aumentarmos x (altura) em 1 unidade, o peso aumenta em 0,9419 unidades, aproximadamente. Esta interpretao fica fcil de ser verificada se substituirmos valores para x. Por exemplo, se x =
155,

e, se x = 156,
y = 94, 4843 + 0, 9419 (155 ) = 94, 4843 + 155, 9945 = 515102
,

y = 94, 4843 + 0, 9419 (156 ) = 94, 4843 + 146, 9364 = 52, 4521. A diferena entre os valores de y encontrados, y = 94, 4843 + 0, 9419 x = 94, 4843 + 0, 9419 (171) = 66, 58 kg ,
exatamente o valor de b1, ou seja, para cada acrscimo de 1 unidade em x, y cresce de
0,9419 unidades.
A Figura 5.3 apresenta, no diagrama de disperso, a reta de regresso.

Figura 5.3 Reta de regresso: peso (kg) em funo da altura (cm).

captulo 5

179

Estudaremos, mais adiante, o que significa a informao R2 = 0,817.


Podemos utilizar a equao de regresso para prever valores de Y para quaisquer valores de X dentro do intervalo estudado, mesmo que tais valores no estejam na amostra. Por
exemplo, para x = 171 (valor que no est na Tabela 5.1), podemos estimar o valor de Y.
Basta substituir este valor na equao da reta, ou seja:
y = 94, 4843 + 0, 9419 x = 94, 4843 + 0, 9419 (171) = 66, 58 kg

Interpretamos o valor y = 66, 58 kg como uma previso para o peso, quando a altura da
mulher adulta for 171 cm.
Se atribuirmos varivel x um valor observado no conjunto de dados, por exemplo, x =
165, vamos encontrar o seguinte valor previsto para y:
y = 94, 4843 + 0, 9419 x = 94, 4843 + 0, 9419 (165 ) = 60, 93 kg

Analisando a Tabela 5.1, observamos que para a altura x = 165 cm, o peso correspondente y = 61,2 kg. Esta diferena entre o valor amostral observado e o valor previsto pela
equao de regresso denominada resduo. Ento, temos a seguinte definio:

resduo = y observado y previsto = y y

Um grfico de resduos outro instrumento til para a anlise dos resultados da correlao e regresso e para a verificao dos requisitos necessrios para se fazerem inferncias sobre correlao e regresso. Este grfico construdo usando o mesmo eixo
x do diagrama de disperso, mas no eixo y (vertical) utilizamos os valores dos resduos.
Se o grfico de resduos no revelar qualquer padro, a equao de regresso uma
boa representao da associao entre as duas variveis.

A equao de regresso deve ser utilizada para fazer previses apenas se ela for um bom
modelo para os dados, ou seja, se for verificado por meio de um teste de hipteses que a
relao entre as duas variveis significante. Caso a relao no seja significante, o melhor
valor previsto de y y .
Devemos tomar o cuidado de no fazer extrapolaes, ou seja, utilizar a equao de regresso para fazer previses para a varivel Y utilizando valores para X muito distantes dos
limites dos dados amostrais disponveis.

180

captulo 5

De acordo com Anderson et al. (2003, p. 447), usar a equao de regresso estimada
fora do intervalo dos valores da varivel independente deve ser feito com cuidado porque fora deste intervalo ns no podemos assegurar que a mesma relao seja vlida.

Agora que j aprendemos a utilizar as tcnicas de correlao e regresso linear simples,


vamos listar alguns conceitos importantes que foram estudadas e que no podemos esquecer:
1.

O diagrama de disperso nos d uma ideia da relao, ou no, entre duas variveis

quantitativas.
2.

O coeficiente de correlao linear de Pearson mede a intensidade da relao linear, ou

seja, s tem sentido calcul-lo se o diagrama de disperso indicar uma relao linear.
3.

Correlao no indica causa. Uma forte relao entre duas variveis no suficiente

para que se tirem concluses de causa e efeito.


4.

Caso haja relao entre duas variveis quantitativas, podemos descrev-la atravs da

equao de regresso que melhor representa a relao.


5.

Devemos usar a equao de regresso para previses somente se houver uma corre-

lao linear, confirmada pelo teste de hipteses. Caso contrrio, a melhor estimativa para a
varivel y sua mdia amostral y .

5.5 Coeficiente de determinao


Em geral, h uma variao em torno da reta de regresso, ou seja, nem todos os
pontos ficam sobre a reta (pode acontecer de nenhum estar exatamente sobre a
reta). Para medir a preciso da reta de regresso ajustada, isto , a proporo da
variao de Y que explicada pela reta de regresso (variao de X), utilizamos
o coeficiente de determinao. O coeficiente de determinao, R2, dado pelo
quadrado do coeficiente de correlao. Este coeficiente particularmente importante se vamos usar a equao de regresso para fazer previses. Nesse caso,
queremos um R2 to prximo de 1 quanto possvel.
Para os dados do Exemplo 5.1, o coeficiente de determinao :
R 2 = ( 0, 9039 ) = 0, 8170
2

captulo 5

181

Isto significa que 81,70% da variao do peso das mulheres se explica pela
variao da altura. Este valor aparece na Figura 5.3.
Com a definio do coeficiente de determinao, podemos perceber que, se
o coeficiente de correlao for r = 0,7, teremos um coeficiente de determinao r2 = 0,49, significando que a reta de regresso ajustada no consegue explicar nem a metade da variao de y. Por isso, para 0,7 x 0,7, no se deve, em
geral, ajustar a reta de regresso. Para |r| = 0,9, a reta de regresso explica mais
de 80% da variao total de y.
Vamos estudar mais um exemplo para exercitar todos os contedos abordados ao longo do captulo.

EXEMPLO
5.4: Muitos acidentes de carro so causados por motoristas cansados. Vrios estudos de
pesquisa mostram que mudanas nas pupilas dos olhos esto relacionadas com a fadiga.
Obteve-se uma amostra aleatria de 25 motoristas, e mediram-se as oscilaes no tamanho
da pupila (x, em milmetros por segundo) usando-se um pupilgrafo. O cansao de cada
pessoa (y) tambm foi registrado, usando-se o ndice de pupila sem descanso (IPSD). As
estatsticas resumo so:

x i = 7,1 ; y i = 192 ; x i y i = 49, 22 ; x i2 = 2,1064 ; y i2 = 2.094


Fonte: KOKOSKA (2013, p. 509).
De acordo com as estatsticas resumo:
a)

Calcule o coeficiente de correlao linear.

b)

Teste a hiptese de que h correlao linear significante, com um nvel de significncia 0,05.

c)

Encontre a equao de regresso por mnimos quadrados.

d)

Faa a previso para o IPSD, considerando x = 0,3 milmetro por segundo.

e)

Calcule o coeficiente de determinao e interprete.


Resoluo

a)

Neste exerccio, j temos as informaes necessrias para substituirmos na frmula do

coeficiente de correlao linear:

182

captulo 5

r=

( x y ) ( x ) ( y )
n ( x ) ( x ) n ( y ) ( y )
n

i =1 i i

i =1 i

i =1 i

r=

2
i =1 i

i =1 i

2
i =1 i

i =1 i

25 ( 49, 22 ) ( 7,1) (192 )


25 ( 2,1064 ) ( 7,1) 25 ( 2.094 ) (192 )
2

1.230, 5 1363, 2
52, 66 50, 41 52.350 36.864
132, 7
132, 7
132, 7
r=
=
=
= 0, 7109
, 124, 44 186, 66
2, 25 15.486 15

r=

Como o coeficiente de correlao -0,7109, conclumos que as variveis oscilao no


tamanho da pupila e IPSD so negativamente correlacionadas.
b)

Estabelecendo as hipteses:

H0 : = 0 ( no h correlao linear significante )

H1 : 0 ( h correlao linear significante )


A estatstica de teste :
t=

1 r 2
n 2

0, 7109
1 ( 0, 7109 )
25 2

0, 7109
0, 7109
0, 7109
=
= 4, 848
=
0
,1466467
0, 021505269
1 0, 50537881
23

Como = 0,05 e o nmero de graus de liberdade n 2 = 25 2 = 23, os valores


crticos so t = 2,069. Novamente, o teste bicaudal devido maneira que as hipteses
foram estabelecidas (= e ).
Tabela - Valores crticos da distribuio t de Student

P(|T DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


G. L.
20
21
22
23
24
25
26

0.50
0.687
0.686
0.686
0.685
0.685
0.684
0.684

0.20
1.325
1.323
1.321
1.319
1.318
1.316
1.315

0.10
1.725
1.721
1.717
1.714
1.711
1.708
1.706

0.05
2.086
2.080
2.074
2.069
2.064
2.060
2.056

0.04
2.197
2.189
2.183
2.177
2.172
2.167
2.162

0.02
2.528
2.518
2.508
2.500
2.492
2.485
2.479

0.01
2.845
2.831
2.819
2.807
2.797
2.787
2.779

0.005
3.153
3.135
3.119
3.104
3.091
3.078
3.067

0.001
3.850
3.819
3.792
3.768
3.745
3.725
3.707

Tabela 5.3 Valores crticos da distribuio t de Student

captulo 5

183

De acordo com a estatstica de teste e os valores crticos, temos que | 4,848| >
2,069. Portanto, rejeitamos H0, ou seja, h uma correlao linear significante entre a oscilao no tamanho da pupila e IPSD.

Quando a correlao linear significante, podemos encontrar a reta de regresso, que


melhor descreve os dados em estudo.
c)

Para encontrar a equao de regresso, precisamos encontrar os valores estimados

dos parmetros.
Os valores de b1 e b0 so, respectivamente,
b1 =

b1 =

) ( x ) ( y )
n ( x ) ( x )

x
i =1 i

yi

i =1 i

2
i =1 i

i =1 i

i =1 i

25 ( 49, 22 ) ( 7,1) (192 )


25 ( 2,1064 ) ( 7,1)

132, 7
= 58, 9778
2, 25
b0 = y b1 x
b1 =

b0 = 7, 68 ( 58, 9778 ) ( 0, 284 )


b0 = 7, 68 + 16, 7497 = 24, 4297

i =1x i
n

x =

pois,

7,1
= 0, 284 e y =
25

i =1y i
n

192
= 7, 68 .
25

Portanto, a equao de regresso :


y = 24, 4297 58, 9778 x

d)

Para encontrar o valor previsto do IPSD, basta substituirmos x = 0,3 na equao de

regresso:

184

captulo 5

y = 24, 4297 58, 9778 ( 0, 3)


y = 24, 4297 17, 69334 = 6, 7364

e)

O coeficiente de determinao dado pelo quadrado do coeficiente de correlao, ou

seja:
R 2 = ( 0, 7109 ) = 0, 5054
2

Isto significa que 50,54% da variao do IPSD se explica pela oscilao no tamanho da pupila.

5.6 Utilizao do Microsoft Excel na anlise


de regresso e correlao
Podemos utilizar o Excel para construir o diagrama de disperso, obter o coeficiente de correlao linear de Pearson e o coeficiente de determinao e determinar a equao de regresso. Para aprendermos o processo, vamos utilizar os
dados do Exemplo 5.1. Utilizaremos a verso Excel 2010.
Para fazer as anlises, seguiremos os seguintes passos:
1 Passo: Vamos digitar os pares ordenados das variveis X e Y em uma planilha do Excel.

Figura 5.4 Valores da altura e peso de pessoas adultas, do sexo feminino

captulo 5

185

2 Passo: Neste passo, selecionamos os dados (podemos selecionar com os


ttulos das colunas). Aps a seleo, clicar na aba Inserir e depois selecionar o
tipo de grfico a ser elaborado. Vamos escolher a primeira opo para o grfico
de Disperso. Clicar sobre a figura.

Figura 5.5 Seleo dos dados e escolha do grfico Disperso.

3 Passo: Aps clicar na primeira opo do grfico Disperso, o grfico


construdo est apresentado na Figura 5.6.

Figura 5.6 Diagrama de disperso.

4 Passo: Nesta etapa, vamos formatar o grfico: deletar a legenda, o ttulo


e as linhas de grade e vamos colocar nome nos eixos. Para deletar, basta clicarmos sobre a legenda e o ttulo e usar o boto direito do mouse ou o prprio

186

captulo 5

teclado do computador para excluir. Para as linhas de grade, basta clicar sobre
qualquer uma delas e utilizar o boto direito do mouse para excluir.

Figura 5.7 Diagrama de disperso (sem a legenda e sem o ttulo).

5 Passo: Agora, vamos colocar nome nos eixos: clicamos sobre o grfico e
aparecer Ferramentas de Grfico com algumas opes de escolha. Clicar em
Layout e logo em seguida Ttulos dos Eixos. Utilizamos as duas opes: uma
para colocar ttulo no eixo horizontal e a outra para colocar o ttulo no eixo vertical. A Figura 5.8 ilustra a escolha para o Ttulo do Eixo Horizontal Principal,
com a opo Ttulo Abaixo do Eixo. Aps a insero do ttulo horizontal, seguimos o mesmo procedimento para o eixo vertical.

Figura 5.8 Procedimentos para inserir ttulos nos eixos.

captulo 5

187

6 Passo: A Figura 5.9 apresenta o diagrama de disperso finalizado.

Figura 5.9 Diagrama de disperso da altura e peso de pessoas adultas, do sexo feminino.

Agora, vamos obter o coeficiente de correlao linear de Pearson.


1 Passo: Vamos digitar os pares ordenados das variveis X e Y em uma planilha do Excel.

Figura 5.10 Valores da altura e peso de pessoas adultas, do sexo feminino.

188

captulo 5

2 Passo: Para obtermos o coeficiente de correlao, clicamos na aba


Frmulas e, em seguida, clicamos em Mais Funes. Selecionando a primeira
opo, Estatstica, aparecer uma lista de funes. Escolher a opo CORREL.

Figura 5.11 Escolha da funo CORREL para obteno do coeficiente de correlao.

3 Passo: Aps a escolha da funo CORREL, aparecer uma janela


Argumentos da funo. No campo Matriz 1, selecionamos os dados da varivel
altura (sem o ttulo) que esto na planilha e, no campo Matriz 2, selecionamos
os dados da varivel peso (sem o ttulo) que esto na planilha. Para selecionar os
dados, basta clicar no primeiro valor e arrastar (com o mouse) at o ltimo valor.

Figura 5.12 Preenchimento dos argumentos da funo.

captulo 5

189

4 Passo: Agora, clicamos em OK e obtemos o coeficiente de correlao.

Figura 5.13 Coeficiente de correlao linear.

O coeficiente de correlao r = 0,9038887. J sabamos que seria positivo,


pois o diagrama de disperso indica uma relao linear positiva (crescente) entre as variveis em estudo. Por definio, o coeficiente de determinao dado
pelo quadrado do coeficiente de correlao. Portanto:
R2 = ( 0, 9038887 ) = 0, 8170
2

Isto significa que 81,70% da variao do peso se explica pela variao na altura das pessoas adultas, do sexo feminino.
E, para finalizar, vamos obter a equao de regresso.
1 Passo: Vamos digitar os pares ordenados das variveis X e Y em uma planilha do Excel.

190

captulo 5

Figura 5.14 Valores da altura e peso de pessoas adultas, do sexo feminino.

2 Passo: As medidas apresentadas neste captulo podem ser obtidas utilizando o Excel. Para isto, o suplemento Anlise de Dados deve estar ativo. Caso
ele esteja ativo, deve aparecer o cone Anlise de Dados aps clicar na janela
Dados.
muito comum este suplemento no aparecer ativo. Caso isto acontea, devemos seguir o seguinte procedimento:
Clicar no Boto Office e em seguida Opo do Excel. Escolher Suplementos
e clicar;
Escolher na lista Suplementos de Aplicativos Inativos a opo Ferramenta
de Anlise e clicar em Ir...
Selecionar o seguinte suplemento disponvel: Ferramenta de anlise e clicar em OK.
Com o suplemento ativo, podemos fazer vrias anlises estatsticas!

captulo 5

191

Para a anlise do nosso exemplo, clicamos na janela Dados e a seguir em


Anlise de dados. Escolhemos a Ferramenta de Anlise Regresso e clicamos
em OK.

Figura 5.15 Escolha da Anlise de dados Regresso.

3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo Intervalo Y de entrada, selecionar os dados arrastando com o mouse desde
B2 at B11. No campo Intervalo X de entrada, selecionar os dados arrastando
com o mouse desde A2 at A11. Devemos ficar atentos para selecionar corretamente os valores de Y e X! Em Opes de sada, escolher Nova planilha (as estatsticas calculadas sairo em uma planilha diferente daquela que utilizamos
para digitar a entrada dos dados, basta identific-la no rodap) e, por fim, clicar
em Ok.

Figura 5.16 Entrada dos dados para anlise de regresso.

192

captulo 5

4 Passo: Os resultados abaixo foram apresentados em uma nova planilha.


Vamos entender as informaes que esto grifadas:
1.
2.
3.
4.
5.

R mltiplo: o coeficiente de correlao.


R Quadrado: o coeficiente de determinao.
Interseco: o coeficiente b0.
Varivel X1: o coeficiente b1.
Observaes: nmero de pares ordenados (x,y).

Figura 5.17 Resumo dos resultados.

Utilizando os coeficientes obtidos, temos que a equao de regresso :


y = b0 + b1x
y = 94, 4843 + 0, 9419 x

Agora que j sabemos qual a equao de regresso, temos a opo de traar a reta e mostrar a equao e o coeficiente de determinao no diagrama
de disperso. Para isto, quando estamos construindo o grfico, clicamos sobre
qualquer um dos pontos. Aparecer:

captulo 5

193

Figura 5.18 Adicionar linha de tendncia no diagrama de disperso.

Quando clicarmos em Adicionar Linha de Tendncia aparecer a janela


Formatar Linha de Tendncia. Nela, escolhemos a opo Linear, Exibir Equao
no grfico e Exibir valor de R-quadrado no grfico.

Figura 5.19 Formatao da linha de tendncia.

Finalmente, quando clicamos em fechar, aparecer, no diagrama de disperso, a reta ajustada, a equao da reta e o coeficiente de determinao.
Podemos deslocar, com o mouse, as informaes da reta e do coeficiente, colocando-os em uma posio mais conveniente no diagrama. Basta clicar em cima
das informaes e arrastar.

194

captulo 5

Figura 5.20 Reta de regresso: peso (kg) em funo da altura (cm).

REFLEXO
Chegamos ao final deste captulo. Nele, exploramos as tcnicas de correlao e regresso
linear simples. Com larga aplicao, o contedo apresentado nos permite obter, por exemplo, funes matemticas relacionando o preo com a demanda, a nmero de anos que um
paciente fumou e a capacidade pulmonar, nveis de colesterol e triglicerdeos antes de uma
dieta, peso da me e do beb ao nascer, taxa de mortalidade infantil e expectativa de vida
em uma amostra de pases, entre tantas outras aplicaes. Aprendemos que, quando temos
informaes, em pares, de duas variveis quantitativas, podemos estudar mais profundamente um possvel relacionamento entre essas variveis, em particular, o relacionamento linear.
Havendo um relacionamento linear, estimamos os coeficientes da equao de regresso
pelo mtodo de mnimos quadrados. Um dos maiores interesses conseguir fazer previses
da varivel dependente a partir, valores atribudos para a varivel independente. Mas, sabemos que para fazermos previses, precisamos testar a adequabilidade de modelo! Alm
disto, temos que, tomar cuidado em no fazer extrapolaes, pois no podemos garantir que
a mesma relao seja vlida para valores da varivel independente muito distantes daqueles
utilizados para encontrar a equao de regresso.
Com o uso cuidadoso destas tcnicas, obtemos informaes estatsticas importantes no
auxlio tomada de decises, em vrias reas do conhecimento.

captulo 5

195

LEITURA
Um vdeo muito interessante, que aborda o conceito de correlao e correlaes esprias,
encontrado no endereo http://m3.ime.unicamp.br/recursos/1084. Vale a pena assistir!

REFERNCIAS BIBLIOGRFICAS
ARANGO, Hctor G. Bioestatstica Terica e Computacional. Rio de Janeiro: Editora Guanabara
Koogan S.A., 2001.
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
KOKOSKA, Stephen. Introduo Estatstica Uma Abordagem por Resoluo de Problemas.
Rio de Janeiro: LTC, 2013.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MOORE, David S.; McCABE, George P.; DUCKWORTH, William M.; SCLOVE, Stanley L. A Prtica da
Estatstica Empresarial Como Usar Dados para Tomar Decises. Rio de Janeiro: LTC, 2006.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
RIFO, Laura R. Ramos; ANNUNCIATO, Angela; SANTOS, Jos P. de Oliveira. Disponvel em: < http://
m3.ime.unicamp.br/recursos/1084 >. Acesso em: 03 maio 2015.

196

captulo 5

ANOTAES

captulo 5

197

ANOTAES

198

captulo 5

ANOTAES

captulo 5

199

ANOTAES

200

captulo 5

Vous aimerez peut-être aussi