Académique Documents
Professionnel Documents
Culture Documents
BSICA
autor
1 edio
SESES
rio de janeiro 2015
isbn: 978-85-5548-129-1
Sumrio
1. Conceitos Iniciais e Apresentao dos Dados por
meio de Distribuies de Frequncias e Grficos 7
Objetivos 8
1.1 Definio de Estatstica
9
1.2 Conceitos bsicos da Estatstica
10
1.3 Coleta de dados
16
1.3.1 Tcnicas de amostragem
17
1.3.1.1 Tcnicas de amostragem probabilstica (ou aleatria)
18
1.3.1.1.1 Amostragem aleatria simples
18
1.3.1.1.2 Amostragem estratificada
19
1.3.1.1.3 Amostragem sistemtica
20
1.3.1.1.4 Amostragem por conglomerado
21
1.3.1.2 Tcnicas de amostragem no probabilstica (ou no aleatria) 22
1.3.1.2.1 Amostragem por convenincia
22
1.3.1.2.2 Amostragem por quota
23
1.4 Distribuio de frequncias
25
1.5Grficos
32
1.5.1 Tipos de grficos
33
1.5.1.1 Grfico de linhas
33
1.5.1.2 Grfico de barras
35
1.5.1.3 Grfico de setores
37
1.5.1.4Histograma
38
1.5.1.5 Polgono de frequncias
39
1.5.1.6 Diagrama de Pareto
39
1.5.1.7 Diagrama de disperso
41
1.6 Utilizao do Microsoft Excel na Construo de Grficos
43
Reflexo 46
Referncias bibliogrficas
47
2. Medidas Resumo
49
Objetivos 50
2.1 Medidas de tendncia central
51
2.1.1 Mdia aritmtica
51
2.1.1.1 Propriedades da mdia
54
2.1.2Moda
54
2.1.3Mediana
55
2.1.4 Clculos das medidas de tendncia central para dados
agrupados em intervalos de classes
59
2.2 Medidas de disperso
63
2.2.1 Mnimo, mximo e amplitude
64
2.2.2 Desvio mdio, varincia e desvio padro amostrais
65
2.2.2.1 Uma regra prtica para interpretar o desvio-padro
67
2.2.2.2 Propriedades do desvio padro
68
2.2.3 Coeficiente de variao
72
2.2.4 Clculos da varincia e do desvio padro para dados
agrupados em intervalos de classes
73
2.3 Medidas separatrizes ou de ordenamento
75
2.3.1Quartis
75
2.3.2 Decis e Percentis
77
2.3.3 Clculo das medidas separatrizes para dados
agrupados em intervalos de classes
78
2.4 Medidas de assimetria e curtose
86
2.5 Utilizao do Microsoft Excel na Anlise de Dados
92
Reflexo 95
Referncias bibliogrficas
95
97
Objetivos 98
3.1 Varivel aleatria
99
3.2 Distribuio Normal
99
3.3 Utilizao do Microsoft Excel no clculo de probabilidades normais 118
Reflexo 124
Referncias bibliogrficas
125
4. Teste de Hipteses
127
Objetivos 128
4.1 Fundamentos do teste de hipteses
129
4.2 Teste de hipteses para a mdia populacional
131
4.2.1 Tipos de erros, nvel de significncia e estatstica de teste
131
4.2.2 Deciso e interpretao
135
4.3 Teste de hipteses para duas amostras
139
4.3.1 Testes para diferenas entre mdias
140
4.3.1.1 Amostras independentes com desvios
padres desconhecidos e diferentes
141
4.3.1.2 Amostras independentes com desvios
padres desconhecidos e iguais
144
4.3.1.3 Amostras independentes com desvios padres conhecidos 148
4.3.1.4 Amostras dependentes
150
4.4 Utilizao do Microsoft Excel para testes de duas amostras
154
4.4.1 Comparao de duas mdias com desvios padres
desconhecidos e diferentes
154
4.4.2 Comparao de duas mdias (amostras dependentes)
157
Reflexo 162
Referncias bibliogrficas
163
165
Objetivos 166
5.1 Diagrama de disperso
167
5.2 Coeficiente de correlao linear
168
5.3 Teste de hipteses para correlao
173
5.4 Regresso linear simples
175
5.5 Coeficiente de determinao
181
5.6 Utilizao do Microsoft Excel na anlise de regresso e correlao 185
Reflexo 195
Referncias bibliogrficas
196
1
Conceitos Iniciais e
Apresentao dos
Dados por meio
de Distribuies
de Frequncias e
Grficos
OBJETIVOS
Aps o estudo dos conceitos e tcnicas que sero apresentados, esperamos que voc consiga:
Descrever a populao e a amostra em um estudo;
Identificar e classificar os diferentes tipos de variveis presentes em um estudo;
Compreender a que se destina cada uma das reas da Estatstica;
Entender as caractersticas dos vrios tipos de amostragens probabilsticas utilizados para
coleta de dados;
Construir distribuies de frequncias e grficos apropriados.
captulo 1
captulo 1
como em indstrias, como, por exemplo, Minitab, SPSS e SAS. Utilizamos tambm
o Microsoft Office Excel, que possui opes para certas tcnicas estatsticas. Apesar
do grande auxlio fornecido pelos pacotes estatsticos e pelo Excel, precisamos ter
um conhecimento terico slido para saber qual tcnica estatstica utilizar para
resolver um problema, alm de saber analisar e interpretar os resultados obtidos.
A Estatstica pode ser dividida em duas grandes reas: a estatstica descritiva e a inferncia estatstica.
Na estatstica descritiva, utilizamos tcnicas destinadas a organizar, descrever e resumir os dados. Os dados so tabulados e apresentados por meio de
grficos e resumidos atravs de medidas numricas. Desta maneira, as informaes estatsticas so apresentadas de maneira clara e de fcil entendimento.
Na inferncia estatstica (ou inferncia indutiva), utilizamos dados amostrais para fazer estimativas, testar hipteses e fazer previses sobre caractersticas de uma populao. Veremos, a seguir, alguns conceitos que facilitaro o
entendimento da importncia da inferncia estatstica.
POPULAO
AMOSTRA
PARMETRO
ESTATSTICA
10
captulo 1
pulao.
amostra.
CONCEITOS
VARIVEL
DADOS
CENSO
captulo 1
11
12
captulo 1
Quando temos acesso a todos os elementos que desejamos estudar, ou seja, a populao, no necessrio o uso de tcnicas da inferncia estatstica.
Um levantamento de dados obtidos por meio de toda a populao chamado censo. Esta palavra familiar, pois no nosso pas, a cada 10 anos, o Instituto
Brasileiro de Geografia e Estatstica (IBGE) faz o Censo Demogrfico do Brasil.
Com as informaes obtidas pelos censos, podemos conhecer a distribuio
territorial e as principais caractersticas das pessoas e dos domiclios. Estas
informaes so imprescindveis para a definio de polticas pblicas e a tomada de decises de investimentos.
CONEXO
Em pocas de recenseamento, uma declarao muito comum : o recenseador no passou
em minha residncia. Para entender a metodologia adotada pelo IBGE, leia as informaes disponveis em: <http://saladeimprensa.ibge.gov.br/noticias?view=noticia&id=1&busca=1&idnoticia=1866> Acesso em: 30 de Abr. 2015.
EXEMPLO
1.1: Um hospital e maternidade possui 3 200 funcionrios. O departamento de recursos
humanos fez uma pesquisa de clima organizacional com 620 funcionrios selecionados nos
diversos setores do hospital e um dos tpicos abordados foi o grau de satisfao com os
benefcios oferecidos pela empresa. A anlise dos dados mostrou que 55% dos funcionrios
esto satisfeitos com os benefcios oferecidos. De acordo com as informaes contidas no
enunciado, vamos identificar:
captulo 1
13
a)
A populao em estudo.
b)
A varivel em estudo.
c)
O tamanho da amostra.
d)
a)
b)
c)
d)
A informao numrica 55% uma estatstica, pois esta informao foi obtida atravs
de dados amostrais.
14
captulo 1
por motivo de sade (0, 1, 2,...) e nmero de peas defeituosas em um lote (0,
1, 2, 3,...) so classificadas como quantitativas discretas, enquanto que peso,
altura, renda familiar (salrios mnimos) so classificadas como quantitativas
contnuas.
Podemos atribuir cdigos numricos s categorias de respostas de algumas
variveis qualitativas. Por exemplo, para a varivel gner, podemos associar o cdigo 1 para o sexo feminino e 2 para o sexo masculino. Mas isto no a torna uma
varivel quantitativa, ou seja, no podemos, por exemplo, calcular uma mdia
destas respostas, pois no conseguiramos interpretar o resultado obtido.
EXEMPLO
1.2: Vamos classificar as seguintes variveis:
a)
b)
Peso de pacientes.
c)
Fumante.
d)
Tipo sanguneo.
e)
a)
Varivel quantitativa contnua, pois as possveis respostas so 58,7; 89,8; etc. (as res-
captulo 1
15
c)
Varivel qualitativa nominal, pois as possveis respostas so sim ou no. (as possveis
respostas so categricas).
d)
respostas so categricas).
e)
Varivel qualitativa ordinal, pois as possveis respostas so nada satisfeito, pouco sa-
tisfeito, satisfeito, muito satisfeito (as possveis respostas so categricas e possuem uma
ordenao natural, do menor grau de satisfao para o maior).
Outra maneira comum de classificar os dados atravs do uso dos nveis de mensurao intervalar e de razo. No nvel intervalar, as diferenas so significativas, mas no
existe ponto inicial zero natural e as razes no tm sentido e, no nvel de mensurao
de razo, h um ponto inicial zero natural e as razes so significativas.
16
captulo 1
captulo 1
17
18
captulo 1
EXEMPLO
1.3: Uma universidade est elaborando uma pesquisa com objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando aperfeioamento
e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. Qual deve ser o procedimento para a obteno
de uma amostra aleatria simples?
Resoluo
Para obtermos uma amostra aleatria simples de 8% dos 4 500 estudantes, precisamos
sortear 360. Como poderemos fazer este sorteio? Temos como obter o nome ou registro
acadmico de cada um dos alunos facilmente. Estas informaes esto disponveis na secretaria acadmica da universidade. Os nomes ou registros acadmicos so escritos em pedaos de papel. Aps colocar, separadamente, as informaes em
colocados em uma urna. Misturamos bem e sorteamos um papel. Repetimos o procedimento at que 360 papis sejam sorteados. Os nomes (ou registros acadmicos) selecionados
correspondem aos alunos que comporo a amostra. A descrio do sorteio foi feita desta
maneira para facilitar o entendimento deste tipo de amostragem. Nos dias atuais, colocamos
todos os nomes em uma planilha do Excel e utilizamos a funo ALEATRIOENTRE.
captulo 1
19
EXEMPLO
1.4: Uma universidade est elaborando uma pesquisa com objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando aperfeioamento
e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. H uma suspeita de que mulheres so mais criteriosas na avaliao institucional. De acordo com informaes acadmicas, aproximadamente
60% dos estudantes so do sexo feminino. Qual deve ser o procedimento para a obteno
de uma amostra estratificada?
Resoluo
De acordo com as informaes, vamos separar os estudantes em dois estratos: estudantes do sexo masculino e estudantes do sexo feminino. Depois, obtemos uma amostra aleatria simples de cada estrato (gnero) e reunimos os dados selecionados dos dois estratos
em uma s amostra estratificada.
20
captulo 1
EXEMPLO
1.5: Uma universidade est elaborando uma pesquisa com o objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando ao aperfeioamento e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. Qual deve ser o procedimento para a obteno
de uma amostra sistemtica?
Resoluo
Na amostragem sistemtica, precisamos de uma lista dos elementos que compem a
populao. Aps conseguir uma listagem com todos os estudantes, precisamos encontramos
N
4 500
=12,5 . Como k no um nmero
a frao amostral k= . No nosso exemplo, k=
n
360
inteiro, devemos arredondar para o inteiro mais prximo, ou seja, vamos considerar k = 13.
captulo 1
21
EXEMPLO
1.6: Uma universidade est elaborando uma pesquisa com objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando aperfeioamento
e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. Qual deve ser o procedimento para a obteno
de uma amostra por conglomerados?
Resoluo
Nesta situao, podemos formar conglomerados com os alunos matriculados em cada
um dos cursos da universidade. Por exemplo, conglomerado formado com todos os estudantes matriculados no curso de Administrao, ou conglomerado formado com todos os
estudantes matriculados no curso de Enfermagem e assim por diante. Aps a identificao
dos conglomerados, sorteamos alguns deles e entrevistamos todos os estudantes dentro de
cada conglomerado sorteado.
Os estudantes dentro de cada conglomerado so heterogneos, ou seja, h diversidades de informaes quanto a idade, estado civil, renda, gnero, etc.
22
captulo 1
Clculo pode escolher todos os alunos que cursam sua disciplina, nos diversos
cursos em que leciona, para compor a amostra que ser utilizada na pesquisa.
Neste tipo de seleo, o professor restringe a escolha dos alunos que faro parte da amostra, pois estudantes que no tm aula com ele estaro excludos de
participar da amostra.
1.3.1.2.2 Amostragem por quota
Neste tipo de amostragem, os elementos que fazem parte da amostra so retirados
da populao segundo quotas estabelecidas de acordo com a distribuio desses
elementos na populao. A descrio deste tipo de amostragem nos faz lembrar da
amostragem estratificada. A diferena que, aqui, os elementos so selecionados
por julgamento, e no de maneira aleatria, e depois confirmamos as caractersticas dos elementos amostrados. Por ser relativamente barato, este tipo de amostragem muito utilizado em levantamentos de opinio e pesquisa de mercado.
CONEXO
Uma leitura interessante sobre a amostragem no probabilstica encontrada no seguinte
trabalho: Amostragem no Probabilstica: Adequao de Situaes para uso e Limitaes de
amostras por Convenincia, Julgamento e Quotas. Disponvel em: < http://www.fecap.br/
adm_online/art23/tania2.htm>. Acesso em: 30 de Abr. 2015.
Aps a definio de qual tipo de amostragem ser utilizada em uma pesquisa, a pergunta que naturalmente surge : Qual o tamanho da amostra que devemos utilizar? H frmulas estatsticas bem conhecidas para determinao do
tamanho amostral, mas a aplicao dessas frmulas exige conhecimentos que
no abordaremos neste livro.
De acordo com VIEIRA (2008, p. 13)
Mais importante saber que no basta ter em mos uma frmula, ou um programa de
computador para estimar o tamanho da amostra. preciso algum conhecimento prvio
(estimativas preliminares de um ou mais parmetros, obtidas de amostras pilotos ou da
literatura) e uma boa dose de bom senso.
captulo 1
23
CONEXO
Para uma leitura introdutria sobre clculo do tamanho de amostras, o artigo: Anlise a respeito do tamanho de amostras aleatrias simples: uma aplicao na rea de Cincia da Informao aborda diferentes procedimentos estatsticos para a determinao do tamanho
de uma amostra aleatria simples. Disponvel em: <http://dgz.org.br/ago05/Art_01.htm>.
Acesso em: 30 de Abr. 2015.
ERRO
AMOSTRAL
a diferena entre o resultado amostral e o verdadeiro resultado da populao; tais erros resultam das flutuaes amostrais devidas ao acaso.
ERRO NO
AMOSTRAL
24
captulo 1
Aps a obteno dos dados, por exemplo, atravs de experimentos, cadastros, entrevistas ou preenchimento de questionrios, obtemos o conjunto de
dados brutos, ou seja, dados que ainda no foram organizados. Neste momento comeamos com a apurao, isto , organizao dos dados brutos. Isto
feito por meio da construo da distribuio de frequncias, que estudaremos
a seguir.
captulo 1
25
Frequncia relativa acumulada (fra): o quociente da frequncia acumulada pelo nmero total de dados. Esta frequncia tambm pode ser expressa em
porcentagem. O valor de (fra x100) definido como fra (%).
A seguir apresentamos a estrutura de uma distribuio de frequncias.
NOME DA VARIVEL
FREQUNCIA
100,00
Respostas da varivel
Total
As tabelas devem ser delimitadas, no alto e embaixo, por traos horizontais. Esses
traos podem ser mais fortes do que os traos feitos no interior da tabela; as tabelas
no devem ser delimitadas, direita e esquerda, por traos verticais;
2.
3.
4.
As tabelas devem ter significado prprio, isto , devem ser entendidas mesmo
As tabelas devem ser numeradas com algarismos arbicos. Pode ser adotada a
EXEMPLO
1.7: Um questionrio foi aplicado aos dez candidatos a uma vaga no departamento financeiro de uma loja de departamentos e alguns dos resultados obtidos esto apresentados no
quadro a seguir. Vamos organizar os dados das variveis grau de escolaridade e idade em
distribuio de frequncias.
26
captulo 1
CANDIDATO DA VAGA
TEMPO DE EXPERINCIA
NA REA
GRAU DE ESCOLARIDADE
IDADE
Ensino Mdio
30
Ensino Superior
35
12
Ensino Superior
26
Ensino Mdio
22
Ensino Mdio
28
Ps Graduao
30
10
Ensino Mdio
26
Ensino Superior
33
Ps Graduao
35
10
Ensino Mdio
23
As variveis, ou seja, as caractersticas de interesse nos candidatos so: grau de escolaridade, idade e tempo de experincia na rea da vaga. Candidato no varivel! Esta
coluna simplesmente informa que so 10 candidatos, com suas respectivas caractersticas. Os nmeros poderiam ser substitudos pelos nomes dos candidatos.
Resoluo
A distribuio de frequncias contm 3 colunas: a varivel em estudo, a frequncia e a
frequncia relativa (%). Toda tabela deve conter um ttulo que explique o contedo da tabela.
Tambm podemos utilizar como cabealho para a segunda coluna a palavra Frequncia.
GRAU DE ESCOLARIDADE
NMERO DE CANDIDATOS
Ensino Mdio
50
Ensino Superior
30
Ps Graduao
20
Total
10
100
captulo 1
27
IDADE
NMERO DE CANDIDATOS
22
10
23
10
26
20
28
10
30
20
33
10
35
20
Total
10
100
28
IDADE
NMERO DE CANDIDATOS
FREQUNCIA
RELATIVA (%)
FREQUNCIA
ACUMULADA
22
10
10
23
10
20
26
20
40
28
10
50
30
20
70
captulo 1
IDADE
NMERO DE CANDIDATOS
FREQUNCIA
RELATIVA (%)
FREQUNCIA
ACUMULADA
33
10
90
10
100
35
20
Total
10
100
A coluna da frequncia acumulada obtida somando cada frequncia com as que lhe
so anteriores e a frequncia acumulada relativa (%) obtida dividindo a frequncia acumulada pelo nmero total de dados (X 100).
Por exemplo, a frequncia acumulada associada idade 30 obtida somando a frequn
cia desta resposta com as frequncias anteriores (1 + 1 + 2 + 1 + 2 = 7) e a frequncia
7
acumulada relativa (%) obtida fazendo
100 = 70% .
10
Quando estamos analisando uma varivel quantitativa contnua, comum os valores no
se repetirem. Se construirmos uma distribuio de frequncias como na Tabela 1.2, ela ficar
muito extensa e no atingiremos o objetivo de resumir o conjunto de dados. Nestes casos,
conveniente agrupar os dados em intervalos de classes. O mesmo procedimento pode ser
feito quando a varivel for quantitativa discreta e apresentar um nmero grande de dados,
mas com valores com pouca repetio.
Identificamos os seguintes valores em um intervalo de classe:
LIMITE INFERIOR
(LI)
LIMITE SUPERIOR
(LS)
AMPLITUDE (H)
captulo 1
29
R
, onde
k
R=valor mximo valor mnimo . O valor de h ser a amplitude da classe. Normalmente
Para
determinar
amplitude
de
cada
classe
calcularemos
o valor encontrado para h no inteiro. Nestes casos, podemos aproximar para o inteiro
prximo para facilitar a construo das classes.
Contar o nmero de observaes que pertencem a cada intervalo de classe. Esses nmeros so as frequncias absolutas das classes.
Calcular as frequncias relativas de cada classe.
De modo geral, a quantidade de classes no deve ser inferior a 5 e nem superior a 20.
Se o nmero de classes for muito pequeno, perderemos informao, e com um nmero grande de classes, o objetivo de resumir os dados fica prejudicado.
Construiremos intervalos de classe fechados esquerda. A representao deste tipo
de intervalo :
Li | Ls
Por exemplo:
5 | 10
30
captulo 1
22
24
24
25
26
26
26
26
26
26
26
27
27
27
28
28
28
28
28
28
28
28
28
28
29
29
29
29
29
29
30
30
30
30
30
30
30
30
30
30
30
32
34
34
34
34
34
35
35
35
35
35
35
35
36
36
37
39
39
40
40
45
48
Resoluo:
Apesar da varivel em estudo (frao de colesterol de muito baixa densidade) estar apresentada na forma discreta, h uma variao grande de nmeros. Se construirmos uma distribuio de frequncias colocando os nmeros do menor para o maior, a tabela ficar extensa.
Ento, nesta situao, conveniente agrupar os dados em intervalos de classes.
Primeiro, precisamos saber quantas classes vamos construir. Para isto, utilizaremos a
frmula:
64 = 8
3, 3
8
8
captulo 1
31
FREQUNCIA
22 | 26
7,81
26 | 30
26
40,63
30 | 34
12
18,75
34 | 38
15
23,44
38 | 42
6,25
42 | 46
1,56
46 | 50
1,56
Total
64
100,00
1.5 Grficos
Os grficos estatsticos so utilizados frequentemente nos meios de comunicao. Em geral, as pessoas tem mais facilidade de compreender as informaes
que esto contidas numa tabela por meio de grficos. H uma quantidade muito grande de grficos disponveis em softwares estatsticos e no Excel, mas devemos ter em mente que a construo de grficos deve ser feita cuidadosamente! Por exemplo, a construo de um grfico desproporcional em suas medidas
pode nos levar a concluses equivocadas.
CONEXO
Um texto interessante que chama reflexo sobre a necessidade de abordagens pedaggicas mais efetivas para o ensino e a aprendizagem de grficos est disponvel em: <http://
www.ufrrj.br/emanped/paginas/conteudo_producoes/docs_22/carlos.pdf>.
30 de Abr. 2015.
32
captulo 1
Acesso em:
Nos itens a seguir abordaremos os grficos de linhas, barras, setores, histograma, polgono de frequncias, Pareto e disperso. Sempre que possvel utilizaremos as distribuies de frequncias que construmos nos exemplos anteriores, para mostrar que as informaes contidas em ambos so as mesmas.
1.5.1.1 Grfico de linhas
O grfico de linhas (grfico de sries temporais) utilizado quando os dados
estiverem distribudos segundo uma varivel no tempo (meses, anos, etc.). Esse
tipo de grfico retrata as mudanas nas quantidades com respeito ao tempo
atravs de uma srie de segmentos de reta. muito eficiente para mostrar possveis tendncias no conjunto de dados.
EXEMPLO
1.9: A Tabela 1.5 fornece o nmero de casos de dengue no Brasil, no perodo 2000 2013.
captulo 1
33
ANO
NMERO DE CASOS
2000
135.228
2001
385.783
2002
696.472
2003
274.975
2004
70.174
2005
147.039
2006
258.680
2007
496.923
2008
632.680
2009
406.269
2010
1.011.548
2011
764.032
2012
589.591
2013
1.452.489
Tabela 1.5 Nmero de casos de dengue - Brasil. Fonte: Disponvel em : < http://portalsaude.saude.gov.br/images/pdf/2014/julho/31/Dengue-classica-at---2013.pdf >. Acesso
em: 17 jun. 2015.
O grfico que melhor representa este conjunto de dados o grfico em linhas, j que os
dados se reportam a uma srie no tempo (srie temporal). O grfico est ilustrado na Figura 1.3.
34
captulo 1
EXEMPLO
1.10: A Tabela 1.6 apresenta a distribuio, por tipo sanguneo, de 120 recm- nascidos em
uma maternidade. Vamos apresentar as informaes por meio de um grfico de barras (na
posio horizontal e vertical).
TIPO SANGUNEO
FREQUNCIA
33
27,50
AB
4,17
21
17,50
61
50,83
Total
120
100,00
captulo 1
35
Figura 1.4 Grfico de barras para a varivel tipo sanguneo dos recm-nascidos.
A Figura 1.5 apresenta as barras na posio horizontal, e elas so construdas com base na
frequncia relativa (%). Nesta situao, as categorias so apresentadas no eixo vertical e no
eixo horizontal construmos a escala, utilizando a frequncia absoluta ou a frequncia relativa
(geralmente em porcentagem). H a opo de colocarmos tais frequncias acima das barras.
Figura 1.5 Grfico de barras para a varivel tipo sanguneo dos recm-nascidos.
Vale a pena ressaltar que as informaes contidas nestes dois grficos so as mesmas
que esto apresentadas na Tabela 1.6.
36
captulo 1
EXEMPLO
1.11: Em uma universidade h 4 500 estudantes, dos quais 60% so do sexo feminino e
40% do sexo masculino. Os dados esto apresentados na Tabela 1.7.
GNERO
FREQUNCIA
Feminino
2 700
60,00
Masculino
1 800
40,00
Total
4 500
100,00
captulo 1
37
1.5.1.4 Histograma
Um histograma semelhante ao diagrama de barras, porm refere-se a uma
distribuio de frequncias construda com intervalos de classes. Por isso,
apresenta uma diferena: no h espaos entre as barras. Os intervalos de classes so colocados no eixo horizontal enquanto as frequncias so colocadas no
eixo vertical. As frequncias podem ser absolutas ou relativas.
EXEMPLO
1.12: Vamos construir um histograma para os dados da Tabela 1.4.
38
captulo 1
captulo 1
39
EXEMPLO
1.13: A distribuio de frequncias a seguir apresenta as reclamaes fundamentadas de
2013, por rea, na Fundao Procon SP.
REA
FREQUNCIA
Produtos
9 683
31,15
Assuntos Financeiros
8 464
27,23
Servios Essenciais
5 298
17,04
Servios Privados
4 838
15,56
Sade
1 408
4,53
Habitao
1 327
4,27
Alimentos
67
0,22
Total
31 085
100,00
Tabela 1.8 Reclamaes no Procon SP por rea, em 2013. Fonte: Disponvel em: < http://
www.procon.sp.gov.br/pdf/ranking_2013_coment.pdf >. Acesso em: 03 de Maio. 2015.
Vamos representar as informaes contidas na Tabela 1.8 em um diagrama de Pareto.
40
captulo 1
Analisando o grfico, observamos que, em 2013, o maior nmero de reclamaes fundamentadas foi na rea de produtos, seguido por assuntos financeiros.
EXEMPLO
1.14: Uma construtora quer verificar a eficcia de seus anncios em determinado programa
de televiso. O objetivo verificar se h relao entre a quantidade de anncios e o nmero
de apartamentos vendidos. A tabela abaixo mostra o nmero de anncios que foram ao ar,
durante seis meses, e o correspondente nmero de apartamentos vendidos de um edifcio
em lanamento.
10
15
18
22
12
25
15
30
19
captulo 1
41
Pela anlise grfica observamos que medida que o nmero de anncios que foram ao
ar aumenta, ocorre um aumento no nmero de apartamentos vendidos. Como identificamos
uma relao entre as duas variveis, podemos medir a intensidade da relao e fazer previses do nmero de apartamentos vendidos a partir de um valor especfico de anncios.
Estudaremos estes conceitos no Captulo 5.
Vimos que os grficos nos transmitem informaes contidas no conjunto de dados, de
maneira simples e de fcil compreenso. Apesar de ser uma ferramenta eficaz, precisamos
tomar cuidado na construo dos grficos para no obtermos concluses enganosas. Os
principais erros na elaborao de um grfico so:
GRFICO SUCATA
AUSNCIA DE
BASE RELATIVA
42
captulo 1
EIXO VERTICAL
COMPRIMIDO
nho da figura exibida. Se o eixo vertical estiver comprimido, as diferenas reais entre as categorias de respostas da
varivel podem ficar distorcidas.
AUSNCIA DO
PONTO ZERO
captulo 1
43
2 passo: Neste passo, selecionamos os dados. Podemos escolher a frequncia absoluta ou relativa. Neste caso, o grfico ser construdo com a frequncia absoluta (colunas selecionadas: A e B, sem os ttulos!). Aps a seleo, escolher a aba Inserir e depois selecionar o tipo de grfico a ser elaborado. Vamos
escolher a primeira opo para o grfico de Coluna (lembre-se, que j vimos
que o Excel denomina o grfico de barras verticais como coluna). Clicar em OK.
3 passo: O grfico elaborado est na Figura 1.13. Observando as informaes, percebemos que temos que format-lo, pois no h necessidade de legenda e os eixos esto sem ttulo. Como opo, tambm podemos remover as
linhas horizontais que aparecem no corpo do grfico (linhas de grade).
44
captulo 1
5 passo: A Figura 1.15 apresenta o grfico com ttulos nos eixos horizontal
e vertical. Para finalizar, vamos excluir a legenda e as linhas de grade.
captulo 1
45
Figura 1.16 Grfico de barras horizontais para a varivel Grau de escolaridade dos candidatos.
Agora, basta copiar e colar, por exemplo, em um arquivo formato DOC e interpretar as informaes obtidas por meio da anlise grfica.
Para montar os outros grficos com o auxlio do Excel, basta seguirmos os
mesmos passos descritos acima. H pequenas diferenas entre a montagem de
um tipo de grfico e outro, mas fcil verificar quais procedimentos devem ser
seguidos.
REFLEXO
Estamos encerrando nosso primeiro captulo. Vimos, aqui, alguns conceitos que so fundamentais na compreenso do restante do contedo apresentado neste livro.
Com os conceitos adquiridos, voc ser capaz de coletar dados de maneira apropriada,
saber identific-los como qualitativos ou quantitativos e apresent-los por meio de tabelas
e grficos.
Estamos apenas no comeo. Muitas tcnicas (muito interessantes!) ainda sero abordadas. E lembre-se que o conhecimento e o domnio da Estatstica certamente ajudaro voc a
tomar s decises mais acertadas.
46
captulo 1
LEITURA
No endereo http://m3.ime.unicamp.br/recursos/1338 voc encontrar dois udios interessantes, primeiro mdulo e segundo mdulo, que introduz o conceito de Estatstica e anlise
e dados por meio de informaes sobre gravidez na adolescncia.
REFERNCIAS BIBLIOGRFICAS
BRUNI, Adriano L. Estatstica Aplicada Gesto Empresarial. 2. ed. So Paulo: Atlas, 2010.
BUSSAB, Wilton de O. ; MORETTIN, Pedro A. Estatstica Bsica. 5. ed. So Paulo: Saraiva, 2002.
MAGALHES, Marcos N.; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008. Disponvel
em:<http://saladeimprensa.ibge.gov.br/noticias?view=noticia&id=1&busca=1&idnoticia=1866>
Acesso em: 30 abr. 2015.
OLIVEIRA, Tania M. Veludo. Disponvel em: < http://www.fecap.br/adm_online/art23/tania2.htm>.
Acesso em: 30 abr. 2015.
OLIVEIRA, Ely F. Tannuri; GRCIO, Maria C. Cabrini. Disponvel em: <http://dgz.org.br/ago05/Art_01.
htm>. Acesso em: 30 abr. 2015.
MONTEIRO, Carlos E. Ferreira. Disponvel em: < http://www.ufrrj.br/emanped/paginas/conteudo_
producoes/docs_22/carlos.pdf > Acesso em: 30 abr. 2015.
Disponvel em: < http://www.procon.sp.gov.br/pdf/ranking_2013_coment.pdf >. Acesso em: 03 maio
2015.
Disponvel em : < http://portalsaude.saude.gov.br/images/pdf/2014/julho/31/Dengue-classicaat---2013.pdf >. Acesso em: 17 jun. 2015.
FUSHIGIRA, Vanessa; OLIVEIRA, Samuel R.; SARTI, Luis R. Disponvel em: < http://m3.ime.unicamp.
br/recursos/1338 >. Acesso em: 03 maio 2015.
captulo 1
47
48
captulo 1
2
Medidas Resumo
No primeiro captulo vimos que, aps a coleta dos dados brutos, fundamental a organizao e apresentao dos dados em distribuies de frequncias e
grficos apropriados. Atravs deles, conseguimos ter uma viso geral do comportamento da varivel em estudo. Alm das distribuies de frequncias, podemos resumir ainda mais um conjunto de dados quantitativos encontrando
valores que sejam representativos de todo o conjunto.
Temos interesse em encontrar valores que descrevam duas caractersticas
do conjunto de dados:
A tendncia central dos dados, ou seja, o centro em torno do qual os dados
se distribuem.
A variabilidade do conjunto de dados, ou seja, a maneira como os dados
esto dispersos.
Estudaremos, primeiramente, as medidas de posio ou tendncia central
e, em seguida, as medidas de disperso e separatrizes.
OBJETIVOS
Este captulo aborda como podemos resumir um conjunto de dados quantitativos por meio de
medidas resumo. Esperamos que, atravs dos conhecimentos aprendidos, voc seja capaz de:
Calcular e interpretar as medidas de tendncia central e as medidas de disperso;
Compreender a importncia das medidas separatrizes e utiliz-las para identificar a forma
da distribuio dos dados.
50
captulo 2
i =1x i
n
x=
em que:
X mdia (lemos como x barra).
n
xi
i =1
xi .
i=1
captulo 2
51
EXEMPLO
2.1: Um questionrio foi aplicado aos dez candidatos a uma vaga no setor financeiro de uma
clnica de cirurgia plstica e uma das variveis em estudo era a idade dos candidatos. Os
dados obtidos foram:
30
35
26
22
28
30
26
33
35
23
x=
10
10
10
x i fi
x = i =1
k
FREQUNCIA RELATIVA
(%)
FREQUNCIA
x1
f1
x1 f1
x2
f2
x2 f2
...
...
...
xn
fn
Total
FREQUNCIA RELATIVA
(%)
x1 fi
xn fn
k
100,00
xi fi
i =1
Tabela 2.1 Estrutura da distribuio de frequncias para o clculo da mdia por meio dos
dados tabelados.
52
captulo 2
S faz sentido acrescentarmos a coluna (x1 f1) se quisermos encontrar a mdia, ou seja,
ela uma coluna auxiliar do clculo.
2.2: Construindo uma distribuio de frequncias para os dados do Exemplo 2.1, obtemos:
IDADE
NMERO DE CANDIDATOS
22
10
23
10
26
20
28
10
30
20
33
10
35
20
Total
10
100
IDADE (x1)
NMERO DE CANDIDATOS
(fi)
FREQUNCIA RELATIVA
(%)
(x1 fi)
22
10
22
23
10
23
26
20
52
28
10
28
30
20
60
33
10
33
35
20
70
Total
10
100
288
i =1x i fi
k
x =
288
= 28, 8 anos
10
captulo 2
53
A mdia aritmtica possui algumas propriedades importantes, que estudaremos no prximo item.
x x)=0
(
i
i =1
di
Em palavras: os desvios so encontrados fazendo a diferena entre cada valor do conjunto de dados e a mdia aritmtica do conjunto. A soma dos desvios
encontrados zero, para qualquer conjunto de dados.
2. Quando somamos (ou subtramos) uma constante de todos os valores de
um conjunto de dados, a mdia fica somada (ou subtrada) por esta constante.
3. Quando multiplicamos (ou dividimos) uma constante de todos os valores de um conjunto de dados, a mdia fica multiplicada (ou dividida) por esta
constante.
Outro tipo de mdia muito utilizada, por exemplo, no clculo da mdia final de um estudante em uma disciplina ou na nota final do candidato em um concurso, a mdia
ponderada. Na mdia ponderada so atribudos aos valores importncias diferentes.
Por exemplo, um estudante pode fazer 4 provas durante o semestre e para cada prova atribudo um peso. O clculo da mdia ponderada feito por meio do somatrio
das multiplicaes entre valores e pesos, divididos pelo somatrio dos pesos, ou seja,
x i pi , em que Pi so o pesos atribudos.
xp =
pi
2.1.2 Moda
A moda de um conjunto de dados a resposta (ou respostas) que aparece(m)
com maior frequncia. A moda, diferentemente das outras medidas de posio, tambm pode ser encontrada quando a varivel em estudo for qualitativa.
54
captulo 2
Portanto, a resposta para a moda pode ser o valor ou a categoria que aparece
com a maior frequncia. Existem conjuntos de dados em que nenhuma resposta aparece mais vezes que outras. Neste caso, dizemos que o conjunto de dados
no apresenta moda.
Em outros casos, podem aparecer duas ou mais respostas de maior frequncia no conjunto de dados. Nestes casos, dizemos que o conjunto de dados
bimodal e multimodal, respectivamente.
No conjunto de dados apresentados no Exemplo 2.1, temos que as respostas
que aparecem com maior frequncia (frequncia 2) so: 26, 30 e 35. Portanto:
Mo = 26, 30 e 35 anos
2.1.3 Mediana
A mediana uma medida que divide o conjunto de dados ordenados ao meio, deixando a mesma quantidade de valores abaixo dela e acima. Por isto, ela tambm
uma medida separatriz, pois separa o conjunto de dados em dois grupos: pelo
menos 50% dos valores ordenados so maiores ou iguais ao valor da mediana e pelo
menos 50% dos valores ordenados so menores ou iguais ao valor da mediana.
O clculo para se encontrar a mediana difere no caso do nmero de elementos (n) do conjunto de dados ser par ou mpar.
Se o nmero de elementos do conjunto de dados for mpar, ento a mediana
ser exatamente o valor do meio, ou seja:
Md = x n +1
2
xn + xn
Md =
+1
captulo 2
55
EXEMPLO
2.3: Os dados abaixo se referem aos batimentos cardacos para 15 pacientes que chegaram
ao hospital em estado de parada respiratria e inconscientes. Vamos encontrar a mediana.
167
150
125
120
150
150
140 136
120
150
125
140 148
120
125
150
167
Resoluo
Para encontrarmos a mediana, os dados precisam estar ordenados:
120
120
120
125
125
125
136 140
140 148
150 150
150
Md = x n+1
2
Md = x15+1 = x8
2
ou seja, a mediana o valor que ocupa a oitava posio do conjunto de dados ordenados,
Md = 140
Repare que a observao 140 divide o conjunto de dados ao meio, com 7 observaes
abaixo dela e 7 observaes acima dela.
Ento, conclumos que pelo menos 50% dos valores so maiores ou iguais a 140 batidas
por minuto.
Tambm podemos encontrar a mediana quando os dados esto apresentados em uma
distribuio de frequncias. Para isto, seguimos o seguinte procedimento:
1 Passo: identificaremos a frequncia acumulada imediatamente superior metade do
somatrio do nmero de observaes do conjunto de dados:
n
2
2 Passo: a mediana ser o valor da varivel associada frequncia acumulada imediatamente superior ao valor encontrado no 1 Passo.
56
captulo 2
n
for ser exatamente igual a uma das frequncias acumuladas fa, o clculo da
2
mediana ser a mdia aritmtica entre dois valores da varivel: xi e xi+1. O valor da varivel xi
n
ser aquele associado = fa e o valor da varivel xi+1 ser aquele que est imediatamente
2
aps xi na distribuio de frequncias.
Quando
Para facilitar a compreenso, vamos aplicar no prximo exemplo o passo a passo descrito acima.
2.4: O nmero de faltas ao trabalho, no ltimo semestre, dos 30 funcionrios de uma clnica,
so:
NMERO DE FALTAS
FREQUNCIA DE FUNCIONRIOS
10
Resoluo
Vamos organizar uma distribuio de frequncias incluindo a frequncia acumulada.
Valor da varivel
NMERO DE
FALTAS
FREQUNCIA
FREQUNCIA
RELATIVA (%)
0
1
2
3
Total
9
10
5
6
30
30,00
33,33
16,67
20,00
100,00
fa
9
19
24
30
Frequncia
mulada
acu-
imedia-
tamente superior
a 15
Seguindo o roteiro:
1 Passo:
n 30
= = 1
2 2
A frequncia acumulada imediatamente superior a 15 fa = 19.
2 Passo: a mediana ser o valor da varivel associado frequncia acumulada imediatamente superior ao valor encontrado no 1 Passo. Portanto:
Md=1 falta
captulo 2
57
5,1
5,7
6,4
6,8
7,1
7,4
7,6
8,2
8,7
8,9
9,2
9,5
9,7
10,0
10,4
10,6
11,2
11,4
11,6
11,7
11,9
12,1
12,3
12,4
12,4
12,7
13,2
13,5
91,3
4, 3 + 5,1+ 5, 7 + + 913
,
373, 3
=
= 12, 44 s.m.
30
30
Ou seja, conclumos que a renda familiar mdia dos moradores das 30 residncias selecionadas 12,44 salrios mnimos.
Analisando o conjunto de dados, observamos que o valor encontrado para a mdia est
acima dos valores de 26 observaes do conjunto! Por que isto ocorreu? Temos uma observao discrepante, ou seja, muito maior que as outras, que 91,3. Esta observao puxa
a mdia para cima, fazendo com que tenhamos uma interpretao enganosa sobre o centro
em torno do qual os dados se distribuem.
A mdia aritmtica muito sensvel a valores extremos, ento, dizemos que a mdia no
uma medida de tendncia central resistente.
58
captulo 2
2
x15 + x16
2
+1
ou seja, a mediana a mdia entre os valores que ocupam a dcima quinta e dcima
sexta posio do conjunto de dados ordenados.
Md =
10 + 10, 4
= 10, 2 s.m.
2
Com o resultado obtido para a mediana, observamos que ela no afetada pela observao discrepante, sendo, portanto, a medida de tendncia central mais representativa para
este conjunto de dados.
Agora que j sabemos calcular e interpretar a mdia, moda e mediana, podemos utiliz
-las para detectar assimetria em um conjunto de dados:
Se a distribuio dos dados for exatamente simtrica, a mdia, a moda e a mediana so
exatamente iguais. Para distribuies aproximadamente simtricas, as trs medidas so
prximas.
Se a distribuio dos dados apresentar assimetria esquerda, em geral, a mdia menor
que a mediana; e se apresentar assimetria direita, em geral, a mediana menor que a
mdia.
A distribuio dos dados assimtrica quando se estende mais para um lado do que
para o outro e simtrica se a metade esquerda do seu histograma se comporta de
maneira praticamente igual da sua metade direita. No Captulo 1 vimos que o histograma um grfico muito utilizado para identificar a forma da distribuio dos dados.
captulo 2
59
Por exemplo, vamos supor que o intervalo de 10| 15 tenha frequncia 5. No sabemos quais so os valores destas 5 observaes, s podemos afirmar que so maiores
ou iguais a 10 e menores que 15. Ento, assumiremos que as 5 observaes so iguais
a 12,5, que o ponto mdio deste intervalo.
EXEMPLO
2.6: Uma professora de Cincias, interessada em fazer uma aula prtica com seus alunos,
fez um levantamento dos pesos, em quilogramas, de cada um deles. Os dados esto apresentados na Tabela 2.4.
PESO (KG)
FREQUNCIA
40 | 45
5,59
45 | 50
25
17,48
50 | 55
50
34,97
55 | 60
40
27,97
60 | 65
20
13,99
Total
143
100,00
PESO (KG)
FREQUNCIA
FREQUNCIA
RELATIVA(%)
xi
xi fi
FREQUNCIA
ACUMULADA
40 | 45
45 | 50
50 | 55
55 | 60
8
25
50
40
5,59
17,48
34,97
27,97
42,5
47,5
52,5
57,5
340
1.187,5
2.625
2.300
8
33
83
123
60
captulo 2
PESO (KG)
FREQUNCIA
FREQUNCIA
RELATIVA(%)
60 | 65
Total
20
143
13,99
100,00
FREQUNCIA
ACUMULADA
xi
xi fi
62,5
1.250
7.702,50
143
Tabela 2.6 Clculos das colunas auxiliares para encontrar a mdia e a mediana.
Li + Ls
. Ento, para o primeiro inter2
i =1x i fi
k
x =
7.702, 50
= 53, 86kg
143
Moda
Existem vrias definies para localizar a posio da moda em uma classe modal, mas a
mais simples definir a moda como o ponto mdio da classe modal.
Portanto, neste exemplo, a classe modal 50 | 55 (pois, apresenta a maior frequncia
= 50) e, vamos considerar a moda o ponto mdio desta classe, ou seja:
Mo = 52, 5kg
Mediana
Para o clculo da mediana utilizaremos uma frmula que, a princpio, pode parecer um
pouco complexa ou trabalhosa, mas veremos que as quantidades que precisamos para substituir na frmula so fceis de serem obtidas. Utilizaremos a seguinte frmula para o clculo
da mediana para dados agrupados em intervalos de classes:
Md = linf
md
hmd n
F
fmd 2 aant
em que:
linf : : limite inferior do intervalo que contm a mediana;
md
captulo 2
61
ant
A primeira informao que precisamos saber qual intervalo contm a mediana. Este
intervalo est associado frequncia acumulada imediatamente superior n .
2
n 143
, , o intervalo que contm a mediana 50 | 55
Pela Tabela 2.5, como= = 715
2
2
(pois fa = 83).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:
linf : : 50
md
hmd : : 55 50 = 5
fmd : : 50
n: 143
Fa
ant
: : 33
Intervalo que
contm
mediana
pa do intervalo
PESO (KG)
FREQUNCIA
40 | 45
45 | 50
50 | 55
55 | 60
60 | 65
Total
8
25
50
40
20
143
FREQUNCIA
ACUMULADA
8
33
83
123
143
anterior quele
que contm a
mediana
tm a mediana
Tabela 2.7 Identificao dos valores que sero utilizados no clculo da mediana.
md
hmd n
F
fmd 2 aant
5 143
33
50 2
Md = 50
0 + 3, 85 = 53, 85kg
Md = 50 +
62
captulo 2
As medidas de posio que estudamos no bastam para descrever um conjunto de dados. Tais medidas tm como objetivo indicar o centro em torno do
qual os dados esto dispersos, mas no informam o quanto os dados se dispersam. Por exemplo, uma pergunta natural que surge aps o clculo da mdia
: ser que as observaes do conjunto de dados esto prximas ou distantes
(dispersas) do valor mdio encontrado?
Veremos, no prximo item, algumas medidas que nos auxiliam na resposta
a este questionamento.
EXEMPLO
2.7: Os dados abaixo se referem aos salrios de 10 funcionrios que possuem o cargo de
enfermeiro chefe nas cidades e regio metropolitana de So Paulo e Belo Horizonte.
S.P
3 250
4 125
5 270
6 029
9 840
5 127
6 350
4 250
7 125
3 850
B.H.
5 250
5 025
5 270
5 550
5 870
5 625
5 120
5 840
5 720
5 946
i =1x i
n
x SP =
i =1x i
n
x BH =
Embora as mdias sejam iguais, observamos claramente que a variabilidade dos salrios
na cidade de So Paulo e regio metropolitana maior que em Belo Horizonte. Portanto, a
mdia descreve bem a situao em Belo Horizonte, mas no em So Paulo.
captulo 2
63
Agora que ficou claro o conceito de disperso ou variabilidade, vamos aprender a calcular
as medidas de disperso.
EXEMPLO
2.8: Considerando os dados do Exemplo 2.7, vamos encontrar o mnimo, o mximo e a amplitude do conjunto de dados na cidade de So Paulo e regio metropolitana.
Resoluo
MNIMO
MXIMO
AMPLITUDE
3 250
9 840
6 590
Tabela 2.8 Valores mnimo, mximo e amplitude dos salrios em So Paulo e regio metropolitana.
64
captulo 2
x
)
tal dos desvios em valor absoluto, ou seja, i
. Mas, somente o uso deste
i =1
total pode causar dificuldades de interpretao quando estivermos comparando conjunto de dados com nmeros diferentes de observaes. Ento, o conveniente definir a medida como mdia, obtendo o desvio mdio:
xi x
dm = i =1
n
O desvio mdio uma mdia dos valores absolutos dos desvios em relao
mdia. Esta medida utiliza o mdulo que, por suas caractersticas matemticas, torna difcil o estudo de suas propriedades. Ento, vamos definir uma
medida que utiliza o quadrado dos desvios em relao mdia.
A varincia amostral uma medida de disperso que pode ser interpretada
como uma mdia dos quadrados dos desvios, ou seja:
s2 =
2
n
i =1( x i x ) = ( x1 x )2 + ( x2 x )2 + + ( xn x )2
n 1
n 1
captulo 2
65
s2 =
( i =1x i )2
n
x2
i =1 i
n 1
em que:
xi2 : soma de cada valor observado ao quadrado;
2
( xi ) : quadrado da soma de todos os valores observados;
n : nmero total de observaes no conjunto de dados.
Apesar, de primeira vista, a frmula alternativa parecer mais complicada,
os clculos exigidos so feitos com menor nmero de operaes aritmticas.
Quando os dados estiverem organizados em uma distribuio de frequncias, podemos utilizar a seguinte frmula:
s2 =
2
k
2
2
2
i =1( x i x ) fi = ( x1 x ) f1 + ( x 2 x ) f2 + + ( x k x ) fk
n 1
n 1
i =1x i2 fi
n
s2 =
( i =1x i fi )2
n 1
66
captulo 2
em que:
s: desvio padro;
s2: varincia.
Da maneira que o desvio padro definido, podemos concluir que:
O desvio padro uma medida de variao de todos os valores a partir da
mdia.
O valor do desvio padro maior ou igual a zero. Ser zero apenas quando
todos os valores do conjunto de dados forem iguais.
Valores muito prximos resultaro em desvios padres pequenos, enquanto que valores mais espalhados resultaro em desvios padres maiores.
O valor do desvio padro pode aumentar drasticamente com a incluso de
um ou mais valores discrepantes.
A unidade de medida do desvio padro a mesma do conjunto de dados.
O desvio padro utilizado para comparar a variabilidade de dois conjuntos de dados diferentes quando as mdias forem aproximadamente iguais e
quando as unidades de medidas para os dois conjuntos forem as mesmas.
As frmulas apresentadas para o clculo da varincia e do desvio padro so aplicadas
quando estamos trabalhando com dados amostrais. No caso do conjunto de dados ser
a prpria populao, o denominador da varincia N e substitumos s2 por (: letra
2
n
(x x ) e o
grega sigma). Ento, a frmula da varincia populacional 2 = i =1 i
N
desvio padro populacional = 2
captulo 2
67
Cerca de 95% das observaes do conjunto de dados ficam a 2 desvios padres da mdia, ou seja, ( x 2s ) e ( x + 2s ) .
Cerca de 99,7% das observaes do conjunto de dados ficam a 3 desvios
padres da mdia, ou seja, ( x 3s ) e ( x + 3s ) .
Figura 2.1: Regra prtica para interpretao do desvio-padro. Fonte: TRIOLA (2008, p. 81).
Como a mdia aritmtica, o desvio padro tambm possui algumas propriedades importantes, que apresentaremos a seguir.
2.2.2.2 Propriedades do desvio padro
1. Quando somamos (ou subtramos) uma constante de todos os valores
de um conjunto de dados, o desvio padro no se altera.
2. Quando multiplicamos (ou dividimos) uma constante de todos os valores de um conjunto de dados, o desvio padro fica multiplicado (ou dividido)
por esta constante.
68
captulo 2
EXEMPLO
2.9: Os dados abaixo referem-se s notas finais de dois alunos, um deles est na turma da
manh e o outro na turma da noite, na disciplina Bioestatstica.
MANH
9,5
7,5
3,5
6,0
6,5
2,0
7,0
1,0
NOITE
5,0
5,5
5,0
6,5
6,0
4,5
5,5
5,0
i =1x i
n
x manh =
9, 5 + 7, 5 + 3, 5 + + 1
= 5, 375
8
i =1x i
n
x noite =
5 + 5, 5 + 5 + + 5
= 5, 375
8
Para exercitar as frmulas, vamos resolver este exerccio de duas maneiras: da maneira
como os dados esto apresentados no enunciado e depois organizando-os em uma distribuio de frequncias.
Primeira maneira aluno manh
O valor mnimo 1 e o mximo 9,5. Portanto, a amplitude 8,5 pontos, ou seja a diferena entre a menor nota e a maior 8,5 pontos.
Para encontrarmos a varincia, vamos utilizar a frmula alternativa:
i=1xi2
n
2 =
( i=1xi )2
n
Neste exemplo, utilizaremos a frmula da varincia populacional, pois estamos trabalhando com todas as notas dos alunos na disciplina Bioestatstica.
captulo 2
69
2 =
( i =1x i )2
n
x2
i =1 i
291
(43)2
8
,
291 231125
59, 875
=
= 7, 48 pontos2
8
8
O desvio padro :
= 7, 48 = 2, 74 pontos
i =1x i2
n
2 =
( i =1x i )2
1849
,
2, 875
8 = 234 231125
= 0, 36 ponto2
=
8
8
8
234
O desvio padro :
= 0, 36 = 0, 60 ponto
70
captulo 2
Vamos colocar as informaes em um quadro para facilitar a interpretao dos resultados obtidos.
MEDIDAS DE
DISPERSO
MNIMO
MXIMO
AMPLITUDE
VARINCIA
DESVIO PADRO
ALUNO - MANH
1,0
9,5
8,5
7,48
2,74
ALUNO -NOITE
4,5
6,5
2,0
0,36
0,60
NOTAS (xi)
FREQUNCIA (fi)
FREQUNCIA
RELATIVA (%)
xi fi
xi2 fi
4,5
12,50
4,5
20,25
37,50
15
75
5,5
25,00
11
60,5
12,50
36
6,5
12,50
6,5
42,25
Total
100,00
43
234
Tabela 2.10 Clculos das colunas auxiliares para encontrar a varincia aluno noite.
Pela distribuio de frequncias tambm identificamos o mnimo (primeira nota) como
4,5, o mximo (ltima nota) como 6,5 e amplitude 2.
captulo 2
71
Utilizamos os somatrios das duas ltimas colunas da Tabela 2.6 para encontrar a varincia:
i=1xi2 fi
n
2 =
( i=1xi fi )2
234
(43)2
,
234 231125
2, 875
=
= 0, 36 ponto2
8
8
O desvio padro :
= 0, 36 = 0, 60 ponto
No Exemplo 2.9 utilizamos o desvio padro para comparar as notas dos dois
alunos, pois as mdias so iguais e as variveis em estudo so as mesmas (as
notas). Agora, quando queremos comparar as variabilidades de dois conjuntos
que apresentam mdias bem diferentes e cujas variveis em estudo so diferentes tambm, utilizamos uma medida de variabilidade denominada coeficiente
de variao. Veremos, no prximo item, como calcular esta medida.
72
captulo 2
EXEMPLO
2.10: A Tabela 2.7 apresenta as frequncias de nveis sricos de colesterol para homens, de
determinada cidade, entre 25 e 35 anos.
FREQUNCIA
80 | 120
13
1,21
120 | 160
150
14,02
160 | 200
442
41,31
200 | 240
299
27,94
240 | 280
115
10,75
280 | 320
34
3,18
320 | 360
360 | 400
Total
11
6
1.070
1,03
0,56
100,00
Tabela 2.11 Distribuio de frequncias de nveis sricos de colesterol para homens, entre
25 e 35 anos.
Vamos encontrar a varincia e o desvio padro para os dados apresentados na Tabela 2.7.
Resoluo
Acrescentando as trs colunas adicionais para os clculos, temos:
captulo 2
73
NVEL DE
COLESTEROL
(MG/100 ML)
FREQUNCIA
FREQUNCIA
RELATIVA (%)
xi
xi fi
xi2 fi
80 | 120
13
1,21
100
1.300
130.000
120 | 160
150
14,02
140
21.000
2.940.000
160 | 200
442
41,31
180
79.560
14.320.800
200 | 240
299
27,94
220
65.780
14.471.600
240 | 280
115
10,75
260
29.900
7.774.000
280 | 320
34
3,18
300
10.200
3.060.000
320 | 360
11
1,03
340
3.740
1.271.600
360 | 400
0,56
380
2.280
866.400
Total
1.070
100,00
213.760
44.834.400
Tabela 2.12 Clculos das colunas auxiliares para encontrar a varincia e o desvio padro.
s2 =
=
( i =1x i fi )2
n
n 2
x f
i =1 i i
n 1
44.834.400
( 213.760 )2
1.070
1.070 1
1.069
1.069
100ml
O desvio padro :
s
=
=
1.992,84 44,64
mg
100ml
74
captulo 2
2.3.1 Quartis
Como os quartis so medidas separatrizes precisamos, primeiramente, ordenar o conjunto de dados.
n
O primeiro quartil (Q1) ser a observao que ocupar a posio . O segun4
2n
do quartil (Q2) ser a observao que ocupar a posio
e o terceiro quartil
4
3n
(Q3) ser a observao que ocupar a posio
. Quando fazemos estas divi4
ses para encontrar as posies dos quartis, pode acontecer do resultado ser
um nmero inteiro ou um nmero fracionrio. Ento, adotaremos a seguinte
conveno:
Se a diviso resultar num nmero fracionrio, arredonde-o para cima e o
valor do quartil ser a observao encontrada nesta posio.
Se a diviso for um nmero inteiro, o quartil ser a mdia aritmtica da
observao que ocupar a posio encontrada com a observao que ocupar a
posio imediatamente seguinte.
EXEMPLO
2.11 Abaixo esto listadas as medidas de entrada calrica diria, registradas em quilocalorias
por quilograma, para uma amostra de adolescentes que sofrem de bulimia:
captulo 2
75
15,9
18,9
25,1
16,0
19,6
25,2
16,5
21,5
25,6
17,0
21,6
28,0
17,6
22,9
28,7
18,1
23,6
29,2
18,4
24,1
30,9
18,9
24,5
30,6
16,0
16,5
17,0
17,6
18,1
18,4
18,9
18,9
19,6
21,5
21,6
22,9
23,6
24,1
24,5
25,1
25,2
25,6
28,0
28,7
29,2
30,6
30,9
( )
24 24
=
=6.
4
4
Como a diviso resultou em um valor inteiro, o primeiro quartil ser o resultado da mdia
aritmtica entre o valor que est na sexta posio e o valor que est stima posio.
Q1 =
18,1 + 18, 4
= 18, 25
2
Ento, pelo menos 25% das observaes so menores ou iguais a 18,25 quilocalorias
por quilograma e, pelo menos, 75% das observaes so maiores ou iguais a 18,25 quilocalorias por quilograma.
( )
2
2 24
=
= 12
4
4
Como a diviso resultou em um valor inteiro, o segundo quartil ser o resultado da mdia
aritmtica entre o valor que est na dcima segunda posio e o valor que est na dcima
terceira posio.
Q2 =
21,6 + 22, 9
= 22, 25
2
Temos que pelo menos 50% das observaes so menores ou iguais a 22,25 quilocalorias por quilograma e pelo menos 50% das observaes so maiores ou iguais a 22,25
quilocalorias por quilograma.
( )
76
captulo 2
3 n 3 24
=
= 18
4
4
Como a diviso resultou em um valor inteiro, o terceiro quartil ser o resultado da mdia
aritmtica entre o valor que est na dcima oitava posio e o valor que est na dcima nona
posio.
Q3 =
25, 2 + 25,6
= 25, 4
2
Neste conjunto de dados, pelo menos 25% das observaes so maiores ou iguais
a 25,4 quilocalorias por quilograma e pelo menos 75% das observaes so menores ou
iguais a 25,4 quilocalorias por quilograma.
Assim como a mdia, o desvio padro no uma medida de disperso resistente. Para
conjunto de dados com valores discrepantes, uma medida de disperso alternativa ao
desvio padro uma medida denominada amplitude interquartil, ou distncia interquartil, definida como a diferena entre o terceiro e o primeiro quartil, ou seja, Dq = Q3 Q1.
No Exemplo 2.11, temos que a distncia interquartil Dq = Q3 Q1 =25,4 18,25=7,15.
Note que a amplitude interquartil contm, aproximadamente, 50% das observaes
centrais.
EXEMPLO
2.12: Uma pesquisa feita com 40 brasileiros com 16 anos e mais, durante 15 dias, teve como
objetivo saber quantas horas por dia eles usavam a internet, de segunda a sexta-feira. Os
dados obtidos foram:
captulo 2
77
2,4
2,7
2,9
3,1
3,3
3,5
3,5
3,8
3,9
4,0
4,0
4,1
4,2
4,3
4,4
4,4
4,6
4,8
4,9
5,0
5,0
5,0
5,2
5,3
5,4
5,5
5,7
5,9
6,0
6,1
6,2
6,3
6,5
6,6
6,7
6,8
6,8
7,0
7,1
7,1
Resoluo
O decil D6 ser a observao que ocupar a posio
(6x40 )
ordenados.
10
= 24 no conjunto de dados
Como a diviso resultou em um valor inteiro, o sexto decil ser o resultado da mdia
aritmtica entre o valor que est na vigsima quarta posio e o valor que est na vigsima
quinta posio.
D6 =
5, 3 + 5, 4
= 5, 35
2
Temos que pelo menos 60% das observaes so menores ou iguais a 5,35 horas.
( 87 40 )
O percentil P87 ser a observao que ocupar a posio
= 34, 8 no conjunto
100
de dados ordenados.
Como a diviso resultou em um valor fracionrio, vamos arredondar para 35. Portanto, o
percentil P87 o valor que est na trigsima quinta posio.
P87 = 6, 7
Neste conjunto de dados, pelo menos 13% das observaes so maiores ou iguais a
6,7 horas.
As medidas de ordenamento tambm podem ser calculadas para dados agrupados em
intervalos de classes. Os clculos so parecidos com aquele que utilizamos para calcular a
mediana. Vamos estud-los no prximo item.
78
captulo 2
Pk = linf +
k
hk
fk
k n
Faant
100
em que:
n: nmero total de observaes da distribuio de frequncias;
k: 1, 2 , ..., 99;
linf : limite inferior da classe encontrada;
k
hk: amplitude do intervalo;
Faant : frequncia acumulada anterior da classe Pk;
fk: frequncia absoluta da classe encontrada Pk.
Podemos utilizar esta frmula geral, pois Q1 = P25 ,Q2 = P50 e Q3 = P75 e
D1 = P10 ,D2 = P20 ,..., D9 = P90 .
EXEMPLO
2.13: Vamos utilizar os dados do Exemplo 2.6 para encontrar o Q1, D3 e P85
PESO (KG)
FREQUNCIA
FREQUNCIA ACUMULADA
40 | 45
45 | 50
25
33
50 | 55
50
83
55 | 60
40
123
60 | 65
20
143
Total
143
captulo 2
79
linf : 50
k
hk: 55 50 = 5
fk: 50
n: 143
Faant : 33
k: 25 (o primeiro quartil o vigsimo quinto percentil)
Pk = linf +
k
hk
fk
k n
Faant
100
5 25 143
33
50 100
5
= 50 +
( 35, 75 33)
50
5
= 50 +
( 2, 75) = 50, 275
50
P25 = 50 +
P25
P25
Ento, pelo menos 25% das observaes so menores ou iguais a 50,275 kg.
Terceiro Decil (D3)
O intervalo que contm o terceiro decil est associado frequncia acumulada imediak n 30 143
=
= 42, 9 . Pelo Quadro 2.4, temos que o intervalo que
100
100
contm o terceiro decil de 50 | 55 (pois fa = 83). Ento:
tamente superior
linf : 50
k
hk: 55 50 = 5
fk: 50
n: 143
Faant : 33
k: 30 (o primeiro quartil o vigsimo quinto percentil)
Pk = linf +
k
hk
fk
k n
Faant
100
5 30 143
33
50 100
5
= 50 +
( 9, 9 ) = 50, 99
50
P30 = 50 +
P30
80
captulo 2
hk: 60 55 = 5
fk: 40
n: 143
Faant : 83
k: 85
Pk = linf +
k
hk k n
Faant
fk 100
5 85 143
83
40 100
5
= 55 +
( 38, 55) = 59, 82
40
P85 = 55 +
P85
Por meio do P85, observamos que pelo menos 15% das observaes so maiores ou
iguais a 59,82 kg.
Agora que j sabemos calcular e interpretar as medidas de disperso e separatrizes, podemos utilizar estas informaes para construir um grfico denominado boxplot (diagrama de caixa). Este grfico construdo utilizando
os valores mnimo, mximo e os quartis. Estes valores so conhecidos como
resumo dos cinco nmeros. O boxplot informa, entre outras coisas, a posio,
variabilidade e simetria dos dados. A posio central dada pela mediana (Q2)
e a disperso pela amplitude interquartil (dq). Com as posies relativas de Q2
Q1, Q2 e Q3, temos ideia da assimetria da distribuio. A Figura 2.3 ilustra um
boxplot.
captulo 2
81
Os boxplots so particularmente teis quando temos interesse em comparar dois ou mais conjuntos de dados, especialmente quando so construdos na
mesma escala. Vamos verificar sua importncia atravs do exemplo a seguir.
82
captulo 2
EXEMPLO
2.14: Vamos utilizar os dados do Exemplo 2.9 para construir os boxplots associados a cada
um dos alunos.
captulo 2
83
PACIENTE
BATIMENTO CARDACO
167
150
125
120
150
150
40
136
120
10
150
Tabela 2.13 Batimentos cardacos para dez pacientes asmticos em estado de parada
respiratria. Fonte: PAGANO; GAUVREAU (2004, p. 49).
Para a construo do boxplot, vamos seguir a descrio que est logo aps a Figura 2.2.
Precisaremos dos quartis, ento vamos ordenar os dados:
40
120
120
125
136
150
150
150
150
167
Agora, temos as informaes necessrias para encontrar o limite superior (LS) e limite
inferior (LI):
84
captulo 2
L S = Q3 + (15
, ) dq
LS = 150 + (15
, ) 30 = 195
e
LI = Q1 (15
, ) dq
LI = 120 (1, 5) 30 = 75
captulo 2
85
Q1 + Q3 2 Q2
Q3 Q1
em que:
Q1: primeiro quartil
Q2: segundo quartil
Q3: terceiro quartil
Se:
1. AS = 0: distribuio simtrica (a mdia, a moda e a mediana so iguais)
86
captulo 2
2. AS > 0: distribuio assimtrica positiva ou assimtrica direita (em geral, a mdia maior que a mediana, que maior que a moda).
3. AS < 0: distribuio assimtrica negativa ou assimtrica esquerda (em
geral, a mdia menor que a mediana, que menor que a moda).
Alm do estudo da simetria da distribuio, podemos ter interesse em estudar o grau de achatamento ou alongamento da distribuio. De acordo com
a anlise das formas das distribuies, podemos classific-las das seguintes
maneiras:
Platicrtica
Mesocrtica
Leptocrtica
O grau de curtose pode ser medido por meio da seguinte frmula:
k=
Q3 Q1
2 (P90 P10 )
em que:
Q1: primeiro quartil
Q3: terceiro quartil
P10: dcimo percentil
P90: nonagsimo percentil
Dependendo do valor encontrado para o coeficiente de curtorse, a distribuio ser classificada da seguinte maneira:
1. k = 0,263: distribuio mesocrtica, ou seja, nem chata nem delgada.
2. k > 0,263: distribuio leptocrtica, ou seja, delgada.
3. k < 0,263: distribuio platicrtica, ou seja, achatada.
EXEMPLO
2.16 Os dados abaixo representam as vendas ( 1 000 reais) de uma amostra de vendedores de produtos hospitalares de uma determinada empresa.
captulo 2
87
Figura 2.6 Histograma para a varivel vendas mensais de uma amostra de vendedores de
produtos hospitalares de uma empresa.
VENDAS MENSAIS
( 1 000)
NMERO DE
VENDEDORES
0 | 300
300 | 600
24
29
600 | 900
48
77
900 | 200
22
99
1 200 | 1 500
103
Total
103
88
FREQUNCIA
ACUMULADA
captulo 2
Primeiro Quartil
A primeira informao que precisamos saber qual intervalo contm o primeiro quartil. Este intervalo est associado frequncia acumulada imediatamente superior
k n 25 103
=
= 25, 75 . O valor de k igual a 25, pois Q1 = P26, ou seja, estamos calculan100
100
do o vigsimo quinto percentil. Pelo Quadro 2.5, temos que o intervalo que contm o primeiro
quartil de 300 | 600 (pois fa = 29).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:
linf : 300
k
hk
fk
k n
Faant
100
300 25 103
5
24 100
300
= 300 +
( 25, 75 6 )
24
300
= 300 +
(19, 75) = 546, 875
24
P25 = 300 +
P25
P25
Segundo Quartil
k n 50 103
Como
=
= 515
, , temos que o intervalo que contm o segundo quartil de
100
100
600 | 900 (pois fa = 77). Ento:
linf : 600
k
captulo 2
89
Pk = linf +
k
hk
fk
k n
Faant
100
300 50 103
29
48 100
300
= 600 +
( 22, 5) = 740, 625
48
P50 = 600 +
P50
Terceiro Quartil
Seguindo o mesmo procedimento utilizado para encontrar o intervalo que contm o primeiro quartil, temos que o intervalo que contm o terceiro quartil est associado frequncia
k n 75 103
acumulada imediatamente superior
=
= 77, 25 . O valor de k igual a 75, pois
100
100
Q3 = P75. Pelo Quadro 2.5, temos que o intervalo que contm o terceiro quartil de 900 |
1 200 (pois fa = 99).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:
linf : 900
k
hk k n
Faant
fk 100
300 75 103
77
22 100
300
= 900 +
( 77, 25 77)
22
300
= 900 +
( 0, 25) = 900 + 3,4
409 = 903, 409
22
P75 = 900 +
P75
P75
90
captulo 2
Faant : 5
k: 10
Pk = linf +
k
hk
fk
k n
Faant
100
300 10 103
5
24 100
300
P10 = 300 +
( 5, 3) = 366, 25
24
P10 = 300 +
hk
fk
k n
Faant
100
300 90 103
77
22 100
300
= 900 +
(15, 7) = 1114, 09
22
P90 = 900 +
P90
Q1 + Q3 2 Q2
Q3 Q1
captulo 2
91
Apesar do AS > 0, o valor encontrado est bem prximo do zero, ento, podemos considerar a distribuio aproximadamente simtrica, comprovando o que havamos interpretado
por meio do histograma.
Calculando o coeficiente de curtose:
k=
Q3 Q1
2 (P90 P10 )
k=
k=
290, 42
356, 534
=
= 0,194
2 ( 747, 84 ) 1495, 68
92
captulo 2
captulo 2
93
Figura 2.10 Resumo estatstico dos salrios de enfermeiros padro nas cidades de So
Paulo e Belo Horizonte.
94
captulo 2
REFLEXO
Neste captulo aprendemos diversas medidas que so utilizadas para gerar informaes estatsticas de conjuntos de dados quantitativos. Alm de saber calcul-las, o mais importante
conseguir interpretar os resultados obtidos e identificar em quais situaes uma medida
pode ser mais representativa que outra. E, no podemos esquecer que o clculo de uma
medida resumo isoladamente pode no ser til na comparao de dois ou mais conjuntos de
dados, pois eles podem ter, por exemplo, mesma mdia, mas variabilidades completamente
diferentes. Em situaes como esta, uma anlise mais completa necessita do clculo do
desvio padro e do coeficiente de variao.
LEITURA
No endereo http://m3.ime.unicamp.br/recursos/1315 voc ter a oportunidade de ouvir
dois mdulos que exploram um problema envolvendo mdias ponderadas e que ressalta o
cuidado que devemos ter quando utilizamos a mdia como nica informao.
REFERNCIAS BIBLIOGRFICAS
ARANGO, Hctor G. Bioestatstica Terica e Computacional. Rio de Janeiro: Editora Guanabara
Koogan S.A., 2001.
BRUNI, Adriano L. Estatstica Aplicada Gesto Empresarial. 2. ed. So Paulo: Atlas, 2010.
BUSSAB, Wilton de O. ; MORETTIN, Pedro A. Estatstica Bsica. 5. ed. So Paulo: Saraiva, 2002.
captulo 2
95
96
captulo 2
3
Distribuio de
Probabilidade
Normal
OBJETIVOS
Esperamos que, atravs dos conhecimentos aprendidos neste captulo, voc seja capaz de:
Compreender o conceito de varivel aleatria contnua;
Compreender as caractersticas da curva normal, fazer a transformao de uma varivel
aleatria que tem distribuio normal em uma varivel aleatria Z e encontrar probabilidades
por meio da tabela da distribuio normal padro.
98
captulo 3
2.
captulo 3
99
3.
4.
Dois parmetros, e , determinam completamente o aspecto de uma curva normal. A mdia () informa a localizao do eixo de simetria e o desvio padro () descreve quanto os dados se espalham em torno da mdia.
A curva normal tem dois parmetros, e . Eles determinam a posio e a forma da
distribuio.
As curvas normais a, b e c apresentam mdias iguais (por isto esto localizadas na mesma posio no eixo x), mas apresentam desvios padro diferentes
(por isto a curva c, que apresenta maior desvio padro, mais achatada e a curva
a, que apresenta menor desvio padro, mais fechada em torno da mdia).
A curva d apresenta mdia diferente das outras curvas, por isto est localizada numa posio diferente no eixo x.
100
captulo 3
A Figura 3.1 nos mostra que temos uma famlia de distribuies normais,
diferenciadas por suas mdias e desvios padres.
Para obtermos a curva da distribuio normal, utilizamos a seguinte funo densidade
de probabilidade:
2
1 x
1
f (x ) =
e 2
2
em que < x < . Valores especficos para e geram diferentes curvas, como as
apresentadas na Figura 3.1. A maneira de fazer o grfico a mesma que utilizamos
para qualquer funo que relaciona x e y ou x e f (x).
Como a rea total sob a curva de densidade igual a 1, existe uma correspondncia entre rea e probabilidade (TRIOLA, 2008, p. 196).
Quando utilizamos a funo densidade de probabilidade da distribuio
normal para fazer clculos, percebemos que valores mais fceis para e so
= 0 e = 1. Considerando estes valores para os parmetros, matemticos
calcularam diferentes reas sob a curva, que so apresentadas em uma tabela.
Como existe uma correspondncia entre rea e probabilidade, utilizamos a tabela para encontrar probabilidades.
A distribuio normal cuja mdia zero e varincia 1 chamada distribuio
normal reduzida ou distribuio normal padronizada e indicada pela letra Z.
De acordo com VIEIRA (2008, p. 213).
A distribuio normal reduzida tem grande importncia:
1.
belas, o que torna fcil saber as probabilidades associadas a essa distribuio. Basta
procurar na tabela.
2.
captulo 3
101
102
captulo 3
EXEMPLO
3.1: Seja X ~N (50,25). Calcular:
f)
P (50 x 56)
g)
P (39 x 57)
h)
P (62 x 64)
i)
P (X 58)
Resoluo
Primeiro, precisamos saber interpretar X ~N (50,25). Lemos da seguinte maneira: a
varivel aleatria X tem distribuio normal com mdia 50 e varincia 25. Como, precisamos
do desvio padro para utilizar na transformao, = 2 = 25 = 5 .
a)
P (50 x 56)
Agora, hachuramos a rea do intervalo que queremos encontrar (50 x 56) na curva
normal.
50 50
=0
5
56 50 6
Z2 =
= = 12
,
5
5
Z1 =
captulo 3
103
Vamos aprender a encontrar a rea (probabilidade) por meio da tabela. Na primeira coluna da esquerda (z) identificamos o nmero que obtemos na transformao com uma casa
decimal e, a segunda casa decimal do nmero, est nas colunas (0 a 9). O nmero 1,2 igual
a 1,20, ou seja, a segunda casa decimal 0. Vamos linha 1,2 e na coluna 0. O nmero
encontrado 0,3849. Ento:
P ( 50 X 56 ) = P ( 0 Z 12
, ) = 0, 3849
104
captulo 3
b)
P (39 x 57)
Ento:
P ( 39 X 57) = P ( 2, 2 Z 0 ) + P ( 0 Z 14
, ) = 0, 4861+ 0, 4192
= 0, 9053
captulo 3
105
c)
P (62 x 64)
Transformando:
62 50
= 2, 4
5
64 50
Z2 =
= 2, 8
5
Z1 =
O objetivo deste item alertar para o fato que a tabela fornece a rea do zero ao valor
tabelado. A rea hachurada neste item no corresponde rea fornecida diretamente na
tabela. Ento, como encontramos a rea procurada? Se encontrarmos a rea 0 Z 2,8
e a rea 0 Z 2,4 (que so obtidas na tabela) e subtrairmos as duas reas, encontramos
justamente a rea hachurada!
106
captulo 3
Portanto:
P ( 62 X 64 ) = P ( 2, 4 Z 2, 8 ) = P ( 0 Z 2, 8 ) P ( 0 Z 2, 4 )
P ( 62 X 66 ) = 0,4
4974 0, 4918 = 0, 0056
d)
P (X 58)
Transformando:
Z=
58 50
= 16
,
5
captulo 3
107
Neste item, tambm temos que encontrar uma rea que no fornecida diretamente pela tabela. Como a rea total sob a curva 1 e a distribuio simtrica, temos que
P (Z 0) = P (Z 0). Ento:
P ( X 58 ) = P ( Z 16
, ) = P ( Z 0 ) P ( 0 Z 16
, ) = 0, 5 0, 4452 = 0, 0548
3.2: A taxa de glicose no sangue humano uma varivel aleatria com distribuio normal de
mdia = 100 mg por 100 ml de sangue e desvio padro = 6 mg por 100 ml de sangue.
Calcule a probabilidade de um indivduo apresentar taxa:
a)
b)
Resoluo
X: taxa de glicose no sangue humano
X ~ N (100, (62))
108
captulo 3
a)
P (X > 100)
X 110 100 10
,
=
=
= 167
6
6
P ( 90 X 100 ) = P ( 167
, Z 0 ) = 0, 4525
captulo 3
109
b)
P (90 x 100)
Transformando:
Z=
10
X 90 100
,
=
=
= 167
6
6
P ( 90 X 100 ) = P ( 167
, Z 0 ) = 0, 4525
3.3: Uma fbrica de chocolate comercializa barras que pesam em mdia 200g. Os pesos so
normalmente distribudos. Sabe-se que o desvio-padro igual a 40g. Calcule a probabilidade de uma barra de chocolate escolhida ao acaso:
110
captulo 3
a)
b)
c)
d)
a)
P (200 x 250)
40
X 250 200 50
=
=
= 125
Z2 = 2
,
40
40
Z1 =
captulo 3
111
b)
P (170 x 200)
Transformando:
X1 170 200 30
=
=
= 0, 75
40
40
X 200 200 0
=
=
=0
Z2 = 2
40
40
Z1 =
P (X 200)
112
captulo 3
Z1 =
X1 230 200 30
=
=
= 0, 75
40
40
d)
P (X 150)
Transformando:
Z1 =
X1 150 200
50
,
=
=
= 125
40
40
P ( X 150 ) = P ( Z 125
, ) = 0, 5 P ( 125
, Z 0 ) = 0, 5 0, 3944 = 0,1056
captulo 3
113
3.4: Uma clnica de emagrecimento recebe pacientes adultos com peso seguindo uma distribuio
Normal com mdia 130 kg e desvio padro 20 kg. Para efeito de determinar o tratamento mais adequado, os 25% pacientes de menor peso so classificado de magros, enquanto os 25% de maior
peso de obesos. Determine os valores que delimitam cada uma dessas classificaes.
Fonte: MAGALHES;LIMA (2004, p. 203).
Resoluo
Este exerccio, diferentemente dos anteriores, fornece a rea (probabilidade) e precisamos encontrar os valores crticos.
Do enunciado:
X: peso de paciente adultos
X ~ N (130,(202))
Construmos a curva normal desta maneira, pois o enunciado informa: os 25% pacientes
de menor peso so classificado de magros, enquanto os 25% de maior peso, de obesos.
Encontrar os valores que delimitam cada uma destas classificaes significa ter que
encontrar X1 e X2.
De acordo com a distribuio normal reduzida:
114
captulo 3
Para encontrarmos estes valores, precisamos encontrar a rea = 0,25 dentro da tabela e
verificar qual o valor crtico associado a esta rea.
No corpo da tabela no h a rea = 0,25, exatamente, ento, selecionamos os dois valores mais prximos (0,2486 e 0,2517). O valor crtico associado a estas duas reas 0,678.
Utilizando a transformao da varivel X na varivel Z:
X1
X 130
0, 678 = 1
20
X1 130 = 13, 56
Z1 =
X1 = 13, 56 + 130
X1 = 116,4
44 kg
em que: zc = Z1
X 2
X 130
0, 678 = 2
20
X 2 130 = 13, 56
Z2 =
X 2 = 13, 56 + 130
X 2 = 143, 56 kg
em que: zc = Z2
Os pacientes so classificados como magros se pesam at 116,44 kg e so classificados como obesos se pesam pelo menos 143,56 kg.
captulo 3
115
3.5: Nos dias atuais, dor crnica nas costas tornou-se frequente em crianas que carregam
mochilas muito cheias e pesadas. As crianas tm o hbito de carregar livros escolares, notebooks, estojos, calculadoras, entre outros, tudo amontoado dentro da mochila, fazendo com
que a chance de ocorrer algum espasmo muscular nos ombros e no pescoo e dor na coluna
aumente. Uma pesquisa mostrou que o peso total carregado diretamente proporcional ao
volume da mochila. O volume de uma mochila vendida comercialmente segue uma distribuio normal com mdia 10 litros e desvio padro 1,8 litros. Encontre um intervalo simtrico
em torno da mdia, tal que 80% de todos os volumes de mochilas fiquem neste intervalo.
Resoluo
Do enunciado:
X: volume das mochilas
X ~N (10,(1,82))
Encontrar um intervalo simtrico em torno da mdia tal que 80% de todos os volumes
fiquem neste intervalo, significa encontrar X1 e X tal que:
116
captulo 3
Para encontrarmos estes valores, precisamos encontrar a rea = 0,40 dentro da tabela
e verificar qual o valor crtico associado a esta rea.
No corpo da tabela no h a rea = 0,40, exatamente, ento, selecionamos os dois valores mais prximos (0,3997 e 0,4015). O valor crtico associado a estas duas reas 1,285.
Utilizando a transformao da varivel X na varivel Z:
X1
X 10
1285
= 1
,
18
,
X1 10 = 2, 313
Z1 =
X1 = 2, 313 + 10
X1 = 7, 687 litros
em que: zc = Z1
X 2
X 10
1285
= 2
,
18
,
X 2 10 = 2, 313
Z2 =
X 2 = 2, 313 + 10
X 2 = 12, 313 litros
captulo 3
117
em que: zc = Z2
Portanto, 80% das mochilas tm volume entre 7,687 e 12,313 litros.
2 Passo: Aps clicar em DIST.NORM.N aparecer uma janela onde teremos que colocar os argumentos da funo. Vamos calcular as probabilidades
no Excel utilizando os dados do Exemplo 3.3.
X ~ N (200,(402))
118
captulo 3
d) P (200 x 250)
captulo 3
119
120
captulo 3
J sabemos que P (x 200) = 0,5 ento, vamos calcular por meio do Excel
P (x 170).
captulo 3
121
Ento:
P (170 X 200 ) = P ( X 200 ) P ( X 170 )
P (170 X 200 ) = 0, 5 0, 226627 = 0,2
273373
f)
P (x 230)
122
captulo 3
captulo 3
123
Ento:
P ( X 230 ) = ` rea total P ( X 230 )
P ( X 230 ) = 1 0, 773373 = 0, 226627
Obs.: O valor da probabilidade igual a 1 aparece, pois a rea total sob a curva
normal 1.
g) P (x 150)
Esta probabilidade fornecida diretamente pelo argumento Cumulativo.
Portanto:
P ( X 150 ) = 0,10565
REFLEXO
Durante todo este captulo nos dedicamos a estudar a distribuio normal. Aprendemos que,
para encontrar a probabilidade de uma varivel aleatria que segue o modelo normal assumir
determinados valores, precisamos utilizar a distribuio normal padro (para encontrar probabilidades diretamente da tabela). Alm de encontrar probabilidades, no podemos esquecer
124
captulo 3
quais as caractersticas da curva normal, pois esta distribuio exigida em muitas tcnicas
da inferncia estatstica e, com isso, precisaremos saber identificar se os dados amostrais
so provenientes de uma populao normal.
LEITURA
No endereo http://m3.ime.unicamp.br/recursos/1332 voc encontrar comentrios em
dois udios, primeiro mdulo e segundo mdulo, sobre a curva gaussiana (curva em forma de
sino) e uma discusso envolvendo conceitos de mdia e mediana.
REFERNCIAS BIBLIOGRFICAS
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MAGALHES, Marcos N.; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
Disponvel em: < http://www.cultura.ufpa.br/dicas/biome/bionor.htm >. Acesso em: 01 jun. 2015.
NOIMAN, Caroline; OLIVEIRA, Samuel R.; SARTI, Luis R. Disponvel em:
< http://m3.ime.unicamp.br/recursos/1332 >. Acesso em: 01 jun. 2015.
captulo 3
125
126
captulo 3
4
Teste de
Hipteses
OBJETIVOS
Com a tcnica estudada neste captulo, esperamos que voc seja capaz de:
Compreender os fundamentos do teste de hipteses;
Distinguir os erros do tipo I e do tipo II;
Realizar um teste de hipteses para verificar a diferena entre duas mdias populacionais,
no caso de amostras dependentes;
Realizar um teste de hipteses para verificar a diferena entre duas mdias populacionais,
no caso de amostras independentes.
128
captulo 4
H
:
1 > k
=k
H 0 :
H
:
1 <k
=k
H :
0
H
1 k
captulo 4
129
EXEMPLO
4.1: Identifique as hipteses que esto sendo testadas em cada caso.
a)
Um fabricante afirma que sua vacina previne 85% dos casos de certa doena. Um gru-
H0 : p = 0, 85
H1 : p < 0, 85
Indicamos a proporo populacional por p. O fabricante faz uma afirmao sobre o pa-
rmetro populacional, ou seja, que a proporo de casos prevenidos pela vacina de 85%.
Como o grupo de mdicos desconfia que a vacina no to eficiente assim (ou seja, que a
proporo menor que 85%), definimos a hiptese alternativa como p > 0,85.
b)
H0 : = 40
H1 : 40
H0 : = 65
H1 : < 65
130
captulo 4
H0 verdadeira
H0 falsa
Rejeitar H0
Erro do tipo I
Deciso correta
No rejeitar H0
Deciso correta
Erro do tipo II
A probabilidade de cometermos o erro do tipo I denotada por e a probabilidade de cometermos o erro do tipo II denotada por . Desejamos que
as probabilidades e sejam prximas de zero, mas a teoria nos mostra que,
captulo 4
131
ou
t=
x
s
n
Podemos observar que esta estatstica de teste pode se basear na distribuio normal ou na distribuio t de Student. A utilizao de uma estatstica ou
de outra depende de algumas condies que devem ser satisfeitas, que estudaremos a seguir.
A forma da distribuio t de Student parecida com a da distribuio normal: tem mdia
t = 0, como a distribuio normal padronizada, com mdia ; simtrica, mas apresenta
caudas mais alongadas, ou seja, maior variabilidade do que a normal. Quando aumentamos o tamanho da amostra, a distribuio t de Student tende para a distribuio normal.
132
captulo 4
ESTATSTICA DE TESTE
z=
t=
n
x
s
n
CONDIES
- A amostra uma amostra aleatria simples.
- O valor do desvio padro populacional conhecido.
Pelo menos uma das condies seguintes verdadeira: a populao
normalmente distribuda ou n > 30.
- A amostra uma amostra aleatria simples.
- O valor do desvio padro populacional no conhecido.
Pelo menos uma das condies seguintes verdadeira: a populao
normalmente distribuda ou n > 30.'
O nmero de graus de
liberdade (g.l.) n 1
Nota: Critrios para decidir se a populao ou no normalmente distribuda: A populao no
precisa ser exatamente normal, mas deve parecer simtrica de alguma forma e sem outliers. O teste
t robusto contra um afastamento da normalidade, ou seja, o teste funciona razoavelmente bem se o
afastamento no for extremo.
VALOR CRTICO
captulo 4
133
Figura 4.2 Testes bilateral, unilateral esquerda e unilateral direita.Fonte: TRIOLA (2008,
p. 313).
134
captulo 4
Quando estamos realizando testes bilaterais, devemos dividir igualmente o nvel de significncia entre as duas caudas que constituem a regio crtica. Por exemplo, em um
teste bilateral com nvel de significncia = 0,05, h uma rea de 0,025 em cada uma
das caudas. Para testes que so unilaterais esquerda ou direita, a rea da regio
crtica na cauda respectiva .
Valor P
Rejeitar H0 se o valor P .
Deixar de rejeitar H0 se o valor P > .
Agora que j sabemos quais as etapas que devemos seguir para a realizao
de um teste de hipteses, vamos apresentar, a seguir, um sumrio.
1.
2.
3.
4.
5.
captulo 4
135
EXEMPLO
4.2: Um laboratrio farmacutico lanou no mercado um novo medicamento contra dor de
cabea, retirando de circulao o antigo, com a justificativa que este novo medicamento tem
ao mais rpida. O antigo medicamento tinha um tempo mdio de 30 minutos para o incio
do efeito. Em uma amostra aleatria de 35 pessoas que tomaram o novo medicamento, obteve-se um tempo mdio de 27 minutos, com desvio padro de 4 minutos. Testar a eficcia
do novo medicamento, ao nvel de 5%.
Resoluo
Neste estudo, temos uma amostra aleatria de 35 pessoas. No conhecemos o desvio
padro populacional e o tamanho amostral n > 30. Portanto, os requisitos necessrios
para a realizao do teste de hipteses para a mdia populacional com desconhecido
esto satisfeitos.
Agora, seguiremos os passos necessrios para a realizao do teste:
1.
Hipteses:
2.
O nvel de significncia = 50
3.
A estatstica de teste :
t=
x 27 30
3
=
=
= 4, 4371
s
4
0, 676123
n
35
4.
5.
O valor crtico :
0.50
0.20
0.10
0.05
0.04
0.02
0.01
0.005
0.001
31
32
33
34
0.682
0.682
0.682
0.682
1.309
1.309
1.308
1.307
1.696
1.694
1.692
1.691
2.040
2.037
2.035
2.032
2.144
2.141
2.138
2.136
2.453
2.449
2.445
2.441
2.744
2.738
2.733
2.728
3.022
3.015
3.008
3.002
3.633
3.622
3.611
3.601
136
captulo 4
0.682
0.681
0.677
1.306
1.306
1.289
1.690
1.688
1.658
2.030
2.028
1.980
2.133
2.131
2.076
2.438
2.434
2.358
2.724
2.719
2.617
2.996
2.990
2.860
3.591
3.582
3.373
0.674
0,25
1.282
0,10
1.645
0,05
1.960
0,025
2.054
0,02
2.326
0,01
2.576
0,005
2.807
0,0025
3.290
0,0005
Concluso:
Como o teste unilateral esquerda (pois, H1 contm o sinal <), o valor crtico encontrado levando em conta o nvel de significncia que est na ltima linha da tabela. Por isto
escolhemos a terceira coluna ( = 0,05).
Rejeitamos H0 se t = tc. Como 4,4371 < 1,691, a estatstica de teste est na rea de
rejeio. Portanto, rejeitamos H0, ou seja, os dados amostrais fornecem evidncias suficientes para se concluir que o tempo mdio de ao do novo medicamento inferior ao tempo
mdio de ao do antigo medicamento.
4.3: Um experimento foi conduzido para estudar o nvel mdio de colesterol no sangue. Em
uma amostra aleatria de 50 pacientes, a mdia amostral encontrada foi 268 mg/100 ml.
Estudos anteriores nos informam que o desvio padro populacional = 60 mg/100ml.
Teste a hiptese de que = 260, contra a alternativa de que > 260. Utilize um nvel de 5%.
Resoluo
Neste estudo, temos uma amostra aleatria de 50 pacientes. Conhecemos o desvio padro populacional e o tamanho amostral n > 30. Portanto, os requisitos necessrios para
a realizao do teste de hipteses para a mdia populacional com conhecido esto satisfeitos.
captulo 4
137
Hipteses:
= 260
H0 :
H
:
>
260
1
2.
3.
A estatstica de teste :
z=
4.
x 268 260
8
8
=
=
=
= 0, 9428
60
60
8, 485243
7, 0711
n
50
O valor crtico :
Concluso:
138
captulo 4
Como o teste unilateral direita (pois, H1 contm o sinal >) e a rea de z = 0 at o final
da cauda direita 0,5, temos que 0,5 0,05 = 0,45. Devemos encontrar o valor 0,45 (ou
valores prximos a este) no corpo da tabela. Portanto, o valor crtico z = 1,645.
Rejeitamos H0 se z > zc. Como 0,9428 > 1,645, a estatstica de teste no est na rea de
rejeio. Portanto, no rejeitamos H0, ou seja, os dados amostrais no fornecem evidncias
suficientes para se concluir que o nvel mdio de colesterol maior que 260 mg/100 ml.
captulo 4
139
H1 : 1 2
H0 : 1 2
,
H1 : 1 > 2
H0 : 1 2
H1 : 1 < 2
H0 : 1 2 = 0
,
H1 : 1 2 0
H0 : 1 2 0
,
H1 : 1 2 > 0
H0 : 1 2 0
H1 : 1 2 < 0
140
captulo 4
2.
3.
4.
trais so ambos grandes (com n1 > 30 e n2 > 30) ou ambas as amostras provm de
populaes com distribuies normais (Para amostras pequenas, a exigncia de normalidade relaxada, no sentido de que os procedimentos funcionam bem, desde que
no haja outliers e o afastamento da normalidade no seja extremo).
x1 x 2 (
1
2)
s12 s22
+
n1 n2
captulo 4
141
s12 s22
+
n n
g .l . = 12 2 2
s12
s22
n1 + n2
n1 1 n2 1
Apesar dos dois mtodos resultarem, geralmente, em nmeros diferentes de graus de
liberdade, a concluso do teste raramente afetada pela escolha.
EXEMPLO
4.4: Dois grupos de indivduos participaram de um experimento planejado para testar o efeito da frustrao sobre a agressividade. O grupo experimental de 35 indivduos, escolhidos
aleatoriamente, recebeu um quebra-cabea frustrante para resolver, enquanto o grupo de
controle de 35 indivduos, escolhidos aleatoriamente, recebeu uma verso no frustrante do
mesmo quebra cabea. Mediu-se, ento, o nvel de agressividade para ambos os grupos. Enquanto o grupo experimental (frustrao) acusou um escore mdio de agressividade x1 = 5
e um desvio padro S1 = 2,4, o grupo de controle (no frustrao) teve um escore mdio de
agressividade x2 = 3 e um desvio padro S2 = 1,5 (escores mdios mais altos indicam maior
agressividade). Com esses resultados, teste a hiptese nula de que no h diferena quanto
agressividade entre as condies de frustrao e no frustrao. O que o resultado desse
teste indica? Utilizar = 0,05.
Fonte: Adaptado (LEVIN, 2004, p. 259).
142
captulo 4
Resoluo
Neste estudo, temos duas amostras independentes, que foram selecionadas aleatoriamente. No conhecemos os desvios padres das duas populaes e no h suposies
sobre a igualdade destes desvios. Os tamanhos amostrais so grandes (com n1 > 30 e
n2 > 30). Portanto, os requisitos necessrios para a realizao do teste de hipteses para
amostras independentes com desvios padres desconhecidos e diferentes esto satisfeitos.
GRUPO EXPERIMENTAL
GRUPO DE CONTROLE
x1 = 5
x2 = 3
S = (2,4) = 5,76
S = (1,5)2 = 2,25
n1 = 36
n2 = 35
2
1
2
2
Hipteses:
H0 : 1=
2
2
H1 : 1
2.
3.
A estatstica de teste :
t=
x1 x 2 ( 1
2)
s12
n1
4.
s22
n2
530
2
2
=
=
= 4,1807
5, 76 2, 25
0, 228857143 0, 478390
+
35
35
O nmero de graus de liberdade o menor entre n1 e n2. Como os dois tamanhos amos-
0.50
0.683
0.683
0.682
0.20
1.311
1.310
1.309
0.10
1.699
1.697
1.696
0.05
2.045
2.042
2.040
0.04
2.150
2.147
2.144
0.02
2.462
2.457
2.453
0.01
2.756
2.750
2.744
0.005
3.038
3.030
3.022
captulo 4
0.001
3.660
3.646
3.633
143
0.682
0.682
0.682
0.682
0.681
1.309
1.308
1.307
1.306
1.306
1.694
1.692
1.691
1.690
1.688
2.037
2.035
2.032
2.030
2.028
2.141
2.138
2.136
2.133
2.131
2.449
2.445
2.441
2.438
2.434
2.738
2.733
2.728
2.724
2.719
3.015
3.008
3.002
2.996
2.990
3.622
3.611
3.601
3.591
3.582
Concluso:
144
captulo 4
( n1 1) s12 + ( n2 1) s22
n1 + n2 2
Este valor chamado estimador combinado de Image, pois combina as informaes de ambas as amostras.
De acordo com TRIOLA (2008, p. 378), os requisitos necessrios para a realizao deste teste so:
1.
3.
4.
so ambos grandes (com n1 > 30 e n2 > 30) ou ambas as amostras provm de populaes com distribuies normais (Para pequenas amostras, a exigncia de normalidade
relaxada, no sentido de que os procedimentos funcionam bem, desde que no haja
outliers e os desvios da normalidade no sejam acentuados).
x1 x 2 (
1
2 )
sp
1 1
+
n1 n2
captulo 4
145
tamanhos amostrais e poderes dos testes e concluem que o esforo deve ser
empregado em aprender o mtodo descrito no item 4.3.1.1 (desvios padres
desconhecidos e diferentes).
A menos que algum problema e/ou exerccio j fornea alguma informao
sobre desvios padres desconhecidos e iguais, vamos trat-los como diferentes
e usar o mtodo descrito no item 4.3.1.1.
EXEMPLO
4.5: Um estudo foi conduzido para determinar se a fumaa de cigarro de uma gestante
tem algum efeito no contedo mineral sseo da criana por ela gerada, sob outros aspectos saudveis. Uma amostra aleatria de 77 recm-nascidos cujas mes fumaram durante
a gravidez tem um contedo mineral mdio sseo de x1 = 0,098 g/cm e desvio padro
S1 = 0,026 g/cm; uma amostra aleatria de 161 bebs cujas mes no fumavam tem mdia
x2 = 0,095 g/cm e desvio padro S2 = 0,025 g/cm. Assuma que as varincias das populaes originais sejam iguais. Estabelea as hipteses nula e alternativa para o teste bilateral
e conduza o teste ao nvel de significncia 0,05. O que podemos concluir?
Fonte: PAGANO (2004, p. 250).
Resoluo
Temos duas amostras independentes, que foram selecionadas aleatoriamente. Os tamanhos amostrais so grandes (com n1 > 30 e n2 > 30) e os desvios padres so desconhecidos, mas, supostamente iguais (o enunciado informa que devemos assumir que as varincias
das populaes so iguais). Portanto, os requisitos necessrios para a realizao do teste de
hiptese para amostras independentes com desvios padres desconhecidos e iguais esto
satisfeitos.
AMOSTRAS
Mes que fumaram
durante a gravidez
Mes que no fumaram
durante a gravidez
77
0,098
0,026
161
0,095
0,025
Hipteses:
1 =
H0 :
2
H
2
0 1
146
captulo 4
3.
A estatstica de teste :
t=
x1 x 2 (
1
2 )
sp
1 1
+
n1 n2
em que:
sp2 =
=
77 + 161 2
236
0,151376
= 0, 0006414
236
e
sp = 0, 0006414 = 0, 02533
Ento:
t=
x1 x 2 (
1
2 )
sp
1 1
+
n1 n2
0, 003
0, 098 0, 095
0, 003
=
= 0, 8548
=
0, 02533 0,138558 0, 0035096
1
1
0, 02533
+
77 161
4.
5.
0.50
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.20
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
0.10
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
0.05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
0.04
15.894
4.849
3.482
2.999
2.757
2.612
2.517
2.449
0.02
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
0.01
63.656
9.925
5.841
4.604
4.032
3.707
3.499
3.355
0.005
0.001
127.321 636.578
14.089 31.600
7.453
12.924
5.598
8.610
4.773
6.869
4.317
5.959
4.029
5.408
3.833
5.041
captulo 4
147
6.
0.677
0.677
0.674
0,25
1.289
1.289
1.282
0,10
1.659
1.658
1.645
0,05
1.982
1.980
1.960
0,025
2.078
2.076
2.054
0,02
2.361
2.358
2.326
0,01
2.621
2.617
2.576
0,005
2.865
2.860
2.807
0,0025
3.381
3.373
3.290
0,0005
Concluso
Como o teste bilateral, rejeitamos H0 se t < tc ou t > tc. Como 0,85 > 1,96, a estatstica
de teste no est na rea de rejeio. Portanto, no rejeitamos H0, ou seja, os dados amostrais no fornecem evidncias suficientes para apoiar a afirmativa de a fumaa de cigarro de
uma gestante tem algum efeito no contedo mineral sseo da criana por ela gerada.
2.
3.
4.
so ambos grandes (com n1 > 30 e n2 > 30) ou ambas as amostras provm de popula
148
captulo 4
x1 x 2 (
1
2 )
12 22
+
n1 n2
Figura 4.3 Mtodos para inferncia sobre duas mdias independentes. Fonte: TRIOLA (2003).
captulo 4
149
2.
3.
dados grande (n > 30) ou os pares tm diferenas que so provenientes de uma populao com distribuio aproximadamente normal. (Se houver um afastamento radical
de uma distribuio normal, no devemos usar os mtodos deste item, mas devemos
usar mtodos no paramtricos).
d
d
sd
n
150
captulo 4
EXEMPLO
4.6: Um estudo foi realizado com o objetivo de investigar a eficcia de uma dieta de emagrecimento. O quadro a seguir apresenta os pesos, em kg, de 10 pessoas selecionadas
aleatoriamente. Os pesos foram registrados antes e aps a dieta. Vamos supor que os dados
so provenientes de uma populao normalmente distribuda. Use um nvel de significncia
de 5% para testar a afirmativa que a dieta de emagrecimento eficaz na reduo do peso.
Antes
77
61
60
80
90
75
85
58
89
67
Depois
80
57
60
74
87
68
90
50
82
63
Resoluo
Temos um estudo com amostras dependentes (ou emparelhadas), pois cada par de medidas antes/depois se refere mesma pessoa.
Avaliando os requisitos necessrios para a realizao do teste, temos: os dados amostrais
so emparelhados, a amostra aleatria simples e proveniente de uma distribuio normal.
Ento, podemos realizar o teste de acordo a avaliao das informaes do enunciado.
Realizando os passos do teste, temos:
1.
Hipteses:
d = 0
H0 :
H
:
d <0
0
2.
3.
A estatstica de teste :
Para encontrar o valor da estatstica, precisamos encontrar o valor mdio das diferenas
e o desvio padro das diferenas. Vamos acrescentar algumas colunas no Quadro 4.5, para
facilitar os clculos.
captulo 4
151
Tabela 4.2 Clculos auxiliares no clculo da mdia e do desvio padro das diferenas.
Ento, a mdia amostral :
d 31 = 3,1
d = i =1 =
n
10
e a varincia amostral :
i =1di2
n
s2 =
( i =1di )2
n
n 1
273
( 31)2
10
10 1
9
273 96,1 176,9
=
= 19, 66
9
9
=
19, 66 4, 43
152
captulo 4
d
d 3,1 0
3,1
=
=
= 2, 2129
sd
4, 43
14009
,
10
n
4.
5.
O valore crtico :
0.50
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.674
0,25
0.20
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.282
0,10
0.10
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.645
0,05
0.05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
1.960
0,025
0.04
15.894
4.849
3.482
2.999
2.757
2.612
2.517
2.449
2.398
2.359
2.328
2.054
0,02
0.02
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.326
0,01
0.01
0.005
0.001
63.656 127.321 636.578
9.925
14.089 31.600
5.841
7.453
12.924
4.604
5.598
8.610
4.032
4.773
6.869
3.707
4.317
5.959
3.499
4.029
5.408
3.355
3.833
5.041
3.250
3.690
4.781
3.169
3.581
4.587
3.106
3.497
4.437
2.576
2.807
3.290
0,005
0,0025 0,0005
Concluso
Como o teste unilateral esquerda (pois, H1 contm o sinal <), o valor crtico encontrado levando em conta o nvel de significncia que est na ltima linha da tabela. Por isto
que escolhemos a terceira coluna ( = 0,05).
Rejeitamos H0 se t < t0. Como 2,2129 < 1,833, a estatstica de teste est na rea de
rejeio. Portanto, rejeitamos H0, ou seja, os dados amostrais fornecem evidncias suficientes para se concluir que a dieta eficaz na reduo do peso.
captulo 4
153
EXEMPLO
4.7: Uma empresa de computadores desenvolveu um novo curso que, comparado com o usual, apresenta novas tcnicas para reparar computadores pessoais. Trinta e um estagirios foram selecionados aleatoriamente em dois grupos: 31 deles fizeram o curso usual e os outros
31 frequentaram o novo curso. Aps 8 semanas, todos os estagirios foram submetidos ao
mesmo exame final. De acordo com os resultados apresentados a seguir, h evidncias de
que os dois cursos apresentam resultados diferentes em termos de habilidade nos reparos?
As pontuaes mais altas indicam maior habilidade nos reparos. Use = 0,05.
Resoluo:
Vamos seguir os seguintes passos para a realizao do teste:
1 Passo: Digitar os dados das duas amostras na planilha:
154
captulo 4
Figura 4.4 Valores das pontuaes obtidas pelos estagirios, nos dois tipos de cursos.
2 Passo: Para a anlise do nosso exemplo, clicamos na janela Dados e a seguir em
Anlise de dados. Escolhemos a Ferramenta de Anlise Teste T: duas amostras presumindo varincias diferentes e, em seguida, OK.
Figura 4.5 Escolha da Anlise de dados Teste T: duas amostras presumindo varincias
diferentes.
captulo 4
155
3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo Intervalo
da varivel 1, selecionar os dados arrastando com o mouse desde A2 at A32. No campo
Intervalo da varivel 2, selecionar os dados arrastando com o mouse desde B2 at B32.
Em Hiptese da diferena de mdia, digitamos 0 (a hiptese 1 = 2 pode ser escrita como
1 2 = 0). O nvel de significncia = 0,05. Em Opes de sada, escolher Nova planilha
(as estatsticas calculadas sairo em uma planilha diferente daquela que utilizamos para digitar a entrada dos dados, basta identific-la no rodap) e, por fim, clicar em Ok.
2.
3.
4.
5.
g.l.: graus de liberdade (calculada por meio da frmula descrita no box explicativo).
6.
7.
8.
156
captulo 4
Figura 4.7 Resultados obtidos a partir do Teste t duas amostras presumindo varincias
diferentes, para os dados do Exemplo 4.7.
captulo 4
157
Figura 4.9 Escolha da Anlise de dados Teste T: duas amostras em par para mdias.
158
captulo 4
3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo Intervalo da varivel 1, selecionar os dados arrastando com o mouse desde
A2 at A11. No campo Intervalo da varivel 2, selecionar os dados arrastando
com o mouse desde B2 at B11. Em Hiptese da diferena de mdia, digitamos
0 (a hiptese 1 = 2 pode ser escrita como 1 2 = 0.). O nvel de significncia
= 0,05. Em Opes de sada, escolher Nova planilha (as estatsticas calculadas
sairo em uma planilha diferente daquela que utilizamos para digitar a entrada
dos dados, basta identific-la no rodap) e, por fim, clicar em Ok.
captulo 4
159
Figura 4.11 Resultados obtidos a partir do Teste t duas amostras em par para mdias,
para os dados do Exemplo 4.6.
Nesta anlise, tambm temos a informao do valor p. Como 0,027 < 0,05,
rejeitamos a hiptese nula, mesma concluso que aquela obtida pelo mtodo
descrito ao longo do captulo (-2,2111 < -1,833). Portanto, os dados amostrais
fornecem evidncias suficientes para se concluir que a dieta eficaz na reduo
do peso.
O valor p tambm pode ser obtido atravs da funo TESTE.T. Para explicar
o procedimento, vamos utilizar os dados do Exemplo 4.6. Aps digitar os dois
conjuntos de dados, como na Figura 4.8, seguimos os seguintes passos: na aba
Frmulas, clicar em Mais Funes , Estatstica e escolher TESTE.T. Esta sequncia apresentada na Figura 4.12.
160
captulo 4
Aps clicar em TESTE.T aparecer uma janela em que temos que preencher
os argumentos da funo:
1. Matriz1: o primeiro conjunto de dados, ou seja: A2:A11;
2. Matriz2: o segundo conjunto de dados, ou seja: B2:B11;
3. Caudas: especifica o nmero de caudas da distribuio a ser retornado:
Para distribuio unicaudal, digitamos 1 e para distribuio bicaudal, digitamos 2. No nosso exemplo, o teste unicaudal, portanto, digitamos 1.
4. Tipo: o tipo de teste t. Para testes pareados, digitamos 1. Para testes
com variao igual das duas amostras, digitamos 2 e para variao desigual,
digitamos 3. No nosso exemplo, o teste t para amostras dependentes (ou seja,
pareadas). Ento, digitamos 1.
Aps o preenchimento de todos os argumentos, clicamos em OK e aparecer o valor p. As informaes esto apresentadas na Figura 4.13.
captulo 4
161
REFLEXO
Ao longo deste captulo, estudamos uma das ferramentas mais importantes da inferncia
estatstica, que so os testes de hipteses. Aprendemos a realizar testes para a mdia populacional, nos casos de uma ou duas amostras.
Com os exemplos apresentados, pudemos observar a grande aplicabilidade dos testes
de hipteses na rea da sade.
Quando queremos fazer comparaes sobre os parmetros de duas populaes, no
basta selecionarmos duas amostras e analisarmos somente as estatsticas amostrais obtidas.
Precisamos testar a afirmativa sobre estes parmetros analisando os dados amostrais, por
meio da realizao de um teste apropriado e, a partir da concluso do teste, teremos evidncias para apoiar ou no a afirmativa sobre os parmetros.
No podemos esquecer que os testes no podem ser utilizados indiscriminadamente. H
requisitos que devem ser verificados! Com um planejamento correto para a obteno dos dados
amostrais, podemos fazer uso de mais uma ferramenta imprescindvel na tomada de decises!
162
captulo 4
LEITURA
Sugerimos que voc assista ao vdeo que est no seguinte endereo: http://m3.ime.unicamp.
br/recursos/1098. Voc aprender algumas tcnicas de planejamento de experimento, bem
como verificar a importncia da formulao correta de uma hiptese na anlise estatstica.
REFERNCIAS BIBLIOGRFICAS
FARIAS, Alfredo A.; SOARES, Jos F.; CSAR, Cibel C. Introduo Estatstica. 2 ed. Rio de Janeiro:
LTC, 2003.
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
LEVIN, Jack; FOX, James A. Estatstica para Cincias Humanas. 9 ed. So Paulo: Prentice Hall,
2004.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MAGALHES, Marcos N. ; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
PAGANO, Marcello.; GAUVREAU, Kimberlee. Princpios de Bioestatstica. So Paulo: Pioneira
Thomson Learning, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
RIFO, Laura L. Ramos; CAMARNEIRO, Fbio; SANTOS, Jos P. de Oliveira.
Disponvel em: < http://m3.ime.unicamp.br/recursos/1098 >. Acesso em: 03 maio 2015.
captulo 4
163
164
captulo 4
5
Correlao e
Regresso Linear
Simples
OBJETIVOS
Com as tcnicas estudadas neste captulo, esperamos que voc seja capaz de:
Construir e interpretar o diagrama de disperso;
Calcular e interpretar o coeficiente de correlao linear;
Compreender os conceitos bsicos da regresso linear simples;
Estimar a equao de regresso e utiliz-la para fazer previses.
166
captulo 5
Figura 5.1 Diagramas de disperso com alguns tipos de correlao. Fonte: LARSON
(2004, p. 334).
captulo 5
167
Com o auxlio do diagrama de disperso, podemos identificar a forma, a direo e a intensidade da relao particular existente entre duas variveis quantitativas. Na Figura 5.1, identificamo,s nos dois primeiros grficos superiores ,
uma forma bem definida: os dados dispem-se aproximadamente ao longo de
uma linha reta, portanto, verificamos um padro linear. Tambm, identificamos nestes dois grficos, uma direo bem clara: No grfico esquerda, medida que x cresce, y tende a decrescer e, no da direita, medida que x cresce, y
tende a crescer. A intensidade de uma relao determinada por quo prximo
os pontos se aproximam mais de uma reta. Analisando os dois grficos inferiores, verificamos que o da esquerda no mostra qualquer forma, sugerindo que
no h relao entre x e y. O grfico direita mostra uma forma bem distinta,
sugerindo uma relao entre x e y, cuja forma no de uma reta.
168
captulo 5
r=
( x y ) ( x ) ( y )
n ( x ) ( x ) n ( y ) ( y )
n
i =1 i i
i =1 i
i =1 i
2
i =1 i
i =1 i
2
i =1 i
1 r 1
i =1 i
titativos independentes. ( importante que os dados amostrais no tenham sido coletados com o uso de mtodo no apropriado, por exemplo, amostra de resposta voluntria).
2.
Quaisquer outliers devem ser removidos caso se saiba que so erros. Os efeitos
de quaisquer outros outliers devem ser considerados pelo clculo de r com e sem o
outlier includo.
Utilizaremos os dados do Exemplo 5.1 para construir o diagrama de disperso e para calcular o coeficiente de correlao linear.
EXEMPLO
5.1: A Tabela 5.1 fornece o peso e a estatura de 10 pessoas adultas, do sexo feminino.
captulo 5
169
ALTURA (X)
PESO (Y)
156
53,5
158
58,4
163
59,4
162
56,4
165
61,2
172
57,5
173
67,3
174
69,7
179
77,2
183
81,6
Tabela 5.1 Peso, em kg, e altura, em cm, de 10 pessoas adultas, do sexo feminino.
Vamos construir o diagrama de disperso e calcular o coeficiente de correlao linear.
Resoluo
Primeiro, vamos construir o diagrama de disperso colocando cada par (x,y) no plano e
depois verificamos, visualmente, o comportamento conjunto das variveis.
Figura 5.2 Diagrama de disperso para os dados sobre a altura e o peso de 10 mulheres
adultas.
170
captulo 5
ALTURA (X)
PESO (Y)
XY
X2
156
53,5
8.346
24.336
2.862,25
158
58,4
9.227,2
24.964
3.410,56
163
59,4
9.682,2
26.569
3.528,36
162
56,4
9.136,8
26.244
3.180,96
165
61,2
10.098
27.225
3.745,44
172
57,5
9.890
29.584
3.306,25
173
67,3
11.642,9
29.929
4.529,29
174
69,7
12.127,8
30.276
4.858,09
179
77,2
13.818,8
32.041
5.959,84
183
81,6
14.932,8
33.489
6.658,56
= 1.685
= 642, 2
= 108.902, 5 = 284.657
Y2
= 42.039, 6
Para obtermos os valores da coluna (x y), multiplicamos cada par (x , y), ou seja, 156
53,5, 158 58,4 e assim por diante. Os valores x2 so obtidos elevando ao quadrado cada
valor da primeira coluna, ou seja, 156 156 = 24.336; 158 158 = 24,964, e assim por diante. Finalmente, obtemos y2 fazendo cada valor da segunda coluna ao quadrado, isto , 53,5
53,5 = 2.286,25; 58,4 58,4 = 3.410,56, e assim por diante.
Com os totais de cada uma das colunas, temos todos os valores necessrios para substituir na frmula do coeficiente de correlao linear:
captulo 5
171
r=
( x y ) ( x ) ( y )
n ( x ) ( x ) n ( y ) ( y )
n
2
i =1 i
r=
i =1 i i
i =1 i
i =1 i
2
i =1 i
i =1 i
i =1 i
1.089.025 1.082.107
2.846.570 2.839.225 420.396 412.420, 84
6.918
6.918
6.918
r=
=
=
= 0, 9039
7.345 7.975,16 85, 7030 89, 3038 7.653, 60
r=
As mdias suprimem a variao individual e podem aumentar o coeficiente de correlao. Um estudo produziu um coeficiente de correlao 0,4 para dados emparelhados
que relacionavam renda e educao entre indivduos, mas o coeficiente de correlao
linear se tornou 0,7 quando foram usadas mdias regionais.
Um exemplo antigo, mas muito interessante, foi dado por um estatstico que mostrou que havia correlao positiva entre o nmero de recm-nascidos e o nmero
172
captulo 5
r
1 r 2
n 2
captulo 5
173
EXEMPLO
5.2: Utilizando os dados do Exemplo 5.1, vamos testar a hiptese de que h uma correlao
entre o peso e a altura de pessoas adultas, do sexo feminino. Considerar = 0,05.
Resoluo
As hipteses so:
A estatstica de teste :
t=
r
1 r 2
n 2
0, 9039
1 ( 0, 9039 )
10 2
0, 9039
0, 9039
0, 9039
=
= 5, 977
=
0
,
151230284
0, 022870599
1 0, 81703521
8
174
0.50
1.000
0.50
1.000
0.20
3.078
0.20
3.078
captulo 5
0.10
6.314
0.10
6.314
0.05
12.706
0.05
12.706
0.04
15.894
0.04
15.894
0.02
31.821
0.02
31.821
0.01
63.656
0.01
63.656
0.005
0.001
127.321 636.578
0.005
0.001
127.321 636.578
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.695
0.677
0.677
0.674
0,25
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.289
1.289
1.282
0,10
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.659
1.658
1.645
0,05
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
1.982
1.980
1.960
0,025
4.849
3.482
2.999
2.757
2.612
2.517
2.449
2.398
2.359
2.328
2.303
2.078
2.076
2.054
0,02
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.361
2.358
2.326
0,01
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
2.621
2.617
2.576
0,005
14.089
7.453
5.598
4.773
4.317
4.029
3.833
3.690
3.581
3.497
3.428
2.865
2.860
2.807
0,0025
31.600
12.924
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
3.381
3.373
3.290
0,0005
De acordo com a estatstica de teste e os valores crticos, temos que 5,977 > 2,306.
Portanto, rejeitamos H0, ou seja, h uma correlao linear significante entre o peso e a altura
das mulheres.
Quando determinamos, por meio do teste de hipteses, que a correlao linear significante, podemos encontrar a reta que melhor descreve os dados observados. Esta reta
obtida por meio da equao de regresso, que utilizada para prever o valor da varivel y para
determinado valor da varivel x.
captulo 5
175
Antes de comearmos o estudo para encontrar a equao de regresso, vamos relembrar qual a equao de uma reta.
A equao tpica de uma reta y = mx + b, em que m o coeficiente angular e
b o intercepto. O coeficiente angular informa a inclinao da reta em relao
ao eixo das abscissas (x).
Se m for um nmero:
positivo, a reta crescente;
negativo, a reta decrescente;
zero, a reta paralela ao eixo das abscissas.
O coeficiente linear a ordenada do ponto em que a reta corta o eixo das
ordenadas (y).
Em Estatstica, a equao de regresso expressa na forma:
y = b0 + b1x
176
captulo 5
) ( x ) ( y )
n ( x ) ( x )
x
i =1 i
yi
n
2
i =1 i
i =1 i
i =1 i
i =1 i
e b0 = y b1 x
Podemos observar que o numerador do clculo do estimador b1 exatamente o numerador do coeficiente de correlao linear e o denominador o valor obtido dentro da
primeira raiz do denominador do coeficiente de correlao linear.
xi
x = i =1
( mdia da varivel x )
yi
y = i =1
( mdia da varivel y )
n
n
Analisando a frmula para calcular b0, observamos que este coeficiente s pode ser
encontrado aps o clculo de b1.
CONEXO
A reta de regresso a que melhor se ajusta aos dados amostrais. O critrio especfico usado para se determinar qual reta se ajusta melhor a propriedade dos mnimos quadrados.
Uma leitura interessante sobre a propriedade dos mnimos quadrados pode ser encontrada
em TRIOLA (2008, p. 435).
Uma observao importante: diferentemente do clculo do coeficiente de correlao linear r, a distino entre a varivel independente e a varivel dependente essencial. Se
invertermos os papis das duas variveis, obteremos uma reta de regresso diferente.
captulo 5
177
5.3: Vamos utilizar os dados do Exemplo 5.1 para encontrar a equao de regresso.
Resoluo
Precisaremos das informaes contidas no Quadro 5.1.
ALTURA (X)
PESO (Y)
XY
X2
Y2
156
53,5
8.346
24.336
2.862,25
158
58,4
9.227,2
24.964
3.410,56
163
59,4
9.682,2
26.569
3.528,36
162
56,4
9.136,8
26.244
3.180,96
165
61,2
10.098
27.225
3.745,44
172
57,5
9.890
29.584
3.306,25
173
67,3
11.642,9
29.929
4.529,29
174
69,7
12.127,8
30.276
4.858,09
179
77,2
13.818,8
32.041
5.959,84
183
81,6
14.932,8
33.489
6.658,56
= 1.685
= 642, 2
= 108.902, 5 = 284.657
b1 =
) ( x ) ( y )
n ( x ) ( x )
x
i =1 i
yi
n
2
i =1 i
i =1 i
i =1 i
i =1 i
6.918
= 0, 941865
7.345
b0 = y b1 x
b1 =
178
captulo 5
= 42.039, 6
xi
x = i =1
n
pois,
1685
=
= 168, 5 e y =
10
i =1y i
n
642, 2
= 64, 22
10
Agora que j conhecemos a equao de regresso, a pergunta que surge : como podemos interpret-la?
Segundo TRIOLA (2008, p. 434)
Ao se trabalhar com duas variveis relacionadas por uma equao de regresso, a mudana marginal em uma varivel a quantidade que ela varia quando a outra varivel
varia de exatamente uma unidade. A inclinao b1 na equao de regresso representa
a mudana marginal em y quando x varia de uma unidade.
Ento, para os dados da Tabela 5.1, referentes ao peso e altura das 10 mulheres, a
equao de regresso tem uma inclinao 0,9419, que mostra que, se aumentarmos x (altura) em 1 unidade, o peso aumenta em 0,9419 unidades, aproximadamente. Esta interpretao fica fcil de ser verificada se substituirmos valores para x. Por exemplo, se x =
155,
e, se x = 156,
y = 94, 4843 + 0, 9419 (155 ) = 94, 4843 + 155, 9945 = 515102
,
y = 94, 4843 + 0, 9419 (156 ) = 94, 4843 + 146, 9364 = 52, 4521. A diferena entre os valores de y encontrados, y = 94, 4843 + 0, 9419 x = 94, 4843 + 0, 9419 (171) = 66, 58 kg ,
exatamente o valor de b1, ou seja, para cada acrscimo de 1 unidade em x, y cresce de
0,9419 unidades.
A Figura 5.3 apresenta, no diagrama de disperso, a reta de regresso.
captulo 5
179
Interpretamos o valor y = 66, 58 kg como uma previso para o peso, quando a altura da
mulher adulta for 171 cm.
Se atribuirmos varivel x um valor observado no conjunto de dados, por exemplo, x =
165, vamos encontrar o seguinte valor previsto para y:
y = 94, 4843 + 0, 9419 x = 94, 4843 + 0, 9419 (165 ) = 60, 93 kg
Analisando a Tabela 5.1, observamos que para a altura x = 165 cm, o peso correspondente y = 61,2 kg. Esta diferena entre o valor amostral observado e o valor previsto pela
equao de regresso denominada resduo. Ento, temos a seguinte definio:
Um grfico de resduos outro instrumento til para a anlise dos resultados da correlao e regresso e para a verificao dos requisitos necessrios para se fazerem inferncias sobre correlao e regresso. Este grfico construdo usando o mesmo eixo
x do diagrama de disperso, mas no eixo y (vertical) utilizamos os valores dos resduos.
Se o grfico de resduos no revelar qualquer padro, a equao de regresso uma
boa representao da associao entre as duas variveis.
A equao de regresso deve ser utilizada para fazer previses apenas se ela for um bom
modelo para os dados, ou seja, se for verificado por meio de um teste de hipteses que a
relao entre as duas variveis significante. Caso a relao no seja significante, o melhor
valor previsto de y y .
Devemos tomar o cuidado de no fazer extrapolaes, ou seja, utilizar a equao de regresso para fazer previses para a varivel Y utilizando valores para X muito distantes dos
limites dos dados amostrais disponveis.
180
captulo 5
De acordo com Anderson et al. (2003, p. 447), usar a equao de regresso estimada
fora do intervalo dos valores da varivel independente deve ser feito com cuidado porque fora deste intervalo ns no podemos assegurar que a mesma relao seja vlida.
O diagrama de disperso nos d uma ideia da relao, ou no, entre duas variveis
quantitativas.
2.
seja, s tem sentido calcul-lo se o diagrama de disperso indicar uma relao linear.
3.
Correlao no indica causa. Uma forte relao entre duas variveis no suficiente
Caso haja relao entre duas variveis quantitativas, podemos descrev-la atravs da
Devemos usar a equao de regresso para previses somente se houver uma corre-
lao linear, confirmada pelo teste de hipteses. Caso contrrio, a melhor estimativa para a
varivel y sua mdia amostral y .
captulo 5
181
Isto significa que 81,70% da variao do peso das mulheres se explica pela
variao da altura. Este valor aparece na Figura 5.3.
Com a definio do coeficiente de determinao, podemos perceber que, se
o coeficiente de correlao for r = 0,7, teremos um coeficiente de determinao r2 = 0,49, significando que a reta de regresso ajustada no consegue explicar nem a metade da variao de y. Por isso, para 0,7 x 0,7, no se deve, em
geral, ajustar a reta de regresso. Para |r| = 0,9, a reta de regresso explica mais
de 80% da variao total de y.
Vamos estudar mais um exemplo para exercitar todos os contedos abordados ao longo do captulo.
EXEMPLO
5.4: Muitos acidentes de carro so causados por motoristas cansados. Vrios estudos de
pesquisa mostram que mudanas nas pupilas dos olhos esto relacionadas com a fadiga.
Obteve-se uma amostra aleatria de 25 motoristas, e mediram-se as oscilaes no tamanho
da pupila (x, em milmetros por segundo) usando-se um pupilgrafo. O cansao de cada
pessoa (y) tambm foi registrado, usando-se o ndice de pupila sem descanso (IPSD). As
estatsticas resumo so:
b)
Teste a hiptese de que h correlao linear significante, com um nvel de significncia 0,05.
c)
d)
e)
a)
182
captulo 5
r=
( x y ) ( x ) ( y )
n ( x ) ( x ) n ( y ) ( y )
n
i =1 i i
i =1 i
i =1 i
r=
2
i =1 i
i =1 i
2
i =1 i
i =1 i
1.230, 5 1363, 2
52, 66 50, 41 52.350 36.864
132, 7
132, 7
132, 7
r=
=
=
= 0, 7109
, 124, 44 186, 66
2, 25 15.486 15
r=
Estabelecendo as hipteses:
1 r 2
n 2
0, 7109
1 ( 0, 7109 )
25 2
0, 7109
0, 7109
0, 7109
=
= 4, 848
=
0
,1466467
0, 021505269
1 0, 50537881
23
0.50
0.687
0.686
0.686
0.685
0.685
0.684
0.684
0.20
1.325
1.323
1.321
1.319
1.318
1.316
1.315
0.10
1.725
1.721
1.717
1.714
1.711
1.708
1.706
0.05
2.086
2.080
2.074
2.069
2.064
2.060
2.056
0.04
2.197
2.189
2.183
2.177
2.172
2.167
2.162
0.02
2.528
2.518
2.508
2.500
2.492
2.485
2.479
0.01
2.845
2.831
2.819
2.807
2.797
2.787
2.779
0.005
3.153
3.135
3.119
3.104
3.091
3.078
3.067
0.001
3.850
3.819
3.792
3.768
3.745
3.725
3.707
captulo 5
183
De acordo com a estatstica de teste e os valores crticos, temos que | 4,848| >
2,069. Portanto, rejeitamos H0, ou seja, h uma correlao linear significante entre a oscilao no tamanho da pupila e IPSD.
dos parmetros.
Os valores de b1 e b0 so, respectivamente,
b1 =
b1 =
) ( x ) ( y )
n ( x ) ( x )
x
i =1 i
yi
i =1 i
2
i =1 i
i =1 i
i =1 i
132, 7
= 58, 9778
2, 25
b0 = y b1 x
b1 =
i =1x i
n
x =
pois,
7,1
= 0, 284 e y =
25
i =1y i
n
192
= 7, 68 .
25
d)
regresso:
184
captulo 5
e)
seja:
R 2 = ( 0, 7109 ) = 0, 5054
2
Isto significa que 50,54% da variao do IPSD se explica pela oscilao no tamanho da pupila.
captulo 5
185
186
captulo 5
teclado do computador para excluir. Para as linhas de grade, basta clicar sobre
qualquer uma delas e utilizar o boto direito do mouse para excluir.
5 Passo: Agora, vamos colocar nome nos eixos: clicamos sobre o grfico e
aparecer Ferramentas de Grfico com algumas opes de escolha. Clicar em
Layout e logo em seguida Ttulos dos Eixos. Utilizamos as duas opes: uma
para colocar ttulo no eixo horizontal e a outra para colocar o ttulo no eixo vertical. A Figura 5.8 ilustra a escolha para o Ttulo do Eixo Horizontal Principal,
com a opo Ttulo Abaixo do Eixo. Aps a insero do ttulo horizontal, seguimos o mesmo procedimento para o eixo vertical.
captulo 5
187
Figura 5.9 Diagrama de disperso da altura e peso de pessoas adultas, do sexo feminino.
188
captulo 5
captulo 5
189
Isto significa que 81,70% da variao do peso se explica pela variao na altura das pessoas adultas, do sexo feminino.
E, para finalizar, vamos obter a equao de regresso.
1 Passo: Vamos digitar os pares ordenados das variveis X e Y em uma planilha do Excel.
190
captulo 5
2 Passo: As medidas apresentadas neste captulo podem ser obtidas utilizando o Excel. Para isto, o suplemento Anlise de Dados deve estar ativo. Caso
ele esteja ativo, deve aparecer o cone Anlise de Dados aps clicar na janela
Dados.
muito comum este suplemento no aparecer ativo. Caso isto acontea, devemos seguir o seguinte procedimento:
Clicar no Boto Office e em seguida Opo do Excel. Escolher Suplementos
e clicar;
Escolher na lista Suplementos de Aplicativos Inativos a opo Ferramenta
de Anlise e clicar em Ir...
Selecionar o seguinte suplemento disponvel: Ferramenta de anlise e clicar em OK.
Com o suplemento ativo, podemos fazer vrias anlises estatsticas!
captulo 5
191
3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo Intervalo Y de entrada, selecionar os dados arrastando com o mouse desde
B2 at B11. No campo Intervalo X de entrada, selecionar os dados arrastando
com o mouse desde A2 at A11. Devemos ficar atentos para selecionar corretamente os valores de Y e X! Em Opes de sada, escolher Nova planilha (as estatsticas calculadas sairo em uma planilha diferente daquela que utilizamos
para digitar a entrada dos dados, basta identific-la no rodap) e, por fim, clicar
em Ok.
192
captulo 5
Agora que j sabemos qual a equao de regresso, temos a opo de traar a reta e mostrar a equao e o coeficiente de determinao no diagrama
de disperso. Para isto, quando estamos construindo o grfico, clicamos sobre
qualquer um dos pontos. Aparecer:
captulo 5
193
Finalmente, quando clicamos em fechar, aparecer, no diagrama de disperso, a reta ajustada, a equao da reta e o coeficiente de determinao.
Podemos deslocar, com o mouse, as informaes da reta e do coeficiente, colocando-os em uma posio mais conveniente no diagrama. Basta clicar em cima
das informaes e arrastar.
194
captulo 5
REFLEXO
Chegamos ao final deste captulo. Nele, exploramos as tcnicas de correlao e regresso
linear simples. Com larga aplicao, o contedo apresentado nos permite obter, por exemplo, funes matemticas relacionando o preo com a demanda, a nmero de anos que um
paciente fumou e a capacidade pulmonar, nveis de colesterol e triglicerdeos antes de uma
dieta, peso da me e do beb ao nascer, taxa de mortalidade infantil e expectativa de vida
em uma amostra de pases, entre tantas outras aplicaes. Aprendemos que, quando temos
informaes, em pares, de duas variveis quantitativas, podemos estudar mais profundamente um possvel relacionamento entre essas variveis, em particular, o relacionamento linear.
Havendo um relacionamento linear, estimamos os coeficientes da equao de regresso
pelo mtodo de mnimos quadrados. Um dos maiores interesses conseguir fazer previses
da varivel dependente a partir, valores atribudos para a varivel independente. Mas, sabemos que para fazermos previses, precisamos testar a adequabilidade de modelo! Alm
disto, temos que, tomar cuidado em no fazer extrapolaes, pois no podemos garantir que
a mesma relao seja vlida para valores da varivel independente muito distantes daqueles
utilizados para encontrar a equao de regresso.
Com o uso cuidadoso destas tcnicas, obtemos informaes estatsticas importantes no
auxlio tomada de decises, em vrias reas do conhecimento.
captulo 5
195
LEITURA
Um vdeo muito interessante, que aborda o conceito de correlao e correlaes esprias,
encontrado no endereo http://m3.ime.unicamp.br/recursos/1084. Vale a pena assistir!
REFERNCIAS BIBLIOGRFICAS
ARANGO, Hctor G. Bioestatstica Terica e Computacional. Rio de Janeiro: Editora Guanabara
Koogan S.A., 2001.
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
KOKOSKA, Stephen. Introduo Estatstica Uma Abordagem por Resoluo de Problemas.
Rio de Janeiro: LTC, 2013.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MOORE, David S.; McCABE, George P.; DUCKWORTH, William M.; SCLOVE, Stanley L. A Prtica da
Estatstica Empresarial Como Usar Dados para Tomar Decises. Rio de Janeiro: LTC, 2006.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
RIFO, Laura R. Ramos; ANNUNCIATO, Angela; SANTOS, Jos P. de Oliveira. Disponvel em: < http://
m3.ime.unicamp.br/recursos/1084 >. Acesso em: 03 maio 2015.
196
captulo 5
ANOTAES
captulo 5
197
ANOTAES
198
captulo 5
ANOTAES
captulo 5
199
ANOTAES
200
captulo 5