Académique Documents
Professionnel Documents
Culture Documents
Estatística
Guia de estudos de Estatística
UNIDADE 1
INTRODUÇÃO
Vamos buscar definir Estatística, e, para tanto, os dois conceitos a seguir são adequados.
Conceito 1.1. Estatística. Conjunto de técnicas que se ocupa com a coleta, organização, análise e
interpretação de dados, tendo um modelo por referência.
Conceito 1.3. População. Corresponde ao sistema total, ou ao todo que se quer descrever, sem
generalizações para um universo maior, ou para o futuro. É sempre um conjunto de elementos com
características em comum.
a) Finitas ou Reais;
b) Infinitas ou Conceituais.
Populações reais são, por exemplo, todas as árvores de um povoamento florestal, ou todo
o solo de um talhão de área. Por terem existência real, possuem número finito de elementos.
Quanto às populações conceituais são aquelas sem existência real, mas de concepção
bem definida, como o conjunto total de frangos que poderiam ser alimentados com uma certa
Guia de estudos de Estatística
ração, em condição de confinamento; ou ainda, todas as plantas de uma certa cultivar de milho
que foram, são ou poderão vir a ser plantadas em condições de cerrado. Pela própria definição,
tais populações só podem ser de tamanho infinito, porque nunca se disporá de todos os seus
elementos na prática.
Nos primórdios do conhecimento estatístico, a descrição era feita apenas para populações
reais, e por meio da observação de todos os seus elementos, conhecida como censo. Tais
levantamentos eram (e são) em geral dispendiosos, e, portanto, promovidos pelo Estado. A palavra
“Estatística” vem de “Estado”, por causa disso.
Conceito 1.4. Censo. Atividade de inspecionar (observar) todos os elementos de uma população
real, objetivando conhecer, com certeza, as suas características.
O critério básico para diferenciar uma população de uma amostra é a seguinte questão:
“usarei minhas análises para extrapolar/generalizar os resultados para um universo maior, ou para
o futuro?”. Se a resposta for “sim”, os dados representam uma amostra, se “não”, representam
uma população. O número finito dos elementos da amostra será simbolizado pela letra minúscula
“n”.
Conceito 1.7. Inferência Estatística. Processo de se tirar conclusões ou tomar decisões acerca da
população com base em uma amostra dessa população.
a) Estatística Descritiva: objetiva sintetizar a informação contida em um conjunto de dados, seja ele
referente a uma população finita ou a uma amostra.
Conceito 1.8. Variável. Característica pela qual deseja-se que a população seja descrita, ou pela
qual decisões acerca da população são tomadas.
Conceito 1.9. Dado. Observação ou realização referente a uma variável. Pode estar contido em um
censo ou em uma amostra.
Uma classificação possível quanto à natureza das variáveis está apresentada abaixo.
Quando os atributos são passíveis de ordenação, a variável qualitativa é dita ordinal; por
exemplo, esse é o caso quando usam notas para avaliar uma característica. Por exemplo, em um
laboratório de cultura de tecidos, esse critério por vezes é utilizado para classificar o grau de
regeneração no processo de micropropagação.
As graduadas (ou de razão) são aquelas onde intervalos são definidos (como em toda
variável quantitativa), mas o ponto de referência é arbitrário. Por exemplo, considere a escala
Celsius de temperatura. Suponha que um pesquisador descubra que uma técnica bioquímica é
0 0
mais eficiente a 15 C do que a 10 C. Nestes casos, deve-se tomar cuidado em afirmar que,
aumentando a quantidade de calor em 50%, a eficiência da técnica aumentou, porque o ponto de
0
referência (0 C) foi escolhido arbitrariamente, como sendo aquele no ponto de congelamento da
água, sob uma pressão específica. Se o ponto de referência fosse deslocado, por exemplo, para o
Guia de estudos de Estatística
zero absoluto (escala Kelvin), o aumento de temperatura acima seria de apenas 5 / (273+10) =
1,8%.
As proporcionais são aquelas onde intervalos também são definidos, mas o ponto de
referência é absoluto. Por exemplo, dizer que o híbrido de milho A produz 10% mais que o híbrido
B (em t/ha) tem sentido, uma vez que o ponto de referência (a produção zero) é natural, absoluta;
não existe produção abaixo desse valor.
Por fim, observe como estamos rodeados de variáveis e dados “por todos os lados”: no
calendário abaixo, temos variáveis categóricas (o mês do ano, o dia da semana, a condição
climática do dia) e variáveis numéricas (o dia do mês). Poderíamos ter, em alguma estação
climatológica, os dados da variável numérica precipitação pluviométrica, temperatuta média do dia,
entre muitas outras.
Guia de estudos de Estatística
x1 + x2 + x3 + x4 ,
∑x
i =1
i ,
ou seja, corresponde à soma dos termos “xi”, onde o índice i varia de 1 a 4. Esse operador é
também uma taquigrafia matemática.
Em função de sua própria definição, o operador somatório possui algumas regras, dadas a
seguir:
1) Se k é constante, então:
n
∑k
i =1
= k + k + ... + k = n k .
∑
i =1
kx i = k x1 + k x2 + ... + k xn = k (x1 + x2 + ... + xn) = k ∑x
i =1
i .
3) O somatório de uma soma de variáveis é igual à soma dos somatórios de cada variável:
n n n n
∑ (x i
i =1
+ y i + zi ) = ∑
i =1
xi + ∑
i =1
yi + ∑z
i =1
i .
n n n n
4) ∑ (a + bx ) = ∑ a + ∑ bx
i =1
i
i =1 i =1
i = n.a + b. ∑xi =1
i .
n
b. x 12 + x 22 + ... + x n2 = ∑ x i2
i=1
30
c.
1 2
z 1 + z 3 + z 5 + ... + z 59 =
3 30
∑ z i2i−1
i=1
12
d. log x 1 + log x 2 + ... + log x 12 = ∑ log x i
i=1
n
2
e. ( x 1 - 1 ) + ( x 2 - 2 2 ) 2 + ( x 3 - 3 3 ) 3 + ... + ( x nn - n n ) n =
3
∑ ( x ii − ii )i
i =1
2. Sabendo que:
4 4 4 4 4
∑ x i = 16 , ∑ x i2 = 84 , ∑ x i3 = 496 , ∑ y i = 20 , ∑ x i y i = 100
i=1 i=1 i=1 i=1 i=1
Determine o valor numérico das expressões:
4 4 4
a) ∑ ( x i3 − 25) =∑ x i3 −∑ 25 = 496 − 100 = 396
i=1 i=1 i=1
4 4
b) ∑
i =1
(3 xi − 15 )3 = ∑ (27 x
i =1
3
i − 405 xi2 + 2025 xi − 3375 ) =
4 4 4 4
1. Desenvolva cada uma das seguintes expressões, colocando-as na sua forma mais simples
possível:
5 5 6 4
a) ∑x i b) ∑ z i x i2 c) ∑ xi yi d) ∑ xi − x
i=1 i =1 i=1
i =1
6
e) ∑ ( x i − x )2
i=1
a) x 1 + x 2 + ... + x n
b) ( x 1 + x 2 + ... + x n ) 2
c) x 1 + x 2 + ... + x 7
d) x 12 + x 22 + ... + x n2
UNIDADE 2
ESTATÍSTICA DESCRITIVA
2.1. INTRODUÇÃO
A maneira como os dados estão apresentados na Tabela 2.1 não deixa de ser uma
representação. No entanto, não é difícil perceber que se trata de uma disposição muito limitada
por exemplo, não se visualiza a atividade agropecuária predominante no município, e assim por
diante. Uma maneira de realçar esse tipo de informação é apresentando a frequência de cada
Conceito 2.1. Frequência (de ocorrência). Medida que quantifica, contando, a ocorrência dos
valores de uma variável em um dado conjunto de dados.
A frequência associada a uma variável X pode ser classificada em três tipos, conforme a
Figura 2.1:
Absoluta (fa)
Percentual (fp)
fa(café) = 8 ;
8
fr(café) = = 0,40 ;
20
Assim, de forma geral, uma maneira informativa de descrever o conjunto de dados da Tabela 2.1 é
a de apresentar as frequências de cada categoria da variável ‘atividade agropecuária’, ou seja,
mostrar a sua distribuição de frequência.
Conceito 2.2. Distribuição de Frequência. Consiste em uma função que associa os valores que
uma variável assume com suas frequências de ocorrência, podendo ser elas absolutas, relativas
ou percentuais.
Guia de estudos de Estatística
Essa representação tabular poderia ter seu aspecto melhorado pela criação de uma nova
categoria, por exemplo, denominada ‘Outras’, que incluiria aquelas classes de menor frequência, a
saber, Olericultura, Soja e Laranja. Opções como estas são fortemente dependentes dos objetivos
e do bom senso do pesquisador. A nova representação da distribuição de frequência seria como a
da Tabela 2.3.
então, a distribuição de frequência deve ser disposta respeitando-se a ordem das categorias da
variável, crescente ou decrescente, mesmo que não seja obedecida a ordem de magnitude das
frequências.
Guia de estudos de Estatística
Quanto a sua estrutura, de maneira geral, as tabelas têm os seguintes componentes: título,
cabeçalho, coluna indicadora, corpo, linha de totais e rodapé (Figura 2.2). Estes são definidos
como:
- O título deve conter as informações relativas ao conteúdo da tabela, a(s) variável(eis) dispostas,
podendo ainda conter o local de coleta dos dados, e quando e como foi realizado o estudo. O título
deve responder, no mínimo, a 3 perguntas: “o quê?”, “onde?”, e “quando?”. O cabeçalho especifica
as variáveis e a frequência (ou outra característica) correspondente aos seus valores.
- O corpo é representado por uma série de colunas e subcolunas, dentro das quais são colocados
os dados apurados. Segundo o corpo, as tabelas podem ser de entrada simples, de dupla entrada,
e de múltipla entrada. A Tabela 2.3 é de entrada simples. A cada entrada corresponde uma linha
(ou coluna) de totais. Um exemplo de tabela de dupla entrada seria a classificação das
propriedades também segundo o nível de tecnologia utilizada (Tabela 2.4). Observe que há duas
totalizações marginais (totais de linhas e totais de colunas), e uma totalização geral.
Leite 3 2 0 5
Milho 3 1 0 4
Olericultura 0 1 0 1
Soja 0 0 1 1
Laranja 0 0 1 1
Totais 7 7 6 20
Fonte: dados fictícios.
Traços horizontais para separar linhas são bastante utilizados. Quanto aos traços verticais, há a
tendência no meio científico de serem evitados, quando não houver prejuízo na qualidade de
apresentação.
A idéia básica por trás de todas as regras de construção de uma tabela é que “uma tabela deve ser
autoexplicativa”, i.é, o leitor não deve precisar ter que recorrer ao texto para compreender um
tabela: ela se explica por si mesma (a mesma regra básica vale para figuras, cujos métodos de
construção serão vistos em seguida).
Além da representação tabular, a representação dos dados também pode ser feita
mediante gráficos. Para a representação de distribuições de frequência referentes a variáveis
qualitativas, existem três gráficos mais utilizados: o gráfico de linhas, o gráfico de barras, e o
setorgrama. O gráfico de linhas consiste em dois eixos, onde a frequência (absoluta, relativa ou
porcentual) é disposta no eixo vertical e as classes da variável no eixo horizontal, sendo a
identificação de cada par ordenado feita por uma linha vertical ligando o par ordenado ao eixo
horizontal. O gráfico de linhas referente ao exemplo das atividades agropecuárias predominantes
está apresentado na Figura 2.3.
Conceito 2.3. Gráfico. Diagrama ou figura para ilustração de fenômenos ou tendências, no qual
existem escalas definidas.
0,5
0,4
0,3
0,2
0,1
0
Café Leite Milho Outras
0,5
0,4
0,3
0,2
0,1
0
Café Leite Milho Outras
Figura 2.4. Gráfico de barras verticais representando a distribuição de frequência relativa referente
à atividade agropecuária predominante em propriedades de um município fictício.
É importante salientar que, na disposição gráfica de variáveis qualitativas, devem ser padronizadas
as distâncias entre as categorias, bem como a largura das colunas, para que não cause falsas
impressões, em razão da escala desigual. Uma outra opção para o gráfico de barras é que estas
podem ainda ser horizontais (Figura 2.5). Outros recursos que algumas vezes são empregados em
gráficos de barras são a moldura e os traços. Estes últimos, em geral, são apenas traçados
paralelamente ao eixo x, para facilitar a visualização dos valores referentes às frequências (Figura
2.6).
o
100% 360
40% x
o
E assim, x = 144 . Os setores correspondentes podem ser então traçados. Hoje em dia, são
disponíveis muitos softwares que constroem esse tipo de representação gráfica, e outros.
Guia de estudos de Estatística
Café
Leite
Milho
Outras
0,5
0,4
0,3
0,2
0,1
0
Café Leite Milho Outras
Figura 2.6. Gráfico de barras verticais representando a distribuição de frequência relativa referente
à atividade agropecuária predominante em propriedades de um município fictício, contendo
moldura e traços.
O setorgrama referente ao exemplo das atividades agropecuárias está apresentado na Figura 2.7.
Guia de estudos de Estatística
Café
40,0%
Leite
25,0%
Outras
15,0%
Milho
20,0%
1) Distribuições de freqüência.
Nesta seção trataremos de mostrar como se faz distribuições de freqüência tanto para
variáveis contínuas quanto para variáveis discretas. Começando com as distribuições de
frequências para variáveis discretas, a representação de um conjunto de dados referentes a
realizações de uma variável quantitativa discreta é, em geral, bastante semelhante à das variáveis
qualitativas, pois os valores inteiros que a variável assume podem ser considerados como
“categorias”, ou “classes naturais”. Como exemplo, sejam dados referentes a um levantamento
onde observaram-se 91 plantas de café, numa pequena lavoura, nas quais contou-se o número de
folhas atacadas pela praga ‘bicho mineiro’, em cada planta. Como estabelecido, vamos considerar
tal massa de dados como uma amostra, proveniente de uma população constituída de todas as
plantas de café da lavoura de onde estas 91 plantas vieram (evidentemente a lavoura toda, que é a
população de onde esta amostra veio, possuía muito mais do 91 plantas – frequentemente
milhares de plantas!). A representação tabular da avaliação desse experimento está apresentada
na Tabela 2.5.
Tabela 2.5. Frequência de plantas de café em relação ao grau de infestação de bicho mineiro em
amostragem em uma cultura de café. Lavras, 2005.
Número de folhas Frequência Frequência
lesionadas absoluta (plantas) percentual (%)
0 3 3,30
1 8 8,79
2 15 16,48
3 22 24,18
4 21 23,08
5 16 17,58
6 4 4,40
7 0 0,00
8 2 2,20
9 0 0,00
10 ou mais 0 0,00
Total 91 100,00
Fonte: levantamento amostral in loco na lavoura.
Guia de estudos de Estatística
25
20
15
10
0
0 1 2 3 4 5 6 7 8 9 10
Figura 2.8. Gráfico de barras verticais representando a frequência porcentual de plantas de café
em relação ao grau de infestação de bicho mineiro, em amostragem na cultura do café. Lavras,
2005.
Tabela 2.7. Produção diária de leite (kg), durante o período de lactação, de 201 vacas da raça
holandesa, de um rebanho pertencente à fazenda Itirapuan, Sul de Minas Gerais, 2005.
Conceito 2.4. Amplitude ou amplitude total. Corresponde à diferença entre o maior valor e o
menor valor de um conjunto de dados. Em geral, é simbolizada por “A”.
Conceito 2.5. Amplitude de Classe. Consiste na diferença entre o limite superior e o limite inferior
de uma classe em uma distribuição de frequência. Será aqui simbolizada por “c”.
Guia de estudos de Estatística
Também, pode ser bastante útil, como primeiro procedimento a ser tomado para a elaboração de
uma distribuição de frequências de uma variável contínua, proceder a ordenação dos dados, para
permitir melhor manipulação (Tabela 2.8)
.
Tabela 2.8. Dados ordenados relativos à produção diária de leite de 201 vacas da raça holandesa,
de um rebanho pertencente à fazenda Itirapuan, Sul de Minas Gerais, 2005.
6,7 13,6 15,1 17,5 19,0 20,4 22,4 24,7
6,9 13,7 15,3 17,5 19,0 20,4 22,4 24,7
9,7 13,8 15,3 17,6 19,2 20,5 22,4 25,1
10,3 13,8 15,3 17,7 19,2 20,7 22,6 25,2
10,4 13,9 15,3 17,7 19,3 20,7 22,6 25,2
10,6 14,1 15,4 17,8 19,3 20,8 22,7 25,4
10,7 14,1 15,4 17,8 19,3 20,9 22,7 25,5
11,1 14,1 15,7 17,9 19,5 21,0 22,7 25,8
11,5 14,1 15,7 17,9 19,5 21,0 22,8 25,8
11,8 14,1 15,8 18,0 19,5 21,0 22,8 25,9
11,9 14,1 16,2 18,0 19,6 21,0 22,9 26,2
12,0 14,1 16,2 18,2 19,6 21,0 23,0 26,2
12,6 14,3 16,4 18,2 19,7 21,1 23,3 26,3
12,6 14,3 16,7 18,5 19,7 21,2 23,3 26,6
12,7 14,3 16,7 18,5 19,7 21,2 23,6 26,6
12,8 14,4 16,7 18,6 19,7 21,2 23,6 26,6
12,8 14,5 16,8 18,6 19,8 21,3 23,7 27,1
12,9 14,5 16,8 18,6 19,9 21,4 23,7 27,3
13,1 14,6 16,9 18,6 20,0 21,6 23,7 27,5
13,2 14,7 17,0 18,8 20,0 21,6 23,8 27,5
13,2 15,0 17,0 18,8 20,1 21,6 24,0 28,5
13,3 15,0 17,0 18,9 20,1 21,8 24,1 30,4
13,3 15,0 17,2 18,9 20,3 22,2 24,4 30,6
13,4 15,1 17,3 18,9 20,4 22,2 24,6 32,7
13,5 15,1 17,3 19,0 20,4 22,3 24,6 33,0
33,0
massa de dados, e que mais de 20 haveria excesso de classes, tornando a distribuição outra vez
pouco informativa. Para estes n = 201 dados, podemos utilizar 11 classes.
ii) Critério de Sturges. Escolhe-se k = 1 + log2 n = 1 + 3,32 log10 n . Para o exemplo da Tabela 2.8:
2.3 3 .π 6 .s
1 1
3,49s
c= 1
=
3
n 3 n
Nota. No critério de Scott, s é o desvio-padrão da amostra, o qual será explicado mais adiante.
Para a massa de dados da Tabela 2.8, s = 3,94 kg, portanto, c = 3,73 kg. O número de classes k
será dado por
iv) Critério prático. Escolhe-se o número k de classes segundo a Tabela 2.6 abaixo (esta tabela
constitui-se numa fusão prática dos critérios (ii) e (iii) acima):
Para n = 201 dados, por exemplo, teríamos k = Arredondamento de 5 log10 201 = 12. Este critério
(iv) é especialmente recomendado, pela sua praticidade e bom desempenho.
onde Max = maior valor observado (também simbolizado por x(n)) e Min = menor valor observado
(também simbolizado por x(1)). Na Estatística é convenção simbolizar dados em ordem crescente
com o índice da variável envolto por um parêntesis.
Passo 3. Se k foi calculado anteriormente (quando se usa ou o critério (i) ou (ii) ou (iv)), então
calcula-se a amplitude de classe c, por meio de:
A
c=
k −1
Guia de estudos de Estatística
Note que aqui o denominador do cálculo da amplitude de classe c corresponde a (k-1), em vez de
simplesmente k. Se em vez de k, foi dado o valor de c (quando se usa o critério (iii)), então calcula-
se o valor do número k de classes resolvendo-se a fórmula acima para k e arredondando-se para o
inteiro mais próximo.
a
Passo 4. O limite inferior LI1 da 1 classe é obtido por:
c
LI1 = Min -
2
Observe que a subtração de c/2 do Passo 4, junto com o divisor k -1 do Passo 3, fazem com que
os limites de classe extremos (LI1 e LSk) fiquem menor e maior, respectivamente, do que o mínimo
e o máximo dos dados, ou seja, a distribuição fica mais “espichada”. A razão disto é a de que
existe uma grande chance de não se ter coletado valores extremos e pouco freqüentes, presentes
na população, fazendo com que a amplitude total A provavelmente tenha sido subestimada. Os
passos 3 e 4 buscam corrigir esta subestimação. Quando os valores calculados de LI1 ou LSk forem
incompatíveis com a variável estudada, pode-se ajustar tais valores. Uma ocorrência freqüente é,
por exemplo, o cálculo de LI1 entregar um valor negativo, num cenário em que a variável não pode
assumir valores negativos: neste caso, pode-se levar o valor de LI1 para zero.
a
Passo 5. O limite superior da 1 classe é obtido por:
LS1 = LI1 + c,
a
sendo que LS1 nada mais é que o limite inferior da 2 classe:
LI2 = LS1,
Nota 1. Deve-se observar que, sempre que possível, há conveniência em que se tenham todas as
classes de um histograma (e respectiva distribuição de freqüências) com mesma amplitude, isto é,
sejam todas de mesmo tamanho. Este algoritmo está construído para que tal igualdade de
tamanhos seja obtida.
Nota 2. Há duas alterações que podem ser necessárias neste algoritmo, relativamente as
instruções de seus passos:
(i) A primeira, que já foi pré-anunciada parcialmente no passo 4, é de que quando a variável
estudada tem valores mínimos e máximos naturais, como, por exemplo, notas em
avaliações escolares numa escala de 0 a 100, onde o mínimo naturalmente é zero
(não é possível uma nota negativa nesta escala) e o máximo naturalmente é 100 (não
é possível uma nota maior do que 100 nesta escala), pode se alterar os valores
calculados de k e/ou c para que LI1 seja igual ao mínimo natural e LSk seja igual ao
máximo natural. Tal alteração não é obrigatória, mas costuma fazer gráficos e
distribuições mais interpretáveis.
Guia de estudos de Estatística
(ii) A segunda é fundir várias classes numa só, ou alterar suas amplitudes de modo adequado
ao tipo de dados que se tem em mãos. Essa necessidade ocorre quando temos dados
com valores discrepantes (os outliers) ou quando a pesquisa transcorreu com
restrições no modo e/ou instrumento de coleta de dados. Neste caso, será quebrada a
convenção de que as classes tenham o mesmo tamanho, porém, este sacrifício será
necessário em favor da possibilidade tanto de construir o gráfico e distribuição, quanto
de interpretá-los. Um exemplo em que houve restrições está na Tabela A: para se
estudar a distribuição de frequência do consumo semanal Y (kg) de carne de frango,
em Antônio Dias (MG), foram entrevistadas 60 residências nos dias 20 e 21 de Julho
de 2001. Os resultados obtidos podem ser visualizados no quadro da distribuição de
frequência abaixo:
(iii)
Praticamente zero 5
(0, 1] 7
(1, 2] 22
(2, 3] 11
(3, 4] 6
(4, 5] 6
(5, 6] 3
Total 60
Um exemplo em que foi necessário alterar a amplitude das classes por causa de
valores discrepantes está na Tabela B: na implantação de um Sistema de Gestão
Ambiental (SGA) no modelo ISO 14.001 numa Pequena Central Hidrelétrica (PCH) a
variável X: “Volume de solo nas encostas marginais erodidos pela ocorrência de
processos erosivos” foi avaliada em vários pontos nas encostas do lago. Os dados
obtidos mostraram valores baixos para X, mas alguns poucos pontos tiveram valores
muito altos para X (estes são dados discrepantes). Estes outliers acarretaram a
junção de várias classes, conforme mostra a distribuição de freqüências abaixo.
Guia de estudos de Estatística
Tabela B. Volume de solo erodido nas encostas. PCH Jardim do Mato Grosso,
MS, Setembro de 2009.
X: Volume de solo erodido/carreado em m3. Número de ocorrências
(0; 5] 2.419
(5; 10] 759
(10;50] 356
(50; 100] 27
Mais de 100 0
Total 3.561
Fonte: Levantamento amostral in loco na PCH.
Um exemplo que mostra como a alteração da amplitude das classes afeta o histograma é
dado abaixo na Figura A:
dfr(x)
0,0100
0,0075
0,0050
0,0025
x
50 100 150 200 250 300 350 400
Figura A. Histograma das áreas de 1.412 propriedades agropecuárias localizadas na região Sul do estado de
Minas Gerais, 2006.
Fonte: dados simulados.
Passo 6. Construídas as classes, são contados quantos dados estão contidos em cada classe
(frequências absolutas de cada classe).
Passo 7. Opcionalmente, são calculadas as frequências relativas e/ou percentuais de cada classe.
Passo 8. Para a construção de um histograma, que é o gráfico (ou representação gráfica) de uma
distribuição de freqüências de variável numérica contínua, é necessária calcular uma quantidade
denominada densidade de freqüência, definida como:
Guia de estudos de Estatística
df = f / c
Observe que cada classe tem a sua própria densidade de freqüência, que é calculada dividindo-se
a freqüência de ocorrência (ou absoluta, ou relativa, ou percentual) daquela classe pela amplitude
de classe daquela particular classe.
Passo 1: Escolhe-se k = 10 classes neste exemplo, apenas porque este valor é a média de todos
os critérios acima (é claro, você pode escolher k segundo qualquer um dos 4 critérios
individualmente).
2,9
Passo 4: LI1 = 6,7 - = 5,25.
2
Passo 5: LS1 = LI2 + c = 5,25 + 2,9 = 8,15;
LS2 = 8,15 + 2,9 = 11,05, e assim por diante, cumprindo os demais passos.
A representação tabular dessa distribuição de frequência está apresentada na Tabela 2.9. Para a
elaboração de gráficos referentes à distribuição de frequência, é necessário o cálculo da densidade
de frequência de cada classe, já dada como:
Por essa definição de densidade, pode-se definir três tipos de densidade, sendo elas referentes à
frequência absoluta, relativa ou percentual. A densidade de frequência absoluta, por exemplo, é
simbolizada por dfa, e é dada por:
fa (x )
dfa(x) =
c
E assim, analogamente:
fr (x ) fp (x )
dfr(x) = e dfp(x) =
c c
Guia de estudos de Estatística
Tabela 2.9. Distribuição de frequências, relativa à produção diária de leite de 201 vacas da raça
holandesa, de um rebanho pertencente a fazenda Itirapuan, Sul de Minas Gerais, 2005.
1 2 3
Classes fa fr fp
(5,25 ; 8,15] 2 0,0100 1,00
(8,15 ; 11,05] 5 0,0249 2,49
(11,05 ; 13,95] 23 0,1144 11,44
(13,95 ; 16,85] 38 0,1891 18,91
(16,85 ; 19,75] 48 0,2388 23,88
(19,75 ; 22,65] 37 0,1841 18,41
(22,65 ; 25,55] 29 0,1443 14,43
(25,55 ; 28,45] 13 0,0646 6,46
(28,45 ; 31,35] 3 0,0149 1,49
(31,35 ; 34,25] 3 0,0149 1,49
Totais 201 1,0000 100,00
1. frequência absoluta; 2. frequência relativa; 3. frequência porcentual.
Fonte: dados deste livro.
A densidade de frequência permite que se obtenham valores para frequências a partir do cálculo
de áreas nos gráficos. Esse aspecto torna-se importante em casos onde existem classes com
amplitudes desiguais. As densidades de frequência relativa para o exemplo do rebanho de gado
leiteiro estão apresentadas na Tabela 2.10.
Por exemplo, suponha que se queira determinar a frequência relativa de animais que
a
produzem entre 19,75 e 22,0 kg de leite. A frequência relativa da 5 classe (produção entre 19,75 e
22,65) é igual a 0,1841 (Tabela 2.11). A frequência relativa entre 19,75 e 22,0 consiste na área de
Guia de estudos de Estatística
dfr
0,0800
0,0600
0,0400
0,0200
0,0000
5,25 8,15 11,05 13,95 16,85 19,75 22,65 25,55 28,45 31,35 34,25
Produç ão de leite
a
uma nova barra, mais estreita que aquela correspondente à 5 classe. Essa nova barra tem altura
a
igual à dfr da 5 classe (=0,0635) e base igual a:
Guia de estudos de Estatística
Assim, a área dessa nova barra é calculada multiplicando-se sua base por sua altura, ou seja:
esse é o valor da frequência relativa entre 19,75 e 22,0. Podemos então dizer que há em torno de
14,29% de vacas que produziam entre 19,75 kg de leite e 22,0 kg de leite, na fazenda Itirapuan, no
ano de 2005. Essa porcentagem seria em torno de 29 vacas (0,1429 x 201).
Conceito 2.7. Medida de Posição. Grandeza numérica que descreve um conjunto de dados, pela
indicação da posição do conjunto na escala de valores possíveis que a variável em questão pode
assumir.
Média
A média aritmética (ou simplesmente média) amostral, calculada a partir de uma amostra,
e referente à característica (variável) X, é simbolizada por x e é definida como:
∑x i
1 n
x = i =1
n
= ∑ xi
n i =1
1
x= (5,3 + 6,9 + ... + 33,8) = 19,04 kg leite/dia
201
Recorde que “n” refere-se ao número de elementos da amostra.
k
x ≅ ∑ fr .x
i =1
i i
onde fri é a frequência relativa da classe i, e xi é o ponto médio da classe i . Para a distribuição de
frequência da Tabela 2.10 temos a seguinte tabelinha auxiliar:
Totais 1,0000
19,0772 ≅ 19,08
Convém observar que o valor obtido por essa expressão (19,08) não coincide com o valor da
expressão que define a média (19,04). Esta diferença (19,08 – 19,04 = 0,04 kg leite/dia) é
chamada de erro de agrupamento. Apesar de que este erro é quase sempre pequeno, a expressão
da definição da média deve ser preferida, fazendo-se o cálculo diretamente sobre os dados
originais, apesar de ser mais trabalhoso. Atualmente, com a grande disponibilidade de softwares
específicos para Estatística, e mesmo planilhas de cálculos com poderes estatísticos, esse
trabalho deixou de ser um problema. O uso da expressão aproximada, que calcula a média
utilizando-se das frequências relativas das classes e de seus respectivos pontos médios, só deve
se utilizada quando não se dispõe dos dados originais.
ii) Multiplicando-se todas as observações por uma constante k, a média fica multiplicada por k.
iii) A soma dos desvios de cada observação em relação à média é igual a zero. O desvio da
observação i é dado por:
di = x i - x
e assim:
∑ [x - x ] = ∑ d
n n
i i =0
i =1 i =1
iv) A média minimiza a soma dos quadrados dos desvios. Ou seja, a quantidade
∑ [x ]
n
2
i -x ,
i =1
seria aumentada (ficaria maior) se colocássemos no lugar de x qualquer outro valor que não seja
x.
Mediana
x1 x2 x3 x4 x5
3 5 6 8 48
x = 14,0
Note que o valor da média, 14,0, influenciada pelo valor extremo 48, não corresponde a uma
medida de posição conveniente, uma vez que a maioria das observações possuem valores abaixo
~
de 10. A mediana x desses dados corresponde ao valor 6, pois é a observação, nos dados
ordenados, que possui um igual número de observações abaixo e acima dela, ou seja, 2 dados (3
e 5) são menores do que 6 e 2 dados (8 e 48) são maiores do que 6. Podemos considerar que 6,0
representaria os dados melhor do que 14,0, no sentido de não ser tão sensível a valores
discrepantes.
5+6
x~ = = 5,5.
2
x n +1 , se n é ímpar
2
x~ = x
n
+ x n
+1
2 2
, se n é par
2
Nota. x(i) é o i-ésimo valor da massa de dados em ordem crescente.
~
Observe que, se n é par, a mediana x é um valor que pode não aparecer na massa de dados.
~
Para a produção de leite apresentada na tabela 2.9, com n = 201 dados, n é ímpar e x = x(101) =
19,0 kg leite/dia pela fórmula acima, um valor que aparece na massa de dados. Para os dados da
duração das lâmpadas (tabela abaixo)
Guia de estudos de Estatística
Tabela. Dados ordenados para uma amostra de 50 lâmpadas (tempo de vida em horas).
712,7 714,1 715,1 716,7 718,2 719,8 720,5 721,8 723,0 724,6
712,8 714,3 715,3 717,3 718,5 719,9 720,8 722,2 723,6 725,1
713,8 714,4 715,7 717,5 718,6 720,1 721,0 722,4 723,6 725,2
713,9 714,6 715,7 717,7 718,8 720,4 721,2 722,7 723,7 725,9
714,1 715,0 716,2 717,8 719,0 720,4 721,6 722,8 723,8 728,5
x~ =
717,8 + 718,2
= 718,0 horas
2
Este valor (718,0 horas) não aparece na massa de dados.
48 2,9
32,5 x x = 1,96
onde LiMd é o limite inferior da classe que contem a mediana, isto é, a classe que acumula o dado
da posição n/2 em ordem cescente.
n
~ − FMd −
x = LI Md +2 c Md ,
f Md
onde:
Guia de estudos de Estatística
FMd− é a frequência absoluta acumulada até a classe imediatamente anterior à classe mediana;
~ 0,5 − FrMd −
x = LI Md + c Md ;
frMd
onde:
FrMd− é a frequência relativa acumulada até a classe imediatamente anterior à classe mediana;
Nota. Observe que essas fórmulas são aplicáveis apenas para variáveis contínuas, isto é, a
princípio, essas fórmulas são aplicáveis somente em variáveis numéricas oriundas de medições.
Lembre-se que não utilizamos, a principio, histogramas para representar variáveis discretas, e,
portanto, tais fórmulas (que precisam de quantidades tais como amplitude de classe e limite de
classe) não podem ser aplicadas no cálculos de mediana de variáveis discretas organizadas em
tabela de distribuição de freqüência.
ii) Multiplicando-se todas as observações por uma constante k, a mediana fica multiplicada por k.
iii) A mediana é o valor que minimiza a soma dos valores absolutos (módulos) dos desvios, isto é:
∑x
~
i - a é mínima se a = x
i =1
Moda
A moda também foi idealizada visando descrever melhor aqueles conjuntos de dados com
distribuição assimétrica. Ela busca apresentar como medida de posição dos dados o valor típico de
ocorrência, isto é, por definição a moda é o valor mais frequente na massa de dados. Seu símbolo
é x * e não temos uma “fórmula matemática” para defini-la. Sua definição é simplesmente :
Guia de estudos de Estatística
Assim como foi para média e mediana, apresentaremos seu cálculo para dados não-agrupados e
para dados agrupados.
Começando pelos dados não agrupados, a moda, sendo definida como sendo o valor mais
frequente, é calculada apenas buscando o valor que mais se repete na massa de dados. Por
exemplo, no conjunto de dados.
x1 x2 x3 x4 x5
1 2 2 3 4
a moda x * corresponde ao valor 2, que é o mais frequente, isto é, a moda é “calculada” como
sendo 2, pois o valor “2” para X ocorre com frequência absoluta 2, maior do que todos os outros
valores. Logo:
x * = 2.
Observe que o valor 14,1 ocorreu 7 vezes, isto é, frequência absoluta de ocorrência igual 7, maior
que a frequência de ocorrência de todos os demais valores. Porém, é imediata a observação da
inconveniência de seu uso dessa maneira para o caso de variáveis contínuas, onde, na maioria
das vezes, é praticamente nula a chance de se encontrar valores exatamente iguais que se
repitam várias vezes. Esta característica de probabilidades infinitesimais para variáveis contínuas
leva alguns autores a declarar que “massa de dados brutos de variáveis contínuas não tem moda”,
porém, a rigor, mesmo tais massas de dados podem ter moda, e sua definição é como estamos
dando aqui.
Para contornar este imbróglio, convém-nos então, para variáveis contínuas, estimar a
moda como o valor que possui a maior densidade de frequência na distribuição de frequências,
obtida a partir do agrupamento dos dados. Para tanto, procede-se a construção de uma tabela de
distribuição de freqüência para os dados, buscando-se, então, em tal distribuição, o valor de maior
densidade de freqüência. Mais de um método poderia ser utilizado para este cálculo. Aqui
apresentarmos dois métodos:
∆1
x * = LI Mo + c Mo
∆1 + ∆ 2
ii) Multiplicando-se todas as observações por uma constante k, a moda fica multiplicada por k.
Figura 2.10. Posicionamento da média, mediana e moda em uma distribuição assimétrica à direita.
Mo é abreviatura de “moda”, Md de “mediana”, e Me de “média”.
Guia de estudos de Estatística
Conceito 2.8. Medida de Dispersão. Grandeza numérica que descreve um conjunto de dados,
pela quantificação da variabilidade ou heterogeneidade neles presente.
Tabela 2.11. Estrutura fundiária como área (variável X) em 3 regiões agrícolas (medidas em ha).
Região A: A = 0
Guia de estudos de Estatística
Região B: A = 40
Região C: A = 180
A amplitude possui alguns inconvenientes. Trata-se de uma medida muito influenciada por
valores extremos, uma vez que é calculada somente a partir deles. Assim, sua interpretação
independe até certo ponto do número de observações do conjunto. Para ilustrar esse aspecto, no
exemplo do rebanho de gado holandês da fazenda Itirapuan, foram tomados subconjuntos de
diferentes números de animais, do total de 201 observações, sempre a partir dos primeiros dados
da Tabela 2.7 que estão fora de ordem, e, portanto, guardando uma certa “casualidade”. Foram
obtidos os seguintes valores para a amplitude:
Conjunto A 5 15 15 15 40
Conjunto B 5 10 20 30 40
Tais conjuntos possuem a mesma amplitude, 35, mas apresentam claramente diferentes
magnitudes de variabilidade, sendo esta magnitude inferior no conjunto A, pois este terá maior
uniformidade. Para resolver esse problema, foram concebidas duas medidas a partir de todas as
observações: a variância e o desvio padrão. São estas que estudaremos a seguir.
Guia de estudos de Estatística
Variância e Desvio-padrão
Trata-se de medidas de dispersão baseadas nos desvios dos dados em relação à média:
di = x i - x
n n
∑ di
i =1
∑x i −x
= i =1
n n
Apesar desta medida ser uma possível medida de variabilidade, ela não tem boas propriedades
nem estatísticas e nem matemáticas. Por causa disso, razões estatísticas levam à considerar o
quadrado das diferenças (e não o módulo), e a divisão da soma dos quadrados dos desvios por n-
1 e não por n, definindo então a medida de variabilidade denominada variância:
∑ (x
i =1
i − x)
2
(x1 − x )2 + (x 2 − x )2 + ...(x n − x )2
=
2
s =
n −1 n −1
∑ (x
i =1
i − x)
2
s= s2 =
n −1
O denominador (n - 1) é chamado de graus de liberdade. Para a amostra da Tabela 2.9, s=3,94 kg,
e s2 = 15,5442 kg2. Apesar do divisor n-1, a variância também pode ser denominada de “quadrado
médio”, visto ser uma espécie de média dos desvios ao quadrado. Algumas vezes autores de
textos sobre Estatística usam outra fórmula para a variância amostral, a saber,
∑ (x − x)
2
i
2 i =1
s =
n
∑ (x − x)
2
i
s= s2 = i =1
porém, devemos salientar que estas fórmulas levam a uma subestimação (isto é, apresenta um
viés) do valor real da variabilidade da variável em estudo, devendo serem, portanto, evitadas. As
fórmulas com divisor n-1 devem ser a utilizadas, pois permitem uma estimação exata (isto é, não
viesada) da variabilidade da variável de interesse.
Conjunto A 5 15 15 15 40
Conjunto B 5 10 20 30 40
2
Observação xi di di
1 5 -16 256
2 10 -11 121
3 20 -1 1
4 30 9 81
5 40 19 361
Total 105 => 0 820
=> x =21,00
E assim:
x = 105 / 5 = 21,00
s² = 820 / 4 = 205,0000
s = 14,32
Guia de estudos de Estatística
O conjunto A do exemplo possui uma variância igual a 170,0000, refletindo assim a menor
variabilidade nele existente, em relação ao conjunto B, que tem variância 205,0000.
s² =
1
200
[
(5,3 − 19,04 )2 + (6,9 − 19,04 )2 + ... + (33,8 − 19,04 )2 = 24,0007 ]
Nós podemos nos aproveitar do fato de que a soma de quadrados de desvios pode ser
expressada em uma forma simplificada, para criarmos uma fórmula alternativa para a variância (e
desvio-padrão), que é mais fácil para o cálculo, mesmo que pareça mais “complicada” para
escrever, qual seja:
2
n
n
∑ xi
xi − i =1
n
∑ (x − x) ∑
2 2
i
n
i =1
= i =1
n −1 n −1
Demonstração:
∑ [x ]=
n n
∑ [x − x] = − 2 x i x + [x ]
2 2 2
i i
i =1 i =1
n n n n ∑x i n
∑x − 2 x ∑ x i + ∑ [x ] = ∑x −2 i =1
∑x + n[x ] =
2 2 2 2
= i i i
i =1 i =1 i =1 i =1 n i =1
2 2 2 2
n n n n
n
∑ x i
∑ xi
∑ x i
∑ xi
+ i =1
n
= ∑ xi − 2 + n i =1 =
∑
i =1 i =1
2
xi − 2
2
=
i =1 n n i =1 n n
2
n
∑ xi
i =1
n
= ∑ xi −
2
i =1 n
Guia de estudos de Estatística
Para dados agrupados, a variância também pode ser calculada da seguinte forma
facilitada:
[ ]
k
s 2 ≅ ∑ x j - x .fr j
2
j=1
onde x j é o ponto médio da classe j. Essa expressão não fornece, na maioria das vezes, o
Demonstração:
∑ fa (x − x)
n k
∑ ( x i − x )2
2
j
= ∑ (x j − x ) ≅ ∑ (x j − x ) . fr j
j =1
j k fa j k
s2 = i =1
≅
2 2
n −1 n −1 j =1 n −1 j =1
Nota. A aproximação final é tanto mais exata quanto maior for o valor de n, isto é:
fa j fa j
lim = lim = lim fr j = fr j
n →∞ n −1 n →∞ n n →∞
i) Somando-se uma constante k a todas observações, nem a variância nem o desvio padrão se
alteram.
2
ii) Multiplicando-se uma constante k a todas as observações, a variância fica multiplicada por k e o
desvio padrão por k.
iii) O desvio padrão, em relação à média, ao invés de em relação a outro valor qualquer, é mínimo,
em razão do fato de a média ser o valor que torna mínima a soma de quadrados dos desvios.
i Rebanho A Rebanho B
1 50 470
2 70 490
3 60 460
4 80 480
x 65 475
s 11,18 11,18
s
cv = 100%
x
4,89
cv = 100% = 25,7%
19,04
Rebanho B: cv = 2,4%
a) Classifique a variável.
Variável qualitativa nominal, pois ela separa as diferentes culturas em categorias pelos respectivos
nomes.
b) Faça a representação tabular por meio das frequências absoluta (fi), relativa (fri) e percentual
(fpi).
ATIVIDADES fa fr fp
MILHO 5 0,25 25
SOJA 5 0,25 25
CAFÉ 4 0,20 20
LEITE 4 0,20 20
FEIJÃO 2 0,10 10
TOTAL 20 1,00 100
2) Os dados abaixo referem-se às áreas (em ha) de 25 propriedades rurais que receberam
financiamento para pecuária de leite. Lavras, MG, de 1977 a 1982:
42 40 45 46 48
51 50 53 58 62
73 66 73 82 89
106 100 130 150 175
231 181 252 267 268
Classes xi fa i fri fp i %
(11,5;68,5] 40 11 0,44 44
(68,5;125,5] 97 6 0,24 24
(125,5;182,5] 154 4 0,16 16
(182,5;239,5] 211 1 0,04 4
(239,5;296,5] 268 3 0,12 12
Total - 25 1,00 100
Sim, é possível encontrar propriedades com área entre 70,0 e 100,0 ha e para encontrar a
porcentagem de ocorrência, pode-se utilizar uma regra de três simples:
125,5 – 68,5 = 57,0 ha --------------------------------- 6 propriedades
110,0 – 70,0 = 40,0 ha --------------------------------- x
x = 4,2 propriedades => 4,2 / 25 = 16,8%
Assim, podemos inferir que 16,8% destas propriedades possuem área entre 70,0 e 110,0 ha.
∑x
i=1
i
184 + 193 + ... + 207
Calculando a média: x= = = 198 Kg
n 6
A média é uma medida de tendência central, ou seja, em torno dela se congregam valores abaixo
e acima da mesma. Assim, esse desvio negativo do 2° animal com relação à média se deve ao fato
de que ele esta 5 kg abaixo dela.
b) Mostre que a soma dos desvios com relação à média é nula.
n
∑ (x i − x ) = (184 − 198) + (193 − 198) + ... + (207 − 198) = 0
i=1
∑x
i=1
i
12,27 + 12,87 + 13,60 + 13,60 + 13,07 + 13,80
x= = = 13,20 arrobas
n 6
d) Adicione 20 Kg a cada dado e encontre a média. Confronte o resultado com o obtido no item a.
Qual a propriedade esta envolvida?
Adicionando 20 Kg a cada dado, temos:
204 213 224
224 216 227
Calculando a nova média:
Guia de estudos de Estatística
∑x
i=1
i
204 + 213 + ... + 227
x= = = 218 kg
n 6
x a = 198 kg x d = 218 kg
podemos perceber que a média se alterou na mesma proporção que cada observação foi
aumentada. A propriedade envolvida é a propriedade da soma, que diz que se somarmos a cada
observação uma constante “k” a média fica acrescida desta mesma constante “k”.
e) Calcule a Soma de Quadrados dos Desvios “SQD” em relação à média e em relação à
constante k = 196. Discuta os resultados.
Vejamos a SQD em relação à média:
6
SQD = ∑ (x
i=1
i − x ) 2 = (184 − 198) 2 + (193 − 198) 2 + ... + (207 − 198) 2 = 378
Comparando os dois resultados podemos perceber que a SQD em relação à média é menor que a
SQD da constante k = 196. Confirma-se assim que a SQD em relação á média é o valor que torna
mínimo o valor dos desvios.
a) Qual é a amplitude total do tratamento A? Que inconveniente tem esta medida para expressar
a variabilidade de uma amostra?
Amplitude Total(AT):
AT = Mvo – mvo sendo: Mvo = Maior valor observado e mvo = menor valor observado
Assim:
Guia de estudos de Estatística
SQD
∑ (x i − x ) 2 (54,5 − 54,5) 2 + (54,5 − 54,5) 2 + ...(54,5 − 54,5) 2
i=1
s2 = = = = 0 Kg 2
n −1 n −1 6 −1
c) Qual tratamento é mais variável: o B ou o C? Que medida estatística você usou para comparar
a variabilidade? Justifique.
Calculemos primeiro o desvio padrão para o tratamento B:
6
∑ (xi=1
i − x)2
(53,5 − 53,7) 2 + (54,3 − 53,7) 2 + ... + (52,6 − 53,7) 2
s B2 = = = 0,56 Kg 2
n −1 6 −1
sB = s B2 = 0,55 = 0,74 Kg
Como o desvio padrão do tratamento B é maior do que o do tratamento C, podemos afirmar que o
B apresenta maior variabilidade entre seus dados. Neste foi possível utilizarmo-nos principalmente
do desvio padrão para comparar a variabilidade entre os tratamentos, pelo fato de os dois
tratamentos possuírem a mesma unidade de grandeza e a mesma média.
d) Calcule o desvio padrão do tratamento A . Interprete.
6
∑ (xi=1
i − x)2
(56,8 − 56,8) 2 + (57,2 − 56,8) 2 + ... + (57,9 − 56,8) 2
s 2A = = = 0,89 Kg 2
n −1 6 −1
sA = s 2A = 0,88 = 0,94446 Kg
A variabilidade do tratamento A medido pelo desvio padrão é maior do que a variabilidade dos
tratamentos B e C.
e) Multiplique os dados do tratamento A por 1000 e calcule o desvio padrão.
Multiplicando os dados do tratamento A por 1000 temos:
56800 57200 57500 55400 56000 57900
Calculando a nova média:
6
∑ xi 56800 + 57200 + ... + 57900
i =1
x= = = 56800 Kg
n 6
Calculando o novo desvio padrão:
Guia de estudos de Estatística
6
∑ (x i − x ) 2 (56800 − 56800) 2 + (57200 − 56800) 2 + ... + (57900 − 56800) 2
i=1
s 2A = = = 892000 Kg 2
n −1 6 −1
sA = s 2A = 892000 = 944,46 Kg
Essa diferença justifica-se por uma das propriedades do desvio padrão: Multiplicando-se ou
dividindo-se cada observação por uma mesma constante k ≠ 0, o desvio padrão fica multiplicado
ou dividido por esta mesma constante.
s 15,5
2º para a precipitação: CV = 100 = 100 = 15,5 %
x 100
Quanto menor o CV, mais preciso é o experimento. A medida tem grande aplicação na
experimentação para avaliar a precisão dos ensaios. Nesse caso, a precipitação possui maior
variabilidade.
C F − 32
b) Se a temperatura fosse avaliada em ºF ( = ), como ficaria a conclusão do item a?
5 9
Justifique.
s 3,6
Para a temperatura em ºF: CV = 100 = 100 = 5,59 %
x 64,4
Assim, a conclusão do item 3.1. seria que a temperatura apresentaria menor variabilidade.
Guia de estudos de Estatística
1 1 3 3 1
4 2 0 4 4
1 1 3 2 3
4 0 2 0 3
1 1 2 1 2
a) Classifique a variável em questão;
b) Construa uma distribuição de frequência com as frequências absoluta, relativa e percentual;
c) Calcule a média, mediana, moda, variância, desvio-padrão, e cv.
Guia de estudos de Estatística
5) Um pesquisador da área de Ciência de Alimentos examinou juntamente com sua equipe um lote
de 150 caixas de bananas-maçã escolhidas aleatoriamente de um carregamento de 10.000 caixas,
anotando o número de pencas com “empedramento”. Foram obtidos os seguintes resultados:
N° Pencas Emp.( XI ) 0 1 2 3 4 5 6 7ou +
N° Caixas ( f i ) 38 37 25 20 16 10 4 0
Guia de estudos de Estatística
Insolação (horas)
199,1 184,3 190,6 190,9 201,6 200,6
211,1 208,1 141,1 141,1 151,1 164,4
Qual atributo meteorológico é mais variável? Indique e justifique a medida estatística utilizada na
comparação.
Guia de estudos de Estatística
UNIDADE 3
CÁLCULO DE PROBABILIDADES
P[A] = lim
fa (A)
,
N →∞ N
Conceito 3.1. Probabilidade. Frequência relativa associada a uma variável descritora em infinitas
repetições.
Guia de estudos de Estatística
Conceito 3.3. Variável Aleatória. Variável a cujos valores são associadas probabilidades de
ocorrência.
A probabilidade de que uma variável aleatória X assuma determinado valor é denotada por
P[X = x]. As variáveis aleatórias quantitativas podem ser discretas ou contínuas, sendo que para
cada qual podem ser construídos modelos matemáticos não-determinísticos que expressem as
distribuições de probabilidade correspondentes.
Além disso, sendo elas quantitativas, faz sentido falar-se em medidas de posição e
dispersão. Neste capítulo serão concentradas as atenções apenas na média, variância e desvio
padrão de uma variável aleatória quantitativa.
Guia de estudos de Estatística
X 0 1 2 3 4
Essa característica é válida para toda distribuição de probabilidade discreta, assim como também
toda probabilidade é um número positivo. Ou seja, se a variável aleatória discreta assume k
valores, então:
∑ P [X = x ] = 1
i =1
i e P[X=x] > 0.
O valor médio que uma variável aleatória assume é chamado, como já dito, além de média,
também de esperança matemática e de valor esperado. Para a obtenção do valor médio que uma
variável aleatória discreta assume, ou seja, sua esperança ou valor esperado, faz-se da mesma
maneira como foi feito para o cálculo da média para dados agrupados, substituindo fri por P[X = xi]:
k
E(X) = Me(X) = µX = µ = ∑ x P [X = x ]
i =1
i i
1 2 5 1 1
E(X) = µX = 0 +1 +2 +3 +4 = 1,9
10 10 10 10 10
k
Var(X) = σ 2x = σ 2 = ∑ [x
i =1
i − Me(x )] P [X = x i ]
2
No exemplo tem-se:
Guia de estudos de Estatística
1 2 2 2 5 2 1 2 1
σ = (0 - 1,9)
2 2
+ (1 - 1,9) + (2 - 1,9) + (3 - 1,9) + (4 - 1,9) = 1,09
10 10 10 10 10
Existe uma série de distribuições de probabilidades discretas em Estatística. Duas das mais
importantes serão vistas a seguir. A distribuição contínua mais importante é a distribuição Normal,
e a estudaremos logo em seguida as discretas.
S = {macho, fêmea}.
Uma distribuição de probabilidades que lida com tais situações é a chamada distribuição Binomial.
L1 L2 L3 L4 L5 Probabilidade
5
M M M F F (0,5)
5
M M F M F (0,5)
5
M F M M F (0,5)
5
F M M M F (0,5)
5
M M F F M (0,5)
5
M F M F M (0,5)
5
F M M F M (0,5)
5
M F F M M (0,5)
F M F M M (0,5)5
5
F F M M M (0,5)
Na realidade, em vez de listar todas as possibilidades, como feito acima, pode-se calcular
diretamente o número total de combinações possíveis por meio de:
5!
C5,3 = = 10
3! (5 − 3)!
Dessa forma, para calcular a probabilidade de nascimento de 3 machos, sem importar com
5
a ordem, tem-se que somar o valor (0,5) 10 vezes. Portanto:
5
P[X = 3] = 10.(0,5) = 0,3125
P[X = x] = C5,x [P (M )] [P (F )]
x 5− x
Observe, então, que a distribuição binomial é definida por dois números, ou parâmetros,
que diferenciam as mais diferentes situações, sem os quais não calculamos P[X = x]: p e n.
Guia de estudos de Estatística
Assim, uma notação comumente empregada para denotar que determinada variável aleatória
possui distribuição binomial com parâmetros p e n, é:
X ∩ B (n, p)
Pode-se demonstrar que a esperança e a variância de uma variável aleatória que segue
uma distribuição binomial são dadas por:
Me(X) = E(X) = = µ X = µ = np
Var(X) = σ 2x = σ 2 = npq
A distribuição de Poisson refere-se a uma variável também discreta, mas que pode assumir
qualquer número inteiro positivo, ou seja:
X = 0, 1, 2, ...
Essa distribuição é importante para descrever fenômenos de ocorrência rara, como certos
fenômenos meteorológicos e climáticos, eclosão de ovos de insetos submetidos a um inseticida,
porcentagem de plantas doentes em campos de produção de sementes, nº de chamadas
telefônicas num certo intervalo de tempo numa central telefônica, nº de pontos com defeito em
chapas de aço e em peças de tecido, entre muitos outros.
e −λ λ x
P[X = x] =
x!
Como exemplo, considere o número de chuvas por ano com intensidade acima de 50mm/h
que ocorrem em uma região. Essa variável pode ser importante no dimensionamento de drenos ou
Guia de estudos de Estatística
barragens. A população é constituída por todos os anos da região, e é infinita, pois abrange os
infinitos anos que ainda estão por vir. A variável aleatória é discreta, porque conta o número de
-1
chuvas acima de 50 mm.h . Suponha que o número médio de chuvas por ano com essa
intensidade seja 1,5. Então, se o modelo de Poisson for um bom descritor, tem-se que:
e −1,5 1,5 0
P[X = 0] = = 0,2231
0!
X 0 1 2 etc.
A probabilidade de que X seja maior do que 2 pode ser obtida pelo teorema 1 de
probabilidades:
tem-se que:
A distribuição de Poisson tem a particularidade de que sua média e sua variância são
ambas iguais a λ:
E(X) = µX = λ e σ =λ
2
também.
Assim, no exemplo das chuvas, a variância associada ao número de precipitações com intensidade
-1
acima de 50 mm.h também é igual a 1,5.
A distribuição de Poisson pode também ser usada como uma aproximação da distribuição
Binomial, fazendo λ ser np. Esta aproximação é tanto melhor quanto mais n → ∞ e p → 0. Na
prática, quando n > 50 e p < 0,10, tal aproximação já pode ser usada. Como um exemplo, se no
caso dos leitões da seção anterior o número de leitões fosse n = 500 e estivéssemos interessados
em pesquisar uma doença com probabilidade de ocorrência de 8,2 %, então a probabilidade de
que encontremos pelo menos 1 leitão doente poderia ser calculada não somente pela Binomial
mas também pela Poisson:
N = 500 > 50 e p = 0,082 < 0,10, logo as condições para aproximar a Binomial pela Poisson estão
atendidas:
Guia de estudos de Estatística
P (X ≥ 1 ) = 1 – P (X = 0) = 1 – e . (500 x 0,082) ≅ 1
-500 x 0,082 0
1 (x − a )2
f(x) = exp− , -∞ < x < ∞
2πb 2 2b 2
sendo π = 3,1416... Trata-se de um modelo que procura explicar o comportamento de uma variável
aleatória contínua X que pode variar desde -∞ até ∞, sem explicar as causas desse
comportamento. Por isso é que se trata de um modelo não-determinístico.
Conforme se observa, são necessários dois parâmetros para definir uma distribuição
normal, as constantes a e b. Na realidade, o primeiro corresponde à média (ou esperança) da
variável aleatória X, e o segundo corresponde à variância. Em outras palavras, a = µ e b = σ. Logo,
podemos escrever:
1 (x − µ )2
f(x) = exp− , -∞ < x < ∞
2πσ 2 2σ 2
2) Forma campanular;
6) Assintótica em relação ao eixo da abscissa, ou seja, ela nunca corta o eixo X, mas cada
vez se aproxima mais dele;
Guia de estudos de Estatística
7) A área total sob a curva, como em qualquer função densidade de probabilidade, é igual
a 1.
Para ilustrar de que maneira isso pode ser feito, considere um exemplo referente ao tempo
de vida dos aspersores da marca hipotética Agro-1000. Trata-se de uma população infinita, pois
abrange todos os aspersores dessa marca que existiram, existem ou virão a ser fabricados um dia.
A variável descritora é o tempo de vida, expresso em horas de funcionamento até a quebra.
Suponha que essa variável aleatória possa ter seu comportamento descrito por uma distribuição
normal, com média µ = 500h e σ = 2500h . Um produtor deseja saber qual a probabilidade de que
2 2
um aspersor tenha um tempo de vida entre 480 e 520 horas. Nesse caso, tem-se uma situação
como a da Figura 3.2.
Guia de estudos de Estatística
Figura 3.2. Distribuição normal relativa ao tempo de vida dos aspersores da marca Agro-1000.
Para obter a probabilidade de que um aspersor dure entre 480 e 520 horas, é necessário
calcular a área hachurada na Figura 3.2. O procedimento para se fazer isso corresponde ao
cálculo da integral:
520 1 (x − 500)2
P[480 < X < 520] = ∫480
2π50 2
exp−
250 2
dx
sendo f(x) é a função densidade de probabilidade. No caso da curva normal, essa integral não tem
uma solução explícita e, por causa disso, é necessário fazer uso de um procedimento alternativo,
como será visto no próximo item.
Normal reduzida ou padronizada. Uma variável aleatória com essa distribuição geralmente é
simbolizada pela letra Z.
Uma propriedade interessante de uma variável aleatória X que segue qualquer distribuição
normal é a de que ela pode sempre ser “transformada” em uma variável Z, pela expressão:
Guia de estudos de Estatística
x−µ
z=
σ
P[ 0 < Z < z]
Existem tabelas próprias que contém os valores das áreas da distribuição Z. Para exemplificar seu
uso, considere que se queira calcular:
Na Tabela 1.1 do Apêndice, existe uma coluna indicadora e uma linha indicadora. Na coluna
existem valores de Z até a primeira casa decimal, e na linha a segunda casa decimal. Dessa
forma, para achar a probabilidade acima, basta buscar o valor 0,4 na coluna, e o valor 6 na linha.
Dessa forma, encontra-se o valor para a probabilidade como sendo igual a 0,1772. Essa área está
representada na Figura 3.3.
µ = 500 σ = 2500 σ = 50
2
Guia de estudos de Estatística
520 − 500
z= = 0,40
50
Falta agora calcular P[480 < X < 500]. No ponto X = 480, tem-se:
Guia de estudos de Estatística
480 − 500
z= = -0,40
50
Na tabela de Z, não constam os valores negativos. Mas, como trata-se de uma distribuição
simétrica em torno do 0, tem-se que:
E assim:
P[480 < X < 520] = P[480 < X < 500] + P[500 < X < 520] = 0,1554 + 0,1554 = 0,3108
Figura 3.4. Três curvas normais referentes a diferentes variáveis aleatórias X1, X2 e X3, com
mesma média, mas com σ1 > σ2 > σ3 (a mais alta tem σ3 e a mais achatada σ1 e a intermediária
2 2 2 2 2
σ2 ).
2
Como exemplo, considere um administrador que seja responsável por executar um plano
de ação na empresa em que trabalha, liderando uma equipe onde o perfil do integrante é bem
definido, aptos para executar uma determinada função. Para tanto, ele terá que avaliar candidatos
na cidade e contratar 40 pessoas. Suponha que a probabilidade de que um candidato seja
qualificado ao trabalho (evento de sucesso) seja de 60% (ou seja, p = 0,6). Durante uma semana,
ele vai avaliar os 60 candidatos inscritos, e deseja saber qual a probabilidade de encontrar nestes
inscritos pelo menos 40 pessoas aptas para integrar a equipe. O número X de pessoas aptas é
uma variável aleatória discreta com distribuição Binomial, com n = 60 e p = 0,6. A distribuição de
probabilidade dessa variável está apresentada na Figura 3.8.
Nota-se a grande semelhança entre o aspecto desse gráfico e uma curva Normal.
Portanto, essa distribuição pode ser “aproximada” para uma Normal, poupando esforços no cálculo
de probabilidades. Para tanto, deve-se observar que a esperança e a variância dessa variável
aleatória são dadas por:
E(X) = np = 60.0,6 = 36
Agora basta considerar uma curva normal com µ = 36 e σ = 14,4 , e ter-se-á uma aproximação
2
12
10
0
20 25 30 35 40 45 50
Figura 3.6. Aproximação normal a uma distribuição Binomial com parâmetros n = 60 e p = 0,6.
Para calcular a probabilidade de que entre esses 60 candidatos, haverá pelo menos 40
aptos ao serviço, basta agora utilizar a tabela de Z, com apenas a seguinte modificação. Como se
trata de uma aproximação, alguns autores apontam que o valor de 40, por exemplo, por se tratar
de uma variável discreta, equivale ao intervalo [39,5 ; 40,5] quando é feita a correspondência para
o caso contínuo. Dessa forma, deve-se calcular a probabilidade de X ser maior do que 39,5 , ao
invés de 40. Ou seja:
39,5 − 36
z= = 0,92
3,79
E assim:
P[X > 39,5] = P[Z > 0,92] = P[Z > 0] - P[0 < Z < 0,92] = 0,5000 - 0,3212 = 0,1788
Ou seja, existe uma chance de 17,88% de se encontrar 40 pessoas, ou mais, aptas para o serviço,
em um total de 60 candidatos.
Guia de estudos de Estatística
Essa probabilidade, quando calculada da maneira exata e não pela aproximação normal,
fornece o valor 0,1786, evidenciando assim a qualidade da aproximação. Alguns autores observam
que são esperados bons resultados quando os produtos np e nq sejam ambos maiores que 5.
Caso contrário, o cálculo exato de probabilidades é recomendado.
P(X > 35) = P(X = 36) + P(X = 37) + P(X = 38) + ... =
ou como
1 - P(X > 35) = 1- P(X ≤ 35) = 1- [P(X = 0) + P(X = 1) + ... +P(X = 35)] =
A distribuição Normal pode ser usada para o cálculo aproximado de uma Poisson, trazendo
1) Sabe-se que 5% de um rebanho bovino está com febre aftosa. Qual a probabilidade de que num
lote de 6 animais retirados deste rebanho, tenha-se:
Esse é um caso clássico de uma Distribuição Binomial, ou seja, os resultados estão condicionados
a sucesso ou insucesso. Como p = 0,05 e q = 1 - p, portanto q = 0,95. Observe que n = 6.
Sendo:
n!
P(X = x) = C n,x p x q n− x sendo: C n,x =
x! (n − x)!
a) Nenhum animal com febre aftosa.
Guia de estudos de Estatística
Para encontrar a probabilidade de que nenhum animal esteja infectado, teremos que achar esta
função.
Utilizamos então:
6!
P ( X = 0) = 0,05 0 0,95 6 = 0,735
0!6!
Portanto, a probabilidade de não encontrar nenhum animal infectado neste lote de seis animais é
de 73,5%.
b) Dois animais com febre aftosa
6!
P ( X = 2) = 0,052 0,95 4 = 0,0304
2!4!
Assim, a probabilidade de encontrarmos dois animais infectados neste lote de 6 animais é de
3,04%.
c) Mais de um animal com febre aftosa
Para facilitar o volume de cálculos, utilizamos o conceito de função acumulada, mas para isto é
necessário primeiro calcularmos a função para um animal infectado para o lote de seis animais.
6!
P ( X = 1) = 0,05 1 0,95 5 = 0,232
1!5!
Como já se tem a probabilidade para nenhum animal e para um animal infectado para este lote,
podemos, enfim, calcular a probabilidade para mais de um animal infectado (P(X >1)).
P ( X > 1) = P ( X = 2) + P ( X = 3) + ... + P ( X = 6)
P ( X > 1) = 1 − [P ( X = 0) + P ( X = 1)] = 1 − [0,735 + 0,232] = 0,033
Portanto, a probabilidade de que, neste lote de 6 animais, tenha-se mais de um animal infectado é
de 3,7%.
2) Um jogador de basquete converte 90% dos lances livres. Qual a probabilidade de que este
jogador converta 4 de 6 lances livres de uma partida.
Este é um outro exemplo clássico da Distribuição Binomial. Temos p = 0,9 e q = 0,1 pois p + q = 1.
Sendo n = 6 e x = 4.
6!
P ( X = 4) = 0,94 0,12 = 0,0984
4!2!
Portanto, a probabilidade de que o jogador converta 4 de 6 lances livres é de 9,84%.
λx
P ( X = x ) = e −λ
x!
Assim, utilizando a função de Poisson:
3,62
P ( X = 2) = e −3,6 = 0,1770
2!
Assim, a probabilidade de que duas pessoas apresentem reação alérgica ao soro é de 17,70%.
b) No máximo quatro pessoas tenham reação alérgica?
No máximo quatro pessoas significa dizer que podem ser: nenhuma pessoa tendo reação alérgica
ou uma ou duas ou três ou quatro pessoas apresentando a reação. Dessa forma, para encontrar a
probabilidade de no máximo quatro pessoas apresentar a reação, tem-se que calcular a
probabilidade para cada uma delas e posteriormente soma-las.
3,60 3,61
P ( X = 0) = e −3,6 = 0,0273 P ( X = 1) = e −3,6 = 0,0984 P ( X = 2) = 0,1770
0! 1!
3,6 3 3,6 4
P ( X = 3) = e −3,6 = 0,2125 P ( X = 4) = e −3,6 = 0,1912
3! 4!
Portanto:
P ( X ≤ 4) = [P ( X = 0) + P ( X = 1) + ... + P ( X = 4)] = 0,7064
Assim, a probabilidade de que no máximo quatro pessoas apresentem reação alérgica é 70,64%.
c) Pelo menos duas pessoas apresentem reação alérgica?
Como já calculamos, as probabilidades para nenhuma e para uma pessoa apresentar reação
alérgica, podemos utilizar o conceito de função acumulada.
P ( X ≥ 2) = 1 − [P ( X = 0) + P ( X = 1)] = 1 − [0,0273 + 0,0984 ] = 0,8743
Assim, a probabilidade de que pelo menos duas pessoas apresentem reação alérgica é de
87,43%.
-2
4) Numa lâmina verificou-se que existiam em média 3 bactérias.cm . A lâmina foi subdividida em
2
300 quadrados de 1 cm .
a) Em quantos desses quadrados você espera encontrar no máximo 1 bactéria?
Este exercício é um caso onde se aplica a Distribuição de Poisson diretamente.
λx 30
P ( X = 0) = e −λ = 2,718 −3 = 0,0498 = 4,98%
x! 0!
λx 31
P ( X = 1) = e −λ = 2,718 −3 = 0,1494 = 14,94%
x! 1!
Assim, a probabilidade de se encontrar uma bactéria em qualquer um destes quadrados é de
14,94%.
Guia de estudos de Estatística
Como as probabilidades para 0 e para 1 foram calculadas no item anterior, calcula-se para 2, 3 e 4.
λx 32
P ( X = 2) = e − λ = 2,718 −3 = 0,224
x! 2!
λx 33
P ( X = 3) = e −λ = 2,718 −3 = 0,224
x! 3!
λx 34
P ( X = 4) = e − λ = 2,718 −3 = 0,168
x! 4!
P ( X > 4) = 1 − [0,0498 + 0,1494 + 0,224 + 0,224 + 0,168 ] = 0,1848 ou 18,48%
5) Usando a curva normal padronizada, determine as seguintes áreas com representação gráfica:
a) Entre 0,0 e 1,32:
Correspondendo à área de interesse a parte hachurada de azul. Assim, o valor correspondente na
tabela de z compreendido entre estes valores é de 0,4066.
0,4066
0,3322
d) Abaixo de 1,20.
A probabilidade será a soma de: 0,5 + 0,3849 = 0,8849
Guia de estudos de Estatística
e) À esquerda de -0,84:
Assim a probabilidade será dada por: 0,5 – 0,2995 = 0,2005
6) Uma distribuição normal tem média 50 e variância 36. Encontre as seguintes áreas em %:
a) Abaixo de 43.
Calculando z:
x−µ 43 − 50
z= = = −1,17
σ 6
Assim, a probabilidade será: 0,5 – 0,379 = 0,121.
b) Acima de 46.
x−µ 46 − 50
z= = = −0,667
σ 6
Assim, a probabilidade será: 0,50 + 0,2486 = 0,7486.
Guia de estudos de Estatística
c) Entre 40 e 60.
x − µ 60 − 50
z= = = 1,67
σ 6
Como a distância dos dois extremos para a média são iguais, a probabilidade será:
0,4525 x 2 = 0,905.
d) Entre 55 e 65.
Temos que calcular o z para cada um destes valores:
x − µ 55 − 50 x − µ 65 − 50
z1 = = = 0,83 e z2 = = = 2,5
σ 6 σ 6
Assim, temos que a probabilidade será: 0,4938 – 0,2967 = 0,1971.
7) Num povoamento florestal os diâmetros à altura do peito (DAP) apresentam distribuição normal
com média 18,2 cm e desvio padrão 3,4 cm.
a) Foram cortadas 1200 árvores que tinham DAP acima de 20,0 cm. Quantas árvores existiam no
povoamento?
Considerando x > 20,0 cm
x − µ 20,0 − 18,2
z= = = 0,53
σ 3,4
Então, a probabilidade de existir no povoamento 1200 árvores acima de 20,0 cm é:
0,5 - 0,2019 = 0,2981.
Para encontrar o número de árvores no povoamento, basta utilizarmos uma regra de três:
Guia de estudos de Estatística
X --------------------------- 100%
1200 ----------------------- 29,81%
x = 4025 árvores. Portanto, o povoamento total é de 4025 árvores.
2) Numa grande criação de coelhos 40% são machos. Entre 20 coelhos retirados aleatoriamente,
qual a probabilidade de:
a) Retirar 5 coelhos machos.
b) Retirar pelo menos 2 coelhos machos.
c) Retirar no máximo 2 coelhos machos.
3) Uma vacina apresenta eficiência de 99,98% na imunização dos indivíduos contra determinado
vírus. Toda a população de uma cidade de 10000 habitantes foi vacinada. Qual é a
probabilidade de que nesta cidade:
a) Uma pessoa seja infectada?
b) Pelo menos três pessoas sejam infectadas?
c) No mínimo uma pessoa seja infectada?
Guia de estudos de Estatística
4) Um livro de 300 páginas tem 630 erros de impressão, distribuídos ao acaso por todas as
páginas do livro. Qual a probabilidade de que, abrindo o livro ao acaso em uma página, esta
página apresente 5 erros de impressão?
5) Uma certa viga de aço tem resistência média de 7.500 psi. Suponha que essa resistência tenha
distribuição normal com desvio padrão de 650 psi. Determine as probabilidades para as seguintes
capacidades de resistência:
a) Menor que 6.900 psi.
b) Maior que 7.000 psi.
c) Maior que 10.000 psi.
6) Na população humana é sabido que 30% das pessoas apresentam algum tipo de problema de
visão. Numa classe de 40 estudantes, qual a probabilidade de encontrar:
a) 8 alunos com problemas visuais.
b) Mais de 13 alunos com problemas visuais.
c) De 11 a 15 alunos com problemas visuais.
Obs: Neste exercício utilize a aproximação da Distribuição Binomial pela Normal.
UNIDADE 4
AMOSTRAGEM
4.1. INTRODUÇÃO
Conceito 4.2. Sorteio. Procedimento pelo qual é conferida a todos os elementos de um conjunto a
mesma probabilidade de serem tomados.
Conceito 4.3. Amostra Aleatória. Amostra retirada por algum mecanismo de sorteio.
Guia de estudos de Estatística
Simples (AAS)
Amostragem Estratificada (AAE)
Por Conglomerado (AAC)
aleatória
Sistemática (AS)
Independente da natureza da amostragem (AAS, AAE, AAC ou AS), ela pode ainda ser
com reposição ou sem reposição:
Sem reposição
Amostragem
Com reposição
A amostra tem, como foi visto, n elementos. Se a AAS for feita com reposição em uma
população finita com N elementos, então o número total de amostras possíveis é dado por:
o n
N de amostras possíveis = N
Por outro lado, se ela for feita sem reposição, então o número de amostras possíveis é:
o
N de amostras possíveis = AN,n
Será apresentado um exemplo, a seguir, para ilustrar o uso de tabelas aleatórias. Uma
tabela aleatória nada mais é que uma coleção de números contidos em um intervalo,
“bagunçados”, e com igual probabilidade de ocorrência. A Tabela 4.1 foi gerada a partir da função
randômica de uma calculadora eletrònica.
Tabela 4.1. 50 números aleatórios (x1000) entre 0 e 1000 gerados a partir da função randômica de
uma calculadora eletrônica.
237 464 533 282 623 592 074 481 613 874
602 269 678 269 273 346 355 110 211 113
200 417 046 914 201 628 549 704 707 295
847 615 452 454 129 643 552 975 441 091
486 197 153 541 802 980 798 603 373 156
Agora, suponha que se queira coletar uma amostra de tamanho n = 5, de uma população
com N = 10 elementos. Um procedimento de sorteio pode ser: associando um número que vai de 0
a 9, a todos os elementos da população, pode-se sorteá-los olhando-se o último algarismo dos
números da Tabela 4.1, a partir, por exemplo, do primeiro valor. Procedendo-se dessa forma, ter-
se-ia o seguinte sorteio:
o
1 elemento da amostra:
o
1 número aleatório = 237 ⇒ toma-se o elemento 7 da população
o
2 elemento da amostra:
o
2 número aleatório = 602 ⇒ toma-se o elemento 2 da população
o
3 elemento da amostra:
o
3 número aleatório = 200 ⇒ toma-se o elemento 0 da população
4o elemento da amostra:
o
4 número aleatório = 847. Como o elemento 7 da população já foi sorteado, passa-se para
o
o 5 número aleatório = 486 ⇒ toma-se o elemento 6 da população.
o
5 número aleatório = 486 ⇒ toma-se o elemento 6 da população.
Quando a população for infinita, não é possível identificar seus infinitos elementos com um
número. Nesse caso, pode-se proceder o mecanismo de sorteio com aqueles elementos que
estejam disponíveis. Por exemplo, em estudos sobre o número de chuvas com certa intensidade
em uma região, uma vez que se está querendo fazer previsões para anos futuros, trata-se de uma
Guia de estudos de Estatística
população de infinitos anos, compreendendo aqueles que passaram e os que ainda estão por vir.
Assim, suponha que se disponha de apenas dados de 80 anos passados. Uma amostra poderia
ser sorteada dentre esses dados. Aliás, mesmo que todos os 80 dados fossem analisados, este
conjunto continuaria sendo uma amostra com n = 80, da população infinita, porém, não aleatória,
mas, sim, por conveniência.
Mesmo quando o procedimento de sorteio for pouco viável, por exemplo, em uma
população finita com N muito grande, pode-se coletar a amostra “a esmo”, evitando ao máximo
qualquer favorecimento no processo. Tal é o caso, por exemplo, quando folhas de seringueira são
amostradas para verificação de ocorrência da doença ‘Mal das Folhas’. Obviamente, não teria
sentido dar-se ao enorme trabalho de numerar todas as folhas de cada árvore e sorteá-las em
seguida.
Uma AAS desenvolvida sobre esta população pode produzir uma amostra não-
representativa. Por exemplo, se decidimos coletar uma amostra com n=156 propriedades,
poderemos ter uma AAS quase totalmente concentrada, ou totalmente concentrada nos estratos 1
e 2. Podemos até tê-la concentrada em um só estrato, o que, sem dúvida, comprometerá sua
representatividade, pois as características tecnológicas, capitalização, mão-de-obra, etc, devem
variar de estrato para estrato.
A solução consiste na realização de uma AAS dentro de cada estrato, de tal maneira que
todos os estratos fiquem representados. Tal delineamento amostral é chamado de amostragem
aleatória estratificada (AAE). É desejável para maximizar a representatividade da amostra, que os
estratos tenham a maior homogeneidade possível dentro de si.
Uma vez fixado um tamanho n para a amostra a ser coletada, via AAE, um critério de
ponderação (ou de proporcionalidade), para a determinação do tamanho da amostra em cada
estrato. Por este método, o número de elementos ni a serem observados no estrato i é proporcional
ao número de elementos Ni do estrato, de maneira que a precisão da avaliação em cada um deles
não seja desigual. Este critério é particularmente adequado quando a variabilidade presente em
cada estrato é relativamente homogênea. Determina-se, então ni por:
Guia de estudos de Estatística
Ni
ni =
N n
N
k=
n
Por exemplo, se em um povoamento florestal existem 10.000 árvores, das quais serão amostradas
50, então k = 10.000 / 50 = 200. Em seguida, sorteia-se a primeira árvore dentre as 10.000.
Guia de estudos de Estatística
a
Supondo que a 1 árvore sorteada seja a de número 1.080, então somaremos e diminuiremos a
este valor a constante k=200. Assim, as árvores amostradas seriam:
80, 280, 480, 680, 880, 1080, 1280, 1480, 1680, 1880, 2080, 2280, ...., 9.880
2) Deseja-se testar durante um mês um novo tipo de ração alimentícia em vacas leiteiras. O
objetivo é conhecer o incremento médio de produção de leite por vaca, quando é aplicada a nova
ração. Para isto, planejou-se determinar a diferença entre a produção do leite do mês em que foi
Guia de estudos de Estatística
fornecida a nova ração e a produção do mês anterior de cada vaca. Sabe-se que em qualquer
caso, antes e depois da ração, a produção de leite de vacas jovens é superior (ou pelo menos
diferente) à produção de vacas adultas, sendo esta diferença significativa. A granja conta
atualmente com 1000 vacas leiteiras e, após análise matemática e de custos, determinou-se
aplicar a ração em 30 animais.
a) Qual é a população em estudo?
As 1000 vacas leiteiras da granja em questão.
b) Qual é o tamanho da população e qual é o tamanho da amostra?
População = 1000 vacas leiteiras
Amostra = 30 vacas
c) A população é finita ou infinita? Por quê?
Finita, pois podemos enumerar cada um dos elementos que compõem a população.
d) Qual seria o parâmetro que se deseja conhecer? É possível conhecer o valor exato daquele
parâmetro?
O que deseja se conhecer é o aumento médio da produção de leite depois de aplicada à nova
ração.
Como estamos trabalhando com uma amostra não é possível saber exatamente o valor do
parâmetro.
e) Qual é o estimador que você utilizaria para estimar o parâmetro do item d?
n
∑x
i =1
i
O melhor estimador seria a média: x=
n
f) Para esse tipo de estudo, você recomendaria utilizar um processo de amostragem
probabilístico? Por quê? Qual seria este processo? Por quê?
Sem dúvida, o processo de amostragem probabilístico seria o mais indicado. Principalmente
porque todos os indivíduos têm uma mesma chance diferente de zero de pertencer à amostra.
O processo de amostragem mais indicado seria o proporcional estratificado, pois na população em
estudo percebe-se, claramente, dois subconjuntos, vacas jovens e vacas mais velhas que
apresentam diferenças significativas na produção de leite.
3) Para se obter a opinião dos brasileiros sobre a reforma agrária, entrevistaram-se 90% dos
associados de uma sociedade ruralista. Pergunta-se:
a) Qual é o tipo de amostragem empregado?
Basicamente poderíamos dizer que esta é uma amostra não probabilística, pois todos os
brasileiros, nesse caso, não possuem a mesma probabilidade de pertencer à amostra, uma vez
que somente 90% dos associados de uma sociedade ruralista serão os entrevistados.
b) Tal procedimento de amostragem é confiável? Justifique.
Guia de estudos de Estatística
Não, se o objetivo da pesquisa é saber a opinião de todos os brasileiros sobre a reforma agrária,
não é entre pessoas com interesse direto no fato que se terá a verdadeira opinião da população.
Esta amostra será realizada com um sério problema de viés ou tendenciosidade.
4) Uma empresa cafeeira do sul de Minas Gerais dispõe de 3200 funcionários distribuídos nas
diversas atividades, conforme o quadro abaixo. Deseja-se sortear uma amostra de 20 empregados
desta empresa, com o objetivo de conhecer alguns de seus aspectos sócioeconômicos e culturais.
A população em estudo se distribui dentro das seguintes categorias:
Atividade Nº Empregados
Campo 1600
Armazém 720
Indústria 480
Administração 240
Gerência 160
a) Na sua opinião, seria razoável levantar as informações desejadas por meio de uma
amostragem aleatória simples de n = 160 funcionários? Justifique.
Nessa situação a amostra aleatória simples não seria a mais indicada, pois ela não mostraria o
verdadeiro perfil dos empregados da empresa. O ideal seria utilizar uma amostra proporcional
estratificada.
b) Planeje uma amostragem proporcional estratificada n = 160 determinando o tamanho da
amostra para cada atividade.
A amostra proporcional estratificada deve ser composta de forma que o número de empregados de
cada setor seja proporcionalmente representado na amostra. Assim, pode-se calcular essa
amostra, usando inúmeros recursos matemáticos, como por exemplo:
Para os empregados do campo:
3200 --------------------- 100%
1600 ------------------------ x
160000
x= = 50%
3200
Assim, os trabalhadores do campo compõem 50% do total de empregados da empresa de forma
que, 50% dos trabalhadores que comporão a amostra proporcional estratificada deverão pertencer
a esse grupo. Então, a amostra deverá ser de tamanho n = 160, 50% destes serão de
trabalhadores do campo, portanto 80 trabalhadores. Assim, deverá ser feito para todos os outros
setores, conforme resultados que podem ser melhor visualizados no quadro abaixo:
Guia de estudos de Estatística
5) Faça o sorteio de uma amostra sistemática n = 10, para estimar o volume de madeira de um
povoamento florestal de eucalipto com 2500 árvores dispostas em 25 fileiras com 100 plantas
em cada uma delas. Apresente um croqui identificando as plantas sortedas.
N = 2500 árvores n = 10 árvores
Para a amostra sistemática:
N 2500
K= = = 250 possíveis amostras.
n 10
Assim, sorteamos um número raiz ou ponto de partida e, a partir dele, conforme nossa escolha,
dependendo da sua grandeza, adicionamos ou retiramos dele 250. Por exemplo, para este caso, o
número raiz sorteado no gerador de números aleatórios da calculadora foi o número 3, assim, a
nossa amostra será composta pelas árvores correspondentes aos números:
3 253 503 753 1003 1253 1503 1753 2003 2253
Plantas
Fileiras
1 2 3 . . . . . . . . . . . . . . . . . . . . . . .50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .100
1 •
2
. •
.
6 •
.
. •
11
•
.
.
.
16
•
.
.
•
.
21
•
.
.
.
•
25
1) Responda:
a) O que é população e o que é amostra?
b) O que é censo e processo de amostragem?
c) Em que condições é feito um censo e em quais é feita a amostragem?
d) Qual o objetivo da amostragem?
c) Para se comparar duas rações de crescimento usam-se dez leitões nascidos da mesma mãe.
d) Para se comparar a percentagem de perda de grãos na debulha mecânica de duas variedades
de milho foram utilizadas setenta espigas de cada uma delas, utilizando duas máquinas
diferentes.
4) Um indivíduo retirou três tomates da superfície de cada uma das caixas de tomates que
estavam no estoque de um supermercado, para caracterizá-lo quanto à qualidade. Isto é uma
amostra representativa? Justifique.
UNIDADE 5
ESTIMAÇÃO ESTATÍSTICA
5.1. INTRODUÇÃO
Na atividade científica, quando tudo que se dispõe é de uma parte dos elementos de uma
população que se queira descrever (ou seja, como já definimos, uma amostra), então a obtenção
de conclusões a respeito da população estará presa à inerente incompleteza da amostra,
acarretando um certo grau de incerteza nestas conclusões. Lidar com esta incerteza, controlando-a
e medindo-a, é a tarefa da inferência estatística. Convém ressaltar que, sendo assim, deve ficar
claro que só tem sentido falar-se em inferência estatística quando não se conhece todos os
elementos da população. Quando temos conhecimento de toda a população (pois um censo foi
feito), então devemos falar em estatísticas descritivas.
Conceito 5.1. Parâmetro populacional. Valor que descreve uma população, em geral
desconhecido.
Quando se dispõe apenas de uma parte dos elementos da população (uma amostra), o
máximo que se pode conseguir são valores aproximados para os parâmetros desconhecidos,
conhecidos como estimativas. Assim, definem-se os conceitos a seguir.
Guia de estudos de Estatística
Conceito 5.4. Estimador. Corresponde à expressão algébrica que permite obter uma estimativa,
ou, a variável aleatória que é usada no processo de estimação
Exemplificando, considere que se tenha calculado uma média amostral x , tendo sido
encontrado o valor 3,5. Esse valor é uma estimativa, ou seja, uma aproximação, para o parâmetro
populacional µ. A expressão que permitiu obter essa estimativa:
∑X
i =1
i
X =
n
usamos letra minúscula, para o estimador X usamos letra maiúscula. Esta é uma convenção
universal, porém, pode-se também representar o estimador de um parâmetro pelo símbolo desse
parâmetro, com um “chapéu”. No exemplo do estimador da média populacional, ele poderia, além
Um fato que pode acontecer é o de se dispor de dois ou mais estimadores possíveis para
um mesmo parâmetro populacional. Como exemplo, considere o parâmetro µ de uma população
com distribuição Normal para uma variável X dada. Ora, µ é a média, a mediana, e a moda da
população, quando esta é Normal, como já vimos. Logo, podemos estimar µ tanto por X , quanto
:
por X , como também por X * , respectivamente a média, a mediana, e a moda de uma amostra.
Qual destes três estimadores é melhor?
Nessas situações, é conveniente que haja critérios que permitam selecionar algum deles,
com base em determinadas propriedades. Em Estatística, um procedimento geral para a geração
de tais critérios consiste na observação do comportamento dos estimadores, caso infinitas
amostras fossem tomadas da população. Obviamente, se diferentes amostras são coletadas da
Guia de estudos de Estatística
Deve ser notado que o conjunto de infinitas amostras tomadas de uma população é em si mesmo
uma população infinita, e assim a distribuição de frequência de X (ou seja, sua distribuição de
amostragem) corresponde a um modelo probabilístico, ou seja, uma distribuição de probabilidade.
5.3. NÃO-TENDENCIOSIDADE
valor médio de θˆ é igual a θ. Ou seja, θˆ é não-tendencioso se sua esperança matemática for igual
a θ:
()
E θˆ = θ
Este aspecto está ilustrado na Figura 5.2, que apresenta a distribuição de amostragem de
dois estimadores θˆ1 e θˆ2 , que estimam o mesmo parâmetro θ.
Observa-se que, em média, o valor de θˆ2 é igual a θ, ao contrário de θˆ1 , cujo valor médio
é menor que θ. Assim, diz-se que θˆ2 é não-tendencioso e θˆ1 é tendencioso. θˆ2 deve ser preferido,
pois para uma dada amostra, tem-se uma confiança maior dele estar próximo do verdadeiro e
desconhecido valor de θ, que objetiva-se estimar. Outra maneira de falar seria dizer que um
estimador não-tendencioso não tende nem a subestimar nem superestimar o valor θ populacional.
No exemplo acima, θˆ1 tende a subestimar o verdadeiro valor de θ, enquanto θˆ2 nem sub nem
superestima θ.
Este critério é bom e desejável, mas pode ainda não permitir discriminar entre estimadores.
:
Outra vez como exemplo, podemos verificar que tanto X , quanto X e X * são não-tendenciosos
para µ, isto é,
Guia de estudos de Estatística
:
E ( X ) = µ , E ( X ) = µ , E ( X* ) = µ .
Então, como escolher entre eles? Por causa disto, é necessário usar outro critério, o critério de
precisão, que será estudado à seguir.
5.4. PRECISÃO
Para ilustrar esse conceito, considere ainda mais uma vez um estimador qualquer
θˆ . Se infinitas amostras forem coletadas, seu valor vai variar de amostra para amostra, ou seja,
esse conjunto de valores do estimador θˆ apresentará uma certa variância, dada por
()
Var θˆ = s q̂2 .
Essa variância nos fala sobre o conceito de precisão. Esse conceito é um conceito relativo, pois, se
a variância de um estimador θˆ1 é menor que a de um outro estimador θˆ2 , então θˆ1 é mais preciso
que θˆ2 , isto é, sempre precisamos de pelo menos dois estimadores para dizer qual é mais preciso
do que qual. A Figura 5.3 ilustra esse aspecto. Trata-se de dois estimadores não-tendenciosos,
mas θˆ1 deve ser preferido, por ser mais preciso. Observe que poderíamos, se quiséssemos, definir
1
precisão como .
σ θ2ˆ
Figura 5.3. Distribuição de amostragem de dois estimadores não-tendenciosos θˆ1 e θˆ2 , tais que
s q̂2
1
< s q̂2 . 2
Guia de estudos de Estatística
amostral X é MVUE para µ. Em outras palavras, nada é melhor do que a média amostral X para
se estimar uma média populacional µ, mesmo que existam outros concorrentes (tais como a
mediana ou a moda). Nas próximas páginas, as figuras mostrarão de modo lúdico (ilustrando com
tiro-ao-alvo) o que seriam tais propriedades dos estimadores:
2. Cada “tiro” dado é uma estimativa feita, no caso o cálculo da média x . Observe que
estamos dando vários “tiros” para tentar acertar a “mosca”: isto equivale a retirar
muitas amostras de tamanho n de uma mesma população com média µ, e, em cada
uma, obtermos uma média x diferente. Cada uma dessas médias x serão diferentes
umas das outras (e todas quase certamente serão diferentes da média µ populacional).
Na prática, é claro, retiramos apenas uma amostra de tamanho n, e,
consequentemente, daremos um tiro somente, mas as figuras nos mostram o que
aconteceria se fizéssemos muitas amostragens, e como se comportariam as várias
estimativas. Obviamente, também, na prática, nunca sabemos onde está a “mosca”, já
que nunca conhecemos µ.
Estimador não-tendencioso,
pouco preciso
Estimador não-tendencioso,
médio preciso
Estimador não-tendencioso,
muito preciso
Guia de estudos de Estatística
Estimador tendencioso,
pouco preciso
Estimador tendencioso,
médio preciso
A estimação por ponto, mesmo sendo feita por meio de um estimador não-tendencioso de
pequena variância (isto é, não-tendencioso e preciso), não resolve completamente o problema da
estimação. Ainda restam duas questões:
(i) Qual é o tamanho da confiança (probabilidade de estarmos certos) que podemos ter no
valor estimado quanto a ele ser igual ao valor do parâmetro? 90%? 10%? 95%? 99%?
Quanto?
(ii) Qual é o tamanho do erro cometido na estimação? (Este erro é medido por θˆ - θ ).
Podemos ajuntar essas duas questões em uma só questão: qual é a probabilidade de que
o erro absoluto de estimação | θˆ - θ | seja menor ou igual à um dado valor, digamos, c. Em
símbolos:
P (| θˆ - θ | ≤ c)
Como exemplo, considere o seguinte problema: uma amostra aleatória de n = 315 clientes
de uma provedora de Internet mostrou, que , em média, estes mantêm um uso de 118,1 MBytes de
memória ocupada com arquivos em sua caixa postal de emails, com um desvio-padrão amostral
igual à 189,7 MBytes. Qual seria o valor médio desta ocupação em todos os seus N = 114.337
clientes? A estimação por ponto dá o valor
µ̂ = x = 118,1 MBytes
para a média desejada. Mas, além dessa estimativa pontual, gostaríamos de saber algo do tipo
abaixo:
Guia de estudos de Estatística
| µ̂ - µ | o valor ao lado
50 Mbytes ?
40 MBytes ?
30 MBytes ?
20 MBytes ?
10 MBytes ?
5 MBytes ?
1 MBytes ?
0,1 MBytes ?
Esse problema é resolvido, na Estatística, por meio do conceito de intervalos de confiança (IC), ou,
equivalentemente, estimação por intervalo.
Assim posto, vemos que existem, então, dois tipos de estimação: por ponto e por intervalo.
Quando simplesmente se obtém um só valor de estimativa para um parâmetro, diz-se que se trata
de uma estimação por ponto, ou pontual. No entanto, como temos dito, quase sempre a estimação
por ponto, sozinha, é pouco informativa, porque ela não fornece uma idéia do grau de erro e de
confiança que se comete ao assumir o valor da estimativa como sendo igual ao do parâmetro
desconhecido. Esse erro e confiança podem ser quantificados da seguinte forma. A partir da
distribuição de amostragem dos estimadores é possível elaborar um intervalo [a, b], de tal maneira
que a probabilidade de que uma dada amostra contenha o verdadeiro valor do parâmetro
desconhecido seja conhecida eestabelecida, ou seja:
onde θ é o parâmetro sendo estimado. A probabilidade 1 − α mede o grau de confiança que se tem
na estimação de θ, e é, portanto, chamada de coeficiente de confiança. O intervalo [a, b] é
denominado intervalo (IC) de confiança, e a sua elaboração é chamada de estimação por intervalo.
(i) Se muitas e muitas amostras fossem coletadas, e, para cada uma dessas amostras
fosse constituído um IC, então uma proporção de ( 1 − α ).100% destes IC conteriam o
verdadeiro valor θ do parâmetro sendo estimado.
Guia de estudos de Estatística
∑x
i =1
i
µ̂ = X =
n
Pode-se demonstrar, como já dito, que esse estimador é não-tendencioso e, além disso, dentre os
não tendenciosos possíveis, é o de maior precisão (mínima variância). Este é o estimador
recomendado tanto para populações finitas como infinitas.
n
1
. ∑ (x i − x )2
2
S =
n − 1 i =1
Esse é o estimador para σ 2 que vamos usar, seja a população finita ou infinita, pois S é não-
2
∑ (x − x)
2 1 2
D = . i
n i =1
Esse estimador alternativo tem sua existência justificada pelo argumento de que ele é de máxima
verossimilhança, isto é, “de valor mais provável”. Porém, pode-se demonstrar que D2 é tendencioso
(não é exato), levando a subestimativas de σ 2 . Essa deficiência de D é que nos faz escolher S
2 2
para estimar σ 2 .
Guia de estudos de Estatística
Nesta seção será abordada a estimação por intervalo para µ, quando a amostra é do tipo
aleatória simples tomada em uma população infinita ou finita muito grande (que equivale, na
prática, a infinita). Utilizaremos o conceito de distribuição de amostragem, que é a distribuição de
probabilidade de uma variável aleatória definida sobre as amostras retiradas em uma dada
população.
Para a construção de um intervalo de confiança para µ é conveniente estudar distribuições
de amostragem associadas a seu estimador pontual X . Para tanto, existem alguns teoremas, para
casos onde a população pode ser descrita por uma distribuição Normal, que são úteis. Passemos à
conhecê-los.
Teorema 5.1
Seja uma população descrita por uma variável X com distribuição Normal N(µ, σ ). Se infinitas
2
amostras de tamanho n são coletadas nessa população, então a média X dessas amostras terá
distribuição Normal com média µ e variância σ /n. Outra maneira de afirmar esta normalidade de
2
X−µ
X é dizer que a variável Z = tem distribuição Normal com média 0 e variância 1 (esta é a
σ
n
Normal-padrão, vista no Capítulo 3).
Observe que, neste teorema acima, a variância populacional σ deve ser conhecida,
2
podendo-se então utilizar diretamente este teorema para calcular probabilidades associadas a X ,
pois, se:
σ2
X ∼ N µ,
n
X−µ
Z= ∼ N (0,1) , isto é,
σ
n
Entretanto, é muito pouco provável que, em uma situação real, σ seja conhecida. Assim,
2
Teorema 5.2
Seja uma população descrita por uma variável X com distribuição Normal N(µ, σ ). E sejam infinitas
2
2
amostras de tamanho n coletadas nessa população, a partir das quais são calculadas X e s .
X- m
Então a variável T = tem distribuição conhecida como t de Student, que tem como único
S2
n
parâmetro a constante ν = n – 1, denominada número de graus de liberdade.
ν=n–1
ƒ (t)
Observe que ela se parece com a Normal, pois é simétrica com forma de sino. Porém,
comparando-a com a Normal-padrão (média 0 e variância 1), a t é mais achatada, isto é, mais
“esparramada”.
i) A média da variável T, ou seja, a esperança E(T), é igual a zero, da mesma forma que a
variável Z.
ii) É semelhante à distribuição Normal, pois é simétrica em relação à média e tem forma
campanular (sino).
onde tα corresponde a valores tabelados (ver Figura 5.4). Esses valores tα são chamados quantis
da distribuição t, e são correspondentes as áreas a . Para ficarmos com a notação conforme a
convenção universal, mudaremos a notação de α para α/2.
/2 /2
/2 /2
Figura 5.4. Distribuição t de Student. A área hachurada corresponde aos valores de α/2, para os
A distribuição t permite determinar valores para a e para b, pois o valor de t é obtido a partir de X
2
e S (as quais podem ser calculadas) e também de
X- m
T=
S2
n
Fixando um certo valor para α, qual deve ser o valor de γ estipulado? É um cálculo simples:
sabe-se que a área total sob a distribuição t (assim como em qualquer função densidade) é igual a
1, então, se a área dentro do intervalo é igual a 1 - α, então a área fora do intervalo é igual a:
É conveniente que os intervalos de confiança, para a maioria das situações, sejam simétricos, pois
isso garante intervalos de menor comprimento. Assim, essa área α deve ser a área que está
“sobrando” para fora do IC, dividida por 2, de tal maneira que:
Guia de estudos de Estatística
Na Figura 5.5, ilustram-se essas considerações para γ = 1 - α = 95%. Assim, dividindo a área fora
do intervalo por 2, tem-se, de maneira geral:
1− γ
α/2 =
2
P [− t α
2
]
< T < t α 2 = 1-α
X−µ
Mas como T= então:
S
n
P = 1-α
X−µ
P − t α ≤ ≤ tα = 1 - α
2 S 2
n
Guia de estudos de Estatística
S S
P − t α ≤ X −µ ≤ tα =1-α
2 n 2 n
S S
P − X − t α ≤ −µ ≤ −X + t α =1-α
2 n 2 n
S S
P X − t α ≤ µ ≤ X + tα =1-α
2 n 2 n
S2 S2
a = X - ta b = X + ta
2
n 2
n
Esses dados correspondem a uma amostra com n = 10 elementos da população formada pelos
infinitos pontos no solo da várzea. Pressupondo que a VIB, nesses infinitos pontos, possa ser
descrita por uma distribuição Normal N(µ, σ2), onde µ e σ2 são desconhecidos, o objetivo do
engenheiro agrícola é o de estimar o parâmetro µ (ou seja, a VIB média do solo), para que se
possa determinar fatores importantes do projeto de irrigação, como vazão, turno de rega, entre
outros. Assim, a estimativa por ponto é feita pela média amostral, que é o estimador adequado
para µ:
µ$ = x = 0,85 cm.h-1
Guia de estudos de Estatística
Como foi pressuposta uma distribuição Normal para a VIB, é possível construir um
intervalo de confiança para µ a partir da distribuição t. Inicialmente, é necessário calcular a
variância amostral:
2
s = 0,0161 (cm.h ) =
-1 2 (0,8 − 0,85 )2 + (0,7 − 0,85 )2 + ... + (0,7 − 0,85)2
10 − 1
E, assim, como:
s2 s2
P x − t α2 < µ < x + t α2 = 1-α
n n
então:
0,0161 0,0161
P 0,85 − t α 2 < µ < 0,85 + t α 2 = 1-α
10 10
α 1− 0,95
= = 0,025
2 2
α
Consultando a tabela de t (ver Tabela 2 do Apêndice) para = 0,025 e com um número de graus
2
de liberdade igual a (10 - 1) = 9, tem-se o valor:
t0,025 = 2,262
e assim:
0,0161
a = 0,85 − 2,262 = 0,85 - 0,0908 = 0,7592
10
0,0161
b = 0,85 + 2,262 = 0,85 + 0,0908 = 0,9408
10
(i) A média da VIB na várzea (µ) é um número desconhecido, pois não inspecionamos
todos os pontos da várzea, fazendo a medição em apenas uma amostra de n = 10
pontos, mas, estimamos que essa média, apesar de desconhecida, está entre 0,7592
Guia de estudos de Estatística
-1 -1
cm.h e 0,9408 cm.h , com uma probabilidade de acerto de 95%, isto é, estamos
-1
“95% certos” de que a VIB média não é menor do que 0,7592 cm.h e não é maior do
-1
que 0,9408 cm.h .
(ii) Se fizermos muitos e muitos intervalos nessa várzea (cada um baseado numa diferente
amostra de 10 pontos), então, aproximadamente 95% destes intervalos conterão a
verdadeira média VIB.
s2 s
=
n n
O leitor deve ter percebido a importância de se assumir que a população amostrada tenha
distribuição Normal para a construção de intervalos de confiança, principalmente pelo Teorema
5.2, que torna possível a utilização da distribuição t. Mas, e se a população não for Normal? Nesse
caso, serão consideradas duas situações, a seguir apresentadas:
a) A amostra é grande (n elevado, acima de 30, adequado em muitas situações, ou mais ainda,
acima de 50).
Se a amostra possui um elevado número de elementos, então o seguinte teorema pode ser
utilizado:
Guia de estudos de Estatística
Teorema 5.3 (Teorema Central do Limite). Seja uma população qualquer, com média µ e variância
σ2. Se infinitas amostras grandes de tamanho n suficientemente grande são coletadas nessa
população, então a média X dessas amostras terá distribuição aproximadamente Normal, com
média µ e variância σ /n, melhorando esta aproximação à medida que n tende ao infinito.
2
O teorema 5.3 acima, conhecido como o Teorema Central do Limite, poderia, se σ fosse
2
conhecido, ser diretamente empregado para a construção de intervalos de confiança, pois sabe-se
que:
X−µ
Z=
σ
n
tem distribuição Normal N(0, 1) e com valores tabelados. Dessa maneira, pode-se fazer:
σ2 σ2
P x − zα < µ < x + z α = 1-α
2
n 2
n
oriunda de uma manipulação algébrica muito semelhante à que foi vista para a distribuição t.
substituir z por t, já que substituímos σ por s . Resta ainda a questão: quando consideraremos n
2 2
como grande? Para responder a essa questão, consideraremos, aqui, o critério empírico de n ≥ 50.
Com isso, um intervalo de confiança aproximado é dado por:
s2 s2
P x − t α < µ < x + t α ≅ 1-α
2
n 2
n
Nesses casos, a distribuição t não fornece boa aproximação e, então, estudos sobre a
distribuição da população devem ser feitos, para se determinar modelos probabilísticos que
descrevam adequadamente a população. Em seguida, distribuições de amostragem exatas devem
ser obtidas e os intervalos de confiança devem ser baseados nelas.
Aqui não serão estudados tais casos, que são mais bem colocados em disciplinas
avançadas.
Guia de estudos de Estatística
Um parâmetro para o qual frequentemente tem-se muito interesse é a proporção “p” dos
indivíduos de uma população que guardam alguma característica de interesse. Como exemplos,
tem-se a proporção de eleitores simpatizantes de um candidato, proporção de agricultores que
comprariam um novo insumo agrícola, de árvores doentes em um povoamento, de peças
defeituosas num pomar de produção, entre outros. Na realidade, a menos que se conheça toda a
população, em geral p não é conhecido. Nesse caso, uma amostra aleatória simples (AAS) poderia
ser coletada, de maneira a possibilitar a estimação de p. Supondo que, dos n indivíduos
amostrados, x deles apresentam a característica de interesse, então, o estimador por ponto de p é
igual a:
x
p̂ =
n
pˆ qˆ pˆ qˆ
P pˆ − zα / 2 < p < pˆ + zα / 2 =1-α
n n
Outro motivo pelo qual o intervalo acima seja apenas aproximado é o de que o termo:
σ (p̂ ) =
pq
n
σˆ (p̂ ) =
pˆ qˆ
n
x 38
p̂ = = = 0,63
n 60
Guia de estudos de Estatística
σˆ (p̂ ) =
pˆ qˆ 0,63.0,37
= = 0,06
n 60
Ou seja, a proporção de candidatos, na região, aptos ao serviço está entre 0,51 e 0,75 , com 95%
de confiança.
pˆ qˆ
zα / 2
n
Que fornece, no intervalo de confiança, a margem de erro (para cima ou para baixo) em relação ao
verdadeiro valor de p, desconhecido. Note-se que, se p fosse conhecido, a variância pq/n também
seria conhecida, e assim a margem de erro utilizando a variável Z seria ainda mais apropriada:
pq
zα / 2
n
pq
zα / 2 = 0,02
n
0,5.0,5
1,96 = 0,02
n
2 0,25 2
(1,96) = (0,02)
n
E assim:
(1,96)2 0,25
n= = 2401
(0,02)2
Ou seja, seria necessário entrevistar 2401 eleitores para uma pesquisa eleitoral com margem de
erro igual a 2%. Em geral, na divulgação dessas pesquisas, não se fala nada a respeito do
coeficiente de confiança, o que deveria ser feito.
s2 s2
P x − tα / 2 < µ < x + tα / 2 =1-α
n n
O termo:
s2
tα/2 =d
n
2
é a margem de erro da amostragem. Se uma estimativa preliminar s for disponível (por exemplo,
utilizando uma amostra-piloto), então o dimensionamento da amostra seria dado por:
t α2 / 2 s 2
n=
d2
d = 0,07 cm.h-1 , isto é, ele não admite errar mais do que 0,07 cm.h-1 nesta estimação.
Tendo ele composto uma amostra-piloto com 5 elementos é possível obter uma estimativa
preliminar da variância igual a s = 0,0200 (cm.h ) . O tamanho de amostra adequado com 1 - α =
2 -1 2
95% de não se ter uma margem de erro maior que 0,07 é dado por:
Guia de estudos de Estatística
t 02,025 0,0200
n= ≅ 32 elementos
(0,07 )2
Isto quer dizer que o engenheiro deverá utilizar uma amostragem com 32 pontos na várzea. Com
-1
estes 32 pontos, sua estimativa de média não diferirá da verdadeira média em mais de 0,07 cm.h :
( x - µ) ≤ 0,07 cm.h .
-1
p̂q̂
IC (95%) ⇒ p̂ ± e sendo que e = Z α/2 , portanto:
n
0,6.0,4
IC (95%) ⇒ 0,6 ± 1,96
213
IC (95%) ⇒ 0,6 ± 0,07
p̂q̂ 0,6.0,4
e = z α/2 = 1,645 = 0,055
n 213
d) Quantas propriedades deverão ser visitadas no futuro para se estimar p com um erro de 3% e
confiança de 95%?
Aqui podemos utilizar uma fórmula com o “n” já isolado para facilitar os cálculos:
Guia de estudos de Estatística
pˆ qˆ 0,6.0,4
n = zα22 × 2 = 1,96 2 2
= 1024,43 ≅ 1025
e 0,03
Portanto, para se estimar a proporção dos produtores rurais que vacinam seus rebanhos com erro
de 3% e nível de confiança de 95%, deveremos visitar 1025 propriedades.
sX
x ± t α/2
n
1,5
20,0 ± 1,711
25
20,0 ± 0,5133
Assim:
IC(90%)⇒ 19,487 < µ < 20,5133
p̂q̂
p̂ ± Z α/2
n
0,25.0,75
0,25 ± 2,33
200
0,25 ± 0,07
IC(98%)⇒ 0,18 < p < 0,32
4) Numa Universidade, foi tomada uma amostra de 40 estudantes, anotando-se as suas alturas em
cm. Os resultados forneceram:
40 40
∑
i =1
x i = 6.950 ∑x
i =1
2
i = 1.213.463
6.950
∑
x
173,75
cm
1n
)
40
=
= = = =
Guia de estudos de Estatística
1
40
∑ xi
2
i =1 = 1 1.213.463 − 6.950 = 151,29 cm 2
s =
2
∑
n − 1 i =1
xi −
2
n 40 − 1 40
s = 12,30 cm
b) Construa o intervalo de confiança de 95% para a média da população. Interprete.
IC( µ )95%⇒ x ± e
Com confiança de 95%, podemos afirmar que a verdadeira média da população se encontra
inserida entre 169,94 e 177,56.
Obs. Você mesmo pode fazer este IC com a t para 40-1 = 39 graus de liberdade, e verificar se há
grande diferença. Você verá que não há.
c) Construa o intervalo de confiança de 99% para a média da população. Interprete.
IC( µ )99%⇒ x ± e
Usando a aproximação da z:
s
x ± z α/2
n
12,30
173,75 ± 2,575
40
173,75 ± 5,0
IC( µ )99%⇒ 168,75 < µ < 178,75
Com confiança de 99%, podemos afirmar que a verdadeira média da população se encontra
inserida entre 168,75 e 178,75.
d) Confronte os resultados de (a) e (b) e discuta as diferenças.
Observemos os dois intervalos:
IC( µ )95%⇒ 169,94 < µ < 177,56 ⇒ Amplitude intervalar de 7,62
Pode-se perceber que quanto maior é a confiança exigida, maior a amplitude do intervalo de
confiança. Assim, grau de confiança e amplitude intervalar são diretamente proporcionais.
e) Quantos estudantes seriam necessários para num próximo estudo estimar a média da
população com 95% de confiança e um erro 10% menor que o do item (b).
O erro no item (b) é 3,81%, como queremos um erro 10% menor, temos que:
e = 3,81 − (3,81× 0,1) = 3,43
Agora com o erro 10% menor já definido, calculamos o tamanho da nova amostra:
2 2
z ×s 1,96 × 12,30
n = α/2 = = 49,40 ≅ 50
e 3,43
Portanto, para estimarmos a média da população com 95% de confiança e um erro 10% menor, o
tamanho da nova amostra deverá ser de 50 estudantes.
1) Uma empresa responsável pelos pedágios de uma estrada fez recentemente uma pesquisa
sobre as velocidades desenvolvidas no período das 22 às 24 horas. No período de observação,
100 carros passaram por um aparelho de radar a velocidade média de 140 k.h-1, e desvio-padrão
-1
de 30 k.h .
a) Estime a verdadeira média populacional
b) Construa um intervalo de confiança de 95% para a média populacional
2) Num concurso de produtividade de milho realizado na cidade de Lavras – MG, foram sorteadas
2
12 parcelas de 40m na lavoura de um produtor local. Após a colheita, os fiscais pesaram as
produções das parcelas obtendo os seguintes resultados em kg:
24 26 25 27 33 32
27 26 24 23 25 27
a) O produtor em questão afirma que na sua lavoura, o rendimento médio é da ordem de 7,5
-1
t.ha . Você concorda com a afirmação do produtor? Trabalhe com um coeficiente de confiança
de 95% e justifique sua resposta. Observe que os dados das parcelas estão expressos em
-2 -1
kg.40m e a afirmativa do produtor é feita em t.ha . Para compará-las, é necessário que os
dados estejam na mesma grandeza. A sugestão é que os dados das produções das parcelas
sejam transformados para t.ha-1, utilizando o fator de correção:
0,001t
= 0,25 t.ha −1
0,004ha
Guia de estudos de Estatística
b) Qual deverá ser o tamanho da amostra para se estimar o rendimento médio com um erro de
-1
0,1 t.ha com confiança de 95%?
c) Qual deverá ser o tamanho da amostra para se estimar o rendimento médio com um erro de
0,1 t.ha-1 com coeficiente de confiança de 99%?
x = 15,0 s X = 2,0 n = 16
5) Num levantamento amostral sobre hábitos de higiene e saúde envolvendo bairros da periferia da
cidade de Lavras – MG, foram obtidas as seguintes respostas à pergunta: “Com qual frequência
você lava sua caixa d’água?”
Frequência
Resposta
Absoluta Relativa Percentual
Considerando que o ideal seria que as caixas d’água fossem lavadas exatamente de 6 em 6
meses, construa um intervalo com 95% de confiança para a proporção de residências que estão
fora da condição ideal de higiene para as caixas d’água.
6) Foi feita uma AAS de tamanho n=30 de um rebanho de Gado Holandês do sul de Minas Gerais,
com o objetivo de descrever a produção de leite. Os dados obtidos em kg na amostra foram:
17,7 20,7 19,3 19,3 18,0 16,9 19,7 20,1 21,0 21,2
23,3 15,3 23,7 18,8 25,2 18,0 22,8 21,1 18,8 25,9
19,3 19,6 26,6 14,3 19,7 32,7 14,1 16,8 19,7 19,3
Guia de estudos de Estatística
30 30
∑ x i = 608,9
i=1
∑x
i =1
2
i = 12.787,07
7) Uma pesquisa realizada entre 218 eleitores escolhidos ao acaso indicou que 65 deles eram
favoráveis ao candidato A.
a) Construa um intervalo de confiança de 95% para a proporção de todos os votantes
favoráveis ao candidato A. Interprete.
b) Qual deve ser o tamanho da amostra para que o erro de estimação caia pela metade?
Guia de estudos de Estatística
UNIDADE 6
TESTES ESTATÍSTICOS
6.1. INTRODUÇÃO
Por meio de amostragem, informações acerca de uma população de interesse são obtidas,
a partir de uma amostra. O passo seguinte é o de generalizar estas informações para a população.
Essa generalização é a inferência. Na unidade anterior foi vista uma maneira pela qual a inferência
estatística pode ser feita, qual seja, a estimação de parâmetros desconhecidos da população.
Algumas vezes, no entanto, o interesse do pesquisador reside na verificação da validade, ou não,
de uma determinada hipótese, frequentemente com a finalidade de tomar alguma decisão acerca
da população estudada.
Se ele tiver razões para rejeitar essa hipótese, isso implicará em uma decisão, qual seja, por
exemplo, a de pulverizar a lavoura de café com algum inseticida. Por outro lado, se ele não rejeitar
essa hipótese, então sua outra decisão será a de não pulverizar a lavoura. Poderíamos tomar
como hipótese outra afirmação, a saber: “A infestação da broca é igual ou está acima do nível de
controle”, para a qual seguir-se-iam os mesmos tipos de considerações.
Conceito 6.1. Teste estatístico. Verificação da validade, ou não, de hipóteses sobre a população,
mediante critérios estatísticos.
Conceito 6.2. Teoria da decisão. Em grande medida corresponde à teoria de testes, pois a
aceitação ou a rejeição de hipóteses frequentemente implica em alguma decisão acerca da
população.
É claro que se ele, baseando em critérios estatísticos, rejeitar esta hipótese, será conveniente
procurar outro modelo probabilístico para descrever a distribuição de chuvas.
Por outro lado, as hipóteses podem se referir ao(s) parâmetro(s) do modelo probabilístico,
por sua vez tido como satisfatório. O exemplo da broca do café anterior mostra essa situação. A
probabilidade (ou a proporção) de frutos brocados é um parâmetro da distribuição Binomial e o
teste irá se referir a ela, admitindo o modelo probabilístico da distribuição Binomial como
satisfatório.
Um teste estatístico deve ser construído e avaliado segundo dois critérios de desempenho:
Um terceiro critério poderia ser aventado, a saber o da utilidade da decisão tomada, mas tal critério
carrega uma medida grande de subjetividade, e não será considerado aqui. Simplesmente será
admitido aqui que toda e qualquer decisão tomada a partir de um teste estatístico é já previamente
considerada útil para o analista.
Guia de estudos de Estatística
Geralmente, os testes têm a seguinte estrutura: existe uma hipótese principal sob
julgamento, chamada de hipótese de nulidade ou hipótese nula, representada pela notação H0. Se
rejeitada, então uma outra hipótese candidata é considerada como verdadeira, a chamada
hipótese alternativa, representada por H1 ou Ha. No exemplo da broca do café, supondo que o nível
de controle acima do qual ocorre prejuízo seja a proporção p0 de frutos atacados, o teste
correspondente seria:
ou, simplesmente:
H0: p ≤ p0
H1: p > p0
Dessa forma, pode-se estipular um valor crítico para o estimador, de tal maneira que, se a
estimativa calculada na amostra for, por exemplo, maior que determinado valor, então rejeita-se H0.
Por exemplo, suponha que o nível de controle para a broca do café seja de p0 = 5% de frutos
brocados. Assim, o teste acima seria dado por:
H0: p ≤ 5%
H1: p > 5%
Uma amostra de n frutos é coletada, onde são contados o número x de frutos brocados. Em
seguida é então calculado a estimativa da proporção de frutos brocados:
x
pˆ =
n
Guia de estudos de Estatística
Digamos que, numa amostra de n = 400 frutos, conta-se 48 frutos brocados, totalizando então
48
pˆ = = 0,12 = 12%.
400
A princípio, considerando que 12% é maior do que 5%, seríamos levados à rejeitar H0 e aceitar H1 .
Porém, surge a pergunta: sendo estes 12% a proporção da amostra, não deveríamos ser
cautelosos em decidir sobre a proporção da população (5% é da população) ? A resposta é,
obviamente, sim, e a cautela traduz-se por calcular a probabilidade de uma amostra de n = 400
frutos apresentar p̂ = 12% se esta amostra é obtida aleatoriamente de uma população com
pq
p = 5% (ou menos). Ora, na estimação de proporções já havíamos concluído que p̂ ∼ N ( p, ), o
n
que nos leva a calcular esta probabilidade como:
z = (0,12-0,05)/0,010897 = 6,42.
Na tabela da Normal, o valor de área acima de 6,42 não está nem mesmo indicado (a tabela pára
no valor de 3,99), implicando que, com aproximação de 4 decimais, tal área acima é 0,0000. De
fato, tal área na é exatamente zero, pois a Normal é assintótica, e, teoricamente, nunca uma área
acima é zerada. Utilizando o Excel (poderia ser outro software estatístico, como o R, por exemplo,
veja o Capítulo 8), essa área com mais decimais seria de aproximadamente
0,00000000006813716258, ainda mais aproximadamente igual a 0,000000007%: um número
muito pequeno! Seria de aproximadamente 1 chance em 10.000.000.000 (dez trilhões)!
Guia de estudos de Estatística
6,42
Essa probabilidade é muito pequena, aproximadamente zero, o que nos leva a concluir que a
probabilidade de uma população com p = 0,05 gerar aleatoriamente uma amostra que resulte em
p̂ = 0,12 é quase zero, levando-nos a não aceitar H0 : p ≤ 0,05, e, consequentemente, aceitar H1 =
Uma outra questão pode vir à tona: para qual valor de p̂ poderíamos aceitar H0, isto é,
aceitar que p = 5%? Se estabelecermos uma probabilidade de 1%, por exemplo, teríamos:
Guia de estudos de Estatística
Assim, para toda amostra que apresenta p̂ até o valor de 7,5% podemos aceitar que p seja 5%,
com uma probabilidade de erro de apenas 1%. Uma regra como esta é chamada regra de decisão.
Conceito 6.3. Regra de Decisão. Procedimento pelo qual opta-se por rejeitar ou aceitar a hipótese
de nulidade.
Outros elementos importantes de um teste estatístico são os possíveis erros que se pode
cometer, ao se utilizar determinada regra de decisão. São eles:
Conceito 6.4. Erro Tipo I. Consiste no erro que se comete ao rejeitar H0 sendo ela verdadeira.
Conceito 6.5. Erro Tipo II. Consiste no erro que se comete ao aceitar H0, sendo que ela é falsa.
Guia de estudos de Estatística
A probabilidade (ou risco) de se cometer o erro tipo I é, em geral, representada pela letra
grega α e comumente chamada de nível de significância do teste. A probabilidade (ou risco) de
ocorrência do erro tipo II é representada pela letra β, e não tem nome especial. Porém, quando se
aceita H0, e ela é verdadeira, ou quando se rejeita H0, e ela de fato é falsa, ambas consistem em
uma decisão correta. Esta última ocorre com probabilidade 1 - β, valor esse que por sua vez
recebe o nome de poder do teste. Já a probabilidade de se aceitar H0, quando ela é verdadeira,
corresponde ao valor 1 - α, que por sua vez também não recebe um nome especial. Esses
aspectos podem ser sumarizados como na Tabela 6.1.
Conceito 6.7. Poder do Teste. Consiste na probabilidade de rejeição de H0, quando de fato ela é
falsa.
A verdade na população
Probabilidade = β
Probabilidade = α
distribuição de Poisson para descrever a distribuição de chuvas, deve-se citar também a grande
importância de testar se a população sob estudo pode ser considerada como tendo distribuição
(pelo menos aproximadamente) Normal, para que seja possível a utilização daqueles teoremas
para a construção de intervalos de confiança, utilizando a distribuição t, particularmente quando a
amostra é pequena. Se a população não tem distribuição Normal, e a amostra é pequena, então a
distribuição t não é adequada, e outros procedimentos, não abordados nesse curso, deverão ser
buscados.
Neste tópico, será visto como se pode testar se uma população em questão pode ser
considerada como tendo uma dada distribuição em particular. Esse tipo de teste é chamado teste
sobre a validade de modelos ou teste de aderência. Para exemplificar, imagine que um engenheiro
-1
agrícola observou a ocorrência de chuvas por ano com intensidade acima de 30 mm.h em uma
região nos 35 anos anteriores (compondo a sua amostra), tendo encontrado os seguintes valores
(Tabela 6.2):
Tabela 6.2. Número de chuvas ocorridas nos 35 anos passados em uma região com intensidade
acima de 30 mm.h-1.
A distribuição de frequência absoluta dessa variável descritora de natureza discreta está na Tabela
6.3 (a frequência fe apresentada na tabela é a frequência esperada e será logo em seguida
explicada).
Tabela 6.3. Distribuição de frequência absoluta observada (fo) da ocorrência de chuvas com
-1
intensidade acima de 30 mm.h .
0 4 3,17
1 5 7,62
2 12 9,15
3 7 7,32
4 3 4,39
5 2 2,11
6 2 0,84
7 ou mais 0 0,40
Total 35 35,00
Para tanto, calcula-se, para cada número de chuvas, a frequência absoluta esperada (fe), caso os
dados da amostra tivessem exatamente distribuição de Poisson. Em seguida, são confrontadas
essas frequências esperadas fe com as observadas (fo). Se as diferenças puderem ser
consideradas como meramente casuais, então aceita-se H0. Para tanto, determina-se o valor de
k
(fei − foi )2 = k
(foi − fei )2
χ C2 = ∑
i =1
fei ∑
i =1
fei
onde k é o número de classes. Este valor é comparado com o valor da tabela de qui-quadrado,
para determinado nível de significância α. Se o valor de χ 2C for maior que esse valor da tabela,
então rejeita-se H0, pois então é muito pouco provável que a amostra em questão tenha acontecido
sob H0 verdadeira, pois a probabilidade das variações de fo em relação a fe terem acontecido por
puro acaso é baixa (igual ou menor que α). Para se saber o número de graus de liberdade v para a
consulta à tabela deve-se tomar:
A distribuição de Poisson é, como foi visto, indexada por um único parâmetro λ, que nada
mais é do que a média (e também a variância) da população dos infinitos anos da região. Sendo λ
a média, tem-se como estimador para este parâmetro:
λ̂ = X
Guia de estudos de Estatística
Voltando aos cálculos, tomando-se os dados da Tabela 6.2 e calculando-se essa média
tem-se:
x =
(2 + 0 + 3 + L + 3 + 1) =
84
= 2,4
35 35
Esta média também poderia ser calculada pela distribuição de freqüências (Tabela 6.3):
x =
(0.4 + 1.5 + 2.12 + 3.7 + 4.3 + 5.2 + 6.2) = 84
= 2,4
35 35
Os cálculos serão feitos considerando λ̂ = x = 84/35 = 2,4. Cada fe é calculada por P(X = x).35,
veja tabela auxiliar abaixo.
x P (X = x) P (X = x).35
-2,4 0
0 e .2,4 /0! = 0,0907 0,0907*35 = 3,18
-2,4 1
1 e .2,4 /1! = 0,2177 0,2177*35 = 7,62
-2,4 2
2 e .2,4 /2! = 0,2613 0,2613*35 = 9,14
-2,4 3
3 e .2,4 /3! = 0,2090 7,32
-2,4 4
4 e .2,4 /4! = 0,1254 4,39
-2,4 5
5 e .2,4 /5! = 0,0602 2,11
-2,4 6
6 e .2,4 /6! = 0,0241 0,84
7 ou mais 0,40
1 – (0,0907 + 0,2177 + 0,2613
+ 0,2090 + 0,1254 + 0,0602 +
0,0241) = 1-0,9884 = 0,0116
µ = n.p = np
Guia de estudos de Estatística
fe = n. p̂ = n.probabilidade estimada,
que fe é o número de elementos esperado para aquela classe que tem probabilidade calculada p
igual à p̂ . Assim, temos que:
(fei − fo i )2
fei
“explodir” para valores muito altos (observe que na fórmula do χ C2 cada parcela é do tipo acima),
fazendo o valor final do χ C2 ficar superestimado. Para alguns autores, aceitar fe < 5 em algumas
empíricos, usaremos o critério de frequências esperadas (teóricas) maiores ou iguais à 5, que nos
para comparação, vamos agrupar como se utilizássemos o critério fe > 1: fazendo assim, a Tabela
6.3 seria completada pelas frequências esperadas fe iguais à:
0 3,18 5 2,11
3 7,32
4 4,39
Veja que a tabela permaneceria quase como estava para a operação de teste de χ C2 (somente as
2 últimas classes seriam agrupadas, pois têm fo menor do que 1). Porém, utilizando o critério fe >
5, teremos que agrupar várias classes. Assim, na Tabela 6.3 é necessário, em primeiro lugar,
agrupar aquelas classes com frequências esperadas menores do que 5. Isso conduz à distribuição
de frequências apresentadas na Tabela 6.4. Com esse procedimento, o número de classes k
diminuiu de 7 para 4 classes.
0 ou 1 9 10,80 = 3,18+7,62
2 12 9,14
3 7 7,32
4 ou mais 7 7,74 = 4,39+2,11+0,84+0,40
Total 35 35,00
e −λ λ x
P(X = x) = ,
x!
P(X = 0 ou X = 1) = 0,0907 + 0,2177 = 0,3084 e 0,3084.35 = 10,80, como seria se o valor fosse
calculado direto nas frequências esperadas (3,18+7,62). Para 4 ou mais o cálculo seria:
Agora, só resta calcular o valor de qui-quadrado. Para facilitar o uso de sua expressão, os
passos estão apresentados na Tabela 6.5.
4
(fei − foi )2
χ C2 = ∑
i =1
fei
= 1,272
Para verificar se H0 é rejeitada ou não, deve-se consultar o valor da tabela de χ . Para tanto, deve-
2
I II ( fo − fe) 2
Número de chuvas por ano fo fe
fe
0 ou 1 9 10,80 0,297
2 12 9,15 0,890
3 7 7,32 0,014
Assim:
v=4-1-1=2
Adotando-se um nível de significância de 0,05 (5%), tem-se que o valor tabelado é dado por
(Tabela 3.2 do Apêndice):
Guia de estudos de Estatística
2
c 0,05(2) = 5,991
Como χ C2 = 1,272 foi menor que χ 02,05 = 5,991, então opta-se por aceitar a hipótese H0, de que a
ocorrência de chuvas pode ser descrita satisfatoriamente pela distribuição de Poisson. Todo este
arrazoado algébrico pode ser visualizado graficamente na Figura 6.1.
Região de
Rejeição de
H0
Observe que não corremos o risco de estarmos cometendo o Erro Tipo I, pois não estamos
rejeitando H0, porém, pelo fato de estarmos aceitando H0, corremos o risco de estarmos
cometendo o Erro Tipo II, aceitando que a variável estudada segue uma distribuição de Poisson
quando, na verdade, não segue. A probabilidade desse erro é β, um valor desconhecido.
Indivíduos
Bactéria + droga 13 44 57
Bactéria 25 29 54
Total 38 73 111
k
(fei − foi )2
χ cal
2
= ∑i =1
fei
,
onde foi é a frequência observada na i-ésima casela da tabela. Uma casela (ou célula) é o
encontro entre uma linha e uma coluna. O número k de caselas é sempre igual a l.c, l é
número de linhas e c é número de colunas. Já fei é a frequência esperada na i-ésima casela
da tabela. É calculada pela fórmula:
Região de
Região de Rejeição de
Aceitação H0
de H0
χ2tab
o
1 ) H0: Os efeitos da droga não influenciam na sobrevivência.
o
2 ) HA: Os efeitos da droga influenciam na sobrevivência.
3 ) α = 5%
o
o
4 ) Estatística de Teste:
4
(fe − fo )2 (13 − 19,51) 2 (25 − 18,49 ) 2 ( 44 − 37,49) 2 (29 − 35,51) 2
χ cal
2
= ∑
i =1
fe
=
19,51
+
18,49
+
37,49
+
35,51
= 6,7882
5 )Como χ >χ
o 2 2
cal tab, rejeita-se H0
o
6 ) Conclusão: os efeitos da droga influenciam na sobrevivência dos ratos expostos a essa
bactéria, pois não há independência entre os fatores.
Frequentemente deseja-se comparar duas populações, com relação às suas médias, para
verificar simplesmente se são diferentes, sendo que a estimação dessa diferença é importante,
mas secundária. Nesse caso, é interessante perfazer um teste de hipóteses sobre µ1 - µ2.
tc =
(x1 − x 2 ) − (µ1 − µ1 )
1 1
s 2 +
n2 n2
Guia de estudos de Estatística
∑ (x1j − x1 )2 + ∑ (x 2 j − x 2 )2
n1 n2
H1: µ1 - µ2 < d0
H1: µ1 - µ2 > d0
H0: µ1 - µ2 = d0
H1: µ1 - µ2 ≠ d0
Esse tipo de teste é empregado, por exemplo, quando uma empresa de reflorestamento,
que tradicionalmente cultiva um clone A de eucalipto, adquire numa instituição de pesquisa um
novo clone B. Assim, interessa saber se no plantio de novos talhões é justificável plantar o novo
clone B, ou seja, se ele é mais produtivo. Se µ1 - µ2 = 0, então não se justifica trocar o clone
cultivado na empresa. Se, por outro lado, µA - µB < 0, então o clone B é mais produtivo, e justifica-se
utilizá-lo. Assim, um teste de interesse seria:
Guia de estudos de Estatística
H0: µA - µB = 0 (ou µA - µB ≥ 0)
H1: µA - µB > 0
Suponha-se que, para a realização de tal teste, um experimento tenha sido conduzido com
25 parcelas de cada clone nas quais avaliou-se o DAP médio das árvores, tendo-se encontrado
2 2 2 2 2 2
X A = 18,61 cm, X B = 15,61, SA = 1,70 cm , e SB = 1,90 cm . Assim, temos que S = 1,80 cm ,
e
tc =
(18,61 − 15,61) − 0 = 7,906
1 1
1,80 +
25 25
Utilizando a significância de α = 5%, tem-se que o valor tabelado de t para 48 graus de liberdade
deve ser obtido por interpolação: com 40 e 60 graus de liberdade, tem-se, respectivamente, 1,684
e 1,671 para os valores de t0,05, ou seja, diminuição de 0,013 ao se aumentar 20 graus de
liberdade. Assim:
20 ------------------0,013
8 ------------------- x x = 0,005
E, portanto, o valor t para 48 graus de liberdade é 1,684 - 0,005 = 1,679. Por nós mesmos
colocamos o sinal negativo, pois estamos vendo que o valor de t está do lado esquerdo da curva
de t: -1,679. Como 7,906 > -1,679 , aceita-se H0, isto é, não há evidências, neste teste, para
concluir que A e B sejam diferentes.
nossas amostras resultaram em X A - X B = 18,61 – 15,61 = 3 cm, um valor positivo. Logo, seria
mais razoável julgar H0: µA - µB = 0 contra H1: µA - µB > 0 , pois, se µA e µB não foram iguais (µA - µB
= 0, H0), então o mais razoável é admitir que µA será maior do que µB, porque as amostras sugerem
isto ( X A > X B ). Assim sendo, convém estabelecer como H1 aquilo que os dados sugerem, neste
caso, H1: µA - µB > 0. Façamos então o teste assim:
H0: µA - µB = 0
α = 5%
Conclusão: como 7,906 > 1,679, rejeita-se H0, a um nível de significância de 5%.
Observe que a conclusão mudou! Agora rejeitamos H0, isto é, estamos concluindo que a média de
DAP do clone A é maior do que a média de DAP do clone B. Observe como uma escolha mais
coerente da hipótese alternativa tornou o teste mais eficaz!
Vamos explorar mais um exemplo ilustrativo, onde as variâncias não são iguais: considere
uma provedora de internet que deseja saber se o espaço de memória no webmail utilizado por
seus clientes homens é, em média, diferente do que o espaço utilizado por suas clientes mulheres.
Para testar a hipótese de igualdade de média, tal provedora toma uma amostra de nH = 115
homens e nm = 134 mulheres, obtendo X H = 480,4 Mbytes e X M = 458,1 Mbytes, com sH = 111,8
Mbytes e sM = 75,5 Mbytes. Vamos consider que as variâncias populacionais são diferentes. O
teste para diferença entre duas médias, quando as variâncias são diferentes usa a estatística
tc =
(x1 − x 2 ) − (µ1 − µ1 ) ,
s12 s 22
+
n2 n2
2
s12 s 22
+
v = n1 n 2 (tome a parte inteira),
2 2
s12 s 22
n 2 n 2
+
n1 − 1 n 2 − 1
Então:
H0 : µH = µM
α = 5%
tc =
(480,4 − 458,1) − 0 =
22,30
= 1,81
2 2
111,8 75,5 12, 2975
+
115 134
2
111,8 2 75,5 2
+ 22869,9753
v = 115 134
= = 195,0840 ⇒ v ≅ 195
2 2
111,8 2 75,5 2 103,6255 +13,6059
115 + 134
114 133
⇒ t0,05(195) = 1,6527 .
RRH0:
Região de
Rejeição de
H0
1,81
1,6527
Conclusão: como 1,81 > 1,6527 , rejeitamos H0. Isto é, ao observarmos, nas amostras, que
homens gastam em média mais memória que mulheres em seus webmails da citada provedora,
isto significa que, nas populações, as médias podem ser consideradas diferentes também.
Guia de estudos de Estatística
Testar µ1 - µ2 é testar sobre a diferença das médias, e é o que vimos na seção anterior. Já
testar µD é testar a média das diferenças, e é o que veremos agora. Você perceberá que isto não é
só um trocadilho – são situações diferentes! Vejamos um exemplo: considere um administrador
que deseja testar se um determinado programa de gestão da qualidade aumentou o retorno sobre
o investimento (ROI) de empresas de médio porte numa região dada. Para tal empreitada, ele
obteve os seguintes dados, antes e depois do programa ser aplicado, veja Tabela 6.6.
Tabela 6.6. Retorno sobre investimento (ROI) de 12 empresas, antes e depois de um certo
programa de gestão da qualidade ser aplicado.
ROI ROI
Esse tipo de dados é chamado dados emparelhados, ou dados pareados, visto que cada
empresa gera um par de resultados, um antes e um depois – isto é, a mesma empresa (o mesmo
indivíduo) gera um par de dados correlacionados. Nesse tipo de dados, não se pode usar os testes
para diferença de médias µ1 - µ2 , exatamente porque tais dados são correlacionados, pois estão
vinculados, cada par, no mesmo indivíduo (empresa), Para este tipo de dados o teste é:
H1 : µD > d0 ou µD < d0 ou µD ≠ d0
d − d0
tc = , sendo d e s D são a média e o desvio-padrão das diferenças par – à – par.
sD / n
No exemplo acima:
sD =
(0,022 − 0,01275 )2 + ... + (0,013 − 0,01275 )2 = 0,01238
12 − 1
H0 : µD =0
α = 5%
0,01275 − 0
tc = = 3,57
0,01238
12
Conclusão: como tc = 3,57 > t5%(11) = 1,796, rejeitamos H0 ao nível de significância de 5%,
isto é, o programa de qualidade aumentou o ROI das empresas.
σ12
6.6. TESTES SOBRE RAZÕES DE VARIÂNCIAS
σ 22
Como saber se duas populações podem ser consideradas como tendo variâncias iguais
ou diferentes? Isso corresponde a uma hipótese, dado que raramente as populações sob
comparação são conhecidas em sua totalidade. Assim, um teste de hipótese de interesse seria:
σ 12
H0: =1
σ 22
Guia de estudos de Estatística
σ 12
H0: ≠1
σ 22
De uma maneira geral, testes sobre razões de duas variâncias de populações diferentes,
nas quais pressupõe-se distribuição Normal, podem ser feitos mediante a distribuição F.
σ 12
H0: = q0
σ 22
σ 12
H1: < q0
σ 22
1 s2 1
REGRA DE DECISÃO: rejeitar H0 se fc < , onde fc = 12
fα s2 q0
σ 12
H0: = q0
σ 22
σ 12
H1: > q0
σ 22
s12 1
REGRA DE DECISÃO: rejeitar H0 se fc > fα, onde fc =
s 22 q 0
σ 12
H0: = q0
σ 22
σ 12
H0: ≠ q0
σ 22
1 s12 1
REGRA DE DECISÃO: rejeitar H0 se fc < ou fc > fα/2, onde fc =
fα / 2 s 22 q 0
Um exemplo ilustrativo pode ser visto se aproveitarmos o exemplo já dado no teste para µ1
- µ2, quando tivemos que decidir sobre a igualdade, ou não, das variâncias. Lá, assumimos
variâncias diferentes, mas aqui, testaremos:
σ H2
H0 : = 1 (ou σ H2 = σ M
2
)
σ M2
σ H2
H1 : > 1 (ou σ H2 > σ M
2
).
σM1
α = 2,5%
s 2H 1 111,8 2
fc = . = = 2,19
s 2M 1 75,5 2
2,19
RAH0
RRH0
1,423
Guia de estudos de Estatística
Conclusão: σ H2 > σ M
2
, isto é, diferentes.
Cor Frequência
Verde 275
Amarela 156
Albino 28
Total 459
Teste de Decisão:
1°) H0: Os dados seguem a proporção 9 : 6 : 1.
2°) HA: Ao dados não seguem a proporção 9 : 6 : 1.
3°) α = 5%
Como: χ cal
2
< χ tab
2
O erro do Tipo II, ou seja, aquele que se comete quando aceita-se H0 sendo esta hipótese falsa. A
probabilidade de cometê-la é dada por:
β = 1 − α = 1 − 0,05 = 0,95 = 95%
2) Suponhamos que experimentou-se o efeito de certa droga no controle de certa bactéria, usando
ratos. Foram utilizados 111 animais divididos em 2 grupos, 57 deles recebendo uma dose-padrão
de bactérias patogênicas seguidas pela droga e um grupo de controle de 54 que receberam
apenas a bactéria. Depois de um adequado período de tempo, quando a doença poderia provocar
a morte, obtiveram-se os seguintes resultados:
Indivíduos
Tratamento Total
Mortos Sobreviventes
Bactéria +droga 13 44 57
Bactéria 25 29 54
Total 38 73 111
3
(fe − fo) 2 (13 − 20) 2 (25 − 18) 2 (44 − 37) 2 (29 − 36) 2
χ cal
2
=∑ = + + + = 7,85
i =1 fe 20 18 37 36
O valor de χ 2 tabelado com v = (H-1).(K-1) = 1, onde H é o número de linhas, e K o número de
Como: χ cal
2
> χ tab
2
Guia de estudos de Estatística
Rejeita-se H0 , ou seja, os efeitos da droga não influenciam na sobrevivência dos ratos expostos a
essa bactéria.
3) O número de chegadas de pacientes em determinado hospital foi anotado minuto a minuto para
uma amostra de 70 períodos (de um minuto). Os dados colhidos foram os seguintes:
N° Chegadas 0 1 2 3 4 5 6 ≥7
Frequência 9 15 17 11 7 5 4 2
O modelo de Poisson foi proposto para modelar estes números de chegadas. Qual é sua opinião,
embase-a estatisticamente?
X =
∑x f i i
=
(0 × 9) + (1× 15 ) + ... + (7 × 2) = 2,47
n 70
Agora, precisa-se de alguns cálculos auxiliares, que podem ser feitos em um quadro auxiliar:
O cálculo das probabilidades para cada uma das chegadas será calculada assim:
λx 2,47 0
P ( X = 0) = e −λ × = e −2,47 × = 0,084 . Para as outras probabilidades seguem-se o mesmo
x! 0!
princípio.
v=(k–1)–1= (8–1)–1=6
o mais adequado para modelar o número de chegadas. Há inúmeros usos gerenciais para esta
conclusão: por exemplo, se o gestor do hospital deseja dimensionar o número de atendentes que
devem ficar de prontidão na recepção do hospital, ele pode se valer do conhecimento de que o
número de chegadas segue a distribuição de Poisson para esse dimensionamento.
1) Num cruzamento entre plantas de tomates altas e folhas normais, com plantas anãs e folhas tipo
batata, na geração F2 obteve-se:
Plantas altas folhas normais - 940
Plantas altas folhas batata - 290
Plantas anãs folhas normais - 282
Plantas anãs folhas batata - 88
Verifique concordância com a 2° Lei de Mendel (9:3:3:1) utilizando α = 5%.
Tipo de cooperativa
Estado Total
Consumidor Produtor Escola Outros
SP 214 237 78 119 648
PR 51 102 126 22 301
RS 111 304 139 48 602
Total 376 643 343 189 1551
3) O gerente de um supermercado deve decidir sobre a quantidade de cada sabor de sorvete que
se deve estocar a fim de atender à demanda dos consumidores, sem que haja perda de sabores
menos procurados. O fornecedor de sorvete afirma que, entre os sabores mais populares, os
clientes têm suas preferências: 62% preferem creme, 18% cupuaçu, 12% goiaba e 8% baunilha
com calda. Uma amostra de 200 clientes acusou os resultados a seguir. Com o nível de 0,05 de
significância, teste se o fornecedor identificou corretamente as preferências dos consumidores.
4) Em um estudo sobre acidentes de trabalho constatou-se que 147 deles exigiram tratamento
médico. Desses acidentes, 31 ocorreram na Segunda feira, 42 na Terça, 18 na Quarta, 25 na
Quinta, e 31 na Sexta. Teste a afirmação de que os acidentes ocorrem com a mesma proporção
nos cinco dias da semana utilizando α=5%.
Guia de estudos de Estatística
UNIDADE 7
REGRESSÃO E CORRELAÇÃO
7.1. INTRODUÇÃO
Correlação e Regressão são técnicas utilizadas em uma análise de dados amostrais para
medir o comportamento conjugado entre duas ou mais variáveis. Comecemos por definir
correlação e regressão:
Além de se calcular o grau de correlação entre duas variáveis, pode-se também fazer um estudo
para ajustar uma equação ao conjunto de dados, de forma que ele possa expressar uma relação
matemática entre as variáveis.
Conceito 7.2. Regressão. É o estudo que busca ajustar uma equação a um conjunto de dados de
forma que a relação entre as variáveis possa ser descrita matematicamente.
y = b 0 + b1x 1 + b 2 x 2 + ... + b p x p
onde:
desconhecidos.
Esta equação é considerada linear porque é uma combinação linear dos parâmetros, isto é, os
parâmetros são combinados entre si através de multiplicações e adições.
y = a + bx
onde:
∆y
b=
∆x
y = a + bx
Inclinação
x 10 12 14 16 18 20 22
y 11,8 10,2 12,1 13,2 15,1 15,4 15,6
• x é o nível de proteína em %
Fazendo o gráfico:
kg.dia-1
Analisando o gráfico, percebe-se que os dados ajustam-se a uma regressão linear simples. Mas,
nem sempre o modelo linear simples é adequado para um determinado conjunto de dados. Assim,
alguns estudos iniciais devem ser realizados para que se possa determinar o modelo mais
apropriado. Observe também que consideramos o modelo linear adequado para representar (ou
descrever) a associação entre y e x, mesmo os pontos representando os dados não se sobrepondo
perfeitamente sobre a reta! Por quê isto? Podemos dar mais de uma resposta:
ii. Porque a produção de leite não depende somente do nível de proteína da ração, e,
por isso, mesmo se esperando uma certa produção de leite típica para o consumo
de rações com 10% de proteína, esta produção variará de animal para animal.
Todas estas respostas tem o seu lugar de ser, e estão mesmo relacionadas entre si. Para
acomodar tais argumentos, o modelo estatístico difere ligeiramente do modelo matemático
apresentado, tornando-se:
y = b0 + b1 x1 + b2 x2 + ... + bp x p + e
onde:
y = a + bx + e
Os pontos dispostos em (b) e (d) apresentam relação linear entre as variáveis, o que não ocorre
em (a) e (c). O gráfico de (c) por exemplo, parece indicar relação quadrática entre y e x, pois há
aparência de um arco de parábola no gráfico:
Guia de estudos de Estatística
Uma relação assim seria uma equação do tipo y = a + bx + cx 2 com c>0 (“parábola com a boca
para baixo”). Apesar desta relação ser “quadrática”, nós a consideramos ainda linear, pois
permanece sendo uma combinação linear dos parâmetros a, b e c. Porém, não é linear simples.
Seria uma equação de regressão linear quadrática, ou simplesmente regressão quadrática. Já o
gráfico de (a), por exemplo, é do tipo que não poderia ser bem representado por nenhuma
regressão linear, nem simples, nem quadrática, nem polinomial com qualquer grau. Há uma
sugestão de uma relação exponencial do tipo y = a + be −cx , a qual não é uma combinação linear
y i = a + bx i + e i
O termo ei está relacionado ao erro aleatório percebido em cada uma das i-ésimas observações.
x x1 x2 … xn
y y1 y2 … yn
A partir do modelo de regressão linear, usando o método chamado método dos quadrados
mínimos, podemos determinar a equação da reta. Pode-se assim, obter a estimativa de regressão
por meio da equação:
ŷ i = â + b̂x i
Guia de estudos de Estatística
observação.
Por meio desta equação, através dos valores dados de x (variável independente ou
variável resposta) é possível predizer os valores de y (variável dependente ou variável
regressora).
n n
n
∑xi
∑ yi
i =1
∑
i =1
xi y i −
i =1
n
bˆ = 2
n
n
∑
xi
∑i =1
xi −
2 i =1
n
n n
∑y
i =1
i ∑x
i =1
i
aˆ = − bˆ
n n
Para os dados do exemplo das vacas holandesas, com o auxílio de um quadro auxiliar
para os cálculos, temos:
xi yi xi yi x i2 y i2
Calculando “ â ” e “ b̂ ”:
Guia de estudos de Estatística
(112,0)(93,4)
1544,0 −
b̂ = 7 = 0,44
(112,0) 2
1904,0 −
7
93,4 112,0
aˆ = − 0,44 = 6,257 ≅ 6,30
7 7
Logo, a equação estimada ou ajustada para a produção de leite em função do nível de proteína é
dada:
ŷ i = 6,30 + 0,44 x i
Esta equação pode ser interpretada da seguinte maneira: no intervalo estudado espera-se um
-1
aumento médio de 0,44 kg.dia na produção de leite das vacas a cada 1% (x variando de 10 a 22
% de proteína) de aumento no nível de proteína da ração. A interpretação está diretamente ligada
ao valor do coeficiente angular da reta (“ b ”). Para o exemplo:
∆x = 1% ∆y = 0,44 kg.dia −1
Deve-se ressaltar o perigo em extrapolar as conclusões além do alcance dos dados amostrais,
pois além do intervalo estudado, a relação existente entre as variáveis pode não se verificar.
1º- A Variação Total ( SQTotal ) mede a variação dos pontos da reta de regressão em torno da
2
n
∑ yi
n
SQTotal = ∑ y i −
2 i=1
i=1 n
(93,4) 2
SQTotal = 1272,46 − = 26,24
7
2
n n
n
∑ xi
∑ yi
∑x i y i − i =1 i =1
i =1 n
SQRL =
2
n
n
∑ xi
∑
i =1
xi −
2 i =1
n
Para o exemplo:
( 49,6) 2
SQRL = = 21,97
112,0
O desvio da regressão linear mede o valor da variação ocorrida na produção de leite devido à
variação nos diversos níveis de proteína na ração. Em termos percentuais da Variação Total, a
variação devida à Regressão Linear é denominada Coeficiente de Determinação ( r 2 ):
SQRL 21,97
r2 = 100% = 100% = 83,7%
SQTOTAL 26,24
3º- Variação do acaso é a variação não explicada pela regressão (Soma de Quadrados do Desvio
( SQ Re síduo )):
Para o exemplo:
Mede a variação ocorrida na produção de leite que não foi devido à variação dos níveis de proteína
4,27
da ração. Em termos percentuais: 100% = 16,3% da variação em y é explicada por x .
26,24
Guia de estudos de Estatística
7.5. CORRELAÇÃO
n n
n
∑ xi
∑ yi
i =1 i =1
∑x y
i =1
i i −
n
r =
n
2 n
2
n
∑ xi
n
∑
yi
i =1 y i2 − i =1
∑
x i2 −
i =1 n ∑
i =1 n
49,6
r = = 0,915
(112,0)(26,24)
Interpretando o resultado: pode-se afirmar que existe alta associação direta (positiva) entre o nível
de proteína da ração e a produção de leite.
Interpreta-se que 83,7% da variação ocorrida na produção de leite se deve à variação do nível de
proteína na ração.
3) Use os valores dados abaixo para estimar a equação de regressão e plote a reta de regressão:
20 20 20 20
∑ x = 200 ,
i =1
∑ y = 300 , ∑ xy = 6.200 , ∑ x
i =1 i =1 i =1
2
= 3.600 , n = 20
∑
i =1
y −b ∑x
i =1 300 − 2( 200 )
a= = = −5
n 20
Guia de estudos de Estatística
4) Foi feito um estudo sobre a adição de sulfato de cálcio (CaSO4) à uréia e seu efeito no ganho de
peso de novilhos tratados com cana. Os resultados obtidos foram os seguintes:
x 0 5 10 15 20
Calculando os somatórios:
5 5 5 5 5
∑ x = 50 ,
i =1
∑ y = 2.880 ,
i =1
∑ xy = 30.300 ,
i =1
∑x
i =1
2
= 750 , ∑y
i =1
2
= 1.669.350
5 5 5
n
∑ xy −
∑ ∑
x
y
5(30.300 ) − (50 )(2.880 )
i =1 i =1 i =1
b= = =6
5(750 ) − (50 )
2 2
5 2 5
n
∑ x −
x
∑
i =1 i =1
5 5
∑i =1
y −b ∑x
i =1 2.880 − 6(50)
a= = = 516
n 5
2
5
5
∑ y
(2.880 )2 = 10.470
i =1
SQTotal = ∑
i =1
y2 −
n
= 1.669.350 −
5
Este valor encontrado para o SQTotal mede toda a variação ocorrida no peso dos novilhos.
2
5 5
5
∑ ∑ x
y
i =1 i =1
∑
i =1
xy −
n
= (1.500 ) = 9.000
2
SQRL =
2 250
5
5 ∑
x
x2 −
i =1
∑
i =1
n
Este valor encontrado para a SQRL mede a variação do peso dos novilhos devido à
variação do teor de sulfato de cálcio na uréia.
3°- Soma de Quadrados dos Desvios (SQDesvio): Pode ser encontrado pela diferença.
Este valor encontrado mede a variação ocorrida no peso dos novilhos que não foi devido à
variação do teor de sulfato de cálcio na uréia.
5 5 5
n
∑ ∑ ∑
xy − x
y
r = i =1 i =1 i =1 =
1.500
= 0,93
2 250 × 10.470
5
5
2
5 5 2 i =1
∑y
n∑
i =1
2
x −
∑
x
∑
i =1 i =1
y −
n
Portanto, r = 0,93 mostra que existe alta correlação positiva entre o teor de sulfato de
cálcio e o ganho de peso dos novilhos.
Guia de estudos de Estatística
2
h) Encontre o coeficiente de determinação (r ) e interprete.
2 2
r = 0,93
2
r = 0,8649
Portanto, 86,49% da variação ocorrida no ganho de peso dos novilhos se deve ao teor de
sulfato de cálcio na uréia.
6 6 6 6
b) ∑
i =1
x = 37 , ∑
i =1
y = 15 , ∑
i =1
xy = 230 e ∑x
i =1
2
= 1.560
4) Numa pesquisa foram medidos os teores de alumínio em diversos solos onde é cultivado soja e
anotando-se suas respectivas produtividades. Foram obtidos os seguintes resultados:
Sendo:
+++
- x teor de Al em mE/100 cc de solo;
- y a produtividade de soja em t/ha.
a) Faça um diagrama de dispersão para os dados.
b) Estime a equação de regressão que se ajusta aos dados.
Guia de estudos de Estatística
5) É necessário de tempos em tempos realizar estimativas do peso de ovelhas; por exemplo, para
predizer o efeito de certas drogas ou para predizer datas de disponibilização no mercado.
Infelizmente, pesar cada ovelha é difícil, então é necessário realizar estimativas do peso das
ovelhas de um modo mais fácil. Um estudo foi realizado para investigar a relação entre o peso vivo
da ovelha e a sua circunferência de tórax. A tabela mostra as medidas de uma amostra aleatória
de 66 ovelhas estudadas cuja circunferência de tórax encontra-se entre 60 cm e 90 cm.
6) A tabela abaixo apresenta três conjuntos de dados preparados pelo estatístico Frank Anscombe,
eles mostram o perigo de fazermos o estudo de regressão sem antes examinarmos o gráfico de
dispersão.
Tabela 1. Três conjuntos de dados preparados para mostrar a necessidade de se construir sempre
o gráfico de dispersão num estudo de regressão.
Conjunto de dados A
X 10 8 13 9 11 14 6 4 12 7 5
Y 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68
Conjunto de dados B
X 10 8 13 9 11 14 6 4 12 7 5
Y 9,14 8,14 8,74 8,77 9,26 8,10 6,13 3,10 9,13 7,26 4,74
Conjunto de dados C
X 8 8 8 8 8 8 8 8 8 8 19
Y 6,58 5,76 7,71 8,84 8,47 7,04 5,25 5,56 7,91 6,89 12,50
Fonte: Moore, D. A Estatística Básica e sua prática. LTC editora, Rio de Janeiro, 2000.