Guia de Estudos Estatistica UFLA

Guia de estudos de
Estatística
Guia de estudos de Estatística
UNIDADE 1
INTRODUÇÃO
1.1. O CONCEITO DE ESTATÍSTICA
Vamos buscar definir Estatística, e, para tanto, os dois conceitos a seguir são adequados.
Conceito 1.1. Estatística. Conjunto de técnicas que se ocupa com a coleta, organização, análise e
interpretação de dados, tendo um modelo por referência.
Conceito 1.2. Estatística. Conjunto de métodos de obtenção e utilização de informações, para

auxiliar a tomada de decisões em uma situação prática envolvendo incerteza.
Conforme se observa pelo conceito 1.1, para descrever um fenômeno ou um sistema, a

Estatística faz uso de dados (observações), os quais contêm as informações relevantes para a
elaboração e a validação de modelos.
Mais alguns conceitos básicos se fazem necessários:
Conceito 1.3. População. Corresponde ao sistema total, ou ao todo que se quer descrever, sem
generalizações para um universo maior, ou para o futuro. É sempre um conjunto de elementos com
características em comum.
A população pode ser um conjunto de peças de um lote, de anos, de pontos no solo de um

talhão, de animais, de plantas, entre outros. As populações podem ser classificadas em:
a) Finitas ou Reais;
b) Infinitas ou Conceituais.
Populações reais são, por exemplo, todas as árvores de um povoamento florestal, ou todo
o solo de um talhão de área. Por terem existência real, possuem número finito de elementos.
Quanto às populações conceituais são aquelas sem existência real, mas de concepção
bem definida, como o conjunto total de frangos que poderiam ser alimentados com uma certa
ração, em condição de confinamento; ou ainda, todas as plantas de uma certa cultivar de milho
que foram, são ou poderão vir a ser plantadas em condições de cerrado. Pela própria definição,
tais populações só podem ser de tamanho infinito, porque nunca se disporá de todos os seus
elementos na prática.
É conveniente observar que, muitas vezes, as populações reais têm um número de

elementos tão grande, que são consideradas, sem maiores problemas, como sendo infinitas.
Alguns exemplos são: a população de todos os pés de eucalipto existentes numa grande fazenda
de reflorestamento ou, ainda, a população de todas as moléculas que compõe o volume de ar de
uma sala. Neste texto, o número total de elementos de uma população finita será simbolizado pela
letra maiúscula “N”.
Nos primórdios do conhecimento estatístico, a descrição era feita apenas para populações
reais, e por meio da observação de todos os seus elementos, conhecida como censo. Tais
levantamentos eram (e são) em geral dispendiosos, e, portanto, promovidos pelo Estado. A palavra
“Estatística” vem de “Estado”, por causa disso.
Felizmente, com o desenvolvimento da teoria de probabilidades, a partir do século XVIII,

verificou-se que as características populacionais poderiam ser obtidas (com grau variável de
confiança) a partir da observação de parte dos elementos da população, conhecida como amostra.
Conceito 1.4. Censo. Atividade de inspecionar (observar) todos os elementos de uma população
real, objetivando conhecer, com certeza, as suas características.
Conceito 1.5. Amostra. Um subconjunto ou parte da população. Ela sempre é finita.
O critério básico para diferenciar uma população de uma amostra é a seguinte questão:
“usarei minhas análises para extrapolar/generalizar os resultados para um universo maior, ou para
o futuro?”. Se a resposta for “sim”, os dados representam uma amostra, se “não”, representam
uma população. O número finito dos elementos da amostra será simbolizado pela letra minúscula
“n”.
O processo de coleta de uma ou mais amostras de uma população é conhecido como

amostragem. Como será visto ao longo do texto, existem maneiras adequadas de se proceder a
amostragem, de modo a garantir que as amostras guardem características mais próximas
possíveis da população, o que é chamado de representatividade.
Conceito 1.6. Amostragem. Processo de obtenção ou coleta de amostras de uma população.
O objetivo último da Estatística é o de descrever e/ou tomar decisões a respeito da

população. Se isto é feito por meio de amostras, ao invés de censos, em razão da inviabilidade
destes últimos, então deve ficar claro que a descrição da amostra objetiva, em última instância,
descrever a população. Esse processo é chamado de inferência estatística, ou inferência indutiva,
porque induzir consiste em buscar generalização para um todo (população) a partir de parte do
todo (amostra).
Conceito 1.7. Inferência Estatística. Processo de se tirar conclusões ou tomar decisões acerca da
população com base em uma amostra dessa população.
Assim, didaticamente, o estudo da Estatística é dividido nos seguintes itens:
a) Estatística Descritiva: objetiva sintetizar a informação contida em um conjunto de dados, seja ele
referente a uma população finita ou a uma amostra.
b) Teoria de Probabilidades: objetiva descrever e prever as características de populações infinitas.
c) Teoria da Amostragem: é a formalização de um conjunto de técnicas para a coleta de amostras

em uma população.
d) Inferência Estatística: como já definida, trata da obtenção de informações a respeito da

população a partir de amostras, resultando na tomada de decisões a seu respeito. Como será visto
ao longo do texto, basicamente a inferência é praticada mediante: 1) a estimação de parâmetros
associados a modelos probabilísticos; e 2) testes de hipótese de interesse, sobre esses mesmos
modelos.
1.2. VARIÁVEIS E DADOS
De todas as características da população, sua descrição é feita por aquelas de maior

interesse do pesquisador. Por exemplo, as plantas de uma cultivar de milho definem uma
população, a qual é descrita por características de interesse econômico, tais como: produtividade
(t/ha), resistência a doenças, o ciclo cultural, arquitetura de planta, etc.
As características que descrevem a população são chamadas variáveis, e um valor

observado com relação a uma variável é chamado dado ou observação, sejam eles provenientes
de censos ou de amostras.
Conceito 1.8. Variável. Característica pela qual deseja-se que a população seja descrita, ou pela
qual decisões acerca da população são tomadas.
Conceito 1.9. Dado. Observação ou realização referente a uma variável. Pode estar contido em um
censo ou em uma amostra.
Uma classificação possível quanto à natureza das variáveis está apresentada abaixo.
As variáveis qualitativas (também denominadas categóricas) correspondem a atributos,

categorias, e são oriundas da operação de classificação. Elas são nominais quando não são
passíveis de ordenação, como, por exemplo, a cultura predominante em propriedades de uma
região. As realizações dessa variável qualitativa nominal podem ser: milho, cana, soja, etc.
Quando os atributos são passíveis de ordenação, a variável qualitativa é dita ordinal; por
exemplo, esse é o caso quando usam notas para avaliar uma característica. Por exemplo, em um
laboratório de cultura de tecidos, esse critério por vezes é utilizado para classificar o grau de
regeneração no processo de micropropagação.
Quanto às variáveis quantitativas, estas correspondem a números resultantes das

operações de contagens ou medições, por isso também chamadas de numéricas. Quando se trata
de contagens, como o número de ovos ovipositados por um inseto, a variável é dita discreta, sendo
possível a separação em classes distintas (não há realização intermediária entre 2 e 3 ovos, por
exemplo) normalmente associadas aos números internos. Outros exemplos são: número de folhas
atacadas por certa praga; número de brotos germinados por tubérculo de batata, etc.
Nas variáveis quantitativas contínuas, as realizações resultam de medição, uma

mensuração, como a altura de pés de algodão ou o peso de novilhas, não havendo assim classes
distintas, mas antes um intervalo de números reais possíveis, só limitados pela precisão dos
aparelhos de medida empregados (balança, paquímetro, etc). Alguns autores ainda subdividem as
variáveis quantitativas contínuas em graduadas e proporcionais.
As graduadas (ou de razão) são aquelas onde intervalos são definidos (como em toda
variável quantitativa), mas o ponto de referência é arbitrário. Por exemplo, considere a escala
Celsius de temperatura. Suponha que um pesquisador descubra que uma técnica bioquímica é
0 0
mais eficiente a 15 C do que a 10 C. Nestes casos, deve-se tomar cuidado em afirmar que,
aumentando a quantidade de calor em 50%, a eficiência da técnica aumentou, porque o ponto de
0
referência (0 C) foi escolhido arbitrariamente, como sendo aquele no ponto de congelamento da
água, sob uma pressão específica. Se o ponto de referência fosse deslocado, por exemplo, para o
zero absoluto (escala Kelvin), o aumento de temperatura acima seria de apenas 5 / (273+10) =
1,8%.
As proporcionais são aquelas onde intervalos também são definidos, mas o ponto de
referência é absoluto. Por exemplo, dizer que o híbrido de milho A produz 10% mais que o híbrido
B (em t/ha) tem sentido, uma vez que o ponto de referência (a produção zero) é natural, absoluta;
não existe produção abaixo desse valor.
Por fim, observe como estamos rodeados de variáveis e dados “por todos os lados”: no
calendário abaixo, temos variáveis categóricas (o mês do ano, o dia da semana, a condição
climática do dia) e variáveis numéricas (o dia do mês). Poderíamos ter, em alguma estação
climatológica, os dados da variável numérica precipitação pluviométrica, temperatuta média do dia,
entre muitas outras.
1.3. A NOTAÇÃO DE SOMATÓRIO
Apesar de existir vários tipos de variáveis, é muito frequente, em Estatística, trabalhar-se

com variáveis quantitativas. Essas variáveis são, em geral, simbolizadas por alguma letra latina
maiúscula, como X, Y, Z, etc. As observações ou dados, por sua vez, são representadas pelas
letras minúsculas correspondentes. Além disso, os dados são identificados por um índice, ou
a a
contador, para indicar que trata-se da 1 observação, da 2 e assim por diante. Por exemplo, o
a
símbolo x1 representa a 1 observação do conjunto de dados (seja ele um censo ou uma amostra),
referente à variável quantitativa X.
Como também é muito comum o interesse no cálculo de somas, somas de termos ao

quadrado, cálculo de médias, entre outras, então é usual representar somas por um operador
chamado somatório, que é representado pela letra grega “sigma” maiúscula . Assim, por
exemplo, a soma:
x1 + x2 + x3 + x4 ,
é representada em notação de somatório da seguinte forma:
∑x
i =1
i ,
ou seja, corresponde à soma dos termos “xi”, onde o índice i varia de 1 a 4. Esse operador é
também uma taquigrafia matemática.
Em função de sua própria definição, o operador somatório possui algumas regras, dadas a
seguir:
1) Se k é constante, então:
n
∑k
i =1
= k + k + ... + k = n k .
2) Se k é constante e xi valores de uma variável quantitativa, então:

n n
∑
i =1
kx i = k x1 + k x2 + ... + k xn = k (x1 + x2 + ... + xn) = k ∑x
i =1
i .
3) O somatório de uma soma de variáveis é igual à soma dos somatórios de cada variável:
n n n n
∑ (x i
i =1
+ y i + zi ) = ∑
i =1
xi + ∑
i =1
yi + ∑z
i =1
i .
Em consequência das regras 1, 2 e 3, se “a” e “b” são constantes, então:

n n n n
4) ∑ (a + bx ) = ∑ a + ∑ bx
i =1
i
i =1 i =1
i = n.a + b. ∑xi =1
i .
1.4. EXERCÍCIOS RESOLVIDOS
1. Expresse as seguintes somas usando notação de somatório:

15
a. y 1 + y 2 + ... + y 15 = ∑ yi
i =1
n
b. x 12 + x 22 + ... + x n2 = ∑ x i2
i=1
30
c.
1 2
z 1 + z 3 + z 5 + ... + z 59 =
3 30
∑ z i2i−1
i=1
12
d. log x 1 + log x 2 + ... + log x 12 = ∑ log x i
i=1
n
2
e. ( x 1 - 1 ) + ( x 2 - 2 2 ) 2 + ( x 3 - 3 3 ) 3 + ... + ( x nn - n n ) n =
3
∑ ( x ii − ii )i
i =1
2. Sabendo que:
4 4 4 4 4
∑ x i = 16 , ∑ x i2 = 84 , ∑ x i3 = 496 , ∑ y i = 20 , ∑ x i y i = 100
i=1 i=1 i=1 i=1 i=1
Determine o valor numérico das expressões:
4 4 4
a) ∑ ( x i3 − 25) =∑ x i3 −∑ 25 = 496 − 100 = 396
i=1 i=1 i=1
4 4
b) ∑
i =1
(3 xi − 15 )3 = ∑ (27 x
i =1
3
i − 405 xi2 + 2025 xi − 3375 ) =
4 4 4 4
∑ 27 x − ∑ 405 x +∑ 2025 x − ∑ 3375 =

i =1
3
i
i =1
2
i
i =1
i
i =1
4 4 4
27 ∑x
i =1
3
i − 405 ∑x
i =1
2
i + 2025 ∑x i =1
i − 4(3375 ) =
(27 × 496 ) − ( 405 × 84 ) + (2025 × 16) − 4 × 3375 = −1728

1.5. EXERCÍCIOS PROPOSTOS
1. Desenvolva cada uma das seguintes expressões, colocando-as na sua forma mais simples
possível:
5 5 6 4
a) ∑x i b) ∑ z i x i2 c) ∑ xi yi d) ∑ xi − x
i=1 i =1 i=1
i =1
6
e) ∑ ( x i − x )2
i=1
2. Escreva em notação sigma (somatório)
a) x 1 + x 2 + ... + x n
b) ( x 1 + x 2 + ... + x n ) 2
c) x 1 + x 2 + ... + x 7
d) x 12 + x 22 + ... + x n2
3. Sejam os conjuntos de dados: x= {4,3,0,1} e y={3,0,1,3}. Obtenha os seguintes somatórios:

4 4 4
a) ∑ xi b) ∑ x i2 c) ∑ xi yi
i =1 i=1 i =1
n  n  n 
4
n ∑x y i i −
 ∑ xi 
∑ yi 

d) ( ∑ x i )
2
e) b =
i =1  i =1  i =1 
a = y − bx
i=1 2
n  n 
n∑ x i2 −

xi ∑ 

i =1  i =1 
UNIDADE 2
ESTATÍSTICA DESCRITIVA
2.1. INTRODUÇÃO
Neste capítulo serão abordados os conceitos elementares para a descrição de um conjunto

de dados, objetivando a retirada de informações que sejam pertinentes, interessantes, e úteis.
Duas situações devem ser ressaltadas: uma, onde os dados provêm de observações de uma
população finita, a qual é toda ela conhecida, sendo, assim, elementos de um censo, e outra,
quando os dados originam-se de uma amostra, recurso utilizado quando é impossível ou inviável
observar todos os elementos individuais da população. O conjunto de conceitos e métodos
estatísticos que operam sobre estes dois tipos de situação, populações finitas e amostras, é
denominado Estatística descritiva.
2.2. DESCRIÇÃO DE VARIÁVEIS CATEGÓRICAS

O conjunto de dados que se deseja descrever pode se referir a uma variável categórica
(também denominada qualitativa). A título de ilustração, seja o exemplo hipotético a seguir (Tabela
2.1), representando a atividade agropecuária predominante em 20 propriedades de um município.
Este conjunto de dados será tratado, como informamos, considerando-o como uma amostra,
proveniente de uma população das muitas propriedades de tal município. Como se observa, a
atividade predominante corresponde a uma variável categórica nominal, pois não é passível de
ordenação.
A maneira como os dados estão apresentados na Tabela 2.1 não deixa de ser uma
representação. No entanto, não é difícil perceber que se trata de uma disposição muito limitada 
por exemplo, não se visualiza a atividade agropecuária predominante no município, e assim por
diante. Uma maneira de realçar esse tipo de informação é apresentando a frequência de cada
Tabela 2.1. Atividade predominante em 20 propriedades de um município.
Café Leite Leite Milho

Café Milho Soja Leite
Leite Café Milho Café
Olericultura Leite Café Laranja
Café Milho Café Café
atividade no município.
Conceito 2.1. Frequência (de ocorrência). Medida que quantifica, contando, a ocorrência dos
valores de uma variável em um dado conjunto de dados.
A frequência associada a uma variável X pode ser classificada em três tipos, conforme a
Figura 2.1:
Absoluta (fa)
Frequência Relativa (fr)
Percentual (fp)
Figura 2.1. Tipos de frequência de ocorrência.
A frequência absoluta, no caso de variáveis qualitativas, nada mais é do que o

número de observações ocorridos (contadas) em cada classe da variável em questão. É
representada por fa(x), ou simplesmente fa. A frequência relativa (fr) é obtida pela divisão da
frequência absoluta pelo número total de dados ou observações. A frequência percentual (ou
porcentual) (fp) é fornecida pela multiplicação da frequência relativa por 100%.
No exemplo das atividades agropecuárias predominantes em propriedades, as frequências

correspondentes da categoria ‘Café’ são:
fa(café) = 8 ;
8
fr(café) = = 0,40 ;
20
fp(café) = 0,40 × 100% = 40%.
Assim, de forma geral, uma maneira informativa de descrever o conjunto de dados da Tabela 2.1 é
a de apresentar as frequências de cada categoria da variável ‘atividade agropecuária’, ou seja,
mostrar a sua distribuição de frequência.
Conceito 2.2. Distribuição de Frequência. Consiste em uma função que associa os valores que
uma variável assume com suas frequências de ocorrência, podendo ser elas absolutas, relativas
ou percentuais.
A distribuição de frequência de uma variável observada em população finitas e amostras,

pode ser apresentada mediante duas maneiras; a representação tabular ou a representação
gráfica. A representação tabular consiste em dispor a distribuição de frequência das categorias da
variável em tabelas. Para exemplificar, seja a Tabela 2.2 a seguir, representando a distribuição de
frequência absoluta da atividade agropecuária predominante em 20 propriedades de um município.
Tabela 2.2. Distribuição da frequência absoluta da atividade agropecuária predominante em 20

propriedades de um município.
Atividade predominante Frequência absoluta

Café 8
Milho 4
Leite 5
Olericultura 1
Soja 1
Laranja 1
Total 20
Fonte: dados fictícios.
Essa representação tabular poderia ter seu aspecto melhorado pela criação de uma nova
categoria, por exemplo, denominada ‘Outras’, que incluiria aquelas classes de menor frequência, a
saber, Olericultura, Soja e Laranja. Opções como estas são fortemente dependentes dos objetivos
e do bom senso do pesquisador. A nova representação da distribuição de frequência seria como a
da Tabela 2.3.
Outra observação pertinente é a seguinte: nesse exemplo, a variável é qualitativa nominal,

e, portanto, sem ordenação natural. Um critério sensato de ordenação, que facilita a interpretação
dos dados, é a de dispô-las de maneira que as frequências correspondentes estejam ordenadas,
como observado na Tabela 2.3. Além disso, a classe ‘Outras’, quando presente, deve
preferencialmente vir em último lugar, mesmo que sua frequência seja maior. Outrossim, quando a
variável for qualitativa ordinal como, por exemplo, o conjunto de notas:
{ótimo, bom, regular, ruim}
então, a distribuição de frequência deve ser disposta respeitando-se a ordem das categorias da
variável, crescente ou decrescente, mesmo que não seja obedecida a ordem de magnitude das
frequências.
Tabela 2.3. Distribuição da frequência absoluta da atividade agropecuária predominante em 20

propriedades de um município.
Atividade predominante Frequência absoluta

Café 8
Leite 5
Milho 4
Outras 3
Total 20
Quanto a sua estrutura, de maneira geral, as tabelas têm os seguintes componentes: título,
cabeçalho, coluna indicadora, corpo, linha de totais e rodapé (Figura 2.2). Estes são definidos
como:
- O título deve conter as informações relativas ao conteúdo da tabela, a(s) variável(eis) dispostas,
podendo ainda conter o local de coleta dos dados, e quando e como foi realizado o estudo. O título
deve responder, no mínimo, a 3 perguntas: “o quê?”, “onde?”, e “quando?”. O cabeçalho especifica
as variáveis e a frequência (ou outra característica) correspondente aos seus valores.
- O corpo é representado por uma série de colunas e subcolunas, dentro das quais são colocados
os dados apurados. Segundo o corpo, as tabelas podem ser de entrada simples, de dupla entrada,
e de múltipla entrada. A Tabela 2.3 é de entrada simples. A cada entrada corresponde uma linha
(ou coluna) de totais. Um exemplo de tabela de dupla entrada seria a classificação das
propriedades também segundo o nível de tecnologia utilizada (Tabela 2.4). Observe que há duas
totalizações marginais (totais de linhas e totais de colunas), e uma totalização geral.
- No rodapé, são colocadas a legenda e todas as observações que venham a esclarecer a

interpretação da tabela. Geralmente também é disposta a fonte dos dados (entidade que os
fornece), embora em alguns casos, seja colocada no título.
Figura 2.2. Componentes de uma tabela.
Tabela 2.4. Distibuição de frequências absolutas das atividades predominantes e do nível de

tecnologia utilizada em propriedades de um município.
Nível de tecnologia utilizada
Atividade predominante Baixo Médio Alto Totais

Café 1 3 4 8
Leite 3 2 0 5
Milho 3 1 0 4
Olericultura 0 1 0 1
Soja 0 0 1 1
Laranja 0 0 1 1
Totais 7 7 6 20
Traços horizontais para separar linhas são bastante utilizados. Quanto aos traços verticais, há a
tendência no meio científico de serem evitados, quando não houver prejuízo na qualidade de
apresentação.
Dependendo do contexto, alguns componentes podem estar ausentes. Nota-se que a

Tabela 2.1 é de natureza bastante simplificada, não tendo cabeçalho, coluna indicadora, linha de
totais ou rodapé. Pode-se dizer que o título e o corpo são os componentes mínimos de uma tabela.
A idéia básica por trás de todas as regras de construção de uma tabela é que “uma tabela deve ser
autoexplicativa”, i.é, o leitor não deve precisar ter que recorrer ao texto para compreender um
tabela: ela se explica por si mesma (a mesma regra básica vale para figuras, cujos métodos de
construção serão vistos em seguida).
Além da representação tabular, a representação dos dados também pode ser feita
mediante gráficos. Para a representação de distribuições de frequência referentes a variáveis
qualitativas, existem três gráficos mais utilizados: o gráfico de linhas, o gráfico de barras, e o
setorgrama. O gráfico de linhas consiste em dois eixos, onde a frequência (absoluta, relativa ou
porcentual) é disposta no eixo vertical e as classes da variável no eixo horizontal, sendo a
identificação de cada par ordenado feita por uma linha vertical ligando o par ordenado ao eixo
horizontal. O gráfico de linhas referente ao exemplo das atividades agropecuárias predominantes
está apresentado na Figura 2.3.
Conceito 2.3. Gráfico. Diagrama ou figura para ilustração de fenômenos ou tendências, no qual
existem escalas definidas.
0,5
0,4
0,3
0,2
0,1
0
Café Leite Milho Outras
Figura 2.3. Gráfico de linhas representando a distribuição de frequência relativa referente à

atividade agropecuária predominante em propriedades de um município fictício.
O gráfico de barras é bastante semelhante ao gráfico de linhas, com a diferença de que

barras são utilizadas ao invés de linhas (Figura 2.4).
0,5
0,4
0,3
0,2
0,1
0
Figura 2.4. Gráfico de barras verticais representando a distribuição de frequência relativa referente
à atividade agropecuária predominante em propriedades de um município fictício.
É importante salientar que, na disposição gráfica de variáveis qualitativas, devem ser padronizadas
as distâncias entre as categorias, bem como a largura das colunas, para que não cause falsas
impressões, em razão da escala desigual. Uma outra opção para o gráfico de barras é que estas
podem ainda ser horizontais (Figura 2.5). Outros recursos que algumas vezes são empregados em
gráficos de barras são a moldura e os traços. Estes últimos, em geral, são apenas traçados
paralelamente ao eixo x, para facilitar a visualização dos valores referentes às frequências (Figura
2.6).
O setorgrama (também chamado de gráfico circular, gráfico de setores ou gráfico de pizza)

consiste na figura de um círculo, cujos setores correspondem a categorias da variável em questão,
possuindo áreas proporcionais às frequências relativas ou porcentuais. Para a construção de um
setorgrama, basta obter o ângulo referente ao setor de uma dada categoria, pelo uso de uma regra
de três. Por exemplo, para a atividade agropecuária ‘Café’, do exemplo anterior, tem-se, para as
frequências porcentuais:

o
100% 360
40%  x
o
E assim, x = 144 . Os setores correspondentes podem ser então traçados. Hoje em dia, são
disponíveis muitos softwares que constroem esse tipo de representação gráfica, e outros.
Café
Leite
Milho
Outras
0 0,1 0,2 0,3 0,4 0,5
Figura 2.5. Gráfico de barras horizontais representando a distribuição de frequência relativa

referente à atividade agropecuária predominante em propriedades de um município fictício.
0,5
0,4
0,3
0,2
0,1
0
Figura 2.6. Gráfico de barras verticais representando a distribuição de frequência relativa referente
à atividade agropecuária predominante em propriedades de um município fictício, contendo
moldura e traços.
O setorgrama referente ao exemplo das atividades agropecuárias está apresentado na Figura 2.7.
Café
40,0%
Leite
25,0%
Outras
15,0%
Milho
20,0%
Figura 2.7. Setorgrama representando a distribuição de frequência relativa referente à atividade

agropecuária predominante em propriedades de um município fictício.
Fonte: dados fictícios, apenas para efeito didático.
No caso de variáveis qualitativas ordinais, a representação gráfica é muito semelhante a

das nominais. Deve-se cuidar, contudo, para que a ordem das categorias da variável seja
respeitada ao longo do eixo referente à variável, ou qualquer outra disposição conjunta delas.
Observe também o local de colocação de títulos em tabelas e figuras: em tabelas o título

deve ficar em cima e em figuras o título deve ficar em baixo.
2.3. DESCRIÇÃO DE VARIÁVEIS NUMÉRICAS

Variáveis quantitativas (numéricas) podem ser classificadas em dois tipos: discretas e
contínuas. Conjuntos de dados referentes a variáveis quantitativas, de um modo geral, podem ser
descritos de três maneiras:
1) Distribuições de freqüência.
2) Medidas numéricas descritivas: medidas de posição (média, mediana, moda, e quantis)

e medidas de variabilidade (amplitude total, variância, desvio-padrão, coeficiente de
variação, entre outras).
3) Gráficos: histogramas, gráfico de barras, entre outros.
Frequentemente, as três maneiras são empregadas simultaneamente. Veremos o tratamento

destes modos de descrever separadamente, primeiro para distribuições de freqüência de variáveis
discretas e contínuas, e seus gráficos, e depois para medidas de posição e variabilidade, tanto
para discretas quanto para contínuas também.
2.3.1. Distribuições de freqüência.
Nesta seção trataremos de mostrar como se faz distribuições de freqüência tanto para
variáveis contínuas quanto para variáveis discretas. Começando com as distribuições de
frequências para variáveis discretas, a representação de um conjunto de dados referentes a
realizações de uma variável quantitativa discreta é, em geral, bastante semelhante à das variáveis
qualitativas, pois os valores inteiros que a variável assume podem ser considerados como
“categorias”, ou “classes naturais”. Como exemplo, sejam dados referentes a um levantamento
onde observaram-se 91 plantas de café, numa pequena lavoura, nas quais contou-se o número de
folhas atacadas pela praga ‘bicho mineiro’, em cada planta. Como estabelecido, vamos considerar
tal massa de dados como uma amostra, proveniente de uma população constituída de todas as
plantas de café da lavoura de onde estas 91 plantas vieram (evidentemente a lavoura toda, que é a
população de onde esta amostra veio, possuía muito mais do 91 plantas – frequentemente
milhares de plantas!). A representação tabular da avaliação desse experimento está apresentada
na Tabela 2.5.
Observa-se que a disposição da variável ‘número de folhas lesionadas’ é semelhante a de

uma variável qualitativa ordinal com 11 categorias. A representação gráfica é, assim, igualmente
parecida, embora com a diferença de que a escala referente à variável possui uma interpretação
diferente, representando elementos do conjunto dos números inteiros. Exemplificando, o gráfico de
barras horizontais desse experimento está mostrado na Figura 2.8.
Tabela 2.5. Frequência de plantas de café em relação ao grau de infestação de bicho mineiro em
amostragem em uma cultura de café. Lavras, 2005.
Número de folhas Frequência Frequência
lesionadas absoluta (plantas) percentual (%)
0 3 3,30
1 8 8,79
2 15 16,48
3 22 24,18
4 21 23,08
5 16 17,58
6 4 4,40
7 0 0,00
8 2 2,20
9 0 0,00
10 ou mais 0 0,00
Total 91 100,00
Fonte: levantamento amostral in loco na lavoura.
25
20
15
10
0
0 1 2 3 4 5 6 7 8 9 10
Figura 2.8. Gráfico de barras verticais representando a frequência porcentual de plantas de café
em relação ao grau de infestação de bicho mineiro, em amostragem na cultura do café. Lavras,
2005.
Fonte: levantamento amostral in loco na lavoura.
Voltando-nos agora para a representação de variáveis numéricas contínuas, devemos

explicitar que tal representação apresenta uma dificuldade adicional, em relação às discretas, e
mesmo em relação às variáveis categóricas. Não existem aqui, em variáveis contínuas, “classes
naturais”, porque as realizações (dados) de variáveis contínuas são números pertencentes ao
conjunto dos números reais, e, assim, existe um conjunto infinito não-numerável (não-contável) de
valores que a variável pode assumir. A título de ilustração, considere o exemplo a seguir, relativo à
produção diária de leite (kg), durante o período de lactação, de um rebanho de 201 vacas da raça
holandesa, pertencente a uma fazenda de gado holandês do Sul de Minas Gerais (Tabela 2.7).
Vamos considerar estes dados como uma amostra, oriunda de uma população que poderia ser o
conjunto de todas as vacas holandesas do Sul de Minas Gerais
A solução para o problema da inexistência de classes naturais consiste na elaboração de

classes a partir de intervalos, fixando um número adequado de classes segundo algum critério. Um
exemplo de intervalo seria (5,0 ; 10,0), onde 5,0 kg é o limite inferior do intervalo, e 10,0 kg seria o
limite superior do intervalo.
A seguir, é apresentado um algoritmo (uma sequência de passos), propondo uma maneira

de obtenção de uma distribuição de frequência relativa a uma variável numérica contínua, sendo o
conjunto de dados referente a uma amostra. Antes do algoritmo, porém, devemos esclarecer que a
Tabela 2.7. Produção diária de leite (kg), durante o período de lactação, de 201 vacas da raça
holandesa, de um rebanho pertencente à fazenda Itirapuan, Sul de Minas Gerais, 2005.
24,7 25,8 23,6 18,6 20,7 22,4 22,4 21,4

19,2 18,2 21,2 20,0 17,8 17,5 19,7 23,7
15,3 13,6 20,7 17,0 15,7 15,1 13,8 11,1
14,7 17,6 16,2 13,4 13,2 14,1 13,1 20,1
19,8 16,8 12,0 11,9 15,0 14,1 14,4 6,9
26,6 24,6 22,2 22,8 24,0 30,6 33,0 23,0
20,9 19,5 21,2 20,4 23,3 27,1 21,6 20,4
25,5 19,6 26,2 21,6 14,3 17,9 15,4 12,6
13,2 13,3 12,8 10,4 11,5 10,3 10,6 14,1
13,8 27,5 25,4 26,6 28,5 25,9 25,2 26,3
24,7 24,1 23,3 22,7 19,0 22,8 22,3 23,7
21,0 19,3 21,2 19,7 16,7 19,3 18,9 19,7
22,6 25,2 30,4 22,6 15,3 17,9 21,6 21,0
25,1 21,3 26,2 23,8 24,6 27,3 18,9 18,8
14,6 14,1 21,0 23,7 17,3 24,4 17,3 18,6
19,9 19,5 15,3 20,8 18,9 20,3 18,0 16,9
20,5 19,7 12,8 21,1 21,0 22,7 15 ,0 15,1
13,3 17,7 14,1 6,7 14,5 19,3 15,8 16,7
9,7 14,1 19,5 14,3 17,0 27,5 19 ,0 22,9
18,0 16,7 18,5 12,9 18,2 14,3 18,6 17,2
18,6 16,4 18,8 12,6 13,7 10,7 17,5 16,2
15,1 13,9 11,8 17,8 17,0 15,7 15,3 22,4
14,1 20,4 19,6 20,1 26,6 33,0 20,0 22,2
20,4 25,8 17,7 15,0 19,2 12,7 22,7 19,0
13,5 15,4 14,5 18,5 21,0 32,7 21,8 23,6
16,8
elaboração de uma distribuição de frequência para variáveis contínuas requer a apresentação de

alguns conceitos, dados a seguir:
Conceito 2.4. Amplitude ou amplitude total. Corresponde à diferença entre o maior valor e o
menor valor de um conjunto de dados. Em geral, é simbolizada por “A”.
Conceito 2.5. Amplitude de Classe. Consiste na diferença entre o limite superior e o limite inferior
de uma classe em uma distribuição de frequência. Será aqui simbolizada por “c”.
Também, pode ser bastante útil, como primeiro procedimento a ser tomado para a elaboração de
uma distribuição de frequências de uma variável contínua, proceder a ordenação dos dados, para
permitir melhor manipulação (Tabela 2.8)
.
Tabela 2.8. Dados ordenados relativos à produção diária de leite de 201 vacas da raça holandesa,
de um rebanho pertencente à fazenda Itirapuan, Sul de Minas Gerais, 2005.
6,7 13,6 15,1 17,5 19,0 20,4 22,4 24,7
6,9 13,7 15,3 17,5 19,0 20,4 22,4 24,7
9,7 13,8 15,3 17,6 19,2 20,5 22,4 25,1
10,3 13,8 15,3 17,7 19,2 20,7 22,6 25,2
10,4 13,9 15,3 17,7 19,3 20,7 22,6 25,2
10,6 14,1 15,4 17,8 19,3 20,8 22,7 25,4
10,7 14,1 15,4 17,8 19,3 20,9 22,7 25,5
11,1 14,1 15,7 17,9 19,5 21,0 22,7 25,8
11,5 14,1 15,7 17,9 19,5 21,0 22,8 25,8
11,8 14,1 15,8 18,0 19,5 21,0 22,8 25,9
11,9 14,1 16,2 18,0 19,6 21,0 22,9 26,2
12,0 14,1 16,2 18,2 19,6 21,0 23,0 26,2
12,6 14,3 16,4 18,2 19,7 21,1 23,3 26,3
12,6 14,3 16,7 18,5 19,7 21,2 23,3 26,6
12,7 14,3 16,7 18,5 19,7 21,2 23,6 26,6
12,8 14,4 16,7 18,6 19,7 21,2 23,6 26,6
12,8 14,5 16,8 18,6 19,8 21,3 23,7 27,1
12,9 14,5 16,8 18,6 19,9 21,4 23,7 27,3
13,1 14,6 16,9 18,6 20,0 21,6 23,7 27,5
13,2 14,7 17,0 18,8 20,0 21,6 23,8 27,5
13,2 15,0 17,0 18,8 20,1 21,6 24,0 28,5
13,3 15,0 17,0 18,9 20,1 21,8 24,1 30,4
13,3 15,0 17,2 18,9 20,3 22,2 24,4 30,6
13,4 15,1 17,3 18,9 20,4 22,2 24,6 32,7
13,5 15,1 17,3 19,0 20,4 22,3 24,6 33,0
33,0
Postas estas considerações preliminares, vamos ao algoritmo:

Passo 1. Determina-se o número k de classes, baseado em um dos critérios apresentados abaixo:
i) Critério empírico. Escolhe-se k como um número entre 5 e 20. Se o número n de dados é

pequeno, mais perto de 5; se n é grande, mais perto de 20. Considera-se que menos de 5 classes
haveria pouca informação na distribuição de freqüências, pois condensaria excessivamente a
massa de dados, e que mais de 20 haveria excesso de classes, tornando a distribuição outra vez
pouco informativa. Para estes n = 201 dados, podemos utilizar 11 classes.
ii) Critério de Sturges. Escolhe-se k = 1 + log2 n = 1 + 3,32 log10 n . Para o exemplo da Tabela 2.8:
k = 1 + 3,32. log10 n = 1 + 3,32. log10 201 ≅ 9 classes.
iii) Critério de Scott. Escolhe-se a amplitude de classe c como;
2.3 3 .π 6 .s
1 1
3,49s
c= 1
=
3
n 3 n
Nota. No critério de Scott, s é o desvio-padrão da amostra, o qual será explicado mais adiante.
Para a massa de dados da Tabela 2.8, s = 3,94 kg, portanto, c = 3,73 kg. O número de classes k
será dado por
k = A / c = (33,0 – 6,7)/3,73 = 7,05, isto é, aproximadamente 7 classes.
iv) Critério prático. Escolhe-se o número k de classes segundo a Tabela 2.6 abaixo (esta tabela
constitui-se numa fusão prática dos critérios (ii) e (iii) acima):
Tabela 2.6. Critério para determinação do número k de classes na distribuição de frequência em

função do tamenho n da amostra.
Tamanho da Amostra (n) Número de Classes (k)

Até 100 Arredondamento de n
Mais de 100 Arredondamento de 5 log10 n
Para n = 201 dados, por exemplo, teríamos k = Arredondamento de 5 log10 201 = 12. Este critério
(iv) é especialmente recomendado, pela sua praticidade e bom desempenho.
Passo 2. Calcula-se a amplitude total A dos dados:
A = Max – Min = x(n) – x(1)
onde Max = maior valor observado (também simbolizado por x(n)) e Min = menor valor observado
(também simbolizado por x(1)). Na Estatística é convenção simbolizar dados em ordem crescente
com o índice da variável envolto por um parêntesis.
Passo 3. Se k foi calculado anteriormente (quando se usa ou o critério (i) ou (ii) ou (iv)), então
calcula-se a amplitude de classe c, por meio de:
A
c=
k −1
Note que aqui o denominador do cálculo da amplitude de classe c corresponde a (k-1), em vez de
simplesmente k. Se em vez de k, foi dado o valor de c (quando se usa o critério (iii)), então calcula-
se o valor do número k de classes resolvendo-se a fórmula acima para k e arredondando-se para o
inteiro mais próximo.
a
Passo 4. O limite inferior LI1 da 1 classe é obtido por:
c
LI1 = Min -
2
Observe que a subtração de c/2 do Passo 4, junto com o divisor k -1 do Passo 3, fazem com que
os limites de classe extremos (LI1 e LSk) fiquem menor e maior, respectivamente, do que o mínimo
e o máximo dos dados, ou seja, a distribuição fica mais “espichada”. A razão disto é a de que
existe uma grande chance de não se ter coletado valores extremos e pouco freqüentes, presentes
na população, fazendo com que a amplitude total A provavelmente tenha sido subestimada. Os
passos 3 e 4 buscam corrigir esta subestimação. Quando os valores calculados de LI1 ou LSk forem
incompatíveis com a variável estudada, pode-se ajustar tais valores. Uma ocorrência freqüente é,
por exemplo, o cálculo de LI1 entregar um valor negativo, num cenário em que a variável não pode
assumir valores negativos: neste caso, pode-se levar o valor de LI1 para zero.
a
Passo 5. O limite superior da 1 classe é obtido por:
LS1 = LI1 + c,
a
sendo que LS1 nada mais é que o limite inferior da 2 classe:
LI2 = LS1,
e assim, sucessivamente, as classes vão sendo construídas.
Nota 1. Deve-se observar que, sempre que possível, há conveniência em que se tenham todas as
classes de um histograma (e respectiva distribuição de freqüências) com mesma amplitude, isto é,
sejam todas de mesmo tamanho. Este algoritmo está construído para que tal igualdade de
tamanhos seja obtida.
Nota 2. Há duas alterações que podem ser necessárias neste algoritmo, relativamente as
instruções de seus passos:
(i) A primeira, que já foi pré-anunciada parcialmente no passo 4, é de que quando a variável
estudada tem valores mínimos e máximos naturais, como, por exemplo, notas em
avaliações escolares numa escala de 0 a 100, onde o mínimo naturalmente é zero
(não é possível uma nota negativa nesta escala) e o máximo naturalmente é 100 (não
é possível uma nota maior do que 100 nesta escala), pode se alterar os valores
calculados de k e/ou c para que LI1 seja igual ao mínimo natural e LSk seja igual ao
máximo natural. Tal alteração não é obrigatória, mas costuma fazer gráficos e
distribuições mais interpretáveis.
(ii) A segunda é fundir várias classes numa só, ou alterar suas amplitudes de modo adequado
ao tipo de dados que se tem em mãos. Essa necessidade ocorre quando temos dados
com valores discrepantes (os outliers) ou quando a pesquisa transcorreu com
restrições no modo e/ou instrumento de coleta de dados. Neste caso, será quebrada a
convenção de que as classes tenham o mesmo tamanho, porém, este sacrifício será
necessário em favor da possibilidade tanto de construir o gráfico e distribuição, quanto
de interpretá-los. Um exemplo em que houve restrições está na Tabela A: para se
estudar a distribuição de frequência do consumo semanal Y (kg) de carne de frango,
em Antônio Dias (MG), foram entrevistadas 60 residências nos dias 20 e 21 de Julho
de 2001. Os resultados obtidos podem ser visualizados no quadro da distribuição de
frequência abaixo:
(iii)
Tabela A. Distribuição de frequência do consumo (kg) de carne de frango, em Antônio Dias

(MG), em Julho de 2.001.
Consumo Número de residências
Praticamente zero 5
(0, 1] 7
(1, 2] 22
(2, 3] 11
(3, 4] 6
(4, 5] 6
(5, 6] 3
Total 60
Fonte: levantamento amostral na cidade, nos dias 20 e 21 de Julho de 2.009.
Um exemplo em que foi necessário alterar a amplitude das classes por causa de
valores discrepantes está na Tabela B: na implantação de um Sistema de Gestão
Ambiental (SGA) no modelo ISO 14.001 numa Pequena Central Hidrelétrica (PCH) a
variável X: “Volume de solo nas encostas marginais erodidos pela ocorrência de
processos erosivos” foi avaliada em vários pontos nas encostas do lago. Os dados
obtidos mostraram valores baixos para X, mas alguns poucos pontos tiveram valores
muito altos para X (estes são dados discrepantes). Estes outliers acarretaram a
junção de várias classes, conforme mostra a distribuição de freqüências abaixo.
Tabela B. Volume de solo erodido nas encostas. PCH Jardim do Mato Grosso,
MS, Setembro de 2009.
X: Volume de solo erodido/carreado em m3. Número de ocorrências
(0; 5] 2.419
(5; 10] 759
(10;50] 356
(50; 100] 27
Mais de 100 0
Total 3.561
Fonte: Levantamento amostral in loco na PCH.
Um exemplo que mostra como a alteração da amplitude das classes afeta o histograma é
dado abaixo na Figura A:
dfr(x)
0,0100
0,0075
0,0050
0,0025
x
50 100 150 200 250 300 350 400
Figura A. Histograma das áreas de 1.412 propriedades agropecuárias localizadas na região Sul do estado de
Minas Gerais, 2006.
Fonte: dados simulados.
Passo 6. Construídas as classes, são contados quantos dados estão contidos em cada classe
(frequências absolutas de cada classe).
Passo 7. Opcionalmente, são calculadas as frequências relativas e/ou percentuais de cada classe.
Passo 8. Para a construção de um histograma, que é o gráfico (ou representação gráfica) de uma
distribuição de freqüências de variável numérica contínua, é necessária calcular uma quantidade
denominada densidade de freqüência, definida como:
densidade de frequência = frequência da classe / amplitude da classe,
df = f / c
Observe que cada classe tem a sua própria densidade de freqüência, que é calculada dividindo-se
a freqüência de ocorrência (ou absoluta, ou relativa, ou percentual) daquela classe pela amplitude
de classe daquela particular classe.
Como exemplo de aplicação do algoritmo acima, serão utilizados os dados referentes ao

rebanho de gado leiteiro da Tabela 2.8:
Passo 1: Escolhe-se k = 10 classes neste exemplo, apenas porque este valor é a média de todos
os critérios acima (é claro, você pode escolher k segundo qualquer um dos 4 critérios
individualmente).
Passo 2: A = 33,0 - 6,7 = 26,3 kg.
Passo 3: c = 26,3 / 9 = 2,92 ⇒ c = 2,9 kg.
2,9
Passo 4: LI1 = 6,7 - = 5,25.
2
Passo 5: LS1 = LI2 + c = 5,25 + 2,9 = 8,15;
LS2 = 8,15 + 2,9 = 11,05, e assim por diante, cumprindo os demais passos.
A representação tabular dessa distribuição de frequência está apresentada na Tabela 2.9. Para a
elaboração de gráficos referentes à distribuição de frequência, é necessário o cálculo da densidade
de frequência de cada classe, já dada como:
densidade de frequência = frequência da classe / amplitude da classe
Por essa definição de densidade, pode-se definir três tipos de densidade, sendo elas referentes à
frequência absoluta, relativa ou percentual. A densidade de frequência absoluta, por exemplo, é
simbolizada por dfa, e é dada por:
fa (x )
dfa(x) =
c
E assim, analogamente:
fr (x ) fp (x )
dfr(x) = e dfp(x) =
c c
Tabela 2.9. Distribuição de frequências, relativa à produção diária de leite de 201 vacas da raça
holandesa, de um rebanho pertencente a fazenda Itirapuan, Sul de Minas Gerais, 2005.
1 2 3
Classes fa fr fp
(5,25 ; 8,15] 2 0,0100 1,00
(8,15 ; 11,05] 5 0,0249 2,49
(11,05 ; 13,95] 23 0,1144 11,44
(13,95 ; 16,85] 38 0,1891 18,91
(16,85 ; 19,75] 48 0,2388 23,88
(19,75 ; 22,65] 37 0,1841 18,41
(22,65 ; 25,55] 29 0,1443 14,43
(25,55 ; 28,45] 13 0,0646 6,46
(28,45 ; 31,35] 3 0,0149 1,49
(31,35 ; 34,25] 3 0,0149 1,49
Totais 201 1,0000 100,00
1. frequência absoluta; 2. frequência relativa; 3. frequência porcentual.
Fonte: dados deste livro.
A densidade de frequência permite que se obtenham valores para frequências a partir do cálculo
de áreas nos gráficos. Esse aspecto torna-se importante em casos onde existem classes com
amplitudes desiguais. As densidades de frequência relativa para o exemplo do rebanho de gado
leiteiro estão apresentadas na Tabela 2.10.
Com o conceito de densidade de frequência, pode-se agora apresentar a principal

representação gráfica de distribuição de frequência de variáveis contínuas, o histograma. O
histograma é semelhante ao gráfico de barras verticais, utilizado para variáveis categóricas, com a
diferença de que as barras são dispostas lado a lado, porque suas extremidades são
correspondentes aos limites das classes (Figura 2.9). No eixo vertical, se as classes possuem a
mesma amplitude, podem ser dispostas tanto as frequências como as densidades de frequência.
Quando as classes possuem amplitudes diferentes, estas últimas devem ser utilizadas. De um
modo geral, quando um rigor científico é desejado, deve-se sempre dar preferência às densidades
de frequência, pois, dessa forma, frequências sempre poderão ser calculadas a partir das áreas do
histograma, independentemente da amplitude de classe utilizada.
Por exemplo, suponha que se queira determinar a frequência relativa de animais que
a
produzem entre 19,75 e 22,0 kg de leite. A frequência relativa da 5 classe (produção entre 19,75 e
22,65) é igual a 0,1841 (Tabela 2.11). A frequência relativa entre 19,75 e 22,0 consiste na área de
Tabela 2.10. Distribuição de frequências relativa e densidades de frequência relativa, referentes à

produção diária de leite de 201 vacas da raça holandesa.
Classes (kg de leite) fr dfr

(5,25 ; 8,15] 0,0100 0,0034
(8,15 ; 11,05] 0,0249 0,0086
(11,05 ; 13,95] 0,1144 0,0395
(13,95 ; 16,85] 0,1891 0,0652
(16,85 ; 19,75] 0,2388 0,0823
(19,75 ; 22,65] 0,1841 0,0635
(22,65 ; 25,55] 0,1443 0,0498
(25,55 ; 28,45] 0,0646 0,0223
(28,45 ; 31,35] 0,0149 0,0051
(31,35 ; 34,25] 0,0149 0,0051
Totais 1,0000 
dfr
0,0800
0,0600
0,0400
0,0200
0,0000
5,25 8,15 11,05 13,95 16,85 19,75 22,65 25,55 28,45 31,35 34,25
Produç ão de leite
Figura 2.9. Histograma da distribuição de frequência relativa, referente à produção de leite em

rebanho pertencente a fazenda Itirapuan, Sul de Minas Gerais, 2005.
Fonte: levantamento realizado no escritório da fazenda.
a
uma nova barra, mais estreita que aquela correspondente à 5 classe. Essa nova barra tem altura
a
igual à dfr da 5 classe (=0,0635) e base igual a:
22,0 - 19,75 = 2,25.
Assim, a área dessa nova barra é calculada multiplicando-se sua base por sua altura, ou seja:
2,25 x 0,0635 = 0,1429 e
esse é o valor da frequência relativa entre 19,75 e 22,0. Podemos então dizer que há em torno de
14,29% de vacas que produziam entre 19,75 kg de leite e 22,0 kg de leite, na fazenda Itirapuan, no
ano de 2005. Essa porcentagem seria em torno de 29 vacas (0,1429 x 201).
2.3.2. Medidas de posição.
Na tentativa de se descrever um conjunto de dados por meio de grandezas numéricas,

talvez a noção mais imediata que ocorra seja a de um número que especifique a posição do
conjunto de dados na escala de valores possíveis da variável em questão. Tais grandezas são as
chamadas medidas de posição. As medidas de posição têm por objetivo definir o “centro” de uma
distribuição de frequências, o valor em torno da qual todos os dados “gravitam”, ou ainda, definir
“posições” de valores da variável sob estudo dentro da distribuição de frequências. Medidas de
posição só fazem sentido para variáveis numéricas. Dentre elas, serão abordadas primeiramente a
média, a mediana e a moda, as quais são as três principais medidas de posição. Existem outras,
conhecidas como quantis, que são consideradas medidas de posição por alguns autores, mas que
não têm por objetivo determinar o “centro” das distribuições de freqüências, mas apenas “posições”
dentro da distribuição de frequências. Oportunamente abordaremos os quantis.
Conceito 2.7. Medida de Posição. Grandeza numérica que descreve um conjunto de dados, pela
indicação da posição do conjunto na escala de valores possíveis que a variável em questão pode
assumir.
Média
A média aritmética (ou simplesmente média) amostral, calculada a partir de uma amostra,
e referente à característica (variável) X, é simbolizada por x e é definida como:
∑x i
1 n
x = i =1
n
= ∑ xi
n i =1
Para os dados de produção de leite da Tabela 2.8:

1
x= (5,3 + 6,9 + ... + 33,8) = 19,04 kg leite/dia
201
Recorde que “n” refere-se ao número de elementos da amostra.
Muitas vezes, entretanto, há o interesse de associar a descrição por meio da distribuição

de frequências com a descrição por meio de medidas de posição. Quando se dispõe das
frequências relativas nas classes, a média aritmética pode ser obtida por:
k
x ≅ ∑ fr .x
i =1
i i
onde fri é a frequência relativa da classe i, e xi é o ponto médio da classe i . Para a distribuição de
frequência da Tabela 2.10 temos a seguinte tabelinha auxiliar:
Produção (kg) xi fri dfri

(5,25 ; 8,15] 6,70 0,0100 0,0034
(8,15 ; 11,05] 9,60 0,0249 0,0086
(11,05 ; 13,95] 12,50 0,1144 0,0395
(13,95 ; 16,85] 15,40 0,1891 0,0652
(16,85 ; 19,75] 18,30 0,2388 0,0823
(19,75 ; 22,65] 21,20 0,1841 0,0635
(22,65 ; 25,55] 24,10 0,1443 0,0498
(25,55 ; 28,45] 27,00 0,0646 0,0223
(28,45 ; 31,35] 29,90 0,0149 0,0051
(31,35 ; 34,25] 32,80 0,0149 0,0051
Totais  1,0000 
x = 6,70 x 0,0100 + 9,60 x 0,0249 + ... + 32,80 x 0,0149 = 19,08 kg leite/dia
Outra tabelinha que pormenoriza estes cálculos é apresenta abaixo:
6,70 0,0100 0,0670

9,60 0,0249 0,2390
12,50 0,1144 1,4300
15,40 0,1891 2,9121
18,30 0,2388 4,3700
21,20 0,1841 3,9029
24,10 0,1443 3,4776
27,00 0,0646 1,7442
29,90 0,0149 0,4455
32,80 0,0149 0,4887
19,0772 ≅ 19,08
Convém observar que o valor obtido por essa expressão (19,08) não coincide com o valor da
expressão que define a média (19,04). Esta diferença (19,08 – 19,04 = 0,04 kg leite/dia) é
chamada de erro de agrupamento. Apesar de que este erro é quase sempre pequeno, a expressão
da definição da média deve ser preferida, fazendo-se o cálculo diretamente sobre os dados
originais, apesar de ser mais trabalhoso. Atualmente, com a grande disponibilidade de softwares
específicos para Estatística, e mesmo planilhas de cálculos com poderes estatísticos, esse
trabalho deixou de ser um problema. O uso da expressão aproximada, que calcula a média
utilizando-se das frequências relativas das classes e de seus respectivos pontos médios, só deve
se utilizada quando não se dispõe dos dados originais.
A média possui algumas propriedades notáveis, como:
i) Somando-se a todas as observações uma constante k, a nova média fica acrescida de k.
ii) Multiplicando-se todas as observações por uma constante k, a média fica multiplicada por k.
iii) A soma dos desvios de cada observação em relação à média é igual a zero. O desvio da
observação i é dado por:
di = x i - x
e assim:
∑ [x - x ] = ∑ d
n n
i i =0
i =1 i =1
iv) A média minimiza a soma dos quadrados dos desvios. Ou seja, a quantidade
∑ [x ]
n
2
i -x ,
i =1
seria aumentada (ficaria maior) se colocássemos no lugar de x qualquer outro valor que não seja
x.
Mais duas observações são pertinentes:
i) A média é muito afetada por valores discrepantes, extremos.
ii) Trata-se da medida de posição mais amplamente utilizada.

Mediana
A mediana é o valor que, no conjunto de dados ordenados, é precedido e seguido pelo

~
mesmo número de observações. É simbolizada por x . Por exemplo, considere o seguinte conjunto
de dados, com n = 5, referente a uma certa variável X:
x1 x2 x3 x4 x5
3 5 6 8 48
x = 14,0
Note que o valor da média, 14,0, influenciada pelo valor extremo 48, não corresponde a uma
medida de posição conveniente, uma vez que a maioria das observações possuem valores abaixo
~
de 10. A mediana x desses dados corresponde ao valor 6, pois é a observação, nos dados
ordenados, que possui um igual número de observações abaixo e acima dela, ou seja, 2 dados (3
e 5) são menores do que 6 e 2 dados (8 e 48) são maiores do que 6. Podemos considerar que 6,0
representaria os dados melhor do que 14,0, no sentido de não ser tão sensível a valores
discrepantes.
Quando o número de observações n é par, a mediana é definida como a média aritmética

dos dois valores centrais. Por exemplo, se no mesmo conjunto de dados eliminássemos a última
observação, a nova mediana seria dada por:
5+6
x~ = = 5,5.
2
Podemos então propor as seguintes fórmulas para o cálculo da mediana:
 x n +1  , se n é ímpar
  2 

x~ =  x
n
+ x n 
 +1 
  2  2 
 , se n é par
2
Nota. x(i) é o i-ésimo valor da massa de dados em ordem crescente.
~
Observe que, se n é par, a mediana x é um valor que pode não aparecer na massa de dados.
~
Para a produção de leite apresentada na tabela 2.9, com n = 201 dados, n é ímpar e x = x(101) =
19,0 kg leite/dia pela fórmula acima, um valor que aparece na massa de dados. Para os dados da
duração das lâmpadas (tabela abaixo)
Tabela. Dados ordenados para uma amostra de 50 lâmpadas (tempo de vida em horas).
712,7 714,1 715,1 716,7 718,2 719,8 720,5 721,8 723,0 724,6
712,8 714,3 715,3 717,3 718,5 719,9 720,8 722,2 723,6 725,1
713,8 714,4 715,7 717,5 718,6 720,1 721,0 722,4 723,6 725,2
713,9 714,6 715,7 717,7 718,8 720,4 721,2 722,7 723,7 725,9
714,1 715,0 716,2 717,8 719,0 720,4 721,6 722,8 723,8 728,5
a mediana seria a média de x(25) e de x(26):
x~ =
717,8 + 718,2
= 718,0 horas
2
Este valor (718,0 horas) não aparece na massa de dados.
Em dados agrupados em uma distribuição de frequências, a mediana é obtida pelo valor

que divide o conjunto dos dados em dois grupos com igual frequência (50%). Para tanto, divide-se
o número de observações por dois (independente de ser par ou ímpar), e a seguir faz-se uma
interpolação na classe que contiver o resultado dessa divisão. No exemplo da produção de leite,
tem-se 201 observações organizadas numa distribuição de frequências (Tabela 2.9), obtendo-se
assim 201/2 = 100,5. Observando a distribuição de frequência absoluta nessa mesma Tabela 2.9,
verifica-se que esse valor (mesmo que não exista a posição 100,5) se encontra entre 16,85 e
19,75, ou seja, está contido na classe (16,85 , 19,75]. A interpolação é feita da seguinte maneira:
sabe-se que a amplitude de classe c corresponde a 2,9 , e que essa classe contém 48
a
observações (Tabela 2.9), a partir da 68 observação. A diferença entre 100,5 e 68 é igual a 32,5 ,
e assim:
48  2,9
32,5  x x = 1,96
Somando-se x ao limite inferior dessa classe, obtém-se a mediana, qual seja,
x~ = LIMd + x = 16,85 + 1,96 = 18,81;
onde LiMd é o limite inferior da classe que contem a mediana, isto é, a classe que acumula o dado
da posição n/2 em ordem cescente.
Esse raciocínio pode ser posto na forma de uma fórmula, a saber:
n
~ − FMd −
x = LI Md +2 c Md ,
f Md
onde:
FMd− é a frequência absoluta acumulada até a classe imediatamente anterior à classe mediana;
fMd é a frequência absoluta da classe mediana;
cMd é a amplitude da classe mediana.
Se utilizamos frequência relativa nos cálculos, então a fórmula é dada por:
~ 0,5 − FrMd −
x = LI Md + c Md ;
frMd
onde:
FrMd− é a frequência relativa acumulada até a classe imediatamente anterior à classe mediana;
frMd é a frequência relativa da classe mediana;
cMd é a amplitude da classe mediana.
Nota. Observe que essas fórmulas são aplicáveis apenas para variáveis contínuas, isto é, a
princípio, essas fórmulas são aplicáveis somente em variáveis numéricas oriundas de medições.
Lembre-se que não utilizamos, a principio, histogramas para representar variáveis discretas, e,
portanto, tais fórmulas (que precisam de quantidades tais como amplitude de classe e limite de
classe) não podem ser aplicadas no cálculos de mediana de variáveis discretas organizadas em
tabela de distribuição de freqüência.
A mediana é uma medida de posição apropriada para distribuições assimétricas. Nas

distribuições simétricas, mediana e média são iguais. Ela possui ainda as seguintes propriedades:
i) Somando-se a todas as observações uma constante k, a nova mediana fica acrescida de k.
ii) Multiplicando-se todas as observações por uma constante k, a mediana fica multiplicada por k.
iii) A mediana é o valor que minimiza a soma dos valores absolutos (módulos) dos desvios, isto é:
∑x
~
i - a é mínima se a = x
i =1
Moda
A moda também foi idealizada visando descrever melhor aqueles conjuntos de dados com
distribuição assimétrica. Ela busca apresentar como medida de posição dos dados o valor típico de
ocorrência, isto é, por definição a moda é o valor mais frequente na massa de dados. Seu símbolo
é x * e não temos uma “fórmula matemática” para defini-la. Sua definição é simplesmente :
x * : valor da variável que tem a maior frequência de ocorrência.
Assim como foi para média e mediana, apresentaremos seu cálculo para dados não-agrupados e
para dados agrupados.
Começando pelos dados não agrupados, a moda, sendo definida como sendo o valor mais
frequente, é calculada apenas buscando o valor que mais se repete na massa de dados. Por
exemplo, no conjunto de dados.
x1 x2 x3 x4 x5
1 2 2 3 4
a moda x * corresponde ao valor 2, que é o mais frequente, isto é, a moda é “calculada” como
sendo 2, pois o valor “2” para X ocorre com frequência absoluta 2, maior do que todos os outros
valores. Logo:
x * = 2.
Para os dados da produção leiteira do rebanho de n = 201 vacas:

x * = 14,1 kg leite/dia,
Observe que o valor 14,1 ocorreu 7 vezes, isto é, frequência absoluta de ocorrência igual 7, maior
que a frequência de ocorrência de todos os demais valores. Porém, é imediata a observação da
inconveniência de seu uso dessa maneira para o caso de variáveis contínuas, onde, na maioria
das vezes, é praticamente nula a chance de se encontrar valores exatamente iguais que se
repitam várias vezes. Esta característica de probabilidades infinitesimais para variáveis contínuas
leva alguns autores a declarar que “massa de dados brutos de variáveis contínuas não tem moda”,
porém, a rigor, mesmo tais massas de dados podem ter moda, e sua definição é como estamos
dando aqui.
Para contornar este imbróglio, convém-nos então, para variáveis contínuas, estimar a
moda como o valor que possui a maior densidade de frequência na distribuição de frequências,
obtida a partir do agrupamento dos dados. Para tanto, procede-se a construção de uma tabela de
distribuição de freqüência para os dados, buscando-se, então, em tal distribuição, o valor de maior
densidade de freqüência. Mais de um método poderia ser utilizado para este cálculo. Aqui
apresentarmos dois métodos:
(i) Método do ponto médio da classe de maior densidade de frequencia.

Neste método, considera-se a moda como sendo o ponto médio da classe de maior densidade
de freqüência, isto é, o ponto médio do retângulo de maior altura do histograma.
(ii) Método de Czuber.
Este método deriva-se de um raciocínio geométrico, que baseia-se no fato de que as classes
imediatamente anterior e posterior influenciam o comportamento modal. A moda é obtida pela
identificação da classe com maior densidade de frequência (absoluta, relativa ou porcentual), e

utilizando a fórmula:
∆1
x * = LI Mo + c Mo
∆1 + ∆ 2
onde LI Mo : limite inferior da classe de maior densidade de frequência;
∆1 : diferença entre a densidade de frequência da classe que contém a moda e a

densidade da classe anterior;
∆2 : diferença entre a densidade de frequência da classe que contém a moda e a

densidade da classe posterior;
c Mo : amplitude da classe de maior densidade de frequência.
A moda possui as seguintes propriedades:
i) Somando-se a todas as observações uma constante k, a nova moda fica acrescida de k.
ii) Multiplicando-se todas as observações por uma constante k, a moda fica multiplicada por k.
Considerando um conjunto de dados com distribuição assimétrica à direita, as medidas de

posição apresentam a tendência relativa mostrada na Figura 2.10. Em uma distribuição assimétrica
à esquerda, a ordem seria invertida. Nas distribuições simétricas, a moda é igual a mediana que
também é igual a média. A medida mais usada, e mais importante e informativa, é a média.
Mediana e moda só devem ser usadas quando a média falha em informar a tendência central dos
dados.
Figura 2.10. Posicionamento da média, mediana e moda em uma distribuição assimétrica à direita.
Mo é abreviatura de “moda”, Md de “mediana”, e Me de “média”.
2.3.3. Medidas de variabilidade.
Na descrição de uma massa de dados, apenas a utilização de medidas de posição é

insuficiente para explicitar o comportamento dos dados, pois tais medidas nada indicam a respeito
de sua variabilidade. Para ver isto, considere, por exemplo, os três conjuntos de dados na Tabela
2.11. Observa-se que as três regiões, apesar de apresentarem as mesmas medidas de posição,
são visivelmente diferentes, uma vez que a uniformidade dos dados decresce da região A para a
região C. Por isso, se faz necessária a elaboração de uma grandeza que quantifique a distribuição
dos dados (também chamada de dispersão ou variabilidade), as chamadas medidas de dispersão
ou de variabilidade. Estas medidas, do modo como apresentado aqui, só fazem sentido para
variáveis numéricas. Essas medidas constituem, junto com as medidas de posição, as medidas
estatísticas mais importantes. As principais são: variância, desvio-padrão, e coeficiente de
variação. Estudaremos essas principais mais a amplitude total.
Conceito 2.8. Medida de Dispersão. Grandeza numérica que descreve um conjunto de dados,
pela quantificação da variabilidade ou heterogeneidade neles presente.
Tabela 2.11. Estrutura fundiária como área (variável X) em 3 regiões agrícolas (medidas em ha).
i Região A Região B Região C

1 100 80 10
2 100 90 50
3 100 100 100
4 100 100 100
5 100 100 100
6 100 110 150
7 100 120 190
x 100 100 100
x~ 100 100 100
x* 100 100 100
Amplitude ou Amplitude total (A)
Anteriormente empregada na elaboração de distribuições de frequências, a amplitude total

corresponde à diferença do maior valor (máximo) para o menor valor (mínimo) do conjunto. Assim,
temos:
Região A: A = 0
Região B: A = 40
Região C: A = 180
fornecendo-nos diferentes graus de variabilidade, como esperado.
A amplitude possui alguns inconvenientes. Trata-se de uma medida muito influenciada por
valores extremos, uma vez que é calculada somente a partir deles. Assim, sua interpretação
independe até certo ponto do número de observações do conjunto. Para ilustrar esse aspecto, no
exemplo do rebanho de gado holandês da fazenda Itirapuan, foram tomados subconjuntos de
diferentes números de animais, do total de 201 observações, sempre a partir dos primeiros dados
da Tabela 2.7 que estão fora de ordem, e, portanto, guardando uma certa “casualidade”. Foram
obtidos os seguintes valores para a amplitude:
Número de animais Min Max A

16 13,2 26,6 13,4
32 9,7 26,6 16,9
64 9,7 30,4 20,7
128 5,3 30,4 25,1
O primeiro conjunto de animais, possuindo um número relativamente satisfatório de

observações, deveria representar razoavelmente bem a dispersão total de todo o rebanho. No
entanto, observa-se que à medida que o número de observações aumenta, a chance do
aparecimento de valores extremos, acima ou abaixo da média, também aumenta, fazendo com que
os respectivos valores de amplitude aumentem, chegando quase a dobrar. Portanto, torna-se
evidente a necessidade de uma medida de dispersão que baseie-se em todas as observações, de
maneira a tornar-se menos sensível ao aparecimento de valores discrepantes. Isso pode ser
igualmente visto no exemplo:
Conjunto A 5 15 15 15 40
Conjunto B 5 10 20 30 40
Tais conjuntos possuem a mesma amplitude, 35, mas apresentam claramente diferentes
magnitudes de variabilidade, sendo esta magnitude inferior no conjunto A, pois este terá maior
uniformidade. Para resolver esse problema, foram concebidas duas medidas a partir de todas as
observações: a variância e o desvio padrão. São estas que estudaremos a seguir.
Variância e Desvio-padrão
Trata-se de medidas de dispersão baseadas nos desvios dos dados em relação à média:
di = x i - x
Como quantificar a variabilidade de um conjunto de dados a partir dos desvios em relação à

média? Já que se sabe que o valor médio dos desvios em relação a média é zero, poder-se-ia
pensar então em se tomar a média dos módulos dos desvios:
n n
∑ di
i =1
∑x i −x
= i =1
n n
Apesar desta medida ser uma possível medida de variabilidade, ela não tem boas propriedades
nem estatísticas e nem matemáticas. Por causa disso, razões estatísticas levam à considerar o
quadrado das diferenças (e não o módulo), e a divisão da soma dos quadrados dos desvios por n-
1 e não por n, definindo então a medida de variabilidade denominada variância:
∑ (x
i =1
i − x)
2
(x1 − x )2 + (x 2 − x )2 + ...(x n − x )2
=
2
s =
n −1 n −1
O desvio padrão é definido como a raiz quadrada da variância:

n
∑ (x
i =1
i − x)
2
s= s2 =
n −1
O denominador (n - 1) é chamado de graus de liberdade. Para a amostra da Tabela 2.9, s=3,94 kg,
e s2 = 15,5442 kg2. Apesar do divisor n-1, a variância também pode ser denominada de “quadrado
médio”, visto ser uma espécie de média dos desvios ao quadrado. Algumas vezes autores de
textos sobre Estatística usam outra fórmula para a variância amostral, a saber,
∑ (x − x)
2
i
2 i =1
s =
n
e, consequentemente, também outra para desvio-padrão amostral,

∑ (x − x)
2
i
s= s2 = i =1
porém, devemos salientar que estas fórmulas levam a uma subestimação (isto é, apresenta um
viés) do valor real da variabilidade da variável em estudo, devendo serem, portanto, evitadas. As
fórmulas com divisor n-1 devem ser a utilizadas, pois permitem uma estimação exata (isto é, não
viesada) da variabilidade da variável de interesse.
Voltando ao exemplo dado para mostrar a insuficiência da amplitude, vamos calcular a

variância e o desvio-padrão dos conjuntos A e B:
Conjunto A 5 15 15 15 40
Conjunto B 5 10 20 30 40
onde sA = 13,04 e sB = 14,32
No conjunto de dados B do exemplo acima, tem-se:
2
Observação xi di di
1 5 -16 256
2 10 -11 121
3 20 -1 1
4 30 9 81
5 40 19 361
Total 105 => 0 820
=> x =21,00
E assim:
x = 105 / 5 = 21,00
s² = 820 / 4 = 205,0000
s = 14,32
O conjunto A do exemplo possui uma variância igual a 170,0000, refletindo assim a menor
variabilidade nele existente, em relação ao conjunto B, que tem variância 205,0000.
O desvio padrão, ao tomar a raiz quadrada da variância, tem a vantagem de retornar à

escala original (por exemplo, passando de kg2 para kg), melhorando a compreensão do quanto os
dados se desviam em relação à média.
Para os dados da produção leiteira da Tabela 2.8:
s² =
1
200
[
(5,3 − 19,04 )2 + (6,9 − 19,04 )2 + ... + (33,8 − 19,04 )2 = 24,0007 ]
s = 24,0007 kg de leite/dia = 4,90 kg de leite/dia
Nós podemos nos aproveitar do fato de que a soma de quadrados de desvios pode ser
expressada em uma forma simplificada, para criarmos uma fórmula alternativa para a variância (e
desvio-padrão), que é mais fácil para o cálculo, mesmo que pareça mais “complicada” para
escrever, qual seja:
2
 n 
n
 ∑ xi 
xi −  i =1 
n
∑ (x − x) ∑
2 2
i
n
i =1
= i =1
n −1 n −1
Demonstração:
∑ [x ]=
n n
∑ [x − x] = − 2 x i x + [x ]
2 2 2
i i
i =1 i =1
n n n n ∑x i n
∑x − 2 x ∑ x i + ∑ [x ] = ∑x −2 i =1
∑x + n[x ] =
2 2 2 2
= i i i
i =1 i =1 i =1 i =1 n i =1
2 2 2 2
 n   n   n   n 
n


∑ x i 

 ∑ xi  

∑ x i 

 ∑ xi 
+  i =1 
n
= ∑ xi − 2 + n i =1  =
∑
i =1 i =1
2
xi − 2
2
=
i =1 n  n  i =1 n n
 
 
2
 n 
 ∑ xi 
 i =1 
n
= ∑ xi −
2
i =1 n
Para dados agrupados, a variância também pode ser calculada da seguinte forma
facilitada:
[ ]
k
s 2 ≅ ∑ x j - x .fr j
2
j=1
onde x j é o ponto médio da classe j. Essa expressão não fornece, na maioria das vezes, o
mesmo valor da expressão dada anteriormente, em razão do chamado erro de agrupamento,

2
sendo, portanto, uma fórmula aproximada para o verdadeiro valor de s .
Demonstração:
∑ fa (x − x)
n k
∑ ( x i − x )2
2
j
= ∑ (x j − x ) ≅ ∑ (x j − x ) . fr j
j =1
j k fa j k
s2 = i =1
≅
2 2
n −1 n −1 j =1 n −1 j =1
Nota. A aproximação final é tanto mais exata quanto maior for o valor de n, isto é:
fa j fa j
lim = lim = lim fr j = fr j
n →∞ n −1 n →∞ n n →∞
A variância e o desvio padrão possuem as seguintes propriedades:
i) Somando-se uma constante k a todas observações, nem a variância nem o desvio padrão se
alteram.
2
ii) Multiplicando-se uma constante k a todas as observações, a variância fica multiplicada por k e o
desvio padrão por k.
iii) O desvio padrão, em relação à média, ao invés de em relação a outro valor qualquer, é mínimo,
em razão do fato de a média ser o valor que torna mínima a soma de quadrados dos desvios.
Coeficiente de variação (cv)
Quando se deseja a comparação entre diferentes conjuntos de dados, mesmo a variância

e o desvio padrão podem não quantificar adequadamente, em certas situações, a variabilidade
presente em um conjunto de dados. Para ver isto, considere, a título de ilustração, os pesos dos
animais de dois rebanhos diferentes, dados a seguir:
i Rebanho A Rebanho B
1 50 470
2 70 490
3 60 460
4 80 480
x 65 475
s 11,18 11,18
Obviamente, trata-se de rebanhos com animais em idades diferentes. Apesar de possuírem o

mesmo desvio padrão, é evidente que diferenças da ordem de 10 kg, por exemplo, possuem um
peso relativo muito maior no rebanho A do que no rebanho B. Assim, é razoável afirmar que a
variabilidade no rebanho A é bem superior; tornando-se necessária a elaboração de uma medida
apropriada nessas situações onde se deseja comparar conjuntos de dados com médias bem
discrepantes. Uma medida que reúne essas características é o chamado coeficiente de variação,
definido por:
s
cv = 100%
x
Para os dados da produção diária de leite da Tabela 2.9:
4,89
cv = 100% = 25,7%
19,04
Essa medida nos dá a magnitude da variabilidade, em relação à magnitude da média. No exemplo

acima, tem-se:
Rebanho A: cv = 17,2%
Rebanho B: cv = 2,4%
evidenciando que o rebanho A tem uma variabilidade maior que o rebanho B.
A necessidade da elaboração de uma medida apropriada nas situações onde se deseja

comparar conjuntos de dados com médias bem discrepantes não é a única demanda que justifica o
cv: também é verificada sua necessidade se o desejo é comparar variáveis medidas em unidades
diferentes. Observa-se que o coeficiente de variação é uma medida relativa, porcentual, sendo,
assim, adimensional, fazendo com que o cv seja útil não apenas na comparação entre conjuntos
de dados de mesma unidade, mas ainda útil na comparação da variabilidade entre conjuntos de
dados referentes a diferentes características, que são medidas em unidades diferentes.
1) Em um estudo da atividade predominante nas 20 propriedades de um município observaram-se

os seguintes resultados:
Café Feijão Café Soja Soja

Café Milho Feijão Milho Soja
Milho Milho Soja Soja Leite
Leite Leite Milho Café Leite
a) Classifique a variável.
Variável qualitativa nominal, pois ela separa as diferentes culturas em categorias pelos respectivos
nomes.
b) Faça a representação tabular por meio das frequências absoluta (fi), relativa (fri) e percentual
(fpi).
ATIVIDADES fa fr fp
MILHO 5 0,25 25
SOJA 5 0,25 25
CAFÉ 4 0,20 20
LEITE 4 0,20 20
FEIJÃO 2 0,10 10
TOTAL 20 1,00 100
c) Faça a representação gráfica por meio do gráfico de colunas.

2) Os dados abaixo referem-se às áreas (em ha) de 25 propriedades rurais que receberam
financiamento para pecuária de leite. Lavras, MG, de 1977 a 1982:
42 40 45 46 48
51 50 53 58 62
73 66 73 82 89
106 100 130 150 175
231 181 252 267 268
a) Reúna os dados em uma tabela de distribuição de frequências (use k = n)

1°- Calcula-se o número de classes (k) que comporão a distribuição:
k = n = 25 = 5 classes , sendo n é o número de propriedades que receberão

financiamento;
2°- Calcula-se a amplitude de classe (c):
A 268 − 40
c= = = 57 ha , onde A é a amplitude total, ou seja, o maior valor
k −1 5 −1
observado menos o menor;
3°- Calcula-se o limite inferior (LI) da primeira classe que irá compor a distribuição:
c 57
LI = Min − = 40 − = 11,5 ha , onde Min é o menor valor observado.
2 2
4°- A tabela de distribuição de frequência:
Classes xi fa i fri fp i %
(11,5;68,5] 40 11 0,44 44
(68,5;125,5] 97 6 0,24 24
(125,5;182,5] 154 4 0,16 16
(182,5;239,5] 211 1 0,04 4
(239,5;296,5] 268 3 0,12 12
Total - 25 1,00 100
b) Quantas propriedades na amostra têm área superior a 125,5 ha?

Nesta amostra, 8 propriedades possuem área superior a 125,5 ha.
c) Pode-se esperar encontrar propriedades com área entre 70,0 e 100,0 ha? Se sim, qual a sua
porcentagem de ocorrência?
Sim, é possível encontrar propriedades com área entre 70,0 e 100,0 ha e para encontrar a
porcentagem de ocorrência, pode-se utilizar uma regra de três simples:
125,5 – 68,5 = 57,0 ha --------------------------------- 6 propriedades
110,0 – 70,0 = 40,0 ha --------------------------------- x
x = 4,2 propriedades => 4,2 / 25 = 16,8%
Assim, podemos inferir que 16,8% destas propriedades possuem área entre 70,0 e 110,0 ha.
3)Os pesos em Kg, de 6 suínos submetidos a uma ração de engorda foram:

184 193 204
204 196 207
a) Qual foi o desvio do 2° animal em relação à média? Explique o que ele significa.
x
∑x
i=1
i
184 + 193 + ... + 207
Calculando a média: x= = = 198 Kg
n 6
O desvio do 2° animal em relação à média: di = xi − x = 193 − 198 = −5 Kg
A média é uma medida de tendência central, ou seja, em torno dela se congregam valores abaixo
e acima da mesma. Assim, esse desvio negativo do 2° animal com relação à média se deve ao fato
de que ele esta 5 kg abaixo dela.
b) Mostre que a soma dos desvios com relação à média é nula.
n
∑ (x i − x ) = (184 − 198) + (193 − 198) + ... + (207 − 198) = 0
i=1
c) Transforme os dados em arrobas. Qual é a constante de transformação? Encontre a média em

arrobas partindo daquela obtida no item a.
Como 1 arroba = 15 Kg, para transformar Kg em arrobas utilizamos:
xi
Peso @ =
15
Assim:
6
∑x
i=1
i
12,27 + 12,87 + 13,60 + 13,60 + 13,07 + 13,80
x= = = 13,20 arrobas
n 6
d) Adicione 20 Kg a cada dado e encontre a média. Confronte o resultado com o obtido no item a.
Qual a propriedade esta envolvida?
Adicionando 20 Kg a cada dado, temos:
204 213 224
224 216 227
Calculando a nova média:
∑x
i=1
i
204 + 213 + ... + 227
x= = = 218 kg
n 6
Confrontando a média obtida no item a com a obtida no item d:
x a = 198 kg x d = 218 kg
podemos perceber que a média se alterou na mesma proporção que cada observação foi
aumentada. A propriedade envolvida é a propriedade da soma, que diz que se somarmos a cada
observação uma constante “k” a média fica acrescida desta mesma constante “k”.
e) Calcule a Soma de Quadrados dos Desvios “SQD” em relação à média e em relação à
constante k = 196. Discuta os resultados.
Vejamos a SQD em relação à média:
6
SQD = ∑ (x
i=1
i − x ) 2 = (184 − 198) 2 + (193 − 198) 2 + ... + (207 − 198) 2 = 378
E a SQD em relação à constante k = 196:

6
SQD = ∑ (x
i=1
i − k) = (184 − 196) 2 + (193 − 196) 2 + ... + (207 − 196) 2 = 402
Comparando os dois resultados podemos perceber que a SQD em relação à média é menor que a
SQD da constante k = 196. Confirma-se assim que a SQD em relação á média é o valor que torna
mínimo o valor dos desvios.
4) Para comparar 4 variedades de alfafa (A, B, C, D) foi conduzido um experimento em blocos
completos casualizados com seis repetições, usando parcelas de 32 m 2 (4m x 8m). Os

-1
rendimentos em massa verde em Kg.parcela foram os seguintes:
Blocos
Tratamento 1 2 3 4 5 6
A
56,8 57,2 57,5 55,4 56,0 57,9
B
53,5 54,3 53,8 54,7 53,3 52,6
C
54,0 53,5 52,8 54,2 53,6 54,1
D
54,5 54,5 54,5 54,5 54,5 54,5
a) Qual é a amplitude total do tratamento A? Que inconveniente tem esta medida para expressar
a variabilidade de uma amostra?
Amplitude Total(AT):
AT = Mvo – mvo sendo: Mvo = Maior valor observado e mvo = menor valor observado
Assim:
AT = 57,9 – 55,4 = 2,5 Kg

O inconveniente de se usar a amplitude total para expressar a variabilidade de uma amostra é de
que utilizam-se apenas dois dados para fornecer esta estimativa.
b) Qual é a variância do tratamento D?
6
SQD
∑ (x i − x ) 2 (54,5 − 54,5) 2 + (54,5 − 54,5) 2 + ...(54,5 − 54,5) 2
i=1
s2 = = = = 0 Kg 2
n −1 n −1 6 −1
c) Qual tratamento é mais variável: o B ou o C? Que medida estatística você usou para comparar
a variabilidade? Justifique.
Calculemos primeiro o desvio padrão para o tratamento B:
6
∑ (xi=1
i − x)2
(53,5 − 53,7) 2 + (54,3 − 53,7) 2 + ... + (52,6 − 53,7) 2
s B2 = = = 0,56 Kg 2
n −1 6 −1
sB = s B2 = 0,55 = 0,74 Kg
Agora para o tratamento C:

6
∑ (x i − x) 2 (54,0 − 53,7) 2 + (53,5 − 53,7) 2 + ... + (54,1 − 53,7) 2
i=1
s C2 = = = 0,27 Kg 2
n −1 6 −1
sC = s C2 = 0,27 = 0,52 Kg
Como o desvio padrão do tratamento B é maior do que o do tratamento C, podemos afirmar que o
B apresenta maior variabilidade entre seus dados. Neste foi possível utilizarmo-nos principalmente
do desvio padrão para comparar a variabilidade entre os tratamentos, pelo fato de os dois
tratamentos possuírem a mesma unidade de grandeza e a mesma média.
d) Calcule o desvio padrão do tratamento A . Interprete.
6
∑ (xi=1
i − x)2
(56,8 − 56,8) 2 + (57,2 − 56,8) 2 + ... + (57,9 − 56,8) 2
s 2A = = = 0,89 Kg 2
n −1 6 −1
sA = s 2A = 0,88 = 0,94446 Kg
A variabilidade do tratamento A medido pelo desvio padrão é maior do que a variabilidade dos
tratamentos B e C.
e) Multiplique os dados do tratamento A por 1000 e calcule o desvio padrão.
Multiplicando os dados do tratamento A por 1000 temos:
56800 57200 57500 55400 56000 57900
Calculando a nova média:
6
∑ xi 56800 + 57200 + ... + 57900
i =1
x= = = 56800 Kg
n 6
Calculando o novo desvio padrão:
6
∑ (x i − x ) 2 (56800 − 56800) 2 + (57200 − 56800) 2 + ... + (57900 − 56800) 2
i=1
s 2A = = = 892000 Kg 2
n −1 6 −1
sA = s 2A = 892000 = 944,46 Kg
f) Confronte o resultado do item d com o item e. Discuta.

Resultado item d: Resultado item e:
s A = 0,94446 Kg s A = 944,46 Kg
Essa diferença justifica-se por uma das propriedades do desvio padrão: Multiplicando-se ou
dividindo-se cada observação por uma mesma constante k ≠ 0, o desvio padrão fica multiplicado
ou dividido por esta mesma constante.
5) Temos, abaixo, informações climáticas mensais de uma determinada região:
Média Desvio padrão

Temperatura (ºC) 18 2,0
Precipitação (mm) 100 15,5
a) Qual das medidas (temperatura ou precipitação) possui maior variabilidade? Justifique.

Como as medidas estão em grandezas diferentes, para podermos comparar suas variabilidades
utilizaremos o coeficiente de variação (CV).
s 2
1º para a temperatura: CV = 100 = 100 = 11,11%
x 18
s 15,5
2º para a precipitação: CV = 100 = 100 = 15,5 %
x 100
Quanto menor o CV, mais preciso é o experimento. A medida tem grande aplicação na
experimentação para avaliar a precisão dos ensaios. Nesse caso, a precipitação possui maior
variabilidade.
C F − 32
b) Se a temperatura fosse avaliada em ºF ( = ), como ficaria a conclusão do item a?
5 9
Justifique.
s 3,6
Para a temperatura em ºF: CV = 100 = 100 = 5,59 %
x 64,4
Assim, a conclusão do item 3.1. seria que a temperatura apresentaria menor variabilidade.
1) Um pesquisador necessita obter informações a respeito de uma determinada cultura no sul de

Minas Gerais. Para tanto, visita 50 propriedades e faz uma avaliação referente ao tamanho da área
plantada com a cultura (ha), a produção obtida (Kg), e as principais pragas e doenças.
Pergunta-se:
a) Qual é a população em estudo?
b) Utilizou-se de uma amostra para realizar o estudo? Por quê?
c) Quais foram as variáveis estudadas em cada caso?
d) Classifique as variáveis quanto a sua natureza.
2) Os ganhos de peso, em kg, de 80 novilhos nelore mantidos numa pastagem em determinado

período foram os seguintes:
36 45 60 39 57 32 39 40 63 37
42 42 44 30 47 39 15 39 25 39
57 48 44 37 44 38 21 56 52 50
41 37 39 28 43 39 29 45 48 46
31 34 36 38 43 24 38 41 46 42
33 30 36 23 39 35 33 35 47 39
28 31 32 49 39 19 49 39 42 43
20 58 34 56 35 50 27 36 40 37
a) Construa uma distribuição de frequência com as frequências absoluta, relativa e percentual;
b) Construa o histograma;
c) Calcule a média, mediana, moda, variância, desvio-padrão, e cv.
3) São contadas o número de lagartas tipo “rosca”(Agrotis ipisilon) em 25 canteiros de mudas de

eucalipto da Fazenda Experimental da UFLA. Encontrou-se o seguinte resultado:
1 1 3 3 1
4 2 0 4 4
1 1 3 2 3
4 0 2 0 3
1 1 2 1 2
a) Classifique a variável em questão;
b) Construa uma distribuição de frequência com as frequências absoluta, relativa e percentual;
c) Calcule a média, mediana, moda, variância, desvio-padrão, e cv.
4) Resuma os pesos de 50 espigas de milho (expressos em gramas) amostradas de um paiol

na tabela de distribuição de frequência abaixo:
Dados brutos, ordenados:
184 184 185 186 187
188 189 190 190 191
192 193 193 193 194
194 195 195 195 195
195 195 195 195 195
196 197 197 198 198
199 199 200 200 200
201 201 203 203 204
204 205 205 206 206
207 207 208 210 211
Tabela de Distribuição de Frequência
Classe (gramas) Ponto Médio Frequência

(182,5 ; 185,5]
(185,5 ; 188,5]
(188,5 ; 191,5]
(191,5 ; 194,5]
(194,5 ; 197,5]
(197,5 ; 200,5]
(200,5 ; 203,5]
(203,5 ; 206,5]
(206,5 ; 209,5]
(209,5 ; 212,5]
a) Calcule a média, a mediana e a moda para os dados brutos.
b) Repita os cálculos a partir da tabela de distribuição de frequência e compare os resultados com
os item (a). Discuta as diferenças, caso ocorram.
c) A partir das relações entre média, mediana e moda, como se classifica a distribuição quanto à
simetria?
5) Um pesquisador da área de Ciência de Alimentos examinou juntamente com sua equipe um lote
de 150 caixas de bananas-maçã escolhidas aleatoriamente de um carregamento de 10.000 caixas,
anotando o número de pencas com “empedramento”. Foram obtidos os seguintes resultados:
N° Pencas Emp.( XI ) 0 1 2 3 4 5 6 7ou +
N° Caixas ( f i ) 38 37 25 20 16 10 4 0
a) Qual é o número médio de pencas empedradas por caixa?

b) Qual é o número mediano de pencas empedradas por caixa?
c) Qual é o número modal de pencas empedradas por caixa?
d) Qual é o desvio-padrão do número de pencas empedradas por caixa?
e) Qual deverá ser a estimativa do número total de pencas empedradas no carregamento?
6) No Posto Agrometeorológico da seção de Climatologia Agrícola da EMBRAPA em Itaguaí, RJ,

foram registrados a evaporação e a insolação, durante o período de 1961 à 1996. As médias
mensais encontradas durante o período foram as seguintes:
Evaporação (mm)
97,9 94,1 77,4 71,3 73,4 75,5
86,2 105,9 99,2 93,6 79,6 87,3
Insolação (horas)
199,1 184,3 190,6 190,9 201,6 200,6
211,1 208,1 141,1 141,1 151,1 164,4
Qual atributo meteorológico é mais variável? Indique e justifique a medida estatística utilizada na
comparação.
UNIDADE 3
CÁLCULO DE PROBABILIDADES
3.1. O CONCEITO DE PROBABILIDADE
À princípio, poderíamos definir probabilidade como o limite de uma freqüência relativa:
P[A] = lim
fa (A)
,
N →∞ N
onde P[A] é a probabilidade de ocorrência do evento A. Essa definição, porém, padece de

dificuldades matemáticas, pois não se adequa à definição matemática de limite, baseada em
epsilons e deltas. Por causa disso, buscaremos uma definição de probabilidade alternativa que
seja, simplesmente, de que “probabilidade é a frequência relativa em infinitas repetições”.
Consideremos esta definição como sendo uma definição estatística, para diferenciar da definição
matemática, que usa uma teorização mais avançada que não será objeto deste curso.
Em outras palavras, podemos dizer que, estatisticamente, as frequências relativas em

populações infinitas são chamadas de probabilidades. Num exemplo ilustrativo, que considera a
segregação genética de gênero em seres humanos, se o interesse é descrever (prever) a taxa de
nascimento de homens ou mulheres, um modelo não-determinístico que explica o fato de um ser
humano nascer macho ou fêmea é aquele que estabelece que tanto um sexo quanto o outro
possuem chances iguais de acontecer. Ele procura explicar a frequência relativa de nascimentos
de infinitos seres humanos que existiram ou virão a existir, e daí se falar em probabilidade de
nascimento de machos ou fêmeas, que segundo esse modelo é igual a 1/2, 0,5, ou 50%.
Conceito 3.1. Probabilidade. Frequência relativa associada a uma variável descritora em infinitas
repetições.
Portanto, pode-se denominar a distribuição de frequências relativas de uma população

infinita (o conjunto das infinitas repetições) como uma distribuição de probabilidade.
Conceito 3.2. Distribuição de Probabilidade. Distribuição de frequências relativas de uma

população infinita.
As variáveis descritoras de uma população infinita podem ser, qualitativas ou quantitativas.

Quando tais variáveis operam descrevendo valores de probabilidade, elas são chamadas de
variáveis aleatórias.
Conceito 3.3. Variável Aleatória. Variável a cujos valores são associadas probabilidades de
ocorrência.
Por convenção, as variáveis aleatórias são sempre quantitativas, mesmo se referindo a

qualidades. No exemplo do nascimento em mamíferos, às categorias ‘fêmea’ e ‘macho’ podem ser
associados os valores 0 e 1, respectivamente. Pode-se entender que X = 0 seja “zero macho”, e X
= 1 seja “um macho”, tornando a variável aleatória X realmente uma quantidade, e não apenas um
rótulo. Sendo assim, as variáveis aleatórias podem ser discretas ou contínuas.
3.2. DISTRIBUIÇÕES DE PROBABILIDADE
Uma distribuição de probabilidade corresponde a uma função que associa as realizações

de uma variável aleatória com suas respectivas probabilidades de ocorrência. As variáveis
aleatórias são denotadas por letras maiúsculas e suas realizações por letras minúsculas.
A probabilidade de que uma variável aleatória X assuma determinado valor é denotada por
P[X = x]. As variáveis aleatórias quantitativas podem ser discretas ou contínuas, sendo que para
cada qual podem ser construídos modelos matemáticos não-determinísticos que expressem as
distribuições de probabilidade correspondentes.
Além disso, sendo elas quantitativas, faz sentido falar-se em medidas de posição e
dispersão. Neste capítulo serão concentradas as atenções apenas na média, variância e desvio
padrão de uma variável aleatória quantitativa.
A média de uma variável aleatória X também é chamada de esperança matemática da

variável aleatória X, ou valor esperado da variável aleatória X, e é denotada por E(X), ou ainda
Me(x).
Há dois tipos de distribuições de probabilidade: as discretas e as contínuas. Distribuições

discretas tratam da distribuição de probabilidade associada a variáveis aleatórias discretas. Por
exemplo, a função seguinte corresponde a uma distribuição de probabilidade discreta:
X 0 1 2 3 4
P[X = xi] 1/10 2/10 5/10 1/10 1/10
Observa-se que a soma de todas as probabilidades é um:
P[S] = P[X = 0] + P[X = 1] + P[X = 2] + P[X = 3] + P[X = 4] =
= 1/10 + 2/10 + 5/10 + 1/10 + 1/10 = 10/10 = 1
Essa característica é válida para toda distribuição de probabilidade discreta, assim como também
toda probabilidade é um número positivo. Ou seja, se a variável aleatória discreta assume k
valores, então:
∑ P [X = x ] = 1
i =1
i e P[X=x] > 0.
O valor médio que uma variável aleatória assume é chamado, como já dito, além de média,
também de esperança matemática e de valor esperado. Para a obtenção do valor médio que uma
variável aleatória discreta assume, ou seja, sua esperança ou valor esperado, faz-se da mesma
maneira como foi feito para o cálculo da média para dados agrupados, substituindo fri por P[X = xi]:
k
E(X) = Me(X) = µX = µ = ∑ x P [X = x ]
i =1
i i
No exemplo acima tem-se:
1 2 5 1 1
E(X) = µX = 0 +1 +2 +3 +4 = 1,9
10 10 10 10 10
O conceito de variância de uma variável aleatória também é semelhante àquele

apresentado para dados agrupados, trocando-se fri por P[X= xi]:
k
Var(X) = σ 2x = σ 2 = ∑ [x
i =1
i − Me(x )] P [X = x i ]
2
No exemplo tem-se:
1 2 2 2 5 2 1 2 1
σ = (0 - 1,9)
2 2
+ (1 - 1,9) + (2 - 1,9) + (3 - 1,9) + (4 - 1,9) = 1,09
10 10 10 10 10
Existe uma série de distribuições de probabilidades discretas em Estatística. Duas das mais
importantes serão vistas a seguir. A distribuição contínua mais importante é a distribuição Normal,
e a estudaremos logo em seguida as discretas.
3.3. DISTRIBUIÇÃO BINOMIAL
Uma situação relativamente comum em pesquisas científicas ou levantamentos é aquela

onde apenas dois tipos de resultados são possíveis, como, por exemplo:
S = {macho, fêmea}.
S = {árvore doente, árvore não doente}.
S = {grande produtor, pequeno produtor}.
S = {talhão irrigado, talhão não irrigado}.
Uma distribuição de probabilidades que lida com tais situações é a chamada distribuição Binomial.
Em geral existe interesse maior em um dos 2 resultados possíveis, o qual é denominado

de sucesso, e o outro de insucesso ou fracasso. Para o desenvolvimento de seu modelo, considere
o exemplo de um suíno fêmea dando a luz a 5 leitões. Os eventos possíveis são ou o nascimento
de machos ou de fêmeas. Considere a variável aleatória número de machos, que obviamente é
discreta, podendo variar de 0 a 5. A probabilidade de que sejam 5 machos é igual à probabilidade
de que o primeiro leitão seja macho, e de que o segundo seja macho, e de que o terceiro também
o seja e assim por diante. Como os eventos são independentes, tem-se que:
5
P[X = 5] = (0,5).(0,5).(0,5).(0,5).(0,5) = (0,5)
Considere agora o nascimento de 3 machos e 2 fêmeas. A probabilidade de uma

determinada combinação, por exemplo, a de que os 3 primeiros leitões, L1, L2, L3, sejam machos, e
os dois últimos, L4, L5, sejam fêmeas, é igual a:
P[M] × P[M] × P[M] × P[F] × P[F] = (0,5)

5
No entanto, esta não é a única combinação possível para o nascimento de 3 machos,

existem várias, conforme mostrado abaixo:
L1 L2 L3 L4 L5 Probabilidade
5
M M M F F (0,5)
5
M M F M F (0,5)
5
M F M M F (0,5)
5
F M M M F (0,5)
5
M M F F M (0,5)
5
M F M F M (0,5)
5
F M M F M (0,5)
5
M F F M M (0,5)
F M F M M (0,5)5
5
F F M M M (0,5)
Na realidade, em vez de listar todas as possibilidades, como feito acima, pode-se calcular
diretamente o número total de combinações possíveis por meio de:
5!
C5,3 = = 10
3! (5 − 3)!
Dessa forma, para calcular a probabilidade de nascimento de 3 machos, sem importar com
5
a ordem, tem-se que somar o valor (0,5) 10 vezes. Portanto:
5
P[X = 3] = 10.(0,5) = 0,3125
Considerando agora qualquer número x de machos nascidos, em um total de 5 leitões,

tem-se que a probabilidade desse evento é:
P[X = x] = C5,x [P (M )] [P (F )]
x 5− x
Esse exemplo, justamente, ilustrou o desenvolvimento da distribuição binomial. O modelo geral

fornece a probabilidade de ocorrência de x sucessos, na observação de n eventos:
x (n-x)
P[X = x] = Cn,x p q
onde p é a probabilidade de sucesso (no exemplo, de nascimento de machos), e q a probabilidade

insucesso, igual a (1-p).
Observe, então, que a distribuição binomial é definida por dois números, ou parâmetros,
que diferenciam as mais diferentes situações, sem os quais não calculamos P[X = x]: p e n.
Conceito 3.3. Parâmetro de uma Distribuição de Probabilidades. Uma Constante (conhecida ou

desconhecida) que define uma determinada distribuição de probabilidades.
Assim, uma notação comumente empregada para denotar que determinada variável aleatória
possui distribuição binomial com parâmetros p e n, é:
X ∩ B (n, p)
Pode-se demonstrar que a esperança e a variância de uma variável aleatória que segue
uma distribuição binomial são dadas por:
Me(X) = E(X) = = µ X = µ = np
Var(X) = σ 2x = σ 2 = npq
Ou seja, se avaliássemos todas as possíveis leitegadas de 5 leitões de infinitas porcas teríamos

um valor médio de 5.(0,5) = 2,5 machos, com variância entre leitegadas igual a 5.(0,5).(0,5) = 1,25
machos ao quadrado.
3.4. DISTRIBUIÇÃO DE POISSON
A distribuição de Poisson refere-se a uma variável também discreta, mas que pode assumir
qualquer número inteiro positivo, ou seja:
X = 0, 1, 2, ...
Essa distribuição é importante para descrever fenômenos de ocorrência rara, como certos
fenômenos meteorológicos e climáticos, eclosão de ovos de insetos submetidos a um inseticida,
porcentagem de plantas doentes em campos de produção de sementes, nº de chamadas
telefônicas num certo intervalo de tempo numa central telefônica, nº de pontos com defeito em
chapas de aço e em peças de tecido, entre muitos outros.
A distribuição de probabilidade é dada por:
e −λ λ x
P[X = x] =
x!
onde e = 2,718... (número de Euler), e λ é o parâmetro da distribuição, e que corresponde ao valor

médio que X assume.
Como exemplo, considere o número de chuvas por ano com intensidade acima de 50mm/h
que ocorrem em uma região. Essa variável pode ser importante no dimensionamento de drenos ou
barragens. A população é constituída por todos os anos da região, e é infinita, pois abrange os
infinitos anos que ainda estão por vir. A variável aleatória é discreta, porque conta o número de
-1
chuvas acima de 50 mm.h . Suponha que o número médio de chuvas por ano com essa
intensidade seja 1,5. Então, se o modelo de Poisson for um bom descritor, tem-se que:
e −1,5 1,5 0
P[X = 0] = = 0,2231
0!
E assim, para outros valores de X:
X 0 1 2 etc.
P[X = xi] 0,2231 0,3347 0,2510 etc.
A probabilidade de que X seja maior do que 2 pode ser obtida pelo teorema 1 de
probabilidades:
P[X > 2] = 1 - P[X ≤ 2]
pois o evento (X ≤ 2) é o complemento do evento (X > 2). Como
P[X ≤ 2] = P[X = 0] + P[X = 1] + P[X = 2] = 0,8088
tem-se que:
P[X > 2] = 1 - 0,8088 = 0,1912
A distribuição de Poisson tem a particularidade de que sua média e sua variância são
ambas iguais a λ:
E(X) = µX = λ e σ =λ
2
também.
Assim, no exemplo das chuvas, a variância associada ao número de precipitações com intensidade
-1
acima de 50 mm.h também é igual a 1,5.
A distribuição de Poisson pode também ser usada como uma aproximação da distribuição
Binomial, fazendo λ ser np. Esta aproximação é tanto melhor quanto mais n → ∞ e p → 0. Na
prática, quando n > 50 e p < 0,10, tal aproximação já pode ser usada. Como um exemplo, se no
caso dos leitões da seção anterior o número de leitões fosse n = 500 e estivéssemos interessados
em pesquisar uma doença com probabilidade de ocorrência de 8,2 %, então a probabilidade de
que encontremos pelo menos 1 leitão doente poderia ser calculada não somente pela Binomial
mas também pela Poisson:
N = 500 > 50 e p = 0,082 < 0,10, logo as condições para aproximar a Binomial pela Poisson estão
atendidas:
X: número de leitões doentes entre os 500.
P (X ≥ 1 ) = 1 – P (X = 0) = 1 – e . (500 x 0,082) ≅ 1
-500 x 0,082 0
3.5. DISTRIBUIÇÃO NORMAL
A distribuição Normal corresponde a mais importante distribuição de variáveis aleatórias

contínuas, em razão da sua enorme aplicação nos mais variados campos do conhecimento, aí
incluída as ciências agrárias.
Sua função densidade de probabilidade é dada por:
1  (x − a )2 
f(x) = exp− , -∞ < x < ∞
2πb 2  2b 2 
sendo π = 3,1416... Trata-se de um modelo que procura explicar o comportamento de uma variável
aleatória contínua X que pode variar desde -∞ até ∞, sem explicar as causas desse
comportamento. Por isso é que se trata de um modelo não-determinístico.
Conforme se observa, são necessários dois parâmetros para definir uma distribuição
normal, as constantes a e b. Na realidade, o primeiro corresponde à média (ou esperança) da
variável aleatória X, e o segundo corresponde à variância. Em outras palavras, a = µ e b = σ. Logo,
podemos escrever:
1  (x − µ )2 
f(x) = exp−  , -∞ < x < ∞
2πσ 2  2σ 2 
A aparência dessa distribuição pode ser vista na Figura 3.1’ .
A distribuição Normal também é conhecida por distribuição gaussiana, curva normal ou

curva de Gauss, e possui as seguintes propriedades:
1) Ela é simétrica em relação a x = µ;
2) Forma campanular;
3) As medidas de posição Me(X), Md(X), Mo(X) confundem-se no mesmo ponto, e são

todas iguais a µ;
4) É definida simplesmente a partir dos parâmetros µ e σ ;

2
5) Possui dois pontos de inflexão correspondentes aos pontos x - σ e x + σ;
6) Assintótica em relação ao eixo da abscissa, ou seja, ela nunca corta o eixo X, mas cada
vez se aproxima mais dele;
7) A área total sob a curva, como em qualquer função densidade de probabilidade, é igual
a 1.
A probabilidade de uma variável aleatória contínua assumir exatamente um certo valor é

praticamente zero e, portanto, nesse caso, o enfoque mais apropriado é obter probabilidades da
variável pertencer a classes ou a intervalos. Esse cálculo de probabilidades, para variáveis
contínuas, é obtido por meio de áreas relativas a gráficos com funções densidade de
probabilidade.
Figura 3.1. Aspecto de uma distribuição Normal.
Para ilustrar de que maneira isso pode ser feito, considere um exemplo referente ao tempo
de vida dos aspersores da marca hipotética Agro-1000. Trata-se de uma população infinita, pois
abrange todos os aspersores dessa marca que existiram, existem ou virão a ser fabricados um dia.
A variável descritora é o tempo de vida, expresso em horas de funcionamento até a quebra.
Suponha que essa variável aleatória possa ter seu comportamento descrito por uma distribuição
normal, com média µ = 500h e σ = 2500h . Um produtor deseja saber qual a probabilidade de que
2 2
um aspersor tenha um tempo de vida entre 480 e 520 horas. Nesse caso, tem-se uma situação
como a da Figura 3.2.
Figura 3.2. Distribuição normal relativa ao tempo de vida dos aspersores da marca Agro-1000.
Para obter a probabilidade de que um aspersor dure entre 480 e 520 horas, é necessário
calcular a área hachurada na Figura 3.2. O procedimento para se fazer isso corresponde ao
cálculo da integral:
520 1  (x − 500)2 
P[480 < X < 520] = ∫480
2π50 2
exp−
 250 2 
dx
sendo f(x) é a função densidade de probabilidade. No caso da curva normal, essa integral não tem
uma solução explícita e, por causa disso, é necessário fazer uso de um procedimento alternativo,
como será visto no próximo item.
3.6. DISTRIBUIÇÃO NORMAL REDUZIDA OU PADRONIZADA
A distribuição Normal com média µ = 0 e variância σ = 1 é conhecida como distribuição

2
Normal reduzida ou padronizada. Uma variável aleatória com essa distribuição geralmente é
simbolizada pela letra Z.
Uma propriedade interessante de uma variável aleatória X que segue qualquer distribuição
normal é a de que ela pode sempre ser “transformada” em uma variável Z, pela expressão:
x−µ
z=
σ
A vantagem dessa transformação é a de que o valor de áreas (ou seja, probabilidades)

relativo à variável Z pode ser tabelado e, com isso, valores de áreas referentes a variáveis X com
quaisquer distribuições normais também podem ser calculadas.
As áreas referentes à variável Z que são geralmente tabeladas são do tipo:
P[ 0 < Z < z]
Existem tabelas próprias que contém os valores das áreas da distribuição Z. Para exemplificar seu
uso, considere que se queira calcular:
P[ 0 < Z < 0,46]
Na Tabela 1.1 do Apêndice, existe uma coluna indicadora e uma linha indicadora. Na coluna
existem valores de Z até a primeira casa decimal, e na linha a segunda casa decimal. Dessa
forma, para achar a probabilidade acima, basta buscar o valor 0,4 na coluna, e o valor 6 na linha.
Dessa forma, encontra-se o valor para a probabilidade como sendo igual a 0,1772. Essa área está
representada na Figura 3.3.
Agora é possível calcular a probabilidade de que um aspersor da marca Agro-1000 dure

entre 480 e 520 horas. Para tanto, serão calculadas:
P[500 < X < 520]
P[480 < X < 500]
as quais, somadas, fornecerão a probabilidade total P[480 < X < 520].
Como visto, a variável X pode ser transformada na Z. A distribuição de X é uma normal

com média 500 e variância 2500, ou seja:
µ = 500 σ = 2500 σ = 50
2
Figura 3.3. Curva normal padronizada (Z).
Quando x = 500, isso corresponde ao valor de z = 0, pois:
500 − µ 500 − 500

z= = =0
σ 50
E quando X = 520 tem-se:
520 − 500
z= = 0,40
50
Portanto, pode-se escrever:
P[500 < X < 520] = P[0 < Z < 0,40]
Consultando a tabela de Z, tem-se que esta probabilidade vale 0,1554.
Falta agora calcular P[480 < X < 500]. No ponto X = 480, tem-se:
480 − 500
z= = -0,40
50
Na tabela de Z, não constam os valores negativos. Mas, como trata-se de uma distribuição
simétrica em torno do 0, tem-se que:
P[-0,40 < Z < 0] = P[0 < Z < 0,40]
E assim:
P[480 < X < 500] = P[0 < Z < 0,40] = 0,1554
Portanto, a probabilidade total P[480 < X < 520] vale:
P[480 < X < 520] = P[480 < X < 500] + P[500 < X < 520] = 0,1554 + 0,1554 = 0,3108
Outro aspecto importante da distribuição Normal padronizada é o de que, como se trata de

uma distribuição simétrica em torno de 0, e cuja área abaixo dela totaliza 1, então P[Z > 0] =
0,5000. Dessa forma, é possível calcular probabilidades de Z estar acima de quaisquer valores.
Por exemplo, suponha que se queira obter P[Z > 0,40]. Uma vez que P[Z > 0] = P[0 < Z < 0,40] +
P[Z > 0,40], tem-se:
0,5000 = 0,1554 + P[Z > 0,40]
E assim, P[Z > 0,40] = 0,3446.
Um aspecto interessante da distribuição Normal é o efeito que diferentes valores para a

variância provocam na aparência da curva (Figura 3.4).
Figura 3.4. Três curvas normais referentes a diferentes variáveis aleatórias X1, X2 e X3, com
mesma média, mas com σ1 > σ2 > σ3 (a mais alta tem σ3 e a mais achatada σ1 e a intermediária
2 2 2 2 2
σ2 ).
2
3.7. APROXIMAÇÃO NORMAL À DISTRIBUIÇÃO BINOMIAL E À

POISSON
O cálculo de probabilidades em algumas distribuições binomiais pode ser extremamente

laborioso, em onde a variável aleatória pode assumir muitos valores. Por exemplo, considere n =
135 e p = 0,6. Qual a probabilidade de que X ≥ 98, por exemplo? Para essa determinação ter-se-ia
que calcular as probabilidades de que X = 98, X = 99,..., até X = 135, para depois somá-las.
Na realidade, se considerássemos que a variável aleatória X pudesse, apesar de discreta,

ser razoavelmente bem descrita por uma distribuição normal, esse cálculo se tornaria bem mais
simples, através da variável Z.
Como exemplo, considere um administrador que seja responsável por executar um plano
de ação na empresa em que trabalha, liderando uma equipe onde o perfil do integrante é bem
definido, aptos para executar uma determinada função. Para tanto, ele terá que avaliar candidatos
na cidade e contratar 40 pessoas. Suponha que a probabilidade de que um candidato seja
qualificado ao trabalho (evento de sucesso) seja de 60% (ou seja, p = 0,6). Durante uma semana,
ele vai avaliar os 60 candidatos inscritos, e deseja saber qual a probabilidade de encontrar nestes
inscritos pelo menos 40 pessoas aptas para integrar a equipe. O número X de pessoas aptas é
uma variável aleatória discreta com distribuição Binomial, com n = 60 e p = 0,6. A distribuição de
probabilidade dessa variável está apresentada na Figura 3.8.
Nota-se a grande semelhança entre o aspecto desse gráfico e uma curva Normal.
Portanto, essa distribuição pode ser “aproximada” para uma Normal, poupando esforços no cálculo
de probabilidades. Para tanto, deve-se observar que a esperança e a variância dessa variável
aleatória são dadas por:
E(X) = np = 60.0,6 = 36
σ2 = npq = 60.0,6.0,4 = 14,4
Agora basta considerar uma curva normal com µ = 36 e σ = 14,4 , e ter-se-á uma aproximação
2
Normal (Figura 3.5 e 3.6).
12
10
0
20 25 30 35 40 45 50
Figura 3.5. Gráfico de barras verticais representando a distribuição de probabilidade da variável

aleatória “número de trabalhadores aptos”, em um total de 60 candidatos.
Figura 3.6. Aproximação normal a uma distribuição Binomial com parâmetros n = 60 e p = 0,6.
Para calcular a probabilidade de que entre esses 60 candidatos, haverá pelo menos 40
aptos ao serviço, basta agora utilizar a tabela de Z, com apenas a seguinte modificação. Como se
trata de uma aproximação, alguns autores apontam que o valor de 40, por exemplo, por se tratar
de uma variável discreta, equivale ao intervalo [39,5 ; 40,5] quando é feita a correspondência para
o caso contínuo. Dessa forma, deve-se calcular a probabilidade de X ser maior do que 39,5 , ao
invés de 40. Ou seja:
P[X ≥ 40] é equivalente a P[X > 39,5] no caso contínuo.
Assim, quando X vale 39,5 , Z vale:
39,5 − 36
z= = 0,92
3,79
Consultando a tabela, verifica-se que:
P[0 < Z < 0,92] = 0,3212
E assim:
P[X > 39,5] = P[Z > 0,92] = P[Z > 0] - P[0 < Z < 0,92] = 0,5000 - 0,3212 = 0,1788
Ou seja, existe uma chance de 17,88% de se encontrar 40 pessoas, ou mais, aptas para o serviço,
em um total de 60 candidatos.
Essa probabilidade, quando calculada da maneira exata e não pela aproximação normal,
fornece o valor 0,1786, evidenciando assim a qualidade da aproximação. Alguns autores observam
que são esperados bons resultados quando os produtos np e nq sejam ambos maiores que 5.
Caso contrário, o cálculo exato de probabilidades é recomendado.
Com argumentação semelhante, podemos justificar a aproximação da Poisson pela

Normal. Como exemplo, consideremos o cenário em que o nº de bactérias de uma certa espécie
2
por cm em uma lâmina está para ser contado. Este número de bactérias é uma variável aleatória
X, que assume valores 0,1,2,3,4.... O parâmetro λ desta Poisson é a média de bactérias
2
encontrada em lâminas semelhantes. Digamos que esta média é estimada como sendo 27,6 / cm .
2
A probabilidade de que sejam encontradas mais de 35 bactérias por cm é calculada
exatamente como:
P(X > 35) = P(X = 36) + P(X = 37) + P(X = 38) + ... =
27,6 36 27,6 37 27,6 38

e −27,6 + e − 27,6 + e −27,6 + ...
36! 37! 38!
ou como
1 - P(X > 35) = 1- P(X ≤ 35) = 1- [P(X = 0) + P(X = 1) + ... +P(X = 35)] =
 27,6 0 27,6 1 27,6 35 

1- e − 27,6 + e − 27,6 + ... + e −27,6  = 0,9292
 0! 1! 35! 
A distribuição Normal pode ser usada para o cálculo aproximado de uma Poisson, trazendo
µ = λ e σ = λ , desde que, segundo estudos que analisam a quantidade da aproximação,

λ>15. O valor aproximado da mesma probabilidade é 0,4% (calcule você mesmo). Este erro
diminui à medida que λ aumenta.
1) Sabe-se que 5% de um rebanho bovino está com febre aftosa. Qual a probabilidade de que num
lote de 6 animais retirados deste rebanho, tenha-se:
Esse é um caso clássico de uma Distribuição Binomial, ou seja, os resultados estão condicionados
a sucesso ou insucesso. Como p = 0,05 e q = 1 - p, portanto q = 0,95. Observe que n = 6.
Sendo:
n!
P(X = x) = C n,x p x q n− x sendo: C n,x =
x! (n − x)!
a) Nenhum animal com febre aftosa.
Para encontrar a probabilidade de que nenhum animal esteja infectado, teremos que achar esta
função.
Utilizamos então:
6!
P ( X = 0) = 0,05 0 0,95 6 = 0,735
0!6!
Portanto, a probabilidade de não encontrar nenhum animal infectado neste lote de seis animais é
de 73,5%.
b) Dois animais com febre aftosa
6!
P ( X = 2) = 0,052 0,95 4 = 0,0304
2!4!
Assim, a probabilidade de encontrarmos dois animais infectados neste lote de 6 animais é de
3,04%.
c) Mais de um animal com febre aftosa
Para facilitar o volume de cálculos, utilizamos o conceito de função acumulada, mas para isto é
necessário primeiro calcularmos a função para um animal infectado para o lote de seis animais.
6!
P ( X = 1) = 0,05 1 0,95 5 = 0,232
1!5!
Como já se tem a probabilidade para nenhum animal e para um animal infectado para este lote,
podemos, enfim, calcular a probabilidade para mais de um animal infectado (P(X >1)).
P ( X > 1) = P ( X = 2) + P ( X = 3) + ... + P ( X = 6)
P ( X > 1) = 1 − [P ( X = 0) + P ( X = 1)] = 1 − [0,735 + 0,232] = 0,033
Portanto, a probabilidade de que, neste lote de 6 animais, tenha-se mais de um animal infectado é
de 3,7%.
2) Um jogador de basquete converte 90% dos lances livres. Qual a probabilidade de que este
jogador converta 4 de 6 lances livres de uma partida.
Este é um outro exemplo clássico da Distribuição Binomial. Temos p = 0,9 e q = 0,1 pois p + q = 1.
Sendo n = 6 e x = 4.
6!
P ( X = 4) = 0,94 0,12 = 0,0984
4!2!
Portanto, a probabilidade de que o jogador converta 4 de 6 lances livres é de 9,84%.
3) A probabilidade de que um indivíduo apresente reação alérgica após a aplicação de soro é de

0,2%. Esse mesmo soro foi aplicado a um grupo de 1800 pessoas. Qual a probabilidade de que:
a) Duas pessoas tenham reação alérgica?
Este exercício é um caso onde se aplica a Distribuição de Poisson como aproximação da Binomial.
Os dados:
n = 1800 p = 0,002 e q = 0,998
n ≥ 50 e p ≤ 0,10
Então sua média será:

λ = np = 1800 .0,002 = 3,6 alérgicos
E a função de Poisson:
λx
P ( X = x ) = e −λ
x!
Assim, utilizando a função de Poisson:
3,62
P ( X = 2) = e −3,6 = 0,1770
2!
Assim, a probabilidade de que duas pessoas apresentem reação alérgica ao soro é de 17,70%.
b) No máximo quatro pessoas tenham reação alérgica?
No máximo quatro pessoas significa dizer que podem ser: nenhuma pessoa tendo reação alérgica
ou uma ou duas ou três ou quatro pessoas apresentando a reação. Dessa forma, para encontrar a
probabilidade de no máximo quatro pessoas apresentar a reação, tem-se que calcular a
probabilidade para cada uma delas e posteriormente soma-las.
3,60 3,61
P ( X = 0) = e −3,6 = 0,0273 P ( X = 1) = e −3,6 = 0,0984 P ( X = 2) = 0,1770
0! 1!
3,6 3 3,6 4
P ( X = 3) = e −3,6 = 0,2125 P ( X = 4) = e −3,6 = 0,1912
3! 4!
Portanto:
P ( X ≤ 4) = [P ( X = 0) + P ( X = 1) + ... + P ( X = 4)] = 0,7064
Assim, a probabilidade de que no máximo quatro pessoas apresentem reação alérgica é 70,64%.
c) Pelo menos duas pessoas apresentem reação alérgica?
Como já calculamos, as probabilidades para nenhuma e para uma pessoa apresentar reação
alérgica, podemos utilizar o conceito de função acumulada.
P ( X ≥ 2) = 1 − [P ( X = 0) + P ( X = 1)] = 1 − [0,0273 + 0,0984 ] = 0,8743
Assim, a probabilidade de que pelo menos duas pessoas apresentem reação alérgica é de
87,43%.
-2
4) Numa lâmina verificou-se que existiam em média 3 bactérias.cm . A lâmina foi subdividida em
2
300 quadrados de 1 cm .
a) Em quantos desses quadrados você espera encontrar no máximo 1 bactéria?
Este exercício é um caso onde se aplica a Distribuição de Poisson diretamente.
λx 30
P ( X = 0) = e −λ = 2,718 −3 = 0,0498 = 4,98%
x! 0!
λx 31
P ( X = 1) = e −λ = 2,718 −3 = 0,1494 = 14,94%
x! 1!
Assim, a probabilidade de se encontrar uma bactéria em qualquer um destes quadrados é de
14,94%.
Para os 300 quadrados:
300 .( 4 ,98 % + 14 ,94 % ) = 59 ,76 ≅ 60
Assim, espera-se encontrar no máximo 1 bactéria em cerca de 60 quadrados.

-2
b) Qual é a probabilidade de se encontrar mais de 4 bactérias.cm ?
Aqui utiliza-se o conceito de função acumulada, onde:
P ( X > 4) = 1 − [P ( X = 0) + P ( X = 1) + P ( X = 2) + P ( X = 3) + P ( X = 4)]
Como as probabilidades para 0 e para 1 foram calculadas no item anterior, calcula-se para 2, 3 e 4.
λx 32
P ( X = 2) = e − λ = 2,718 −3 = 0,224
x! 2!
λx 33
P ( X = 3) = e −λ = 2,718 −3 = 0,224
x! 3!
λx 34
P ( X = 4) = e − λ = 2,718 −3 = 0,168
x! 4!
P ( X > 4) = 1 − [0,0498 + 0,1494 + 0,224 + 0,224 + 0,168 ] = 0,1848 ou 18,48%
5) Usando a curva normal padronizada, determine as seguintes áreas com representação gráfica:
a) Entre 0,0 e 1,32:
Correspondendo à área de interesse a parte hachurada de azul. Assim, o valor correspondente na
tabela de z compreendido entre estes valores é de 0,4066.
0,4066
b) Entre 0,17 e 1,28:

Assim, a probabilidade compreendida entre estes valores será obtida pela diferença obtida de
0,397 – 0,0675 = 0,3322, pois, como sabemos, a probabilidade fornecida na tabela de z está
compreendida entre zero e o valor de interesse.
0,3322
c) Entre –0,92 e 1,64

Somando as probabilidades para estes valores obteremos: 0,3212 + 0,4495 = 0,7707
d) Abaixo de 1,20.
A probabilidade será a soma de: 0,5 + 0,3849 = 0,8849
e) À esquerda de -0,84:
Assim a probabilidade será dada por: 0,5 – 0,2995 = 0,2005
6) Uma distribuição normal tem média 50 e variância 36. Encontre as seguintes áreas em %:
a) Abaixo de 43.
Calculando z:
x−µ 43 − 50
z= = = −1,17
σ 6
Assim, a probabilidade será: 0,5 – 0,379 = 0,121.
b) Acima de 46.
x−µ 46 − 50
z= = = −0,667
σ 6
Assim, a probabilidade será: 0,50 + 0,2486 = 0,7486.
c) Entre 40 e 60.
x − µ 60 − 50
z= = = 1,67
σ 6
Como a distância dos dois extremos para a média são iguais, a probabilidade será:
0,4525 x 2 = 0,905.
d) Entre 55 e 65.
Temos que calcular o z para cada um destes valores:
x − µ 55 − 50 x − µ 65 − 50
z1 = = = 0,83 e z2 = = = 2,5
σ 6 σ 6
Assim, temos que a probabilidade será: 0,4938 – 0,2967 = 0,1971.
7) Num povoamento florestal os diâmetros à altura do peito (DAP) apresentam distribuição normal
com média 18,2 cm e desvio padrão 3,4 cm.
a) Foram cortadas 1200 árvores que tinham DAP acima de 20,0 cm. Quantas árvores existiam no
povoamento?
Considerando x > 20,0 cm
x − µ 20,0 − 18,2
z= = = 0,53
σ 3,4
Então, a probabilidade de existir no povoamento 1200 árvores acima de 20,0 cm é:
0,5 - 0,2019 = 0,2981.
Para encontrar o número de árvores no povoamento, basta utilizarmos uma regra de três:
X --------------------------- 100%
1200 ----------------------- 29,81%
x = 4025 árvores. Portanto, o povoamento total é de 4025 árvores.
b) Quantas árvores tem DAP menor que 16 cm?

x − µ 16,0 − 18,2
z= = = −0,65
σ 3,4
Então, a probabilidade de existir árvores com DAP abaixo de 16 cm será 0,5 – 0,2422 = 0,2578.
Utilizando a regra de três:
w -------------------------- 25,78%
4025 ----------------------- 100,00%
w = 1038 árvores. Portanto, 1038 árvores possuem DAP abaixo de 16 cm.
8) Acredita-se que as notas de Estatística referentes à disciplina de nivelamento de pós-graduação

de 2004 tem distribuição aproximadamente Normal, com média 70 e desvio padrão em torno de 4.
Nesse caso, deverão ser atribuídos conceitos A, B e C de acordo com o seguinte critério: conceito
A, 30% maiores notas; conceito B, 40% intermediárias; conceito C, as restantes. Pede-se
encontrar os limites para os conceitos A, B e C.
Calculando os valores de Z que determinam 30% das probabilidades abaixo e acima:

xA − µ x − 70
Acima Z= ⇒ 0,524 = A ⇒ x A = 72,1
σ 4
x −µ x − 70
Abaixo Z = C ⇒ −0,524 = C ⇒ x C = 67,9
σ 4
Assim, as notas acima de 72,1 terão conceito A, as notas abaixo de 72,1 e acima de 67,9 terão
conceito B, e aquelas abaixo de 67,9 terão conceito C.
1) Numa leitegada de 5 leitões, pergunta-se:

a) Qual a probabilidade de não haver fêmeas?
b) Qual a probabilidade de haver duas fêmeas?
c) Qual a probabilidade de haver pelo menos duas fêmeas?
2) Numa grande criação de coelhos 40% são machos. Entre 20 coelhos retirados aleatoriamente,
qual a probabilidade de:
a) Retirar 5 coelhos machos.
b) Retirar pelo menos 2 coelhos machos.
c) Retirar no máximo 2 coelhos machos.
3) Uma vacina apresenta eficiência de 99,98% na imunização dos indivíduos contra determinado
vírus. Toda a população de uma cidade de 10000 habitantes foi vacinada. Qual é a
probabilidade de que nesta cidade:
a) Uma pessoa seja infectada?
b) Pelo menos três pessoas sejam infectadas?
c) No mínimo uma pessoa seja infectada?
4) Um livro de 300 páginas tem 630 erros de impressão, distribuídos ao acaso por todas as
páginas do livro. Qual a probabilidade de que, abrindo o livro ao acaso em uma página, esta
página apresente 5 erros de impressão?
5) Uma certa viga de aço tem resistência média de 7.500 psi. Suponha que essa resistência tenha
distribuição normal com desvio padrão de 650 psi. Determine as probabilidades para as seguintes
capacidades de resistência:
a) Menor que 6.900 psi.
b) Maior que 7.000 psi.
c) Maior que 10.000 psi.
6) Na população humana é sabido que 30% das pessoas apresentam algum tipo de problema de
visão. Numa classe de 40 estudantes, qual a probabilidade de encontrar:
a) 8 alunos com problemas visuais.
b) Mais de 13 alunos com problemas visuais.
c) De 11 a 15 alunos com problemas visuais.
Obs: Neste exercício utilize a aproximação da Distribuição Binomial pela Normal.
UNIDADE 4
AMOSTRAGEM
4.1. INTRODUÇÃO
Frequentemente não é possível ou viável a observação de todos os elementos de uma

população (ou seja, censos), e nesses casos tem-se que fazer uso de amostras.
A finalidade de uma amostra é a de descrever, indiretamente, a população. Portanto, é

necessário que as amostras coletadas guardem características as mais próximas possíveis da
população. Esta qualidade é denominada representatividade.
Conceito 4.1. Representatividade. Qualidade das amostras em possuirem ou reproduzirem as

mesmas propriedades da população.
Assim, é necessária a observação de alguns cuidados no momento da coleta de amostras,

caso contrário, problemas quanto à representatividade podem ocorrer. Por exemplo, se na
amostragem de um povoamento florestal forem observadas apenas árvores de um dos quadrantes
do talhão, pode acontecer de nesse quadrante ocorrer uma fertilidade de solo mais alta do que no
restante do talhão. Dessa forma, a quantidade de madeira no povoamento todo seria
superestimada.
O procedimento básico para garantir representatividade nas amostras é o sorteio.
Conceito 4.2. Sorteio. Procedimento pelo qual é conferida a todos os elementos de um conjunto a
mesma probabilidade de serem tomados.
O sorteio também é chamado de aleatorização ou casualização. Quando a obtenção de

uma amostra sofreu algum mecanismo de sorteio, ela é chamada de amostra aleatória. A coleta de
amostras aleatórias é chamada de amostragem aleatória.
Conceito 4.3. Amostra Aleatória. Amostra retirada por algum mecanismo de sorteio.
O sorteio garante representatividade porque evita tendenciosidades no momento da coleta. A

amostragem pode ser classificada conforme a Figura 4.1.
Simples (AAS)
Amostragem Estratificada (AAE)
Por Conglomerado (AAC)
aleatória
Sistemática (AS)
Figura 4.1. Classificação da amostragem aleatória.
Independente da natureza da amostragem (AAS, AAE, AAC ou AS), ela pode ainda ser
com reposição ou sem reposição:
Sem reposição
Amostragem
Com reposição
Figura 4.2. Classificação da amostragem quanto à reposição.
Na amostragem com reposição, os elementos da população, à medida que são sorteados,

são devolvidos à população, e podem, eventualmente, ser sorteados de novo. Esse é o caso, por
exemplo, quando tilápias são amostradas em tanques de piscicultura, pesadas, e devolvidas aos
tanques. Quando a amostragem é sem reposição, os elementos são sorteados apenas uma única
vez. Tal é o caso onde, por exemplo, 50 animais são sorteados do rebanho com um total de 201
vacas.
Apesar de que a representatividade de uma amostra é construída utilizando-se do

expediente sorteio, que torna as amostras aleatórias, algumas vezes, na prática, procedimentos de
amostragem não aleatória são utilizados, admitindo-os como aproximadamente aleatórias.
Algumas destes procedimentos de amostragem não–probabilística são:
1. Amostragem a esmo: escolhem-se os elementos da população que foram parte da amostra

por algum mecanismo ou expediente “sem lógica”, ou “desgovernado”, ou “esforçando-se
para emular (imitar) um sorteio”.
2. Amostragem por conveniênia: escolhem-se os elementos da população para os quais se

tem maiores possibilidades de acesso.
Esses procedimentos não-probabilísticos, a rigor, não deveriam ser utilizados na Estatística,

portanto, seu uso, se necessário (como às vezes é) deve ser feito com cautela, procedendo
sempre o expurgo de qualquer tendência ou viés na escolha dos elementos e composição da

amostra. Quando se é forçado a utilizar amostragem não-aleatória, não se pode proibir de se
aplicar métodos estatísticos “como se a amostra fosse aleatória”, porém, caso alguém queira fazer
este desvio da teoria, deve fazer com toda cautela. Neste guia daremos enfoque apenas aos
procedimenos aleatórios.
4.2. AMOSTRAGEM ALEATÓRIA SIMPLES (AAS)

Este método de amostragem aleatória é o mais simples, e basicamente é tal que
todos os elementos da população tenham a mesma probabilidade de serem coletados. Assim, se a
população for finita com N elementos, cada um terá a probabilidade de 1/N de ser sorteado.
A amostra tem, como foi visto, n elementos. Se a AAS for feita com reposição em uma
população finita com N elementos, então o número total de amostras possíveis é dado por:
o n
N de amostras possíveis = N
Por outro lado, se ela for feita sem reposição, então o número de amostras possíveis é:
o
N de amostras possíveis = AN,n
Obs. AN,n é arranjo de N elementos tomados n-a-n, dado por N! / (N – n)! .
Na prática, a realização do sorteio no processo de AAS é feita mediante várias

possibilidades. Pode-se, por exemplo, escrever em papeizinhos os N elementos da população,
colocá-los em uma caixa e sorteá-los. Pode-se ainda identificar os elementos com um número e
sorteá-los mediante tabelas de números aleatórios, ou funções randômicas na calculadora ou
computador. Ou ainda proceder métodos com apoio computacional. A figura abaixo é um exemplo.
Será apresentado um exemplo, a seguir, para ilustrar o uso de tabelas aleatórias. Uma
tabela aleatória nada mais é que uma coleção de números contidos em um intervalo,
“bagunçados”, e com igual probabilidade de ocorrência. A Tabela 4.1 foi gerada a partir da função
randômica de uma calculadora eletrònica.
Tabela 4.1. 50 números aleatórios (x1000) entre 0 e 1000 gerados a partir da função randômica de
uma calculadora eletrônica.
237 464 533 282 623 592 074 481 613 874
602 269 678 269 273 346 355 110 211 113
200 417 046 914 201 628 549 704 707 295
847 615 452 454 129 643 552 975 441 091
486 197 153 541 802 980 798 603 373 156
Agora, suponha que se queira coletar uma amostra de tamanho n = 5, de uma população
com N = 10 elementos. Um procedimento de sorteio pode ser: associando um número que vai de 0
a 9, a todos os elementos da população, pode-se sorteá-los olhando-se o último algarismo dos
números da Tabela 4.1, a partir, por exemplo, do primeiro valor. Procedendo-se dessa forma, ter-
se-ia o seguinte sorteio:
o
1 elemento da amostra:
o
1 número aleatório = 237 ⇒ toma-se o elemento 7 da população
o
o
o
o
4o elemento da amostra:
o
4 número aleatório = 847. Como o elemento 7 da população já foi sorteado, passa-se para
o
o 5 número aleatório = 486 ⇒ toma-se o elemento 6 da população.
o
5 número aleatório = 486 ⇒ toma-se o elemento 6 da população.
6o número aleatório = 464 ⇒ toma-se o elemento 4 da população
Assim, a amostra coletada fica sendo o conjunto {7, 2, 0, 6, 4}.
Quando a população for infinita, não é possível identificar seus infinitos elementos com um
número. Nesse caso, pode-se proceder o mecanismo de sorteio com aqueles elementos que
estejam disponíveis. Por exemplo, em estudos sobre o número de chuvas com certa intensidade
em uma região, uma vez que se está querendo fazer previsões para anos futuros, trata-se de uma
população de infinitos anos, compreendendo aqueles que passaram e os que ainda estão por vir.
Assim, suponha que se disponha de apenas dados de 80 anos passados. Uma amostra poderia
ser sorteada dentre esses dados. Aliás, mesmo que todos os 80 dados fossem analisados, este
conjunto continuaria sendo uma amostra com n = 80, da população infinita, porém, não aleatória,
mas, sim, por conveniência.
Mesmo quando o procedimento de sorteio for pouco viável, por exemplo, em uma
população finita com N muito grande, pode-se coletar a amostra “a esmo”, evitando ao máximo
qualquer favorecimento no processo. Tal é o caso, por exemplo, quando folhas de seringueira são
amostradas para verificação de ocorrência da doença ‘Mal das Folhas’. Obviamente, não teria
sentido dar-se ao enorme trabalho de numerar todas as folhas de cada árvore e sorteá-las em
seguida.
4.3. AMOSTRAGEM ALEATÓRIA ESTRATIFICADA (AAE)

Por vezes, a informação disponível sobre a estrutura da população a ser amostrada é tal
que permite melhorar a representatividade da amostra. Um caso onde isso ocorre é quando se
sabe que a população é dividida em estratos, isto é, quando a população se caracteriza por
subdivisões com características distintas. A figura abaixo é mais um exemplo.
A título de ilustração, seja a Cooperativa dos Agricultores da Região de Orlândia Ltda

(CAROL), que representa cerca de 1500 agropecuaristas de 48 municípios do Norte de São Paulo
e 44 do Triângulo Mineiro. Suponha que a CAROL necessite de dados e informações atualizadas
sobre a sua área de atuação e sobre os seus associados para que possa atendê-los
convenientemente. A população de cooperados poderia ser dividida em 5 estratos, segundo o
tamanho da propriedade (Tabela 4.2).
Uma AAS desenvolvida sobre esta população pode produzir uma amostra não-
representativa. Por exemplo, se decidimos coletar uma amostra com n=156 propriedades,
poderemos ter uma AAS quase totalmente concentrada, ou totalmente concentrada nos estratos 1
e 2. Podemos até tê-la concentrada em um só estrato, o que, sem dúvida, comprometerá sua
representatividade, pois as características tecnológicas, capitalização, mão-de-obra, etc, devem
variar de estrato para estrato.
A solução consiste na realização de uma AAS dentro de cada estrato, de tal maneira que
todos os estratos fiquem representados. Tal delineamento amostral é chamado de amostragem
aleatória estratificada (AAE). É desejável para maximizar a representatividade da amostra, que os
estratos tenham a maior homogeneidade possível dentro de si.
Tabela 4.2. Estratificação dos cooperados da CAROL.

Estrato Área (alqueires) Número de Propriedades
1 1 a 34 873 873
2 34 a 73 386 386
3 73 a 126 246 246
4 126 a 282186 186
5 282 ou mais
112 112
Tanto é possível estratificar populações finitas como infinitas. Um exemplo de estratificação

em populações infinitas são os experimentos montados para comparar características fitotécnicas
de certas variedades de uma cultura. Cada uma dessas variedades constitui um estrato da
população (infinita) formada pelo conjunto de todas estas variedades avaliadas.
Uma vez fixado um tamanho n para a amostra a ser coletada, via AAE, um critério de
ponderação (ou de proporcionalidade), para a determinação do tamanho da amostra em cada
estrato. Por este método, o número de elementos ni a serem observados no estrato i é proporcional
ao número de elementos Ni do estrato, de maneira que a precisão da avaliação em cada um deles
não seja desigual. Este critério é particularmente adequado quando a variabilidade presente em
cada estrato é relativamente homogênea. Determina-se, então ni por:
Ni
ni =
N n
No exemplo da CAROL, se uma amostra de n = 100 elementos fosse coletada, ter-se-ia

uma situação como a da Tabela 4.3.
Tabela 4.3. Critério ponderado para dimensionamento do número de elementos a serem

amostrados em cada estrato dos cooperados da CAROL.
Estrato i Área da Propriedade Número de Número de

(i = 1, 2, ... 5) Propriedades (Ni) Elementos (ni)
1 1 a 34 873 48
2 34 a 73 386 21
3 73 a 126 246 14
4 126 a 282 186 10
5 282 ou mais 112 7
Total  1803 100
4.4. AMOSTRAGEM ALEATÓRIA POR CONGLOMERADO (AAC)

Não apenas por causa da representatividade pode se buscar delineamentos amostrais
alternativos a AAS. Também, a limitação de recursos para realizar a amostragem pode ser um
fator importante. Tal é a situação quando, por exemplo, uma agroindústria contrata um profissional
de marketing rural para analisar a viabilidade de lançamento de um novo produto, e para isso este
profissional tem que pesquisar características de agricultores da região sul de Minas Gerais, mas
deseja evitar percorrer municípios espalhados por toda a região (que poderia ser o caso se a
amostra fosse gerada por uma AAS).
Em vez disso, para diminuir os custos de locomoção (transporte), o profissional pode

concentrar suas entrevistas sobre um número limitado de sub-regiões ou municípios e usá-las
como uma amostra da população de agricultores do sul de Minas Gerais. Para não perder o
caráter aleatório que a amostragem deve ter, ele poderia enumerar os municípios da região e
sortear alguns deles (isto é, formar uma AAS de municípios) e em seguida sortear agricultores
dentro desses municípios.
O processo de subdividir a população em componentes (de mesmas características, ao

contrário dos estratos) com o objetivo único de facilitar o processo de coleta dos elementos da
amostra é denominado de amostragem aleatória por conglomerado.
Deve-se observar que essa prática de amostragem não deve comprometer a

representatividade, em razão da não-observação dos outros conglomerados. Para tanto, é
necessário que cada conglomerado reproduza bem as características da população, sendo quase
que uma miniatura desta.
Se forem sorteados m conglomerados de uma população, dentro dos quais todos os

elementos são observados, esse processo é chamado de amostragem aleatória por conglomerado
em um estágio. Por outro lado, se dentro de cada conglomerado são sorteados outros tantos sub-
conglomerados, então a AAC é em dois estágios, três, etc. Essa hierarquização de sorteios de
amostragens aleatórias uma dentro da outra, pode ser desenvolvida em múltiplos estágios, tantos
quanto a necessidade exigir e a população suportar. A figura abaixo mostra uma amostragem por
conglomerado.
4.5. AMOSTRAGEM ALEATÓRIA SISTEMÁTICA (AS)

Ainda objetivando facilitar o processo de amostragem, alguns autores também propõem
outro método, denominado de amostragem aleatória sistemática (AS), que pode vir a aumentar a
representatividade da amostra em algumas situações. Por esse sistema, os elementos da
população são considerados como dispostos em uma linha (como por exemplo, uma fileira de
árvores), e o primeiro elemento da amostra é sorteado. Em seguida, salta-se um determinado
número k de elementos (chamados ‘Passos de Amostragem’), e o segundo elemento é observado.
Salta-se novamente k passos, e esse processo é continuado até a coleta do último elemento da
amostra.
No caso de a população ser finita, a determinação do número k de passos é feita pela

seguinte razão, tomando-se o inteiro mais próximo:
N
k=
n
Por exemplo, se em um povoamento florestal existem 10.000 árvores, das quais serão amostradas
50, então k = 10.000 / 50 = 200. Em seguida, sorteia-se a primeira árvore dentre as 10.000.
a
Supondo que a 1 árvore sorteada seja a de número 1.080, então somaremos e diminuiremos a
este valor a constante k=200. Assim, as árvores amostradas seriam:
80, 280, 480, 680, 880, 1080, 1280, 1480, 1680, 1880, 2080, 2280, ...., 9.880
Esse é um processo bastante simples de se implementar, e que pode aumentar a

representatividade da amostra pela melhor “cobertura” que o processo de amostragem faz da
população. Ou seja, na amostragem aleatória pode acontecer que, por puro acaso, os elementos
sorteados, em conjunto, não representem bem a população. No entanto, a amostragem
sistemática debve ser realizada com cuidado em situações onde os elementos sorteados podem
guardar algum tipo de relação entre si, ou periodicidade, decorrente do fato de serem coletados
sistematicamente.
Os enfoques da inferência estatística mais comumente utilizados pressupõem que a

amostragem seja aleatória simples, para validar, como será visto, os métodos de construção de
intervalos de confiança e testes de hipóteses. Apesar desta exigência, a utilização de
procedimentos de amostragem AAE, AAC, e AS são utilizados para gerar amostrasque, na prática,
sejam consideradas aleatórias.
1) O que é amostragem? Qual é a principal característica da amostragem probabilística? Quando

é possível empregar amostragem não probabilística?
Pode-se dizer que amostragem é o estudo das relações existentes entre a amostra (subconjunto
do universo em estudo) e a população (conjunto universo) de onde ela foi extraída. O principal
objetivo da amostra é estimar os parâmetros populacionais (média, variância, desvio padrão,
proporção, entre outros).
A principal característica de uma amostra probabilística é de que todos os indivíduos que
compõem a população têm a mesma probabilidade, diferente de zero, de pertencer à amostra.
Basicamente, pode-se utilizar uma amostragem não probabilística quando algum indivíduo que
pertence à população tem probabilidade zero de pertencer à amostra.
2) Deseja-se testar durante um mês um novo tipo de ração alimentícia em vacas leiteiras. O
objetivo é conhecer o incremento médio de produção de leite por vaca, quando é aplicada a nova
ração. Para isto, planejou-se determinar a diferença entre a produção do leite do mês em que foi
fornecida a nova ração e a produção do mês anterior de cada vaca. Sabe-se que em qualquer
caso, antes e depois da ração, a produção de leite de vacas jovens é superior (ou pelo menos
diferente) à produção de vacas adultas, sendo esta diferença significativa. A granja conta
atualmente com 1000 vacas leiteiras e, após análise matemática e de custos, determinou-se
aplicar a ração em 30 animais.
a) Qual é a população em estudo?
As 1000 vacas leiteiras da granja em questão.
b) Qual é o tamanho da população e qual é o tamanho da amostra?
População = 1000 vacas leiteiras
Amostra = 30 vacas
c) A população é finita ou infinita? Por quê?
Finita, pois podemos enumerar cada um dos elementos que compõem a população.
d) Qual seria o parâmetro que se deseja conhecer? É possível conhecer o valor exato daquele
parâmetro?
O que deseja se conhecer é o aumento médio da produção de leite depois de aplicada à nova
ração.
Como estamos trabalhando com uma amostra não é possível saber exatamente o valor do
parâmetro.
e) Qual é o estimador que você utilizaria para estimar o parâmetro do item d?
n
∑x
i =1
i
O melhor estimador seria a média: x=
n
f) Para esse tipo de estudo, você recomendaria utilizar um processo de amostragem
probabilístico? Por quê? Qual seria este processo? Por quê?
Sem dúvida, o processo de amostragem probabilístico seria o mais indicado. Principalmente
porque todos os indivíduos têm uma mesma chance diferente de zero de pertencer à amostra.
O processo de amostragem mais indicado seria o proporcional estratificado, pois na população em
estudo percebe-se, claramente, dois subconjuntos, vacas jovens e vacas mais velhas que
apresentam diferenças significativas na produção de leite.
3) Para se obter a opinião dos brasileiros sobre a reforma agrária, entrevistaram-se 90% dos
associados de uma sociedade ruralista. Pergunta-se:
a) Qual é o tipo de amostragem empregado?
Basicamente poderíamos dizer que esta é uma amostra não probabilística, pois todos os
brasileiros, nesse caso, não possuem a mesma probabilidade de pertencer à amostra, uma vez
que somente 90% dos associados de uma sociedade ruralista serão os entrevistados.
b) Tal procedimento de amostragem é confiável? Justifique.
Não, se o objetivo da pesquisa é saber a opinião de todos os brasileiros sobre a reforma agrária,
não é entre pessoas com interesse direto no fato que se terá a verdadeira opinião da população.
Esta amostra será realizada com um sério problema de viés ou tendenciosidade.
4) Uma empresa cafeeira do sul de Minas Gerais dispõe de 3200 funcionários distribuídos nas
diversas atividades, conforme o quadro abaixo. Deseja-se sortear uma amostra de 20 empregados
desta empresa, com o objetivo de conhecer alguns de seus aspectos sócioeconômicos e culturais.
A população em estudo se distribui dentro das seguintes categorias:
Atividade Nº Empregados
Campo 1600
Armazém 720
Indústria 480
Administração 240
Gerência 160
a) Na sua opinião, seria razoável levantar as informações desejadas por meio de uma
amostragem aleatória simples de n = 160 funcionários? Justifique.
Nessa situação a amostra aleatória simples não seria a mais indicada, pois ela não mostraria o
verdadeiro perfil dos empregados da empresa. O ideal seria utilizar uma amostra proporcional
estratificada.
b) Planeje uma amostragem proporcional estratificada n = 160 determinando o tamanho da
amostra para cada atividade.
A amostra proporcional estratificada deve ser composta de forma que o número de empregados de
cada setor seja proporcionalmente representado na amostra. Assim, pode-se calcular essa
amostra, usando inúmeros recursos matemáticos, como por exemplo:
Para os empregados do campo:
3200 --------------------- 100%
1600 ------------------------ x
160000
x= = 50%
3200
Assim, os trabalhadores do campo compõem 50% do total de empregados da empresa de forma
que, 50% dos trabalhadores que comporão a amostra proporcional estratificada deverão pertencer
a esse grupo. Então, a amostra deverá ser de tamanho n = 160, 50% destes serão de
trabalhadores do campo, portanto 80 trabalhadores. Assim, deverá ser feito para todos os outros
setores, conforme resultados que podem ser melhor visualizados no quadro abaixo:
Atividade Número de Amostra proporcional

empregados estratificadas
Campo 1600 80
Armazém 720 36
Indústria 480 24
Administração 240 12
Gerência 160 8
Total 3200 160
c) Usando a calculadora, ou a tabela de números aleatórios, sorteie os componentes da amostra

para os empregados que trabalham na gerência. Explique com detalhes como você realizaria o
sorteio.
Os empregados da gerência foram numerados de 1 a 160, ordenados quanto à data de admissão
na empresa, começando pelos mais velhos de casa. Utilizando o recurso de geração de números
aleatórios da calculadora, sortearemos os 8 trabalhadores que comporão a amostra. Com o auxílio
da calculadora obtemos os números:
47 153 144 27 102 125 121 61
Portanto, os trabalhadores que correspondem a esses números é que comporão a amostra.
5) Faça o sorteio de uma amostra sistemática n = 10, para estimar o volume de madeira de um
povoamento florestal de eucalipto com 2500 árvores dispostas em 25 fileiras com 100 plantas
em cada uma delas. Apresente um croqui identificando as plantas sortedas.
N = 2500 árvores n = 10 árvores
Para a amostra sistemática:
N 2500
K= = = 250 possíveis amostras.
n 10
Assim, sorteamos um número raiz ou ponto de partida e, a partir dele, conforme nossa escolha,
dependendo da sua grandeza, adicionamos ou retiramos dele 250. Por exemplo, para este caso, o
número raiz sorteado no gerador de números aleatórios da calculadora foi o número 3, assim, a
nossa amostra será composta pelas árvores correspondentes aos números:
3 253 503 753 1003 1253 1503 1753 2003 2253
No croqui, teremos a seguinte distribuição:

Plantas
Fileiras
1 2 3 . . . . . . . . . . . . . . . . . . . . . . .50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .100
1 •
2
. •
.
6 •
.
. •
11
•
.
.
.
16
•
.
.
•
.
21
•
.
.
.
•
25
1) Responda:
a) O que é população e o que é amostra?
b) O que é censo e processo de amostragem?
c) Em que condições é feito um censo e em quais é feita a amostragem?
d) Qual o objetivo da amostragem?
2) Critique os seguintes planos amostrais:

a) Para levantar a opinião dos brasileiros sobre a importância e necessidade da reforma agrária,
decidiu-se entrevistar os membros do MST de Campo do Meio, Minas Gerais.
b) Para diagnosticar a situação econômica da agropecuária mineira foram entrevistados os
produtores de café da cidade Lavras, Minas Gerais.
c) Para se comparar duas rações de crescimento usam-se dez leitões nascidos da mesma mãe.
d) Para se comparar a percentagem de perda de grãos na debulha mecânica de duas variedades
de milho foram utilizadas setenta espigas de cada uma delas, utilizando duas máquinas
diferentes.
3) Como você selecionaria uma amostra representativa de:

a) Cem fichas com dados da produção de leite de vacas Girolandas, sabendo que as fichas estão
em cinco caixas contendo cada uma cem fichas.
b) Dez forrageiras do painel de forragicultura da UFLA para a avaliação do teor de proteína bruta.
c) Sessenta alunos de uma escola com mil alunos, onde setecentos estão na graduação e o
restante na pós-graduação.
d) Vinte folhas de uma laranjeira para avaliar o teor de cálcio.
4) Um indivíduo retirou três tomates da superfície de cada uma das caixas de tomates que
estavam no estoque de um supermercado, para caracterizá-lo quanto à qualidade. Isto é uma
amostra representativa? Justifique.
5) Proponha um plano de amostragem sistemática para avaliar a quantidade de alimento

desperdiçado nas bandejas devolvidas em um almoço no Refeitório Universítário. Para fixar
idéias, suponha que uma amostra de tamanho 40 deva ser extraída de uma população
estimada de 850 usuários nessa refeição. Com a ajuda da tabela de números aleatórios,
calcule inclusive quais bandejas deverão ser amostradas.
6) Desenvolva um planejamento completo para amostrar e avaliar várias características

socioeconômicas dos produtores de leite B associados à CAARG. A população tem uma
estrutura estratificada, segundo a produção, conforme quadro abaixo.
Produção em litros (dia) Número de cooperados Amostra

0 a 20 368
21 a 50 61
51 a 100 45
101 a 500 71
501 a 1.000 17
1.001 a 3.000 9
Um plano completo para um levantamento amostral deve conter:

a) Objetivo de pesquisa.
b) Definição da população a ser amostrada.
c) Definição das variáveis a serem estudadas.

d) Definição do método de amostragem que será utilizado, em função das características da
população e da disponibilidade de recursos.
e) Dimensione uma amostra proporcional estratificada de tamanho 60 entre os produtores de leite
tipo B.
f) Orientações para a execução do levantamento no campo.
UNIDADE 5
ESTIMAÇÃO ESTATÍSTICA
5.1. INTRODUÇÃO
Na atividade científica, quando tudo que se dispõe é de uma parte dos elementos de uma
população que se queira descrever (ou seja, como já definimos, uma amostra), então a obtenção
de conclusões a respeito da população estará presa à inerente incompleteza da amostra,
acarretando um certo grau de incerteza nestas conclusões. Lidar com esta incerteza, controlando-a
e medindo-a, é a tarefa da inferência estatística. Convém ressaltar que, sendo assim, deve ficar
claro que só tem sentido falar-se em inferência estatística quando não se conhece todos os
elementos da população. Quando temos conhecimento de toda a população (pois um censo foi
feito), então devemos falar em estatísticas descritivas.
A inferência estatística é definida como sendo o processo de obtenção de informações (ou

de descrições) sobre uma população a partir de amostras. A descrição populacional pode se dar,
como tem sido largamente comentado, mediante distribuições de frequência e por meio de
medidas descritoras, tais como média e desvio-padrão. Estas últimas são chamadas de
parâmetros populacionais.
Conceito 5.1. Parâmetro populacional. Valor que descreve uma população, em geral
desconhecido.
Alguns exemplos de parâmetros de interesse são dados a seguir.
Exemplo 1. Deseja-se ter uma idéia acerca da proporção (desconhecida) de produtores de

uma região que cultivam milho. O parâmetro em questão é a proporção p desejada.
Exemplo 2. Há o interesse no tempo médio de durabilidade dos aspersores da marca

Agro1000, bem como sua variância. Parâmetros: a média µ e a variância σ .
2
Quando se dispõe apenas de uma parte dos elementos da população (uma amostra), o
máximo que se pode conseguir são valores aproximados para os parâmetros desconhecidos,
conhecidos como estimativas. Assim, definem-se os conceitos a seguir.
Conceito 5.2. Estimativa. Valor aproximado de um parâmetro populacional desconhecido

calculado a partir de uma amostra.
Conceito 5.3. Estimação. O ato de obter uma estimativa.
Conceito 5.4. Estimador. Corresponde à expressão algébrica que permite obter uma estimativa,
ou, a variável aleatória que é usada no processo de estimação
Exemplificando, considere que se tenha calculado uma média amostral x , tendo sido
encontrado o valor 3,5. Esse valor é uma estimativa, ou seja, uma aproximação, para o parâmetro
populacional µ. A expressão que permitiu obter essa estimativa:
∑X
i =1
i
X =
n
corresponde ao estimador da média populacional. Enquanto que para anotar a estimativa x
usamos letra minúscula, para o estimador X usamos letra maiúscula. Esta é uma convenção
universal, porém, pode-se também representar o estimador de um parâmetro pelo símbolo desse
parâmetro, com um “chapéu”. No exemplo do estimador da média populacional, ele poderia, além
da notação X , ser representado por µ$ . A estimativa teria também o mesmo símbolo µ$ .
5.2. PROPRIEDADES DESEJADAS DOS ESTIMADORES
Um fato que pode acontecer é o de se dispor de dois ou mais estimadores possíveis para
um mesmo parâmetro populacional. Como exemplo, considere o parâmetro µ de uma população
com distribuição Normal para uma variável X dada. Ora, µ é a média, a mediana, e a moda da
população, quando esta é Normal, como já vimos. Logo, podemos estimar µ tanto por X , quanto
:
por X , como também por X * , respectivamente a média, a mediana, e a moda de uma amostra.
Qual destes três estimadores é melhor?
Nessas situações, é conveniente que haja critérios que permitam selecionar algum deles,
com base em determinadas propriedades. Em Estatística, um procedimento geral para a geração
de tais critérios consiste na observação do comportamento dos estimadores, caso infinitas
amostras fossem tomadas da população. Obviamente, se diferentes amostras são coletadas da
população, em geral as estimativas para os parâmetros de interesse variam de amostra para

amostra. Com isso, é possível (na maioria das vezes) prever a distribuição de frequências dessas
estimativas, ao se tomar infinitas amostras da população. Esta distribuição de freqüências, que de
fato é uma distribuição de probabilidades, já que tomamos infinitas amostras, é denominada
distribuição de amostragem. Então, uma distribuição de amostragem é uma distribuição de
probabilidades de um estimador. Exemplificando, imagine uma população que tenha distribuição
Normal e que, da qual, infinitas amostras são tomadas, sendo que em cada uma dessas amostras
a média amostral x é calculada (Figura 5.1).
Figura 5.1. Representação da distribuição de amostragem de X .
Deve ser notado que o conjunto de infinitas amostras tomadas de uma população é em si mesmo
uma população infinita, e assim a distribuição de frequência de X (ou seja, sua distribuição de
amostragem) corresponde a um modelo probabilístico, ou seja, uma distribuição de probabilidade.
Dentre as várias propriedades desejadas para um estimador, isto é, dentre as várias

propriedades que uma distribuição de amostragem pode ter, serão vistas aqui apenas duas: a não-
tendenciosidade e a precisão.
5.3. NÃO-TENDENCIOSIDADE
Para a compreensão dessa propriedade, suponha um parâmetro qualquer θ. Este θ pode

ser a média µ da população, a variância σ , o desvio-padrão σ, a proporção p, entre outros. Um
2
estimador θˆ é chamado não-tendencioso se, ao se tomar infinitas amostras de uma população, o
valor médio de θˆ é igual a θ. Ou seja, θˆ é não-tendencioso se sua esperança matemática for igual
a θ:
()
E θˆ = θ
Um estimador não-tendencioso também é chamado de não-viciado, não-viesado. Todas estas

nomenclaturas são equivalentes.
Este aspecto está ilustrado na Figura 5.2, que apresenta a distribuição de amostragem de
dois estimadores θˆ1 e θˆ2 , que estimam o mesmo parâmetro θ.
Figura 5.2. Distribuição de amostragem de dois estimadores de θ, θˆ1 e θˆ2 .
Observa-se que, em média, o valor de θˆ2 é igual a θ, ao contrário de θˆ1 , cujo valor médio
é menor que θ. Assim, diz-se que θˆ2 é não-tendencioso e θˆ1 é tendencioso. θˆ2 deve ser preferido,
pois para uma dada amostra, tem-se uma confiança maior dele estar próximo do verdadeiro e
desconhecido valor de θ, que objetiva-se estimar. Outra maneira de falar seria dizer que um
estimador não-tendencioso não tende nem a subestimar nem superestimar o valor θ populacional.
No exemplo acima, θˆ1 tende a subestimar o verdadeiro valor de θ, enquanto θˆ2 nem sub nem
superestima θ.
Este critério é bom e desejável, mas pode ainda não permitir discriminar entre estimadores.
:
Outra vez como exemplo, podemos verificar que tanto X , quanto X e X * são não-tendenciosos
para µ, isto é,
:
E ( X ) = µ , E ( X ) = µ , E ( X* ) = µ .
Então, como escolher entre eles? Por causa disto, é necessário usar outro critério, o critério de
precisão, que será estudado à seguir.
5.4. PRECISÃO
Para ilustrar esse conceito, considere ainda mais uma vez um estimador qualquer
θˆ . Se infinitas amostras forem coletadas, seu valor vai variar de amostra para amostra, ou seja,
esse conjunto de valores do estimador θˆ apresentará uma certa variância, dada por
()
Var θˆ = s q̂2 .
Essa variância nos fala sobre o conceito de precisão. Esse conceito é um conceito relativo, pois, se
a variância de um estimador θˆ1 é menor que a de um outro estimador θˆ2 , então θˆ1 é mais preciso
que θˆ2 , isto é, sempre precisamos de pelo menos dois estimadores para dizer qual é mais preciso
do que qual. A Figura 5.3 ilustra esse aspecto. Trata-se de dois estimadores não-tendenciosos,
mas θˆ1 deve ser preferido, por ser mais preciso. Observe que poderíamos, se quiséssemos, definir
1
precisão como .
σ θ2ˆ
Figura 5.3. Distribuição de amostragem de dois estimadores não-tendenciosos θˆ1 e θˆ2 , tais que
s q̂2
1
< s q̂2 . 2
5.5. ESTIMADORES NÃO-TENDENCIOSOS E PRECISOS
A junção das duas propriedades, a de não-tenenciosidade e de precisão, é o ideal.

Estimadores θˆ com E( θˆ ) = θ e Var( θˆ ) pequena são os ideais. Estes são estimadores não-
tendenciosos com pequena variância. Quando encontramos um estimador não-tendencioso que
tem a menor variância possível dentre todos os estimadores não-tendenciosos, estes são
chamados MVUE, sigla em inglês para minimum variance unbiased estimator, estimadores não-
tendenciosos de variância mínima. Dada a média populacional µ, pode-se demonstrar que a média
amostral X é MVUE para µ. Em outras palavras, nada é melhor do que a média amostral X para
se estimar uma média populacional µ, mesmo que existam outros concorrentes (tais como a
mediana ou a moda). Nas próximas páginas, as figuras mostrarão de modo lúdico (ilustrando com
tiro-ao-alvo) o que seriam tais propriedades dos estimadores:
1. A “mosca” do alvo é o parâmetro populacional que se quer estimar, digamos a média µ

da população.
2. Cada “tiro” dado é uma estimativa feita, no caso o cálculo da média x . Observe que
estamos dando vários “tiros” para tentar acertar a “mosca”: isto equivale a retirar
muitas amostras de tamanho n de uma mesma população com média µ, e, em cada
uma, obtermos uma média x diferente. Cada uma dessas médias x serão diferentes
umas das outras (e todas quase certamente serão diferentes da média µ populacional).
Na prática, é claro, retiramos apenas uma amostra de tamanho n, e,
consequentemente, daremos um tiro somente, mas as figuras nos mostram o que
aconteceria se fizéssemos muitas amostragens, e como se comportariam as várias
estimativas. Obviamente, também, na prática, nunca sabemos onde está a “mosca”, já
que nunca conhecemos µ.
3. Há 6 figuras, sendo as 3 primeiras as mais desejadas, progressivamente, e as 3

últimas as indesejadas. Nestas 3 últimas figuras, vê-se como estimadores
tendenciosos podem ser muito inconvenientes, mesmo que sejam precisos.
Estimador não-tendencioso,
pouco preciso
médio preciso
muito preciso
Estimador tendencioso,
pouco preciso
Estimador tendencioso,
médio preciso
Estimador tendencioso, muito

preciso
5.6. A NATUREZA DA ESTIMAÇÃO
A estimação por ponto, mesmo sendo feita por meio de um estimador não-tendencioso de
pequena variância (isto é, não-tendencioso e preciso), não resolve completamente o problema da
estimação. Ainda restam duas questões:
(i) Qual é o tamanho da confiança (probabilidade de estarmos certos) que podemos ter no
valor estimado quanto a ele ser igual ao valor do parâmetro? 90%? 10%? 95%? 99%?
Quanto?
(ii) Qual é o tamanho do erro cometido na estimação? (Este erro é medido por θˆ - θ ).
Podemos ajuntar essas duas questões em uma só questão: qual é a probabilidade de que
o erro absoluto de estimação | θˆ - θ | seja menor ou igual à um dado valor, digamos, c. Em
símbolos:
P (| θˆ - θ | ≤ c)
Como exemplo, considere o seguinte problema: uma amostra aleatória de n = 315 clientes
de uma provedora de Internet mostrou, que , em média, estes mantêm um uso de 118,1 MBytes de
memória ocupada com arquivos em sua caixa postal de emails, com um desvio-padrão amostral
igual à 189,7 MBytes. Qual seria o valor médio desta ocupação em todos os seus N = 114.337
clientes? A estimação por ponto dá o valor
µ̂ = x = 118,1 MBytes
para a média desejada. Mas, além dessa estimativa pontual, gostaríamos de saber algo do tipo
abaixo:
Valor do erro absoluto Probabilidade do erro não superar
| µ̂ - µ | o valor ao lado
50 Mbytes ?
40 MBytes ?
30 MBytes ?
20 MBytes ?
10 MBytes ?
5 MBytes ?
1 MBytes ?
0,1 MBytes ?
Esse problema é resolvido, na Estatística, por meio do conceito de intervalos de confiança (IC), ou,
equivalentemente, estimação por intervalo.
Assim posto, vemos que existem, então, dois tipos de estimação: por ponto e por intervalo.
Quando simplesmente se obtém um só valor de estimativa para um parâmetro, diz-se que se trata
de uma estimação por ponto, ou pontual. No entanto, como temos dito, quase sempre a estimação
por ponto, sozinha, é pouco informativa, porque ela não fornece uma idéia do grau de erro e de
confiança que se comete ao assumir o valor da estimativa como sendo igual ao do parâmetro
desconhecido. Esse erro e confiança podem ser quantificados da seguinte forma. A partir da
distribuição de amostragem dos estimadores é possível elaborar um intervalo [a, b], de tal maneira
que a probabilidade de que uma dada amostra contenha o verdadeiro valor do parâmetro
desconhecido seja conhecida eestabelecida, ou seja:
P[a < θ < b] = 1 − α
onde θ é o parâmetro sendo estimado. A probabilidade 1 − α mede o grau de confiança que se tem
na estimação de θ, e é, portanto, chamada de coeficiente de confiança. O intervalo [a, b] é
denominado intervalo (IC) de confiança, e a sua elaboração é chamada de estimação por intervalo.
Um intervalo de confiança pode ser interpretado segundo os seguintes argumentos:
(i) Se muitas e muitas amostras fossem coletadas, e, para cada uma dessas amostras
fosse constituído um IC, então uma proporção de ( 1 − α ).100% destes IC conteriam o
verdadeiro valor θ do parâmetro sendo estimado.
(ii) Um dado IC para o parâmetro desconhecido θ tem probabilidade ( 1 − α ). 100% de

conter o verdadeiro valor de θ . Em outras palavras, um IC tem ( 1 − α ). 100% de
probabilidade de estar “correto”.
Os tópicos que se seguem referem-se à estimação dos principais parâmetros de interesse.
5.7. ESTIMAÇÃO POR PONTO DE µ E σ2
O procedimento para se estimar a média e a variância populacionais varia conforme o tipo

de amostragem empregado. Nesse tópico será visto como proceder quando a amostragem é
aleatória simples. Neste caso, o parâmetro µ pode ser estimado pela média amostral, ou seja, pelo
estimador:
∑x
i =1
i
µ̂ = X =
n
Pode-se demonstrar, como já dito, que esse estimador é não-tendencioso e, além disso, dentre os
não tendenciosos possíveis, é o de maior precisão (mínima variância). Este é o estimador
recomendado tanto para populações finitas como infinitas.
No tocante a σ , seu estimador é dado por:

2
n
1
. ∑ (x i − x )2
2
S =
n − 1 i =1
Esse é o estimador para σ 2 que vamos usar, seja a população finita ou infinita, pois S é não-
2
tendencioso e de variância mínima. Alguns autores, porém, advogam a possibilidade de uso de um

outro estimador, a saber:
∑ (x − x)
2 1 2
D = . i
n i =1
Esse estimador alternativo tem sua existência justificada pelo argumento de que ele é de máxima
verossimilhança, isto é, “de valor mais provável”. Porém, pode-se demonstrar que D2 é tendencioso
(não é exato), levando a subestimativas de σ 2 . Essa deficiência de D é que nos faz escolher S
2 2
para estimar σ 2 .
5.8. ESTIMAÇÃO POR INTERVALO PARA A MÉDIA µ
Nesta seção será abordada a estimação por intervalo para µ, quando a amostra é do tipo
aleatória simples tomada em uma população infinita ou finita muito grande (que equivale, na
prática, a infinita). Utilizaremos o conceito de distribuição de amostragem, que é a distribuição de
probabilidade de uma variável aleatória definida sobre as amostras retiradas em uma dada
população.
Para a construção de um intervalo de confiança para µ é conveniente estudar distribuições
de amostragem associadas a seu estimador pontual X . Para tanto, existem alguns teoremas, para
casos onde a população pode ser descrita por uma distribuição Normal, que são úteis. Passemos à
conhecê-los.
Teorema 5.1
Seja uma população descrita por uma variável X com distribuição Normal N(µ, σ ). Se infinitas
2
amostras de tamanho n são coletadas nessa população, então a média X dessas amostras terá
distribuição Normal com média µ e variância σ /n. Outra maneira de afirmar esta normalidade de
2
X−µ
X é dizer que a variável Z = tem distribuição Normal com média 0 e variância 1 (esta é a
σ
n
Normal-padrão, vista no Capítulo 3).
Observe que, neste teorema acima, a variância populacional σ deve ser conhecida,
2
podendo-se então utilizar diretamente este teorema para calcular probabilidades associadas a X ,
pois, se:
 σ2 
X ∼ N  µ, 

 n 
então, sabe-se que a variável:
X−µ
Z= ∼ N (0,1) , isto é,
σ
n
Z tem distribuição Normal com média 0 e variância 1, como já dito.
Entretanto, é muito pouco provável que, em uma situação real, σ seja conhecida. Assim,
2
faz-se necessário o uso do próximo teorema:

Teorema 5.2
Seja uma população descrita por uma variável X com distribuição Normal N(µ, σ ). E sejam infinitas
2
2
amostras de tamanho n coletadas nessa população, a partir das quais são calculadas X e s .
X- m
Então a variável T = tem distribuição conhecida como t de Student, que tem como único
S2
n
parâmetro a constante ν = n – 1, denominada número de graus de liberdade.
A distribuição t, mencionada no Teorema 5.2, é uma função densidade de probabilidade

indexada por um único parâmetro ν, que nada mais é do que o número de graus de liberdade das
amostras em questão:
ν=n–1
O gráfico da distribuição t de Student é:
ƒ (t)
Observe que ela se parece com a Normal, pois é simétrica com forma de sino. Porém,
comparando-a com a Normal-padrão (média 0 e variância 1), a t é mais achatada, isto é, mais
“esparramada”.
Essa distribuição possui as seguintes propriedades:

i) A média da variável T, ou seja, a esperança E(T), é igual a zero, da mesma forma que a
variável Z.
ii) É semelhante à distribuição Normal, pois é simétrica em relação à média e tem forma
campanular (sino).
iii) A distribuição t é definida a partir de um único parâmetro, o número ν de graus de

liberdade.
Na Tabela 2 do Apêndice, apresentam-se os valores tabelados para a distribuição t, para

valores fixos de probabilidade (simbolizados por α) e de maneira que:
P[T > tα] = a
onde tα corresponde a valores tabelados (ver Figura 5.4). Esses valores tα são chamados quantis
da distribuição t, e são correspondentes as áreas a . Para ficarmos com a notação conforme a
convenção universal, mudaremos a notação de α para α/2.
Deve-se notar que, da mesma maneira que a variável Z, a distribuição de t é simétrica e

assim teremos
P[T > tα] = P[T < - tα] =α
o que facilita sobremaneira o cálculo de probabilidades.
Finalmente, tendo definida a distribuição t, é possível agora construir um intervalo de

confiança para o parâmetro µ que não necessita do desvio-padrão σ populacional. Como visto, a
tais intervalos é associado um coeficiente de confiança γ = 1 - α tal que:
P[a < µ < b] = 1 - α = γ

/2 /2
/2 /2
Figura 5.4. Distribuição t de Student. A área hachurada corresponde aos valores de α/2, para os
quais t α são tabelados.

2
A distribuição t permite determinar valores para a e para b, pois o valor de t é obtido a partir de X
2
e S (as quais podem ser calculadas) e também de
X- m
T=
S2
n
ou seja, T é uma transformação, semelhante à transformação Z. Assim, um intervalo [a, b]
simétrico para a variável X tem uma equivalência em probabilidade a um certo intervalo [- t α , t α ]

2 2
(ver Figura 5.5).
Fixando um certo valor para α, qual deve ser o valor de γ estipulado? É um cálculo simples:
sabe-se que a área total sob a distribuição t (assim como em qualquer função densidade) é igual a
1, então, se a área dentro do intervalo é igual a 1 - α, então a área fora do intervalo é igual a:
Área fora do intervalo = 1 - γ = 1 – (1 – α) = α
É conveniente que os intervalos de confiança, para a maioria das situações, sejam simétricos, pois
isso garante intervalos de menor comprimento. Assim, essa área α deve ser a área que está
“sobrando” para fora do IC, dividida por 2, de tal maneira que:
Figura 5.5. Equivalência (em probabilidade) entre as distribuições de X e de t.
P[T > t α ] = P[T < - t α ]

2 2
Na Figura 5.5, ilustram-se essas considerações para γ = 1 - α = 95%. Assim, dividindo a área fora
do intervalo por 2, tem-se, de maneira geral:
1− γ
α/2 =
2
No exemplo da Figura 5.5, o valor de α/2 é igual a 0,025.
Pela distribuição t, tem-se assim que:
P [− t α
2
]
< T < t α 2 = 1-α
X−µ
Mas como T= então:
S
n
P = 1-α
Resolvendo essa inequação para µ, tem-se:
 
 X−µ 
P − t α ≤ ≤ tα  = 1 - α
 2 S 2 
 n 
 S S 
P − t α ≤ X −µ ≤ tα  =1-α
 2 n 2 n
 S S 
P − X − t α ≤ −µ ≤ −X + t α  =1-α
 2 n 2 n
 S S 
P X − t α ≤ µ ≤ X + tα  =1-α
 2 n 2 n
Como os intervalos de confiança para µ têm a forma geral:
P[a < µ < b] = 1 - α
tem-se então uma maneira de se determinar a e b, a partir da distribuição t, fazendo:
S2 S2
a = X - ta b = X + ta
2
n 2
n
Será apresentado a seguir um exemplo numérico. Suponha-se que um engenheiro agrícola

precisa determinar a velocidade de infiltração básica (VIB) de um solo de uma grande várzea, para
um projeto de irrigação. Para tanto, ele represa água em sulcos de comprimentos de 1m (este
método é conhecido como “Infiltrômetro de sulco”). Como se trata de uma grande várzea, para
representar bem a sua VIB, o engenheiro faz essa medição em 10 diferentes pontos de diferentes
sulcos tomados ao acaso na várzea utilizando uma Amostragem Aleatória Simples. Suponha-se
-1
que os resultados (em cm.h ) tenham sido os seguintes:
x1 = 0,8 x2 = 0,7 x3 = 0,8 x4 = 0,9 x5 = 1,0
x6 = 0,9 x7 = 0,8 x8 = 1,1 x9 = 0,8 x10 = 0,7
Esses dados correspondem a uma amostra com n = 10 elementos da população formada pelos
infinitos pontos no solo da várzea. Pressupondo que a VIB, nesses infinitos pontos, possa ser
descrita por uma distribuição Normal N(µ, σ2), onde µ e σ2 são desconhecidos, o objetivo do
engenheiro agrícola é o de estimar o parâmetro µ (ou seja, a VIB média do solo), para que se
possa determinar fatores importantes do projeto de irrigação, como vazão, turno de rega, entre
outros. Assim, a estimativa por ponto é feita pela média amostral, que é o estimador adequado
para µ:
µ$ = x = 0,85 cm.h-1
Como foi pressuposta uma distribuição Normal para a VIB, é possível construir um
intervalo de confiança para µ a partir da distribuição t. Inicialmente, é necessário calcular a
variância amostral:
2
s = 0,0161 (cm.h ) =
-1 2 (0,8 − 0,85 )2 + (0,7 − 0,85 )2 + ... + (0,7 − 0,85)2
10 − 1
E, assim, como:
 s2 s2 
P x − t α2 < µ < x + t α2  = 1-α
 n n 
então:
 0,0161 0,0161 
P 0,85 − t α 2 < µ < 0,85 + t α 2  = 1-α
 10 10 
Utilizando um coeficiente de confiança de 1 - α = 0,95, tem-se que:
α 1− 0,95
= = 0,025
2 2
α
Consultando a tabela de t (ver Tabela 2 do Apêndice) para = 0,025 e com um número de graus
2
de liberdade igual a (10 - 1) = 9, tem-se o valor:
t0,025 = 2,262
e assim:
0,0161
a = 0,85 − 2,262 = 0,85 - 0,0908 = 0,7592
10
0,0161
b = 0,85 + 2,262 = 0,85 + 0,0908 = 0,9408
10
Portanto, o intervalo de confiança [0,7592 , 0,9408] é tal que:
P[0,7592 < µ < 0,9408] = 0,95 = 95%
A interpretação desse intervalo é:
(i) A média da VIB na várzea (µ) é um número desconhecido, pois não inspecionamos
todos os pontos da várzea, fazendo a medição em apenas uma amostra de n = 10
pontos, mas, estimamos que essa média, apesar de desconhecida, está entre 0,7592
-1 -1
cm.h e 0,9408 cm.h , com uma probabilidade de acerto de 95%, isto é, estamos
-1
“95% certos” de que a VIB média não é menor do que 0,7592 cm.h e não é maior do
-1
que 0,9408 cm.h .
(ii) Se fizermos muitos e muitos intervalos nessa várzea (cada um baseado numa diferente
amostra de 10 pontos), então, aproximadamente 95% destes intervalos conterão a
verdadeira média VIB.
É pertinente agora uma observação: a grandeza
s2 s
=
n n
utilizada na construção de intervalos de confiança para µ, a partir de amostras de tamanho n, dá

uma idéia da precisão com que o parâmetro é estimado. Ou seja, quanto menor essa grandeza,
menor será o comprimento do intervalo de confiança. Na realidade, ela corresponde a estimativa
do desvio padrão da variável X . Esse desvio padrão recebe o nome especial de erro-padrão da
média.
Conceito 5.5. Erro-padrão da Média. Desvio-padrão da variável X . O erro-padrão é o desvio-

padrão da média amostral e confere uma idéia acerca da precisão com que µ é estimada.
Esse erro-padrão da média é utilizado dentro de um IC como informação para o cálculo do

intervalo para a média, e fora do IC é utilizado como informação a respeito do grau de precisão
com que podemos confiar uma dada estimativa para a média.
5.9. ESTIMAÇÃO POR INTERVALO DA MÉDIA µ PARA

POPULAÇÕES NÃO-NORMAIS
O leitor deve ter percebido a importância de se assumir que a população amostrada tenha
distribuição Normal para a construção de intervalos de confiança, principalmente pelo Teorema
5.2, que torna possível a utilização da distribuição t. Mas, e se a população não for Normal? Nesse
caso, serão consideradas duas situações, a seguir apresentadas:
a) A amostra é grande (n elevado, acima de 30, adequado em muitas situações, ou mais ainda,
acima de 50).
Se a amostra possui um elevado número de elementos, então o seguinte teorema pode ser
utilizado:
Teorema 5.3 (Teorema Central do Limite). Seja uma população qualquer, com média µ e variância
σ2. Se infinitas amostras grandes de tamanho n suficientemente grande são coletadas nessa
população, então a média X dessas amostras terá distribuição aproximadamente Normal, com
média µ e variância σ /n, melhorando esta aproximação à medida que n tende ao infinito.
2
O teorema 5.3 acima, conhecido como o Teorema Central do Limite, poderia, se σ fosse
2
conhecido, ser diretamente empregado para a construção de intervalos de confiança, pois sabe-se
que:
X−µ
Z=
σ
n
tem distribuição Normal N(0, 1) e com valores tabelados. Dessa maneira, pode-se fazer:
 σ2 σ2 
P  x − zα < µ < x + z α  = 1-α
 2
n 2
n 
 
oriunda de uma manipulação algébrica muito semelhante à que foi vista para a distribuição t.
No entanto, quase sempre a variância populacional σ é desconhecida. Devemos então

2
substituir z por t, já que substituímos σ por s . Resta ainda a questão: quando consideraremos n
2 2
como grande? Para responder a essa questão, consideraremos, aqui, o critério empírico de n ≥ 50.
Com isso, um intervalo de confiança aproximado é dado por:
 s2 s2 
P x − t α < µ < x + t α  ≅ 1-α
 2
n 2
n 
 
b) A amostra é pequena e a população não é Normal.
Nesses casos, a distribuição t não fornece boa aproximação e, então, estudos sobre a
distribuição da população devem ser feitos, para se determinar modelos probabilísticos que
descrevam adequadamente a população. Em seguida, distribuições de amostragem exatas devem
ser obtidas e os intervalos de confiança devem ser baseados nelas.
Aqui não serão estudados tais casos, que são mais bem colocados em disciplinas
avançadas.
5.10. ESTIMAÇÃO DE PROPORÇÕES
Um parâmetro para o qual frequentemente tem-se muito interesse é a proporção “p” dos
indivíduos de uma população que guardam alguma característica de interesse. Como exemplos,
tem-se a proporção de eleitores simpatizantes de um candidato, proporção de agricultores que
comprariam um novo insumo agrícola, de árvores doentes em um povoamento, de peças
defeituosas num pomar de produção, entre outros. Na realidade, a menos que se conheça toda a
população, em geral p não é conhecido. Nesse caso, uma amostra aleatória simples (AAS) poderia
ser coletada, de maneira a possibilitar a estimação de p. Supondo que, dos n indivíduos
amostrados, x deles apresentam a característica de interesse, então, o estimador por ponto de p é
igual a:
x
p̂ =
n
E a estimação por intervalo? Uma solução consiste na construção de um intervalo de

confiança aproximado, utilizando a aproximação da distribuição Normal. Admitindo que a
aproximação Normal é satisfatória, intervalos de confiança aproximados podem ser construídos
mediante a distribuição de Z:
 pˆ qˆ pˆ qˆ 
P  pˆ − zα / 2 < p < pˆ + zα / 2  =1-α
 n n 
onde zα/2 é um valor da Tabela de Z tal que:
P[Z > zα/2] = α/2
Outro motivo pelo qual o intervalo acima seja apenas aproximado é o de que o termo:
σ (p̂ ) =
pq
n
que corresponde ao erro padrão da proporção, está sendo estimado por:
σˆ (p̂ ) =
pˆ qˆ
n
Como exemplo, considere um exemplo de um administrador que tenha que selecionar

mão-de-obra para a safra de uma cultura cultivada em sua empresa rural e para tanto ele iria
avaliar 60 candidatos na região. Suponha que ele tenha, dentre os 60 candidatos, encontrado 38
aptos. A estimativa por ponto de verdadeira proporção p depessoas aptas em toda a região é:
x 38
p̂ = = = 0,63
n 60
e assim q̂ = (1 - p̂ ) = 1 - 0,63 = 0,37
O erro padrão da proporção é estimado como:
σˆ (p̂ ) =
pˆ qˆ 0,63.0,37
= = 0,06
n 60
E assim o intervalo de confiança com 95% de confiança é dado por:
P [0,63 − z 0,025 0,06 < p < 0,63 + z 0,025 0,06] = 0,95
O valor de z correspondente é igual a z0,025 = 1,960 (valor de z correspondente à probabilidade

0,475 na Tabela 1.1 do Apêndice). E assim:
P [0,63 − 0,12 < p < 0,63 + 0,12] = 0,95
P [0,51 < p < 0,75 ] = 0,95
Ou seja, a proporção de candidatos, na região, aptos ao serviço está entre 0,51 e 0,75 , com 95%
de confiança.
5.11. DIMENSIONAMENTO DE AMOSTRAS
No dimensionamento do tamanho de amostras para estimação de proporções, utiliza-se o

termo
pˆ qˆ
zα / 2
n
Que fornece, no intervalo de confiança, a margem de erro (para cima ou para baixo) em relação ao
verdadeiro valor de p, desconhecido. Note-se que, se p fosse conhecido, a variância pq/n também
seria conhecida, e assim a margem de erro utilizando a variável Z seria ainda mais apropriada:
pq
zα / 2
n
admitindo, é claro, a aproximação Normal como satisfatória.
Pode-se facilmente demonstrar, utilizando o conceito de derivada, que o produto pq atinge

o valor máximo quando p = q = 0,5. Nesse caso, a margem de erro será máxima. Em pesquisas
eleitorais, por exemplo, é frequente a necessidade do conhecimento do tamanho da amostra n que
deve ser utilizado para que a margem de erro seja de, por exemplo, 2 pontos percentuais, ou 2% =
0,02. Para tanto, basta considerar a pior situação possível (quando p = q =0,5). Por exemplo,
utilizando um coeficiente de confiança de 95%, o valor de z0,025 é igual 1,96. Estipulando a margem
de erro como sendo 2%, então:
pq
zα / 2 = 0,02
n
0,5.0,5
1,96 = 0,02
n
Resolvendo esta equação, tem-se:
2 0,25 2
(1,96) = (0,02)
n
E assim:
(1,96)2 0,25
n= = 2401
(0,02)2
Ou seja, seria necessário entrevistar 2401 eleitores para uma pesquisa eleitoral com margem de
erro igual a 2%. Em geral, na divulgação dessas pesquisas, não se fala nada a respeito do
coeficiente de confiança, o que deveria ser feito.
No dimensionamento do tamanho de amostras para estimação de médias, será

considerado o caso de estimação da média por intervalo. Dessa forma:
 s2 s2 
P x − tα / 2 < µ < x + tα / 2  =1-α
 n n 
 
O termo:
s2
tα/2 =d
n
2
é a margem de erro da amostragem. Se uma estimativa preliminar s for disponível (por exemplo,
utilizando uma amostra-piloto), então o dimensionamento da amostra seria dado por:
t α2 / 2 s 2
n=
d2
A título de ilustração, considere o exemplo do engenheiro agrícola que deseja estimar a

VIB de um solo de várzea. Suponha que ele deseja uma margem de erro igual a:
d = 0,07 cm.h-1 , isto é, ele não admite errar mais do que 0,07 cm.h-1 nesta estimação.
Tendo ele composto uma amostra-piloto com 5 elementos é possível obter uma estimativa
preliminar da variância igual a s = 0,0200 (cm.h ) . O tamanho de amostra adequado com 1 - α =
2 -1 2
95% de não se ter uma margem de erro maior que 0,07 é dado por:
t α2 / 2 0,0200 t 02,025 0,0200

n= =
(0,07)2 (0,07)2
O valor de t consultado deve ser aquele correspondente à amostra-piloto, ou seja, com (5 - 1) = 4
graus de liberdade, e assim obtém-se t0,025 = 2,776. Com isso:
t 02,025 0,0200
n= ≅ 32 elementos
(0,07 )2
Isto quer dizer que o engenheiro deverá utilizar uma amostragem com 32 pontos na várzea. Com
-1
estes 32 pontos, sua estimativa de média não diferirá da verdadeira média em mais de 0,07 cm.h :
( x - µ) ≤ 0,07 cm.h .
-1

1) Foi feito um levantamento na região do sul de Minas Gerais por meio de uma amostra aleatória,
anotando-se as propriedades rurais onde os pecuaristas fazem a vacinação do rebanho para
prevenção da raiva bovina. Constatou-se que das 213 propriedades visitadas, 129 delas vacinaram
os seus rebanhos nos últimos dois anos.
a) Estime a proporção dos produtores da região que vacinam seus rebanhos contra a raiva.
Temos que n = 213 e x = 129, assim:
x 129
pˆ = = = 0,6 = 60%
n 213
Portanto, a proporção dos produtores que vacinam seus rebanhos é de 60%.
b) Construa o intervalo de confiança de 95% para a proporção p da população.
p̂q̂
IC (95%) ⇒ p̂ ± e sendo que e = Z α/2 , portanto:
n
0,6.0,4
IC (95%) ⇒ 0,6 ± 1,96
213
IC (95%) ⇒ 0,6 ± 0,07
IC (95%) ⇒ 0,53 < p < 0,67

c) Qual é o erro da estimativa para a estimação de p com 90% de confiança?
Com o valor tabelado de z para 90%(1,645) é só calcular o novo erro:
p̂q̂ 0,6.0,4
e = z α/2 = 1,645 = 0,055
n 213
d) Quantas propriedades deverão ser visitadas no futuro para se estimar p com um erro de 3% e
confiança de 95%?
Aqui podemos utilizar uma fórmula com o “n” já isolado para facilitar os cálculos:
 pˆ qˆ   0,6.0,4 
n = zα22 ×  2  = 1,96 2  2 
= 1024,43 ≅ 1025
e   0,03 
Portanto, para se estimar a proporção dos produtores rurais que vacinam seus rebanhos com erro
de 3% e nível de confiança de 95%, deveremos visitar 1025 propriedades.
2) Determine o intervalo com 90% de confiança para a seguinte situação.

Dados: x = 20,0 s X = 1,5 n = 25
sX
x ± t α/2
n
1,5
20,0 ± 1,711
25
20,0 ± 0,5133
Assim:
IC(90%)⇒ 19,487 < µ < 20,5133
3) Determine um intervalo de confiança de 98% para a verdadeira proporção populacional, se x =

50 e n = 200.
x 50
pˆ = = = 0,25
n 200
Construindo o intervalo:
p̂q̂
p̂ ± Z α/2
n
0,25.0,75
0,25 ± 2,33
200
0,25 ± 0,07
IC(98%)⇒ 0,18 < p < 0,32
4) Numa Universidade, foi tomada uma amostra de 40 estudantes, anotando-se as suas alturas em
cm. Os resultados forneceram:
40 40
∑
i =1
x i = 6.950 ∑x
i =1
2
i = 1.213.463
a) Encontre as estimativas por ponto de µ e de σ .
Calculando a média da amostra:

40 i
xi
6.950
∑
x
173,75
cm
1n
)
40
=
= = = =
Calculando o desvio padrão da amostra:

  40 
2 
1 

40

 ∑ xi 


  2
 i =1   = 1 1.213.463 − 6.950  = 151,29 cm 2
s =
2
∑
n − 1  i =1
xi −
2
n  40 − 1  40 
 
 
 
s = 12,30 cm
b) Construa o intervalo de confiança de 95% para a média da população. Interprete.
IC( µ )95%⇒ x ± e
Deveríamos usar a estatística t, pois estamos usando s, o desvio-padrão da amostra. Alguns

autores propõem que, para n>30, a estatística t pode ser aproximada pela estatística z. Usando
então esta aproximação:
s
x ± z α/2
n
12,30
173,75 ± 1,96
40
173,75 ± 3,81
IC( µ )95%⇒ 169,94 < µ < 177,56
Com confiança de 95%, podemos afirmar que a verdadeira média da população se encontra
inserida entre 169,94 e 177,56.
Obs. Você mesmo pode fazer este IC com a t para 40-1 = 39 graus de liberdade, e verificar se há
grande diferença. Você verá que não há.
c) Construa o intervalo de confiança de 99% para a média da população. Interprete.
IC( µ )99%⇒ x ± e
Usando a aproximação da z:
s
x ± z α/2
n
12,30
173,75 ± 2,575
40
173,75 ± 5,0
IC( µ )99%⇒ 168,75 < µ < 178,75
Com confiança de 99%, podemos afirmar que a verdadeira média da população se encontra
inserida entre 168,75 e 178,75.
d) Confronte os resultados de (a) e (b) e discuta as diferenças.
Observemos os dois intervalos:
IC( µ )95%⇒ 169,94 < µ < 177,56 ⇒ Amplitude intervalar de 7,62
IC( µ )99%⇒ 168,75 < µ < 178,75 ⇒ Amplitude intervalar de 10,00

Pode-se perceber que quanto maior é a confiança exigida, maior a amplitude do intervalo de
confiança. Assim, grau de confiança e amplitude intervalar são diretamente proporcionais.
e) Quantos estudantes seriam necessários para num próximo estudo estimar a média da
população com 95% de confiança e um erro 10% menor que o do item (b).
O erro no item (b) é 3,81%, como queremos um erro 10% menor, temos que:
e = 3,81 − (3,81× 0,1) = 3,43
Agora com o erro 10% menor já definido, calculamos o tamanho da nova amostra:
2 2
z ×s  1,96 × 12,30 
n =  α/2  =   = 49,40 ≅ 50
 e   3,43 
Portanto, para estimarmos a média da população com 95% de confiança e um erro 10% menor, o
tamanho da nova amostra deverá ser de 50 estudantes.
1) Uma empresa responsável pelos pedágios de uma estrada fez recentemente uma pesquisa
sobre as velocidades desenvolvidas no período das 22 às 24 horas. No período de observação,
100 carros passaram por um aparelho de radar a velocidade média de 140 k.h-1, e desvio-padrão
-1
de 30 k.h .
a) Estime a verdadeira média populacional
b) Construa um intervalo de confiança de 95% para a média populacional
2) Num concurso de produtividade de milho realizado na cidade de Lavras – MG, foram sorteadas
2
12 parcelas de 40m na lavoura de um produtor local. Após a colheita, os fiscais pesaram as
produções das parcelas obtendo os seguintes resultados em kg:
24 26 25 27 33 32
27 26 24 23 25 27
a) O produtor em questão afirma que na sua lavoura, o rendimento médio é da ordem de 7,5
-1
t.ha . Você concorda com a afirmação do produtor? Trabalhe com um coeficiente de confiança
de 95% e justifique sua resposta. Observe que os dados das parcelas estão expressos em
-2 -1
kg.40m e a afirmativa do produtor é feita em t.ha . Para compará-las, é necessário que os
dados estejam na mesma grandeza. A sugestão é que os dados das produções das parcelas
sejam transformados para t.ha-1, utilizando o fator de correção:
0,001t
= 0,25 t.ha −1
0,004ha
b) Qual deverá ser o tamanho da amostra para se estimar o rendimento médio com um erro de
-1
0,1 t.ha com confiança de 95%?
c) Qual deverá ser o tamanho da amostra para se estimar o rendimento médio com um erro de
0,1 t.ha-1 com coeficiente de confiança de 99%?
3) Um pecuarista se entusiasmou por nova ração amplamente divulgada pelos meios de

comunicação. Para verificar a eficiência da ração, ele selecionou uma AAS de 49 bois de seu
rebanho e os alimentou por 30 dias, obtendo um ganho de peso médio de 31,7 kg com um desvio-
padrão de 2,6 kg.
a) Construa o intervalo de confiança de 95% para a média e interprete.
b) Qual deverá ser o tamanho da amostra para que o erro não seja superior a 0,7 kg com
probabilidade de 95%.
4) Determine o intervalo de confiança com 95% para a seguinte situação:
x = 15,0 s X = 2,0 n = 16
5) Num levantamento amostral sobre hábitos de higiene e saúde envolvendo bairros da periferia da
cidade de Lavras – MG, foram obtidas as seguintes respostas à pergunta: “Com qual frequência
você lava sua caixa d’água?”
Frequência
Resposta
Absoluta Relativa Percentual
Nunca 13 0,1912 19,12

De 3 em 3 meses 11 0,1618 16,18
De 6 em 6 meses 4 0,0588 5,88
Anual 22 0,3235 32,35
Raramente 18 0,2647 26,47
Total 68 1,0000 100,00
Considerando que o ideal seria que as caixas d’água fossem lavadas exatamente de 6 em 6
meses, construa um intervalo com 95% de confiança para a proporção de residências que estão
fora da condição ideal de higiene para as caixas d’água.
6) Foi feita uma AAS de tamanho n=30 de um rebanho de Gado Holandês do sul de Minas Gerais,
com o objetivo de descrever a produção de leite. Os dados obtidos em kg na amostra foram:
17,7 20,7 19,3 19,3 18,0 16,9 19,7 20,1 21,0 21,2
23,3 15,3 23,7 18,8 25,2 18,0 22,8 21,1 18,8 25,9
19,3 19,6 26,6 14,3 19,7 32,7 14,1 16,8 19,7 19,3
30 30
∑ x i = 608,9
i=1
∑x
i =1
2
i = 12.787,07
a) Estime a média e variância da população

b) Estime a proporção dos animais que produzem menos que 20 kg de leite
c) Construa o intervalo de confiança para a média do rebanho com coeficiente de confiança de
95%.
7) Uma pesquisa realizada entre 218 eleitores escolhidos ao acaso indicou que 65 deles eram
favoráveis ao candidato A.
a) Construa um intervalo de confiança de 95% para a proporção de todos os votantes
favoráveis ao candidato A. Interprete.
b) Qual deve ser o tamanho da amostra para que o erro de estimação caia pela metade?
UNIDADE 6
TESTES ESTATÍSTICOS
6.1. INTRODUÇÃO
Por meio de amostragem, informações acerca de uma população de interesse são obtidas,
a partir de uma amostra. O passo seguinte é o de generalizar estas informações para a população.
Essa generalização é a inferência. Na unidade anterior foi vista uma maneira pela qual a inferência
estatística pode ser feita, qual seja, a estimação de parâmetros desconhecidos da população.
Algumas vezes, no entanto, o interesse do pesquisador reside na verificação da validade, ou não,
de uma determinada hipótese, frequentemente com a finalidade de tomar alguma decisão acerca
da população estudada.
Como exemplo, considere o cenário em que o gerente de produção de café em uma

agroindústria designa alguém para vistoriar a população de plantas de café com relação ao ataque
de uma praga, como, por exemplo, a broca do cafeeiro. Seu objetivo principal é o de saber se a
infestação desse inseto ultrapassa um nível de controle acima do qual ocorre prejuízo econômico.
Ele deseja, assim, verificar a validade, ou não, da seguinte hipótese:
HIPÓTESE: “A infestação da broca está abaixo do nível de controle”.
Se ele tiver razões para rejeitar essa hipótese, isso implicará em uma decisão, qual seja, por
exemplo, a de pulverizar a lavoura de café com algum inseticida. Por outro lado, se ele não rejeitar
essa hipótese, então sua outra decisão será a de não pulverizar a lavoura. Poderíamos tomar
como hipótese outra afirmação, a saber: “A infestação da broca é igual ou está acima do nível de
controle”, para a qual seguir-se-iam os mesmos tipos de considerações.
A verificação de uma hipótese de interesse, acerca da população, é chamada teste de

hipótese, ou, mais apropriadamente, teste estatístico. A teoria de testes faz parte de um conjunto
de conceitos e métodos chamado de teoria da decisão, pois frequentemente há rejeição, ou não,
de hipóteses, além de serem em si mesmas decisões (rejeitar é uma decisão e aceitar, isto é, não
rejeitar, também é uma decisão), tais testes de hipótese também se desdobram gerencialmente,
implicando em mais algumas outras decisões posteriores, como seria o caso anterior de pulverizar
com inseticida.
Conceito 6.1. Teste estatístico. Verificação da validade, ou não, de hipóteses sobre a população,
mediante critérios estatísticos.
Conceito 6.2. Teoria da decisão. Em grande medida corresponde à teoria de testes, pois a
aceitação ou a rejeição de hipóteses frequentemente implica em alguma decisão acerca da
população.
Os testes podem se referir ao modelo utilizado para descrever a população de interesse,

ou ainda, admitindo que o modelo seja satisfatório, podem se referir aos parâmetros do modelo.
Como exemplo do primeiro caso, um engenheiro deseja saber se pode utilizar o modelo de
Poisson para descrever o número de chuvas por ano acima de determinada intensidade, com fins
de previsão, para a construção de um sistema de drenagem em barragem. Se o modelo de
Poisson não for adequado, sua previsão poderá ser falsa, e, consequentemente, seu projeto estará
errado, levando finalmente ao rompimento da barragem e consequentes perdas e prejuízos. Então
ele pode querer testar:
HIPÓTESE: “A distribuição de chuvas tem distribuição de Poisson”.
É claro que se ele, baseando em critérios estatísticos, rejeitar esta hipótese, será conveniente
procurar outro modelo probabilístico para descrever a distribuição de chuvas.
Por outro lado, as hipóteses podem se referir ao(s) parâmetro(s) do modelo probabilístico,
por sua vez tido como satisfatório. O exemplo da broca do café anterior mostra essa situação. A
probabilidade (ou a proporção) de frutos brocados é um parâmetro da distribuição Binomial e o
teste irá se referir a ela, admitindo o modelo probabilístico da distribuição Binomial como
satisfatório.
Um teste estatístico deve ser construído e avaliado segundo dois critérios de desempenho:
(i) Riscos (ou probabilidades) de decisões erradas.
(ii) Custo para a tomada de decisão.
Um terceiro critério poderia ser aventado, a saber o da utilidade da decisão tomada, mas tal critério
carrega uma medida grande de subjetividade, e não será considerado aqui. Simplesmente será
admitido aqui que toda e qualquer decisão tomada a partir de um teste estatístico é já previamente
considerada útil para o analista.
6.2. ELEMENTOS DE UM TESTE
Geralmente, os testes têm a seguinte estrutura: existe uma hipótese principal sob
julgamento, chamada de hipótese de nulidade ou hipótese nula, representada pela notação H0. Se
rejeitada, então uma outra hipótese candidata é considerada como verdadeira, a chamada
hipótese alternativa, representada por H1 ou Ha. No exemplo da broca do café, supondo que o nível
de controle acima do qual ocorre prejuízo seja a proporção p0 de frutos atacados, o teste
correspondente seria:
H0: a proporção p de frutos brocados é igual ou menor a p0
H1: a proporção p de frutos brocados é superior a p0
ou, simplesmente:
H0: p ≤ p0
H1: p > p0
Nota. Observe que a igualdade (p = p0 ) fica em H0.
Na prática, a aceitação ou rejeição de H0 (e, consequentemente, a aceitação de H1) são

feitas mediante uma amostra aleatória, da qual estimativas apropriadas são calculadas. Se a
distribuição de amostragem dos estimadores correspondentes for conhecida, então pode-se
calcular a probabilidade da estimativa observada ter ocorrido, admitindo a hipótese de nulidade H0
como verdadeira. Se esta probabilidade for baixa, então existem bons motivos para rejeitar essa
hipótese e aceitar H1.
Dessa forma, pode-se estipular um valor crítico para o estimador, de tal maneira que, se a
estimativa calculada na amostra for, por exemplo, maior que determinado valor, então rejeita-se H0.
Por exemplo, suponha que o nível de controle para a broca do café seja de p0 = 5% de frutos
brocados. Assim, o teste acima seria dado por:
H0: p ≤ 5%
H1: p > 5%
Uma amostra de n frutos é coletada, onde são contados o número x de frutos brocados. Em
seguida é então calculado a estimativa da proporção de frutos brocados:
x
pˆ =
n
Digamos que, numa amostra de n = 400 frutos, conta-se 48 frutos brocados, totalizando então
48
pˆ = = 0,12 = 12%.
400
A princípio, considerando que 12% é maior do que 5%, seríamos levados à rejeitar H0 e aceitar H1 .
Porém, surge a pergunta: sendo estes 12% a proporção da amostra, não deveríamos ser
cautelosos em decidir sobre a proporção da população (5% é da população) ? A resposta é,
obviamente, sim, e a cautela traduz-se por calcular a probabilidade de uma amostra de n = 400
frutos apresentar p̂ = 12% se esta amostra é obtida aleatoriamente de uma população com
pq
p = 5% (ou menos). Ora, na estimação de proporções já havíamos concluído que p̂ ∼ N ( p, ), o
n
que nos leva a calcular esta probabilidade como:
z = (0,12-0,05)/0,010897 = 6,42.
Na tabela da Normal, o valor de área acima de 6,42 não está nem mesmo indicado (a tabela pára
no valor de 3,99), implicando que, com aproximação de 4 decimais, tal área acima é 0,0000. De
fato, tal área na é exatamente zero, pois a Normal é assintótica, e, teoricamente, nunca uma área
acima é zerada. Utilizando o Excel (poderia ser outro software estatístico, como o R, por exemplo,
veja o Capítulo 8), essa área com mais decimais seria de aproximadamente
0,00000000006813716258, ainda mais aproximadamente igual a 0,000000007%: um número
muito pequeno! Seria de aproximadamente 1 chance em 10.000.000.000 (dez trilhões)!
Área muito pequena,

aproximadamente igual a
zero
6,42
Essa probabilidade é muito pequena, aproximadamente zero, o que nos leva a concluir que a
probabilidade de uma população com p = 0,05 gerar aleatoriamente uma amostra que resulte em
p̂ = 0,12 é quase zero, levando-nos a não aceitar H0 : p ≤ 0,05, e, consequentemente, aceitar H1 =
p > 0,05. Finalmente, a estimativa do valor de p é 12%, e não 5%.
Uma outra questão pode vir à tona: para qual valor de p̂ poderíamos aceitar H0, isto é,
aceitar que p = 5%? Se estabelecermos uma probabilidade de 1%, por exemplo, teríamos:
z = 2,33 = ( p̂ - 0,05)/0,010897 ⇒ p̂ = 0,075
Assim, para toda amostra que apresenta p̂ até o valor de 7,5% podemos aceitar que p seja 5%,
com uma probabilidade de erro de apenas 1%. Uma regra como esta é chamada regra de decisão.
Conceito 6.3. Regra de Decisão. Procedimento pelo qual opta-se por rejeitar ou aceitar a hipótese
de nulidade.
No exemplo da broca do café, a regra de decisão seria:
REGRA DE DECISÃO: “Aceitar H0 se p̂ for menor ou igual a 7,5%”.
Outros elementos importantes de um teste estatístico são os possíveis erros que se pode
cometer, ao se utilizar determinada regra de decisão. São eles:
Conceito 6.4. Erro Tipo I. Consiste no erro que se comete ao rejeitar H0 sendo ela verdadeira.
Conceito 6.5. Erro Tipo II. Consiste no erro que se comete ao aceitar H0, sendo que ela é falsa.
A probabilidade (ou risco) de se cometer o erro tipo I é, em geral, representada pela letra
grega α e comumente chamada de nível de significância do teste. A probabilidade (ou risco) de
ocorrência do erro tipo II é representada pela letra β, e não tem nome especial. Porém, quando se
aceita H0, e ela é verdadeira, ou quando se rejeita H0, e ela de fato é falsa, ambas consistem em
uma decisão correta. Esta última ocorre com probabilidade 1 - β, valor esse que por sua vez
recebe o nome de poder do teste. Já a probabilidade de se aceitar H0, quando ela é verdadeira,
corresponde ao valor 1 - α, que por sua vez também não recebe um nome especial. Esses
aspectos podem ser sumarizados como na Tabela 6.1.
Conceito 6.6. Nível de Significância. Consiste no valor da probabilidade α de se cometer o Erro

Tipo I.
Conceito 6.7. Poder do Teste. Consiste na probabilidade de rejeição de H0, quando de fato ela é
falsa.
Tabela 6.1. Resultados possíveis em um teste estatístico, e suas probabilidades de ocorrência.
A verdade na população
Decisão tomada H0 é verdadeira H0 é falsa
Decisão correta Decisão errada
H0 é aceita Probabilidade = 1 - α (Erro Tipo II)
Probabilidade = β
Decisão errada Decisão correta
H0 é rejeitada (Erro Tipo I) Probabilidade = 1 - β
Probabilidade = α
6.3. TESTES SOBRE A VALIDADE DE MODELOS
Comentou-se acima que os testes podem se referir a adequabilidade ou não de modelos

probabilísticos utilizados para descrever populações. Além do exemplo dado na Unidade 3 da
distribuição de Poisson para descrever a distribuição de chuvas, deve-se citar também a grande
importância de testar se a população sob estudo pode ser considerada como tendo distribuição
(pelo menos aproximadamente) Normal, para que seja possível a utilização daqueles teoremas
para a construção de intervalos de confiança, utilizando a distribuição t, particularmente quando a
amostra é pequena. Se a população não tem distribuição Normal, e a amostra é pequena, então a
distribuição t não é adequada, e outros procedimentos, não abordados nesse curso, deverão ser
buscados.
Neste tópico, será visto como se pode testar se uma população em questão pode ser
considerada como tendo uma dada distribuição em particular. Esse tipo de teste é chamado teste
sobre a validade de modelos ou teste de aderência. Para exemplificar, imagine que um engenheiro
-1
agrícola observou a ocorrência de chuvas por ano com intensidade acima de 30 mm.h em uma
região nos 35 anos anteriores (compondo a sua amostra), tendo encontrado os seguintes valores
(Tabela 6.2):
Tabela 6.2. Número de chuvas ocorridas nos 35 anos passados em uma região com intensidade
acima de 30 mm.h-1.
1961: 2 1966: 1 1971: 0 1976: 2 1981: 3 1986:2 1991: 2
1962: 0 1967: 3 1972: 2 1977: 4 1982: 2 1987:2 1992: 6
1963: 3 1968: 2 1973: 4 1978: 5 1983: 0 1988: 1 1993: 5
1964: 2 1969: 3 1974: 2 1979: 2 1984: 6 1989: 3 1994: 3
1965: 1 1970: 1 1975: 3 1980: 0 1985: 2 1990: 4 1995: 1
A distribuição de frequência absoluta dessa variável descritora de natureza discreta está na Tabela
6.3 (a frequência fe apresentada na tabela é a frequência esperada e será logo em seguida
explicada).
Suponha que o engenheiro deseje verificar se a distribuição de frequência pode ser

descrita por uma distribuição de Poisson, para que possa fazer previsões futuras. Em outras
palavras, o problema consiste no teste:
H0: a ocorrência de chuvas acima de 30mm/h tem distribuição Poisson.
H1: a ocorrência de chuvas acima de 30mm/h não tem distribuição Poisson.

Tabela 6.3. Distribuição de frequência absoluta observada (fo) da ocorrência de chuvas com
-1
intensidade acima de 30 mm.h .
Número de chuvas por ano fo fe
0 4 3,17
1 5 7,62
2 12 9,15
3 7 7,32
4 3 4,39
5 2 2,11
6 2 0,84
7 ou mais 0 0,40
Total 35 35,00
Deve-se atentar que em H0 sempre fica a afirmação de “tem distribuição” e em H1 sempre a de

“não tem distribuição”.
A distribuição χ (qui-quadrado) fornece um meio (aproximado) de se testar a hipótese H0.

2
Para tanto, calcula-se, para cada número de chuvas, a frequência absoluta esperada (fe), caso os
dados da amostra tivessem exatamente distribuição de Poisson. Em seguida, são confrontadas
essas frequências esperadas fe com as observadas (fo). Se as diferenças puderem ser
consideradas como meramente casuais, então aceita-se H0. Para tanto, determina-se o valor de
qui-quadrado calculado χ C2 pela expressão:
k
(fei − foi )2 = k
(foi − fei )2
χ C2 = ∑
i =1
fei ∑
i =1
fei
onde k é o número de classes. Este valor é comparado com o valor da tabela de qui-quadrado,
para determinado nível de significância α. Se o valor de χ 2C for maior que esse valor da tabela,
então rejeita-se H0, pois então é muito pouco provável que a amostra em questão tenha acontecido
sob H0 verdadeira, pois a probabilidade das variações de fo em relação a fe terem acontecido por
puro acaso é baixa (igual ou menor que α). Para se saber o número de graus de liberdade v para a
consulta à tabela deve-se tomar:
v = (número de classes) – (número de parâmetros estimados) – 1
A distribuição de Poisson é, como foi visto, indexada por um único parâmetro λ, que nada
mais é do que a média (e também a variância) da população dos infinitos anos da região. Sendo λ
a média, tem-se como estimador para este parâmetro:
λ̂ = X
Voltando aos cálculos, tomando-se os dados da Tabela 6.2 e calculando-se essa média
tem-se:
x =
(2 + 0 + 3 + L + 3 + 1) =
84
= 2,4
35 35
Esta média também poderia ser calculada pela distribuição de freqüências (Tabela 6.3):
x =
(0.4 + 1.5 + 2.12 + 3.7 + 4.3 + 5.2 + 6.2) = 84
= 2,4
35 35
Os cálculos serão feitos considerando λ̂ = x = 84/35 = 2,4. Cada fe é calculada por P(X = x).35,
veja tabela auxiliar abaixo.
x P (X = x) P (X = x).35
-2,4 0
0 e .2,4 /0! = 0,0907 0,0907*35 = 3,18
-2,4 1
1 e .2,4 /1! = 0,2177 0,2177*35 = 7,62
-2,4 2
2 e .2,4 /2! = 0,2613 0,2613*35 = 9,14
-2,4 3
3 e .2,4 /3! = 0,2090 7,32
-2,4 4
4 e .2,4 /4! = 0,1254 4,39
-2,4 5
5 e .2,4 /5! = 0,0602 2,11
-2,4 6
6 e .2,4 /6! = 0,0241 0,84
7 ou mais 0,40
1 – (0,0907 + 0,2177 + 0,2613
+ 0,2090 + 0,1254 + 0,0602 +
0,0241) = 1-0,9884 = 0,0116
Por que a multiplicação da probabilidade P(X = x) por n = 35? Como comentado no

Capítulo 3, probabilidades são definidas como frequências relativas em populações infinitas. Assim
sendo, essas probabilidades, uma vez calculadas, se multiplicadas por 35, fornecerão as
frequências absolutas esperadas em cada classe. Isso pode ser entendido mais claramente se
atentarmos para o fato de que uma frequência relativa é uma proporção, e, como tal, obedece a
distribuição Binominal. Logo, a frequência esperada fe é o valor esperado de fo, pela Binominal.
Sabemos que um valor esperado é a média, e que a média na Binominal é dada pelo produto n.p:
µ = n.p = np
Mas p é estimado pela probabilidade calculada. Logo:
fe = n. p̂ = n.probabilidade estimada,
que fe é o número de elementos esperado para aquela classe que tem probabilidade calculada p
igual à p̂ . Assim, temos que:
fe (classe) = n.probabilidade (classe).
A frequência absoluta na classe 0 será, então:
2,718 −2, 4 2,4 0

P(X = 0) = = 0,0907
0!
fe = 0,0907 x 35 = 3,18
A frequência absoluta na classe 1 será:
2,718 −2, 4 2,41

P(X = 1) = = 0,2177
1!
fe = 0,2177 x 35 = 7,62
Procedendo assim para as outras classes, tem-se:
2,718 −2,4 2,4 2

P(X = 2) = = 0,2613 ⇒ fe = 9,14
2!
2,718 −2,4 2,4 3

P(X = 3) = = 0,2090 ⇒ fe = 7,32
3!
e assim por diante, para as demais classes.
Alguns autores apontam que, como a distribuição qui-quadrado é um recurso aproximado

para a realização do teste, é necessário antes de tudo que as classes naturais da Tabela 6.3 (ou
seja, os diferentes números de chuvas) tenham frequência absoluta teórica de pelo menos 1
elemento, para que a aproximação seja satisfatória. Outros preconizam que nenhuma frequência
deve ser menor do que 5. A razão para isto é que freqüências teóricas menores do que 1 fariam a
parcela
(fei − fo i )2
fei
“explodir” para valores muito altos (observe que na fórmula do χ C2 cada parcela é do tipo acima),
fazendo o valor final do χ C2 ficar superestimado. Para alguns autores, aceitar fe < 5 em algumas
classes, mais do que possivelmente inflacionar exageradamente a parcela correspondente,

também prejudicaria a aproximação implícita no método. Como todos esses critérios são
empíricos, usaremos o critério de frequências esperadas (teóricas) maiores ou iguais à 5, que nos
resguarda tanto da “explosão” do valor do χ C2 quanto da aproximação ruim do método. Apenas
para comparação, vamos agrupar como se utilizássemos o critério fe > 1: fazendo assim, a Tabela
6.3 seria completada pelas frequências esperadas fe iguais à:
0 3,18 5 2,11
1 7,62 6 ou mais 1,24
2 9,14 Total 35,00
3 7,32
4 4,39
Veja que a tabela permaneceria quase como estava para a operação de teste de χ C2 (somente as
2 últimas classes seriam agrupadas, pois têm fo menor do que 1). Porém, utilizando o critério fe >
5, teremos que agrupar várias classes. Assim, na Tabela 6.3 é necessário, em primeiro lugar,
agrupar aquelas classes com frequências esperadas menores do que 5. Isso conduz à distribuição
de frequências apresentadas na Tabela 6.4. Com esse procedimento, o número de classes k
diminuiu de 7 para 4 classes.
Tabela 6.4. Distribuição de frequência absoluta observada (fo) da ocorrência de chuvas,

agrupando as classes com menos de 5 elementos.
0 ou 1 9 10,80 = 3,18+7,62
2 12 9,14
3 7 7,32
4 ou mais 7 7,74 = 4,39+2,11+0,84+0,40
Total 35 35,00
Como fizemos, com base na estimativa do parâmetro λ pode-se calcular alternativamente a

frequência absoluta esperada em cada classe a partir das probabilidades, admitindo que os dados
da amostra tenham distribuição de Poisson. Para tanto, utilizamos a expressão conhecida
e −λ λ x
P(X = x) = ,
x!
e assim, como já fizemos,
2,718 −2,4 2,4 0

P(X = 0) = = 0,0907
0!
2,718 −2, 4 2,41

e P(X = 1) = = 0,2177 , temos que,
1!
portanto:
P(X = 0 ou X = 1) = 0,0907 + 0,2177 = 0,3084 e 0,3084.35 = 10,80, como seria se o valor fosse
calculado direto nas frequências esperadas (3,18+7,62). Para 4 ou mais o cálculo seria:
P(X ≥ 4) = 1 - P(X < 4) = 1 - 0,0907 - 0,2177 - 0,2613 - 0,2090 = 0,2213
o que dá uma frequência absoluta esperada de fe = 7,74.
Agora, só resta calcular o valor de qui-quadrado. Para facilitar o uso de sua expressão, os
passos estão apresentados na Tabela 6.5.
O valor de qui-quadrado é, portanto:
4
(fei − foi )2
χ C2 = ∑
i =1
fei
= 1,272
Para verificar se H0 é rejeitada ou não, deve-se consultar o valor da tabela de χ . Para tanto, deve-
2
se observar que um parâmetro (λ) foi estimado, e o número de classes é igual a 4.
Tabela 6.5. Distribuição de frequência absoluta (observada e esperada) para a ocorrência de

chuvas, agrupando as classes com menos de 5 elementos.
I II ( fo − fe) 2
fe
0 ou 1 9 10,80 0,297
2 12 9,15 0,890
3 7 7,32 0,014
4 ou mais 7 7,74 0,071
Total 35 35,00 1,272
I - frequência absoluta observada; II - frequência absoluta esperada.
Assim:
v=4-1-1=2
Adotando-se um nível de significância de 0,05 (5%), tem-se que o valor tabelado é dado por
(Tabela 3.2 do Apêndice):
2
c 0,05(2) = 5,991
Como χ C2 = 1,272 foi menor que χ 02,05 = 5,991, então opta-se por aceitar a hipótese H0, de que a
ocorrência de chuvas pode ser descrita satisfatoriamente pela distribuição de Poisson. Todo este
arrazoado algébrico pode ser visualizado graficamente na Figura 6.1.
Região de
Rejeição de
H0
Figura 6.1. Distribuição de qui-quadrado com 2 graus de liberdade, evidenciando os valores de χ 2C

e χ 20,05 , do teste.
Observe que não corremos o risco de estarmos cometendo o Erro Tipo I, pois não estamos
rejeitando H0, porém, pelo fato de estarmos aceitando H0, corremos o risco de estarmos
cometendo o Erro Tipo II, aceitando que a variável estudada segue uma distribuição de Poisson
quando, na verdade, não segue. A probabilidade desse erro é β, um valor desconhecido.
O teste de qui-quadrado é muito utilizado em situações onde existem proporções

a
esperadas com relação à ocorrência em classes, como em genética. Por exemplo, a 1 Lei de
Mendel especifica que, se uma característica está associada a dois fenótipos possíveis e se ela for
controlada por um gene apenas, então as frequências desses fenótipos ocorrerão numa razão de
3:1 em descendência oriunda do cruzamento entre dois indivíduos heterozigotos.
Comentou-se, anteriormente, a importância da verificação se a população da qual

amostras são coletadas podem ser consideradas como tendo distribuição Normal. Essa verificação
pode ser feita mediante um teste de aderência, da mesma forma que aquela vista no exemplo da
distribuição de Poisson, tomando-se a distribuição de frequência correspondente à Normal.
Entretanto, alguns autores comentam que o teste de qui-quadrado só é eficaz para teste de
normalidade para tamanhos de amostra acima de 100. Abaixo desse valor, outros testes deverão
ser utilizados tais como os de Kolmogorov-Smirnov, o de Lilliefors, ou o de Shapiro-Wilk, entre
outros.
2
Outra aplicação do teste de qui-quadrado é o teste de qui-quadrado (χ ) para
independência entre fatores. Esse é um teste estatístico para testar (julgar) se 2 fatores quaisquer
(denominados de, por exemplo, A e B) são independentes um do outro, ou não. Para ilustração,
considere o exemplo abaixo. Nesse exercício, suponhamos que experimentou-se o efeito de uma
certa droga no controle de uma certa bactéria, usando ratos. Foram utilizados 111 animais
divididos em 2 grupos, 57 deles recebendo uma dose-padrão de bactérias patogênicas seguidas
pela droga e um grupo de controle de 54 que receberam apenas a bactéria. Depois de um
adequado período de tempo, quando a doença poderia provocar a morte, obtiveram-se os
seguintes resultados:
Indivíduos
Tratamento Mortos Sobreviventes Total
Bactéria + droga 13 44 57
Bactéria 25 29 54
Total 38 73 111
Há diferença entre os tratamentos? Ou, em outras palavras, o fator “sobrevivência do indivíduo”

depende do fator “uso da droga”? Ou ainda: o uso da droga tem efeito na sobrevivência do
indivíduo(ele sobreviver depende do uso da droga)? Este tipo de teste é realizado pelo algoritmo
abaixo:
H0: Efeito do fator A independe do efeito do fator B.

H1: Efeito do fator A depende do efeito do fator B.
Nota. Deve-se alertar que em H0 sempre fica a afirmação de independência, e,
consequentemente, em H1 fica a de dependência.
α = 5% (este é a probabilidade de cometer o erro tipo I, aqui foi exemplificado com 5%, mas
é você quem decide o valor deste risco).
Estatística para teste:
k
(fei − foi )2
χ cal
2
= ∑i =1
fei
,
onde foi é a frequência observada na i-ésima casela da tabela. Uma casela (ou célula) é o
encontro entre uma linha e uma coluna. O número k de caselas é sempre igual a l.c, l é
número de linhas e c é número de colunas. Já fei é a frequência esperada na i-ésima casela
da tabela. É calculada pela fórmula:
fe =Total marginal linha x Total marginal coluna

Total geral
Região de rejeição de H0 (RRH0):
Região de
Região de Rejeição de
Aceitação H0
de H0
χ2tab
χ é o valor de χ buscado na tabela de qui-quadrado com nível de significância α e

2 2
tab
número υ de graus de liberdade igual a (l-1).(c-1). Esse valor de χ

2
tab separa a região de
aceitação da região de rejeição de H0.
Conclusão: “perceber se caiu em RAH0 ou RRH0 e concluir coerentemente”.
Aplicando ao exemplo apresentado:
Cálculo das frequências esperadas:

TotalM arg.Linha × TotalM arg.Coluna 57 × 38

fe(Mortes × Bac. + Droga ) = = = 19,51
TotalGeral 111
fe(Mortes × Bac.) = = = 18,49
TotalGeral 111
fe(Sobrev . × Bac. + Droga ) = = = 37,49
TotalGeral 111
fe(Sobrev . × Bac.) = = = 35,51
TotalGeral 111
Agora, passemos ao teste de hipótese:
o
1 ) H0: Os efeitos da droga não influenciam na sobrevivência.
o
2 ) HA: Os efeitos da droga influenciam na sobrevivência.
3 ) α = 5%
o
o
4 ) Estatística de Teste:
4
(fe − fo )2 (13 − 19,51) 2 (25 − 18,49 ) 2 ( 44 − 37,49) 2 (29 − 35,51) 2
χ cal
2
= ∑
i =1
fe
=
19,51
+
18,49
+
37,49
+
35,51
= 6,7882
O valor de χ tem υ = (2-1) x (2-1) = 1, onde 2 é o número de linhas, e 2 o número de colunas da

2
tab
tabela acima. Assim χ

2
tab = 3,841.
5 )Como χ >χ
o 2 2
cal tab, rejeita-se H0
o
6 ) Conclusão: os efeitos da droga influenciam na sobrevivência dos ratos expostos a essa
bactéria, pois não há independência entre os fatores.
6.4. TESTES SOBRE DIFERENÇA DE MÉDIAS µ1 - µ2
Frequentemente deseja-se comparar duas populações, com relação às suas médias, para
verificar simplesmente se são diferentes, sendo que a estimação dessa diferença é importante,
mas secundária. Nesse caso, é interessante perfazer um teste de hipóteses sobre µ1 - µ2.
A diferença, X 1 - X 2 , também relaciona-se com a distribuição t, o que permite compor

critérios de decisão para testes estatísticos. Admitindo que as variâncias de ambas as populações
sejam iguais, então a variável:
tc =
(x1 − x 2 ) − (µ1 − µ1 )
 1 1 
s 2  + 
 n2 n2 
tem distribuição t com n1 + n2 - 2 graus de liberdade. O leitor deve se lembrar que:
∑ (x1j − x1 )2 + ∑ (x 2 j − x 2 )2
n1 n2
j =1 j =1 (n1 − 1)s12 + (n 2 − 1)s 22

s2 = =
n1 + n 2 − 2 n1 + n 2 − 2
Assim, os critérios de decisão para os testes unilaterais e bilaterais são:
a) Teste Unilateral do Tipo:
H0: µ1 - µ2 = d0 (ou µ1 - µ2 ≥ d0)
H1: µ1 - µ2 < d0
REGRA DE DECISÃO: rejeitar H0 se tc < -tα, onde tc =

(x 1 − x 2 ) − d 0
 1 1 
s 2  + 
 n1 n 2 
b) Teste Unilateral do Tipo:
H0: µ1 - µ2 = d0 (ou µ1 - µ2 ≤ d0)
H1: µ1 - µ2 > d0
REGRA DE DECISÃO: rejeitar H0 se tc > tα, onde tc =

(x 1 − x 2 ) − d 0
 1 1 
s 2  + 
 n1 n 2 
c) Teste Bilateral do Tipo:
H0: µ1 - µ2 = d0
H1: µ1 - µ2 ≠ d0
REGRA DE DECISÃO: rejeitar H0 se tc < -tα/2 ou tc > tα/2, onde tc =

(x 1 − x 2 ) − d 0
 1 1 
s 2  + 
n
 1 n 2 
Esse tipo de teste é empregado, por exemplo, quando uma empresa de reflorestamento,
que tradicionalmente cultiva um clone A de eucalipto, adquire numa instituição de pesquisa um
novo clone B. Assim, interessa saber se no plantio de novos talhões é justificável plantar o novo
clone B, ou seja, se ele é mais produtivo. Se µ1 - µ2 = 0, então não se justifica trocar o clone
cultivado na empresa. Se, por outro lado, µA - µB < 0, então o clone B é mais produtivo, e justifica-se
utilizá-lo. Assim, um teste de interesse seria:
H0: µA - µB = 0 (ou µA - µB ≥ 0)
H1: µA - µB > 0
Suponha-se que, para a realização de tal teste, um experimento tenha sido conduzido com
25 parcelas de cada clone nas quais avaliou-se o DAP médio das árvores, tendo-se encontrado
2 2 2 2 2 2
X A = 18,61 cm, X B = 15,61, SA = 1,70 cm , e SB = 1,90 cm . Assim, temos que S = 1,80 cm ,
e
tc =
(18,61 − 15,61) − 0 = 7,906
 1 1
1,80  + 
 25 25 
Utilizando a significância de α = 5%, tem-se que o valor tabelado de t para 48 graus de liberdade
deve ser obtido por interpolação: com 40 e 60 graus de liberdade, tem-se, respectivamente, 1,684
e 1,671 para os valores de t0,05, ou seja, diminuição de 0,013 ao se aumentar 20 graus de
liberdade. Assim:
20 ------------------0,013
8 ------------------- x x = 0,005
E, portanto, o valor t para 48 graus de liberdade é 1,684 - 0,005 = 1,679. Por nós mesmos
colocamos o sinal negativo, pois estamos vendo que o valor de t está do lado esquerdo da curva
de t: -1,679. Como 7,906 > -1,679 , aceita-se H0, isto é, não há evidências, neste teste, para
concluir que A e B sejam diferentes.
Observe que, nesse exemplo ilustrativo, consideramos, implicitamente, que as variâncias

σ Ae2
σ2B das α populações de clones são iguais, justificando, assim, o uso da variância combinada
2 2
s = 1,8000 cm . A maneira como deveríamos julgar essa pressuposição poderia ser como fizemos
no Capítulo 5: fazendo um intervalo de confiança para σ A / σ
2 2
B e, verificando se o número 1 está ,
ou não, no intervalo. Se estiver, as variâncias σ 2
A e σ2B são iguais, se não estiver, não são. Outro
modo é proceder um teste para a razão de variâncias, que será visto adiante.
Outra observação importante é a coerência entre hipóteses H0 e H1 e evidências amostrais:
nossas amostras resultaram em X A - X B = 18,61 – 15,61 = 3 cm, um valor positivo. Logo, seria
mais razoável julgar H0: µA - µB = 0 contra H1: µA - µB > 0 , pois, se µA e µB não foram iguais (µA - µB
= 0, H0), então o mais razoável é admitir que µA será maior do que µB, porque as amostras sugerem
isto ( X A > X B ). Assim sendo, convém estabelecer como H1 aquilo que os dados sugerem, neste
caso, H1: µA - µB > 0. Façamos então o teste assim:
H0: µA - µB = 0
H1: µA - µB > 0 (por sugestão das amostras)

α = 5%
Estatística para teste: tc = 7,906, e v = nA + nB – 2 = 25 + 25 – 2 = 48
Região de rejeição de H0: t5% = 1,679.
Conclusão: como 7,906 > 1,679, rejeita-se H0, a um nível de significância de 5%.
Observe que a conclusão mudou! Agora rejeitamos H0, isto é, estamos concluindo que a média de
DAP do clone A é maior do que a média de DAP do clone B. Observe como uma escolha mais
coerente da hipótese alternativa tornou o teste mais eficaz!
Vamos explorar mais um exemplo ilustrativo, onde as variâncias não são iguais: considere
uma provedora de internet que deseja saber se o espaço de memória no webmail utilizado por
seus clientes homens é, em média, diferente do que o espaço utilizado por suas clientes mulheres.
Para testar a hipótese de igualdade de média, tal provedora toma uma amostra de nH = 115
homens e nm = 134 mulheres, obtendo X H = 480,4 Mbytes e X M = 458,1 Mbytes, com sH = 111,8
Mbytes e sM = 75,5 Mbytes. Vamos consider que as variâncias populacionais são diferentes. O
teste para diferença entre duas médias, quando as variâncias são diferentes usa a estatística
tc =
(x1 − x 2 ) − (µ1 − µ1 ) ,
s12 s 22
+
n2 n2
a qual tem número de graus de liberdade igual à
2
 s12 s 22 
 + 
v =  n1 n 2  (tome a parte inteira),
2 2
 s12   s 22 
   
 n 2   n 2 
+
n1 − 1 n 2 − 1
Esta é a já conhecida fórmula de Satterthwaite.
Então:
H0 : µH = µM
H1 : µH > µM (como sugerido pelos dados, já que X H > X M )

α = 5%
tc =
(480,4 − 458,1) − 0 =
22,30
= 1,81
2 2
111,8 75,5 12, 2975
+
115 134
2
111,8 2 75,5 2 
 +  22869,9753
v =  115 134 
= = 195,0840 ⇒ v ≅ 195
2 2
 111,8 2   75,5 2  103,6255 +13,6059
   
 115  +  134 
114 133
⇒ t0,05(195) = 1,6527 .
RRH0:
Região de
Rejeição de
H0
1,81
1,6527
Conclusão: como 1,81 > 1,6527 , rejeitamos H0. Isto é, ao observarmos, nas amostras, que
homens gastam em média mais memória que mulheres em seus webmails da citada provedora,
isto significa que, nas populações, as médias podem ser consideradas diferentes também.
6.5. TESTES SOBRE MÉDIA DA DIFERENÇA µD
Testar µ1 - µ2 é testar sobre a diferença das médias, e é o que vimos na seção anterior. Já
testar µD é testar a média das diferenças, e é o que veremos agora. Você perceberá que isto não é
só um trocadilho – são situações diferentes! Vejamos um exemplo: considere um administrador
que deseja testar se um determinado programa de gestão da qualidade aumentou o retorno sobre
o investimento (ROI) de empresas de médio porte numa região dada. Para tal empreitada, ele
obteve os seguintes dados, antes e depois do programa ser aplicado, veja Tabela 6.6.
Tabela 6.6. Retorno sobre investimento (ROI) de 12 empresas, antes e depois de um certo
programa de gestão da qualidade ser aplicado.
ROI ROI
Empresa Antes Depois Empresa Antes Depois
A 0,101 0,123 G 0,126 0,119
B 0,097 0,106 H 0,111 0,122
C 0,131 0,119 I 0,091 0,122
D 0,088 0,091 J 0,085 0,117
E 0,157 0,158 K 0,100 0,127
F 0,099 0,099 L 0,095 0,108
Esse tipo de dados é chamado dados emparelhados, ou dados pareados, visto que cada
empresa gera um par de resultados, um antes e um depois – isto é, a mesma empresa (o mesmo
indivíduo) gera um par de dados correlacionados. Nesse tipo de dados, não se pode usar os testes
para diferença de médias µ1 - µ2 , exatamente porque tais dados são correlacionados, pois estão
vinculados, cada par, no mesmo indivíduo (empresa), Para este tipo de dados o teste é:
H0 : µD = d0 (na maioria das vezes d0 = 0, isto é, o antes é igual no depois)
H1 : µD > d0 ou µD < d0 ou µD ≠ d0
d − d0
tc = , sendo d e s D são a média e o desvio-padrão das diferenças par – à – par.
sD / n
O número de graus de liberdade v é n -1.

No exemplo acima:
Empresa Diferença D Empresa Diferença D
A 0,123 -0,101 = 0,022 G 0,119 – 0,126 = 0,007
B 0,106 – 0,097 = 0,009 H 0,122 – 0,111 = 0,011
C 0,119 – 0,131 = -0,012 I 0,122 – 0,091 = 0,031
D 0,091 – 0,088 = 0,003 J 0,117 – 0,085 = 0,032
E 0,158 – 0,157 = 0,001 K 0,127 – 0,100 = 0,027
F 0,099 – 0,099 = 0,000 L 0,108 – 0,095 = 0,013
d = ( 0,022 + 0,009 + (-0,012) + 0,003 + ... + 0,013) ⁄ 12 = 0,01275
sD =
(0,022 − 0,01275 )2 + ... + (0,013 − 0,01275 )2 = 0,01238
12 − 1
H0 : µD =0
H1 : µD >0 (sugestão dos dados, já que d = 0,01275 > 0).
α = 5%
0,01275 − 0
tc = = 3,57
0,01238
12
Conclusão: como tc = 3,57 > t5%(11) = 1,796, rejeitamos H0 ao nível de significância de 5%,
isto é, o programa de qualidade aumentou o ROI das empresas.
σ12
6.6. TESTES SOBRE RAZÕES DE VARIÂNCIAS
σ 22
Como saber se duas populações podem ser consideradas como tendo variâncias iguais
ou diferentes? Isso corresponde a uma hipótese, dado que raramente as populações sob
comparação são conhecidas em sua totalidade. Assim, um teste de hipótese de interesse seria:
σ 12
H0: =1
σ 22
σ 12
H0: ≠1
σ 22
onde σ12 é a variância da população 1 e σ 22 é a variância da população 2.
De uma maneira geral, testes sobre razões de duas variâncias de populações diferentes,
nas quais pressupõe-se distribuição Normal, podem ser feitos mediante a distribuição F.
a) Teste Unilateral do Tipo:
σ 12
H0: = q0
σ 22
σ 12
H1: < q0
σ 22
1 s2 1
REGRA DE DECISÃO: rejeitar H0 se fc < , onde fc = 12
fα s2 q0
b) Teste Unilateral do Tipo:
σ 12
H0: = q0
σ 22
σ 12
H1: > q0
σ 22
s12 1
REGRA DE DECISÃO: rejeitar H0 se fc > fα, onde fc =
s 22 q 0
c) Teste Bilateral do Tipo:
σ 12
H0: = q0
σ 22
σ 12
H0: ≠ q0
σ 22
1 s12 1
REGRA DE DECISÃO: rejeitar H0 se fc < ou fc > fα/2, onde fc =
fα / 2 s 22 q 0
Nota. Há 2 números de graus de liberdade para a distribuição F, como já vimos: v1 = n1 -1 é

relativo ao numerador e v2 = n2 -2 ao denominador.
Um exemplo ilustrativo pode ser visto se aproveitarmos o exemplo já dado no teste para µ1
- µ2, quando tivemos que decidir sobre a igualdade, ou não, das variâncias. Lá, assumimos
variâncias diferentes, mas aqui, testaremos:
σ H2
H0 : = 1 (ou σ H2 = σ M
2
)
σ M2
σ H2
H1 : > 1 (ou σ H2 > σ M
2
).
σM1
α = 2,5%
s 2H 1 111,8 2
fc = . = = 2,19
s 2M 1 75,5 2
v1 = 115 - 1 = 114 = vNumerador = vH
v2 = 134 - 1 = 133 = vDenominador = vM
F2,5% (114,133) = 1,423

α v1 v2
Região de rejeição de H0:
2,19
RAH0
RRH0
1,423
Conclusão: σ H2 > σ M
2
, isto é, diferentes.
1) Em um experimento com ervilhas foram obtidos os seguintes resultados:
Cor Frequência
Verde 275
Amarela 156
Albino 28
Total 459
a) Teste a hipótese de que a segregação segue a proporção 9:6:1.

Teoria Mendeliana ⇒ 9 : 6 : 1
9 6 1
Proporção ⇒ : :
16 16 16
Tem-se a frequência observada, calcula-se então a frequência esperada (Total de observações
vezes a probabilidade dada pela Teoria Mendeliana).
Cor Freq. obs. (fo) Freq. esp. (fe)

Verde 275 258
Amarela 156 172
Albino 28 29
Total 459 459
Teste de Decisão:
1°) H0: Os dados seguem a proporção 9 : 6 : 1.
2°) HA: Ao dados não seguem a proporção 9 : 6 : 1.
3°) α = 5%
4°) Estatística de Teste: Distribuição de χ 2 .

3
(fe − fo ) 2 (275 − 258 ) 2 (156 − 172) 2 (28 − 29 ) 2
χ cal
2
= ∑
i =1
fe
=
258
+
172
+
29
= 2,643
O valor de χ2 tabelado com v = 2 GL: χ tab

2
= 5,991
Como: χ cal
2
< χ tab
2
Aceita-se H0 , ou seja, os dados seguem a proporção 9 : 6 : 1.

b) Qual o erro que pode-se estar cometendo na decisão acima. Qual é a probabilidade desse erro
estar sendo cometido?
O erro do Tipo II, ou seja, aquele que se comete quando aceita-se H0 sendo esta hipótese falsa. A
probabilidade de cometê-la é dada por:
β = 1 − α = 1 − 0,05 = 0,95 = 95%
2) Suponhamos que experimentou-se o efeito de certa droga no controle de certa bactéria, usando
ratos. Foram utilizados 111 animais divididos em 2 grupos, 57 deles recebendo uma dose-padrão
de bactérias patogênicas seguidas pela droga e um grupo de controle de 54 que receberam
apenas a bactéria. Depois de um adequado período de tempo, quando a doença poderia provocar
a morte, obtiveram-se os seguintes resultados:
Indivíduos
Tratamento Total
Mortos Sobreviventes
Bactéria +droga 13 44 57
Bactéria 25 29 54
Total 38 73 111
Há diferença entre os tratamentos?
Para a resolução será necessário o cálculo das frequências esperadas:

fe(Mortes × Bac. + Droga ) = = = 20
TotalGeral 111
TotalM arg .Linha × TotalM arg .Coluna 54 × 38
fe(Mortes × Bac.) = = = 18
TotalGeral 111
fe(Sobrev . × Bac. + Droga ) = = = 37
TotalGeral 111
fe(Sobrev . × Bac.) = = = 36
TotalGeral 111
Agora, passamos ao teste de decisão:
1°) H0: Os efeitos da droga não influenciam na sobrevivência.
2°) HA: Os efeitos da droga influenciam na sobrevivência
3°) α = 5%
4°) Estatística de Teste: Distribuição de χ 2 .
3
(fe − fo) 2 (13 − 20) 2 (25 − 18) 2 (44 − 37) 2 (29 − 36) 2
χ cal
2
=∑ = + + + = 7,85
i =1 fe 20 18 37 36
O valor de χ 2 tabelado com v = (H-1).(K-1) = 1, onde H é o número de linhas, e K o número de
colunas da tabela acima,: Assim, χ tab

2
= 3,841
Como: χ cal
2
> χ tab
2
Rejeita-se H0 , ou seja, os efeitos da droga não influenciam na sobrevivência dos ratos expostos a
essa bactéria.
3) O número de chegadas de pacientes em determinado hospital foi anotado minuto a minuto para
uma amostra de 70 períodos (de um minuto). Os dados colhidos foram os seguintes:
N° Chegadas 0 1 2 3 4 5 6 ≥7
Frequência 9 15 17 11 7 5 4 2
O modelo de Poisson foi proposto para modelar estes números de chegadas. Qual é sua opinião,
embase-a estatisticamente?
Primeiro, construamos as hipóteses a serem testadas:
H0: O número de chegadas tem distribuição de Poisson.
HA: O número de chegadas não tem distribuição de Poisson.
Calculemos a média, para os dados:
X =
∑x f i i
=
(0 × 9) + (1× 15 ) + ... + (7 × 2) = 2,47
n 70
Agora, precisa-se de alguns cálculos auxiliares, que podem ser feitos em um quadro auxiliar:
X = n° Ch. fo fe = P(x) . n (fo –fe) (fo –fe)2 (fo –fe)2/fe

*
0 9 0,084 x 70 = 5,88 3,12 9,70 1,65
1 15 0,210 x 70 = 14,70 0,30 0,09 0,01
2 17 0,260 x 70 = 18,20 -1,20 1,44 0,08
3 11 0,210 x 70 = 14,70 -3,70 13,69 0,93
4 7 0,130 x 70 = 9,10 -2,10 4,41 0,48
5 5 0,063 x 70 = 4,53 0,47 0,22 0,05
6 4 0,030 x 70 = 2,10 3,11 9,67 3,35
≥7 2 0,011 x 70 = 0,79
Total 70 6,55
O cálculo das probabilidades para cada uma das chegadas será calculada assim:
λx 2,47 0
P ( X = 0) = e −λ × = e −2,47 × = 0,084 . Para as outras probabilidades seguem-se o mesmo
x! 0!
princípio.
Busca-se agora o χ 2 tabelado:
Os graus de liberdade será obtido por, v = ( k – 1 ) – 1, onde k é o número de classes para o

número de chegadas, p é o número de parâmetros estimados (neste caso estimou-se λ, um
parâmetro estimado, portanto p = 1), e o “–1” fora do parêntese é um grau de liberdade perdido ao
se calcular a média apenas baseado nos dados amostrais :
v=(k–1)–1= (8–1)–1=6
Utilizando α = 5%, χ 2 tabelado com v = 6 GL é igual a 12,59.
Conclusão: Como χ cal

2
< χ tab
2
, aceita-se H0 com confiança de 95%, ou seja, o modelo de Poisson é
o mais adequado para modelar o número de chegadas. Há inúmeros usos gerenciais para esta
conclusão: por exemplo, se o gestor do hospital deseja dimensionar o número de atendentes que
devem ficar de prontidão na recepção do hospital, ele pode se valer do conhecimento de que o
número de chegadas segue a distribuição de Poisson para esse dimensionamento.
1) Num cruzamento entre plantas de tomates altas e folhas normais, com plantas anãs e folhas tipo
batata, na geração F2 obteve-se:
Plantas altas folhas normais - 940
Plantas altas folhas batata - 290
Plantas anãs folhas normais - 282
Plantas anãs folhas batata - 88
Verifique concordância com a 2° Lei de Mendel (9:3:3:1) utilizando α = 5%.
2) Proceda ao teste de χ 2 para decidir se o fator “ Tipo de Cooperativa” independe do fator
“Estado” com coeficiente de confiança de 95%.

Tipo de cooperativa
Estado Total
Consumidor Produtor Escola Outros
SP 214 237 78 119 648
PR 51 102 126 22 301
RS 111 304 139 48 602
Total 376 643 343 189 1551
3) O gerente de um supermercado deve decidir sobre a quantidade de cada sabor de sorvete que
se deve estocar a fim de atender à demanda dos consumidores, sem que haja perda de sabores
menos procurados. O fornecedor de sorvete afirma que, entre os sabores mais populares, os
clientes têm suas preferências: 62% preferem creme, 18% cupuaçu, 12% goiaba e 8% baunilha
com calda. Uma amostra de 200 clientes acusou os resultados a seguir. Com o nível de 0,05 de
significância, teste se o fornecedor identificou corretamente as preferências dos consumidores.
Sabor creme cupuaçu goiaba baunilha

Clientes 120 40 18 22
4) Em um estudo sobre acidentes de trabalho constatou-se que 147 deles exigiram tratamento
médico. Desses acidentes, 31 ocorreram na Segunda feira, 42 na Terça, 18 na Quarta, 25 na
Quinta, e 31 na Sexta. Teste a afirmação de que os acidentes ocorrem com a mesma proporção
nos cinco dias da semana utilizando α=5%.
UNIDADE 7
REGRESSÃO E CORRELAÇÃO
7.1. INTRODUÇÃO
Correlação e Regressão são técnicas utilizadas em uma análise de dados amostrais para
medir o comportamento conjugado entre duas ou mais variáveis. Comecemos por definir
correlação e regressão:
Conceito 7.1. Correlação. É um número entre -1 e 1 que mede o grau de relacionamento ou de

associação entre duas variáveis.
Além de se calcular o grau de correlação entre duas variáveis, pode-se também fazer um estudo
para ajustar uma equação ao conjunto de dados, de forma que ele possa expressar uma relação
matemática entre as variáveis.
Conceito 7.2. Regressão. É o estudo que busca ajustar uma equação a um conjunto de dados de
forma que a relação entre as variáveis possa ser descrita matematicamente.
Encontramos na correlação um número que mede o grau de covariação entre duas

variáveis e na regressão uma tentativa para estabelecer uma equação matemática linear que
descreva a relação entre as variáveis. Basicamente, buscamos encontrar nestas equações de
regressão uma boa maneira de explicarmos o que ocorre com uma variável devido às variações
ocorridas nas outras variáveis a qual está associada. Existem vários tipos de relações entre as
variáveis. Neste estudo dar-se-á ênfase às regressões lineares.
7.2. O MODELO LINEAR
Um modelo linear é uma equação matemática da forma:

y = b 0 + b1x 1 + b 2 x 2 + ... + b p x p
onde:
● y é a variável que é considerada resposta ou dependente de outras variáveis. É um
número real sempre conhecido.
● x1 , x2 ,..., x p são as variáveis que possivelmente influenciam y . São números reais
também sempre conhecidos.
● b 0 , b 1, b 2 ..., b p são os parâmetros do modelo. São números reais, à princípio,
desconhecidos.
● p é um número inteiro a partir de 1.
Esta equação é considerada linear porque é uma combinação linear dos parâmetros, isto é, os
parâmetros são combinados entre si através de multiplicações e adições.
Quando p = 1 denominamos a equação de regressão linear simples. Neste caso, podemos
reescrever a equação fazendo b 0 = a e b 1 = b , anotando:
y = a + bx
onde:
● “ a ” é o ponto em que a reta cruza o eixo “ y ” quando x = 0 (intercepto y );
● “ b ” é o coeficiente angular da reta dado pela relação:
∆y
b=
∆x
y = a + bx
Inclinação
Figura 7.1. Elementos de um modelo de regressão linear simples.

Tomemos, como exemplo, os dados de produção de leite de um grupo de vacas

holandesas tratadas com diferentes níveis de proteína:
x 10 12 14 16 18 20 22
y 11,8 10,2 12,1 13,2 15,1 15,4 15,6
• x é o nível de proteína em %
• y é a produção de leite em kg.dia-1
Fazendo o gráfico:
kg.dia-1
Figura 7.2. Um modelo de regressão linear simples colocado sobre dados.
Analisando o gráfico, percebe-se que os dados ajustam-se a uma regressão linear simples. Mas,
nem sempre o modelo linear simples é adequado para um determinado conjunto de dados. Assim,
alguns estudos iniciais devem ser realizados para que se possa determinar o modelo mais
apropriado. Observe também que consideramos o modelo linear adequado para representar (ou
descrever) a associação entre y e x, mesmo os pontos representando os dados não se sobrepondo
perfeitamente sobre a reta! Por quê isto? Podemos dar mais de uma resposta:
i. Porque não estamos fazendo um ajuste matemático, mas, sim, um ajuste

estatístico. Enquanto a Matemática não tolera imprecisões, a Estatística admite
variações aleatórias em torno de um modelo matemático preciso.
ii. Porque a produção de leite não depende somente do nível de proteína da ração, e,
por isso, mesmo se esperando uma certa produção de leite típica para o consumo
de rações com 10% de proteína, esta produção variará de animal para animal.
iii. Porque a associação entre y e x não é perfeitamente linear.

Todas estas respostas tem o seu lugar de ser, e estão mesmo relacionadas entre si. Para
acomodar tais argumentos, o modelo estatístico difere ligeiramente do modelo matemático
apresentado, tornando-se:
y = b0 + b1 x1 + b2 x2 + ... + bp x p + e
onde:
● a parte matemática é como já apresentado acima.
● acrescenta-se a componente e , que é um número real sempre desconhecido (mas não é

um parâmetro), o qual abriga toda a variação encontrada nos dados que não é explicada
pelo modelo matemático.
No caso de regressão linear simples temos:
y = a + bx + e
A maneira mais simples para se determinar relação entre as variáveis é através da

representação gráfica dos pontos que representam a relação entre as variáveis no plano
cartesiano, como foi feito acima. Vejamos alguns exemplos de relação entre variáveis:
Os pontos dispostos em (b) e (d) apresentam relação linear entre as variáveis, o que não ocorre
em (a) e (c). O gráfico de (c) por exemplo, parece indicar relação quadrática entre y e x, pois há
aparência de um arco de parábola no gráfico:
Uma relação assim seria uma equação do tipo y = a + bx + cx 2 com c>0 (“parábola com a boca
para baixo”). Apesar desta relação ser “quadrática”, nós a consideramos ainda linear, pois
permanece sendo uma combinação linear dos parâmetros a, b e c. Porém, não é linear simples.
Seria uma equação de regressão linear quadrática, ou simplesmente regressão quadrática. Já o
gráfico de (a), por exemplo, é do tipo que não poderia ser bem representado por nenhuma
regressão linear, nem simples, nem quadrática, nem polinomial com qualquer grau. Há uma
sugestão de uma relação exponencial do tipo y = a + be −cx , a qual não é uma combinação linear
dos parâmetros a, b e c. Este tipo de regressão é denominada não-linear. Aqui abordaremos

somente regressão linear simples.
Como já realçado, então, na Estatística, o modelo (matemático) linear simples incorpora as

variações devidas ao aleatório, tornando-se um modelo estatístico:
y i = a + bx i + e i
O termo ei está relacionado ao erro aleatório percebido em cada uma das i-ésimas observações.
A massa de dados que temos em mãos é do tipo:
x x1 x2 … xn
y y1 y2 … yn
7.3. ESTIMAÇÃO DA EQUAÇÃO MATEMÁTICA DA REGRESSÃO

LINEAR
A partir do modelo de regressão linear, usando o método chamado método dos quadrados
mínimos, podemos determinar a equação da reta. Pode-se assim, obter a estimativa de regressão
por meio da equação:
ŷ i = â + b̂x i
onde: â e b̂ são as estimativas de a e b obtidas com os dados, e ŷ i é a estimativa da i-ésima
observação.
Por meio desta equação, através dos valores dados de x (variável independente ou
variável resposta) é possível predizer os valores de y (variável dependente ou variável
regressora).
Por meio de operações algébricas, utilizando-se o método dos quadrados mínimos, é

possível determinar valores estimados para o intercepto ” a ” e para o coeficiente angular “ b ”, ou
seja, podemos estimar a equação de regressão.
 n  n 
n

 ∑xi 
 ∑ yi 

  i =1 
∑
i =1
xi y i −
i =1
n
bˆ = 2
 n 
n

 ∑
xi 

 
∑i =1
xi −
2 i =1
n
n n
∑y
i =1
i ∑x
i =1
i
aˆ = − bˆ
n n
Para os dados do exemplo das vacas holandesas, com o auxílio de um quadro auxiliar
para os cálculos, temos:
xi yi xi yi x i2 y i2
10 11,8 118,0 100,0 139,2

12 10,2 122,4 144,0 104,0
14 12,1 169,4 196,0 146,4
16 13,2 211,2 256,0 174,2
18 15,1 271,8 324,0 228,0
20 15,4 308,0 400,0 237,2
22 15,6 343,2 484,0 243,4
Totais: 112,00 93,40 1.544,00 1.904,00 1.272,46
Calculando “ â ” e “ b̂ ”:
(112,0)(93,4)
1544,0 −
b̂ = 7 = 0,44
(112,0) 2
1904,0 −
7
93,4 112,0
aˆ = − 0,44 = 6,257 ≅ 6,30
7 7
Logo, a equação estimada ou ajustada para a produção de leite em função do nível de proteína é
dada:
ŷ i = 6,30 + 0,44 x i
Esta equação pode ser interpretada da seguinte maneira: no intervalo estudado espera-se um
-1
aumento médio de 0,44 kg.dia na produção de leite das vacas a cada 1% (x variando de 10 a 22
% de proteína) de aumento no nível de proteína da ração. A interpretação está diretamente ligada
ao valor do coeficiente angular da reta (“ b ”). Para o exemplo:
x = 12% ⇒ yˆ = 6,30 + 0,44(12) = 11,58 kg.dia −1

x = 13% ⇒ yˆ = 6,30 + 0,44(13) = 12,044 kg.dia −1
∆x = 1% ∆y = 0,44 kg.dia −1
Deve-se ressaltar o perigo em extrapolar as conclusões além do alcance dos dados amostrais,
pois além do intervalo estudado, a relação existente entre as variáveis pode não se verificar.
7.4. VARIAÇÕES NO MODELO DE REGRESSÃO
Vejamos as variações admitidas no modelo de regressão e como calculá-las:
1º- A Variação Total ( SQTotal ) mede a variação dos pontos da reta de regressão em torno da
média da variável dependente ( y ):
2
n 
 ∑ yi 
n  
SQTotal = ∑ y i −  
2 i=1
i=1 n
(93,4) 2
SQTotal = 1272,46 − = 26,24
7
Para o exemplo: SQTotal mede toda a variação ocorrida na produção de leite.

2º- Variação na Regressão Linear ( SQRL ):
2
  n  n 

 n

 ∑ xi 
∑ yi  

 ∑x i y i −  i =1  i =1  
 i =1 n 
 
 
SQRL =  
2
 n 
n

 ∑ xi 

 
∑
i =1
xi −
2 i =1
n
Para o exemplo:
( 49,6) 2
SQRL = = 21,97
112,0
O desvio da regressão linear mede o valor da variação ocorrida na produção de leite devido à
variação nos diversos níveis de proteína na ração. Em termos percentuais da Variação Total, a
variação devida à Regressão Linear é denominada Coeficiente de Determinação ( r 2 ):
SQRL 21,97
r2 = 100% = 100% = 83,7%
SQTOTAL 26,24
A interpretação é: 83,7 % da variação na produção de leite é explicada pela variação na

porcentagem de proteína na ração.
3º- Variação do acaso é a variação não explicada pela regressão (Soma de Quadrados do Desvio
( SQ Re síduo )):
SQResíduo = SQTotal − SQRL
Nota. SQResíduo é também chamada SQDesvio .
Para o exemplo:
SQResíduo = 26,24 − 21,97 = 4,27
Mede a variação ocorrida na produção de leite que não foi devido à variação dos níveis de proteína
4,27
da ração. Em termos percentuais: 100% = 16,3% da variação em y é explicada por x .
26,24
7.5. CORRELAÇÃO
A partir das evidências de que existe relacionamento entre as variáveis, existe a

necessidade de quantificação do grau de correlação entre elas. Isto já foi feito através das somas
de quadrados descritas acima, porém, é tradicional e conveniente fazer-se também, e
principalmente, esta quantificação calculando o chamado coeficiente de correlação (“ r ”):
 n  n 
n

 ∑ xi 
∑ yi 

 i =1  i =1 
∑x y
i =1
i i −
n
r =
  n 
2   n 
2 

 n

∑ xi 


 n

 ∑
yi 



 i =1    y i2 −  i =1 
∑
 x i2 −
 i =1 n ∑
  i =1 n


  
  
  
Interpretação dos valores do coeficiente de correlação:
O valor do coeficiente de correlação pode variar de –1 até 1: os valores negativos indicam

associação inversa entre as variáveis e os positivos indicam associação direta. Se o coeficiente de
correlação for igual a zero, há indicação de que não existe relação entre as variáveis.
Calculando o coeficiente de correlação para o exemplo:
49,6
r = = 0,915
(112,0)(26,24)
Interpretando o resultado: pode-se afirmar que existe alta associação direta (positiva) entre o nível
de proteína da ração e a produção de leite.
7.6. COEFICIENTE DE DETERMINAÇÃO (“ r 2 ”)
O coeficiente de determinação, indica percentualmente a variação da variável dependente

(“ y ”) causada pela variação da variável independente (“ x ”). Isto já foi mostrado acima. Outro
modo de calcular ou medir esta associação é elevar o valor encontrado no coeficiente de
correlação ao quadrado. Tal quadrado é também o coeficiente de determinação, o r 2 Para o

exemplo:
r = 0,915 2 = 0,8372 = 83,7%
Interpreta-se que 83,7% da variação ocorrida na produção de leite se deve à variação do nível de
proteína na ração.
1) Qual é a equação da reta com as seguintes características?

a) Coeficiente angular 3,5 e intercepto -2;
Teremos a seguinte equação: y = -2 + 3,5 x
b) Coeficiente angular -5 e intercepto 6,3;
Teremos a seguinte equação: y = 6,3 -5 x
c) Coeficiente angular 0 e intercepto 3,8;
Teremos a seguinte equação: y = 3,8
2) Determine os coeficientes angulares e os interceptos das seguintes equações da reta:

a) y = -5 x
Coeficiente angular = –5 e intercepto = 0.
b) y = 3,8
Coeficiente angular = 0 e intercepto = 3,8.
c) y = 2 – 3x
Coeficiente angular = 3 e intercepto = 2.
3) Use os valores dados abaixo para estimar a equação de regressão e plote a reta de regressão:
20 20 20 20
∑ x = 200 ,
i =1
∑ y = 300 , ∑ xy = 6.200 , ∑ x
i =1 i =1 i =1
2
= 3.600 , n = 20
Calculando o coeficiente angular da reta:

 20   20  20 
n
 ∑ xy  − 
  ∑ ∑
x 

y

20(6.200 ) − (200 )(300 )
b=  i =1   i =1  i =1 
= =2
20(3.600 ) − (200 )
2 2
 20 2   20 
n
∑ x −
  ∑ x

 i =1   i =1 
Calculando o intercepto da reta:

20 20
∑
i =1
y −b ∑x
i =1 300 − 2( 200 )
a= = = −5
n 20
Assim, a equação de regressão é: y = -5 + 2 x .
Plotando a reta de regressão:
4) Foi feito um estudo sobre a adição de sulfato de cálcio (CaSO4) à uréia e seu efeito no ganho de
peso de novilhos tratados com cana. Os resultados obtidos foram os seguintes:
x 0 5 10 15 20
y 495 560 590 620 615
Onde x é concentração de CaSO4 em g/kg e y o ganho de peso diário em gramas.
a) Faça um diagrama de dispersão para os dados.

Ganho de peso (g)
Sulfato de Cálcio (g/kg)
b) Estime a equação de regressão que se ajusta aos dados.

Calculando os somatórios:
5 5 5 5 5
∑ x = 50 ,
i =1
∑ y = 2.880 ,
i =1
∑ xy = 30.300 ,
i =1
∑x
i =1
2
= 750 , ∑y
i =1
2
= 1.669.350
Calculando o coeficiente angular da reta:
 5   5  5 
n
 ∑ xy  − 
  ∑ ∑
x 

y

5(30.300 ) − (50 )(2.880 )
 i =1   i =1  i =1 
b= = =6
5(750 ) − (50 )
2 2
 5 2  5 
n
 ∑ x −
 
x
 ∑
 i =1   i =1 
Calculando o intercepto da reta:
5 5
∑i =1
y −b ∑x
i =1 2.880 − 6(50)
a= = = 516
n 5
Assim a equação de regressão é: y = 516 + 6 x .
c) “Plote” (faça o gráfico de) a equação estimada.
Para “plotarmos” a reta de regressão, atribuímos valores para x e assim encontraremos o

valor correspondente em y. Então, é só “plotarmos” estes valores nos eixos x e y.
Ganho de peso (g)
Sulfato de Cálcio (g/kg)
d) Interprete praticamente a equação de regressão.
No intervalo estudado, esperamos um aumento de peso diário de 6g, para cada 1% de

CaSO4 adicionado à uréia.
e) Calcule e interprete as três variações admitidas no modelo de regressão.

1°- Soma de Quadrados Total (SQTotal):
2
 5 
5

 ∑ y
 (2.880 )2 = 10.470
 i =1 
SQTotal = ∑
i =1
y2 −
n
= 1.669.350 −
5
Este valor encontrado para o SQTotal mede toda a variação ocorrida no peso dos novilhos.
2°- Soma de Quadrados de Regressão Linear (SQRL):
2
  5  5  

 5

∑ ∑ x 

y

 i =1  i =1  

∑
 i =1
xy −
n 
 
 
 = (1.500 ) = 9.000
2
SQRL = 
2 250
 5 
5 ∑


x

x2 − 
i =1 
∑
i =1
n
Este valor encontrado para a SQRL mede a variação do peso dos novilhos devido à
variação do teor de sulfato de cálcio na uréia.
3°- Soma de Quadrados dos Desvios (SQDesvio): Pode ser encontrado pela diferença.
SQDesvio = SQTotal – SQRL = 10.470 – 9.000 = 1.470
Este valor encontrado mede a variação ocorrida no peso dos novilhos que não foi devido à
variação do teor de sulfato de cálcio na uréia.
g) Calcule o coeficiente de correlação e interprete.
 5   5  5 
n
∑   ∑ ∑
xy  −  x 

y

r =  i =1   i =1  i =1  =
1.500
= 0,93
 2  250 × 10.470
  5  
  5
 
2 

  5   5 2  i =1 
∑y 


 n∑
  i =1
2 
x −
  ∑ 
x 
 ∑
i =1   i =1
y −
n 
    
 
 
Portanto, r = 0,93 mostra que existe alta correlação positiva entre o teor de sulfato de
cálcio e o ganho de peso dos novilhos.
2
h) Encontre o coeficiente de determinação (r ) e interprete.
2 2
r = 0,93
2
r = 0,8649
Portanto, 86,49% da variação ocorrida no ganho de peso dos novilhos se deve ao teor de
sulfato de cálcio na uréia.
1) Qual é a equação da reta com as seguintes características? Esboce-as graficamente.

a) Coeficiente angular 10,2, e intercepto 5,0;
b) Coeficiente angular 55, e intercepto 0; .
c) Coeficiente angular 0, e intercepto 2,4;
2) Determine os coeficientes angulares e os interceptos-y das seguintes equações da reta:

a) y = 3 + 7x
b)y = 3x
c) y = -2 + x
3) Com os valores dados abaixo, estime a equação e plote a reta de regressão:

20 20 20 20
a) ∑
i =1
x = 163 , ∑
i =1
y = 150 , ∑
i =1
xy = 2.300 e ∑x
i =1
2
= 1.600
6 6 6 6
b) ∑
i =1
x = 37 , ∑
i =1
y = 15 , ∑
i =1
xy = 230 e ∑x
i =1
2
= 1.560
4) Numa pesquisa foram medidos os teores de alumínio em diversos solos onde é cultivado soja e
anotando-se suas respectivas produtividades. Foram obtidos os seguintes resultados:
x 0,9 1,1 1,2 1,5 1,6 1,8 2,0
y 1,0 0,9 0,8 0,9 0,6 0,5 0,5
Sendo:
+++
- x teor de Al em mE/100 cc de solo;
- y a produtividade de soja em t/ha.
a) Faça um diagrama de dispersão para os dados.
c) Plote a equação estimada.

d) Interprete de maneira prática a equação de regressão.
f) Calcule o coeficiente de correlação e interprete.
2
g) Encontre o coeficiente de determinação (r ) e interprete.
5) É necessário de tempos em tempos realizar estimativas do peso de ovelhas; por exemplo, para
predizer o efeito de certas drogas ou para predizer datas de disponibilização no mercado.
Infelizmente, pesar cada ovelha é difícil, então é necessário realizar estimativas do peso das
ovelhas de um modo mais fácil. Um estudo foi realizado para investigar a relação entre o peso vivo
da ovelha e a sua circunferência de tórax. A tabela mostra as medidas de uma amostra aleatória
de 66 ovelhas estudadas cuja circunferência de tórax encontra-se entre 60 cm e 90 cm.
Tabela 1. Peso vivo (LW) em kg e circunferência de tórax (CG) em cm de 66 ovelhas (dados de

Warriss e Edwards, 1995, com permissão.)
LW CG LW CG LW CG LW CG LW CG LW CG
(y) (x) (y) (x) (y) (x) (y) (x) (y) (x) (y) (x)
30 76 20 63 28 77 29 73 18 62 19 67
24 71 28 70 25 71 30 74 28 70 27 69
20 63 22 65 27 72 21 64 27 71 31 74
25 69 28 72 28 74 28 74 30 73 23 67
25 67 25 67 25 65 48 89 28 72 22 63
19 62 20 62 20 64 17 60 22 69 35 75
35 77 35 78 35 78 46 86 48 90 44 84
37 84 43 81 32 73 43 84 31 73 31 73
39 78 36 81 33 80 44 82 39 80 45 86
43 88 41 87 36 82 43 80 33 79 35 78
38 78 36 76 35 74 39 81 34 74 39 76
a) Faça um diagrama (gráfico) de dispersão para os dados.

c) Faça o gráfico da equação estimada. Faça-o sobreposto ao gráfico de dispersão.
d) Interprete praticamente a equação de regressão.
f) Calcule o coeficiente de correlação e interprete.
g) Encontre o coeficiente de determinação (r2 ) e interprete.
6) A tabela abaixo apresenta três conjuntos de dados preparados pelo estatístico Frank Anscombe,
eles mostram o perigo de fazermos o estudo de regressão sem antes examinarmos o gráfico de
dispersão.
Tabela 1. Três conjuntos de dados preparados para mostrar a necessidade de se construir sempre
o gráfico de dispersão num estudo de regressão.
Conjunto de dados A
X 10 8 13 9 11 14 6 4 12 7 5
Y 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68
Conjunto de dados B
X 10 8 13 9 11 14 6 4 12 7 5
Y 9,14 8,14 8,74 8,77 9,26 8,10 6,13 3,10 9,13 7,26 4,74
Conjunto de dados C
X 8 8 8 8 8 8 8 8 8 8 19
Y 6,58 5,76 7,71 8,84 8,47 7,04 5,25 5,56 7,91 6,89 12,50
Fonte: Moore, D. A Estatística Básica e sua prática. LTC editora, Rio de Janeiro, 2000.
a) Calcule a equação de regressão linear para cada um dos três.

b) Faça os três gráficos de dispersão e compare com os resultados de 6.a. O que você conclui ?
Observação: as tabelas estatísticas estão em um arquivo

separado.

Guia de Estudos Estatistica UFLA

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Guia de Estudos Estatistica UFLA

Transféré par

Droits d'auteur :

Formats disponibles

Guia de estudos de

1.1. O CONCEITO DE ESTATÍSTICA

Conceito 1.2. Estatística. Conjunto de métodos de obtenção e utilização de informações, para

Conforme se observa pelo conceito 1.1, para descrever um fenômeno ou um sistema, a

Mais alguns conceitos básicos se fazem necessários:

A população pode ser um conjunto de peças de um lote, de anos, de pontos no solo de um

É conveniente observar que, muitas vezes, as populações reais têm um número de

Felizmente, com o desenvolvimento da teoria de probabilidades, a partir do século XVIII,

Conceito 1.5. Amostra. Um subconjunto ou parte da população. Ela sempre é finita.

O processo de coleta de uma ou mais amostras de uma população é conhecido como

Conceito 1.6. Amostragem. Processo de obtenção ou coleta de amostras de uma população.

O objetivo último da Estatística é o de descrever e/ou tomar decisões a respeito da

Assim, didaticamente, o estudo da Estatística é dividido nos seguintes itens:

b) Teoria de Probabilidades: objetiva descrever e prever as características de populações infinitas.

c) Teoria da Amostragem: é a formalização de um conjunto de técnicas para a coleta de amostras

d) Inferência Estatística: como já definida, trata da obtenção de informações a respeito da

1.2. VARIÁVEIS E DADOS

De todas as características da população, sua descrição é feita por aquelas de maior

As características que descrevem a população são chamadas variáveis, e um valor

As variáveis qualitativas (também denominadas categóricas) correspondem a atributos,

Quanto às variáveis quantitativas, estas correspondem a números resultantes das

Nas variáveis quantitativas contínuas, as realizações resultam de medição, uma

1.3. A NOTAÇÃO DE SOMATÓRIO

Apesar de existir vários tipos de variáveis, é muito frequente, em Estatística, trabalhar-se

Como também é muito comum o interesse no cálculo de somas, somas de termos ao

é representada em notação de somatório da seguinte forma:

2) Se k é constante e xi valores de uma variável quantitativa, então:

Em consequência das regras 1, 2 e 3, se “a” e “b” são constantes, então:

1.4. EXERCÍCIOS RESOLVIDOS

1. Expresse as seguintes somas usando notação de somatório:

∑ 27 x − ∑ 405 x +∑ 2025 x − ∑ 3375 =

(27 × 496 ) − ( 405 × 84 ) + (2025 × 16) − 4 × 3375 = −1728

1.5. EXERCÍCIOS PROPOSTOS

2. Escreva em notação sigma (somatório)

3. Sejam os conjuntos de dados: x= {4,3,0,1} e y={3,0,1,3}. Obtenha os seguintes somatórios:

Neste capítulo serão abordados os conceitos elementares para a descrição de um conjunto

2.2. DESCRIÇÃO DE VARIÁVEIS CATEGÓRICAS

Tabela 2.1. Atividade predominante em 20 propriedades de um município.

Café Leite Leite Milho

Frequência Relativa (fr)

Figura 2.1. Tipos de frequência de ocorrência.

A frequência absoluta, no caso de variáveis qualitativas, nada mais é do que o

No exemplo das atividades agropecuárias predominantes em propriedades, as frequências

fp(café) = 0,40 × 100% = 40%.

A distribuição de frequência de uma variável observada em população finitas e amostras,

Tabela 2.2. Distribuição da frequência absoluta da atividade agropecuária predominante em 20

Atividade predominante Frequência absoluta

Outra observação pertinente é a seguinte: nesse exemplo, a variável é qualitativa nominal,

{ótimo, bom, regular, ruim}

Tabela 2.3. Distribuição da frequência absoluta da atividade agropecuária predominante em 20

Atividade predominante Frequência absoluta

- No rodapé, são colocadas a legenda e todas as observações que venham a esclarecer a

Figura 2.2. Componentes de uma tabela.

Tabela 2.4. Distibuição de frequências absolutas das atividades predominantes e do nível de

Nível de tecnologia utilizada

Atividade predominante Baixo Médio Alto Totais

Dependendo do contexto, alguns componentes podem estar ausentes. Nota-se que a

Figura 2.3. Gráfico de linhas representando a distribuição de frequência relativa referente à

O gráfico de barras é bastante semelhante ao gráfico de linhas, com a diferença de que

O setorgrama (também chamado de gráfico circular, gráfico de setores ou gráfico de pizza)

0 0,1 0,2 0,3 0,4 0,5

Figura 2.5. Gráfico de barras horizontais representando a distribuição de frequência relativa

Figura 2.7. Setorgrama representando a distribuição de frequência relativa referente à atividade

Fonte: dados fictícios, apenas para efeito didático.