Académique Documents
Professionnel Documents
Culture Documents
SUMÁRIO PÁGINA
1. Teoria 01
2. Resolução de exercícios 30
3. Lista de exercícios resolvidos 79
4. Gabarito 97
Olá,
Na aula de hoje trabalharemos os seguintes tópicos do seu edital:
1. TEORIA
1.1 Estatística descritiva e análise exploratória de dados: gráficos,
diagramas, tabelas. Variáveis aleatórias discretas e contínuas.
É preciso que você saiba ainda que as variáveis aleatórias podem ser
classificadas em:
- variáveis nominais: são aquelas definidas por “nomes”, não podendo ser colocadas
em uma ordem crescente. Ex.: a variável “sexo dos moradores de um bairro” é
nominal, pois só pode assumir os valores “masculino” ou “feminino”. Veja que não
há uma ordem clara entre esses dois possíveis valores (não há um valor maior e
outro menor).
- variáveis ordinais: são aquelas que podem ser colocadas em uma ordem
crescente, mas não é possível (ou não faz sentido) calcular a diferença entre um
valor e o seguinte. Ex.: numa escola onde as notas dos alunos sejam dadas em
1.1.2 Tabelas
Para descrever um conjunto de dados, um recurso muito utilizado são tabelas
como essa abaixo, referente à observação da variável Sexo dos moradores de
Brasília:
Valor da variável Frequências (Fi)
Masculino 23
Feminino 27
Se essa amostra foi bem escolhida, ela nos dá uma boa estimativa de como
é distribuída a população brasiliense: cerca de 46% são homens e 54% mulheres.
Quanto maior a amostra (e mais bem escolhida), mais nos aproximaremos dos
percentuais que seriam obtidos na análise de toda a população.
Note que a frequência relativa é dada por Fi / n, onde Fi é o número de
frequências de determinado valor da variável, e n é o número total de observações.
Quando temos uma variável como esta, que pode assumir um grande
número de valores distintos, é interessante “resumir” os dados, criando intervalos de
valores para a variável (que chamaremos de classes). Veja um exemplo:
O símbolo | significa que o valor que se encontra ao seu lado está incluído na
classe. Por exemplo, 1,50| - 1,60 nos indica que as pessoas com altura igual a 1,50
são contadas entre as que fazem parte dessa classe, porém as pessoas com
exatamente 1,60 não são contabilizadas.
Assim, temos as seguintes formas de criar as classes, onde “li” é o limite
inferior da classe (menor valor, ex.: 1,50) e “Li” é o limite superior (o maior valor, ex.:
1,60):
35
30
25
Frequências
20
15
10
0
1,50| – 1,60 1,60| – 1,70 1,70| – 1,80 1,80| – 1,90
Classes (intervalos)
90
A
80
Frequências acumuladas (Fac)
70
60
50
40
30
20
10
0
1,6 1,7 1,8 1,9
Altura (somente o limite superior da classe)
A
100%
80%
60%
40%
20%
0%
1,6 1,7 1,8 1,9
Altura (som ente o lim ite superior da classe)
Aqui, o ponto A nos indica que 97,50% das frequências encontram-se abaixo
de 1,80m.
25
20
Frequências (Fi)
15
10
0
0 - |10 10 - |20 20 - |30 30 - |40 40 - |50 50 - |60 60 - |70
Classes (intervalos de Idades)
25
20
Frequências (Fi)
15
10
0
0 - |10 10 - |20 20 - |30 30 - |40 40 - |50 50 - |60 60 - |70
Classes (intervalos de Idades)
25
20
Frequências (Fi)
15
10
0
0 - |10 10 - |20 20 - |30 30 - |40 40 - |50 50 - |60 60 - |70
Classes (intervalos de Idades)
Média aritmética:
É a soma de todos os valores da variável observada, dividida pelo total de
observações. Vamos usar a tabela abaixo para calcular a altura média:
Valor da variável Frequências (Fi)
1,50m 15
1,51m 5
1,53m 4
1,57m 2
1,60m 10
1,63m 8
1,65m 1
1,71m 20
1,73m 10
1,75m 3
1,83m 2
Dividindo esse valor pelo total de indivíduos (isto é, soma de frequências Fi),
temos a média:
Média = 130,41 / 80 = 1,63m
∑ Xi
Média = i =1
n
Caso tenhamos dados em uma tabela de frequências como a que vimos
acima, a média é dada por:
n
∑ ( Xi × Fi )
Média = i =1
n
∑ Fi
i =1
∑ ( PMi × Fi )
Média = i =1
n
∑ Fi
i =1
Nessa fórmula, PMi é o ponto médio da classe “i”. Por exemplo, se temos a
classe 1,50|---1,60, o ponto médio será o valor PM = 1,55 (que é justamente a
média aritmética entre o limite inferior e superior da classe).
Mediana:
É a observação “do meio” quando os dados são organizados do menor para o
maior. Abaixo da mediana encontram-se 50% (metade) das observações, e a outra
metade encontra-se acima da mediana. Se temos n dados em uma distribuição, a
mediana será termo que se encontra na posição (n+1)/2. Vamos encontrar a
mediana para o conjunto de dados abaixo:
Valor da variável Frequências (Fi)
1,50m 15
1,51m 5
1,53m 4
1,57m 2
1,60m 10
1,63m 8
1,65m 1
1,71m 20
1,73m 10
1,75m 3
1,83m 3
Veja que até a altura 1,60m temos 36 pessoas. Temos mais 8 pessoas na
altura 1,63m (abrangendo do 37º até o 44º). Portanto, a posição 41 tem altura igual
a 1,63m. Isto é, mediana = 1,63m.
Se tivéssemos um número par de elementos, a conta (n+1)/2 não teria
resultado exato. Nesse caso a mediana seria dada pela média dos dois valores
centrais da amostra. Veja o exemplo abaixo, no qual temos listadas a idade de 10
pessoas:
{ 5, 6, 6, 7, 7, 8, 8, 8, 9, 11}
Veja que as idades já estão ordenadas da menor para a maior. Como temos
10 valores (número par), então (n+1)/2 = (10+1)/2 = 5,5. Não temos um elemento
central, que seria a mediana. Ao invés disso, vamos utilizar a média dos dois
elementos centrais, isto é, o 5º e o 6º elementos. Eles estão marcados em
vermelho:
{ 5, 6, 6, 7, 7, 8, 8, 8, 9, 11}
A Mediana será igual a (7 + 8)/2 = 7,5.
Neste passo vamos montar duas retas paralelas, como você vê abaixo, uma
delas com as frequências acumuladas e a outra com os valores de alturas
correspondentes:
Frequência: 26 40 45
|-----------------------------|----------------|
Valores: 1,60 X 1,70
|-----------------------------|----------------|
- a última frequência da classe anterior (26) com o limite de altura daquela classe
(1,60), que também é o limite inferior da classe da mediana;
- a última frequência da classe da mediana (40) com o limite de altura dessa classe
(1,70).
45 - 40 1,70 - X
=
45 - 26 1,70 - 1,60
Feito isso, basta encontrar o valor de X, que neste caso é X = 1,67m. Esta é
a mediana pelo método da interpolação linear.
Moda:
A moda é o valor da observação com maior número de frequências. Ao
contrário da média e da mediana, que são valores únicos, uma amostra pode ter 1,
2 ou mais modas (ser unimodal, bimodal etc.). Veja novamente o conjunto de
idades:
{ 5, 6, 6, 7, 7, 8, 8, 8, 9, 11}
Note que a idade 8 é a que aparece mais vezes (3 vezes). Portanto, a moda
deste conjunto é igual a 8. Já na tabela de alturas, que reproduzo novamente, a
moda é a altura de 1,71m, pois ela aparece 20 vezes:
1,51m 5
1,53m 4
1,57m 2
1,60m 10
1,63m 8
1,65m 1
1,71m 20
1,73m 10
1,75m 3
1,83m 3
Os problemas mais difíceis envolvendo moda são aqueles onde é dada uma
tabela com classes de valores para a variável, como esta abaixo (que também já
utilizamos nessa aula):
Classe Frequências (Fi)
1,50| – 1,60 26
1,60| – 1,70 19
1,70| – 1,80 33
1,80| – 1,90 2
b. Moda de Czuber:
fcm − fant
Moda = li + c ×
2 fcm − ( fant + fpost )
Nessa fórmula fcm é o número de frequências da classe modal, que
neste caso é fcm = 33. Portanto, a moda em nosso exemplo será:
33 − 19
Moda = 1,70 + 0,10 × = 1,731m
2 × 33 − (19 + 2)
Note que os valores obtidos são diferentes, motivo pelo qual você
precisará saber as duas fórmulas. Se a questão não especificar o método,
sugiro tentar primeiramente o método de Czuber.
E note um grande diferencial do método de Czuber: ele é o único que
leva em conta, no cálculo, as frequências da Classe Modal!
Finalizando o estudo da Moda, veja que o seu valor não é afetado pelos
valores extremos (mínimos e máximos) da amostragem.
Média geométrica:
A média geométrica de um conjunto de “n” dados é simplesmente a raiz de
grau “n” do produto destes dados. Exemplificando, veja o conjunto abaixo:
A = {1, 25}
Observe que o valor obtido é bem menor que obteríamos com a média
aritmética (que seria igual a 13). Vejamos este outro conjunto:
B = {3, 3, 81}
Temos 3 dados, de modo que a média geométrica será a raiz de grau 3 (raiz
cúbica) da multiplicação deles:
Média = 3 3 × 3 × 81 = 9
A média aritmética deste conjunto seria igual a 29. Assim, podemos afirmar
que a média geométrica de um conjunto de números é sempre menor ou igual à
média aritmética do mesmo conjunto.
Isto é, a diferença de altura entre a pessoa em relação a qual 25% são mais
baixos (Q1) e a pessoa em relação a qual 25% são mais altos (Q3) é de 19
centímetros.
∑
n
| Xi − X |
DM = 1
n
∑
n
( Fi× | Xi − X |)
DM = 1
∑
n
1
Fi
∑
n
1
Fi = 80 alunos. Portanto, temos:
15× |1,50 − 1, 63 | +5× |1, 51 − 1, 63 | +4× |1,53 − 1, 63 | +2× |1, 57 − 1, 63 | +10× |1, 60 − 1, 63 | +8× |1, 63 − 1, 63 | +1× |1, 65 − 1, 63 | +20× |1, 71 − 1, 63 | +10× |1, 73 − 1, 63 | +3× |1, 75 − 1, 63 | +2× |1,83 − 1, 63 |
DM =
15 + 5 + 4 + 2 + 10 + 8 + 1 + 20 + 10 + 3 + 2
DM = 0,084m = 8,4cm
Variância:
Chamamos de variância a média do quadrado das distâncias de cada
observação até a média. Complicado? Vamos por partes...
A distância de uma observação Xi até a média X é dada pela subtração
X i − X . O quadrado desta distância é ( X i − X ) 2 . A média do quadrado dessas
∑(X i − X )2
Variancia = σ 2 = 1
n
Como você viu nesta fórmula, costumamos simbolizar a variância por σ 2 .
Exemplificando, vamos calcular a variância do seguinte conjunto de dados: {1, 3, 5,
5, 8, 9}. Repare que temos n = 6 elementos, cuja média é:
1+ 3 + 5 + 5 + 8 + 9
X= =6
6
Assim, a variância é:
∑(X i − X )2
(1 − 6)2 + (3 − 6)2 + (5 − 6) 2 + (5 − 6)2 + (8 − 6)2 + (9 − 6) 2
σ2 = 1
=
n 6
25 + 9 + 1 + 1 + 4 + 9
σ2 = = 8,16
6
Esta é a fórmula básica da variância. Entretanto, dependendo do exercício
pode ser que seja mais conveniente usar alguma das fórmulas a seguir, que são
meras variações desta primeira:
Caso os dados estejam em uma tabela de frequências (fi):
n
∑[ f × ( X i i − X )2 ]
σ2 = 1
n
∑f
1
i
∑ [ f × ( PM
i i − X )2 ]
σ2 = 1
n
∑f
1
i
n
( ∑ X i 2 ), que são cálculos relativamente fáceis.
i =1
∑(X i − X )2
Exemplificando, ao invés de σ 2 = 1
, teremos:
n
n
∑(X i − X )2
s2 = 1
n −1
n
∑[ f × ( X i i − X )2 ]
Analogamente, ao invés de σ 2 = 1
n
, teremos:
∑f 1
i
∑[ f × ( X
i i − X )2 ]
s2 = 1
n
∑f 1
i −1
2
n
1 n
∑ ( PM i × f i ) − ∑ ( PM i × f i )
2
n i =1 , usaremos:
E ao invés de σ 2 = i =1
n
2
n
1 n
∑ ( PM i
2
× f i ) − ∑
n i =1
( PM i × f i )
s 2 = i =1
n −1
Desvio padrão ( σ ):
Obtida a variância, fica fácil calcular o desvio-padrão de uma população ou
amostra. Basta tirar a raiz quadrada da variância. Isto é:
- a variância de Y será σ y 2 = a 2 × σ x 2
σ
CV =
µ
1º Coeficiente de Pearson:
2. RESOLUÇÃO DE EXERCÍCIOS
1. CESPE – SERPRO – 2008) Uma empresa de consultoria realizou um
levantamento estatístico para obter informações acerca do tempo (T) gasto por
empregados de empresas brasileiras na Internet em sítios pessoais durante suas
semanas de trabalho. Com base em uma amostra aleatória de 900 empregados de
empresas brasileiras com um regime de trabalho de 44 h semanais, essa empresa
de consultoria concluiu que cada empregado gasta, em média, 6 h semanais na
Internet em sítios pessoais durante uma semana de trabalho; 50% dos empregados
gastam 5 h semanais ou mais na Internet em sítios pessoais durante uma semana
de trabalho; e o desvio padrão do tempo gasto na Internet em sítios pessoais
durante o regime de trabalho é igual a 4 h semanais por empregado.
Com base nas informações da situação hipotética acima descrita, julgue os itens a
seguir.
( ) Segundo o IBGE, em 2007, para cada idoso com 65 anos de idade ou mais,
havia, em média, pelo menos, quatro crianças de 0 a 14 anos de idade. Em 2050,
para cada idoso com 65 anos de idade ou mais, haverá, em média, no máximo, uma
criança de 0 a 14 anos de idade.
( ) Considere-se que os anos de idade estejam distribuídos de forma eqüiprovável
na faixa de 15 a 18 anos. Nessa situação, a média e a mediana das idades nessa
faixa serão ambas iguais a 16,5 anos.
RESOLUÇÃO:
Vamos analisar separadamente cada um dos itens:
( ) Segundo o IBGE, em 2007, para cada idoso com 65 anos de idade ou mais,
havia, em média, pelo menos, quatro crianças de 0 a 14 anos de idade. Em 2050,
para cada idoso com 65 anos de idade ou mais, haverá, em média, no máximo, uma
criança de 0 a 14 anos de idade.
6,4% da população tinha 65 anos ou mais em 2007. Consultando a tabela
fornecida, vemos que neste mesmo período 27,5% da população tinha de 0 a 14
anos. Assim, naquele ano tínhamos 6,4 idosos para cada grupo de 27,5 crianças. A
regra de três abaixo nos permite obter a quantidade de crianças para 1 idoso:
X × 6,4 = 1× 27,5
X = 4,29crianças
Assim, é correto dizer que em 2007 havia pelo menos 4 crianças para cada
idoso. Em 2050 teremos 18,8% de idosos e 17,7% de crianças. Observando que o
percentual de crianças é ligeiramente inferior ao de idosos, podemos dizer que
200, 250, 300, 250, 250, 200, 150, 200, 150, 200.
150, 150, 200, 200, 200, 200, 250, 250, 250, 300.
200 + 200
Mediana = = 200
2
Item ERRADO.
∑( X i − X )2
s= i =1
n −1
onde n é o número de elementos (n = 10), Xi representa cada elemento da
amostra e X é a média da amostra. A média, neste caso, é:
150 + 150 + 200 + 200 + 200 + 200 + 250 + 250 + 250 + 300
X= = 215
10
∑(X i − X )2
s= i =1
n −1
2 × (150 − 215)2 + 4 × (200 − 215)2 + 3 × (250 − 215)2 + 1× (300 − 215)2
s=
10 − 1
( ) O número médio de estudantes por turma no turno matutino é 50% maior que o
número médio de estudantes por turma no turno vespertino.
( ) A média das idades dos dois mil estudantes da referida escola é 4% maior que a
média das idades da parcela dos estudantes que estão matriculados no turno
matutino.
( ) Se a mediana das idades dos 2 mil estudantes da escola em questão for igual a
10 anos, então haverá, pelo menos, 200 estudantes no turno matutino com idades
iguais ou inferiores a 10 anos.
RESOLUÇÃO:
( ) O número médio de estudantes por turma no turno matutino é 50% maior que o
número médio de estudantes por turma no turno vespertino.
( ) A média das idades dos dois mil estudantes da referida escola é 4% maior que a
média das idades da parcela dos estudantes que estão matriculados no turno
matutino.
Imagine que a média de idade dos alunos do turno matutino é M. Como a
média de idade do turno vespertino é 10% maior, podemos dizer que esta média é
de 1,10xM, ou simplesmente 1,1M.
Lembrando que 60% dos alunos estão no turno matutino e 40% no
vespertino, a média de idades total dos alunos é:
Média = 60% × M + 40% × 1,1M = 1,04M
Veja que esta média é, de fato, 4% superior a M (média dos estudantes do
turno matutino). Item CORRETO.
( ) Se a mediana das idades dos 2 mil estudantes da escola em questão for igual a
10 anos, então haverá, pelo menos, 200 estudantes no turno matutino com idades
iguais ou inferiores a 10 anos.
Se a mediana for de 10 anos, então espera-se que cerca de metade dos
alunos (1000) tenham idade igual ou inferior a 10 anos. No turno matutino,
composto por 1200 estudantes, certamente mais de 200 deverão ter idades iguais
ou inferiores a esta. Item CORRETO.
Resposta: C C C
A) inferior a 40.
B) superior a 40 e inferior a 43.
C) superior a 43 e inferior a 46.
D) superior a 46.
RESOLUÇÃO:
A partir do gráfico dado podemos construir a tabela de freqüências abaixo
para auxiliar-nos no cálculo da média:
Velocidade Frequências (% de veículos)
10 0
20 5
30 15
40 30
50 40
60 7
70 2
80 1
90 0
B) O custo médio por metro quadrado relativo à região Sul corresponde à mediana
dos custos médios regionais por metro quadrado.
Para obter a mediana dos custos médios regionais, devemos primeiro colocá-
los em ordem:
630, 640, 660, 670, 700
Veja que temos n = 5 valores. Como n é ímpar, a mediana será simplesmente
o termo da posição central, que é a posição (n+1)/2 = (5+1)/2 = 3. O 3º termo é o
660. Portanto, a mediana tem o mesmo valor do custo da região Sul. Item
CORRETO.
D) O custo médio por metro quadrado relativo à região Sudeste é 10% superior ao
custo relativo à região Nordeste.
7. CESPE – CEHAP/PB – 2009) O desvio padrão dos custos médios regionais por
metro quadrado foi
A) inferior a R$ 30,00.
∑(X i − X )2
σ= i =1
n
(700 − 670)2 + (660 − 670)2 + (670 − 670)2 + (640 − 670)2 + (630 − 670)2
σ=
5
8. CESPE – ABIN – 2010) Considere que um estudo tenha sido realizado para
estimar a média das idades dos empregados de determinado segmento de
empresas, e que, na ocasião em que o estudo foi realizado, o tamanho da
população de funcionários era N = 5.000 funcionários. Essa população foi
estratificada em três grupos de tamanhos N1 = 1.000, N2 = 1.500 e N3 = 2.500. Da
população de funcionários, foi retirada uma amostra aleatória estratificada de
tamanho n = 100 com alocação proporcional ao tamanho dos estratos.
RESOLUÇÃO:
A estimativa da média populacional pode ser dada considerando a tabela
abaixo:
Frequências (número de
Estrato Idade média do estrato
indivíduos)
1 30 1000
2 40 1500
3 50 2500
Assim, a média é:
21, 23, 22, 26, 34, 33, 35, 38, 37, 46, 42, 41, 49, 46, 54, 52, 50, 55
21, 22, 23, 26, 33, 34, 35, 37, 38, 41, 42, 46, 46, 49, 50, 52, 54, 55
26 + 34
1º quartil = = 30
2
Para a mediana, devemos obter a média entre a 9ª e 10ª posições:
38 + 41
Mediana = = 39,5
2
Para o 3º quartil devemos obter a média entre os elementos da 14ª e 15ª
posições:
49 + 50
3º quartil = = 49,5
2
Assim, vemos que a mediana é realmente igual a 39,5, tornando o segundo
item CORRETO, porém o primeiro item encontra-se ERRADO.
Resposta: E C
∑ PM × f i i
100.000 × 1.100 + 300.000 × 900 + 500.000 × 550 + 700.000 × 300 + 900.000 × 150
Média = i =1
=
n
1.100 + 900 + 550 + 300 + 150
∑f
i =1
i
Média = 333.333,33
Esse valor é superior a 332 mil reais, portanto o item está ERRADO.
11. CESPE – TJ/ES – 2011) Julgue os itens que se seguem, a respeito de análise
de dados discretos.
Em uma amostra x1, x2, x3, ..., xn, em que xi ∈ N e n é ímpar, a mediana é um
número inteiro.
RESOLUÇÃO:
A mediana de um conjunto de “n” dados é:
- o termo da posição (n+1)/2, se n for ímpar;
- a média aritmética dos dois termos centrais, se n for par.
Portanto, se n for ímpar, a mediana será o valor x(n+1)/2. Se todos os valores xi
são inteiros, podemos afirmar que a mediana é um número inteiro. Item CORRETO.
Resposta: C
RESOLUÇÃO:
( ) O valor máximo da variável capacidade foi igual a 20.
ERRADO. O valor máximo da variável capacidade, conforme a tabela, é igual
a 10kg.
∑ ( PMi × Fi )
Média = i =1
n
∑ Fi
i =1
Veja que você poderia suspeitar que a média é inferior a 4kg, uma vez que a
maioria dos dados de demanda situam-se nas faixas de capacidade inferior a 4kg.
( ) Um quarto da demanda foi por embalagens com capacidades para mais de 4 kg.
Olhando a tabela de freqüências acumuladas que calculamos no item
anterior, veja que até 4kg temos 60 frequências, restando 86 – 60 = 26 para as
capacidades superiores.
Como 26/86 = 0,302 = 30,2%, o item está ERRADO.
Resposta: E E C C E E E
13. CESPE – Polícia Federal – 2004) O ser humano tem impressos nos dedos das
mãos pelo menos quatro desenhos diferentes. Embora pessoas diferentes tenham
sempre digitais diferentes, esses desenhos formam padrões conhecidos como tipos
fundamentais de impressões digitais. Há raras exceções a essa regra de
classificação. Por isso, essa regra é utilizada para a identificação de uma pessoa.
Um perito, observando os dedos indicadores direitos de 200 indivíduos, obteve a
seguinte distribuição dos tipos fundamentais, segundo o gênero (homem/mulher).
n i =1
s 2 = i =1
n −1
n
Veja que a soma dos valores de Y, isto é, ∑ Y , é igual a 30 (pois temos 30
i =1
i
valores 1 e 170 valores 0). Da mesma forma, o somatório dos quadrados dos
n
valores de Y, isto é, ∑Y
i =1
i
2
, também é igual a 30, pois 12 = 1 e 02 = 0. Além disso,
1
30 − ( 30 )
2
s2 = 200 = 0,128
200 − 1
Item CERTO.
K=
∑ K = ∑(X
i i + Yi )
=
∑ X + ∑Y
i i
n n n
n n
Já vimos que ∑ Yi = 30, e você pode observar que
i =1
∑X
i =1
i =70 (pois temos 70
s 2 = i =1 = 10 = 8,9
n −1 10 − 1
E a média é:
X=
∑X i
=
93
= 9, 3
n 10
Item ERRADO.
X=
∑X i
=
93
= 9, 3
n 10
Item CORRETO.
Y=
∑Y i
=
780
= 78
n 10
Dividindo o faturamento médio por produto pela despesa média por produto
temos:
78
= 8,38 (maior que 8)
9, 3
Item CORRETO.
Resposta: E C C
16. CESPE – STM – 2011) Com relação a representações gráficas, julgue os itens:
( ) Um histograma é um gráfico que representa a dispersão tanto de variáveis
discretas quanto de contínuas.
( ) A partir do histograma mostrado na figura abaixo, é correto inferir que a
distribuição da variável X é simétrica.
RESOLUÇÃO:
( ) Um histograma é um gráfico que representa a dispersão tanto de variáveis
discretas quanto de contínuas.
Os histogramas são gráficos de colunas utilizados, em regra, para
representar variáveis discretas. Item ERRADO.
17. CESPE – STM – 2011) Considere o seguinte conjunto de dados composto por
cinco elementos: {82,93; 94,54; 98,40; 115,41; 123,07}.
Com base nesses dados, julgue os itens subsequentes acerca das medidas de
tendência central.
( ) Em uma distribuição de dados unimodal, se a média e a mediana forem iguais,
não é possível determinar o valor da moda se todos os dados não estiverem
disponíveis.
( ) A média do conjunto de dados em questão é 102,87 e a mediana é 98,40. Se o
valor 123,07 for alterado para 200, a média irá aumentar, mas a mediana continuará
sendo 98,40.
( ) Se o valor de um dos elementos do conjunto não for fornecido, esse valor pode
ser determinado se a média do conjunto for conhecida, mas não será possível obter
esse valor conhecendo-se apenas a mediana.
RESOLUÇÃO:
( ) Em uma distribuição de dados unimodal, se a média e a mediana forem iguais,
não é possível determinar o valor da moda se todos os dados não estiverem
disponíveis.
ERRADO, pois é possível determinar o valor da moda ainda que algum valor
esteja faltando. Exemplificando, veja a seguinte distribuição: {1; 1; 1; 1; 3,74; 6; 6; 7;
7}. Ela possui média igual a 3,74 e mediana também igual a 3,74. Ainda que não
soubéssemos um dos valores, já seria possível determinar que a moda é igual a 1.
Exemplificando, se tivéssemos: {1; 1; 1; 1; 3,74; X; 6; 7; 7}, onde o X representa um
valor desconhecido, já poderíamos afirmar que a moda é igual a 1, independente do
valor que X venha a assumir.
( ) Se o valor de um dos elementos do conjunto não for fornecido, esse valor pode
ser determinado se a média do conjunto for conhecida, mas não será possível obter
esse valor conhecendo-se apenas a mediana.
Item CORRETO, pois se não conhecemos apenas um valor, é possível obtê-
lo sabendo-se a média, o número de termos e o valor de cada um dos demais
termos (ou da soma dos demais termos). Isto porque todos os termos entram no
cálculo da média:
Média =
∑X i
∑X = Média × n X 1 + X 2 + ... + X n = Média × n
i
n
Já a mediana é obtida apenas a partir do termo central (se o número de
termos é ímpar), ou da média aritmética dos termos centrais (se o número de
termos é par). Assim, em regra não é possível obter um termo desconhecido
conhecendo-se apenas a mediana (a menos que o termo buscado seja o termo
central).
Obs.: novamente a banca entendeu ser melhor anular este item devido à
redação confusa. Apresentei nesta aula pois em provas futuras a banca pode cobrar
o mesmo assunto, porém aperfeiçoando a redação, para não dar margem à novas
anulações.
RESOLUÇÃO:
Sabemos que a variância amostral pode ser definida assim:
2
n
1 n
∑
i =1
X i
2
− ∑ i X
n i =1
s =
2
n −1
Fazendo algumas manipulações algébricas, temos:
2
n
1 n2 n
∑
i =1
X i − × 2
× ∑ i X
n n 2 i =1
s =
2
n −1
2
n
n
n 2 ∑ Xi
∑
i =1
X i 2 − × i =1
n n
s =
2
n −1
( )
n 2
∑X i
2
− n× X
s =
2 i =1
n −1
1 n 2
Var ( X ) = s =
2
× ∑ X i2 − n × X
n − 1 i =1
A tabela acima apresenta a distribuição de freqüência absoluta das notas dadas por
125 usuários de um serviço público, em uma avaliação da qualidade do
atendimento. Considerando essas informações, julgue os próximos itens.
( ) A média, a moda e a mediana dos valores apresentados na tabela são superiores
a 2,8 e inferiores a 3,3.
( ) O desvio-padrão das notas apresentadas na tabela é superior a 1,1.
RESOLUÇÃO:
Para resolver esta questão, vamos calcular a média, moda, mediana e
desvio-padrão das notas da tabela. A tabela abaixo nos auxilia a efetuar o cálculo:
Nota (Xi) Frequência (fi) Xi x fi Frequências
acumuladas
(fac)
0 2 0 2
1 10 10 12
2 20 40 32
3 47 141 79
4 46 184 125
- ∑f i = 125 ∑X i × f i = 375 -
X=
∑X × f i i
=3
∑f i
A moda é a nota que possui mais frequências. Na tabela, vemos que a moda
é igual a 3, que possui 47 repetições.
Como temos n = 125 (número ímpar) repetições, a mediana é o termo da
posição (n+1)/2 = (125+1)/2 = 63. Olhando a coluna das frequências acumuladas
(fac), veja que temos 32 frequências até a nota 2, e 79 frequências até a nota 3.
Logo, a posição 63 só pode estar na classe da nota 3. Assim, Mediana = 3.
Para obter o desvio-padrão, vamos inicialmente calcular a variância. Repare
que vamos calcular a variância amostral, e não populacional (pois os 125 usuários
do serviço público são apenas uma amostra do total de usuários do serviço). Para
uma tabela de frequências, a fórmula é:
n
∑[ f × ( X i i − X )2 ]
s2 = 1
n
∑f 1
i −1
0 2 -3 9 18
1 10 -2 4 40
2 20 -1 1 20
3 47 0 0 0
4 46 1 1 46
- ∑f i = 125 n
∑[ f × ( X
i i − X ) 2 ] = 124
1
Portanto,
n
∑[ f × ( X
i i − X )2 ]
124
s2 = 1
= =1
n
125 − 1
∑f 1
i −1
RESOLUÇÃO:
Resposta: E C C C C
RESOLUÇÃO:
Resposta: C
( ) A média e a mediana do número de eleitores que não votaram estão entre 4.000
e 6.000.
RESOLUÇÃO:
Observe que, de fato, temos um gráfico simétrico. Isto poderia ser percebido
com a mera análise da tabela, afinal tanto à direita quanto à esquerda da classe
com 3000 frequências temos classes com 1000 frequências cada. Item CORRETO.
Média =
∑ PM × f
i i
∑f i
1000 × 364 + 3000 × 1000 + 5000 × 3000 + 7000 × 1000 + 9000 × 200
Média = = 4882
5564
( ) A média e a mediana do número de eleitores que não votaram estão entre 4.000
e 6.000.
Resposta: C C C E
RESOLUÇÃO:
Resposta: E C
Com base nas informações acima, considerando que a variável X representa o total
anual de casos de febre hemorrágica da dengue em Fortaleza, julgue os itens a
seguir.
RESOLUÇÃO:
60 + 44 + 166
Média2001−2003 = = 90
3
ERRADO. Observe que X não é uma variável aleatória como outra qualquer,
trata-se de uma variável conhecida como “série temporal”, isto é, uma série de
observações de um mesmo fenômeno (casos de febre) ordenados no tempo. Não
temos um histograma, que se caracterizaria pela existência de intervalos de classes.
(0 − 1) 2 + (0 − 1) 2 + (0 − 1) 2 + (4 − 1) 2 + (1 − 1) 2
Var =
5 −1
1+1+1+ 9 + 0
Var = =3
4
Item CORRETO.
Resposta: C E E E C
RESOLUÇÃO:
Efetuando a subtração X – Y para cada ano, obtemos os valores {20, 25, 28,
28, 27}, cuja média é:
20 + 25 + 28 + 28 + 27
Média = = 25, 6
5
Colocando os valores X+Y em ordem crescente, temos {60, 67, 72, 76, 81}.
São n = 5 termos, de modo que a mediana é o termo da posição (5+1)/2 = 3. O
terceiro termo é igual a 72, sendo a mediana. Este valor é superior a 70 milhões de
toneladas, tornando o item ERRADO.
A média de Y é:
(20 − 22,8) 2 + (21 − 22,8)2 + (22 − 22,8)2 + (24 − 22,8)2 + (27 − 22,8)2
Var =
5 −1
( −2,8) + ( −1,8) + ( −0,8) + (1, 2)2 + (4, 2) 2
2 2 2
Var = = 7, 7
4
σ y = Var (Y ) = 7, 7
σy 7, 7
CV y = =
Média (Y ) 22,8
A variância amostral de X é:
(40 − 48, 4)2 + (46 − 48, 4) 2 + (50 − 48, 4) 2 + (52 − 48, 4) 2 + (54 − 48, 4)2
Var = = 30,8
5 −1
O desvio padrão de X é:
σ x = Var ( X ) = 30,8
σx 30,8
CVx = =
Média ( X ) 48, 4
( CV ) 7, 7 7, 7
2
y = 2
= = 0,0148
22,8 519,84
30,8 30,8
( CVx ) = = = 0, 0131
2
2
48, 4 2342,56
Resposta: C C E C E E C
Com base nas informações acima, relativas ao canal do Panamá, julgue os itens
seguintes.
RESOLUÇÃO:
A carga dos EUA é aquela que visivelmente mais destoa das demais. Ao
retirá-la do gráfico, restariam valores que são mais próximos entre si, isto é, menos
dispersos. Portanto, a variância e o desvio padrão diminuiriam.
Item ERRADO.
A moda é o valor 1,4%, pois este é o único com mais de uma frequência.
Como temos n = 6 termos, a mediana é a média aritmética dos termos em torno da
posição (6+1)/2 = 3,5, isto é, a média entre o 3º e o 4º valores. Assim,
1, 4% + 1,5%
Mediana = = 1, 45%
2
Resposta: E C
O lucro líquido do BB no 1.º semestre de 2003 foi de R$ 1.079 milhões, valor 30%
superior ao registrado no 2.º semestre de 2002. Esse resultado deve-se à expansão
da base de clientes para 16,7 milhões e ao aumento das receitas de serviços e
controle de custos. Os principais destaques do período estão relacionados a seguir.
# A carteira de crédito cresceu 20% nos primeiros seis meses de 2003, atingindo o
montante de R$ 72 bilhões. Merecem destaque as operações relacionadas ao
agronegócio, que, nesse período, cresceram 65%.
RESOLUÇÃO:
Veja que aqui não foi feita distinção entre clientes pessoa física e pessoa
jurídica, portanto devemos soma-los para efetuar a análise.
Como pode ser visto no gráfico, ao final de 2002 (ou 4T02), o banco possuía
15,4 milhões de clientes. E, ao final do primeiro semestre de 2003 (ou 2T03), o
número de clientes chegou a 16,7 milhões.
Resposta: E C
Obs.: você reparou que NÃO foi preciso ler o texto para resolver esses dois itens?
Bastava dar uma “passada de olho”. Preste atenção nisso, pois quem leu o texto
inteiro perdeu um tempo precioso!
( ) Segundo o IBGE, em 2007, para cada idoso com 65 anos de idade ou mais,
havia, em média, pelo menos, quatro crianças de 0 a 14 anos de idade. Em 2050,
para cada idoso com 65 anos de idade ou mais, haverá, em média, no máximo, uma
criança de 0 a 14 anos de idade.
( ) Considere-se que os anos de idade estejam distribuídos de forma eqüiprovável
na faixa de 15 a 18 anos. Nessa situação, a média e a mediana das idades nessa
faixa serão ambas iguais a 16,5 anos.
200, 250, 300, 250, 250, 200, 150, 200, 150, 200.
( ) O número médio de estudantes por turma no turno matutino é 50% maior que o
número médio de estudantes por turma no turno vespertino.
( ) A média das idades dos dois mil estudantes da referida escola é 4% maior que a
média das idades da parcela dos estudantes que estão matriculados no turno
matutino.
( ) Se a mediana das idades dos 2 mil estudantes da escola em questão for igual a
10 anos, então haverá, pelo menos, 200 estudantes no turno matutino com idades
iguais ou inferiores a 10 anos.
A) inferior a 40.
B) superior a 40 e inferior a 43.
C) superior a 43 e inferior a 46.
D) superior a 46.
7. CESPE – CEHAP/PB – 2009) O desvio padrão dos custos médios regionais por
metro quadrado foi
A) inferior a R$ 30,00.
8. CESPE – ABIN – 2010) Considere que um estudo tenha sido realizado para
estimar a média das idades dos empregados de determinado segmento de
empresas, e que, na ocasião em que o estudo foi realizado, o tamanho da
população de funcionários era N = 5.000 funcionários. Essa população foi
estratificada em três grupos de tamanhos N1 = 1.000, N2 = 1.500 e N3 = 2.500. Da
população de funcionários, foi retirada uma amostra aleatória estratificada de
tamanho n = 100 com alocação proporcional ao tamanho dos estratos.
11. CESPE – TJ/ES – 2011) Julgue os itens que se seguem, a respeito de análise
de dados discretos.
Em uma amostra x1, x2, x3, ..., xn, em que xi ∈ N e n é ímpar, a mediana é um
número inteiro.
13. CESPE – Polícia Federal – 2004) O ser humano tem impressos nos dedos das
mãos pelo menos quatro desenhos diferentes. Embora pessoas diferentes tenham
sempre digitais diferentes, esses desenhos formam padrões conhecidos como tipos
fundamentais de impressões digitais. Há raras exceções a essa regra de
classificação. Por isso, essa regra é utilizada para a identificação de uma pessoa.
Um perito, observando os dedos indicadores direitos de 200 indivíduos, obteve a
seguinte distribuição dos tipos fundamentais, segundo o gênero (homem/mulher).
16. CESPE – STM – 2011) Com relação a representações gráficas, julgue os itens:
( ) Um histograma é um gráfico que representa a dispersão tanto de variáveis
discretas quanto de contínuas.
( ) A partir do histograma mostrado na figura abaixo, é correto inferir que a
distribuição da variável X é simétrica.
17. CESPE – STM – 2011) Considere o seguinte conjunto de dados composto por
cinco elementos: {82,93; 94,54; 98,40; 115,41; 123,07}.
Com base nesses dados, julgue os itens subsequentes acerca das medidas de
tendência central.
( ) Em uma distribuição de dados unimodal, se a média e a mediana forem iguais,
não é possível determinar o valor da moda se todos os dados não estiverem
disponíveis.
( ) A média do conjunto de dados em questão é 102,87 e a mediana é 98,40. Se o
valor 123,07 for alterado para 200, a média irá aumentar, mas a mediana continuará
sendo 98,40.
( ) Se o valor de um dos elementos do conjunto não for fornecido, esse valor pode
ser determinado se a média do conjunto for conhecida, mas não será possível obter
esse valor conhecendo-se apenas a mediana.
A tabela acima apresenta a distribuição de freqüência absoluta das notas dadas por
125 usuários de um serviço público, em uma avaliação da qualidade do
atendimento. Considerando essas informações, julgue os próximos itens.
( ) A média, a moda e a mediana dos valores apresentados na tabela são superiores
a 2,8 e inferiores a 3,3.
( ) O desvio-padrão das notas apresentadas na tabela é superior a 1,1.
( ) A média e a mediana do número de eleitores que não votaram estão entre 4.000
e 6.000.
Com base nas informações acima, considerando que a variável X representa o total
anual de casos de febre hemorrágica da dengue em Fortaleza, julgue os itens a
seguir.
Com base nas informações acima, relativas ao canal do Panamá, julgue os itens
seguintes.
O lucro líquido do BB no 1.º semestre de 2003 foi de R$ 1.079 milhões, valor 30%
superior ao registrado no 2.º semestre de 2002. Esse resultado deve-se à expansão
da base de clientes para 16,7 milhões e ao aumento das receitas de serviços e
controle de custos. Os principais destaques do período estão relacionados a seguir.
# A carteira de crédito cresceu 20% nos primeiros seis meses de 2003, atingindo o
montante de R$ 72 bilhões. Merecem destaque as operações relacionadas ao
agronegócio, que, nesse período, cresceram 65%.
Acerca das informações apresentadas no texto acima e dos temas a ele correlatos,
julgue os itens a seguir.