Vous êtes sur la page 1sur 70

CE-002: Estatstica I

Primeiro Semestre de 2005


Paulo Justiniano Ribeiro Junior

Ultima
atualizacao: 16 de junho de 2005

Usando o LINUX no LABEST

Nesta aula e feita uma introducao ao sistema operacional LINUX que vem sendo adotado
ainda mostrado como rodar o programa R neste sistema.
no LABEST. E

1.1

Comandos b
asicos do LINUX

Aqui estao alguns comandos basicos do LINUX:


Todos os comandos sao documentados com man e possuem diversas outras opcoes.
Por exemplo para ver a documentacao e opcoes do comando tail digite:
man tail
Para sair da tela de ajuda co comando basta digitar a tecla q

1.2

Praticando alguns comandos

Entre em sua conta, abra um terminal (clique no botao xterm) e faca o seguinte, utilizando
os comandos da tabela acima.
1. inspecione o conte
udo do diretorio com o comando ls
2. use o editor nano para criar um arquivo chamando arquivo.txt. Para abrir o editor
digite no prompt do Linux:
nano
Digite o texto abaixo no editor:
Este
e um texto digitado no Linux usando o editor nano.
3. grave o arquivo e saia do editor. Para isto veja as opcoes na parte de baixo da tela do
nano. Note que o caracter ^ corresponde `a tecla CTRL. Portanto para gravar o arquivo
voce vai precisar teclar CTRL-O (tecla control mais o caracter O)
4. inspecione novamente o conte
udo do diretorio com o comando ls
5. troque o nome do arquivo de arquivo.txt para arq1.txt
6. use o comando more para visualizar o conte
udo do arquivo
1

CE-002: Estatstica I

Tabela 1: Alguns comandos basicos do LINUX


who
mostra os usuarios logados no sistema
w
tambem mostra os usuarios logados no sistema
quota -v
mostra informacoes sobre cotas na area do usuario
du -hs *
mostra o espaco usado por cada arquivo/diretorio de usuario
ls
lista conte
udo do diretorio local
ls -l
mostra conte
udo detalhado
ls -a
mostra arquivos escondidos
mkdir
cria diretorio
cp
copia arquivo
cp -r
copia recursivamente (para copiar diretorios)
mv
mover ou renomear arquivo/diretorio
rm
apaga arquivo
rm -r
apaga recursivamente
rm -rf
apaga recursivamente sem confirmacao (use com cuidado!)
cd
muda de diretorio
pwd
mostra o diretorio atual
cat, more ou less mostram conte
udos de arquivo
tail
mostra final de arquivo
head
mostra comeco de arquivo
zip e unzip
comprime/descomprime arquivos .zip
gzip e gunzip
comprime/descomprime arquivos .gz
gv
mostra arquivos postscript (.ps)
xpdf
mostra arquivos em portable document format (.pdf)
ssh
acessa outra maquina Linux via protocolo seguro SSH
scp
copia arquivos entre maquinas Linux via protocolo seguro
grep
procura por palavra ou expressao em um ou mais arquivos
rgrep
procura por palavra ou expressao recursivamente
chmod
muda permissao de arquivos e diretorios
locate
procura por um nome de arquivo/diretorio
passwd
troca a senha
nano
abre o editor nano
emacs
abre o editor emacs
kile
abre o editor kile adequado para edicao de textos em LATEX
mozilla
abre o browser Mozilla

opera
abre o browser Opera
ooffice
abre o OpenOfficce
R
abre o programa R

disquete
abre programa para transferencia de arquivos
da area do usuario para disquete inserido em drive local
O smbolo

indica comando exclusivo para uso nos terminais do LABEST.

7. crie um diretorio chamando aula1


8. copie o arquivo arq1.txt para dentro deste diretorio
9. digite pwd e veja (e entenda) o que sai na tela
10. entre no diretorio aula1

CE-002: Estatstica I
11. digite novamente pwd e veja o que sai na tela
12. volte para o seu diretorio raiz usando o comando cd
13. digite pwd de novo e veja onde voce esta agora (em qual diretorio)
14. digite o comando ls e veja o resultado
15. apague o arquivo arq1.txt
16. digite novamente o comando ls e veja o resultado
17. entre no diretorio aula1
18. use o comando pwd para ver se voce esta no diretorio correto
19. abra agora um novo arquivo chamando arq2.R usando o emacs
20. digite neste arquivo as seguinte linhas:
x <- rnorm(100)
summary(x)
hist(x)
sum(x > 0)
21. grave o arquivo e feche o editor emacs
22. veja o conte
udo do diretorio com o comando ls
23. abra o editor openoffice e digite o seguinte texto
Este
e um texto digitado no Linux usando o editor OpenOffice.
O Openoffice
e uma alternativa ao MS-Office.
24. grave o texto num arquivo com o nome arq3 no formato do openoffice
25. grave o texto num arquivo com o nome arq3 no formato do MS-Word (extensao .doc)
26. feche o editor e retorne `a linha de comando
27. liste os arquivos agora exitentes em seu diretorio aula1
28. use o Openoffice para criar uma planilha com os seguinte dados
A
A
A
A
B
B
B
B

12
13
11
10
14
15
12
13

29. salve esta planilha num arquivo com o nome arq4 no formato openoffice

CE-002: Estatstica I

30. salve esta planilha num arquivo com o nome arq4 no formato do MS-Excel
31. feche o programa openoffice
32. liste os arquivos nos seu diretorio
33. volte ao seu diretorio raiz.

1.3

Alguns links

Alguns links com material introdutorio sobre o LINUX:


Apostila preparada por Stonebank e um excelente material introdut
orio.
A Apostila preparada pelo PET-Inform
atica e um excelente material introdutorio.
O Linux e um stio copm muitas dicas e tutoriais.

Links para algumas distribuicoes LINUX:


Kurimin Linux e um Linux que voce pode rodar a partir de um CD-ROM.
Debian-Linux e a distribuicao usada no LABEST.
Documentacao do Conectiva-Linux. O Conectiva e uma distribuicao cuja a sede e em
Curitiba-PR.
e veja tambem a documentacao do Mandrake Linux

1.4

Rodando o programa R no LINUX

O programa R pode ser rodado no LINUX de duas formas:


1. na linha do comando do LINUX (console) basta digitar R na linha de comando do Linux.
2. dentro do editor Xemacs (ou emacs), assim como e feito no Windows. Para isto inicie
o editor com o comando emacs & e depois inicie o Rcom a combinacao de teclas ESC
SHIFT-X SHIFT-R.
Neste curso sera dada preferencia `a segunda forma, i.e. rodar o R dentro do Emacs. Maiores
detalhes sobre este mecanismo sao fornecidos no Tutorial de Introducao ao R.

Distribuic
oes de Probabilidade

O programa R inclui funcionalidade para operacoes com distribuicoes de probabilidades.


Para cada distribuicao ha 4 operacoes basicas indicadas pelas letras:
d calcula a densidade de probabilidade f (x) no ponto
p calcula a funcao de probabilidade acumulada F (x) no ponto
q calcula o quantil correspondente a uma dada probabilidade
r retira uma amostra da distribuicao
Para usar os funcoes deve-se combinar uma das letras acima com uma abreviatura do
nome da distribuicao, por exemplo para calcular probabilidades usamos: pnorm() para normal, pexp() para exponencial, pbinom() para binomial, ppois() para Poisson e assim por
diante.
Vamos ver com mais detalhes algumas distribuicoes de probabilidades.

CE-002: Estatstica I

2.1

Distribuic
ao Normal

A funcionalidade para distribuicao normal e implementada por argumentos que combinam


as letras acima com o termo norm. Vamos ver alguns exemplos com a distribuicao normal
padrao. Por default as funcoes assumem a distribuicao normal padrao N ( = 0, 2 = 1).
> dnorm(-1)
[1] 0.2419707
> pnorm(-1)
[1] 0.1586553
> qnorm(0.975)
[1] 1.959964
> rnorm(10)
[1] -1.7098545 1.0432674 -0.5028886 -1.5223558
[8] -0.9990163 -1.3565772 -0.4120919

0.3146623

0.9766815

1.0738923

O primeiro valor acima corresponde ao valor da densidade da normal


f (x) =

1
2 2

exp{

1
(x )2 }
2 2

com parametros ( = 0, 2 = 1) no ponto 1. Portanto, o mesmo valor seria obtido substituindo


x por 1 na expressao da normal padrao:
> (1/sqrt(2 * pi)) * exp((-1/2) * (-1)^2)
[1] 0.2419707
A funcao pnorm(-1) calcula a probabilidade P (X 1).
O comando qnorm(0.975) calcula o valor de a tal que P (X a) = 0.975.
Finalmente o comando rnorm(10) gera uma amostra de 10 elementos da normal padrao. Note
que os valores que voce obtem rodando este comando podem ser diferentes dos mostrados acima.
As funcoes acima possuem argumentos adicionais, para os quais valores padrao (default)
foram assumidos, e que podem ser modificados. Usamos args() para ver os argumentos de
uma funcao e help() para visualizar a documentacao detalhada:
> args(rnorm)
function (n, mean = 0, sd = 1)
NULL
As funcoes relacionadas `a distribuicao normal possuem os argumentos mean e sd para definir
media e desvio padrao da distribuicao que podem ser modificados como nos exemplos a seguir.
Note nestes exemplos que os argumentos podem ser passados de diferentes formas.
> qnorm(0.975, mean = 100, sd = 8)
[1] 115.6797

CE-002: Estatstica I

> qnorm(0.975, m = 100, s = 8)


[1] 115.6797
> qnorm(0.975, 100, 8)
[1] 115.6797
Para informacoes mais detalhadas pode-se usar a funcao help. O comando
> help(rnorm)
ira exibir em uma janela a documentacao da funcao que pode tambem ser chamada com ?rnorm.
Note que ao final da documentacao sao apresentados exemplos que podem ser rodados pelo
usuario e que auxiliam na compreensao da funcionalidade.
Note tambem que as 4 funcoes relacionadas `a distribuicao normal sao documentadas conjuntamente, portanto help(rnorm), help(qnorm), help(dnorm) e help(pnorm) irao exibir a mesma
documentacao.
Calculos de probabilidades usuais, para os quais utilizavamos tabelas estatsticas podem ser
facilmente obtidos como no exemplo a seguir.
Seja X uma v.a. com distribuicao N (100, 100). Calcular as probabilidades:
1. P [X < 95]
2. P [90 < X < 110]
3. P [X > 95]
Calcule estas probabilidades de forma usual, usando a tabela da normal. Depois compare com
os resultados fornecidos pelo R. Os comandos do R para obter as probabilidades pedidas sao:
> pnorm(95, 100, 10)
[1] 0.3085375
> pnorm(110, 100, 10) - pnorm(90, 100, 10)
[1] 0.6826895
> 1 - pnorm(95, 100, 10)
[1] 0.6914625
> pnorm(95, 100, 10, lower = F)
[1] 0.6914625
Note que a u
ltima probabilidade foi calculada de duas formas diferentes, a segunda usando
o argumento lower que implementa um algortmo de calculo de probabilidades mais estavel
numericamente.
A seguir vamos ver comandos para fazer graficos de distribuicoes de probabilidade. Vamos
fazer graficos de funcoes de densidade e de probabilidade acumulada. Estude cuidadosamente
os comandos abaixo e verifique os graficos por eles produzidos. A Figura 1 mostra graficos
da densidade (esquerda) e probabilidade acumulada (direita) da normal padrao, produzidos
com os comandos a seguir. Para fazer o grafico consideramos valores de X entre -3 e 3 que
correspondem a +/- tres desvios padroes da media, faixa que concentra 99,73% da massa de
probabilidade da distribuicao normal.

0.0

0.0

0.2

0.1

dnorm (x)
0.2

pnorm (x)
0.4
0.6

0.3

0.8

1.0

0.4

CE-002: Estatstica I

0
x

0
x

Figura 1: Funcoes de densidade e probabilidade da distribuicao normal padrao.


> plot(dnorm, -3, 3)
> plot(pnorm, -3, 3)
A Figura 2 mostra graficos da densidade (esquerda) e probabilidade acumulada (direita) da
N (100, 64). Para fazer estes graficos tomamos uma sequencia de valores de x entre 70 e 130
e para cada um deles calculamos o valor das funcoes f (x) e F (x). Depois unimos os pontos
(x, f (x)) em um grafico e (x, F (x)) no outro.
>
>
>
>
>

x <- seq(70, 130, len = 100)


fx <- dnorm(x, 100, 8)
plot(x, fx, type = "l")
Fx <- pnorm(x, 100, 8)
plot(x, Fx, type = "l")

Note que, alternativamente, os mesmos graficos poderiam ser produzidos com os comandos a
seguir.
> plot(function(x) dnorm(x, 100, 8), 70, 130)
> plot(function(x) pnorm(x, 100, 8), 70, 130)
Comandos usuais do R podem ser usados para modificar a aparencia dos graficos. Por exemplo,
podemos incluir ttulos e mudar texto dos eixos conforme mostrado na grafico da esquerda da
Figura 3 e nos dois primeiros comandos abaixo. Os demais comandos mostram como colocar
diferentes densidades em um mesmo grafico como ilustrado `a direita da mesma Figura.
>
>
>
>
>
>

plot(dnorm, -3, 3, xlab = "valores de X", ylab = "densidade de probabilidade")


title("Distribuic~
ao Normal\nX ~ N(100, 64)")
plot(function(x) dnorm(x, 100, 8), 60, 140, ylab = "f(x)")
plot(function(x) dnorm(x, 90, 8), 60, 140, add = T, col = 2)
plot(function(x) dnorm(x, 100, 15), 60, 140, add = T, col = 3)
legend(110, 0.05, c("N(100,64)", "N(90,64)", "N(100,225)"), fill = 1:3)

0.0

0.00

0.2

0.01

0.4

0.02

fx

Fx

0.6

0.03

0.8

0.04

1.0

0.05

CE-002: Estatstica I

70

80

90

100
x

110

120

130

70

80

90

100
x

110

120

130

Figura 2: Funcoes de densidade de probabilidade (esquerda) e funcao de distribuicao acumulada


(direita) da N (100, 64).

2.2

Distribuic
ao Binomial

Calculos para a distribuicao binomial sao implementados combinando as letras basicas vistas
acima com o termo binom. Vamos primeiro investigar argumentos e documentacao com args()
e dbinom().
> args(dbinom)
function (x, size, prob, log = FALSE)
NULL
> help(dbinom)
Seja X uma v.a. com distribuicao Binomial com n = 10 e p = 0.35. Vamos ver os comandos
do R para:
1. fazer o grafico das funcao de densidade
2. idem para a funcao de probabilidade
3. calcular P [X = 7]
4. calcular P [X < 8] = P [X 7]
5. calcular P [X 8] = P [X > 7]
6. calcular P [3 < X 6] = P [4 X < 7]
Note que sendo uma distribuicao discreta de probabilidades os graficos sao diferentes dos
obtidos para distribuicao normal e os calculos de probabilidades devem considerar as probabilidades nos pontos. Os graficos das funcoes de densidade e probabilidade sao mostrados na
Figura 4.

CE-002: Estatstica I

0.05

N(100,64)
N(90,64)
N(100,225)

0.0

0.00

0.01

f(x)
0.02 0.03

0.04

densidade de probabilidade
0.1
0.2
0.3

0.4

Distribuico Normal
X ~ N(100, 64)

1
0
1
valores de X

60

80

100
x

120

140

Figura 3: Grafico com texto nos eixos e ttulo (esquerda) e varias distribuicoes em um mesmo
grafico (direita).
>
>
>
>
>

x <- 0:10
fx <- dbinom(x, 10, 0.35)
plot(x, fx, type = "h")
Fx <- pbinom(x, 10, 0.35)
plot(x, Fx, type = "S")
As probabilidades pedidas sao obtidas com os comandos a seguir.

> dbinom(7, 10, 0.35)


[1] 0.02120302
> pbinom(7, 10, 0.35)
[1] 0.9951787
> sum(dbinom(0:7, 10, 0.35))
[1] 0.9951787
> 1 - pbinom(7, 10, 0.35)
[1] 0.004821265
> pbinom(7, 10, 0.35, lower = F)
[1] 0.004821265
> pbinom(6, 10, 0.35) - pbinom(3, 10, 0.35)
[1] 0.4601487
> sum(dbinom(4:6, 10, 0.35))
[1] 0.4601487

10

0.0

0.00

0.2

0.05

0.4

0.10

fx

Fx

0.6

0.15

0.8

0.20

1.0

0.25

CE-002: Estatstica I

10

10

Figura 4: Funcoes de probabilidade (esquerda) e distribuicao acumulada (direita) da


B(10, 0.35).

2.3

Exerccios

Nos exerccios abaixo iremos tambem usar o R como uma calculadora estatstica para resolver alguns exemplos/exerccios de probabilidade tipicamente apresentados em um curso de
estatstica basica.
Os exerccios abaixo com indicacao de pagina foram retirados de:
Magalhaes, M.N. & Lima, A.C.P. (2001) Noc
oes de Probabilidade e Estatstica. 3 ed.
Sao Paulo, IME-USP. 392p.
1. (Ex 1, pag 67) Uma moeda viciada tem probabilidade de cara igual a 0.4. Para quatro
lancamentos independentes dessa moeda, estude o comportamento da variavel n
umero de
caras e faca um grafico de sua funcao de distribuicao.
2. (Ex 5, pag 77) Sendo X uma variavel seguindo o modelo Binomial com parametro n = 15
e p = 0.4, pergunta-se:
P (X 14)
P (8 < X 10)
P (X < 2 ou X 11)
P (X 11 ou X > 13)
P (X > 3 e X < 6)
P (X 13 | X 11)

3. (Ex 8, pag 193) Para X N (90, 100), obtenha:


P (X 115)
P (X 80)

CE-002: Estatstica I

11

P (X 75)
P (85 X 110)
P (|X 90| 10)
O valor de a tal que P (90 a X 90 + a) = , = 0.95

4. Faca os seguintes graficos:


da funcao de densidade de uma variavel com distribuicao de Poisson com parametro
=5
da densidade de uma vari
avel X N (90, 100)
sobreponha ao grafico anterior a densidade de uma variavel Y N (90, 80) e outra
Z N (85, 100)
densidades de distribuicoes 2 com 1, 2 e 5 graus de liberdade.

5. A probabilidade de indivduos nascerem com certa caracterstica e de 0,3. Para o nascimento de 5 indivduos e considerando os nascimentos como eventos independentes, estude
o comportamento da variavel n
umero de indivduos com a caracterstica e faca um grafico
de sua funcao de distribuicao.
6. Sendo X uma variavel seguindo o modelo Normal com media = 130 e variancia 2 = 64,
pergunta-se: (a) P (X 120)
(b) P (135 < X 145)
(c) P (X < 120 ou X
150)
7. (Ex 3.6, pag 65) Num estudo sobre a incidencia de cancer foi registrado, para cada paciente
com este diagnostico o n
umero de casos de cancer em parentes proximos (pais, irmaos,
tios, filhos e sobrinhos). Os dados de 26 pacientes sao os seguintes:
Paciente
Incidencia
Paciente
Incidencia

1 2 3 4 5 6 7 8 9 10 11 12 13
2 5 0 2 1 5 3 3 3 2 0 1 1
14 15 16 17 18 19 20 21 22 23 24 25 26
4 5 2 2 3 2 1 5 4 0 0 3 3

Estudos anteriores assumem que a incidencia de cancer em parentes proximos pode ser
modelada pela seguinte funcao discreta de probabilidades:
Incidencia 0
1
2
3
4
5
pi
0.1 0.1 0.3 0.3 0.1 0.1
os dados observados concordam com o modelo te
orico?
faca um grafico mostrando as frequencias teoricas (esperadas) e observadas.

8. A distribuicao da soma de duas variaveis aleatorias uniformes nao e uniforme. Verifique


isto gerando dois vetores x e y com distribuicao uniforme [0, 1] com 3000 valores cada
e fazendo z = x + y. Obtenha o histograma para x, y e z. Descreva os comandos que
utilizou.

CE-002: Estatstica I

12
Resistencia 2
3
4
5
6
pi
0,1 0,1 0,4 0,2 0,2

9. (extrado de Magalhaes e Lima, 2001) A resistencia (em toneladas) de vigas de concreto


produzidas por uma empresa, comporta-se como abaixo:
Simule a resistencia de 5000 vigas a partir de valores gerados de uma uniforme [0,1].
(Dica: Use o comando ifelse() do R). Verifique o histograma.

CE-002: Estatstica I

2.4

13

Exerccios Bussab, W. & Morettin, P. (2003)

Os exerccios a seguir foram extrados de: Bussab, W. & Morettin, P. (2003) Estatstica
B
asica, Atual Editora, 5a Ed.
Probabilidades
1. Uma urna contem duas bolas brancas (B) e tres bolas vermelhas (V). Retira-se uma bola
ao acaso da urna. Se for branca, lanca-se uma moeda; se for vermelha, ela e devolvida `a
urna e retira-se outra. De um espaco amostral para o experimento.
2. Lance um dado ate que a face 5 apareca pela primeira vez. Enumere os possveis resultados
desse experimento.
3. Tres jogadores A, B e C disputam um torneio de tenis. Inicialmente, A joga com B e o
vencedor joga com C, e assim por diante. O torneio termina quando um jogador ganha
duas vezes em seguida ou quando sao disputadas, ao todo, quatro partidas. Quais sao os
resultados possveis do torneio?
4. Considere uma urna contendo tres bolas pretas e cinco bolas vermelhas. Retire duas bolas
da urna, sem reposicao.
(a) Obtenha os resultados possveis e as respectivas probabilidades
(b) Mesmo problema, para extracoes com reposicao
5. No problema anterior, calcule as probabilidades dos eventos:
(a) Bola preta na primeira e segunda extracoes.
(b) Bola preta na segunda extracao.
(c) Bola vermelha na primeira extracao
6. A probabildade de que A resolva um problema e de 2/3, e a probabilidade de que B
o resolva e de 3/4. Se ambos tentarem independentemente, qual a probabilidade de o
problema ser resolvido?
7. Um dado e viciado, de tal forma que a probabilidade de sair um certo ponto e proporcional
ao seu valor. Calcular:
(a) a probabilidade de sair 5, sabendo-se que o ponto que saiu e mpar;
(b) a probabilidade de tirar um n
umero par, sabendo-se que saiu um n
umero maior que
3.
8. Na tabela a seguir, verifique se A e B sao independentes.
B
B C Total
A
0,04 0,06 0,10
C
A
0,08 0,82 0,90
Total 0,12 0,88 1,00

CE-002: Estatstica I

14

9. As probabilidades de tres motoristas serem capazes de guiar ate em casa com seguranca
depois de beber, sao de 1/3, 1/4 e 1/5, respectivamente. Se decidirem guiar ate em casa,
depois de beber numa festa, qual a probabilidade de todos os tres motoristas sofrerem
acidentes? Qual a probabilidade de pelo menos um dos motoristas guiar ate em casa
salvo?
10. Suponhamos que 10.000 bilhetes sejam vendidos em uma loteria e 5.000 em outra, cada
uma tendo apenas um ganhador. Um homem tem 100 bilhetes de cada. Qual a probabilidade de que:
(a) ele ganhe exatamente um premio?
(b) ele ganhe alguma coisa?
11. Em media, 5% dos produtos vendidos por uma loja sao devolvidos. Qual a probabilidade
de que, das quatro proximas unidades vendidas desse produto, duas sejam devolvidas?
12. Tres alarmes estao dispostos de tal maneira que qualquer um deles funcionara independentemente quando qualquer coisa indesejavel ocorrer. Se cada alarme tem probabilidade
0,9 de trabalhar eficientemente, qual e a probabilidade de se ouvir o alarme quando necessario?
13. Num teste com duas marcas que lhe sao apresentadas em ordem aleatoria, um experimentador de vinhos faz tres identificacoes corretas em tres tentativas.
(a) Qual a probabilidade de isso ocorrer, se na realidade ele nao possuir habilidade
alguma para distingui-los?
(b) E se a probabilidade de distinguir corretamente e de 90% em cada tentativa?
Um grupo de 12 homens e 8 mulheres concorre a tres premios atraves de um sorteio,
sem reposicao de seus nomes. Qual a probabilidade de:

(a) nenhum homem ser sorteado?


(b) um premio ser ganho por homem?
(c) dois homens serem premiados?
14. Considere uma urna contendo tres bolas vermelhas e cinco pretas. Retire tres bolas, sem
reposicao, e defina a v.a. X igual ao n
umero de bolas pretas. Obtenha a distribuicao de
X.
15. Repita o problema anterior, mas considerando extracoes com reposicao.
16. Suponha qye uma moeda perfeita e lancada ate que cara apareca pela primeira vez. Seja
X o n
umero de lancamento ate que isso aconteca. Obtenha a distribuicao de X. (Observe
que, nesse problema, pelo menos teoricamente, X pode assumir um n
umero infinito de
valores).
17. Uma moeda perfeita e lancada quatro vezes. Seja Y o n
umero de caras obtidas. Calcule
a distribuicao de Y.
18. Considere uma urna contendo 3 bolas vermelhas e 5 pretas. Retira-se 3 bolas, sem reposicao, e defina a v.a.X igual ao n
umero de bolas pretas, obtenha as distribuicoes das v.a.
2
X, 3X e X .

CE-002: Estatstica I

15
v
0 1
p(v) q 1-q

19. Suponha que a v.a. V tem a distribuicao seguinte:


Obtenha E(V ) e V arV

20. Para os exerccios (a) e (e) abaixo, considere o enunciado:


Das variaveis abaixo descritas, assinale quais sao binomiais, e para essas de os respectivos
campos de definicao e funcao de probabilidade. Quando julgar que a variavel nao e
binominal, aponte as razoes de sua conclusao.

(a) De uma urna com dez bolas brancas e 20 pretas, vamos extrair, com reposicao, cinco
bolas. X e o n
umero de bolas brancas nas cinco extracoes.
(b) Refaca o problema anterior, mas dessa vez as n extracoes sao sem reposicao.
(c) Temos cinco urnas com bolas pretas e brancas e vamos extrair uma bola de cada
urna. Suponha qeu X seja o n
umero de bolas brancas obtidas no final.
(d) Vamos realizar uma pesquisa em dez cidades brasileiras, escolhendo ao acaso um
habitante de cada uma delas e classificando-o em pro ou contra um certo projeto
federal. Suponha que X seja o n
umero de indivduos contra o projeto no final da
pesquisa.
(e) Em uma ind
ustria existem 100 maquinas que fabricam determinada peca. Cada peca
e classificada como boa ou defeituosa. Escolhemos ao acaso um instante de tempo e
verificamos uma peca de cada uma das maquinas. Suponha que X seja o n
umero de
pecas defeituosas.
21. Se X b(n, p), sabendo-se que a media E(X) = 12 e a variancia 2 = 3, determinar:

(a) n
(b) p
(c) P (X < 12)
(d) P (X 14)
(e) E(Z) e V ar(Z), onde Z = (X 12)/sqrt3
(f) P (Y 14/16), onde Y = X/n
(g) P (Y 12/16), onde Y = X/n
22. Numa central telefonica, o n
umero de chamadas chega segundo uma distribuicao de Poisson, com a media de oito chamadas por minuto. Determinar qual a probabilidade que se
tenha:

(a) 10 ou mais chamadas

CE-002: Estatstica I

16

(b) menos do que 9 chamadas


(c) entre 7 (inclusive) e 9 (exclusive)
4. Num certo tipo de fabricacao de fita magnetica, ocorrem cortes a uma taxa de um por
2.000 pes. Qual a probabilidade de que um rolo com 2.000 pes de fita magnetica tenha:

(a) nenhum corte?


(b) no maximo dois cortes?
(c) pelo menos dois cortes?
23. Suponha que a probabilidade de que um item produzido por uma maquina seja defeituoso
e de 0,2. Se dez itens produzidos por essa maquina sao selecionados ao acaso, qual a
probabilidade de que mais do que um defeituoso seja encontrado? Use a binomial e a
distribuicao de Poisson e compare os resultados.
24. Examinaram-se 2.000 ninhadas de cinco porcos cada uma, segundo o n
umero de machos.
Os dados estao representados na tabela abaixo.
No de Machos No de Ninhadas
0
20
1
360
2
700
3
680
4
200
5
40
Total
2.000

(a) Calcule a proporcao media de machos.


(b) Calcule, para cada valor de X, o n
umero de ninhadas que voce deve esperar se
X b(5, p), onde p e a proporcao media de machos calculada em (a).
25. Se X tem distribuicao binomial com parametros n = 5 e p = 1/2, faca os graficos de
distribuicoes de X e da f.d.a. F(x).
26. Considere, agora, n = 5 e p = 1/4. Obtenha o grafico da distribuicao de X. Qual a
diferenca entre esse grafico e o correspondente do problema anterior? O que ocasionou a
diferenca?
27. Refaca o problema anterior, com n = 6 e p = 1/2.
28. Na manufatura de certo artigo, e sabido que um entre dez artigos e defeituoso. Qual a
probabilidade de que uma amostra casual de tamanho quatro contenha:

(a) nenhum defeituoso?


(b) exatamente um defeituoso?

CE-002: Estatstica I

17

(c) exatamente dois defeituoso


(d) nao mais do que dois defeituosos?
29. Um fabricante de pecas de automoveis garante que uma caixa de suas pecas contera, no
maximo, duas defeituosas. Se a caixa contem 18 pecas, e a experiencia tem demostrado
que esse processo de fabricacao produz 5% das pecas defeituosas, qual a probabilidade de
que uma caixa satisfaca a garantia?
30. Um curso de treinamento aumenta a produtividade de uma certa populacao de funcionarios em 80% dos casos. Se dez funcionarios quaisquer participam desse curso, encontre a
probabilidade de:

(a) exatamente sete funcionario aumentarem a produtividade;


(b) nao mais do que oito funcionarios aumentarem a produtividade; e
(c) pelo menos tres funcionarios nao aumentarem a produtividade.
31. O n
umero de petroleiros que chegam a uma refinaria emcada dia ocorre segundo uma
distribuicao de Poisson, com = 2. As atuais instalacoes podem atender, no maximo, a
tres petroleiros por dia. Se mais de tres aportarem num dia, o excesso e enviado a outro
porto

(a) Em um dia, qual a probabilidade de se enviar petroleiros para outro porto?


(b) De quanto deverao ser aumentadas as instalacoes para permitir atender a todos os
navios que chegarem pelo menos em 95% dos dias?
(c) Qual o n
umero medio de petroleiros que chegam por dia?
32. Na tabela a seguir, X significa o n
umero de filhos homens em famlias com 12 filhos.
Calcule para cada valor da variavel o n
umero de famlias que voce deveria esperar se
X b(12; 0, 5).
X
No observado de famlias
0
6
1
29
2
160
3
521
4
1.198
5
1.921
6
2.360
7
2.033
8
1.398
9
799
10
298
11
60
12
7
Total
10.690
Voce acha que o modelo binomial e razoavel para explicar o fenomeno?

CE-002: Estatstica I

18

uma caracterstica
33. Determinado tipo de parafuso e vendido em caixas com 1.000 pecas. E
da fabricacao produzir 10% com defeito. Normalmente, cada caixa e vendida por $13,50.
Um comprador faz a seguinte proposta: de cada caixa, ele escolhe uma amostra de 20
pecas; se a caixa nao tiver parafusos defeituosos, ele paga $20,00; um ou dois defeituosos,
ele para $10,00; tres ou mais defeituosos, ele paga $8,00. Qual alternativa e a mais
vantajosa para o fabricante? Justifique.
34. Uma certa regiao florestal foi dividida em 109 quadrados para estudar a distribuicao de
Primula simenses Selvagem. A priori, supomos que esse tipo distribua-se aleatoriamente
na regiao. O quadro abaixo indica o n
umero de quadrados com X Primula simenses; o
n
umero medio de plantas por quadrado foi de 2,2.
X No observado de famlias
0
200
1
152
2
60
3
30
4
13
5
9
6
7
7
5
8
4

(a) Se as plantas realmente se distribuem aleatoriamente na regiao, qual a probabilidade


de encontrarmos pelo menos duas Primulas?
(b) De as frequencias esperadas para os valores de X = 0, X =1 e X = 2.
(c) Apenas comparando os resultados de (b) com as frequencias observadas, qual a
conclusao a que voce chegaria?

Distribui
co
es te
oricas (contnuas)
1. Em uma prova de estatstica, a media foi 7.25 e o desvio padrao, 0.55. Determine o
n
umero de alunos que fizeram a prova, dado que as notas foram normalmente agrupadas
em cinco graus e que os sete alunos cujas notas estavam entre 7.8 e 8.4 obtiveram grau
B. (supor a distribuicao normal).
2. A maquina M produz esferas para rolamentos. Se o diametro das esferas puder ser considerado uma variavel aleatoria com distribuicao nomal com media 5mm e desvio padrao
0.05 mm, quantas terao diametro superior a 5.07mm ? Se o controle de qualidade refugar
os itens que se afastem mais do que 0.1 mm da media, quantas esferas serao rejeitadas ?
3. A renda per capita da Rep
ublica das Bahanaz e normalmente distribuda, com media
$5000,00 e desvio padrao de $800.
(a) Qual a renda maxima de 80% da populacao mais pobre ?
(b) Qual porcentagem de pessas que recebem por ano

CE-002: Estatstica I

19

i. menos de $4000
ii. mais de $ 6500
iii. entre $ 3750 e $ 6750
4. Dado que o volume de agua que caiu em maio sobre Sao Paulo variou de modo uniforme
entre 1.3 e 59.7 mm, determine a percentagem de dias com pluviosidade:
(a) acima de 50,5 mm
(b) abaixo de 10,5 mm
(c) entre 15,3 e 45,7 mm
5. Uma empresa produz automoveis e garante a restituicao da quantia paga se qualquer
automovel apresentar algum defeito grave no prazo de seis meses. A empresa produz
automoveis dos tipo A comum e do tipo B de luxo, com um lucro de R$ 1000,00 e
R $ 2000,00, respectivamente, caso nao haja restituicao, e com prejuzo de R$3000,00 e
R$8000,00, respectivamente se houver restituicao. Suponha que o tempo para a ocorrencia
de algum defeito grave seja, em ambos os casos, uma variavel com distribuicao normal,
respectivamente com medias 9 meses e 12 meses, e variancias 4 meses e 9 meses. Se tivesse
que planejar uma estrategia de marketing para a empresa, voce incentivaria a venda de
automoveis do tipo A ou do tipo B. Justifique.

2.5

Exerccios de Barros, M.

Os exerccios a seguir foram extrados de: Barros, M. Probabilidade - um curso Introdut


orio
1. Voce esta numa sessao de cinema na qual ocorre uma promocao de um provedor de
internet, que esta dando 6 meses de acesso gratuito. Existem 80 pessoas no cinema,
das quais apenas 30 possuem e computador e portanto poderiam estar interessadas nesta
promocao. O provedor seleciona aleatoriamente 5 espectadores. Qual a probabilidade de 3
ou mais espectadores se interessarem pela promocao (isto e, 3 ou mais terem computador)?
2. Considere um jogo no qual voce pode ganhar 0, 1 ou 2 reais, ou perder 2 ou 1 reais com
as probabilidades especificadas abaixo: Encontre a media e a variancia dos ganhos neste
x P (X = x)
-2
2/10
-1
1/10
0
4/10
1
1/10
2
2/10

jogo.
R: media igual a zero e vari
ancia igual a 1.8
3. Uma empresa aerea sabe que 20 % das pessoas que fazem reserva aereas cancelam suas
reservas. A empresa vende 50 passagens para um voo que contem 46 lugares. Supondo que
as pessoas cancelam ou nao suas reservas de maneira independente, calcule a probabilidade
de que havera assentos para todos os passageiros.

CE-002: Estatstica I

20
r
P (R = r)
-5 %
0.40
0%
0.15
5%
0.25
10%
0.15
15%
0.05

4. O retorno mensal de certo investimento de risco pode ser modelado pela seguinte variavel
aleatoria R com funcao de probabilidade dada a seguir :
Calcule o retorno esperado (em %) do investimento, sua variancia e desvio padrao.

CE-002: Estatstica I

21

An
alise descritiva

3.1

Descric
ao univariada

Nesta sessao vamos ver alguns (mas nao todos!) comandos do R para fazer uma analise
descritiva de um conjunto de dados.
Uma boa forma de iniciar uma analise descritiva adequada e verificar os tipode de variaveis
disponveis. Variaveis podem ser classificadas da seguinte forma:
qualitativas

nominais
ordinais
quantitativas

discretas
contnuas
e podem ser resumidas por tabelas, graficos e/ou medidas.

3.2

Descrevendo o conjunto de dados milsa de Bussab & Morettin

O livro Estatstica Basica de W. Bussab e P. Morettin traz no primeiro captulo um conjunto


de dados hipotetico de atributos de 36 funcionarios da companhia Milsa. Os dados estao
reproduzidos na tabela 3.2. Veja o livro para mais detalhes sobre este dados.
O que queremos aqui e ver como, no programa R:
entrar com os dados
fazer uma an
alise descritiva

Estes sao dados no estilo planilha, com variaveis de diferentes tipos: categoricas e numericas (qualitativas e quantitativas). Portanto o formato ideal de armazenamento destes dados
no R e o data.frame. Para entrar com estes dados no diretamente no R podemos usar o editor
que vem com o programa. Para digitar rapidamente estes dados e mais facil usar codigos para
as variaveis categoricas. Desta forma, na coluna de estado civil vamos digitar o codigo 1 para
solteiro e 2 para casado. Fazemos de maneira similar com as colunas Grau de Instruc
ao e Regi
ao
de Procedencia. No comando a seguir invocamos o editor, entramos com os dados na janela que
vai aparecer na sua tela e quanto samos do editor (pressionando o botao QUIT) os dados ficam
armazenados no objeto milsa. Apos isto digitamos o nome do objeto (milsa) e podemos ver o
conte
udo digitado, como mostra a tabela 3.2. Lembre-se que se voce precisar corrigir algo na
digitacao voce pode faze-lo abrindo a planilha novamente com o comando fix(milsa).
> milsa <- edit(data.frame())
> milsa
> fix(milsa)

CE-002: Estatstica I

Tabela 2: Dados de Bussab & Morettin


Funcionario Est. Civil Instrucao No Filhos Salario Ano Mes
1
solteiro
1o Grau
4.00
26
3
2
casado
1o Grau
1
4.56
32
10
3
casado
1o Grau
2
5.25
36
5
4
solteiro
2o Grau
5.73
20
10
5
solteiro
1o Grau
6.26
40
7
6
casado
1o Grau
0
6.66
28
0
7
solteiro
1o Grau
6.86
41
0
8
solteiro
1o Grau
7.39
43
4
9
casado
2o Grau
1
7.59
34
10
10
solteiro
2o Grau
7.44
23
6
11
casado
2o Grau
2
8.12
33
6
12
solteiro
1o Grau
8.46
27
11
13
solteiro
2o Grau
8.74
37
5
14
casado
1o Grau
3
8.95
44
2
15
casado
2o Grau
0
9.13
30
5
16
solteiro
2o Grau
9.35
38
8
17
casado
2o Grau
1
9.77
31
7
18
casado
1o Grau
2
9.80
39
7
19
solteiro
Superior
10.53
25
8
20
solteiro
2o Grau
10.76
37
4
21
casado
2o Grau
1
11.06
30
9
22
solteiro
2o Grau
11.59
34
2
23
solteiro
1o Grau
12.00
41
0
24
casado
Superior
0
12.79
26
1
25
casado
2o Grau
2
13.23
32
5
26
casado
2o Grau
2
13.60
35
0
27
solteiro
1o Grau
13.85
46
7
28
casado
2o Grau
0
14.69
29
8
29
casado
2o Grau
5
14.71
40
6
30
casado
2o Grau
2
15.99
35
10
31
solteiro
Superior
16.22
31
5
32
casado
2o Grau
1
16.61
36
4
33
casado
Superior
3
17.26
43
7
34
solteiro
Superior
18.75
33
7
35
casado
2o Grau
2
19.40
48
11
36
casado
Superior
3
23.30
42
2

22

Regiao
interior
capital
capital
outro
outro
interior
interior
capital
capital
outro
interior
capital
outro
outro
interior
outro
capital
outro
interior
interior
outro
capital
outro
outro
interior
outro
outro
interior
interior
capital
outro
interior
capital
capital
capital
interior

CE-002: Estatstica I

23

Tabela 3: Dados digitados usando codigos para variaveis

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36

civil instrucao filhos salario ano mes regiao


1
1
NA
4.00
26
3
1
2
1
1
4.56
32
10
2
2
1
2
5.25
36
5
2
1
2
NA
5.73
20
10
3
1
1
NA
6.26
40
7
3
2
1
0
6.66
28
0
1
1
1
NA
6.86
41
0
1
1
1
NA
7.39
43
4
2
2
2
1
7.59
34
10
2
1
2
NA
7.44
23
6
3
2
2
2
8.12
33
6
1
1
1
NA
8.46
27
11
2
1
2
NA
8.74
37
5
3
2
1
3
8.95
44
2
3
2
2
0
9.13
30
5
1
1
2
NA
9.35
38
8
3
2
2
1
9.77
31
7
2
2
1
2
9.80
39
7
3
1
3
NA
10.53
25
8
1
1
2
NA
10.76
37
4
1
2
2
1
11.06
30
9
3
1
2
NA
11.59
34
2
2
1
1
NA
12.00
41
0
3
2
3
0
12.79
26
1
3
2
2
2
13.23
32
5
1
2
2
2
13.60
35
0
3
1
1
NA
13.85
46
7
3
2
2
0
14.69
29
8
1
2
2
5
14.71
40
6
1
2
2
2
15.99
35
10
2
1
3
NA
16.22
31
5
3
2
2
1
16.61
36
4
1
2
3
3
17.26
43
7
2
1
3
NA
18.75
33
7
2
2
2
2
19.40
48
11
2
2
3
3
23.30
42
2
1

CE-002: Estatstica I

24

Aten
c
ao: Note que alem de digitar os dados na planilha digitamos tambem o nome que
escolhemos para cada variavel. Para isto basta, na planilha, clicar no nome da variavel e escolher
a opcao CHANGE NAME e informar o novo nome da variavel.
A planilha digitada como esta ainda nao esta pronta. Precisamos informar para o programa
sao numericas e sim categoricas. No R
que as variaveis civil, instrucao e regiao, NAO
variaveis categoricas sao definidas usando o comando factor(), que vamos usar para redefinir
nossas variaveis conforme os comandos a seguir. Inicialmente inspecionamos as primeiras linhas
do conjunto de dados. A seguir redefinimos a variavel civil com os r
otulos (labels) solteiro e
casado associados aos nveis (levels) 1 e 2. Para variavel instru
cao usamos o argumento adicional ordered = TRUE para indicar que e uma variavel ordinal. Na variavel regiao codificamos
assim: 2=capital, 1=interior, 3=outro. Ao final inspecionamos as primeiras linhas do conjunto
de dados digitando usando head().
> head(milsa)
1
2
3
4
5
6

funcionario civil instrucao filhos salario ano mes regiao


1
1
1
NA
4.00 26
3
1
2
2
1
1
4.56 32 10
2
3
2
1
2
5.25 36
5
2
4
1
2
NA
5.73 20 10
3
5
1
1
NA
6.26 40
7
3
6
2
1
0
6.66 28
0
1

>
+
>
+
>
+
>

milsa$civil <- factor(milsa$civil, label = c("solteiro", "casado"),


levels = 1:2)
milsa$instrucao <- factor(milsa$instrucao, label = c("1oGrau",
"2oGrau", "Superior"), lev = 1:3, ord = T)
milsa$regiao <- factor(milsa$regiao, label = c("capital", "interior",
"outro"), lev = c(2, 1, 3))
head(milsa)

1
2
3
4
5
6

funcionario
civil instrucao filhos salario ano mes
regiao
1 solteiro
1oGrau
NA
4.00 26
3 interior
2
casado
1oGrau
1
4.56 32 10 capital
3
casado
1oGrau
2
5.25 36
5 capital
4 solteiro
2oGrau
NA
5.73 20 10
outro
5 solteiro
1oGrau
NA
6.26 40
7
outro
6
casado
1oGrau
0
6.66 28
0 interior

Em versoes mais recentes do R foi introduzida a funcao transform() que pode ser usada
alternativamente aos comandos mostrados acima para modificar ou gerar novas variaveis. Por
exemplo, os comandos acima poderiam ser substitudos por:
> milsa <- transform(milsa, civil = factor(civil, label = c("solteiro",
+
"casado"), levels = 1:2), instrucao = factor(instrucao, label = c("1oGrau",
+
"2oGrau", "Superior"), lev = 1:3, ord = T), regiao = factor(regiao,
+
label = c("capital", "interior", "outro"), lev = c(2, 1,
+
3)))
Vamos ainda definir uma nova variavel u
nica idade a partir das variaveis ano e mes que
foram digitadas. Para gerar a variavel idade em anos fazemos:

CE-002: Estatstica I

25

> milsa <- transform(milsa, idade = ano + mes/12)


> milsa$idade
[1]
[9]
[17]
[25]
[33]

26.25000
34.83333
31.58333
32.41667
43.58333

32.83333
23.50000
39.58333
35.00000
33.58333

36.41667
33.50000
25.66667
46.58333
48.91667

20.83333
27.91667
37.33333
29.66667
42.16667

40.58333
37.41667
30.75000
40.50000

28.00000
44.16667
34.16667
35.83333

41.00000
30.41667
41.00000
31.41667

43.33333
38.66667
26.08333
36.33333

Uma outra forma de se obter o mesmo resultado seria:


> milsa$idade <- milsa$ano + milsa$mes/12
Agora que os dados estao prontos podemos comecar a analise descritiva. A seguir mostramos
como fazer analises descritivas uni e bi-variadas. Inspecione os comandos mostrados a seguir
e os resultados por eleas produzidos. Sugerimos ainda que o leitor use o R para reproduzir os
resultados mostrados no texto dos captulos 1 a 3 do livro de Bussab & Morettin relacionados
com este exemplo.
Inicialmente verificamos que o objeto milsa e um data-frame, usamos names() para ver os
nomes das variaveis, e dim() para ver o n
umero de linhas (36 indivduos) e colunas (9 variaveis).
> is.data.frame(milsa)
[1] TRUE
> names(milsa)
[1] "funcionario" "civil"
[6] "ano"
"mes"

"instrucao"
"regiao"

"filhos"
"idade"

"salario"

> dim(milsa)
[1] 36

Como na sequencia vamos fazer diversas analises com estes dados usaremos o command
attach() para anexar o objeto ao caminho de procura para simplificar a digitacao.
> attach(milsa)
NOTA: este comando deve ser digitado para que os comandos mostrados a seguir tenham
efeito.
3.2.1

An
alise Univariada

A analise univariada consiste basicamente em, para cada uma das variaveis individualmente:
classificar a variavel quanto a seu tipo: qualitativa (nominal ou ordinal) ou quantitativa
(discreta ou contnua)
obter tabela, gr
afico e/ou medidas que resumam a variavel

A partir destes resultados pode-se montar um resumo geral dos dados.


A seguir vamos mostrar como obter tabelas, graficos e medidas com o R. Para isto vamos
selecionar uma variavel de cada tipo para que o leitor possa, por analogia, obter resultados para
as demais.

CE-002: Estatstica I

26

Vari
avel Qualitativa Nominal A variavel civil e uma qualitativa nominal. Desta forma
podemos obter: (i) uma tabela de frequencias (absolutas e/ou relativas), (ii) um grafico de
setores, (iii) a moda, i.e. o valor que ocorre com maior frequencia.
Vamos primeiro listar os dados e checar se estao na forma de um fator, que e adequada para
variaveis deste tipo.
> civil
[1] solteiro casado
casado
[9] casado
solteiro casado
[17] casado
casado
solteiro
[25] casado
casado
solteiro
[33] casado
solteiro casado
Levels: solteiro casado

solteiro
solteiro
solteiro
casado
casado

solteiro
solteiro
casado
casado

casado
casado
solteiro
casado

solteiro
casado
solteiro
solteiro

solteiro
solteiro
casado
casado

> is.factor(civil)
[1] TRUE
A seguir obtemos frequencias absolutas e relativas (note duas formas fiferentes de obter as
frequencias relativas. Note ainda que optamos por armazenar as frequencias absolutas em um
objeto que chamamos de civil.tb.
> civil.tb <- table(civil)
> civil.tb
civil
solteiro
16

casado
20

> 100 * table(civil)/length(civil)


civil
solteiro
casado
44.44444 55.55556
> prop.table(civil.tb)
civil
solteiro
casado
0.4444444 0.5555556
O grafico de setores e adequado para representar esta variavel conforme mostrado na
Figura 3.2.1.
> pie(table(civil))
NOTA: Em computadores antigos e de baixa resolucao grafica (como por exemplo em
alguns computadores da Sala A do LABEST/UFPR) o grafico pode nao aparecer de forma
adequada devido limitacao de memoria da placa de vdeo. Se este for o caso use o comando
mostrado a seguir ANTES de fazer o grafico.
> X11(colortype = "pseudo.cube")
Finalmente encontramos a moda para esta variavel cujo valor optamos por armazenar no
objeto civil.mo.
> civil.mo <- names(civil.tb)[civil.tb == max(civil.tb)]
> civil.mo
[1] "casado"

CE-002: Estatstica I

27

solteiro

casado

Figura 5: Grafico de setores para variavel civil.

Vari
avel Qualitativa Ordinal Para exemplificar como obter analises para uma variavel
qualitativa ordinal vamos selecionar a variavel instrucao.
> instrucao
[1] 1oGrau
1oGrau
1oGrau
2oGrau
[9] 2oGrau
2oGrau
2oGrau
1oGrau
[17] 2oGrau
1oGrau
Superior 2oGrau
[25] 2oGrau
2oGrau
1oGrau
2oGrau
[33] Superior Superior 2oGrau
Superior
Levels: 1oGrau < 2oGrau < Superior

1oGrau
2oGrau
2oGrau
2oGrau

1oGrau
1oGrau
2oGrau
2oGrau

1oGrau
2oGrau
1oGrau
Superior

1oGrau
2oGrau
Superior
2oGrau

> is.factor(instrucao)
[1] TRUE
As tabelas de frequencias sao obtidas de forma semelhante `a mostrada anteriormente.
> instrucao.tb <- table(instrucao)
> instrucao.tb
instrucao
1oGrau
12

2oGrau Superior
18
6

CE-002: Estatstica I

28

> prop.table(instrucao.tb)
instrucao
1oGrau
2oGrau Superior
0.3333333 0.5000000 0.1666667
O grafico de setores nao e adequado para este tipo de variavel por nao expressar a ordem
dos possveis valores. Usamos entao um grafico de barras conforma mostrado na Figura 3.2.1.

10

15

> barplot(instrucao.tb)

1oGrau

2oGrau

Superior

Figura 6: Grafico de barras para variavel instrucao.


Para uma variavel ordinal, alem da moda podemos tambem calcular outras medidas, tais
como a mediana conforme exemplificado a seguir. Note que o comando median() nao funciona
com variaveis nao numericas e por isto usamos o comando seguinte.
> instrucao.mo <- names(instrucao.tb)[instrucao.tb == max(instrucao.tb)]
> instrucao.mo
[1] "2oGrau"
> median(as.numeric(instrucao))
[1] 2
> levels(milsa$instrucao)[median(as.numeric(milsa$instrucao))]
[1] "2oGrau"

CE-002: Estatstica I

29

Vari
avel quantitativa discreta Vamos agora usar a variavel filhos (n
umero de filhos)
para ilustrar algumas analises que podem ser feitas com uma quantitativa discreta. Note que
esta deve ser uma variavel numerica, e nao um fator.
> filhos
[1] NA 1
[26] 2 NA

2 NA NA 0 NA NA 1 NA
0 5 2 NA 1 3 NA 2

2 NA NA
3

0 NA

2 NA NA

1 NA NA

> is.factor(filhos)
[1] FALSE
> is.numeric(filhos)
[1] TRUE
Frequencias absolutas e relativas sao obtidas como anteriormente.
> filhos.tb <- table(filhos)
> filhos.tb
filhos
0 1 2 3 5
4 5 7 3 1
> filhos.tbr <- prop.table(filhos.tb)
> filhos.tbr
filhos
0
1
2
3
5
0.20 0.25 0.35 0.15 0.05
O grafico adequado para frequencias absolutas de uma variavel discreta e mostrado na
Figura 3.2.1 o obtido com os comandos a seguir.
> plot(filhos.tb)
Outra possibilidade seria fazer graficos de frequencias relativas e de prequencias acumuladas
conforme mostrado na Figura 3.2.1.
> plot(filhos.tbr)
> filhos.fac <- cumsum(filhos.tbr)
> filhos.fac
0
1
2
3
5
0.20 0.45 0.80 0.95 1.00
> plot(filhos.fac, type = "S")
Sendo a variavel numerica ha uma maior diversidade de medidas estatsticas que podem ser
calculadas.
A seguir mostramos como obter algumas medidas de posicao: moda, mediana, media e
media aparada. Note que o argumento na.rm=T e necessario porque nao ha informacao sobre
n
umero de filhos para alguns indivduos. O argumento trim=0.1 indica uma media aparada
onde foram retirados 10% dos menores e 10% dos maiores dados. Ao final mostramos como
obter os quartis, mnimo e maximo.

30

filhos.tb
3
4

CE-002: Estatstica I

filhos

0.2

0.00

0.4

0.10

filhos.fac
0.6

filhos.tbr
0.20

0.8

0.30

1.0

Figura 7: Grafico de frequencias absolutas para variavel filhos.

3
filhos

3
Index

Figura 8: Grafico de frequencias relativas (esquerda) e frequencias acumuladas para variavel


filhos.

CE-002: Estatstica I

31

> filhos.mo <- names(filhos.tb)[filhos.tb == max(filhos.tb)]


> filhos.mo
[1] "2"
> filhos.md <- median(filhos, na.rm = T)
> filhos.md
[1] 2
> filhos.me <- mean(filhos, na.rm = T)
> filhos.me
[1] 1.65
> filhos.me <- mean(filhos, trim = 0.1, na.rm = T)
> filhos.me
[1] 1.5625
> filhos.qt <- quantile(filhos, na.rm = T)
Passando agora para medidas de dispersao vejamos como obter maximo e mnimo da a
amplitude, variancia e desvio padrao, coeficiente de variacao. Depois obtemos os quartis e da
a amplitude interquartlica.
> range(filhos, na.rm = T)
[1] 0 5
> filhos.A <- diff(range(filhos, na.rm = T))
> filhos.A
[1] 5
> var(filhos, na.rm = T)
[1] 1.607895
> filhos.dp <- sd(filhos, na.rm = T)
> filhos.dp
[1] 1.268028
> filhos.cv <- 100 * filhos.dp/filhos.me
> filhos.cv
[1] 81.15379
> filhos.qt <- quantile(filhos, na.rm = T)
> filhos.ai <- filhos.qt[4] - filhos.qt[2]
> filhos.ai
75%
1
Finalmente, notamos que ha comandos para se obter varias medidas de uma sa vez. Inspecione os resultados dos comandos abaixo.
> summary(filhos)
Min. 1st Qu.
0.00
1.00

Median
2.00

> fivenum(filhos)
[1] 0 1 2 2 5

Mean 3rd Qu.


1.65
2.00

Max.
5.00

NA's
16.00

CE-002: Estatstica I

32

Vari
avel quantitativa Contnua Para concluir os exemplos para analise univariada vamos
considerar a variavel quantitativa contnua salario. Comecamos mostrando os valores da
variavel e verificando o seu tipo no R.
> salario
[1] 4.00 4.56 5.25 5.73 6.26 6.66 6.86 7.39 7.59 7.44 8.12 8.46
[13] 8.74 8.95 9.13 9.35 9.77 9.80 10.53 10.76 11.06 11.59 12.00 12.79
[25] 13.23 13.60 13.85 14.69 14.71 15.99 16.22 16.61 17.26 18.75 19.40 23.30
> is.factor(salario)
[1] FALSE
> is.numeric(salario)
[1] TRUE
Para se fazer uma tabela de frequencias de uma contnua e preciso primeiro agrupar os
dados em classes. Nos comandos mostrados a seguir verificamos inicialmente os valores maximo
e mnimo dos dados, depois usamos o criterio de Sturges para definir o n
umero de classes,
usamos cut() para agrupar os dados em classes e finalmente obtemos as frequencias absolotas
e relativas.
> range(salario)
[1]

4.0 23.3

> nclass.Sturges(salario)
[1] 7
> args(cut)
function (x, ...)
NULL
> args(cut.default)
function (x, breaks, labels = NULL, include.lowest = FALSE, right = TRUE,
dig.lab = 3, ...)
NULL
> salario.tb <- table(cut(salario, seq(3.5, 23.5, l = 8)))
> prop.table(salario.tb)
(3.5,6.36] (6.36,9.21] (9.21,12.1] (12.1,14.9] (14.9,17.8] (17.8,20.6]
0.13888889 0.27777778 0.22222222 0.16666667 0.11111111 0.05555556
(20.6,23.5]
0.02777778
Na sequencia vamos mostrar dois possveis graficos para variaveis contnuas: histograma e
box-plot conforme Figura 3.2.1.

CE-002: Estatstica I

33

10

15

Frequency
4

20

Histogram of salario

10

15
salario

20

Figura 9: Histograma (esquerda) e boxplot (direita) para a variavel salario.

> hist(salario)
> boxplot(salario)
Uma outra representacao grafica para variaveis numericas e o diagrama ramo-e-folhas que
pode ser obtido conforme mostrado a seguir.
> stem(salario)
The decimal point is at the |
4
6
8
10
12
14
16
18
20
22

|
|
|
|
|
|
|
|
|
|

0637
379446
15791388
5816
08268
77
0263
84
3

Finalmente medidas s obtidas da mesma forma que para variaveis discretas. Veja alguns
exemplos a seguir.
> salario.md <- median(salario, na.rm = T)
> salario.md
[1] 10.165
> salario.me <- mean(salario, na.rm = T)
> salario.me

CE-002: Estatstica I

34

[1] 11.12222
> range(salario, na.rm = T)
[1]

4.0 23.3

> salario.A <- diff(range(salario, na.rm = T))


> salario.A
[1] 19.3
> var(salario, na.rm = T)
[1] 21.04477
> salario.dp <- sd(salario, na.rm = T)
> salario.dp
[1] 4.587458
> salario.cv <- 100 * salario.dp/salario.me
> salario.cv
[1] 41.24587
> salario.qt <- quantile(salario, na.rm = T)
> salario.ai <- salario.qt[4] - salario.qt[2]
> salario.ai
75%
6.5075
> summary(salario)
Min. 1st Qu.
4.000
7.553

Median
10.160

Mean 3rd Qu.


11.120 14.060

Max.
23.300

> fivenum(salario)
[1]
3.2.2

4.000

7.515 10.165 14.270 23.300

An
alise Bivariada

Na analise bivariada procuramos identificar relaccoes entre duas variaveis. Assim como na
univariada estas relacoes podem ser resumidas por graficos, tabelas e/ou medidas estatstica.
O tipo de resumo vai depender dos tipos das variaveis envolvidas. Vamos considerar tres
possibilidades:
qualitativa vs qualitativa
qualitativa vs quantitativa
quantitativa vs qualitativa

Salienta-se ainda que:


as an
alise mostradas a seguir nao esgotam as possibilidades de analises envolvendo duas
variaveis e devem ser vistas apenas como uma sugestao inicial
relacoes entre duas vari
aveis devem ser examinadas com cautela pois podem ser mascaradas por uma ou mais variaveis adicionais nao considerada na analise. Estas sao chamadas
vari
aveis de confundimento. Analises com variaveis de confundimento nao serao discutidas neste ponto.

CE-002: Estatstica I

35

Qualitativa vs Qualitativa Vamos considerar as variaveis civil (estado civil) e instrucao


(grau de instrucao). A tabela envolvendo duas variaveis e chamada tabela de cruzamento e
pode ser apresentada de varias formas, conforme ilustrado abaixo. A forma mais adequada
vai depender dos objetivos da analise e da interpretacao desejada para os dados. Iniciamente
obtemos a tabela de frequencias absolutas. Depois usamos prop.table() para obter frequencia
ralativas globais, por linha e por coluna.
> civ.gi.tb <- table(civil, instrucao)
> civ.gi.tb
instrucao
civil
1oGrau 2oGrau Superior
solteiro
7
6
3
casado
5
12
3
> prop.table(civ.gi.tb)
instrucao
civil
1oGrau
2oGrau
Superior
solteiro 0.19444444 0.16666667 0.08333333
casado
0.13888889 0.33333333 0.08333333
> prop.table(civ.gi.tb, margin = 1)
instrucao
civil
1oGrau 2oGrau Superior
solteiro 0.4375 0.3750
0.1875
casado
0.2500 0.6000
0.1500
> prop.table(civ.gi.tb, margin = 2)
instrucao
civil
1oGrau
2oGrau Superior
solteiro 0.5833333 0.3333333 0.5000000
casado
0.4166667 0.6666667 0.5000000
Na Figura 3.2.2 mostramos dois graficos de barras.
> barplot(civ.gi.tb, legend = T)
> barplot(civ.gi.tb, beside = T, legend = T)
Medidas de associacao entre duas variaveis qualitativas incluem o Chi-quadrado dado por:
2

k
X
(oi ei )2
i=1

ei

onde oi e ei sao, respectivamente, frequencias observadas e esperadas nas k posicoes da tabela


de cruzamento das variaveis. Outras medidas derivadas desta sao o o coeficiente de contingencia
C e o coeficiente de contingencia modificado C1 dados por:
s
C
2
,
C
=
,
C=
1
2 + n
[(t 1)/t]2
onde n e o n
umero de observacoes e t e o mnimo entre o n
umero de linas e colunas da tabela.
Os comandos a seguir mostram como obter todas estas medidas.

36
12

CE-002: Estatstica I

10

solteiro
casado

10

15

casado
solteiro

1oGrau

2oGrau

Superior

1oGrau

2oGrau

Superior

Figura 10: Dois tipos de graficos de barras ilustrando o cruzamento das variaveis civil e
instrucao.

> summary(civ.gi.tb)
Number of cases in table: 36
Number of factors: 2
Test for independence of all factors:
Chisq = 1.9125, df = 2, p-value = 0.3843
Chi-squared approximation may be incorrect
> names(summary(civ.gi.tb))
[1] "n.vars"
[7] "call"

"n.cases"

"statistic" "parameter" "approx.ok" "p.value"

> chisq <- summary(civ.gi.tb)$stat


> chisq
[1] 1.9125
> n <- sum(civ.gi.tb)
> n
[1] 36
> C <- sqrt(chisq/(chisq + n))
> C
[1] 0.2245999
> t <- min(dim(civ.gi.tb))
> C1 <- C/((t - 1)/t)^2
> C1

CE-002: Estatstica I

37

[1] 0.8983995
Muitas vezes e necessario reagrupar categorias porque algumas frequencias sao muito baixas.
Por exemplo vamos criar uma nova variavel para agrupar 2o Grau e Superior usando ifelse()
e depois podemos refazer as analises do cruzamento com esta nova variavel
> instrucao1 <- ifelse(instrucao == "1oGrau", 1, 2)
> instrucao1 <- factor(instrucao1, label = c("1oGrau", "2o+Superior"),
+
lev = 1:2, ord = T)
> table(instrucao1)
instrucao1
1oGrau 2o+Superior
12
24
> table(civil, instrucao1)
instrucao1
civil
1oGrau 2o+Superior
solteiro
7
9
casado
5
15
> summary(table(civil, instrucao1))
Number of cases in table: 36
Number of factors: 2
Test for independence of all factors:
Chisq = 1.4062, df = 1, p-value = 0.2357
Qualitativa vs Quantitativa Para exemplificar este caso vamos considerar as variaveis
instrucao e salario.
Para se obter uma tabela de frequencias e necessario agrupar a variavel quantitativa em
classes. No exemplo a seguir vamos agrupar a variavel salario em 4 classes definidas pelos
quartis usando cut(). Apos agrupar esta variavel obtemos a(s) tabela(s) de cruzamento como
mostrado no caso anterior.
> quantile(salario)
0%
4.0000

25%
50%
75%
100%
7.5525 10.1650 14.0600 23.3000

> salario.cl <- cut(salario, quantile(salario))


> ins.sal.tb <- table(instrucao, salario.cl)
> ins.sal.tb
salario.cl
instrucao (4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]
1oGrau
6
3
2
0
2oGrau
2
6
5
5
Superior
0
0
2
4
> prop.table(ins.sal.tb, margin = 1)

38

10

15

20

CE-002: Estatstica I

1oGrau

2oGrau

Superior

Figura 11: Boxplot da variavel salario para cada nvel da variavel instrucao.

salario.cl
instrucao
(4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]
1oGrau
0.5454545
0.2727273
0.1818182
0.0000000
2oGrau
0.1111111
0.3333333
0.2777778
0.2777778
Superior 0.0000000
0.0000000
0.3333333
0.6666667
No grafico vamos considerar que neste exemplo a instrucao deve ser a variavel explicativa
e portanto colocada no eixo-X e o salario e a variavel resposta e portanto no eixo-Y. Isto
e, consideramos que a instrucao deve explicar, ainda que parcialmente, o salario (e nao o
contrario!). Vamos entao obter um boxplot dos salarios para cada nvel de instrucao. Note que
o funcao abaixo usamos a notacao de formula do R, com salario instrucao indicando que a
variavel salario e explicada () pela variavel instrucao.
> boxplot(salario ~ instrucao)
Poderamos ainda fazer graficos com a variavel salario agrupada em classes, e neste caso
os graficos seriam como no caso anterior com duas variaveis qualitativas.
Para as medidas o usual e obter um resumo da quantitativa como mostrado na analise
univariada, porem agora infromando este resumo para cada nvel do fator qualitativo. A seguir
mostramos alguns exemplos de como obter a media, desvio padrao e o resumo de cinco n
umeros
do salario para cada nvel de instrucao.
> tapply(salario, instrucao, mean)

CE-002: Estatstica I

39

1oGrau
2oGrau Superior
7.836667 11.528333 16.475000
> tapply(salario, instrucao, sd)
1oGrau
2oGrau Superior
2.956464 3.715144 4.502438
> tapply(salario, instrucao, quantile)
$"1oGrau"
0%
25%
4.0000 6.0075

50%
7.1250

75%
100%
9.1625 13.8500

$"2oGrau"
0%
25%
50%
75%
100%
5.7300 8.8375 10.9100 14.4175 19.4000
$Superior
0%
25%
50%
75%
100%
10.5300 13.6475 16.7400 18.3775 23.3000
Quantitativa vs Quantitativa Para ilustrar este caso vamos considerar as variaveis salario
e idade. Para se obter uma tabela e necessario agrupar as variaveis em classes conforma fizemos
no caso anterior. Nos comandos abaixo agrupamos as duas variaveis em classes definidas pelos
respectivos quartis gerando portanto uma tabela de cruzamento 4 4.
> idade.cl <- cut(idade, quantile(idade))
> table(idade.cl)
idade.cl
(20.8,30.7] (30.7,34.9] (34.9,40.5] (40.5,48.9]
8
9
9
9
> salario.cl <- cut(salario, quantile(salario))
> table(salario.cl)
salario.cl
(4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]
8
9
9
9
> table(idade.cl, salario.cl)
salario.cl
idade.cl
(4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]
(20.8,30.7]
2
2
2
1
(30.7,34.9]
1
3
3
2
(34.9,40.5]
1
3
2
3
(40.5,48.9]
3
1
2
3
> prop.table(table(idade.cl, salario.cl), mar = 1)

CE-002: Estatstica I

40

salario.cl
idade.cl
(4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]
(20.8,30.7] 0.2857143
0.2857143
0.2857143
0.1428571
(30.7,34.9] 0.1111111
0.3333333
0.3333333
0.2222222
(34.9,40.5] 0.1111111
0.3333333
0.2222222
0.3333333
(40.5,48.9] 0.3333333
0.1111111
0.2222222
0.3333333
Caso queiramos definir um n
umero menos de classes podemos fazer como no exemplo a
seguir onde cada variavel e dividida em 3 classes e gerando um tabela de cruzamento 3 3.
> idade.cl1 <- cut(idade, quantile(idade, seq(0, 1, len = 4)))
> salario.cl1 <- cut(salario, quantile(salario, seq(0, 1, len = 4)))
> table(idade.cl1, salario.cl1)
salario.cl1
idade.cl1
(4,8.65] (8.65,12.9] (12.9,23.3]
(20.8,32.1]
3
5
2
(32.1,37.8]
4
3
5
(37.8,48.9]
3
4
5
> prop.table(table(idade.cl1, salario.cl1), mar = 1)
salario.cl1
idade.cl1
(4,8.65] (8.65,12.9] (12.9,23.3]
(20.8,32.1] 0.3000000
0.5000000
0.2000000
(32.1,37.8] 0.3333333
0.2500000
0.4166667
(37.8,48.9] 0.2500000
0.3333333
0.4166667
O grafico adequado para representar duas variaveis quantitativas e um diagrama de dispersao. Note que se as variaveis envolvidas puderem ser classificadas como explicativae respostadevemos colocar a primeira no eixo-X e a segunda no eixo-Y. Neste exemplo e razoavel
admitir que a idade deve explicar, ao menos parcialmente, o salario e portanto fazemos o grafico
com idade n eixo-X.
> plot(idade, salario)
Para quantificar a associacao entre variaveis deste tipo usamos um coeficiente de correlacao.
A funcao cor() do R possui opcao para tres coeficientes tendo como default o coeficiente de
correlacao linear de Pearson.
> cor(idade, salario)
[1] 0.3651397
> cor(idade, salario, method = "kendall")
[1] 0.214456
> cor(idade, salario, method = "spearman")
[1] 0.2895939
Lembre que ao iniciar as analises com este conjunto de dados anexamos os dados com o
comando attach(milsa). Portanto ao terminar as analises com estes dados devemos desanexar
este conjunto de dados com o detach()
> detach(milsa)

41

10

salario
15

20

CE-002: Estatstica I

20

25

30

35
idade

40

45

50

Figura 12: Diagrama de dispersao para as variaveis salario e idade.

CE-002: Estatstica I

3.3

42

Uma demonstrac
ao de recursos gr
aficos do R

O R vem com algumas demonstracoes (demos) de seus recursos embutidas no programa.


Para listar as demos disponveis digite na linha de comando:
> demo()
Para rodar uma delas basta colocar o nome da escolhida entre os parenteses. As demos sao
u
ties para termos uma ideia dos recursos disponveis no programa e para ver os comandos que
devem ser utilizados.
Por exemplo, vamos rodar a demo de recursos graficos. Note que os comandos vao aparecer
na janela de comandos e os graficos serao automaticamente produzidos na janela grafica. A
cada passo voce vai ter que teclar ENTER para ver o proximo grafico.
no prompt do programa R digite:

> demo(graphics)
Voce vai ver a seguinte mensagem na tela:

demo(graphics)
---- ~~~~~~~~
Type

<Return>

to start :

pressione a tecla ENTER


a demo vai ser iniciada e uma tela grafica ir
a se abrir. Na tela de comandos serao
mostrados comandos que serao utilizados para gerar um grafico seguidos da mensagem:

Hit <Return> to see next plot:


inspecione os comandos e depois pressione novamente a tecla ENTER.
Agora voce pode visualizar na janela grafica o grafico produzido pelos comandos mostrados
anteriormente. Inspecione o grafico cuidadosamente verificando os recursos utilizados
(ttulo, legendas dos eixos, tipos de pontos, cores dos pontos, linhas, cores de fundo, etc).
agora na tela de comandos apareceram novos comandos para produzir um novo gr
afico e
a mensagem:

Hit <Return> to see next plot:


inspecione os novos comandos e depois pressione novamente a tecla ENTER.
Um novo grafico surgira ilustrando outros recursos do programa.
Prossiga inspecionando os graficos e comandos e pressionando ENTER ate terminar a
demo.
Experimente outras demos como demo(persp) e demo(image), por exemplo.

CE-002: Estatstica I

3.4

43

Outros dados disponveis no R

Ha varios conjuntos de dados includos no programa R como, por exemplo, o conjunto


mtcars. Estes conjuntos sao todos documentados, isto e, voce pode usar a funcao help para
obter uma descricao dos dados. Para ver a lista de conjuntos de dados disponveis digite data().
Por exemplo tente os seguintes comandos:
>
>
>
>

data()
data(women)
women
help(woman)

3.5

Mais detalhes sobre o uso de fun


c
oes

As funcoes do R sao documentadas e o uso e explicado e ilustrado usando a help(). Por


exemplo, o comando help(mean) vai exibir e documentacao da funcao mean(). Note que no
final da documentacao ha exemplos de uso da funcao que voce pode reproduzir para entende-la
melhor.

3.6

Exerccios

1. Experimente as funcoes mean(), var(), sd(), median(), quantile() nos dados mostrados anteriormente. Veja a documentacao das funcoes e as opcoes de uso.
2. Faca uma analise descritiva adequada do conjunto de dados women.
3. Carregue o conjunto de dados USArrests com o comando data(USArrests). Examine a
sua documentacao com help(USArrests) e responda as perguntas a seguir.
(a) qual o n
umero medio e mediano de cada um dos crimes?
(b) encontre a mediana e quartis para cada crime.
(c) encontre o n
umero maximo e mnimo para cada crime.
(d) faca um grafico adequado para o n
umero de assassinatos (murder).
(e) faca um diagrama ramo-e-folhas para o n
umero de estupros (rape).
(f) verifique se ha correlacao entre os diferentes tipos de crime.
(g) verifique se ha correlacao entre os crimes e a proporcao de populacao urbana.
(h) encontre os estados com maior e menor ocorrencia de cada tipo de crime.
(i) encontre os estados com maior e menor ocorrencia per capta de cada tipo de crime.
(j) encontre os estados com maior e menor ocorrencia do total de crimes.

CE-002: Estatstica I

44

Exerccios adicionais de estatstica descritiva

4.1

Exerccios de Magalh
aes & Lima (2005)

Os exerccios a seguir foram retirados de:


Magalhaes, M.N. & Lima, A.C.P. (2005) Noc
oes de Probabilidade e Estatstica. 6a ed.
revisada. EDUSP. (Clique aqui para ver o site do livro)
1. Obtenha o conjunto de dados do questionario (questionario.txt) dos alunos e reproduza
as analises mostradas no texto do Captulo 1 do livro.
2. Quinze pacientes de uma clnica de ortopedia foram entrevistados quanto ao n
umero de
meses previstos de fisioterapia, se havera (S) ou nao (N) sequelas apos o tratamento e o
grau de complexidade da cirurgia realizada: alto (A), medio (M) ou baixo (B). Os dados
sao apresentados na tabela abaixo:
Paciente
1
Fisioterapia 7
Sequelas
S
Cirurgia
A

2 3 4
8 5 6
S N N
M A M

5 6 7
4 5 7
N S S
M B A

8 9
7 6
N N
M B

10 11 12 13 14 15
8 6 5 5 4 5
S S N S N N
M B B M M A

3. Os dados abaixo referem-se ao salario (em salarios mnimos) de 20 funcionarios administrativos em uma ind
ustria
10,1 7,3 8,5 5,0 4,2 3,1 2,2 9,0 9,4 6,1
3,3 10,7 1,5 8,2 10,0 4,7 3,5 6,5 8,9 6,1

(a) Construa uma tabela de frequencias agrupando os dados em intervalos de amplitude 2


a partir de 1.
(b) Construa o histograma e calcule o 1o e 3o quartil.
4. (adaptado) A idade dos 20 ingressantes num certo ano no curso de pos-graduacao em
jornalismo de uma univaesidade foi o seguinte: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25,
25, 26, 26, 26, 26, 27, 28, 35, 40.
(a) Apresente os dados el uma tabela de frequencias, incluindo frequencias relativas
(b) calcule a media, amplitude e desvio padrao dos dados
(c) calcule mediana, quantis, amplitude interquartlica
(d) faca um boxplot destes dados
(e) idades atpicas parecem ter ocorrido este ano. Indentifique-as. Apos sua retirada
refaca on itens anteriores. Comente as diferencas encontradas

Veja outros exerccios no Captulo 1 do livro

CE-002: Estatstica I

4.2

45

Exerccios de Bussab & Morettin (2003)

Os exerccios a seguir foram retirados de:


Bussab, W.O. & Morettin, P. (2003) Estatstica B
asica. 5a ed. Saraiva.
1. Para cada uma das variaveis abaixo, indique o tipo da variavel
(a) Salarios dos empregados de uma empresa.
(b) Temperatura diaria da cidade de Curitiba.
(c) Nvel de escolaridade dos empregados de uma empresa.
(d) Idade.
(e) Sexo.
(f) N
umero de filhos dos empregados casados.
2. Contou-se o n
umero de erros de impressao da primeira pagina de um jornal durante 50
dias, obtendo-se os resultados abaixo:
8
6
10
7
14

11
10
16
10
8

8 12 14 13 11 14 14 15
14 19 6 12 7 5 8 8
10 12 12 8 11 6 7 12
14 5 12 7 9 12 11 9
14 8 12 10 12 22 7 15

(a) Faca um histograma e um ramo-e-folhas;


(b) Media;
(c) Mediana
(d) Moda
(e) Variancia;
(f) Desvio-padrao;
(g) Erro-padrao da media;
(f) Coeficiente de variacao;
3. Considere as duas amostras:
Amostra A
Amostra B

15 16 25 20 24
115 117 120 123 126

(a) Qual delas e mais homogenea?


4. Um grupo de pedagogos estuda a influencia da troca de escolas no desempenho de alunos
do ensino fundamental. Como parte do levantamento realizado, foi anotado o n
umero
deescolas cursadas pelos alunos participantes do estudo.
(a) Qual e a porcentagem dos alunos que cursaram mais de uma escola?
(b) Construa o grafico de barras
(c) Classifique os alunos em dois grupos segundo a rotatividade: alta para alunos com
mais de 2 escolas e baixa para os demais. Obtenha a tabela de frequencia dessa variavel.

CE-002: Estatstica I

46
Escolas Cursadas frequencia
1
46
2
57
3
21
4
15
5
4
Durabilidade frequencia relativa
[0, 3)
0,02
[3, 6)
0,05
[6, 9)
0,15
[9, 12)
0,25
[12, 15)
0,30
[15, 20)
0,23

5. Vinte baterias para automovies de uma certa marca foram testadas quanto `a sua vida
u
til. O teste simula a utilizacao da bateria, acelerando seu dsgaste de modo a criar uma
situacao real. Os resultados da durabilidade (em meses) sao apresentados a seguir:
6. Faca no mesmo grafico um esboco das tres distribucoes descritas abaixo:
(a) Distribuicao das alturas dos brasileiros adultos.
(b) Distribuicao das alturas dos suecos adultos.
(c) Distribuicao das alturas dos japoneses.
7. Os dados a seguir representam as vendas semanais, em classes de salarios mnimos, de
vendedores de generos alimentcios:
Vendas semanais
[30, 35)
[35, 40)
[40, 45)
[45, 50)
[50, 55)
[55, 60)
[60, 65)
[65, 70)

N. de vendedores
2
10
18
50
70
30
18
2

8. O que acontece com a mediana, a media e o desvio padrao de uma serie de dados quando:
(a) cada observacao e multiplicada por 2?
(b) soma-se 10 a cada observacao?
(c) subtrai-se a media geral x de cada observacao?
(d) de cada observacao subtrai-se x e divide-se pelo desvio padrao dp(x)?
9. Na companhia A, a media dos salarios e 10.000 unidades e o 3o quartil e 5.000.

CE-002: Estatstica I

47

(a) Se voce se apresentasse como candidato a funcionario nessa firma e se o seu salario
fosse escolhido ao acaso entre todos os possveis salarios, o que seria mais provavel: ganhar
mais ou menos que 5.000 unidades?
(b) suponha que a companhia B a media dos salarios seja 7.000 unidades, a variancia
praticamente zero e o salario tambem seja escolhido ao acaso. Em qual companhia voce
se apresentaria para procurar emprego?

CE-002: Estatstica I

48

Exerccios sobre distribuico


es amostrais

5.1

Exerccios de Bussab & Morettin (2003)

Os exerccios a seguir foram retirados do Captulo 8 de:


Bussab, W.O. & Morettin, P. (2003) Estatstica B
asica. 5a ed. Saraiva.
1. Uma v.a. X tem distribuicao normal, com media 100 e desvio padrao 10.
(a) Qual a P (90 < X < 110)?
for a media de uma amostra de 16 elementos retirados dessa populacao, calcule
(b) Se X
< 110).
P (90 < X

(c) Represente, num u


nico grafico, as distribuicoes de X e X.
< 110) = 0, 95?
(d) Que tamanho deveria ter a amostra para que P (90 < X
2. A maquina de empacotar um determinado produto o faz segundo o faz segundo uma
distribucao normal, com media e desvio padrao 10g.
(a) Em quanto deve ser regulado o peso medio para que apenas 10% dos pacotes
tenham menos do que 500g?
(b) Com a maquina assim regulada, qual a probabilidade de que o peso total de 4 pacotes
escolhido ao acaso seja inferior a 2 kg?
3. No exemplo anterior, e apos a maquina estar regulada, programou-se uma carta conrole de
qualidade. De hora em hora, sera retirada uma amostra de quatro pacotes e esses pesados.
Se a media da amostra for inferior a 495g ou superior a 520g, encerra-se a producao para
reajustar a maquina, isto e, reajustar o peso medio.
(a) Qual e a probabilidade de ser feita uma parada desnecessaria?
(b) Se o peso medio da maquina desregulou-se para 500 g, qual e a probabilidade de
continuar a prducao fora dos padroes desejados?
4. A capacidade maxima de um elevador e de 500 kg. Se a distribuicao de X dos pesos dos
usuarios for suposta N(70, 100).
(a) Qual e a probabilidade de sete passageiros ultrapassarem esse limite?
(b) E seis passageiros?
5. Sabe-se que 20% das pecas de um lote sao defeituosas. Sorteiam-se oito pecas, com
reposicao, e calcula-se a proporcao p de pecas defeituosas na amostra.
(a) Construa a distribuicao exata de (
p) (use a tabua da distribuicao binomial).
(b) Construa a aproximacao normal `a binomial.
(c) Voce pensa que a segunda distribuicao e uma boa aproximacao da primeira?
(d) Ja sabemos que, para dado p fixo, a aproximacao melhora `a medida que n aumenta.
Agora, se n for fixo, para qual valor de p a aproximacao e melhor?
6. Um procedimento de controle e qualidade foi planejado para garantir um maximo de 10%
de itens defeituosos na producao. A cada 6 horas sorteia-se uma amostra de 20 pecas e,
havendo mais de 15% de defeituosas, encerra-se a producao para verificacao do proceso.
Qual a probabilidade de uma parada desnecessaria?

CE-002: Estatstica I

49

7. Suponha que a producao do exemplo anterior esteja sob controle, isto e, p = 10%, e que
os itens sejam vendidos em caixas com 100 unidades, qual a probabilidade de que uma
caixa:
(a) tenha mais do que 10% de defeituosos?
(b) na tenha itens defeituosos?
(c) Suponha que uma ind
ustria farmaceutica deseja saber a quantos voluntarios se deva
aplicar uma vacina, de modo que a proporcao de indivduos imunizados na amostra
difira de menos de 2% da proporcao verdadeira de imunizados na populacao, com
probabilidade 90%. Qual o tamanho da amostra a escolher?
8. No problema anterior, suponha que a ind
ustria tenha a informacao de que a proporcao
de imunizados pela vacina seja p 0, 80. Qual o novo tamanho de amostra a escolher?
Houve reducao?
9. A distribuicao dos comprimentos dos elos da corrente de bicicleta e normal, com media
2cm e variancia 0, 01cm2 . Para que uma corrente se ajuste `a bicicleta, deve ter comprimento total entre 58 e 61 cm.
(a) Qual e a probabilidade de uma corrente com 30 elos nao se ajustar `a bicicleta?
(b) E para uma corrente com 29 elos?
[Observacao: suponha que os elos sejam selecionados ao acaso para compor a corrente,
de modo que se tenha independencia.]
10. Cada secao usada para a construcao de um oleoduto tem comprimento medio de 5m e
desvio padrao de 20 cm. O comprimento total do oleoduto sera de 8 km.
11. Se a firma construtora do oleoduto encomendar 1.600 secoes, qual e a probabilidade de
ela ter de comprar mais do que uma secao adicional (isto e, de as 1.600 secoes somarem
menos do que 7.995 m)?
(a) Qual e a probabilidade do uso exato de 1.599 secoes, isto e, a soma das 1.599 secoes
estar entre 8.000 m e 8.005 m?
12. Um distribuidor de sementes determina, por meio de testes, que 5% das sementes nao
germinam. Ele vende pacotes com 200 sementes com garantia de 90% de germinacao.
Qual e a probabilidade de que um pacote nao satisfaca `a garantia?

5.2

Exerccios de Magalh
aes & Lima (2005)

Os exerccios a seguir foram retirados das paginas 227-228 de:


Magalhaes, M.N. & Lima, A.C.P. (2005) Noc
oes de Probabilidade e Estatstica. 6a ed.
revisada. EDUSP. (Clique aqui para ver o site do livro)
1. Coleta-se uma amostra de 10 observacoes independentes de um N (2, 2). Determine a
probabilidade de a media amostral:
(a) Ser inferior a 1
(b) Ser superior a 2,5
(c) Estar entre 0 e 2

CE-002: Estatstica I

50

2. Um fabricante afirma que sua vacina contra gripe imuniza em 80% dos casos. Uma
amostra de 25 indivduos que tomaram a vacina foi sorteada e testes foram feitos para
verificar a imunizacao ou nao destes indivduos. Se o fabricante estiver correto, qual e a
probabilidade da proporccao de imunizados na amostra ser inferior `a 0,75? E superior `a
0,85?
3. A resistencia de vigas de madeira utilizadas na construcao esta sendo estudada. O fornecedor atesta que, em media, cada viga resiste a 3 toneladas com desvio padrao de
aproximadamente 2 toneladas. Vinte destas vigas serao sorteadas para serem utilizadas
numa obra. Considerando que e verdadeira a informacao do fornecedor e supondo que o
modelo Normal e adequado, pergunta-se:
(a) Qual a probabilidade de uma destas vigas suportar menos do que 1 tonelada?
(b) Qual a probabilidade de as 20 vigas suportarem, em media, pelo menos 2,5 toneladas?
(c) Qual a probabilidade em (b), considerando agora 40 vigas e sem fazer a suposicao
de normalidade dos dados?

Veja outros exerccios no Captulo 7 do livro

CE-002: Estatstica I

51

Intervalos de confian
ca e testes de hip
otese

Nesta sessao vamos verificar como utilizar o R para obter intervalos de confianca e testar
hipoteses sobre parametros de interesse.

6.1

M
edia de uma distribui
c
ao normal com vari
ancia desconhecida

Considere resolver o seguinte problema:


Exemplo 1 O tempo de reacao de um novo medicamento pode ser considerado como tendo
distribuicao Normal e deseja-se fazer inferencia sobre a media que e desconhecida obtendo
um intervalo de confianca. Vinte pacientes foram sorteados e tiveram seu tempo de reacao
anotado. Os dados foram os seguintes (em minutos):

2.9 3.4 3.5 4.1 4.6 4.7 4.5 3.8 5.3 4.9
4.8 5.7 5.8 5.0 3.4 5.9 6.3 4.6 5.5 6.2
Neste primeiro exemplo, para fins didaticos, vamos mostrar duas possveis solucoes:
1. fazendo as contas passo a passo, utilizando o R como uma calculadora
2. usando uma funcao ja existente no R.
Entramos com os dados com o comando
> tempo <- c(2.9, 3.4, 3.5, 4.1, 4.6, 4.7, 4.5, 3.8, 5.3, 4.9, 4.8,
+
5.7, 5.8, 5, 3.4, 5.9, 6.3, 4.6, 5.5, 6.2)
Sabemos que o intervalo de confianca para media de uma distribuicao normal com media desconhecida e dado por:

r
r !
S2
S2
x t/2
, x + t1/2
n
n
Vamos agora obter a resposta de duas formas diferentes.
6.1.1

Fazendo as contas passo a passo

Nos comandos a seguir calculamos o tamanho da amostra, a media e a variancia amostral.


> n <- length(tempo)
> n
[1] 20
> t.m <- mean(tempo)
> t.m
[1] 4.745
> t.v <- var(tempo)
> t.v

CE-002: Estatstica I

52

[1] 0.992079
Com isto podemos montar o intervalo utilizando os quantis da distribuicao t.
> t.ic <- t.m + qt(c(0.025, 0.975), df = n - 1) * sqrt(t.v/length(tempo))
> t.ic
[1] 4.278843 5.211157
6.1.2

Usando a fun
c
ao t.test

Mostramos a solucao acima para ilustrar a flexibilidade e o uso do programa. Entretanto nao
precisamos fazer isto na maioria das vezes porque o R ja vem com varias funcoes ja disponveis
para procedimentos estatsticos usuais.
Para este exemplo especfico a funcao t.test() pode ser utilizada como vemos no resultado
do comando a sequir que coincide com os obtidos anteriormente.
> t.test(tempo)
One Sample t-test
data: tempo
t = 21.3048, df = 19, p-value = 1.006e-14
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
4.278843 5.211157
sample estimates:
mean of x
4.745
O resultado da funcao mostra a estimativa obtida da media (19), o intervalo de confianca a 95e
testa a igualdade de media a zero (p-value = 1.00642487153941e-14), em um teste bilateral.
Os valores definidos no IC e teste de hipotese acima sao defaults que podem ser modificados.
Por exemplo, para obter um IC a 99
> t.test(tempo, alt = "greater", mu = 3, conf.level = 0.99)
One Sample t-test
data: tempo
t = 7.835, df = 19, p-value = 1.140e-07
alternative hypothesis: true mean is greater than 3
99 percent confidence interval:
4.179408
Inf
sample estimates:
mean of x
4.745
2

CE-002: Estatstica I

6.2

53

Teste 2 de independ
encia

Quando estudamos a relacao entre duas variaveis qualitativas em geral fazemos uma tabela
com o resultado do cruzamento desta variaveis. Em geral existe interesse em verificar se as
variaveis estao associadas e para isto calcula-se uma medida de associacao tal como o 2 ,
coeficiente de contingencia C, ou similar. O passo seguinte e testar se existe evidencia que a
associacao e significativa. Uma possvel forma de fazer isto e utilizando o teste 2 .
Exemplo Para ilustrar o teste vamos utilizar o conjunto de dados HairEyeColor que ja vem
disponvel com o R. Para carregar e visualizar os dados use os comando abaixo.
> data(HairEyeColor)
> HairEyeColor
, , Sex = Male
Eye
Hair
Brown Blue Hazel Green
Black
32
11
10
3
Brown
38
50
25
15
Red
10
10
7
7
Blond
3
30
5
8
, , Sex = Female
Eye
Hair
Brown Blue Hazel Green
Black
36
9
5
2
Brown
81
34
29
14
Red
16
7
7
7
Blond
4
64
5
8
Para saber mais sobre estes dados veja help(HairEyeColor) Note que estes dados ja vem resumidos na forma de uma tabela de frequencias tri-dimensional, com cada uma das dimensoes
correspondendo a um dos atributos - cor dos cabelos, olhos e sexo.
Para ilustrar aqui o teste 2 vamos verificar se existe associacao entre 2 atributos: cor dos
olhos e cabelos entre os indivduos do sexo feminino. Portanto as hipoteses sao:
H0 : nao existe associacao
Ha : existe associacao
Vamos adotar = 5% como nvel de significancia. Nos comandos abaixo primeiro isolamos
apenas a tabela com os indivduos do sexo masculino e depois aplicamos o teste sobre esta
tabela.
> HairEyeColor[, , 2]
Eye
Hair
Brown Blue Hazel Green
Black
36
9
5
2
Brown
81
34
29
14
Red
16
7
7
7
Blond
4
64
5
8

CE-002: Estatstica I

54

> chisq.test(HairEyeColor[, , 1])


Pearson's Chi-squared test
data: HairEyeColor[, , 1]
X-squared = 42.1633, df = 9, p-value = 3.068e-06
O p value sugere que a associacao e significativa. Entretanto este resultado deve ser visto com
cautela pois a mensagem de alerta (Warning message) emitida pelo programa chama atencao
ao fato de que ha varias caselas com baixa frequencia na tabela e portanto as condicoes para a
validade do teste nao sao perfeitamente satisfeitas.
Ha duas possibilidades de contornar este problema: a primeira e agrupar categorias na
tabela. Uma outra (e usualmente melhor) possibilidade e entao usar o p value calculado por
simulacao, ao inves do resultado assintotico usado no teste tradicional.
> chisq.test(HairEyeColor[, , 1], sim = T)
Pearson's Chi-squared test with simulated p-value (based on 2000
replicates)
data: HairEyeColor[, , 1]
X-squared = 42.1633, df = NA, p-value = 0.0004998
Note que agora a mensagem de alerta nao e mais emitida e que a significancia foi confirmada
(p-valor < 0.05). Note que se voce rodar este exemplo podera obter um p value um pouco
diferente porque as simulacoes nao necessariamente serao as mesmas.
Lembre-se de inspecionar help(chisq.test) para mais detalhes sobre a implementacao
deste teste no R.
2

6.3

Teste 2 para ader


encia `
a uma certa distribuic
ao

Exemplo Uma certa hipotese genetica, se verdadeira deve produzir indivduos com 4 fenotipos (A, B, C e D) na populacao seguindo a relacao 9:3:3:1. Para verificar se a hipotese genetica
e plausvel foi coletada uma amostra de indivduos na populacao e obteve-se o seguinte n
umero
de indivduos para cada fenotipo:
Fenotipo
A
B C D
N indivduos 190 50 63 20
o

Teste a hipotese de que a hipotese genetica e plausvel com nvel de significancia de 5%.
Portanto as hipoteses sao:
H0 : segue a distribuicao esperada
Ha : nao segue a distribuicao esperada
O nvel de significancia foi definido como = 5% e a estatstica de teste 2c =
tem distribuicao 2(3) . Os comandos para efetuar este teste no R sao:
> o <- c(190, 50, 63, 22)
> e <- c(9, 3, 3, 1)/16
> chisq.test(o, p = e)

P
i

(oi ei )2
ei

CE-002: Estatstica I

55

Chi-squared test for given probabilities


data: o
X-squared = 2.4557, df = 3, p-value = 0.4833
Portanto a conclusao e que nao rejeita-se H0 ao nvel de 5%, ou seja, a hipotese genetica e
plausvel.
2

6.4

Teste para o coeficiente de correla


c
ao linear de Pearson

Quando temos duas variaveis quantitativas podemos utilizar o coeficiente de correlacao


linear de Pearson para medir a associacao entre as variaveis, desde que a relacao entre elas seja
linear.
Exemplo Para ilustrar o teste para o coeficiente linear de Pearson vamos estudar a relacao entre
o peso e rendimento de carros. Para isto vamos usar as variaveis wt (peso) e mpg (milhas por galao)
do conjunto de dados mtcars para testar se existe associacao entre estas duas variaveis.
As hipoteses sao:
H0 : nao existe associacao ( = 0)
Ha : existe associacao ( 6= 0)
Vamos ainda fixar o nivel de significancia em 5%. Os comandos para efetuar o teste e os
resultados sao mostrados a seguir.
> data(mtcars)
> with(mtcars, cor(wt, mpg))
[1] -0.8676594
> with(mtcars, cor.test(wt, mpg))
Pearson's product-moment correlation
data: wt and mpg
t = -9.559, df = 30, p-value = 1.294e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9338264 -0.7440872
sample estimates:
cor
-0.8676594
Portanto o p-valor acima mostra que a correlacao encontrada de -0.867659376517228 difere
significativamente de zero, ou seja existe evidencia de associacao (negativa) entre estas duas
variaveis.
OBS: Note que uma analise mais cuidadosa deveria incluir o exame do grafico entre estas
duas variaveis para ver se o coeficiente de correlacao linear e adequado para medir a associacao.
2

CE-002: Estatstica I

6.5

56

Comparac
ao de duas m
edias

Quando temos uma variavel qualitativa com dois nveis e outra quantitativa o interesse em
geral esta em comparar as medias da quantitativa para cada grupo da qualitativa. Para isto
podemos utilizar o testeT . Ha diferentes tipos de teste T: para amostras independentes com
variancias iguais ou desiguais, ou para amostras pareadas.
Exemplo Os dados a seguir correspondem a teores de um elemento indicador da qualidade
de um certo produto vegetal. Foram coletadas 2 amostras referentes a 2 metodos de producao
e deseja-se comparar as medias dos metodos fazendo-se um teste t bilateral, ao nvel de 1% de
significancia e considerando-se as variancias iguais.

Metodo 1 0.9 2.5 9.2 3.2 3.7 1.3 1.2 2.4 3.6 8.3
Metodo 2 5.3 6.3 5.5 3.6 4.1 2.7 2.0 1.5 5.1 3.5
As hipoteses sao:
H 0 : 1 = 2
H a : 1 =
6 2
Vamos ainda fixar o nivel de significancia em 5%. Abaixo os comandos para efetuar o teste
bilateral com variancias iguais.
> m1 <- c(0.9, 2.5, 9.2, 3.2, 3.7, 1.3, 1.2, 2.4, 3.6, 8.3)
> m2 <- c(5.3, 6.3, 5.5, 3.6, 4.1, 2.7, 2, 1.5, 5.1, 3.5)
> t.test(m1, m2, var.eq = TRUE, conf = 0.99)
Two Sample t-test
data: m1 and m2
t = -0.3172, df = 18, p-value = 0.7547
alternative hypothesis: true difference in means is not equal to 0
99 percent confidence interval:
-3.324208 2.664208
sample estimates:
mean of x mean of y
3.63
3.96
Os resultados mostram que nao ha evidencias para rejeitar a hipotese de igualdade entre as
medias ao nvel de 1%.
2

6.6

Exerccios

1. Revisite os dados milsa visto na aula de estatstica descritiva e selecione pares de variaveis
adequadas para efetuar:
(a) um teste 2
(b) um teste para o coeficiente de correlacao
(c) um teste t

CE-002: Estatstica I

57

2. Queremos verificar se machos e femeas de uma mesma especie possuem o mesmo comprimento (em mm) Para isso, foram medidos 6 exemplares de cada sexo e obtivemos os
seguintes comprimentos:
Machos 145 127 136 142 141 137
Femeas 143 128 132 138 142 132
Obtenha intervalos de confianca para a razao das variancias e para a diferenca das medias
dos dois grupos.
Dica: Use as funcoes var.test() e t.test()
3. Carregue o conjunto de dados iris usando o comando data(iris).
Veja a descricao dos dados em help(iris).
Use a funcao cor.test() para testar a correlacao entre o comprimento de sepalas e
petalas.

CE-002: Estatstica I

58

Exerccios sobre intervalos de confianca

7.1

Exerccios de Bussab & Morettin (2003)

Os exerccios a seguir foram retirados do Captulo 9 de:


Bussab, W.O. & Morettin, P. (1987) Estatstica B
asica. 4a ed. Atual.
1. Obtenha a distribuicao de p quando p = 0, 2 e n = 5. Depois calcule E(
p) e V ar(
p).
2. Calcule o intervalo de confianca para a media de uma N (, 2 ) em cada um dos casos:
Media
Tamanho Desvio Padrao Coeficiente
Amostral da amostra da Populacao de Confianca
170 cm
100
15 cm
95%
165 cm
184
30 cm
85%
180 cm
225
30 cm
70%

3. De 50.000 valvulas fabricadas por uma companhia retira-se uma amostra de 400 valvulas,
e obtem a vida media de 800 horas e o desvio padrao de 100 horas.
(a) Qual o intervalo de confianca de 99% para a vida media da populacao?
(b) Com que intervalo dir-se-ia que a vida media e 800 0, 98?
(c) Que tamanho deve ter a amostra para que seja de 95% a confianca na estimativa
800 7, 84?
(Que suposicao voce fez para responder `as questoes acima?)
4. Qual deve ser o tamanho de uma amostra cujo desvio padrao e 10 para que a diferenca
da media amostral para a media da populacao, em valor absoluto, seja menor que 1, com
coeficiente de confianca igual a:
(a) 95% (b) 99%
5. Considere uma amostra de uma distribuicao normal com desvio padrao igual a 10.
(a) Que tamanho deve ter uma amostra para que, com probabilidade 8%, o erro em
estimar a media seja superior a uma unidade?
(b) Supondo-se colhida a amostra no caso anterior, qual o intervalo de confianca, se
x = 50?
6. Uma amostra aleatoria de 625 donas de casa revela que 70% delas preferem a marca A de
detergente. Construir um intervalo de confianca para p = proporcao das donas de casas
que preferem A com coeficiente de confianca = 90%.
7. Encontre os intervalos de confiancas para p se k/n = 0, 3, com coeficiente de confianca
= 95%, com n = 400.
8. Antes de uma eleicao, um determinado partido esta interessado em estimar a proporcao
p de eleitores favoraveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou
que 60% dos eleitores eram favoraveis ao candidato em questao.

CE-002: Estatstica I

59

(a) Determine o tamanho da amostra necessario para que o erro cometido na estimacao
seja de, no maximo, 0,01 com probabilidade de 80%.
(b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55%
dos eleitores eram favoraveis ao candidato em questao, construa um intervalo de
confianca para a proporcao p. Utilize = 95%.
9. Suponha que estejamos interessados em estimar a porcentagem de consumidores de certo
produto. Se a amostra de tamanho 300 forneceu 100 indivduos que consomem o dado
produto, determine:
(a) o intervalo de confianca de p, com coeficiente de confianca de 95% (interprete o
resultado);
(b) o tamanho da amostra para que o erro da estimativa nao exceda a 0,02 unidades
com probabilidade de 95% (interprete o resultado).
10. De experiencias passadas, sabe-se que o desvio padrao da altura de criancas da 5a serie
do 1o grau e 5 cm.
(a) Colhendo uma amostra de 36 dessas criancas, observou-se a media de 150 cm. Qual
o intervalo de confianca de 95% para a media populacional?
(b) Que tamanho deve ter uma amostra par que o intervalo 150 0, 98 tenha 95% de
confianca?
11. Um pesquisador esta estudando a resistencia de um determinado material sob eterminadas
condicoes. Ele sabe que essa variavel e normalmente distribuda com desvio padrao de
duas unidades.
(a) Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de
uma amostra de tamanho 9, determine o intervalo de confianca para a resistencia
media com um coeficiente de confianca = 0, 90.
(b) Qual o tamanho da amostra necessaria para que o erro cometido, ao estimarmos a
resistencia media, nao fosse superior a 0,01 unidade com probabilidade 0,90?
(c) Suponha que o item(a) nao fosse conhecido o desvio padrao. Como voce procederia
para determinar o intervalo e confianca, e que suposicoes voce faria para isso?
12. Estime o salario medio dos empregados de uma ind
ustria textil, sabendo-se que uma
amostra de 100 indivduos apresentou os seguintes resultados:
Salario
Frequencia
150, 00| 250, 00
8
250, 00| 350, 00
22
350, 00| 450, 00
38
450, 00| 550, 00
2
650, 00| 750, 00
2
Use = 0, 95.
13. Numa pesquisa de mercado para estudar a preferencia da populacao de uma cidade em
relacao a um determinado produto, colheu-se uma amostra aleatoria de 300 indivduos,
dos quais 180 preferiam esse produto.

CE-002: Estatstica I

60

(a) Determine um intervalo de confianca para a proporcao da populacao que prefere o


produto em estudo; tome = 0, 95.
(b) Determine a probabilidade de que a estimativa pontual dessa proporcao nao difira
do verdadeiro valor em mais de 0,001.
possvel obter uma estimativa pontual dessa proporcao que nao difira do valor
(c) E
verdadeiro em mais de 0,0005 com probabilidade 0,95? Caso contrario, determine o
que deve ser feito.
14. Uma amostra de 10.000 itens de um lote de producao foi inspicionada, e o n
umero de
defeituos por item foi registrado na tabela a seguir.
No de defeitos
0
1
2
3
4
Quantidade de pecas 6.000 3.200 600 150 50
(a) Determine os limites de confianca para a proporcao de itens defeituosos na populacao,
z()
z()
com coeficientes de 98%. Use p
p p +
.
4n
4n
(b) Mesmo problema, usando p z() p p + z()
pq/n

pq/n

15. Antes de uma eleicao em que existiam dois candidatos, A e B, foi feita uma pesquisa
com 400 eleitores escolhidos ao acaso, e verificou-se que 208 deles pretendiam votar no
candidato A. Construa um intervalo de confianca, com c.c. = 0, 95, para a porcentagem
de eleitores favoraveis ao candidato A na epoca das eleicoes.
16. Encontre o c.c. de um intervalo de confianca para p, se n = 100, p = 0, 6 e a amplitude
do intervalo deve ser igual a 0,090.
17. Estao sendo estudado dois processos para conservar alimentos, cuja principal variavel de
interesse e o tempo de duracao destes. No processo A, o tempo X de duracao segue a
distribuicao N (A , 100), e no processo B o tempo Y obdece `a distrbuicao N (B , 100).
Sorteiam-se duas amostras independentes: a com A, com 16 latas, apresentou tempo
medio de duracao igual a 50, e a de B, com 25 latas, duracao media igual a 60.
(a) Construa um IC para A e B , separadamente.
(b) Para verificar se os dois processos podem ter o mesmo desempenho, decidiu-se construir um IC para a diferenca A B . Caso o zero pertenca ao intervalo, pode-se
concluir que existe evidencia de igualdade dos processos. Qual seria sua resposta?
18. Numa pesquisa sobre a opiniao dos moradores de duas cidades, A e B, com relacao a um
determinado projeto, obteve-se:
Cidade
No de entrevistados
No de favoraveis

A
B
400 600
180 350

Construa um IC para a diferenca de proporcoes de opinioes nas duas cidades

CE-002: Estatstica I

7.2

61

Exerccios de Magalh
aes & Lima (2005)

Os exerccios a seguir foram retirados das paginas 234-242 de:


Magalhaes, M.N. & Lima, A.C.P. (2005) Noc
oes de Probabilidade e Estatstica. 6a ed.
revisada. EDUSP. (Clique aqui para ver o site do livro)
1. Uma amostra de 25 observacoes de uma Normal(, 16) foi coletada e forneceu uma media
amostral de 8. Construa intervalos de confianca a 80%, 85%, 90% e 95% para a media
populacional. Comente as diferencas encontradas.
2. Sera coletada uma amostra de uma populacao Normal com desvio padrao igual a 9. Para
confianca de = 0.90, determine a amplitude do intervalo de confianca para a media
populacional nos casos em em o tamanha da amostra e 30, 50 ou 100. Comente as
diferencas.
3. Uma amostra em 100 cidades brasileiras, de ate 20 mil habitantes, indicou que o valor
medio da hora aula para professores do ensino fundamental em escolas municipais e de
R$2,5. Obtenha um intervalo de confianca para o valor medio nacional da hora aula em
cidades do tipo mencionado. Baseado em estudos anteriores o desvio padrao assumido
deve ser igual a R$1,10. Use = 0.95
4. Numa pesquisa com 50 eleitores o candidato Jose Joao obteve uma proporcao de 0,34
da preferencia dos eleitores. Construa, para confianca de 94%, os intervalos otimista e
conservador de confianca para a proporcao de votos a serem recebidos pelo candidato
mencionado, supondo que a eleicao fosse neste momento.
5. Numa pesquisa de mercado, desejamos estimar a proporcao de pessoas que compram o
sabonete Bom-Cheiro.
(a) Que tamanho de amostra devemos colher para que, com probabilidade 0,9; a proporcao amostral nao se desvie do verdadeiro valor por mais de 0,05?
(b) Se tivermos a informacao adicional de que a aceitacao do sabonete Bom-Cheiro e no
mnimo 0,8, qual deve ser entao o tamanho da amostra?
(c) Decidimos colher uma amostra de tamanho 81. Qual o erro maximo que cometemos
com probabilidade 0.90 ?
(d) Para uma amostra de tamanho 81, qual a probabilidade de que o erro maximo seja
0,08?

CE-002: Estatstica I

62

Exerccios sobre testes de hip


otese

8.1

Exerccios de Bussab & Morettin (2003)

1. Para decidirmos se os habitantes de uma ilha sao descendentes da civilizacao A ou B,


iremos proceder do seguinte modo:
i selecionamos uma amostra de 100 moradores adultos da ilha, e determinamos a
altura media deles;
ii se essa altura media for superior a 176, diremos que sao descendentes de B; caso
contrario, sao descendentes de A.
Os parametros das alturas das duas civilizacao sao:
A: = 175 e = 10;
B: = 177 e = 10
Definimos:
Erro I: dizer que os habitantes da ilha sao descendentes de B quando, na realidade, sao de
A.
Erro II: dizer que sao de A quando, na realidade, sao de B.
(a) Qual a probabilidade do erro de tipo I? E do erro de tipo II?
(b) Qual deve ser a regra de decisao se quisermos fixar a probabilidade do erro de tipo I
em 5%? Qual a probabilidade do erro de tipo II, nesse caso?
(c) se A = 5, como ficariam as respostas de (b)?
(d) Quais as probabilidades do erro de tipo II, nas condicoes da questao (b), se a
media B = 178? E B = 180? E B = 181? Coloque num grafico os pares
(B , P (erroII|B )).
2. Nas situacoes abaixo, escolha como hipotese nula, H0 , aquela que para voce leva a um
erro tipo I mais importante. Descreva quais os dois erros em cada caso.
(a) O trabalho de um operador de radar e detectar aeronaves inimigas.Quando surge
alguma coisa estranha na tela, ele deve decidir entre as hipoteses:
1. esta comecando um ataque;
2. tudo bem, apenas uma leve interferencia.
(b) Num j
uri, um indivduo esta sendo julgado por um crime. As hipoteses sujeitas ao
j
uri sao:
1. o acusado e inocente;
2. o acusado e culpado.
(c) Um pesquisador acredita que descobriu uma vacina contra refriado. Ele ira conduzir
uma pesquisa de laboratorio para vereficar a veracidade da afirmacao. De acordo
com o resultado, ele lancara ou nao a vacina no mercado. As hipoteses que pode
testar sao:
1. a vacina e eficaz;
2. a vacina nao e eficaz.

CE-002: Estatstica I

63

3. A variavel X, custo de manuntencao de um tear, pode ser considerada como tendo distribuicao normal de media e desvio padrao 20 unidades. Os valores possveis de
podem ser 200 ou 210. Para verifiar qual dos dois valores e o mais provavel, usar-se-a
uma amostra de 25 teares. Defina:
(a) Uma hipotese a ser testada.
(b) Uma regra de decisao e encontre as probabilidades dos erros de tipo I e II.
4. Sabe-se que o consumo mensal per capita de um produto tem distribuicao normal, com
desvio padrao 2 kg. A diretoria de uma firma que fabrica esse produto resolveu que
retiraria o produto da linha de producao se a media de consumo per capita fosse menor
que 8 kg. Caso contrario, continuaria a fabrica-lo. Foi realizadaP
uma pesquisa de mercado,
tomando-se uma amostra de 25 indivduos, e verificou-se que 25
i=1 Xi = 180kg, onde Xi
representa o consumo mensal do i-esimo indivduo da amostra.
(a) Construa um teste de hipotese adquado, utilizando = 0, 05, e com base na amostra
colhida determine a decisao a ser tomada pela diretoria.
(b) Qual a probabilidade de se tomar uma decisao errada se, na realidade, a media
populacional for = 7, 8 kg.
(c) Se a diretoria tivesse fixado = 0, 01, a decisao seria a mesma? (Justifique sua
resposta.)
(d) Se o desvio da populacao fosse 4kg, qual seria a decisao, com = 0, 05? (Justifique
sua resposta.)
5. A associacao dos proprietarios de ind
ustrias metal
urgicas esta muito preocupada com
o tempo perdido com acidentes de trabalho, cuja media, nos u
ltimos tempos, tem sido
da ordem de 60 horas/homem por ano e desvio padrao de 20 horas/homem. Tentou-se
um programa de prevencao de acidentes, apos o qual foi tomada uma amostra de nove
ind
ustrias e medido o n
umero de horas/homens perdidas por acientes, que foi de 50 horas.
Voce diria, no nvel de 5%, que ha evidencia de melhoria?
6. O salario medio dos empregados das ind
ustrias sider
urgicas e de 2,5 salarios mnimos,
com um desvio padrao de 0,5 salarios mnimos. Se uma firma particular emprega 49
empregados com um salario medio de 2,3 salarios menimos, podemos afirmar que essa
ind
ustria paga salarios inferiores, ao nvel de 5%?
7. Uma companhia de cigarros anuncia que o ndice medio de nicotina dos cigarros que
fabrica apresenta-se abaixo de 23 mg por cigarro. Um laboratorio realiza 6 analises
desses ndices, obtendo: 27, 24, 21, 25, 26, 22. Sabe-se que o ndice de nicotina se
distribui normalmente, com variancia igual a 486mg 2 . Pode-se aceitar, no nvel de 10%,
a afirmacao do fabricante?
8. Uma pessoa gaba-se de advinhar qual sera o resultado do lance de uma moeda, mas e
preciso que os presentes nao o pertubem com pensamentos duvidosos. Para testar tal
capacidade, lancou uma moeda perfeita 6 vezes, e o advinhador acertou 5. Qual seria sua
conclusao?
9. O consumidor de um certo produto acusou o fabricante, dizendo que mais de 20% das
unidades fabricadas apresentam defeito. Para confirmar sua acusacao, ele usou uma
amostra de tamanho 50, onde 27% das pecas eram defeituosas. Mostre como o fabricante
poderia refutar a acusacao. Utilize um nvel de significancia de 10%.

CE-002: Estatstica I

64

10. Um fabricante garante que 90% dos equipamentos que fornece a uma fabrica estao de
acordo com as especificacoes exigidas. O exame de uma amostra de 200 pecas desse
equipamento revelou 25 defeituosas. Teste a afirmativa, nos nveis de 5% e 1%.
11. Os produtores de um programa de televisao pretendem modifica-lo se for assistido regularmente por menos de um quarto dos possuidores de televisao. Uma pesquisa encomendada
a uma empresa especializada mostrou que, de 400 famlias entrevistadas, 80 assistem ao
programa regularmente. Com base nos dados, qual deve ser a decisao dos produtores?
12. O tempo medio, por operario, para executar uma tarefa, tem sido 100 minutos, com um
desvio padrao de 15 minutos. Introduziu-se uma modificacao para diminuir esse tempo,
e apos certo perodo, sorteou-se uma amostra de 16 oeprarios, medindo-se o tempo de
execucao de cada um. O tempo medio da amostra foi 85 minutos, e o desvio padrao foi
12 minutos. Estes resultados trazem evidencia estatsticas da melhora desejada?Em caso
afirmativo, estime o novo tempo medio de execucao. (Apresente as suposicoes teoricas
usadas para resolver o problema.)
13. A precipitacao pluviometrica anual numa certa tem desvio padrao = 3, 1 e media
desconhecida. Para os u
ltimos 9 anos, foram obtidos os seguintes resultados: 30,5; 34,1;
27,9; 35,0; 26,9; 30,2; 28,3; 31,7; 25,8.
(a) Construa um teste de hipotese para saber se a media da precipitacao pluviometrica
anual e maior que 30,0 unidades. Utilize um nvel de significancia de 5%.
(b) Discuta o mesmo problema, considerando desconhecido.
(c) Supondo que, na realidade, = 33, 0, qual a probabilidade de tirarmos uma conclusao errada?
14. Uma fabrica de automoveis anuncia que seus carros consomem, em media, 11 litros por
100 km, com desvio padrao de 0,8 litros. Uma revista resolve testar essa afirmacao e
analisa 35 automoveis dessa marca, obtendo 11,3 litros por 100 km como consumo medio
(considerar distribucao normal). O que a revista pode concluir sobre o an
uncio da fabrica,
ao nvel de 10%?
15. Duas maquinas, A e B, sao usadas para empacotar po de cafe. A experiencia passada
garante que o desvio padrao para ambas e de 10 g. Porem, suspeita-se que elas tem
medias diferentes. Para verificar, sortearam-se duas amostras: uma com 25 pacotes da
maquina A e outra com 16 pacotes da maquina B. As medias foram, respectivamente,
xA = 502, 74g e xB = 496, 60g. Com esses n
umeros, e com o nvel de 5%, qual seria a
coclusao do teste H0 : A = B ?
16. O n
umero medio diario de clientes de um posto de gasolina tem sido 250, com um desvio
padrao de 80 clientes. Durante uma campanha de 25 dias, em que os clientes recebiam
um brinde, o n
umero medio de clientes foi 280, com um desvio padrao de 50. Voce diria
que a campanha modificou a distribuicao do n
umero de clientes do posto? Descreva as
suposicoes feitas para a resolucao do problema.
17. A porcentagem media da receita municipal dos quase 600 municpios de um estado tem
sido 7%. O governo pretende melhorar esse ndice e, para isso, esta estudando alguns
incentivos. Para verificar os efeitos desses incentivos, sorteou 10 cidades e estudou quais
seriam as porcentagem investigadas neles. Os resultados foram: 8, 10, 9, 11, 8, 12, 16, 9,
12, 13.

CE-002: Estatstica I

65

Admitindo-se que esses n


umeros realmente venham a ocorrer, os dados trazem evidencia
de melhoria? Caso altere a media do estado, de um intervalo de confianca para a nova
media.
18. A prefeitura de uma cidade quer estimar a proporcao p dos moradores favoraveis `a mudanca do horario comercial, com o intuito de economizar combustvel. Essa proporcao
devera ser estimada com um erro maximo de 5%, a um nvel de 90% de confianca.
(a) Que tamaho devera ter a amostra se a proporcao p esperada deve estar entre 20% e
50%? (Justifique a resposta).
(b) Numa amostra de 400 moradores, 160 foram favoraveis `a mudanca; qual seria o
intervalo de confianca para p, nesse caso, com = 0, 95?
19. Numa pesquisa realizada com 2.000 propetarios de carros na cidade de Sao Paulo, 800
responderam que pretendem mudar de carro no decorrer do proximo ano. De um IC de
90% para a proporcao de todos os propetarios de carros de Sao Paulo que pretendem
mudar de carro no proximo ano.
20. Um fabricante de um certo tipo de aco especial afirma que seu produto tem um severo
servico de controle de qualidade, traduzido pelo desvio padrao da resistencia `a tensao,
que nao e maior do que 5 kg por cm2 . Um comprador, querendo verificar a veracidade
da afirmacao, tomou uma amostra de 11 cabos e submeteu-a a um teste de tensao. Os
resultados foram os seguintes: x = 263 e s2 = 48. Estes resultados trazem alguma
evidencia contra a afirmacao do fabricante? Use = 0, 05.
21. Um escritorio de investimento acredita que o rendimento das diversas acoes movimentadas por ele foi de 24%. Mais ainda, a nova estrategia definida deve garantir uma maior
uniformidade nos rendimentos das diversas acoes. No passado, o desvio padrao do rendimento era da ordem de 5%. Para verificar as duas hipoteses, tomaram-se 8 empresas ao
acaso, obtendo -se os seguintes rendimentos (dados em %): 23,6; 22,8; 25,7; 24,8; 26,4,
24,3; 23,9 e 25. Quais seriam as conclusoes?
22. Num estudo comparativo do tempo medio de adaptacao, um amostra aleatoria, de 50
homens e 50 mulheres de um grande complexo industrial, produziu os seguintes resultados:

Estatstica
Homens Mulheres
Medias
3,2 anos 3,7 anos
Desvios padroes 0,8 anos 0,9 anos
Que conclusoes voce poderia tirar para a populacao de homens e mulheres dessa ind
ustria?
(Indique as suposicoes feitas para resolver o problema.)
23. Diversas polticas em relacao `as filiais de uma rede de supermercados estao associados ao
gasto medio dos clientes em cada compra. Deseja-se comparar esse parametro para duas
novas filiais, por meio de duas amostras de 50 clientes cada. As medias obtidas foram 62 e
71, respectivamente. Sabe-se que o desvio padrao, em ambos os casos, deve ser da ordem
possvel afirmar que o gasto medio nas duas filiais seja o mesmo? Caso
de 20 unidades. E
contrario, de um intervalo de cobranca para a diferenca.

CE-002: Estatstica I

66

24. Uma fabrica de embalagens para produtos qumicos esta estudando dois processos para
combater a corrosao de suas latas especiais. Para verificar o efeito dos tratamentos, foram
usadas amostras cujos resultados estao no quadro abaixo (em porcentagem de corrosao
eleminada). Qual seria a conclusao sobre os dois tratamento?

Metodo Amostra Media Desvio Padrao


A
15
48
10
B
12
52
15
25. Para investigar a influencia da opcao profissional sobre o salario incial de recem-formados,
investigaram-se dois grupos de profissionais: um de liberais em geral e outro de formandos em Administracao de Empresas. Com os resultados abaixo, expressos em salarios
mnimos, quais seriam suas conclusoes?

Liberais
6,6 10,3 10,8 12,9 9,2 12,3 7,0
Administradores 8,1 9,8 8,7 10,0 10,2 8,2 8,7 10,1
26. Para verificar a importancia de um cartaz nas compras de certo produto, procedeu-se da
seguinte modo:

(a) formaram-se sete pares de lojas;


(b) os pares foram formados de modo que tivessem as mesmas caractersticas quanto `a
localizacao, ao tamanho e ao volume de vendas;
(c) num dos elementos do par, colocou-se o cartaz; no outro, nao;
(d) as vendas semanais foram registradas, e os resultados estao a seguir.
Qual seria a sua conclusao sobre a eficiencia do cartaz? Use o teste t, fazendo as
suposicoes necessarias.
Vendas
Pares Sem cartaz com cartaz
1
13
16
2
18
24
14
18
3
4
16
14
5
19
26
6
12
17
22
29
7
27. Os dados abaixo refere-se a medidas de determinada variavel em 19 pessoas antes e depois
de uma cirurgia. Verifique se as medidas pre e pos-operatorias apresentam a mesma media.
Que suposicoes voce faria para resolver o problema?

CE-002: Estatstica I

67
Pessoas
1
2
3
4
5
6
7
8
9
10

Pre
50,0
50,0
50,0
87,5
32,5
35,0
40,0
45,0
62,5

Pos Pessoas
42,0
10
42,0
11
78,0
12
33,0
13
96,0
14
82,0
15
44,0
16
31,0
17
87,0
18
19

Pre
40,0
50,0
75,0
92,5
38,0
46,5
50,0
30,0
35,0
39,4

Pos
50,0
48,0
52,0
74,0
47,5
49,0
58,0
42,0
60,0
28,0

28. Uma empresa deseja estudar o efeito de uma pausa de dez minutos para um cafezinho
sobre a produtividade de seus trabalhadores. Para isso, sorteou seis operarios, e contou
o n
umero de pecas produzidas durante uma semana sem interavalo e uma semana com
intervalo. Os resultados sugerem se ha ou nao melhora na produtividade? Caso haja
melhora, qual deve ser o acrescimo medio de producao para todos os trabalhadores da
fabrica?
Operario
1 2 3 4 5 6
Sem intervalo 23 35 29 33 43 32
Com intervalo 28 38 29 37 42 30
29. Numa ind
ustria deseja-se testar se a produtividade media dos operarios do perodo diurno
e igual `a produtividade media dos operarios do perodo noturno. Para isso, colheram-se
duas amostras, uma de cada perodo, observando-se a producao de cada operario. Os
resultados obtidos forma os seguintes:
n
Diurno 15
Noturno 15

xi
180
150

x2i
2.660
2.980

De acordo com esses resultados, quais seriam suas conclusoes?


30. Num levantamento feito com os operarios da ind
ustria mecanica, chegou-se aos seguintes
n
umeros: salario medio = 3,64 salarios mnimos e desvio padrao = 0,85 salario mnimo.
Supeita-se que os salarios de subclasse formada pelos torneiros mecanicos sao diferentes
dos salarios do conjunto todo, tanto na media como na variancia. Que conclusoes voce
obteria se uma amostra de 25 torneiros apresentasse salario medio igual a 4,22 salarios
mnimos e desvio padrao igual a 1,25 salario mnimo?
31. Deseja-se testar se dois tipos de ensino profissional sao igualmente eficazes. Para isso,
sortearam-se duas amostras de operarios; a cada uma, deu-se um dos tipos de treinamento
e, no final, submeteram-se os dois grupos a um mesmo teste. Que tipo de conclusao voce
poderia tirar, baseando-se nos resultados abaixo?
Amostra No de elementos Media Desvio Padrao
Tipo I
12
75
5
Tipo II
10
74
10

CE-002: Estatstica I

68

32. A torrefacao Guarany esta querendo comprar uma nova ensacadora de cafe. Apos consultar o mercado, ficou indecisa entre comprar da marca A ou a de marca B. Quanto ao
custo, facilidade de pagamento, tamanho, etc. elas sao equivalentes. O fator que decidira a
compra sera a precisao em encher os pacotes (medido pela variancia). Deseja-se construir
regioes crticas bilaterais, unilaterias `a direita ou `a esquerda, dependendo do objetivo.
Indique qual seria a regiao crtica mais favoravel `as sequintes pessoas: (Justifique.)

(a) proprietario da torrefacao;


(b) fabricante de A; e
(c) fabricante de B.
33. Um medico deseja saber se uma certa droga reduz a pressao arterial media. Para isso,
mediu a pressao arterial em cinco voluntarios, antes e depois da ingestao da droga, obtendo os dados do quadro abaixo. Voce acha que existe evidencia estatstica de que a
droga realmente reduz a pressao arterial media? Que suposicoes voce fez para resolver o
problema?
Voluntario A B C D E
Antes
68 80 90 72 80
Depois
60 71 88 74 76
34. Um partido afirma que a porcentagem de votos masculinos a seu favor sera de 10 % a mais
do que a procentagem de votos femininos. Numa pesquisa feita entre 400 homens, 170
votariam no partido, enquanto entre 625 mulheres, 194 lhe seriam favoraveis. A afirmacao
do partido e verdaeira ou nao?
35. Uma amostra de 100 lampadas eletricas produzidas pela fabrica A indica uma vida media
de 1.190 horas, com desvio padrao de 90 horas. Uma amostra de 75 lampadas produzidas
pela fabrica B indica uma vida media de 1.230 horas, com desvio padrao de 120 horas.
Admitindo que as variancias populacionais sejam diferentes, voce acha que existe diferenca
entre as vidas medias populacionais das lampadas produzidas pelas fabricas A e B?
36. De 400 moradores sorteadados de uma grande cidade industrial, 300 sao favoraveis a um
projeto governamental, e de uma amostra de 160 moradores de uma cidade cuja principal
atividade e o turismo, 120 sao contra.

(a) Voce diria que a diferenca de opinioes nas duas cudades e estatisticamente significante?
(b) Qual seria o IC de 90% para a proporcao de favoraveis ao projeto nas duas cidades?
(Suponha que o n
umero de pessoas nas duas cidades seja aproximadamente igual.)
37. Para verificar o grau de adesao de uma nova cola para vidros, preparam-se dois tipos de
montagem: cruzado (A), onde a cola e posta em forma de X, e quadrado (B), onde a cola
e posta apenas nas quatro bordas. Os resultados da resistencia para as duas amostras de
10 cada estao abaixo. Que tipo de conclusao poderia ser tirada?
Metodo A
Metodo B

16 14 19 18 19 20 15 18 17 18
13 19 14 17 21 24 10 14 13 15

CE-002: Estatstica I

69

38. Um dado foi lancado 1.000 vezes com os seguintes resultados:


Ocorrencia 1
2
3
4
5
6
Frequencia 158 186 179 161 141 175
Teste a hpotese que o dado e babanceado.
39. Supoe-se que uma moeda favoreca cara, na proporcao de duas caras para tres coroas.
Para testar tal hipotese, lanca-se uma moeda quatro vezes, contando se o n
umero de
caras. Repete-se esse experimento 625 vezes. Os resultados estao na tabela abaixo. Esses
dados confirmam ou nao a suposicao?
Ocorrencia 0
1
1
3
4 Total
Frequencia 72 204 228 101 20 625
40. Suponha que tenhamos razoes para crer que as notas obtidas por estudantes de escolas
p
ublicas sejam menores que as notas obtidas por estudantes de escolas particulares, ao
tomarem o exame vestibular para uma Universidade. Para testar essa hipotese, foram
selecionadas duas amostras de estudantes que prestaram o vestibular, suas medias gerais
foram anotadas e obteve-se a tabela a seguir.
Escola
(0;2,5] (2,5;5,0] (5,0;7,5] (7,5;10,0] Total
P
ublica
15
22
18
3
58
Particular
6
10
20
6
42
Total
21
32
38
9
100
Teste a hipotese que as duas populacoes sao homogeneas, para o nvel de significancia de
= 0, 01. Obtenha o p-valor
.
41. Cem estudantes foram divididos em duas classes de 50 cada e o objetivo era testar um
novo metodo de ensinar Probabilidades. Uma classe recebeu um metodo tradicional e
a outra, o novo metodo. Apos o curso, foi pedido que os estudantes resolvessem um
problema tpico de probabilidades. Os resultados foram os seguintes:
Exerccio correto Exerccio errado
Metodo convencional
33
17
Metodo novo
37
13
Ha razoes para acreditar que o novo metodo e superior?
42. Duas novas drogas vao ser testadas em 160 pessoas portadora de rinite alergica. Metade
das pessoas recebe a droga A e a outra metade recebe a droga B. Obtem-se a tabela
abaixo. Teste a hipotese de que as duas drogas sao igulamente eficazes para tratar a
doenca.
Droga A
Droga B

Eficaz
55
48

Nao eficaz
25
32

43. Um produto novo e lancado por uma empresa, e, para verificar a sua aceitacao, dois
grupos de pessoas sao consultados. De 100 pessoas da cidade A, 32 gostaram do produto
e, de 50 pessoas da cidade B, 12 gostram do produto. Ha evidencia que o produto seja
igualmente aceito nas duas cidades?

CE-002: Estatstica I

70

Sobre este texto


Este material e produzido e disponibilizado usando exclusivamente recursos de SOFTWARE LIVRE
O texto foi editado em LATEX e combinado com codigo R usando o recurso do Sweave
A versao para WEB foi obtida convertendo o documento LATEXpara xhtml usando o
TeX4ht. A opcao de conversao utilizada produz documentos em formato .xml que utilizam
mathml para impressao de formulas, equacoes e smbolos matematicos.
Para visualizacao pela WEB sugerimos o uso do browserMozilla Firefox
(http://www.mozilla.org/products/firefox/start/).
Este documento pode nao ser bem
visualizado em alguns browsersque nao possuam suporte a mathml.
Todo o material foi produzido em ambiente Debian-Linux (http://www.debian.org). A
pagina WEB e disponibilizada usando um servidor APACHE (http://www.apache.org) rodando
em um Debian-Linux.

Vous aimerez peut-être aussi