Vous êtes sur la page 1sur 90

Prof. Jerry A.

Johann

Estatstica Descritiva, Probabilidades e Inferncia

1. A NATUREZA DA ESTATSTICA
1.1.

INTRODUO

ESTATSTICA: ramo da matemtica aplicada.

ANTIGUIDADE: os povos j registravam o nmero de habitantes, nascimentos, bitos, faziam


estimativas das riquezas individuais e sociais, distribuam eqitativamente terras ao povo, cobravam
impostos e realizavam inquritos quantitativos por processos que, hoje, chamaramos de estatsticas

IDADE MDIA: as informaes eram tabuladas com finalidades tributrias e blicas. Destacam-se os
rabes (ano 721), com a coleta numrica das cidades dominadas, cmputo de suas populaes,
fbricas e de cada espcie de produto, para controle das conquistas territoriais.

SEC. XVI: surgem as primeiras anlises sistemticas de fatos sociais, como batizados, casamentos,
funerais, originando as primeiras tbuas e tabelas e os nmeros relativos.

SEC. XVII: Na Inglaterra surge a primeira investigao sobre Estatstica Demogrfica, descobrindo-se
atravs de estudos analticos propores entre os nascimentos e os adultos. Na Frana, Pierre Fermat
descobre o clculo das probabilidades e Adolphe Quetelet no sculo seguinte, aplica-o no estudo
demogrfico e social.

SEC. XVIII: a estatstica com feio cientfica batizada por Godofredo Achenwall. A Alemanha comea
a empregar a estatstica como disciplina autnoma e descreve o Estado considerando seu territrio, seu
governo e suas finanas. As tabelas tornam-se mais completas, surgem as primeiras representaes
grficas e os clculos de probabilidades. A estatstica deixa de ser uma simples catologao (tabulao)
de dados numricos para se tornar " o estudo de como se chegar a concluso sobre o todo (populao),
partindo da observao de partes dessa populao (amostras)".

Em 1853, com o Primeiro Congresso de Estatstica, Francis Galton propem o emprego da


Estatstica Metodolgica nos problemas de hereditariedade e James Clerk Maxwell emprega estatstica
na teoria cintica dos gases.

Atualmente, o pblico leigo (leitor de jornais e revistas) posiciona-se em dois extremos divergentes e
igualmente errneos quanto validade das concluses estatsticas: ou cr em sua infalibilidade ou
afirma que elas nada provam. Os que assim pensam ignoram os objetivos, o campo e o rigor do mtodo
estatstico; ignoram a Estatstica, quer terica quer prtica, ou a conhecem muito superficialmente.

Na era da energia nuclear, os estudos estatsticos tm avanado rapidamente e, com seus processos e
tcnicas, tm contribudo para a organizao dos negcios do mundo moderno.

1.2.

MTODO ESTATSTICO

Muitos dos conhecimentos que temos, foram obtidos por acaso e, outros por necessidades prticas,
sem aplicao de um mtodo. Sendo assim, a estatstica pode ser vista como uma Cincia ou um
Mtodo.

MTODO CIENTFICO: divide-se em experimental e estatstico.

MTODO EXPERIMENTAL: impe em cada experincia a exigncia de se conservar constante


todas as causas (fatores), menos uma, e variar esta causa de modo que o pesquisador possa
descobrir seus efeitos, caso existam. Ex: Estudos da Qumica, Fsica, Biologia, etc.

MTODO ESTATSTICO: diante da impossibilidade de manter os fatores constantes (nas cincias


sociais), admite-se todas elas variando, registra-se essas variaes e em seguida procura-se
determinar as influncias que cabem a cada uma delas, para que possamos chegar a uma
concluso.

Ex: Quais as causas que definem o preo de uma mercadoria quando a sua oferta diminui?
Seria impossvel, no momento da pesquisa, manter constantes a uniformidade dos salrios, o
gosto dos consumidores, nvel geral de preos de outros produtos, etc.

Os mtodos experimental e estatstico, tanto podem ser empregados juntos, como separadamente no
estudo de fenmenos.
1.3.

A ESTATSTICA

Estatstica um mtodo de estudo representativo e analtico dos elementos dos fenmenos que se
apresenta, em grande nmero, para sua subseqente interpretao.

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

uma parte da matemtica aplicada que fornece mtodos para coleta, organizao, descrio,
anlise e interpretao de dados e para a utilizao dos mesmos na tomada de decises.
A coleta, a organizao, a descrio dos dados, o clculo e a interpretao de coeficientes
estatsticos pertencem ESTATSTICA DESCRITIVA, enquanto a anlise e a interpretao dos dados,
associada a uma margem de incerteza, ficam a cargo da ESTATSTICA INDUTIVA ou INFERENCIAL,
tambm conhecida como a medida da incerteza ou mtodo que se fundamenta na teoria da probabilidade.
A ESTATSTICA DESCRITIVA tem por objetivo reduzir um universo de informaes, at o ponto em
que se possa interpret-las de forma mais clara. Trata-se, portanto, de um nmero resumo que possibilita
reduzir os dados a propores mais facilmente interpretveis. Entretanto, deve-se tomar cuidado pois
atravs deste procedimento, muita informao ir se perder, alm de ser provvel a obteno de resultados
distorcidos, a menos que eles sejam interpretados com muita precauo.
J a ESTATSTICA INFERENCIAL refere-se a um processo de generalizao a partir de resultados
particulares. Consiste em obter e generalizar concluses, ou seja, inferir propriedades para o todo com base
na parte, no particular.
1.4.

FASES DO MTODO ESTATSTICO

1 - DEFINIO DO PROBLEMA: Saber exatamente aquilo que se pretende pesquisar o mesmo que
definir corretamente o problema.
2 - PLANEJAMENTO: Como levantar informaes? Que dados devero ser obtidos? Qual levantamento a
ser utilizado? Censitrio? Por amostragem? E o cronograma de atividades? Os custos envolvidos ? etc.
3 - COLETA DE DADOS: Esta a fase operacional, onde com um objetivo determinado, registra-se de
forma sistemtica os dados.


Coleta Direta: quando obtida diretamente da fonte. Ex: Empresa que realiza uma pesquisa para
saber a preferncia dos consumidores pela sua marca.

A coleta direta pode ser: contnua, quando os registros so feitos continuamente (registros de
nascimento, bitos, casamentos, etc.), peridica, feita em intervalos constantes de tempo
(recenseamento demogrfico, censo industrial) e ocasional, quando feita de tal modo que no se
considera o tempo, a continuidade e nem periodicidade mas sim, o estudo de um fenmeno
especfico (registro de casos de dengue).

Coleta Indireta: Quando inferida de elementos conhecidos (coleta direta) e/ou do conhecimento de
outros fenmenos relacionados com o fenmeno estudado, ou seja feita por dedues, analogia,
indcios, avaliao (quando por estimativa se presume valores representativos de um fenmeno),
proporcionalizao (quando a partir dos dados de um fenmeno, chega-se a uma concluso completa
do resumo). Ex.: A pesquisa de mortalidade infantil feita atravs de dados colhidos por uma coleta
direta.

Dados primrios: quando so publicados pelo pesquisador ou organizao que os haja recolhido. Ex:
Tabelas do censo demogrfico do IBGE.

Dados secundrios: quando so publicados por pesquisador ou organizao que no coletou os


dados. Ex: Quando determinado jornal publica estatsticas referentes ao censo demogrfico extradas
do IBGE.

OBS: mais seguro trabalhar com fontes primrias. O uso da fonte secundria traz o grande risco de erros
de transcrio.
4 - APURAO DOS DADOS: Resumo dos dados atravs de sua contagem e agrupamento. a
condensao ou tabulao de dados segundo critrios de classificao.
5 - APRESENTAO DOS DADOS: H duas formas de apresentao, que no se excluem mutuamente.
A representao tabular, uma apresentao numrica dos dados em linhas e colunas distribudas de
modo ordenado, segundo regras prticas fixadas pelo Conselho Nacional de Estatstica. A representao
grfica dos dados constitui uma apresentao geomtrica, permitindo uma viso rpida e clara do
fenmeno.
6 - ANLISE E INTERPRETAO DOS DADOS: A ltima fase do trabalho estatstico a mais importante
e delicada. Est ligada essencialmente ao clculo de medidas e coeficientes cuja finalidade principal
descrever o fenmeno (estatstica descritiva). Na estatstica indutiva a interpretao dos dados se
fundamenta na teoria da probabilidade.

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

2. DEFINIES BSICAS DA ESTATSTICA


2.1.

FENMENO ESTATSTICO

qualquer evento que se pretenda analisar, cujo estudo seja passvel da aplicao do mtodo
estatstico.

2.2

DADO ESTATSTICO

um dado numrico que considerado a matria-prima sobre a qual iremos aplicar os mtodos
estatsticos.

2.3. POPULAO E UNIVERSO


Quando temos um conjunto de realizaes finitas, o conjunto total de elementos, portadores de pelo
menos uma caracterstica comum conhecido como populao. Caso estejamos trabalhando com
realizaes infinitas, este conjunto de elementos receber o nome de universo.

2.4.

PARMETROS

Quando definimos um parmetro, necessariamente deveremos estar examinando uma populao


ou um universo de dados. Os parmetros nada mais so do que caractersticas existentes na populao ou
universo que servem para caracteriz-la. Ex: Os alunos do 2 ano da Universidade XYZ tm em mdia 1,70
metros de estatura.

2.5.

AMOSTRA

uma parcela representativa da populao que ser examinada com o propsito de tirarmos
concluses sobre esta populao.

2.6.

ESTIMATIVA

Para que possamos estimar a caracterstica existente em uma populao, devemos fazer uso de
uma amostra representativa da populao. Assim sendo, estimativa o nome dado ao valor aproximado do
parmetro que calculado com o uso de amostras.

2.7.

ATRIBUTO

Quando os dados estatsticos apresentam um carter qualitativo, o levantamento e os estudos


necessrios ao tratamento desses dados so designados genericamente de estatstica de atributo.


Exemplo de classificao dicotmica do atributo: A classificao dos alunos da Universidade XYZ


quanto ao sexo:
atributo: sexo
classe: alunos da Universidade XYZ
dicotmica: duas subclasses (masculino e feminino)
Exemplo de classificao policotmica do atributo: Alunos da Universidade XYZ quanto ao seu estado
civil:
atributo: estado civil
classe: alunos da Universidade XYZ
policotmica: mais de duas subclasses (solteiro, casado, divorciado, vivo, etc.)

2.8.

VARIVEL
, convencionalmente, o conjunto de resultados possveis de um fenmeno.

Varivel Qualitativa: Quando seus valores so expressos por atributos e se dividem em:

Varivel Nominal: so variveis que nomeiam. Para estas variveis, a ordem no importante.
Ex.: sexo, cor da pele, rea de estudo, desempenho, raa, nacionalidade, religio, etc. .

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

Varivel Ordinal: so variveis que possuem com caracterstica fundamental a ordem dos dados.
Ex.: Grau de escolaridade, listas classificatrias, campeonatos, etc..

Varivel Quantitativa: Quando os dados so de carter nitidamente quantitativo, e o conjunto dos


resultados possui uma estrutura numrica, trata-se portanto da estatstica de varivel e se dividem em :

Varivel Discreta ou Descontnua: Seus valores so expressos geralmente atravs de nmeros


inteiros no negativos. Quando o dado provm de uma enumerao ou contagem. So
normalmente valores exatos. Ex: N de alunos presentes s aulas de estatstica no 1 semestre de
2000: mar=18 , abr=30 , mai=35 , jun=36;

Varivel Contnua: Resulta normalmente de uma mensurao. A escala numrica de seus


possveis valores corresponde ao conjunto R dos nmeros Reais, ou seja, podem assumir,
teoricamente, qualquer valor entre dois limites. Ex.1: Peso de 100 estudantes universitrios.
Em resumo temos:
Qualitativas

Nominais
Ordinais

Variveis
Quantitativas

Discretas
Contnuas

EXERCCIO - Classifique as variveis em qualitativas ou quantitativas (contnuas ou discretas):




Cor dos olhos das alunas... R: qualitativa

ndice de liquidez de uma determinada indstria... R: quantitativa, contnua

Produo de caf no Brasil... R: quantitativa, contnua

Nmero de defeitos em aparelhos de TV... R: quantitativa, discreta

Comprimento dos pregos produzidos por uma empresa... R: quantitativa, contnua

O ponto obtido em cada jogada de um dado... R: quantitativa, discreta

3. TABELAS, SRIES ESTATSTICAS E GRFICOS


Um dos objetivos da estatstica sintetizar os valores que uma ou mais variveis podem assumir,
para que tenhamos uma viso global da variao dessa ou dessas variveis. Isto pode ser conseguido
apresentando esses valores em tabelas ou grficos, os quais iro nos fornecer rpidas e seguras
informaes a respeito das variveis em estudo, permitindo-nos determinaes administrativas,
pedaggicas mais coerentes e cientficas.

3.1.

REPRESENTAO TABULAR

definido como um quadro, que resume um conjunto de dados dispostos segundo linhas e colunas
de maneira sistemtica. Existem algumas normas para a construo de tabelas, e estas tm por finalidade
preservar os resultados de forma a no direcionar leituras ou interpretaes errneas. Um dos rgos que
rege estas normas a fundao IBGE, que atravs da resoluo 886, definiu algumas caractersticas para
as casas ou clulas de uma tabela. Vejamos:


um trao horizontal ( - ) quando o valor zero, no s quanto natureza das coisas, como quanto ao
resultado do inqurito;

trs pontos (...) quando no temos os dados;

zero ( 0 ) quando o valor muito pequeno para ser expresso pela unidade utilizada;

um ponto de interrogao ( ? ) quando temos dvida quanto exatido de um determinado valor.


De forma geral, uma tabela compe-se de:

corpo: conjunto de linhas e colunas que contm informaes sobre a varivel em estudo;

cabealho: parte superior da tabela que especfica o contedo das colunas;

coluna Indicadora: especfica o contedo das linhas;

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

casa ou Clula: espao destinado a um s nmero;

ttulo: localizado no topo da tabela, deve ser completa e responder as seguintes perguntas: O qu?
Quando? Onde?

Fonte, Notas e Chamadas: elementos complementares que devem ser colocados no rodap
(Fonte:IBGE);

O lado direito e esquerdo de uma tabela oficial deve ser aberto.


Vejamos no exemplo abaixo:

PRODUO DE CAF NO BRASIL DE 1991 1995


Cabealho

ANOS

PRODUO (1000 ton)

Coluna
Indicadora

1991

2535

1992

2666

Corpo

1993

2122

1994

3750

1995

2007

Total

13080

Rodap

Ttulo
Coluna Numrica

Casa ou Clula

Fonte: IBGE

3.1.1.

Sries Estatsticas

Uma srie estatstica define-se como toda e qualquer coleo de dados estatsticos, que depois de
coletados so colocados em srie e apresentados em quadros ou tabelas.
Para diferenciar uma srie estatstica de outra, h de se levar em conta trs caractersticas:
A poca (fator temporal ou cronolgico) a que se refere o fenmeno analisado;
O local (fato espacial ou geogrfico) onde o fenmeno acontece;
O fenmeno (espcie de fato ou fator especificativo) que descrito.
As sries estatsticas podem ser de quatro tipos conforme cada um destes fatores. Entretanto se
costuma dividi-las em trs grupos: as sries homgradas, as hetergradas e as conjugadas.





3.1.1.1.

Sries Homgradas

So aquelas onde a varivel apresenta variao discreta (resultante de contagens) ou descontinua.


Podem ser do tipo temporal, geogrfica ou especfica.


Temporal: tambm chamada de histrica, cronolgica, evolutiva, marcha, tem como carter varivel o
fator cronolgico (tempo). O local e a espcie (fenmeno) so fixos ao passo que a poca varivel.
VENDAS DA ABC VECULOS EM 1999
PERODO
UNIDADES VENDIDAS *
Janeiro
20
Fevereiro
10
TOTAL
30
Fonte: dados fictcios
Nota: * Em mil unidades
 Geogrfica: conhecida tambm como territorial, espacial, de localizao, apresenta como carter
varivel somente o fator geogrfico (local). J a poca e o fenmeno neste caso so fixos.
VENDAS DA ABC VECULOS EM 1999
FILIAIS
UNIDADES VENDIDAS *
So Paulo
13
Rio de Janeiro
17
TOTAL
30
Fonte: dados fictcios
Nota: * Em mil unidades

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

Especfica: ou categrica, apresenta como carter varivel o fenmeno (fato ou espcie). Sendo assim,
prevalecem como elementos fixos a poca e o local.
VENDAS DA ABC VECULOS EM 1999
MARCA
UNIDADES VENDIDAS *
FIAT
18
GM
12
TOTAL
30
Fonte: dados fictcios
Nota: * Em mil unidades
3.1.1.2.

Sries Conjugadas

So tambm chamadas de tabelas de dupla entrada. So apropriadas apresentao de duas ou


mais sries de maneira conjugada, havendo duas ordens de classificao: uma horizontal e outra vertical. O
exemplo abaixo de uma srie geogrfica-temporal.
VENDAS DA ABC VECULOS EM 1999
Filiais \ Perodo*
Janeiro
Fevereiro
Total
13
So Paulo
10
3
17
Rio de Janeiro
10
7
Total
20
10
30
Fonte: dados fictcios
Nota: * Em mil unidades
3.1.1.3.

Sries Hetergradas

aquela na qual o fenmeno ou fato apresenta gradaes, subdivises. Embora fixo, o fenmeno
varia em intensidade. A distribuio de freqncia ou seriao um exemplo disso e ser estudado
separadamente com mais detalhe frente.


Distribuio de freqncia: todos os elementos poca, local e fenmeno so fixos. Embora fixo, o
fenmeno apresenta-se agora atravs de gradaes, ou seja, reunidos de acordo com a sua magnitude.
REPRESENTAO GRFICA

3.2.

A apresentao grfica um complemento importante da apresentao tabular e tem como


vantagem o fato de permitir que se consiga uma visualizao imediata da distribuio dos valores
observados.
Para a construo grfica, tambm existem normas. Os principais requisitos na confeco de
grficos so a simplicidade, clareza, veracidade. A construo grfica em eixos cartesianos deve seguir as
seguintes especificidades:


Largura: Ser definida por quem est fazendo o grfico. Recomenda-se espaamentos entre colunas
de at 50% da largura da coluna.

Altura: A altura deve ter, em mdia, 75% da largura. Para facilitar o trabalho, existe uma tabela que
representa os valores mnimo e mximo da altura em relao largura.

3.2.1.

Classificao dos grficos segundo o objetivo ou uso:

Grficos de informao: so destinados, principalmente ao pblico em geral, objetivando proporcionar


uma visualizao rpida e clara do fenmeno. So grficos tipicamente expositivos, dispensando
comentrios explicativos adicionais. As legendas podem ser omitidas, desde que as informaes
desejadas estejam presentes.

Grficos de anlise: so grficos que se prestam melhor ao trabalho estatstico, fornecendo elementos
teis fase de anlise dos dados, sem deixar de ser tambm informativos. Os grficos de anlise
freqentemente vm acompanhados de uma tabela estatstica. Inclui-se, muitas vezes um texto
explicativo, chamando a ateno do leitor para os pontos principais revelados pelo grfico.

O uso indevido de grficos pode trazer uma idia falsa dos dados que esto sendo analisados,
chegando mesmo a confundir o leitor. Trata-se, na realidade, de um problema de construo do grfico.
Sendo assim, deve-se tomar cuidado com o uso de escalas e sistemas de coordenadas. Como
caracterstica, os grficos devem ser apresentados de forma simples, clara e com veracidade.

Prof. Jerry A. Johann

3.2.2.

Estatstica Descritiva, Probabilidades e Inferncia

Classificao dos grficos segundo a forma:


Os grficos podem ser classificados em diagramas, cartogramas, estereogramas e pictogramas.

Diagramas: so grficos geomtricos dispostos em duas dimenses. So os mais usados na


representao de sries estatsticas.
Por pontos
Poligonais

Por linhas

curvas
Superpostas
Em colunas

% complementar
Remontadas

Diagrama

Horizontais

Por superfcie
Em barras

Compostas
Agrupadas
bidirecionais

Em histograma
Em setores

Os grficos em linhas ou lineares, so freqentemente usados para representao de sries


cronolgicas com um grande nmero de perodos de tempo. As linhas so mais eficientes do que as
colunas, quando existem intensas flutuaes nas sries ou quando h necessidade de se representarem
vrias sries em um mesmo grfico.

Quantidade (ton)

P ro d u o B ra s ile ira d e le o
70
60
50
40
30
1987

1988

1989 1990
Anos

1991

1992

Figura 1 - Grfico de linhas


Os grficos em colunas e barras possuem as mesmas caractersticas. Entretanto, quando as
legendas no so breves, usa-se de preferncia os grficos de barras. Nestes grficos, os retngulos tm a
mesma base e as alturas so proporcionais aos dados. A ordem a ser observada ser a cronolgica (srie
histrica) ou a decrescente (geogrfica ou espcie).

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

Veculos vendidos mensalmente em 1999


(em mil unidades)
Veculos Vendidos

25
20
15
10
5
0
Janeiro

Meses

Fevereiro

Figura 2 - Grfico de colunas

Figura 3 - Grfico colunas remontadas

Veculos vendidos por Estado no 1 bimestre de


1999 (em mil unid.)

Rio de Janeiro

So Paulo

5
10
Unidades vendidas

15

20

Figura 4 - Grfico de barras horizontais

Os grficos em colunas e barras compostas e superpostas diferem dos grficos em barras ou


colunas convencionais apenas pelo fato de apresentar cada barra ou coluna segmentada em partes
componentes. Servem para representar comparativamente dois ou mais atributos.

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia


Grfico Bidericional da evoluo de vendas da CIA nos anos
de 1992 e 1993
Aquecedores

Produtos

Mquinas de Lavar
Exaustores
Refrigeradores
Batedeiras
Liquidificadores

-50

-40

-30

-20

-10

10

20

30

40

50

Percentagens

Figura 5 - Grfico de barras bidirecional

Veculos vendidos mensalmente em cada Estado


(em mil unid.)
Veculos Vendidos

25
20
15

Rio de Janeiro

10

So Paulo

5
0
Janeiro

Fevereiro
Meses

Figura 6 - Grfico de colunas superpostas (representao de tabelas de dupla entrada)

Veculos vendidos mensalmente em cada Estado


(em mil unid.)
Veculos Vendidos

12
10
8
6

So Paulo

Rio de Janeiro

2
0
Janeiro

Fevereiro
Meses

Figura 7 - Grfico de colunas compostas (representao de tabelas de dupla entrada)

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

10

Veculos vendidos mensalmente em 1999


(em mil unid.)

Rio de Janeiro

So Paulo

Fevereiro
Janeiro
0

4
6
8
Veculos vendidos

10

12

Figura 8 - Grfico de barras compostas ou agrupadas


J o grfico em setores construdo com base em um crculo. empregado sempre que desejamos
ressaltar a participao do dado no total. O total representado pelo crculo, que fica dividido em tantos
setores quantas so as partes. Os setores so tais que suas reas so respectivamente proporcionais aos
dados da srie. O grfico em setores apropriado para uso de at dez dados
Grfico de setores das marcas de veculos vendidas no
1 bimestre de 1999 (em mil unid.)

GM
40%

FIAT
60%

Figura 9 - Grfico de setores


Estereogramas: so grficos geomtricos dispostos em trs dimenses, pois representam volume. So
usados nas representaes grficas das tabelas de dupla entrada. Em alguns casos este tipo de grfico
fica difcil de ser interpretado dado a pequena preciso que oferecem.

Matrculas do Ensino Mdio no Estado do Paran entre os anos de 1995 e


2000
45
N de matrculas (mil)

40
35
30
25
20
15
10
5
0

Sexta
1

2
Anos

Oitava
5

0Figura 10 - Grfico em forma de Estereograma

Sries

Prof. Jerry A. Johann

11

Estatstica Descritiva, Probabilidades e Inferncia

Cartogramas: so ilustraes relativas a cartas geogrficas (mapas), com o objetivo de figurar os


dados estatsticos diretamente relacionados com reas geogrficas ou polticas.
Densidade projetada para regio Sul do Brasil 1994

Populao projetada da regio Sul do Brasil 1994

21

2
3

12

1
23
1
2
3
Figura 11 - Grfico em forma de cartograma


Figura 12 - Grfico em forma de cartograma

Pictogramas: so construdos a partir de figuras representativas da intensidade do fenmeno. Este tipo


de grfico tem a vantagem de despertar a ateno do pblico leigo, pois sua forma atraente e
sugestiva. Os smbolos devem ser auto-explicativos. A desvantagem dos pictogramas que apenas
mostram uma viso geral do fenmeno, e no de detalhes minuciosos. Veja o exemplo abaixo:

Figura 13 - Pictograma (cada smbolo representa 20 milhes de habitantes)

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

12

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

13

4. DISTRIBUIO DE FREQUNCIAS
Conforme j havamos ressaltado anteriormente, quando do estudo das sries estatsticas, a
distribuio de freqncias considerada uma srie hetergrada, onde os elementos poca, local e
fenmeno so fixos. Entretanto, o fenmeno apresenta-se agora atravs de gradaes, ou seja, distribudos
em diversas classes.
Quando se estuda uma varivel, o maior interesse do pesquisador conhecer a distribuio dessa
varivel atravs de possveis realizaes (valores) da mesma.
De todas as tabelas estatsticas, esta, trabalha com variveis quantitativas (discretas e contnuas),
as quais exigem uma maior elaborao para a sua coleta e anlise. Por se tratar de variveis numricas, na
coleta muitas vezes ocorrem repeties, exigindo que a tabela seja apresentada de forma que estas
repeties possam enumeradas e apresentadas atravs de freqncias (n de vezes que uma determinada
varivel ocorre no conjunto de dados coletados).
Em resumo, uma tabela de distribuio de freqncia pode ser considerada uma tabela que
condensa um conjunto de dados, conforme as suas freqncias.


Tabela primitiva ou dados brutos: uma tabela ou relao de elementos que no foram
numericamente organizados. difcil formarmos uma idia exata do comportamento do grupo como um
todo, a partir de dados no ordenados. Vejamos o exemplo dos seguintes valores:
45, 41, 42, 41, 42, 43, 44, 41 ,50, 46, 50, 46, 60, 54, 52, 58, 57, 58, 60, 51

Rol: a tabela obtida aps a ordenao dos dados (crescente ou decrescente). Vejamos:
41, 41, 41, 42, 42, 43, 44, 45 ,46, 46, 50, 50, 51, 52, 54, 57, 58, 58, 60, 60

As distribuies de freqncia podem ser agrupadas ou tabeladas em classes ou no (distribuio


de freqncia sem intervalos de classe & distribuio de freqncia com intervalos de classe). A escolha do
tipo de agrupamento depender da variao da varivel em estudo. aconselhvel se tomar cuidado para
no haver uma perda significativa de informaes, quando da escolha do agrupamento a ser utilizado.


Distribuio de freqncia sem intervalos de classe: a simples condensao dos dados conforme
as repeties de seus valores. Para um rol de tamanho razovel esta distribuio de freqncia
inconveniente, j que exige muito espao. Veja exemplo abaixo:
Dados
41
42
43
44
45
46
50
51
52
54
57
58
60
Total

Freqncia (fi)
3
2
1
1
1
2
2
1
1
1
1
2
2
20

Distribuio de freqncia com intervalos de classe: Quando o tamanho da amostra elevado,


mais racional efetuar o agrupamento dos valores em vrios intervalos de classe, uma vez que facilita a
visualizao e interpretao dos dados.
i
1
2
3
4
5

Classes
41 |------- 45
45 |------- 49
49 |------- 53
53 |------- 57
57 |------- 61
Total

Freqncias (fi)
7
3
4
1
5
20

Prof. Jerry A. Johann

14

Estatstica Descritiva, Probabilidades e Inferncia

Embora este tipo de distribuio seja mais adequado para um grande n de dados, ela apresenta
como desvantagem a perda da individualizao dos dados.
4.1.


ELEMENTOS DE UMA DISTRIBUIO DE FREQNCIA COM INTERVALOS DE CLASSE:


Classe: so os intervalos de variao da varivel em estudo. simbolizada por i, sendo i = 1,2,3,...,k
(onde k o nmero total de classes da distribuio).
Ex: na tabela anterior k=5 e 49 |------- 53 a 3 classe, onde i=3.

Limites de Classe: so os extremos de cada classe. O menor nmero o limite inferior de classe (li) e
o maior nmero, limite superior de classe(Li).
Ex: em 49 |------- 53

l3= 49 e L3= 53.


a

Neste caso, l3 considerado o limite inferior da 3 classe e L3 o limite superior da 3 classe.


Existem quatro convenes na representao dos intervalos de classe, vejamos:
49 |----- 53  classe que compreende valores de 49 inclusive 53 exclusive
49 -----| 53  classe que compreende valores de 49 exclusive 53 inclusive
49 |----| 53  classe que compreende valores de 49 inclusive 53 inclusive.
49 ----- 53  classe que compreende valores entre 49 e 53, exclusive.
Entretanto, geralmente adotaremos a conveno |----- que representa um intervalo fechado
a
a
esquerda e aberto direita. Assim, o dado 53 do rol no pertence a 3 classe, mas sim a 4 classe
representada por 53 |----- 57.


Amplitude do Intervalo de Classe - hi: a medida do intervalo que define a classe. Sendo assim, o
intervalo de classe obtido atravs da diferena entre o limite superior e inferior da classe, ou seja:
hi = Li - li
Por exemplo, na tabela anterior hi= 53 49 = 4.

Os intervalos de classe, no precisam ser necessariamente do mesmo tamanho, a escolha


depender da pesquisa. Entretanto, para facilitar a condensao dos dados, geralmente utilizamos a
mesma amplitude de classe para todas as classes.


Amplitude total da Distribuio - AT: a diferena entre o limite superior da ltima classe e o limite
inferior da primeira classe.
AT = L(max) - l(min)
Ex: na tabela anterior AT = 61 - 41= 20.

Amplitude Amostral - AA: a diferena entre o valor mximo e o valor mnimo da amostra (rol), onde:
AA = X(max) X(min).
Em nosso exemplo AA = 60 - 41 = 19.

Obs: AT sempre ser maior ou igual AA.




4.2.

Ponto Mdio da Classe xi: o ponto que divide o intervalo de classe ao meio, ou seja em duas
partes iguais. Vejamos:
xi =(li + Li)/2
a
No nosso exemplo, a 3 classe 49 |----- 53 possui como ponto mdio x3 = (49+53)/2 = 51
MTODO PRTICO PARA CONSTRUO DE UMA DISTRIBUIO DE FREQNCIAS COM INTERVALOS DE
CLASSE

1 - Organize os dados brutos em um rol.


2 - Calcule a amplitude amostral AA  AA = X(max) X(min).
No nosso exemplo: AA= 60 - 41 =19

Prof. Jerry A. Johann

15

Estatstica Descritiva, Probabilidades e Inferncia

3 - Calcule o nmero de classes atravs da "Regra de Sturges":

i 1 + (3,3 * log n)
onde:
i = o nmero de classes;
n = o nmero total de dados.
Com a aplicao da regra de sturges, obtivemos para diferentes n de dados, o n de classes a ser
utilizado no intuito de representar a tabela de distribuio de freqncia.
N
3 |-----| 5
6 |-----| 11
12 |-----| 22
23 |-----| 46
47 |-----| 90
91 |-----| 181
182 |-----| 362
...

i= n de classes
3
4
5
6
7
8
9
...

Obs: Qualquer regra para determinao do n de classes da tabela no nos leva a uma deciso final. Esta
vai depender, na realidade de um julgamento pessoal, que deve estar ligado natureza dos dados.
No nosso exemplo: n = 20 dados, ento pela regra de sturges teremos:
i 1+(3,3*log(20))  1+ (3,3 * 1,30)  i 5,29 5 classes.
Quanto ao arredondamento de dados, devemos utilizar a seguinte conveno:
Valores de 0 - 4  arredonda para baixo
Valores de 5 - 9  arredonda para cima
4 - Decidido o n de classes, calcule ento a amplitude do intervalo de classe h > AA/i.
Para o nosso exemplo: h = AA/i = 19/5 = 3,8.
Obs: Como h > AA/i um valor ligeiramente superior para haver folga na ltima classe. Utilizaremos ento h
=4
5 - Temos ento o menor n da amostra, o n de classes e a amplitude do intervalo. Podemos montar a
tabela, com o cuidado para no aparecer classes com freqncia = 0 (zero).
No nosso exemplo: o menor n da amostra 41, assim o limite inferior da primeira classe l1=41.
Para determinar-se o limite superior da primeira classe - Li, basta fazermos 41 + h, ou seja 41+4=45.
Assim, a primeira classe ser representada por 41|----- 45. As classes seguintes respeitaro o
mesmo procedimento. Se for assumida esta conveno, os primeiros elementos das classes seguintes
sempre sero formados pelo ltimo elemento da classe anterior.

4.3.

TIPOS DE DISTRIBUIO DE FREQNCIA


Considere a tabela abaixo:
i
1
2
3
4
5

Classes
41 |------- 45
45 |------- 49
49 |------- 53
53 |------- 57
57 |------- 61
Total

fi
7
3
4
1
5
= 20

xi
43
47
51
55
59

fri
0,35
0,15
0,20
0,05
0,25
= 1,00

Fi
7
10
14
15
20
-

Fri
0,35
0,50
0,70
0,75
1,00
-

Freqncia simples ou absoluta - fi: so os valores que realmente representam o nmero de dados
de cada classe, ou seja, o n de repeties de um determinado valor dentro de uma classe. A soma
das freqncias simples igual ao nmero total de observaes da distribuio.

Prof. Jerry A. Johann

f
i =1

Estatstica Descritiva, Probabilidades e Inferncia

=n

ou seja,

i =1

16

= f 1 + f 2 + + f 5 = 7 + 3 + + 5 = 20

Freqncia relativa simples - fri: so os valores das razes entre as freqncias simples de cada
classe e a freqncia total da distribuio. A soma das freqncias relativas igual a 1 (100 %). O
propsito das freqncias relativas o de permitir a anlise ou facilitar as comparaes.

fri =


fi

fri (%) =

ou
i

fi

fr1 (%) =

*100
i

7
*100 = 35%
20

Freqncia acumulada - Fi: o total das freqncias de todos os valores inferiores ao limite superior
do intervalo de uma dada classe.

Fi = f i (i = 1,2,..., k)


ou seja,

F1 = 7

F2 = 7 + 3 = 10

F3 = 10 + 4 = 14

Freqncia relativa acumulada - Fri: de uma classe a freqncia acumulada da classe, dividida pela
freqncia total da distribuio.

Fri =

4.4.

Fi

ou

Fri (%) =

Fi
* 100
fi

Fr2 (%) =

10
*100 = 50%
20

REPRESENTAO GRFICA DE UMA DISTRIBUIO

4.4.1.

Histograma, Polgono de freqncia simples e Polgono de frequncia acumulada

Em todos os grficos utiliza-se o primeiro quadrante do sistema de eixos coordenados cartesianos


ortogonais. Na linha horizontal (eixo das abscissas) colocamos os valores da varivel e na linha vertical
(eixo das ordenadas), as freqncias.


Histograma: formado por um conjunto de retngulos justapostos, cujas bases se localizam sobre o
eixo horizontal, de tal modo que seus pontos mdios coincidam com os pontos mdios dos intervalos de
classe.
A rea de um histograma proporcional soma das freqncias simples ou absolutas. Vejamos:

fi
8
7
6
5
4
3
2
1
//
41

45

49

53

57

61

Classes

Figura 14 - Histograma de uma tabela de distribuio de freqncia com intervalos de classes

Uma distribuio de freqncia sem intervalos de classe representada graficamente por um


diagrama onde cada valor da varivel representado por um segmento de reta vertical e de comprimento
proporcional respectiva freqncia.

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

17

fi
8
7
6
5
4
3
2
1
//
47
55
43
51
59
xi
Figura 15 - Histograma de uma tabela de distribuio de freqncia sem intervalos de classes

Polgono de freqncia simples: um grfico em linha, sendo as freqncias marcadas sobre


perpendiculares ao eixo horizontal, levantadas nos pontos mdios dos intervalos de classe. Para
realmente obtermos um polgono (linha fechada), devemos completar a figura, ligando os extremos da
linha obtida aos pontos mdios da classe anterior primeira e da posterior ltima, da distribuio.
Polgono de frequncias simples ou absolutas
8
7
6

fi

5
4
3
2
1
0
43

47

51

55

59

Ponto mdio - xi

Figura 16 - Polgono de Freqncias Simples ou Absolutas

Polgono de freqncia acumulada: traado marcando-se as freqncias acumuladas sobre


perpendiculares ao eixo horizontal, levantadas nos pontos correspondentes aos limites superiores dos
intervalos de classe.

Prof. Jerry A. Johann

18

Estatstica Descritiva, Probabilidades e Inferncia


Poligono de frequncia acumulada

25

Frequncia acumulada

20

15

10

0
41

45

49

Classes

53

57

61

Figura 17 - Polgono de Freqncias Acumuladas

Construa o histograma, polgono de freqncia simples e polgono de freqncia acumulada para a tabela
abaixo:
CLASSE
50 |-------- 54
54 |-------- 58
58 |-------- 62
62 |-------- 66
66 |-------- 70
70 |-------- 74
Total

fi
4
9
11
8
5
3
40

xi
52
56
60
64
68
72

fri
0,100
0,225
0,275
0,200
0,125
0,075
1,000

Fi
4
13
24
32
37
40

Fri
0,100
0,325
0,600
0,800
0,925
1,000

Sendo:
fi= freqncia simples ou absoluta;
xi= ponto mdio da classe;
fri= freqncia relativa simples;
Fi= freqncia acumulada; e
Fri= freqncia relativa acumulada.

5. MEDIDAS DE POSIO OU DE TENDNCIA CENTRAL


5.1.

INTRODUO

At ento, atravs do estudo de distribuies de freqncia, estudamos os grupos de valores que


uma varivel pode assumir. Entretanto para que ressaltemos as tendncias caractersticas de cada
distribuio necessitamos introduzir conceitos que se expressem atravs de nmeros. Estes so
denominados elementos tpicos da distribuio e so as:


Medidas de posio (mdia, moda, mediana, decis, quartis, percentis);

Medidas de variabilidade ou disperso (amplitude total, varincia, desvio padro, coeficiente de


variao);

Medidas de forma (assimetria e curtose).

Os dados observados tendem em geral, a se agrupar em torno de valores centrais. Basicamente as


medidas de posio e de disperso, servem para localizar as distribuies e caracterizar sua variabilidade.
J assimetria e a curtose caracterizam as formas das distribuies.

Prof. Jerry A. Johann

5.2.

19

Estatstica Descritiva, Probabilidades e Inferncia

MDIA ARITMTICA =

Podemos definir vrios tipos de mdias de um conjunto de dados, como a mdia aritmtica, a mdia
geomtrica, a mdia harmnica e a mdia ponderada. Aqui, trataremos apenas das duas mais comuns, a
aritmtica e a poderada.
A mdia aritmtica definida como sendo a somatria () de um conjunto de valores, dividido pela
quantidade deles.

x + x 2 + x 3 + ... + x n
x= 1
n

ou

x=
i =1

xi
n

onde: xi so os valores da varivel e n o nmero de valores.

5.2.1.

Dados no-agrupados:

Quando desejamos conhecer a mdia de dados que no estejam agrupados em tabelas de


distribuio de freqncia, simplesmente calculamos a mdia aritmtica pela equao mostrada acima.
Exemplo: Supondo que uma mercearia tivesse durante uma semana, monitorado a venda diria de arroz
tipo A, obtendo-se para os sete dias os seguintes valores 10, 14, 13, 15, 16, 18 e 12 kg. Neste caso a venda
mdia diria para aquela semana seria de:

x = (10+14+13+15+16+18+12) / 7 = 98/7=14 kg
Como resultado, obteve-se uma venda mdia diria de 14 kg de arroz.

5.2.2.

Dados agrupados:

a) Sem intervalos de classe


Consideremos a distribuio relativa a 34 empresas, tomando para varivel em estudo, o n de
acidentes do trabalho por empresa durante um ano de trabalho. Ou poderia se tratar da distribuio relativa
34 famlias de 4 filhos, tomando para varivel em estudo, o n de filhos do sexo masculino.
O clculo da quantidade mdia de acidentes do trabalho por empresa, ou da quantidade mdia de
meninos por famlia do conjunto de dados levantados :
xi
0
1
2
3
4
Total

fi
2
6
10
12
4
34

Neste caso, a tabela deveria ser interpretada da seguinte forma, duas famlias no possuem
nenhum menino; seis famlias possuem um menino e assim por diante. Ou ainda, duas empresas no
tiveram nenhum acidente de trabalho durante aquele ano; seis empresas tiveram um acidente de trabalho
e assim por diante.
Como as freqncias neste caso so nmeros indicadores da intensidade de cada valor da varivel,
elas funcionam como fatores de ponderao, o que nos leva a calcular a mdia aritmtica ponderada,
dada pela seguinte frmula:

x=

x1 * P1 + x 2 * P2 + x 3 * P3 + ... + x n * Pn
P1 + P2 + P3 + ...Pn
xi
0
1
2
3
4
Total

ou

x=

(x * P )
P
i

fi=Pi
2
6
10
12
4
34

xi*fi
0
6
20
36
16
78

Vejamos:

Prof. Jerry A. Johann

20

Estatstica Descritiva, Probabilidades e Inferncia

x=

(0 * 2) + (1* 6) + (2 *10) + (3 *12) + (4 * 4) 78


=
= 2,3
34
34

b) Com intervalos de classe


Neste caso, convencionamos que todos os valores includos em um determinado intervalo de classe
coincidem com o seu ponto mdio, e determinamos a mdia aritmtica ponderada por meio da frmula:

x=

(f * x )
f
i

onde: xi o ponto mdio da classe.


Exemplo: Calcular a mdia da tabela abaixo.
Classes
50 |------------ 54
54 |------------ 58
58 |------------ 62
62 |------------ 66
66 |------------ 70
70 |------------ 74
Total

Frequncia = fi
4
9
11
8
5
3
40

ponto mdio = xi
52
56
60
64
68
72

fi*xi
208
504
660
512
340
216
2.440

Aplicando a frmula acima temos a mdia do conjunto de dados:

x=
5.3.

2440
= 61
40

MODA - MO

Definimos a moda (ou modas) de um conjunto de valores como o valor (os valores) de maior
freqncia. Desse modo, o salrio modal dos empregados de uma fbrica o salrio mais comum, isto , o
salrio recebido pelo maior nmero de empregados dessa fbrica.

5.3.1.

Dados no-agrupados

Neste caso a moda facilmente reconhecida, basta de acordo com a definio, procurar o valor
que mais se repete. Exemplos:


Na srie {7, 8, 9, 10, 10, 10, 11, 12} a moda igual a 10.

A srie {3, 5, 8, 10,12} no apresenta moda. A srie amodal.

A srie {2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9} apresenta duas modas: 4 e 7. A srie bimodal.

5.3.2.

Dados agrupados

a) Sem intervalos de classe


Uma vez agrupados os dados, possvel determinar imediatamente a moda: basta fixar o valor da
varivel de maior freqncia.
Exemplo: Qual a temperatura mais comum medida no ms abaixo:
Temperaturas
0 C
1 C
2 C
3 C
Total

Freqncia= fi
3
9
12
6
30

Resp: 2 C a temperatura modal, pois a de maior freqncia.

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

21

b) Com intervalos de classe


Neste caso, devemos inicialmente encontrar a classe que apresenta a maior freqncia, a qual
denominaremos de classe modal. Existem duas formas bsicas de encontrarmos a moda.
Um dos mtodos, a qual denominamos de moda bruta, consiste em encontra a classe modal e em
seguida calcular o ponto mdio desta classe com a seguinte frmula:

Mo =

li + L i
2

onde:
li = limite inferior da classe modal; e
Li= limite superior da classe modal.
Exemplo: Calcule a moda do conjunto de dados abaixo:
Classes
50 |------------ 54
54 |------------ 58
58 |------------ 62
62 |------------ 66
66 |------------ 70
70 |------------ 74
Total

fi
4
9
11
8
5
3
40

xi
52
56
60
64
68
72

R.: classe modal 58|-------- 62, pois a de maior freqncia li=58 e Li=62
Mo=(58+62)/2=60 cm

O outro mtodo mais elaborado para determinao da moda foi desenvolvido por CZUBER:

D1

* h i
Mo = l i +
D1 + D 2

li= limite inferior da classe modal;


D1= fi - f(ant);
D2= fi - f(post);
fi = freqncia simples da classe modal;
f(ant) = freqncia anterior da classe modal
f(post) = freqncia posterior da classe modal
hi= amplitude da classe modal

Resolvendo temos:
li=58
D1=11-9 D1=2

fi=11

hi=62-58 = 4  hi=4
D2=11-8 D2=3

8
Mo = 58 +
* 4 = 58 + = 59,60 cm
5
2 + 3

Utilizamos a moda quando desejamos obter uma medida rpida e aproximada de posio ou
quando a medida de posio deva ser o valor mais tpico da distribuio.

Prof. Jerry A. Johann

5.4.

Estatstica Descritiva, Probabilidades e Inferncia

22

MEDIANA MD

uma medida de posio definida como o nmero que se encontra no centro de uma srie de
valores dispostos segundo uma ordem (crescente ou decrescente). Sendo assim, a mediana separa a srie
em dois grupos que apresentam o mesmo nmero de valores.

5.4.1.

Dados no-agrupados

a) Mtodo prtico para o clculo da Mediana




Se a srie tiver nmero mpar de termos, o valor mediano ser o termo de ordem dado pela frmula:

n +1
2

Exemplo: Calcule a mediana da srie { 1, 3, 0, 0, 2, 4, 1, 2, 5 }


1 - ordenar a srie { 0, 0, 1, 1, 2, 2, 3, 4, 5 }
n = 9 logo (n + 1)/2 dado por (9+1)/2 = 5, ou seja, a mediana ser o 5 elemento da srie ordenada. Para
este caso ser Md=2.

Se a srie tiver nmero par de termos, o valor mediano ser o termo mdio de ordem dado pela
frmula:

n n

2 + 2 + 1

Exemplo: Calcule a mediana da srie { 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 }


1 - ordenar a srie {0, 0, 1, 1, 2, 3, 3, 4, 5, 6}
n = 10 logo a frmula ficar:

10 10
2 + 2 + 1 = 5 + 6 . Assim, a mediana ser a mdia aritmtica do 5

termo + 6 termo. Considerando que o 5 termo da srie 2 e o 6 3, ento a mediana da srie ser 
(2+3)/2 = Md = 2,5.

Notas:

Quando o nmero de elementos da srie estatstica for mpar, haver coincidncia da mediana com
um dos elementos da srie.

Quando o nmero de elementos da srie estatstica for par, nunca haver coincidncia da mediana
com um dos elementos da srie. A mediana ser sempre a mdia aritmtica dos 2 elementos centrais
da srie.

Em uma srie a mediana, a mdia e a moda no tm, necessariamente, o mesmo valor.

A mediana depende da posio e no dos valores dos elementos na srie ordenada. Essa uma das
diferenas marcantes entre mediana e mdias (que se deixa influenciar e muito, pelos valores
extremos). Vejamos:
Em {5, 7, 10, 13, 15 } a mdia = 10 e a mediana = 10
Em {5, 7, 10, 13, 65 } a mdia = 20 e a mediana = 10

5.4.2.

Dados agrupados

a) Sem intervalos de classe


Devemos seguir os seguintes passos:
1) Determinamos as freqncias acumuladas - Fi;

2) Encontrarmos a classe onde se encontra a mediana 0 ,50 *

f );
i

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

23

3) Marcamos a classe correspondente freqncia acumulada (Fi) igual ou imediatamente superior


0,50 *
f i . Tal classe ser a classe mediana.

xi
0
1
2
3
4
Total

Assim, 0 ,50 *

fi
2
6
9
13
5
35

f ) = (0,50 * 35) = 17,5

Fi
2
8
17
30
35

O valor igual ou imediatamente superior 17,5 na coluna da freqncia acumulada ser Fi = 30, ento a
Md = 3.

b) Com intervalos de classe


Devemos repetir os passos 1, 2 e 3 anteriormente citados:
4) Calculamos a Mediana com a seguinte frmula:

Md = l i +

[( 0 ,50 * f ) F(anterior ) ] * h
i

fi

onde:
li = o limite inferior da classe mediana;

(0,50 * f ) = valor que divide a srie em duas partes iguais;


i

F(ant) = a Freqncia Acumulada (Fi) da classe anterior a classe mediana;


fi = a freqncia simples da classe mediana;
hi = a amplitude do intervalo da classe mediana.
Exemplo:
classes
50 |------------ 54
54 |------------ 58
58 |------------ 62
62 |------------ 66
66 |------------ 70
70 |------------ 74
Total

(0,50 * f ) = 0,50 * 40 = 20
i

li = 58

fi
4
9
11
8
5
3
40

Fi
4
13
24
32
37
40

 logo a classe mediana ser 58 |---------- 62

F(anterior)=13

fi=11

hi=4

Substituindo esses valores na frmula, obtemos:

Md = 5 8 +

[20 1 3 ] * 4 = 58 + ( 28/11)
11

= 60,54

OBS: Esta mediana estimada, pois no temos os 40 valores da distribuio.

5.4.3.

Emprego da Mediana

Quando desejamos obter o ponto que divide a distribuio em duas partes iguais.

Quando h valores extremos que afetam de maneira acentuada a mdia aritmtica.

Quando a varivel em estudo salrio.

Prof. Jerry A. Johann

5.5.

24

Estatstica Descritiva, Probabilidades e Inferncia

SEPARATRIZES

Alm das medidas de posio que estudamos, h outras que, consideradas individualmente, no
so medidas de tendncia central, mas esto ligadas mediana, j que se baseiam em sua posio na
srie. Essas medidas - os quartis, os percentis e os decis - so, juntamente com as medianas, conhecidas
pelo nome genrico de separatrizes.
Os quartis, decis e percentis so muito similares mediana, uma vez que tambm subdividem a
distribuio de medidas de acordo com a proporo das freqncias observadas. Enquanto a mediana
divide a distribuio em duas metades, os quartis dividem-se em quatro quartos, os decis em 10 partes e os
pontos percentis dividem a distribuio em 100 partes.

5.5.1.

Quartis

Denominamos quartis os valores de uma srie que a dividem em quatro partes iguais. Precisamos,
portanto de 3 quartis (Q1, Q2 e Q3) para dividir a srie em quatro partes iguais. O Q1 representa os primeiros
25% dos dados ordenados (1/4), o Q2=Md encontra-se no meio do conjunto de dados(2/4) e o Q3
representa os primeiros 75% do conjunto de dados ordenados (3/4).

5.5.1.1.

Dados no-agrupados

Exemplo1: Calcule os quartis da srie mpar: { 5, 2, 6, 9, 10, 13, 15 }


1) ordenar os dados de forma crescente ou decrescente:
{2, 5, 6, 9, 10, 13, 15}
Q1

Q2

Q3

Exemplo2: Calcule os quartis da srie par: {1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13}




Q2 = Md = (5+6)/2 = 5,5;

Q1 ser a mediana da srie esquerda do Q2 {1, 1, 2, 3, 5, 5}, ento Q1=(2+3)/2 = 2,5;

Q3 ser a mediana da srie direita do Q2 {6, 7, 9, 9, 10, 13 }, ento Q3=(9+9)/2 = 9;

5.5.1.2.

Dados agrupados
Usamos a mesma tcnica do clculo da mediana, bastando substituir, na frmula da mediana por

(0,25 * f ) para a determinao do primeiro quartil (Q ), substituir por (0,50 * f ) para a determinao
do segundo quartil (Q ) e substituir por (0 ,75 * f ) para a determinao do terceiro quartil (Q ). Assim a
1

frmula genrica para determinao dos quartis ser:

Q k = li +

[(% *

f i ) F(anterior )
fi

]* h

Exemplo3 - Calcule os quartis da tabela abaixo:


i
1
2
3
4
5
6

classes
50 |------------ 54
54 |------------ 58
58 |------------ 62
62 |------------ 66
66 |------------ 70
70 |------------ 74
Total

fi
4
9
11
8
5
3
40

Fi
4
13
24
32
37
40

Q1
Q2
Q3

O primeiro passo ser encontrar a classe onde encontra-se o Q1. Para tanto, devemos utilizar a
seguinte equao 0 , 25 *
f i . Aplicando a equao a tabela teremos que 0 , 25 * 40 = 10.

Dispondo deste valor, vamos a coluna das freqncias acumuladas (Fi) e encontramos o primeiro
a
valor igual ou maior a 10. Neste caso, o Q1 encontra-se na 2 classe da tabela, pois 13 maior que 10.
Resolvendo teremos:

Prof. Jerry A. Johann

25

Estatstica Descritiva, Probabilidades e Inferncia

[10 4 ] * 4

Q 1 = 54 +

5 4 + [(6/9) * 4 ] = 56 , 67

Para encontrarmos o 2 quartil, seguimos o mesmo procedimento descrito acima, ou seja,


encontramos a classe do Q2 fazemos, 0 ,50 *
f i  (0 ,50 * 40 ) = 20 . Na coluna das Fi verifica-se que o

primeiro valor maior ou igual a 20 24 que encontra-se na 3 classe, ento:

Q 2 = 58 +

[20 13 ] * 4
(

Para saber em que classe est Q3, fazemos, 0 ,75 *

Q 3 = 62 +

5.5.2.

5 8 + [(7/11) * 4 ] = 60 ,54

11

f )  (0,75 * 40 ) = 30

[30 24 ] * 4
8

que est na 4 classe em Fi.

62 + [(6/8) * 4 ] = 65

Decis

A definio dos decis obedece ao mesmo princpio dos quartis, com a modificao da porcentagem
de valores que ficam aqum e alm do decil que se pretende calcular. A frmula bsica ser % *
fi ,

sendo % o valor percentual em decimal do decil que pretende-se determinar. Indicamos os decis por D1, D2,
..., D9. Deste modo precisamos de 9 decis para dividir uma srie em 10 partes iguais. O D5=Q2=Md.
Exemplo: Encontre o 3 decil da tabela de distribuio de classes citada anteriormente.

Como o 3 decil vale 30%, basta fazermos 0 ,30 *

f )  (0,30 * 40 ) = 12 . A interpretao a ser dada a


i

este valor a mesma j apresentada nos quartis, assim, este resultado corresponder a 2 classe.

D 3 = 54 +

5.5.3.

[12 4 ] * 4
9

54 + [(8/9) * 4 ] = 57 ,55

Percentil ou Centil

Denominamos percentis ou centis como sendo os noventa e nove valores que separam uma srie
em 100 partes iguais. Indicamos por P1, P2, ... , P99. evidente que P50 = Md ; P25 = Q1 e P75 = Q3.
O clculo de um centil segue a mesma tcnica de clculo j demonstrada anteriormente, ou seja,

(% * f ) .
i

Exemplo: Encontre o 8 percentil da tabela de distribuio de freqncia citada anteriormente.


Como o 8 percentil vale 8%, basta fazermos (0 , 08 * 40 ) = 3, 2 A interpretao a ser dada a este valor, a
mesma j apresentada nos quartis, assim, este resultado corresponder a 1 classe.

P8 = 50 +

[3, 2 0 ] * 4
4

50 + [(3,2/4) * 4 ] = 53 , 2

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

26

6. MEDIDAS DE DISPERSO OU VARIABILIDADE


6.1.

DISPERSO OU VARIABILIDADE:

As medidas de tendncia central, descritas anteriormente, so teis por identificarem um valor


tpico em um grupo de valores. Por outro lado, as medidas de variabilidade dizem respeito descrio de
um grupo de valores em termos de variabilidade existente entre os itens includos dentro do grupo.
Em suma, estas informaes serviro para indicar o quanto os dados se apresentam dispersos em
torno da regio central. Caracterizam, portanto, o grau de variao existente no conjunto de valores.
A mdia - ainda que considerada como um nmero que tem a faculdade de representar uma srie
de valores - no pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe
entre os valores que compem o conjunto.
Consideremos os seguintes conjuntos de valores das variveis x, y e z:
x = {70, 70, 70, 70, 70}

x = 350/5 = 70

y = {68, 69, 70 ,71 ,72}

y = 350/5 = 70

z = {5, 15, 50, 120, 160}

z = 350/5 = 70

fcil notar que o conjunto x mais homogneo que os conjuntos y e z, j que todos os valores so
iguais mdia. O conjunto y, por sua vez, mais homogneo que o conjunto z, pois h menor variabilidade
entre cada um de seus valores e a mdia representativa. Conclu-se ento que o conjunto x apresenta
disperso nula e que o conjunto y apresenta uma disperso menor que o conjunto z.
As medidas de disperso ou de variabilidade existentes so: amplitude total, varincia, desvio
padro, coeficiente de variao, desvio quartil, desvio mdio absoluto. Os 4 primeiros so os mais
utilizados e portanto sero vistos.

6.2.

AMPLITUDE TOTAL - AT

Quando os dados no esto agrupados a amplitude total a diferena entre o maior e o menor valor
observado: AT = Xmximo - Xmnimo. Para os exemplos acima temos:
ATx=70-70 =0 (disper. nula)
ATy=72-68 =4
ATz=160-5 =155
Quando os dados esto agrupados sem intervalos de classe (tab.1) e com intervalos de classe
(tab.2) temos: AT = Xmximo - Xmnimo.
Tabela 1
xi
0
1
3
4

Tabela 2
fi
2
6
5
3

Classes
4 |---------- 6
6 |---------- 8
8 |----------10

fi
6
2
3

Para a tabela 1, a amplitude total ser AT = 4 - 0 = 4. J para a tabela 2, teremos uma amplitude
total de AT = 10 - 4 = 6
A AT tem o inconveniente de s levar em conta os dois valores extremos da srie, descuidando do
conjunto de valores intermedirios. Faz-se uso da amplitude total em situaes onde deseja-se determinar a
variao da temperatura em um dia, no controle de qualidade, ou quando necessitamos de uma medida de
clculo rpido sem muita exatido para representar a variabilidade dos dados.

6.3.
6.3.1.

VARINCIA (S ) E DESVIO PADRO (S)


Dados no-agrupados

So medidas que consideram a totalidade dos valores da varivel em estudo. So indicadores de


2
variabilidade bastante estveis. Para uma populao de dados no-agrupados, a varincia (S ) e o desvio
padro (s) baseiam-se nos quadrados dos desvios em torno da mdia aritmtica. Assim:

Prof. Jerry A. Johann

Varincia 2 =

Desvio Padro

27

Estatstica Descritiva, Probabilidades e Inferncia

(x

x)

ou

(xi x )

x
=

ou

2
i

x
n

2
i

xi

xi

importante ressaltar que estas frmulas devero ser aplicadas quando estivermos
trabalhando dados oriundos de uma populao. No caso e trabalharmos com dados que representam
uma amostra, as expresses acima devero ter n-1 no denominador no lugar de n. Vejamos:
Varincia

(x
=

x)

(
xi )
1

S =
* x i
n 1
n

ou

n -1

(xi x )

(
xi )
1

s=
* x i
n 1
n

Desvio Padro s =

ou

n 1

Ex.: Calcular o desvio padro da populao representada por -4, -3, -2, 3, 5
2

xi

-4
-3
-2
3
5
=-1

16
9
4
9
25
=63

(x i - x) 2

(x i - x)

xi

- 0,2
- 0,2
- 0,2
- 0,2
- 0,2

- 3,8
- 2,8
- 1,8
3,2
5,2

14,44
7,84
3,24
10,24
27,04
=62,8

Podemos fazer este clculo de duas formas:

2
2
2
2
2
(
4 (0.2) ) + ( 3 (0.2) ) + ( 2 (0.2) ) + (3 (0.2) ) + (5 (0.2) )
=

S2 =

14,44 + 7,84 + 3,24 + 10,24 + 27,04 62,8


=
S 2 = 12,56
5
5
2

Encontramos desta forma a varincia dos dados (S =12,56). Para determinarmos o desvio padro,
basta tirarmos a raiz quadrada deste valor, ou seja S 2 = 12,5 s = 12,56 s = 3,54
Outra forma de calcularmos os mesmos parmetros utilizando a seguinte equao:

63 1
S =
= 12,60 0,04 = 12,56 s = 12,56 s = 3,54
5 5
2

A varincia uma medida que tem pouca utilidade como estatstica descritiva, porm
extremamente importante na inferncia estatstica e em combinaes de amostras.

6.3.2.

Dados agrupados
Neste caso, a varincia e o desvio padro sero dados pelas seguintes expresses:

(f * (x ) ) (f * x )
=
f

(f * (x ) ) (f * x )
f

s=

Prof. Jerry A. Johann

28

Estatstica Descritiva, Probabilidades e Inferncia

Exemplo: Encontre o desvio padro das tabelas abaixo:


Tab 3.: sem intervalos de classe
xi
0
1
2
3
4

fi
2
6
12
7
3
=30

Tab 4.:Com intervalos de classe


2

fi*xi
0
6
24
21
12
=63

fi*(xi)
0
6
48
63
48
=165

Classes
150 |---- 154
154 |---- 158
158 |---- 162
162 |---- 166
166 |---- 170
170 |---- 174

fi
4
9
11
8
5
3
=40

xi
152
156
160
164
168
172

fi*xi
608
1404
1760
1312
840
516
=6.440

fi*(xi)
92416
219024
281600
215168
141120
88752
=1.038.080

Desvio padro para dados sem intervalos de classe (tab. 3):


2

165 63
s=
= 5,5 4,41 = 1,09 s = 1,044
30 30
Desvio padro para dados com intervalos de classe (tab. 4):
2

s=

6.4.

1038080 6440

= 25952 25921 = 31 s = 5,567 cm


40
40

COEFICIENTE DE VARIAO - CV

O desvio padro por si s no nos diz muita coisa. Alm do mais, o fato do desvio padro ser
expresso na mesma unidade dos dados limita seu emprego quando desejamos comparar duas ou mais
sries de valores referentes variabilidade.
Para contornar essas dificuldades utiliza-se o coeficiente de variao - CV, que apresenta os
dados em termos relativos. Como a tabela 4, apresenta x =161 (6440/40) e s=5,567, ento:

CV =

s
* 100
x

CV =

5,567
* 100 CV = 3,46%
161

7. MEDIDAS DE FORMA
7.1.

MEDIDAS DE ASSIMETRIA - AS

Essas medidas procuram caracterizar como e quanto distribuio de freqncias se afasta da


condio de simetria. Assim, teremos trs condies:


A) Assimtrica esquerda ou negativa quando: Mdia < Mediana < Moda

B) Simtrica quando: Mdia = Mediana = Moda;

C) Assimtrica direita ou positiva quando: Mdia > Mediana > Moda.

Prof. Jerry A. Johann

29

Estatstica Descritiva, Probabilidades e Inferncia

Exerc. a) Determine os tipos de assimetria das distribuies abaixo:


Distribuio A
Classes
2 |----- 6
6 |-----10
10 |-----14
14 |-----18
18 |-----22
Total =

fi
6
12
24
12
6
60

Distribuio B
xi
4
8
12
16
20

fi*xi
24
96
288
192
120
720

Classes
2 |----- 6
6 |-----10
10 |-----14
14 |-----18
18 |-----22
Total =

fi
6
12
24
30
6
78

Distribuio C
fi*xi
24
96
288
480
120
1008

Classes
2 |----- 6
6 |-----10
10 |-----14
14 |-----18
18 |-----22
Total =

fi
6
30
24
12
6
78

fi*xi
24
240
288
192
120
864

x A = (720/60) = 12 kg

x B = (1008/78) = 12,92 kg

x C =(864/78) = 11,08 kg

MdA=12 kg

MdB =13,5 kg

MdC =10,5 kg

MoA= 12 kg

MoB =16 kg

MoC = 8 kg

s = 4,42 kg

s = 4,20 kg

s = 4,20 kg

CV= 36,83%

CV=32,51%

CV=37,91%

Baseando-se nas relaes entre mdia e moda, poderamos ter:

x Mo = 0  assimetria nula ou distribuio simtrica;


x Mo < 0  assimetria negativa ou esquerda;
x Mo > 0  assimetria positiva ou direita;
Para nosso exemplo temos:
A.

x Mo  12-12 = 0

B.

x Mo  12,92 16 = -3,08

C.

x Mo  11,08 8 = 3,08

 distribuio simtrica;
 assimtrica negativa.
 assimtrica positiva.

Entretanto, a medida anterior, por ser absoluta, apresenta a mesma deficincia do desvio padro,
isto , no permite a possibilidade de comparao entre as medidas de duas distribuies.
Por esse motivo, devemos utilizar um dos seguintes coeficientes para a determinao da assimetria:


Primeiro Coeficiente de Pearson

AS =

(x Mo)
s

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia


Segundo Coeficiente de Pearson

AS =


Q 3 + Q1 - (2 * x)
Q 3 + Q1

Terceiro Coeficiente de Pearson

AS =


30

3 * (x Md)
s

Coeficiente de Assimetria nos softwares estatsticos

Este coeficiente de assimetria encontrado em softwares estatsticos como o Minitab e ainda nas
planilhas do excel pelo comando distoro.

n
x x
AS =
* i

(n 1) * (n 2)
s

onde: s: desvio padro


Para o coeficiente de assimetria de Pearson, as seguintes escalas podem ser utilizadas, desde que
os dados apresentem assimetria:
|AS| < 0,15  assimetria pequena
0,15 < | AS | < 1 assimetria moderada
| AS | > 1  assimetria elevada
Obs: Supondo uma AS=-0,49  assimetria considerada moderada e negativa e se AS=0,75  a
assimetria considerada moderada e positiva.

7.2.

MEDIDAS DE CURTOSE - C

Denominamos curtose o grau de achatamento de uma distribuio em relao a uma distribuio


padro, denominada curva normal (curva correspondente a uma distribuio terica de probabilidade).
Assim, a curva de freqncia pode apresentar 3 conformaes diferentes:


Leptocrtica: neste caso a distribuio apresenta-se em uma curva de freqncia mais fechada que a
normal, ou seja, mais aguda e afinada em sua parte superior.

Mesocrtica: a nossa base referencial e caracterizada como a curva que se apresenta


normalmente distribuda;

Platicrtica: neste caso a distribuio apresenta-se em uma curva de freqncia mais aberta que a
normal, ou seja, mais achatada em sua parte superior.

A curtose pode ser calculada pelos seguintes coeficientes:




Coeficiente percentlico de curtose:

C=


Q 3 Q1
2 * (P90 P10 )

Coeficiente de Curtose nos softwares estatsticos

Este coeficiente de assimetria encontrado em softwares estatsticos como o Minitab e ainda nas
planilhas do excel pelo comando distoro.

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

n * (n + 1)
x x
C=
* i

(n 1) * (n 2) * (n 3)
s

31

3 * (n 1) 2

(n 2) * (n 3)

Uma vez determinados os valores representativos dos coeficientes de Assimetria e de Curtose,


poder-se- classifica-los mediante a tabela de JONES (1969). Nesta tabela, inicialmente determina-se a
significncia desejada, por exemplo, 5% e a partir da s verificarmos se os valores calculados esto
dentro do intervalo proposto por JONES, para um determinado nmero de amostras. Caso os valores
calculados pelas frmulas propostas de assimetria e curtose estejam, simultaneamente nos intervalos
proposto por JONES(1969), diz-se que os dados possuem normalidade ao nvel de significncia (%)
adotado (5 ou 10%).
TABELA DE JONES DADOS AMOSTRAIS

n
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
32
34
36
38
40
45
50
55
60
65
70
75
80
85
90
95
100
125

ASSIMETRIA
=10%
=5%
liminferior-superior liminferior-superior
1,370
1,155
1,321
1,086
1,278
1,040
1,230
1,009
1,194
0,980
1,163
0,954
1,135
0,930
1,109
0,910
1,083
0,890
1,060
0,870
1,037
0,851
1,018
0,830
0,998
0,814
0,980
0,799
0,960
0,783
0,943
0,768
0,926
0,753
0,910
0,740
0,893
0,727
0,879
0,714
0,861
0,702
0,833
0,681
0,808
0,662
0,786
0,642
0,768
0,625
0,749
0,608
0,700
0,571
0,665
0,541
0,663
0,516
0,606
0,495
0,582
0,478
0,560
0,461
0,543
0,447
0,526
0,435
0,511
0,424
0,500
0,415
0,488
0,406
0,479
0,398
0,430
0,356

CURTOSE
=5%
=10%
liminferior
limsuperior
liminferior
limsuperior
-1,71
3,28
-1,58
2,66
-1,62
3,22
-1,47
2,47
-1,56
3,12
-1,41
2,36
-1,51
3,02
-1,37
2,28
-1,47
2,93
-1,33
2,21
-1,43
2,85
-1,30
2,15
-1,39
2,77
-1,27
2,09
-1,35
2,70
-1,24
2,04
-1,32
2,63
-1,21
1,99
-1,29
2,56
-1,19
1,94
-1,26
2,49
-1,16
1,89
-1,24
2,42
-1,15
1,84
-1,22
2,37
-1,13
1,80
-1,20
2,32
-1,11
1,77
-1,18
2,27
-1,09
1,73
-1,17
2,20
-1,07
1,70
-1,15
2,18
-1,05
1,67
-1,14
2,14
-1,04
1,64
-1,12
2,10
-1,02
1,61
-1,11
2,07
-1,00
1,59
-1,10
2,04
-0,99
1,56
-1,07
1,98
-0,96
1,51
-1,05
1,93
-0,94
1,47
-1,03
1,88
-0,92
1,42
-1,01
1,84
-0,90
1,38
-0,99
1,80
-0,88
1,35
-0,95
1,72
-0,85
1,27
-0,92
1,64
-0,81
1,21
-0,89
1,58
-0,79
1,16
-0,86
1,51
-0,76
1,11
-0,84
1,45
-0,74
1,08
-0,82
1,40
-0,72
1,04
-0,80
1,35
-0,70
1,01
-0,78
1,29
-0,69
0,98
-0,76
1,24
-0,67
0,96
-0,74
1,19
-0,65
0,94
-0,72
1,15
-0,64
0,92
-0,70
1,10
-0,63
0,90
-0,65
1,01
-0,57
0,79

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia


8. OUTRA ESTRATGIA DE ANLISE EXPLORATRIA

32

J se discutiu anteriormente, que tanto a mdia como o desvio padro podem no ser medidas
adequadas para representar um conjunto de valores, pois:


so afetados, de forma exagerada, por valores extremos.

apenas com dois valores no temos idia da assimetria da distribuio dos valores.

Para contornar estes fatos, as seguintes medidas so sugeridas por TUKEY (1977):
a mediana (Md);
os extremos (Min e Max): o menor e o maior valor do conjunto de dados;
os quartis ou juntas (Q).
Com estes parmetros, obtemos o chamado esquema dos cinco nmeros, que est representado
abaixo, onde tambm est incorporado o nmero de pontos. Vejamos:
n
Md = Q2
Q1
Q3
I)
II)
III)

Min
Max
Estas cinco medidas so chamadas de estatsticas de ordem e so medidas resistentes de
posio de uma distribuio. Elas so consideradas resistentes porque so pouco afetadas por mudanas
de uma pequena poro de dados. Conforme j discutido anteriormente, tanto a mdia como o desvio
padro, no so consideradas medidas resistentes, pois so afetadas de maneira acentuada por valores
extremos. Uma medida de disperso alternativa que resistente o intervalo interquartil - dJ, que obtido
pela diferena entre o terceiro e o primeiro quartis, vejamos:

d J = Q3 Q1
A diferena entre Q2 Min chamada de disperso inferior ao passo que a diferena entre Max
Q2 conhecida como disperso superior. A comparao destas distncias nos fornece informao sobre a
forma da distribuio. Em uma distribuio, os dados geralmente apresentaro normalidade (simtrica e
mesocrtica) quando tivermos as seguintes relaes:


a disperso inferior seja aproximadamente igual a disperso superior;

Q2 Q1 dever ser aproximadamente igual () Q3 Q2;

Q1 Min dever ser aproximadamente igual () Max - Q3;

as distncias entre mediana (Md=Q2) e os quartis Q1 e Q3 sejam menores que as distncias entre
extremos e quartis.

A informao contida no esquema dos cinco nmeros pode ser traduzida graficamente num
desenho esquemtico conhecido como Boxplot. Inicialmente encontramos aqueles valores que esto muito
aqum do Q1 ou muito alm do Q3 como sendo observaes discrepantes (ou outliers). Para tanto,
considera-se dados que sejam menores que Q1 1,5 * d J ou maiores que Q 3 + 1,5 * d J como sendo
discrepantes do restante dos dados.
Para construir o Boxplot, consideraremos um retngulo onde esto representadas os quartis Q1, Q2
e Q3. A partir do retngulo para cima e para baixo, seguem linhas at o ponto mais remoto que no seja
uma observao discrepante. Obtemos ento uma figura que representa o conjunto de dados, com
exceo dos outliers. Estes sero representados por uma astersco (*).
O desenho esquemtico abaixo d uma idia da:


posio: representada atravs de valores pontuais na escala, assim temos uma idia da abrangncia ou
faixas de valores do conjunto de dados;

disperso: quanto maior a caixa do boxplot, maior a disperso dos dados;

assimetria: pode ser visualizada quando traa-se um grfico de distribuio dos dados perpendicular ao
lado esquerdo do boxplot;

caudas: so dadas pelas linhas que vo do retngulo aos valores mais afastados que no sejam
outliers;

Prof. Jerry A. Johann

33

Estatstica Descritiva, Probabilidades e Inferncia

dados discrepantes: so valores que fogem do comportamento normal dos dados e assim, merecem um
estudo especfico.
Abaixo vemos a representao de um Boxplot:

*
1,5*dJ
Q3
dJ
Q2
Q1
1,5*dJ

*
Exemplo: Para estudar o desempenho de duas companhias corretoras de aes, selecionou-se de cada
uma delas amostras aleatrias das aes negociadas. Para cada ao selecionada, computou-se a
porcentagem de lucro apresentada durante um perodo fixado do tempo. Os dados esto a seguir:
Corretora A
45 60 54 62 55
70 38 48 64 55
56 55 54 59 48
65 55 60

Corretora B
57 55 58 50 52 59
59 55 56 61 52 53
57 57 50 55 58 54
59 51 56

Anlise exploratria dos dados


Varivel
Cor_A
Cor_B

N
18
21

Varivel
Cor_A
Cor_B

Q1
52.5
52.5

Mdia
55.72
55.43
Q3
60.5
58.0

Mediana
55.00
56.00

s
7.68
3.17

CV(%)
13,78
5,72

dJ
8.0
5.5

Min
38.00
50.00

Max
70.00
61.00

Representando os dados pelo chamado esquema dos cinco nmeros, teremos:


Corretora A

Corretora B

18
55,0
52,5

21
56,0
60,5

52,5

58,0

=
38,0
70,0
50,0
61,0
Com os valores da srie podemos obter as seguintes relaes entre o desempenho da corretora A e B:
CORRETORA A


intervalo interquartil:

d J = Q3 Q1

d J = 60,5 52,5 = 8

que representar o tamanho do

retngulo quando da montagem do boxplot;




observaes discrepantes: Q1 1,5 * d J 

52,5 (1,5 * 8) = 40,5

assim, valores menores que estes

so considerados outliers.


observaes discrepantes:
so considerados outliers.

Q 3 + 1,5 * d J  60,5 + (1,5 * 8) = 72,5 assim, valores maiores que estes

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

disperso inferior: Q2 Min  55 - 38=17

disperso superior: Max Q2  70 - 55=15

Q2 Q1: 55 - 52,5 = 2,5

Q3 Q2: 60,5 55 = 5,5

34

CORRETORA B


intervalo interquartil:

d J = Q3 Q1 

d J = 58 52,5 = 5,5

que representar o tamanho do

retngulo quando da montagem do boxplot;




observaes discrepantes:

Q1 1,5 * d J  52,5 (1,5 * 5,5) = 44,3 assim, valores menores que

estes so considerados outliers.




observaes discrepantes: Q 3 + 1,5 * d J 

58 + (1,5 * 5,5) = 66,3

assim, valores maiores que estes

so considerados outliers.


disperso inferior: Q2 Min  56 50 = 6

disperso superior: Max Q2  61 56 = 5

Q2 Q1: 56 52,5 = 3,5

Q3 Q2: 58 56 = 2

Uma vez obtidos os parmetros do Boxplot, basta apenas constru-lo, o resultado o que podemos
ver abaixo:
Boxplot da Corretora A

Boxplot da Corretora B

70
60

Cor_B

Cor_A

60

50

55

40
50
Cor_A

Cor_B

Como analise comparativa entre as duas corretoras pode-se dizer ainda:




A corretora A, pelo fato de apresentar uma amplitude amostral de 32 (diferena entre o maior lucro e o
menor lucro obtido no perodo) revela um diferencial de ganhos maior do que o caso da corretora B que
apresenta uma amplitude amostral de 11, mostrando uma menor oscilao de lucros no perodo.

Observa-se que a amplitude da corretora A aproximadamente 5,3 vezes maior que o valor da
diferena entre quartis, significando que h uma grande disperso dos dados, ao passo que a amplitude
da corretora B aproximadamente 2,2 vezes maior que o valor da diferena entre quartis, significando
uma menor disperso dos dados de lucro.

Para a corretora A, a mediana est 5 vezes mais afastado do quartil superior (Q3) do que do quartil
inferior (Q1). J para a corretora B, a mediana est aproximadamente no meio do Q1 e Q3, significando
que h uma distribuio mais homognea de lucros.

Atravs do Coeficiente de variao (CV), que mede a homogeneidade dos dados, podemos dizer que a
corretora A possui seus lucros mais dispersos em relao a corretora B.

Quando se faz uso de softwares estatsticos, os quartis Q1 e Q3 so calculados de uma forma um


pouco diferente da tradicional j discutida neste curso. Na verdade, estes pacotes estatsticos consideram

35
Estatstica Descritiva, Probabilidades e Inferncia
uma espcie de fator de correo para os valores dos quartis. Assim, por exemplo para calcularmos o Q1 e
Q3 devemos utilizar as seguintes equaes:
Prof. Jerry A. Johann

Q1 = X n+1 + 0,75 X n+1 + 1 X n+1

4
4
4

Q3 = X 3(n +1) + 0,25 X 3( n+1) + 1 X 3(n +1)

4
4
4

Exemplo: Vamos supor a seguinte seqncia de dados (n=16):


Valores

10

12

14

15

18

20

20

ordem

X1

X2

X3

X4

X5

X6

X7

X8

X9

X10

X11

X12

X13

X14

X15

X16

Q1 = X 16+1 + 0,75 X 16+1 + 1 X 16+1

4
4
4
n + 1 16 + 1
=
= 4,25 4 elemento
4
4

Q1 = X (4 ) + 0,75 * ( X (5 ) X (4 ) )  Q1 = 2 + 0,75 * (3 2 ) = 2,75

Q3 = X 3(16+1)

+ 0,25 X 3(16+1) + 1 X 3(16+1)

4
4

3 * (n + 1) 3 * (16 + 1)
= 12,75 12 elemento
=
4
4

Q3 = X (12 ) + 0,25 * (X (13) X (12 ) )  Q3 = 14 + 0,25 * (15 14) = 14,25

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

36

9. PROBABILIDADE
9.1

INTRODUO

Para MARTINS (2001), consciente ou inconscientemente, a probabilidade usada por qualquer


indivduo que toma deciso em situaes de incerteza.

Muitas pessoas interessam-se por eventos ligados s probabilidades, do contrrio, como poderamos
explicar o grande nmero de indivduos que jogam em loterias, bingos, corridas de cavalo, etc.

As primeiras aplicaes do clculo das probabilidades ocorreram em funo de jogos de azar, no


sculo XVI.

A utilizao das probabilidades indica a existncia de um elemento ao acaso, ou de incerteza,


quanto ocorrncia ou no de um evento.
Abaixo so apresentadas situaes em que desejvel ter uma medida (avaliao numrica) de
quo provvel a ocorrncia de determinado evento futuro:
 Lanamento de um produto;
 Bons lucros em uma operao mercantil;
 Chover amanh tarde;
 Meu time ganhar o prximo jogo;
 Determinao da vida til de um componente eletrnico; etc.
Embora o termo probabilidade tenha ampla significao, sua definio e interpretao tm sido
fonte de grandes dificuldades, principalmente, no que tange a manipulao algbrica.
De acordo com MORETTIN (1999), na natureza so encontrados dois tipos de fenmenos:
determinsticos e aleatrios (estocsticos).


Fenmenos determinsticos: so aqueles em que os resultados so sempre os mesmos, qualquer


que seja o nmero de ocorrncias verificadas. Assim, se tomarmos como exemplo um determinado
slido, sabemos que a uma certa temperatura haver a passagem para o estado lquido.

Fenmenos aleatrios: so aqueles em que os resultados no so previsveis, mesmo que haja


um grande nmero de repeties do mesmo fenmeno. Podemos considerar os experimentos
aleatrios como fenmenos produzidos pelo homem. Ex.: Considerando um pomar com centenas de
laranjeiras, as produes de cada planta sero diferentes e no previsveis, mesmo que as condies
do local sejam as mesmas para todas as rvores.

O clculo das probabilidades  Matemtica  fenmenos de que trata a Estatstica  natureza


aleatria ou probabilstica.

Conhecimento do clculo das probabilidades  necessidade para o estudo da Estatstica Indutiva ou


Inferencial.

Imagine que um pesquisador anota a idade e a presso arterial de seus pacientes  tabelas e
grficos, medidas de posio, medidas de disperso, modelos de regresso  estender suas
concluses  fazer inferncia  conhecimento das distribuies de probabilidade.

Empresrio deseja lanar um novo produto no mercado. Ele precisar de informaes sobre a
probabilidade de sucesso para seu novo produto.

Os modelos probabilsticos podem ser teis em diversas reas do conhecimento humano, tais
como: Administrao, Economia, Psicologia, Engenharia, Biologia, Medicina e outros ramos da cincia.

9.2

EXPERIMENTO ALEATRIO

So fenmenos que mesmo repetido vrias vezes sob condies semelhantes apresentam
resultados imprevisveis. So chamados de experimentos aleatrios, pois dependem do acaso.
Embora no saibamos qual o resultado que ir ocorrer num experimento, em geral, consegue-se
descrever o conjunto de todos os resultados possveis que podero ocorrer.
Ex.1) Da afirmao " provvel que o meu time ganhe a partida hoje" pode resultar:
- que ele ganhe

- que ele perca

Este resultado final pode ter trs possibilidades.

- que ele empate

37

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia


Ex.2) Vai chover no fim de semana?

Conjunto de possibilidades  S= {chove; no chove}


Qual a probabilidade de chover??
- Usa a intuio (subjetivo)
- Usa a freqncia relativa dos ltimos dez fins de semana em que choveu (objetiva)
9.3

ESPAO AMOSTRAL - S
o conjunto universo ou o conjunto de resultados possveis de um experimento aleatrio.
No experimento aleatrio "lanamento de uma moeda" temos o espao amostral S={Ca,Co}.
No experimento aleatrio "lanamento de um dado" temos o espao amostral S={1,2,3,4,5,6}.

No experimento aleatrio "dois lanamentos sucessivos de uma moeda" temos o espao


amostral: S={(Ca,Ca), (Co,Co), (Ca,Co), (Co,Ca)}.
Cada um dos elementos de S recebe o nome de ponto amostral. No primeiro exemplo: Ca
pertence ao espao amostral S={Ca, Co}.

9.4

EVENTOS - E

qualquer subconjunto do espao-amostral S em um experimento aleatrio. Em geral indica-se


um evento por uma letra maiscula do alfabeto: A, B, ... , X, Y, Z.
Se considerarmos S como espao amostral e E como evento, qualquer que seja E, se E S (E est
contido em S), ento E ser um evento de S.


Se E = S  E chamado de evento certo;

Se E S  E um conjunto unitrio chamado de evento elementar;

Se E =  E chamado de evento impossvel.

Exemplo: Consideremos o experimento aleatrio "lanamento de um dado"  S={1,2,3,4,5,6}.


A={2,4,6} S  A um evento de S;
B={1,2,3,4,5,6} S  B um evento certo de S, pois B=S;
C={4} S  C um evento elementar de S;
D={} S  D um evento impossvel de S.
n

Em um espao amostral finito S, o n de subconjuntos que pode verificar-se ser:  n(S)=x (onde
x= n de possibilidades de ocorrer cada evento e n= n de experimentos).

9.5

CONCEITO DE PROBABILIDADE
Chamamos de probabilidade de um evento A (A S) o nmero real P(A), tal que:

P(A) =

n(A)
n(S)

onde:
n(A) = n de elementos do evento A;
n(S) = n de elementos de S;
OBS: Quando todos os elementos de S tem a mesma chance de acontecer, temos um conjunto
equiprovvel.

9.5.1.

Propriedades da probabilidade

Campo de variao das probabilidades  0 P(A) 1;

Probabilidade do espao amostral  P(S) =1;

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

P() =0;

Se A, B, ... , K, so eventos mutuamente exclusivos,

38

P(A B ... K) = P(A) + P(B) + ... + P(K)




Probabilidade de um evento complementar  P(

Regra da adio de probabilidades.

A ) = 1 - P(A);

Probabilidade de ocorrncia do evento A, ou do evento B (ou de ambos) igual a  P(A B) =


P(A) + P(B) - P(A B);

Caso os eventos A e B sejam mutuamente exclusivos, isto A B=, ento  P(A B) = P(A) +
P(B);

Exemplos:
1) No lanamento de uma moeda qual a probabilidade de obter cara em um evento A?
S = {Ca,Co}=2

A = {ca} = 1

P(A) = 1/2 = 0,5 = 50%

2) No lanamento de um dado qual a probabilidade de obter um nmero par em um evento B?


S = { 1,2,3,4,5,6 } = 6

B = {2,4,6} = 3

P(B) = 3/6 = 0,5 = 50%

3) No lanamento de um dado qual a probabilidade de obter um nmero menor ou igual a 6 em um


evento C?
S = { 1,2,3,4,5,6 } = 6

C = { 1,2,3,4,5,6 } = 6

P(C) = 6/6 = 1,0 = 100%

Obs: a probabilidade de todo evento certo = 1 ou 100%.


4) No lanamento de um dado qual a probabilidade de obter um nmero maior que 6 em um evento
D?
S = { 1,2,3,4,5,6 } = 6

D={ }=0

P(D) = 0/6 = 0 = 0%

Obs: a probabilidade de todo evento impossvel = 0 ou 0%


5) Retirando-se uma carta de um baralho completo de 52 cartas, qual a probabilidade da carta
retirada ser ou um S ou uma carta de COPAS?
P(S)=4/52
P(Copas)= 13/52
P(S Copas)= 1/52
P(S Copas) = P(S) + P(Copas) - P(S Copas)=
= 4/52 + 13/52 - 1/52 = =16/52 = 4/13
OBS.:Nem sempre possvel enumerar o espao amostral. Nestes casos, deveremos usar a anlise
combinatria como processo de contagem.

9.6

OPERAES COM EVENTOS ALEATRIOS

Considere um espao amostral finito e sejam A e B dois eventos deste espao amostral, as
seguintes operaes podem ser definidas (MORETTIN, 1999):

COMPLEMENTAO ( )

INTERSECO ( )  Eventos Independentes  * (e)

REUNIO OU UNIO ( )  Eventos Mutuamente Exclusivos  + (ou)

COMPLEMENTAO ( )

Sabemos que um evento pode ou no ocorrer. Sendo p a probabilidade de que ele ocorra (sucesso)
e q a probabilidade de que ele no ocorra (insucesso), para um mesmo evento existe sempre a relao:
p+q=1

ou

q = 1-p (insucesso)

Prof. Jerry A. Johann

39

Estatstica Descritiva, Probabilidades e Inferncia

Ou ainda, S A = A  o evento que ocorre se A no ocorre ( A o evento complementar de A).


Numa distribuio de probabilidades o somatrio das probabilidades atribudas a cada evento
elementar igual a 1 onde p1+p2+p3+...+pn=1.

Exemplos:
1) Sabemos que a probabilidade de tirar o n 4 no lanamento de um dado p = 1/6.
Logo, a probabilidade de no tirar o n 4 no lanamento de um dado ser: q =1- p

ou q=1- 1/6 = 5/6.

2) Calcular a probabilidade de um piloto de automveis vencer uma dada corrida, onde as suas
"chances", segundo os entendidos, so de "3 para 2". Calcule tambm a probabilidade dele perder.
O termo "3 para 2" significa: De cada 5 corridas ele ganha 3 e perde 2. Ento p = 3/5 (ganhar) e q = 2/5
(perder).

INTERSECO ( )  Independentes

O evento interseco formado pelos pontos amostrais que pertencem simultaneamente aos
eventos A e B.
Assim, se A B (e)  este evento ocorre se A e B ocorrem. Quando A B = teremos eventos
mutuamente exclusivos.

De acordo com CRESPO (1998), dois eventos so independentes quando a realizao ou no


realizao de um dos eventos no afeta a probabilidade da realizao do outro e vice-versa.
Exemplo:
1) Quando lanamos dois dados, o resultado obtido em um deles independe do resultado obtido no
outro. Ento qual seria a probabilidade de obtermos, simultaneamente, o n 4 no primeiro dado e o n
3 no segundo dado?
Assim, sendo P(A) a probabilidade de realizao do primeiro evento e P(B) a probabilidade de realizao do
segundo evento, a probabilidade de que tais eventos se realizem simultaneamente dada pela frmula:
P(A B) P(A e B) = P(A)*P(B)
Dado 1: n 4  n(A)=1  P(A) =1/6
Dado 2: n 3  n(B)=1  P(B) =1/6
P(A B) = P(A)*P(B) = 1/6 * 1/6 

P(AB) =1/36

40
Estatstica Descritiva, Probabilidades e Inferncia
Ento a probabilidade de obtermos simultaneamente o n 4 e o n 3 para os dados 1 e 2,
respectivamente 1/36 = 2,78%.
Prof. Jerry A. Johann

REUNIO OU UNIO ( )  Mutuamente Exclusivos

O evento reunio formado pelos pontos amostrais que pertencem pelo menos um dos
eventos A e B.
Assim, se A B (ou)  este evento ocorre se A ocorre ou B ocorre, ou ambos ocorrem. Se
tivermos A
B=S os eventos sero exaustivos.

Segundo CRESPO (1998), dizemos que dois ou mais eventos so mutuamente exclusivos
quando a realizao de um exclui a possibilidade de realizao do(s) outro(s).
Assim, no lanamento de uma moeda, o evento "tirar cara" e o evento "tirar coroa" so
mutuamente exclusivos, j que, ao se realizar um deles, o outro no se realiza.
Se dois eventos so mutuamente exclusivos, a probabilidade de que um ou outro se realize igual
soma das probabilidades de que cada um deles se realize:
P(A B) = P(A ou B) = P(A) + P(B)
Exemplos:
1) No lanamento de um dado qual a probabilidade de se tirar o n 3 ou o n 4? Os dois eventos so
mutuamente exclusivos ento:P=1/6+1/6= 2/6 = 1/3
Obs: Na probabilidade da unio de dois eventos A e B, quando h elementos comuns, devemos excluir as
probabilidades dos elementos comuns a A e B (elementos de A B) para no serem computadas duas
vezes.
Assim P(A B) = P(A) + P(B) - P(A B)
2) Retirando-se uma carta de um baralho de 52 cartas, qual a probabilidade da carta retirada ser ou
um S ou uma carta de COPAS?
P(S Copas) = P(S) + P(Copas) - P(S Copas) = 4/52 + 13/52 - 1/52 = 16/52 = 4/13
9.6.1

Exemplos: interseo e reunio de eventos

Considere o seguinte espao amostral S={1,2,3,4,5,6} e os seguintes eventos: A={2, 4, 6},


B={4, 5, 6} e C={1, 3, 5}
Ex.1) A B = sair uma face par e maior que 3
A B = {2, 4, 6} {4, 5, 6} = {4, 6}
Ex.2) A C = sair uma face par e mpar
A C = {2, 4, 6} {1, 3, 5} = (A e C so disjuntos)
Ex.3) A B = sair uma face par ou maior que 3
A B = {2, 4, 6} {4, 5, 6} = {2, 4, 5, 6}
Ex.4) A C = sair uma face par ou mpar
A C = {2, 4, 6} {1, 3, 5} = {1, 2, 3, 4, 5, 6}

41

Prof. Jerry A. Johann

9.7

Estatstica Descritiva, Probabilidades e Inferncia


PROBABILIDADE CONDICIONAL E INDEPENDNCIA

Se A e B so dois eventos de um espao amostral S, com P(B)


0, ento a probabilidade
condicional do evento A, tendo ocorrido o evento B, indicada por P(A/B) e definida pela relao

P(A/B) =

P(A B)
,
P(B)

se P(B)0

Isto , para o clculo da probabilidade condicional de A em relao a B, P(A/B), basta contarmos o


n de casos favorveis ao evento A B e dividirmos pelo n de casos favorveis do evento B.
Exemplos:
1) Um nmero sorteado ao acaso entre os inteiros 1,2,..., 15. Se o n sorteado for par, qual a
probabilidade de que seja o n 6?
S={1,2,3,...,15}
A={o n ser o 6}
B={o n ser par}
Notem que a probabilidade do evento A, sem a informao da ocorrncia de B, P(A)=1/15 = 0,0667 ou
6,67%.
Dada, porm a informao de que o n sorteado foi par, o espao-amostra reduz-se para
S*={2,4,6,8,10,12,14}, e neste espao-amostra que iremos avaliar a probabilidade do evento A. Assim:
AB={6}

B={2,4,6,8,10,12,14}.

P(A/B) =

1
P(A B)
 P(A/B) = = 0,143 ou 14,3%
7
P(B)

P(A/B) l-se: probabilidade de sair o n 6, dado que o n sorteado for par.


2) De um baralho comum de 52 cartas retirou-se uma carta, verificando-se que vermelha. Qual a
probabilidade de essa carta ser uma figura?

A={a carta uma figura} = A={6} {valete, dama ,rei} (copas e ouros)
B={a carta vermelha} = B={26}

P(A/B) =

6
3
P(A B)
= = 0,231 = 23,1%
 P(A/B) =
26 13
P(B)

Observem que h 6 cartas que so figuras e vermelhas, bem como 26 cartas vermelhas.
P(A/B) l-se: probabilidade de sair uma figura, dado que a carta retirada tenha sido vermelha.
3) Consideremos 250 alunos que cursam o primeiro ciclo de uma faculdade. Destes alunos 100 so
homens (H) e 150 so mulheres (M), 110 cursam fsica (F) e 140 cursam qumica (Q). A distribuio
dos alunos a seguinte:
Disciplina

Fsica (F)

Qumica (Q)

TOTAL

Homens (H)

40

60

100

Mulheres (M)

70

80

150

TOTAL

110

140

250

Sexo

Um aluno sorteado ao acaso. Qual a probabilidade de que esteja cursando qumica, dado que
mulher?
Pelo quadro vemos que esta probabilidade de 80

150

e representamos: P(Q/M) = 80

(probabilidade de que o aluno curse qumica condicionado ao fato de ser mulher).

150

Prof. Jerry A. Johann

Se usssemos a expresso de probabilidade condicional teramos: P(Q/M) =


que P(M Q) = 80

250

P(M) = 150

P(M Q)
. Vemos
P(M)

250 . Assim,

P(Q/M) =

9.7.1

42

Estatstica Descritiva, Probabilidades e Inferncia

80

250 = 80 = 0,533 ou 53,3%


150
150
250

Regra do Produto (Independncia)


A partir da definio de probabilidade condicional P(A/B) =

P(A B)
, poder-se- explicitar
P(B)

P(A B) e encontrar a regra do produto para dois eventos que pertenam ao mesmo espao
amostral:

P(A B) = P(B) * P(A/B)

ou

P(A B) = P(A) * P(B/A)

Ento a probabilidade da ocorrncia simultnea de dois eventos de um mesmo espaoamostra igual a probabilidade de um deles ocorrer, pela probabilidade condicional do outro, dado o
primeiro.
Exemplos:
1) Duas cartas so retiradas de um baralho sem haver reposio. Qual a probabilidade de ambas
serem COPAS?
P(Copas1)= 13/52

P(Copas2/Copas1) = 12/51

P(Copas1 e Copas2)= P(Copas1)*P(Copas2/Copas1) = 13/52 x 12/51 = 0,0588 = 5,88%.


Obs:No exemplo anterior se a 1 carta retirada voltasse ao baralho o experimento seria do tipo com
reposio e seria um evento independente. O resultado seria: P(Copas1) x P(Copas2) = 13/52 x 13/52 =
0,625 = 6,25%.
2) Uma urna contm duas 2 bolas brancas (B) e 3 bolas vermelhas (V). Supondo que sorteemos duas
bolas ao acaso, sem reposio. Isto significa que escolhemos a primeira bola, verificamos a sua cor
e no devolvemos urna; misturamos as bolas restantes e retiramos a segunda bola. Atravs do
diagrama em rvore indicaremos a probabilidade de ocorrncia, sendo que para segundas bolas
temos probabilidades condicionais. A probabilidade do resultado conjunto apresentada abaixo:

1/4
2/5
3/5

B
3/4

2/4

Resultados

Probabilidades

BB

2 1 2
* =
5 4 20

BV

2 3 6
* =
5 4 20

VB

3 2 6
* =
5 4 20

VV

3 2 6
* =
5 4 20

TOTAL

2
6
6
6
20
+
+
+
=
=1
20 20 20 20 20

V
2/4

Considerando o mesmo exemplo, entretanto agora vamos sortear a primeira bola e a devolver urna (com
reposio). Desta forma teremos eventos independentes, pois o primeiro evento no tem influncia no
resultado da outro.

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

2/5
2/5
3/5

Probabilidades

BB

2 2 4
* =
5 5 25

BV

2 3 6
* =
5 5 25

VB

3 2 6
* =
5 5 25

VV

3 3 9
* =
5 5 25

TOTAL

4
6
6
9
25
+
+
+
=
=1
25 25 25 25 25

B
V

2/5

V
3/5

9.8

Resultados

3/5

REVISO

Espao amostral do baralho de 52 cartas:

Cartas pretas = 26
Pus = 13 (s, 2, 3, 4, 5, 6, 7, 8, 9, 10, valete, dama, rei)
Espadas = 13 (s, 2, 3, 4, 5, 6, 7, 8, 9, 10, valete, dama, rei)
Cartas vermelhas = 26
Ouros = 13 (s, 2, 3, 4, 5, 6, 7, 8, 9, 10, valete, dama, rei)
Copas = 13 (s, 2, 3, 4, 5, 6, 7, 8, 9, 10, valete, dama, rei)

Fatorial
5! = 5*4*3*2*1=120
5!/3! = (5*4*3!)/3!= 20
(3!*4!)/5! = (3*2*1*4!)/(5*4!) = 3*2*1/5 = 1,2

43

Prof. Jerry A. Johann

10.

44

Estatstica Descritiva, Probabilidades e Inferncia

DISTRIBUIO DE PROBABILIDADES

No captulo anterior introduzimos alguns modelos probabilsticos atravs de espaos amostrais bem
simples, o que facilitou a compreenso. Mas para atender a situaes prticas gerais, necessitamos da
ampliao destes conceitos para que tenhamos modelos probabilsticos que representem todos os tipos de
variveis j definidas. Neste sentido sero conceituadas, analisadas e exemplificadas variveis discretas e
contnuas (qualitativas e quantitativas).
Uma distribuio de probabilidades obtida quando se atribuem valores a todos os possveis
valores de uma varivel aleatria X, tanto por uma listagem como por uma funo matemtica. Assim, uma
varivel aleatria (v.a.) aquela cujos valores so determinados por processos acidentais, ao acaso, que
no esto sob o controle do observador.
No contexto das distribuies de probabilidade, os valores individuais de probabilidade podem ser
designados por f(x) ou P(x), que enfatizam a existncia de uma funo matemtica, por P(x=X), e que a
v.a. pode assumir diversos valores.

10.1

VARIVEIS ALEATRIAS DISCRETAS

Varivel discreta pode ter valores observados somente em pontos isolados ao longo de uma
escala de valores. Em funo de ser obtida por processos de contagem, geralmente so expressos como
nmeros inteiros.
Todos os possveis valores da v.a. discreta podem ser listados numa tabela com as
probabilidades correspondentes. Os especficos modelos discretos de probabilidade so descritos por
distribuies de probabilidade de Bernoulli, Binomial, Hipergeomtrica e de Poisson.
Vamos supor que tenhamos um espao amostral S e que a cada ponto amostral seja atribudo um
nmero. Fica, ento, definida uma funo chamada varivel aleatria.
Assim, se o espao amostral relativo ao "lanamento simultneo de duas moedas" S = {(Ca,Ca),
(Ca,Co), (Co,Ca), (Co,Co)} e se X representa o "nmero de caras" que aparecem, a cada ponto amostral
podemos associar um nmero para X, de acordo com a tabela abaixo:
Ponto Amostral
(Ca,Ca)
(Ca,Co)
(Co,Ca)
(Co,Co)

X
2
1
1
0

P(X)
1/2*1/2=1/4
1/2*1/2=1/4
1/2*1/2=1/4
1/2*1/2=1/4

1/4+1/4=2/4

Logo podemos escrever:


Nmero de caras (X)
2
1
0
Total

P(X)
1/4
2/4
1/4
4/4 = 1

Para melhor compreenso, vamos construir a distribuio de probabilidade a partir de um exemplo.


Imagine que uma indstria tenha informado que de 5% a porcentagem de produtos defeituosos.


Caso uma pea seja amostrada as probabilidades seriam:


P(0) =0,95

(pea boa)

P(1) =0,05

(pea defeituosa)

Caso duas peas sejam amostradas as probabilidades seriam:


Pea 1
P(0) =
P(1) =
P(2) =

Pea 2

0,95

0,95

=0,9025

0,95

0,05

=0,0475

0,05

0,95

=0,0475

0,05

0,05

=0,0025

0,0950

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

45

Com base nisto podemos construir a tabela de distribuio de probabilidades abaixo:


X (n de peas defeituosas)
0
1
2
Total

P(X)
0,9025
0,0950
0,0025
1,00

Assim, conhecendo-se a probabilidade de um evento ocorrer, possvel atravs das diversas


combinaes de resultados possveis possamos chegar a probabilidade de um determinado evento ocorrer.

1) Exemplo: Consideremos a distribuio de freqncias relativa ao nmero de acidentes dirios em uma


determinada rodovia no ms de novembro de 1997:
N Acidentes(X)
0
1
2
3
Total

Freqncia - fi
22
5
2
1
30

Probabilidade - P(X)
0,73
0,17
0,07
0,03
1,00

Construmos tambm acima, uma coluna (3 ) onde aparecem os valores de uma varivel aleatria
X e as suas respectivas probabilidades de determinado evento ocorrer. Em suma, esta coluna obtida da
mesma forma que anteriormente calculvamos a coluna das freqncias relativas, ou seja, representa uma
proporo ou ainda uma probabilidade.
Ao definir a distribuio de probabilidade, estabelecemos uma correspondncia unvoca entre os
valores da varivel aleatria X e os valores da varivel P (probabilidade). Esta correspondncia define uma
funo onde os valores xi (i=1,2,3,...,n) formam o domnio da funo e os valores Pi (i=1,2,3,...,n) o seu
conjunto imagem. Esta funo assim definida denominada de funo da probabilidade e
representada por:
f(x) = P(X=xi)
Onde a funo P(X=xi) determina a distribuio de probabilidade da varivel aleatria X.
Assim, ao lanarmos um dado, a varivel aleatria X, definida por "pontos de um dado", pode-se
tomar os valores 1,2,3,4,5 e 6. Disso, resulta a seguinte distribuio de probabilidades:
X
1
2
3
4
5
6
Total

P(X)
1/6
1/6
1/6
1/6
1/6
1/6
6/6 = 1

Exemplo 2: Na tabela abaixo est registrado o n de caminhonetes solicitadas em uma agncia de aluguel
de carros, durante um perodo de 50 dias.
Demanda
N de dias
Prob.
Valor ponderado
Quadrado pond.
2
(X)
fi
P(X)
X*P(X)
X *P(X)
3
3
0,06
0,18
0,54
4
7
0,14
0,56
2,24
5
12
0,24
1,20
6,00
6
14
0,28
1,68
10,08
7
10
0,20
1,40
9,80
8
4
0,08
0,64
5,12
2
Total
50
1,00
E(X)=5,66
E(X )=33,78
Se considerssemos apenas as 3 primeiras colunas, j poderamos tirar concluses como:
 a probabilidade de serem solicitadas exatamente 7 caminhonetes em um dia aleatoriamente escolhido
no perodo de 0,20 (20%);


a probabilidade de serem solicitadas seis ou mais caminhonetes de 0,56 (56%).

Prof. Jerry A. Johann

10.1.1

46

Estatstica Descritiva, Probabilidades e Inferncia

Valor mdio (esperana matemtica); Varincia e desvio padro

Tal como para conjuntos de dados de amostras e populaes, freqentemente til descrever uma
distribuio de probabilidade em termos de usa mdia e varincia.
No caso de variveis aleatrias, a mdia ser chamada valor esperado ou esperana
matemtica da distribuio de probabilidade. Assim, o valor mdio de uma varivel aleatria discreta X,
denotado por E(X), ser a mdia ponderada de todos os possveis valores da varivel com os respectivos
valores de probabilidade tomados como peso. Assim, o valor esperado de uma distribuio discreta de
probabilidade ser:

E ( X ) = [X*P(X)]
J a varincia de uma varivel aleatria X, denotada por Var(X), calculada em relao a E(X)
como a mdia da distribuio de probabilidade. A forma geral de desvios :

Var ( X ) = [ X E(X)] * P( X )
2

][

Var ( X ) = X 2 * P ( X ) X * P( X )

ou

= E ( X 2 ) [E ( X )]

E o desvio padro por analogia obtido pela DP ( X ) = Var ( X )


Tomando como base estas expresses podemos determinar para o Exemplo 2 acima a mdia e a
varincia. Vejamos:

E ( X ) = [ X*P(X)]  E ( X ) = 5,66

][

Var ( X ) = X 2 * P( X ) X * P ( X )  Var ( X ) = 33,78 (5,66) 2 = 1,74


2

DP ( X ) = Var ( X )  DP( X ) = 1,74 = 1,32


Assim, considerando-se a distribuio de probabilidade da demanda por caminhonetes de aluguel, o
valor esperado ser de 5,66 caminhonetes. A varincia tem um valor de 1,74 caminhonetes e por
conseqncia 1,32 caminhonetes de desvio padro.

10.1.2

Distribuio Binomial

Este tipo de distribuio aplicvel sempre que o processo de amostragem do tipo do de


Bernoulli. Um processo Bernoulli um processo de amostragem no qual:


Em cada tentativa existem dois resultados possveis mutuamente exclusivos. Eles so chamados, por
convenincia de sucesso ou fracasso (insucesso);

As sries de tentativas, ou observaes, so constitudas de eventos independentes, isto , o


resultado de uma no deve afetar os resultados das sucessivas.

A probabilidade de sucesso (p), e por conseqncia de fracasso (p) [q=1- p] permanece constante de
tentativa para tentativa, ou seja, o processo estacionrio.

Assim, a distribuio Binomial pode ser utilizada para determinar a probabilidade de se obter um
dado n de sucessos em um processo de Bernoulli. Desta forma, 3 valores so necessrios: o n de
sucessos (X); o n de tentativas ou observaes (n); e a probabilidade de sucesso em cada tentativa (p).
Os problemas de distribuio Binomial so do tipo determinar a probabilidade de um certo n de
sucessos X em n tentativas e dado pela seguinte frmula:

P( x) =

( )* p
n
x

* q n x

onde:
P(X)probabilidade de que o evento se realize x vezes em n provas;
p probabilidade de que o evento se realize em uma s prova (sucesso);
q probabilidade de que o evento no se realize no decurso dessa prova (fracasso).

Prof. Jerry A. Johann

47

Estatstica Descritiva, Probabilidades e Inferncia

( )  o coeficiente Binomial de n sobre x, igual a


n
X

n!
x!*(n x)!

OBS: O nome binomial devido frmula, pois representa o termo geral do desenvolvimento do binmio de
Newton.
Exemplos:
1- Uma moeda lanada 5 vezes seguidas e independentes. Calcule a probabilidade de serem
obtidas 3 caras nessas 5 provas.
n=5 X=3
Se a probabilidade de obtermos cara numa s prova (sucesso) p=1/2=0,5 e a probabilidade de no
obtermos cara numa s prova (fracasso) q=1-(1/2)=1/2=0,5. Ento:

P(X = 3) =
P(X = 3) =

( )* p
5
3

* q 53 =

( )* p
5
3

* q2

5 * 4 * 3!
5 * 4 * 3!
* (0,5) 3 * (0,5) 2 =
* (0,5) 3 * (0,5) 2
3!*(5 3)!
3!*(2*1)!

P(X = 3) = 10 * 0,125* 0,25 = 0,3125 = 31,25%

2- Dois times de futebol, A e B, jogam entre si 6 vezes. Encontre a probabilidade de o time A ganhar
4 jogos.
n=6 X=4
Neste caso existem trs possibilidades, que o time A ganhe, que ele perca ou que ele empate. Desta forma
a probabilidade de que o time A ganhe (sucesso p) ser de p=1/3, e a probabilidade de fracasso q
(perca ou empate) ser de q=1-1/3=2/3. Ento:

P(X = 4) =

( )* p
6
4

* q 6-4 =

( )* p
6
4

* q2

6 * 5 * 4! 1 2
6 * 5 * 4! 1 2
P(X = 4) =
* * =
* *
4!*(6 - 4)! 3 3
4!*(2 *1)! 3 3

P(X = 4) = 15 * 0,0123 * 0,444 = 0,0823 = 8,23%


3- Determine a probabilidade de obtermos exatamente 3 caras em 6 lances de uma moeda.
4- Dois times de futebol, A e B, jogam entre si 6 vezes. Encontre a probabilidade de o time A :
a- ganhar dois ou trs jogos;
n=6 X=2 e X=3
Neste caso existem trs possibilidades, que o time A ganhe, que ele perca ou que ele empate. Desta forma
a probabilidade de que o time A ganhe (sucesso p) ser de p=1/3, e a probabilidade de fracasso q
(perca ou empate) ser de q=1-1/3=2/3.
Para X=2 temos:

P(X = 2) =

( )* p
6
2

* q 6-2 =

( )* p
6
2

P(X = 2) =

* q4

6 * 5 * 4! 1 2
6 * 5 * 4! 1 2
* * =
* *
2!*(6 - 2)! 3 3
2 *1!*(4!) 3 3

P(X = 2) = 15 * 0,111* 0,1975 = 0,3292 = 32,92%


Para X=3 temos:

P(X = 3) =

( )* p
6
3

* q 6 -3 =
3

( )* p
6
3

* q3

6!
6 * 5 * 4 * 3! 1 2
6 * 5 * 4 * 3! 1 2
1 2
P(X = 3) =
* * =
* * =
* *
3!*(6 - 3)! 3 3
3!*(6 - 3)! 3 3
3!*(3* 2 * 1!) 3 3

P(X = 3) = 20 * 0,037 * 0,296 = 0,2195 = 21,95%


Desta forma, a probabilidade do time A ganhar 2 ou 3 jogos ser:
P(x=2) P(x=3) = 0,3292+0,2195 = 0,5487 = 54,87%

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

48

b- ganhar pelo menos um jogo;


Neste caso a soluo mais prtica consiste em encontrarmos a probabilidade do time A no ganhar, ou seja
X=0. Vejamos:

P(X = 0) =

( )* p
6
0

* q 6 -0 =

( )* p
6
0

P(X = 0) =

* q6

6!
6!
1 2
1 2
2
* * =
* * = 1 *1 *
0!*(6 - 0)! 3 3
0!*(6!) 3 3
3

P(X = 0) = 1 *1 * 0,0878 = 0,0878 = 8,78%


Sabemos ento que a probabilidade do time A no ganhar nenhum jogo do time B 8,78%. Desta forma, a
probabilidade do time A ganhar pelo menos um jogo P(X
1)=1-0,0879 = 0,9122 = 91,22%.
5- A probabilidade de que um presumvel cliente aleatoriamente escolhido faa uma compra 0,20.
Se um vendedor visita 6 presumveis clientes, a probabilidade de que ele far exatamente 4 vendas
determinada da seguinte maneira.
n=6 X=4
p=0,20 q=0,80

P(X = 4) =

( )* p
6
4

* q 6- 2 =

( )* p
6
4

*q2

6!
6!
4
2
4
2
* (0,20 ) * (0,80)
* (0,20 ) * (0,80 )
4!*(6 - 4)!
4!*(2!)
6 * 5 * 4 * 3 * 2!
4
2
P(X = 4) =
* (0,20) * (0,80) = 15 * (0,0016) * (0,64) = 0,01536 1,54%
(4 * 3 * 2) * 2!

P(X = 4) =

6- Se a probabilidade de um possvel cliente realizar uma compra 0,20 (20%), ento a probabilidade
de um vendedor que visita 15 clientes presumveis realizar menos do que 3 vendas :
Utilizando a tabela para n=15; p=0,20 e P(X<3) teremos
P(X<3) = P(X 2) P(X=0)+ P(X=1)+ P(X=2)
P(X 2)= 0,0352 + 0,1319 + 0,2309 = 0,3980 39,8%
O valor mdio e a varincia para uma distribuio Binomial podem ser determinados listando-se a
distribuio de probabilidade em uma tabela e aplicando as frmulas apresentadas na seo onde estes
dois parmetros foram definidos. Contudo, pode-se calcular diretamente o n esperado de sucessos e a
varincia pelas seguintes frmulas:

E( X ) = n * p ;

Mdia 

Varincia 

Var ( X ) = n * p * q

Assim, para o exerccio 6 teramos:

E ( X ) = 15 * 0,20 = 3,0

Mdia 

Varincia 

10.1.3

vendas.

Var( X ) = 15 * 0,20 * 0,80 = 2,4

vendas.

Distribuio de Poisson

Este tipo de distribuio largamente empregado quando se deseja contar o nmero de eventos
de um certo tipo, que ocorrem em um intervalo de tempo, ou superfcie ou volume. Assim, esta distribuio
tambm conhecida como distribuio de eventos raros, tais como:


N de chamadas telefnicas recebidas por um PBX durante um intervalo de tempo;

N de falhas de um computador em um dia de operao;

N de relatrios de acidentes enviados a uma companhia de seguros em uma semana.

O processo de Poisson similar ao de Bernoulli e sendo assim, supe-se que os eventos sejam
independentes e o processo seja estacionrio.
utilizado quando conhecemos o n de sucessos, porm se torna difcil ou sem sentido
determinarmos o n de fracassos ou o n total de provas. Vejamos: considere o n de emendas em um rolo

Prof. Jerry A. Johann

49

Estatstica Descritiva, Probabilidades e Inferncia

de fita adesiva, podemos saber quantas emendas possui, porm no saberemos contar quantas emendas
no ocorreram.
Aqui, necessitamos apenas do n mdio de sucessos para uma especfica dimenso de tempo ou
de espao de interesse. Este n mdio representado por (lambda). A frmula para se determinar a
probabilidade de um dado n x de sucessos em uma distribuio de Poisson :

P( x | ) =

x * e
x!

onde:
P(x=)probabilidade de que o evento se realize x vezes no espao de tempo estudado;

 lambda, n mdio de sucessos para a especfica dimenso de tempo ou espao;


e  constante 2,7183 usada em conexo com os logaritmos naturais;
A freqncia mdia do fenmeno
intervalo e a mdia de cada evento.

ento a mdia da varivel ser

O valor mdio e a varincia para uma distribuio de Poisson :

= *t

onde t o

E ( X ) = Var ( X ) = ;

Exemplos:
1- Um PBX recebe um mdia de 5 chamadas por minuto. Supondo que as chamadas que chegam
constituam uma distribuio de Poisson, obter a probabilidade de que o PBX no receba chamadas
durante um intervalo de um minuto.
=5 chamadas por minuto e X=0 ento:

5 0 * e 5
P( X | ) =
 P ( X = 0 | = 5) =
X!
0!
P ( X = 0 | = 5) = 0,0067 = 0,67%

X * e

2 - Sabe-se por experincia que 1,5% das pastilhas de freio fabricadas por determinada empresa
apresentam defeitos. O controle de qualidade da empresa resolveu escolher ao acaso 100 peas de
pastilhas. Determine a probabilidade de que:
a) pelo menos 2 peas apresentem defeitos
=1,5% = 0,015
t= 100 peas (intervalo)
X=0 e X=1

= 0,015 *100

1,5 0 * e 1, 5

0!
1,51 * e 1,5

P ( X = 1) =
1!
P ( X = 0) =

= 1,5

P ( X = 0) = 0,2231
P ( X = 1) = 0,3347

Assim, P ( X < 2) = 0,2231 + 0,3347  P ( X < 2) = 0,5578


Pelo complementar, temos  [1-P(X<2)] = 1-0,5578 = 0,4422 = 44,22%
Conclui-se ento que existe a probabilidade de 44,22% de pelo menos 2 peas apresentarem defeitos.
b) no mximo 2 peas sejam defeituosas.
X=0 X=1 e X=2
P(X=0)=0,2231
P(X=1)=0,3347

P ( X = 2) =

1,5 2 * e 1,5
2!

P(X = 2) = 0,2510

Assim, P(X 2)= P(X=0) + P(X=1) + P(X=2)


P(X 2) = 0,2231 + 0,3347 + 0,2510 = 0,8089 = 80,90%
Ento a probabilidade e obtermos no mximo 2 peas defeituosas de 80,9%.

Prof. Jerry A. Johann

10.2

Estatstica Descritiva, Probabilidades e Inferncia

50

VARIVEIS ALEATRIAS CONTNUAS

Suponha que X uma varivel aleatria cujo nmero de valores possveis de X um intervalo, por
exemplo 0 x 1, ou uma coleo de intervalos. Neste caso a v.a. contnua. Assim, uma varivel
contnua pode assumir um valor em qualquer ponto fracionrio ao longo do intervalo especificado de
valores e so gerados por processos de medio.
Desta forma, para uma v.a. contnua todos os possveis valores fracionrios da varivel no podem
ser listados e desta forma as probabilidades determinadas por uma funo matemtica so retratadas aqui
por uma funo densidade ou por uma curva de probabilidade. A proporo de rea includa entre dois
pontos quaisquer, debaixo da curva de probabilidade, identifica a probabilidade de que a v.a. contnua
selecionada assuma um valor entre tais pontos.
Seja X uma v.a. contnua. A funo densidade de probabilidade (f.d.p.) f(x) uma funo que
satisfaz as seguintes condies:



.f(x) 0 (no negativa);

f ( x) dx = 1

Vrias distribuies de probabilidade contnuas especficas so aplicveis a uma ampla variedade


de variveis contnuas sob certas circunstncias. Portanto, foram preparadas tabelas de probabilidade para
tais distribuies contnuas, tornando desnecessrio que o estatstico aplicado se veja envolvido com
integraes de reas sob curvas de probabilidade. Neste sentido ser aqui abordada somente a distribuio
de probabilidades contnuas normal, embora tenhamos ainda a uniforme, exponencial, gama, quiquadrado, t-student, F-Snedecor, elas no sero aqui abordadas.
10.2.1

Distribuio Normal

Entre as distribuies tericas de varivel aleatria contnua, uma das mais empregadas a
distribuio normal de probabilidades. Suas origens remontam a Gauss em seus trabalhos sobre erros
de observaes astronmicas, por volta de 1810, por isto o nome de distribuio gaussiana para tal modelo.
A distribuio de probabilidade normal importante na inferncia estatstica por trs razes distintas:


As medidas produzidas em diversos processos aleatrios seguem esta distribuio;

Probabilidades normais podem ser usadas freqentemente como aproximaes de outras distribuies
de probabilidade, tais como as distribuies Binomial e de Poisson;

As distribuies estatsticas da amostra tais como a mdia e a proporo, seguem freqentemente a


distribuio normal independentemente da distribuio da populao.

Propriedades da distribuio normal




A varivel aleatria X pode assumir todo e qualquer valor real;

Dizemos que a v.a. X tem distribuio normal com parmetros e com - << + e com 0 < <
+, se sua densidade for dada por:
2

f x; ,


2
1
( x )2 / 2
=
*e
2

para - < x < +

A representao grfica da distribuio normal uma curva em forma de sino, simtrica e


mesocrtica, que recebe o nome de curva normal ou de Gauss;

f(x)

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

51

A rea total limitada pela curva e pelo eixo das abscissas igual a 1, j que essa rea corresponde
probabilidade de a varivel aleatria X assuma qualquer valor real.

A curva normal assinttica em relao ao eixo das abscissas, isto , aproxima-se indefinidamente do
eixo das abscissas sem, contudo, alcan-la;

Como a curva simtrica em torno da mdia, a probabilidade de ocorrer valor maior que a mdia
igual probabilidade de ocorrer valor menor do que a mdia, isto , ambas as probabilidades so iguais
a 0,5 ou 50%. Cada metade da curva representa 50% de probabilidade.

As tabelas de probabilidade normal so baseadas em uma distribuio normal padronizada (=0


e =1). Assim, qualquer conjunto de valores x normalmente distribudo pode ser convertido em valores
normais padronizados (z) pelo uso da seguinte frmula:

z=

(x x )
s

onde:
Z= distribuio normal padronizada
x=varivel aleatria

x = mdia da varivel aleatria contnua


s = desvio padro da v.a. contnua.
As estimativas da mdia( x ) e desvio padro (s) so obtidos da mesma forma que obtnhamos
quando do clculo de dados agrupados e no-agrupados.
Assim, quando temos em mos uma v.a. com distribuio normal, nosso principal interesse obter
a probabilidade de que essa v.a. assuma um valor em um determinado intervalo.
Exerccios
1 - Seja X a v.a. que representa os dimetros dos parafusos produzidos por certa mquina. Vamos
supor que essa varivel tenha distribuio normal com mdia x =2cm e desvio padro s=0,04cm.
Qual a probabilidade de um parafuso ter o dimetro com valor entre 2 e 2,05 cm ?
P (2 < X < 2,05) = ?
Com o auxlio de uma distribuio normal reduzida, resolveremos o problema atravs da varivel z.
Assim, utilizar-se- a tabela normal reduzida, que nos d a probabilidade de z tomar qualquer valor entre a
mdia 0 e um dado valor z, isto : P(0<Z<z)
Temos, ento, que se X uma v.a. com distribuio normal de mdia e desvio padro, podemos escrever:
P( x <X<x) = P(0<Z<z)
No nosso problema queremos calcular P(2<X<2,05). Para obter esta probabilidade, precisamos em primeiro
lugar, calcular o valor de z que corresponde a x=2,05

z=

(X x )
s

z=

(2,05 2,0) = 1,25


0,04

Utilizao da Tabela Z
Procuremos, agora, na tabela Z o valor de z=1,25
Na primeira coluna encontramos o valor at uma casa decimal=1,2. Em seguida, encontramos na primeira
linha, o valor 5, que corresponde ao ltimo algarismo do nmero 1,25. Na interseo da linha e coluna
correspondentes encontramos o valor 0,3944, o que nos permite escrever:
P(0<Z<1,25)=0,3944 ou seja 39,44% assim a probabilidade de um certo parafuso apresentar um dimetro
entre a mdia = 2cm e x=2,05cm de 39,44 %.
2 - Determine as probabilidades:
a) P(-1,25 < Z < 0)

b) P(-0,5 < Z < 1,48)

c) P(0,8 < Z < 1,23)

d) P(-1,25 < Z < -1,20) =

e) P( Z < 0,92)

f) P(Z > 0,6) =

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

52

3- Os salrios dos bancrios so distribudos normalmente, em torno da mdia R$ 10.000,00, com


desvio padro de R$ 800,00. Calcule a probabilidade de um bancrio ter o salrio situado entre R$
9.800,00 e R$ 10.400,00.
Devemos inicialmente calcular os valores z1 e z2,

z1 =

(9800 10000) = 0,25


800

z2 =

(10400 10000) = 0,50


800

P(9800< X <10400) = P(-0,25< Z <0,5) =


P(-0,25< Z <0) + P(0< Z <0,5) = 0,0987 + 0,1915 = 0,2902 ou 29,02 %
Tabela de Distribuio Z normal

BIBLIOGRAFIA:
a
BUSSAB, Wilton O.; MORETTIN, Pedro A. Estatstica Bsica: mtodos quantitativos. 4 ed. So
Paulo:Atual, 1987, 321p.
CRESPO, Antnio Arnot. Estatstica fcil. So Paulo:Saraiva, 1996, 224p.
COSTA, Jos de Jesus da Serra. Elementos de probabilidade. Rio de Janeiro:Campus, 1981, 253p.
MARTINS, Gilberto de Andrade. Estatstica Geral e Aplicada. So Paulo: Atlas, 2001, 417p.
a
MORETTIN, Luiz Gonzaga. Estatstica Bsica: probabilidade. 7 ed. vol 1, So Paulo: Makron Books,
1999, 209p.
a
SPIEGEL, Murray R. Estatstica. 3 ed. So Paulo:Makron Books, 1993, 629p.

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

53

11. INTRODUO INFERNCIA ESTATSTICA


Na estatstica, a observao a essncia e o seu objetivo bsico a inferncia, ou seja, como fazer
afirmaes sobre caractersticas de uma populao, baseando-se em resultados de uma amostra. O uso de
informaes da amostra para concluir sobre o todo faz parte da atividade diria da maioria das pessoas.
Basta observar como uma cozinheira verifica se o prato que ela est preparando tem ou no a quantidade
adequada de sal. Essa deciso baseada em procedimento amostral.
A Inferncia estatstica trabalha com dois tipos de problemas:
1. Estimao de parmetros de uma populao
2. Teste de hipteses.
Inferir significa deduzir como conseqncia ou probabilidade. Por exemplo, algum foi mal em
um teste, disso pode-se inferir, com maior probabilidade, que no conhecia o assunto.
Em uma primeira etapa a estatstica encarrega-se de coletar dados, fazer sua reduo, anlise e
modelagem para, a partir da, inferir ou tirar concluses a respeito da populao de onde os dados foram
obtidos. Tais concluses se baseiam em processos de inferncia estatstica, que por sua vez determinam
condies que devem reger a coleta de dados amostrais, para que destes se estimem os parmetros de
populao.
Populao: um conjunto de indivduos ou objetos que apresentam pelo menos uma caracterstica em
comum (parmetro).
Amostra: um subconjunto da populao (estatstica).
Observao: a mdia e o desvio padro relativos a uma varivel da populao, so chamadas de
parmetro, e so representadas respectivamente pelos smbolos e . J quando estamos trabalhando
com uma varivel amostral a mdia e o desvio padro, sero chamadas de estatstica, e representadas
por

e s.
PARMETROS POPULAIONAIS

ESTIMATIVAS AMOSTRAIS

Mdia

Varincia

Desvio Padro

S2

Proporo

N de dados

f
n

11.1 AMOSTRAGEM DISTRIBUIES AMOSTRAIS


A teoria da amostragem tem por finalidade desenvolver mtodos de seleo amostral e estimao
que forneam as estimativas suficientemente precisas para o nosso propsito, com o custo mnimo. Isto
porque em determinados casos praticamente impossvel para o pesquisador observar todos os elementos
do grupo que pretende estudar (populao). Embora sempre se corra o risco de chegar a concluses
erradas quando se faz uma amostra de uma populao, este risco diminui medida que aumenta a
quantidade de elementos a serem examinados. Sendo assim, importante que se estabelea critrios de
seleo destes elementos, que o mtodo de escolha da amostra garanta a representatividade do grupo
que se est estudando e que a amostra possua caractersticas bsicas da populao no que diz respeito
(s) varivel(is) que se deseja pesquisar.
Os problemas de amostragem podem ser mais ou menos complexos e sutis, dependendo das
populaes e das variveis que se deseja estudar. Na indstria, onde as amostras so freqentemente
retiradas para efeito de controle da qualidade dos produtos e materiais, em geral os problemas de
amostragem so mais simples de resolver. Por outro lado, em pesquisas sociais, econmicas ou de opinio,
a complexidade dos problemas de amostragem normalmente bastante grande.

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

54

Em resumo, a obteno de solues adequadas para o problema de amostragem exige, em geral,


muito bom senso e experincia. E sempre interessante que o estatstico esteja trabalhando em equipe
com algum que conhea o assunto em questo.


Vantagens da amostra:

Custo reduzido: pois os dados so obtidos de apenas uma parte da populao, diminuindo assim os
custos envolvidos no processo.
Maior rapidez: pelo mesmo motivo, os dados podem ser coletados e sintetizados mais rapidamente por
amostragem, que por contagem completa, principalmente quando se necessita de informaes urgentes
Maior praticabilidade: pois uma contagem completa pode ser impraticvel;
Maior exatido: em virtude de se poder empregar pessoal treinado e equipamento especializado na
obteno dos dados.
Entretanto, em problemas envolvendo amostras, antes de tomarmos uma deciso, teramos que
responder a trs perguntas:
Como escolher a amostra?
Que informao pertinente (estatstica) ser retirada da amostra?
Como se comporta a estatstica quando o mesmo procedimento de escolher a amostra usado
numa populao conhecida?
Em resumo, a obteno de solues adequadas para o problema de amostragem exige, em geral,
muito bom senso e experincia. E sempre interessante que o estatstico esteja trabalhando em equipe
com algum que conhea o assunto em questo.


Tipos de planos amostrais:

Amostras probabilsticas ou aleatrias: uma amostra probabilstica quando o esquema de amostragem


usado permite atribuir a cada elemento da populao uma probabilidade conhecida, diferente de zero, de
entrar para a amostra. com apenas este tipo de amostra, que se pode utilizar processos estatsticos para
se fazer inferncias, pois somente neste caso pode-se avaliar a probabilidade do erro amostral. Segundo
essa definio, a amostragem probabilstica implica num sorteio com regras bem determinadas, cuja
realizao s ser possvel se a populao for finita e totalmente acessvel.
Amostras no-probabilsticas: aqui esto as amostras intencionais, onde os elementos so
selecionados com auxlio de especialistas, e amostras de voluntrios, como ocorre em alguns testes
sobre novos remdios.
As tcnicas de Estatstica Indutiva pressupem que as amostras
utilizadas sejam
probabilsticas. A utilizao de uma amostragem probabilstica recomendada para que se mantenha a
representatividade da amostra, pois o acaso ser o nico fator responsvel por eventuais discrepncias
entre a populao e a amostra, o que levado em considerao pelos mtodos de anlise Estatstica
Indutiva..
Pode-se recorrer a diferentes formas de amostragem probabilstica: Amostragem Aleatria Simples;
Amostragem Sistemtica; Amostragem por Meio de Conglomerados; Amostragem Estratificada (uniforme,
proporcional e tima); ou ainda Amostragem Mltipla.
11.1.1 Amostragem Aleatria Simples - AAS
Caractersticas
Tambm conhecida por amostragem simples ao acaso, casual, simples, elementar, randmica;
equivalente a um sorteio lotrico;
o
o
Cada elemento da populao tem probabilidade n/N (n de elementos da amostra/ n de elementos da
populao) de pertencer a amostra, isto chama-se de frao de amostragem;
Vantagens
Todos os elementos da populao tm igual probabilidade de pertencer amostra, e todas as
possveis amostras tem tambm probabilidade de ocorrer;
A amostragem simples ao acaso pode ser realizada numerando-se a populao de 1 a N;
Desvantagens
Processo no muito prtico para grandes populaes;

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

55

Exemplo
Problema: Considere uma populao de 300 alunos para verificarmos o nvel de escolaridade.
R. Neste caso deveramos elaborar uma lista de nomes de 300 alunos cada qual vinculado a um nmero,
por exemplo, Paulo = 52, Chica = 256, e assim por diante. Digamos que desejamos analisar uma amostra
casual simples de 30 alunos. Existem vrias formas de fazermos este sorteio aleatrio. Podemos por
exemplo utilizar a funo randmica (RND) que sorteia nmeros aleatrios, sendo os nmeros tomados
com trs casas decimais. Os nmeros sorteados acima de 0,300 (300 alunos = populao) descartam-se e
repete-se o sorteio at atingirmos a amostra de 30 nmeros que consequentemente sero os alunos
sorteados ao acaso para a amostra. Por exemplo utilizando a tecla RND da calculadora obtivemos os
seguintes nmeros:
0,059 = 59
0,132 = 132
.
.
0,049 = 49
e assim por diante at completar os 30 valores das amostras.
Uma outra forma de realizarmos uma amostragem casual simples, fazer uso da tabela dos nmeros
aleatrios. Nesta, sorteia-se uma coluna ou uma linha da tabela que ser o ponto de partida para seleo
da amostra. Para o nosso exemplo, como temos 300 alunos, do ponto de partida destacam-se nmeros de
a
3 algarismos. Utilizando a tabela de nmeros aleatrios, se o ponto de partida fosse, por exemplo, a 15
linha, teramos:
403 613 278 430 823 336 396 944 205 586 461 123 389 278 952 667 193
assim, os seguintes alunos seriam os sorteados para comporem a amostra: 278, 205, 123, 193, ... e assim
por diante, at selecionar os 30 alunos.
11.1.2 Amostragem Sistemtica - AS
Caractersticas
Ocorre quando temos os elementos de uma populao ordenada, e a retirada dos elementos da
amostra feita periodicamente. Este o caso de fichas de um fichrio, listas telefnicas, etc..
Vantagens
simples de ser realizada e, no caso de amostras muito grandes, acarreta economia de tempo e
dinheiro;
Grande facilidade de determinao dos elementos da amostra.
Desvantagens
Perigo de existncia de ciclos de variao da varivel de interesse, especialmente se o perodo desses
ciclos coincidir com o perodo de retirada dos elementos da amostra.
Exemplo
Supondo o mesmo exemplo dado acima, para organizar uma amostragem sistemtica, sorteamos um
nmero de 0 a 9, ao acaso. Supondo que o nmero sorteado tenha sido 8. Este ser o primeiro
elemento da amostra e os demais sero determinados em intervalos de 10 unidades (frao da
amostragem 300/30 = 10), Assim a amostra seria:
8 18 28 38 48 58 68 78 88 98 108 118 128 138 148
158 168 178 188 198 208 218 228 238 248 258 268 278 288 298
Assim os 30 alunos cujos nomes correspondem aos nmeros sorteados constituiriam a amostra.
Numa linha de produo, podemos a cada dez itens produzidos, retirar uma para pertencer a uma
amostra da produo diria.

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

56

11.1.3 Amostragem Estratificada - AE


Caractersticas
Uma amostra ser estratificada quando existir grande variabilidade entre grupos da populao e
pequena variabilidade dentro de cada grupo. Neste caso cada grupo ser considerado um estrato e
retira-se de cada grupo uma amostra casual simples. Ou ainda, considera uma populao subdividida
em sub-populaes ou estratos, onde de estrato para estrato, a varivel apresenta um comportamento
diferente, e dentro de cada estrato um comportamento homogneo;
Esta amostragem consiste em especificar quantos elementos da amostra so retirados de cada estrato;
Temos 3 tipos de amostragem estratificada: uniforme; proporcional e tima;
Na uniforme sorteia-se igual nmero de elementos em cada estrato;
Na proporcional o nmero de elementos sorteados em cada estrato proporcional ao nmero de
elementos existentes no estrato;
J a tima, considera em cada estrato, um nmero de elementos proporcional ao nmero de
elementos do estrato e tambm o seu desvio padro. Pretende-se assim otimizar a obteno de
informaes sobre a populao, com base no princpio de que, onde a variao menor, menos
elementos so necessrios para bem caracterizar o comportamento da varivel.
Vantagens
A AE tima utilizada quando a variao menor (desvio padro) com base nas informaes sobre a
populao, pois desta forma, onde a variao for menor poderemos pegar um nmero menor de
elementos para avaliarmos o comportamento da varivel.
Desvantagens
A AE uniforme recomendvel apenas se os estratos da populao forem aproximadamente do
mesmo tamanho, caso contrrio prefervel a AE proporcional;
Exemplo
Uma amostragem estratificada recomendada para estratificao de uma cidade em bairros, quando se
deseja investigar alguma varivel relacionada a algum interesse da cidade (renda familiar, estratificao
humana em homens e mulheres, ou por faixas etrias, etc..).
11.1.4 Amostragem por Meio de Conglomerados
Caractersticas
Consiste em agrupar uma populao N em subgrupos menores chamados conglomerados, e
selecionar amostras nesses subgrupos, a qual consiste no sorteio de um nmero suficiente de
conglomerados, cujos elementos constituiro a amostra. Ou seja, as unidades de amostragem, sobre
as quais feito o sorteio, passam a ser os conglomerados e no mais os elementos individuais da
populao.
Vantagens
Amostragem utilizada por motivos de ordem prtica e econmica.
Exemplo
Problema 1: Um estatstico contratado pela prefeitura deseja estimar a renda mdia por domiclio em uma
determinada cidade do estado Paran. Como ele deve escolher a amostra?
R. Se ele utilizar a amostragem aleatria simples (AAS), precisar ter uma lista com todos os domiclios
desta cidade (soluo muitas vezes impossvel ou muito cara). Se utilizar ento a amostragem
estratificada, ele tambm precisar desta lista contendo todos os domiclios em cada estrato. Porm, ele
utilizando esta amostragem por conglomerados, poderia dividir a cidade em regies tais como quarteires,
bairros (conglomerados de elementos) e selecionar uma AAS de bairros da populao. Depois poderia
observar a renda de todos os domiclios dentro de cada bairro. Vemos que desta forma o custo de se
realizar esta entrevista seria menor, pois os elementos dentro de um conglomerado deveriam estar
geograficamente mais prximos uns dos outros, diminuindo assim as despesas com transporte.
Problema 2: Pretende-se fazer uma pesquisa de opinio, envolvendo famlias de uma determinada cidade.
Como muito difcil obter um cadastro de todas as famlias, pode-se planejar uma amostra da seguinte
forma: com um mapa da cidade delimita-se os bairros e as quadras; toma-se como unidade amostral,
primeiramente os bairros e dentre eles sorteia-se uma amostra casual simples. Em seguida, tomando-se
como unidade amostral, as quadras dos bairros selecionadas fazem-se, novamente, um sorteio. Ao
conjunto de famlias que habitam as quadras sorteadas d-se o nome de conglomerado, sendo elas que
sero investigadas na pesquisa.

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

57

11.1.5 Amostragem Mltipla


Caractersticas

Nesta amostragem uma amostra retirada em diversas etapas sucessivas. Dependendo dos
resultados observados, etapas suplementares podem ser dispensadas.
Vantagens
Sua finalidade e vantagem diminuir o nmero mdio de itens inspecionados a longo prazo, baixando
assim o custo de inspeo.
TABELA DOS NMEROS ALEATRIOS

Prof. Jerry A. Johann

58

Estatstica Descritiva, Probabilidades e Inferncia

11.2 EXEMPLOS (AMOSTRAGEM).


1) Selecionar ao acaso 20 reas quadradas de 100 m de lado numa superfcie de 3000 x 2000metros.
a) Representar graficamente o resultado.
1
2
3
4
5
6
EIXO Y (2000 m)

7
8
9
10
11
12
13
14
15
16
17
18
19
20
1

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

EIXO X (3000 m)

Figura 01 rea de amostragem numa matriz de 20 linhas x 30 colunas, totalizando 600 parcelas quadradas de 100m.

28

29

30

Prof. Jerry A. Johann

59

Estatstica Descritiva, Probabilidades e Inferncia

EIXO Y (2000 m)

b) Como se pode realizar as amostragens com o computador?


1

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

10

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

11

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

12

331

332

333

334

335

336

337

338

339

340

341

342

343

344

345

346

347

348

349

350

351

352

353

354

355

356

357

358

359

360

13

361

362

363

364

365

366

367

368

369

370

371

372

373

374

375

376

377

378

379

380

381

382

383

384

385

386

387

388

389

390

14

391

392

393

394

395

396

397

398

399

400

401

402

403

404

405

406

407

408

409

410

411

412

413

414

415

416

417

418

419

420

15

421

422

423

424

425

426

427

428

429

430

431

432

433

434

435

436

437

438

439

440

441

442

443

444

445

446

447

448

449

450

16

451

452

453

454

455

456

457

458

459

460

461

462

463

464

465

466

467

468

469

470

471

472

473

474

475

476

477

478

479

480

17

481

482

483

484

485

486

487

488

489

490

491

492

493

494

495

496

497

498

499

500

501

502

503

504

505

506

507

508

509

510

18

511

512

513

514

515

516

517

518

519

520

521

522

523

524

525

526

527

528

529

530

531

532

533

534

535

536

537

538

539

540

19

541

542

543

544

545

546

547

548

549

550

551

552

553

554

555

556

557

558

559

560

561

562

563

564

565

566

567

568

569

570

20

571

572

573

574

575

576

577

578

579

580

581

582

583

584

585

586

587

588

589

590

591

592

593

594

595

596

597

598

599

600

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

EIXO X (3000 m)

Figura 02 rea amostral com as parcelas numeradas de 1 a 600.


A amostragem por computador pode ser feita atravs de uma rotina que sorteia um nmero randmico. Consegue-se isto com a utilizao do aplicativo
Excel utilizando sua funo Gerao de Nmeros Aleatrios. A seguir temos o caminho para chegarmos a esta funo:
No menu acione Ferramentas Anlise de Dados Gerao de Nmeros Aleatrios, a tela apresentada mostrada abaixo:

Prof. Jerry A. Johann

60

Estatstica Descritiva, Probabilidades e Inferncia

Figura 03 Tela mostrada no Excel para gerao de Nmeros Aleatrios


Onde:
Nmero de variveis = 1 (apenas um varivel, a rea quadrada de 100m);
Nmero de nmeros variveis = 20 (amostra);
Distribuio = Uniforme (caracterizada por limites inferiores e superiores. As variveis so tiradas com probabilidade igual de todos os valores no intervalo.
Geralmente usa-se o intervalo de 0 1).
A seguir define-se o intervalo de sada, que o local onde os 20 valores aleatrios sero colocados. O prximo passo utilizarmos a equao

N Sorteado = Int (RND * 600 ) + 1 para calcularmos os valores sorteados, obtendo-se assim os valores entre 1 e 600, conforme tabela abaixo. Os nmeros
sorteados esto apresentados em vermelho na Figura 04 e tambm esto relacionados abaixo:
0

N. Amostra
1
2
3
4
5
6
7
8
9
10

RND
0.935
0.858
0.198
0.100
0.370
0.912
0.889
0.677
0.073
0.347

Valor Calc.
561
516
119
61
223
548
534
407
44
209

N. Amostra
11
12
13
14
15
16
17
18
19
20

RND
Valor Calc.
0.415
250
0.215
129
0.281
169
0.766
460
0.526
316
0.297
179
0.236
142
0.952
572
0.840
504
0.662
398

Prof. Jerry A. Johann

61

Estatstica Descritiva, Probabilidades e Inferncia

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

Figura 04 Grid com as 20 reas amostrais selecionadas aleatoriamente (parcelas vermelhas).

26

27

28

29

30

Prof. Jerry A. Johann

62

Estatstica Descritiva, Probabilidades e Inferncia

EIXO Y (2000 m)

2) Selecionar por amostragem sistemtica 20 reas quadradas de 100m de lado numa superfcie retangular de 3000 x 2000 metros.
a) Representar graficamente o resultado
1

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

10

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

11

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

12

331

332

333

334

335

336

337

338

339

340

341

342

343

344

345

346

347

348

349

350

351

352

353

354

355

356

357

358

359

360

13

361

362

363

364

365

366

367

368

369

370

371

372

373

374

375

376

377

378

379

380

381

382

383

384

385

386

387

388

389

390

14

391

392

393

394

395

396

397

398

399

400

401

402

403

404

405

406

407

408

409

410

411

412

413

414

415

416

417

418

419

420

15

421

422

423

424

425

426

427

428

429

430

431

432

433

434

435

436

437

438

439

440

441

442

443

444

445

446

447

448

449

450

16

451

452

453

454

455

456

457

458

459

460

461

462

463

464

465

466

467

468

469

470

471

472

473

474

475

476

477

478

479

480

17

481

482

483

484

485

486

487

488

489

490

491

492

493

494

495

496

497

498

499

500

501

502

503

504

505

506

507

508

509

510

18

511

512

513

514

515

516

517

518

519

520

521

522

523

524

525

526

527

528

529

530

531

532

533

534

535

536

537

538

539

540

19

541

542

543

544

545

546

547

548

549

550

551

552

553

554

555

556

557

558

559

560

561

562

563

564

565

566

567

568

569

570

20

571

572

573

574

575

576

577

578

579

580

581

582

583

584

585

586

587

588

589

590

591

592

593

594

595

596

597

598

599

600

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

EIXO X (3000 m)

Figura 05 rea de amostragem numa matriz de 20 linhas x 30 colunas numerada de 1 600, com parcelas quadradas de 100 m.
O primeiro passo definirmos a proporo de amostras para a populao. Para obtermos a proporo devemos efetuar o seguinte clculo: 600/20 = 30.
Desta forma, a proporo ser de uma unidade amostral, para cada 30 unidades populacionais. Em funo de tratar-se de uma amostragem sistemtica, devemos
sortear somente o primeiro elemento amostral por meio da seguinte expresso: N 0 Sorteado = Int (RND * 30 ) + 1 . As demais amostras sero valores dados pela
soma desta proporo (30). Para este exemplo, atravs da funo randmica da calculadora, sorteamos o nmero RND=0,131, desta forma utilizando a expresso

obtivemos: N Sorteado = Int (0,131 * 30) + 1 = 4 . Assim a parcela 4 ser a primeira amostra desta amostragem sistemtica e as demais tero um intervalo de 30
unidades. Ento as amostras para este grid sero: 4; 34; 64; 94; 124; 154; 184; 214; 244; 274; 304; 334; 364; 394; 424; 454; 484; 514; 544; 574.
0

Prof. Jerry A. Johann

63

Estatstica Descritiva, Probabilidades e Inferncia

1
2
3
4
5
6
EIXO Y (2000 m)

7
8
9
10
11
12
13
14
15
16
17
18
19
20
1

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

EIXO X (3000 m)

Figura 06 Grid com as 20 reas amostrais selecionadas sistematicamente (parcelas vermelhas).

26

27

28

29

30

Prof. Jerry A. Johann

64

Estatstica Descritiva, Probabilidades e Inferncia

EIXO Y (2000 m)

3) Selecionar por amostragem estratificada, 20 reas quadradas de 100m de lado numa superfcie retangular de 3000 x 2000m. Os estratos so 4 sub-reas de
1500m x 1000m.
a) Representao grfica do resultado
1

10

11

12

13

14

15

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

10

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

11

10

11

12

13

14

15

10

11

12

13

14

15

12

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

13

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

14

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

15

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

16

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

17

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

18

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

19

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

20

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

EIXO X (3000 m)

Figura 07 rea de amostragem numa matriz de 20 linhas x 30 colunas subdividida em 4 estratos cada qual numerada de 1 150, com parcelas
quadradas de 100 m.
Abaixo temos a representao esquemtica das 4 sub-reas em estudo e mostradas acima:

Sub-rea 01

Sub-rea 02

Sub-rea 03

Sub-rea 04

Prof. Jerry A. Johann

65

Estatstica Descritiva, Probabilidades e Inferncia

Partindo do pressuposto de que a populao em estudo apresenta um comportamento diferente em toda a sua rea, realizou-se a subdiviso em quatro
estratos ou sub-populaes, onde de estrato para estrato, a varivel apresenta um comportamento diferente, e dentro de cada estrato um comportamento o mais
homogneo possvel. Existem 3 tipos de amostragem estratificada: uniforme; proporcional e tima. Para o caso em estudo utilizamos a amostragem proporcional,
sendo assim, teremos que realizar o sorteio das amostras dentro de cada estrato, ou seja, 5 amostras para cada sub-rea totalizando 20 amostras para toda rea.
Para a realizao deste sorteio, pode-se utilizar a funo randmica da calculadora para encontrarmos o valor entre 0 e 0,999 para cada sub-rea e em
seguida aplicamos na seguinte expresso: N 0 Sorteado = Int (RND * 150 ) + 1 obtendo-se conseqentemente os valores apresentados na tabela abaixo:
Sub-rea 01

82; 30; 90; 114; 55

Sub-rea 02

63; 98; 145; 27; 20

Sub-rea 03

33; 143; 138; 14; 2

Sub-rea 04

27; 53; 14; 148; 91

Estes nmeros correspondem as parcelas numeradas na Figura 01 e podem melhor ser visualizados na Figura 02, onde as mesmas encontram-se em
vermelho, tendo-se desta forma uma visualizao do grid de amostragem.
1
2
3
4
5
6

EIXO Y (2000 m)

7
8
9
10
11
12
13
14
15
16
17
18
19
20
1

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

EIXO X (3000 m)

Figura 08 Grid com as 4 sub-reas e 5 amostras selecionadas aleatoriamente por sub-rea (parcelas vermelhas).

29

30

Prof. Jerry A. Johann

66

Estatstica Descritiva, Probabilidades e Inferncia

12. ESTIMAO POR PONTO E POR INTERVALOS


Por causa de fatores como tempo e custo, os parmetros so freqentemente estimados com
base em estatsticas da amostra. Numerosos so os critrios utilizados por estatsticos matemticos para
escolher os estimadores apropriados para estimar, com base em dados da amostra, os parmetros
populacionais.
Pode-se distinguir dois casos de estimao de parmetros: por ponto e por intervalo (intervalos de
confiana). No primeiro caso, procedemos estimativa do parmetro populacional atravs de um nico
valor estimado, ao passo que, no segundo, construiremos um intervalo, o qual dever, com probabilidade
conhecida, conter o parmetro. Uma suposio fundamental a de que as amostras so probabilsticas. O
inconveniente de realizarmos estimativas pontuais refere-se ao fato de no podermos julgar qual a
possvel magnitude do erro que estamos cometendo, o que no acontece para estimativas por meio de
intervalos.
Um estimador obtido em funo dos elementos da amostra, sendo, portanto uma varivel
aleatria caracterizada por uma distribuio de probabilidades.
As principais propriedades de um estimador referem-se : no-tendensiosidade; consistncia e
eficincia. Um estimador ser no-tendencioso, quando o valor esperado da estatstica amostral for
aproximadamente igual ao parmetro que est sendo estimado. Um estimador dito consistente quando,
em termos prticos, pode-se com amostras suficientemente grandes tornar o erro de estimao to
pequeno quanto se queira.

12.1 INTERVALOS DE CONFIANA - IC


uma outra maneira de calcularmos uma estimativa de um parmetro desconhecido. Constri-se
um intervalo de confiana para o parmetro desconhecido com uma probabilidade de 1- (nvel de
confiana) de que o intervalo contenha o verdadeiro parmetro. Assim, o nvel de significncia, ou seja,
o erro que estamos assumindo.
O IC pode ser calculado para:
2

a mdia populacional () quando a varincia ( ) populacional conhecida;

a mdia populacional () quando a varincia ( ) populacional desconhecida;

a proporo () ou probabilidade [P(x)];

12.1.1

Intervalo de Confiana para a mdia populacional () quando a varincia ( ) populacional


conhecida
2

Os mtodos de estimao por intervalo esto na maioria de suas vezes baseados no pressuposto
de que possa ser usada a distribuio normal de probabilidades. Esta pressuposio garantida
sempre que o n de dados amostrados maior que 30 (n
30).
2

Sejam x1,x2,...,xn elementos de uma amostra. Ento X:N(, ). Sabe-se que a


tem distribuio normal de mdia e desvio padro

x (mdia amostral)

n , ou seja, x : N( ; n ) .
2

Portanto tem-se uma distribuio Z tal que Z = x seja uma distribuio normal N(0,1).
Assim,

P( Z 2 Z Z 2 ) = 1

P x Z *
x + Z *
= 1
n
n

Os intervalos de confiana mais freqentemente utilizados so os de 90%, 95% e 99%. Na tabela


abaixo so apresentados os valores de z requeridos para alguns intervalos.

Prof. Jerry A. Johann

67

Estatstica Descritiva, Probabilidades e Inferncia

: nvel de significncia
0,20
0,15
0,10
0,05
0,025
0,01

(1-
): nvel de confiana
0,80
0,85
0,90
0,95
0,975
0,99

Z: distribuio Normal
1,28
1,44
1,65
1,96
2,24
2,58

Exemplo: Seja X a durao da vida de uma pea de equipamento tal que = 5horas. Ensaiaram-se
100 peas e estas forneceram uma durao mdia de vida de 500 horas. Deseja-se obter o IC com
95% para a mdia .
x =500hs.
= 5hs
n=100 peas
Dados:

P x Z *
x + Z *
= 1 
n
n

5
P (500 0,98) = 0,95
P 500 1,96 *
100

P[499,02 500,98] = 0,95

Assim, o intervalo acima contm a verdadeira mdia (parmetro) para um nvel de significncia de 95%. Ou
ainda, pode-se dizer que 95% das vezes, o intervalo acima contm a verdadeira mdia, o que no a
mesma coisa que afirmarmos que 95% a probabilidade do parmetro cair dentro do intervalo, o que se
constitui num erro.
Para o mesmo exemplo se desejssemos obter o IC para 90% ou 99% da mdia , teramos
respectivamente:

5
P (500 0,83) = 0,90
P 500 1,65 *
100

5
P (500 1,29 ) = 0,99
P 500 2,58 *
100

12.1.2

P[499,17 500,83] = 0,90

P[498,71 501,29] = 0,99

Intervalo de Confiana para a mdia populacional () quando a varincia ( ) populacional


desconhecida
2

Vimos anteriormente que o uso da distribuio normal na estimao da mdia populacional


garantido para qualquer grande amostra (n
30), sendo-o para uma pequena amostra (n<30) somente se a
populao for normalmente distribuda e for conhecido.
Vejamos agora como proceder para construir o IC para a mdia da populao quando a varincia
2
populacional ( ) desconhecida, o que ocorre em geral, nos problemas prticos.
Quando desconhecemos , devemos estimar seu valor com base na amostra disponvel. Neste
caso, calcula-se a estimativa do desvio padro a partir da amostra, definido por:
2

2
n
(
xi )
1

S =
* xi
n 1 i =1
n

Assim, o desvio padro obtido extraindo-se simplesmente a raiz quadrada da varincia S .


Como o desvio padro (s) uma varivel aleatria, a substituio simples e pura do parmetro
por s somente ser justificvel para amostras grandes, ou seja, n30. Em caso contrrio, introduz-se uma
correo a qual consiste em usar a varivel t de Student com n-1 graus de liberdade (g.l.) ao invs de Z.
Assim, uma distribuio t apropriada para inferncias sobre a mdia sempre quando for
desconhecida e a populao normalmente distribuda, qualquer que seja o tamanho da amostra.
Seja ento a varivel aleatria: t =

x
com n-1 gl.
s n

Prof. Jerry A. Johann

68

Estatstica Descritiva, Probabilidades e Inferncia

s
s
P x t *
x + t *
= 1
n
n

Exemplo: A seguinte amostra: 9,8,12,7,9,6,11,6,10,9 foi extrada de uma populao normal. Construir
o IC para a mdia ao nvel de 95% de confiana.
xi = 9 + 8 + 12 + 7 + 9 + 6 + 11 + 6 + 10 + 9 = 87 = 8,7
x=
n
10
10
2
n
(
xi )
1

S =
* xi
n 1 i =1
n

S2 =

(87)2 = 1 * [36,1] = 4,0


1
* 793

10 1
10 9

ento s = 2,0

Graus de liberdade: n-1  10-1=9  gl=9


Nvel de significncia=0,05  =0,05 = 5% assim, busca-se na tabela t Student no eixo horizontal o valor
de 5% e no eixo vertical os graus de liberdade (gl=9). Obtendo-se desta forma o valor de 2,262. Assim
teramos:

s
s
x + t *
= 1
P x t *
n
n

2,0
2,0
ou ainda
= 1 0,05
P 8,7 2,262 *
8,7 + 2,262 *
10
10

2,0
P(8,7 1,43) = 0,95
= 0,95
P 8,7 2,262 *

10

P[7,27 10,13] = 0,95

Assim, o intervalo acima contm a verdadeira mdia populacional para um nvel de significncia de 5%.

12.1.3

Intervalo de Confiana para a proporo ou probabilidade


Sabe-se que a proporo(
) ser

P( Z 2 Z Z 2 ) = 1

pq para n>30. Sendo Z = f p


f N p,

n
pq

ento

n
obtendo-se

P f Z *

pq
p f + Z *
n

pq
= 1
n

Como no conhecemos , e est se admitindo n>30, substitui-se nos limites do intervalo o por f e o q por
(1-f). Teremos ento:

f (1 f )
f (1 f )
= 1
P f Z *
p f + Z *

n
n

x n de casos favorveis a situao analisada


Sendo f = =
n
n total de observaes
Exemplo: Dentre 500 pessoas que foram entrevistadas a respeito de suas preferncias eleitorais, 260
mostraram-se favorveis ao candidato Y. Calcule o IC ao nvel de confiana de 90% para a proporo
de eleitores favorveis ao candidato Y.
Dados:
n=500
x= 260
1-=90%

f = 260

500

= 0,52 que representa a proporo de indivduos favorveis ao candidato Y.

P f Z *

f (1 f )
p f + Z *
n

f (1 f )
= 1

Prof. Jerry A. Johann

69

Estatstica Descritiva, Probabilidades e Inferncia

0,52 * (1 0,52)
0,52 * (1 0,52 )
= 0,90 ou
P 0,52 1,65 *
p 0,52 + 1,65 *

500
500

0,52 * (1 0,52)
= 0,90  P
P 0,52 1,65

500

(0,52 0,037 ) = 0,90

P[0,483 p 0,557] = 0,90

Assim, o intervalo acima contm a verdadeira proporo populacional para um nvel de confiana de 90%.

12.1.4

Intervalo de Confiana para a varincia da populao ( )


2

Deseja-se agora construir o IC ao nvel 1- para a varincia da populao. Neste caso usar-se-
a famlia das distribuies qui-quadrado . Seja ento P
2

2
n 1,(100 2 )

n21 n21, 2 = 1

(n 1) * S 2
(
n 1) * S 2
2

2
= 1
[2(n 1);( 2 )]

[( n 1);(100 2 ) ]

Exemplo: Uma amostra de onze elementos, extrada de uma populao com distribuio normal,
2
forneceu varincia S =7,08. Construir um IC de 90% para a varincia da populao.
2
Dados:
n=11
S = 7,08
1-=90%
=10%
Na tbua IV obtemos os valores de qui-quadrado para:

[2(n1);( 2 )] = [2(111);(10 2 )] = 102 ;5% = 18,307


[2(n1);(100 2) ] = [2(111);(10010 2) ] = 102 ,95% = 3,94
(n 1) * S 2
(
n 1) * S 2
2

2
= 1
[2(n 1);( 2 )]

[
(
n

1
)
;
(
100

2
)
]

(11 1)* 7,08 = 1 0,10


(11 1) * 7,08
2

3,94
18,307

(3,87

17,97 = 0,90

Assim, o intervalo acima contm a verdadeira varincia populacional( ) para um nvel de significncia de
90%.
2

12.1.5

Intervalo de Confiana para o desvio padro () da populao

Para amostras pequenas o procedimento obtido da mesma forma que encontramos a varincia
populacional, bastando extrair a raiz quadrada de cada membro da frmula, ou seja:

(n 1)* S 2
[2(n1);( 2 )]

(n 1)* S 2

[2(n 1);(100 2 ) ]

= 1

Entretanto, um mtodo aproximado pode ser usado, alternativamente, no caso de amostras grandes
(n>30). Este procedimento consiste em construir o IC para usando a expresso:

s Z 2 *

2 * (n 1)

Prof. Jerry A. Johann

13.

Estatstica Descritiva, Probabilidades e Inferncia

70

TAMANHO DAS AMOSTRAS

Veremos aqui, de acordo com COSTA NETO (1977) como determinar o tamanho das amostras
necessrias nos casos de estimao da mdia ou de uma proporo populacional.
Se o desvio padro populacional () for conhecido, podemos usar a expresso abaixo para a
determinao do tamanho da amostra necessria para se realizar a estimao por intervalo com a
confiana e a preciso desejadas.

Z *
n =
0

onde:
n: tamanho da amostra necessria;
: desvio padro populacional;
0: preciso desejada;
Z : varivel normal padronizada Z para um nvel de significncia ;
Quando desconhecemos o desvio padro populacional, devemos substitu-lo por sua estimativa
s e usar tde Student na expresso acima. Se no conhecemos s, a nica soluo ser colher uma
amostra-piloto de n elementos para estimarmos s atravs da seguinte expresso:

*s
t
n = (n1, % )
0

De forma anloga procedemos se desejamos estimar uma proporo populacional com determinada
confiana e dada preciso. No caso de populao suposta infinita, podemos obter:

Z
n =
0

* * (1 )

O inconveniente que mesmo fixado a preciso que se deseja da estimativa, no possvel


encontrar n previamente. Fica faltando o conhecimento da proporo , que justamente o que desejamos
estimar. Uma possibilidade de resolver este problema e coletando uma amostra-piloto ou ainda, analisar o
comportamento do fator (1-) que descrito pela Figura abaixo:
0,25

f(p)=p(1-p)

0,2

0,15

0,1

0,05

0
0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Como podemos notar, f() tem a forma de uma parbola com valor mximo alcanado para =1/2, o
que corresponde a f()=0,25. Assim o valor de n que estamos procurando ser sempre menor ou igual a:

Z
n' =
0

* 0,25

Logo, quando no temos nenhuma informao acerca de f(), devemos tomar n como sendo o
tamanho amostral mnimo necessrio e conseqentemente, estaremos garantindo com este valor um
coeficiente de confiana pelo menos igual ao desejado. (Prof. Miguel A. Uribe Opazo).

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

71

Se o custo envolvido for elevado e proporcional ao tamanho da amostra, ser mais interessante e
prudente a tomada de uma amostra-piloto.
Quando conhecido o tamanho da populao (N grande) podemos calcular o tamanho da amostra
(n) atravs da forma (Corchan, 1986)

n=

onde:

n*

encontrado por

Z
n =
0

n*
(n 1)
1+ *
N

* * (1 )

ou

Z
n' =
0

* 0,25 .

Ainda, de acordo com STEVERSON (1981), quando conhecemos o tamanho da populao


(populao finita) de onde ser retirada uma amostra para estudo de mdias ou propores, pode-se definir
o tamanho da amostra a ser investigada, por meio da seguinte equao:

n=

N * n0
N + n0

onde:
N: tamanho da populao;
n: tamanho da amostra necessria;
2
n0 = (1/0) ;
0: preciso desejada;
Exemplo1: Qual o tamanho da amostra necessria para se estimar a mdia de uma populao infinita
cujo desvio padro igual a 4, com 99% de confiana e preciso de 0,5?
Soluo:
Ao definirmos a preciso da estimativa desejada, estamos estabelecendo o erro mximo que desejamos
cometer, com a confiana dada. Portanto temos:

Z *
n =
0
2,58 * 4
n=

0.5

n = 426 elementos ou amostras.

Exemplo2: Qual o tamanho da amostra suficiente para estimarmos a proporo de indivduos com
uma determinada patologia, adotando-se uma preciso de 0,02 e 95% de confiana, sabendo que
essa proporo seguramente no superior a 0,20?
Soluo:

Z
n =
0

n = 1536,6

* * (1 )

1,96
n=
* 0,20 * (1 0,20 )
0,02

ou seja 1537 elementos.

Prof. Jerry A. Johann

14

Estatstica Descritiva, Probabilidades e Inferncia

72

TESTE DE HIPTESE (TH)

Os testes de hipteses so baseados nas distribuies dos estimadores. Ento as distribuies para
2
a mdia amostral ( x ), varincia amostral (S ) e a proporo (f) so utilizados para os respectivos testes
2
sobre mdia (), varincia ( ) e proporo () da populao.
14.1 CONCEITOS


Hiptese estatstica: uma suposio quanto ao valor de um parmetro populacional que ser
verificada por um teste paramtrico, ou uma afirmao quanto natureza da populao, que ser
verificada por um teste de aderncia ou no-paramtrico. Aqui, estudar-se-o apenas os testes
paramtricos que so os quais se referem a hipteses sobre os parmetros populacionais.

So exemplos de hipteses estatsticas: a mdia populacional da altura dos brasileiros 1,65m, isto ,
2
=1,65. A varincia populacional do salrio de U$ 100,00, isto , =100 dlares. A proporo de
brasileiros com doena Y 40%, ou seja, p=0,40. A distribuio dos pesos dos alunos da universidade
normal.


Teste de hiptese: uma regra de deciso para aceitar ou rejeitar uma hiptese estatstica com base
nos elementos amostrais;

As hipteses: Designa-se por H0 (hiptese nula) a hiptese a ser testada e por H1 a hiptese
alternativa. A rejeio de H0 implica na aceitao de H1. A hiptese alternativa geralmente representa a
suposio que o pesquisador quer provar, sendo H0 formulada com o propsito de ser rejeitada.
Vejamos alguns exemplos de testes:
Teste Bicaudal (bilateral)

H0: =100
H1: 100

H0: =0,10
H1: 0,10

Teste unicaudal (unilateral)


direita

H0: =100
H1: >100

H0: =100
2
H1: >100

Teste unicaudal (unilateral)


esquerda

H0: =100
H1: <100

H0: =100
2
H1: <100

14.2 ERROS TIPO E TIPO




Erros Tipo ou de primeira espcie: constitui-se em rejeitar H0 quando ela verdadeira. Designamos
por a probabilidade de se cometer o erro tipo (nvel de significncia do teste  )

Erros Tipo ou de segunda espcie: constitui-se em aceitar H0 quando ela falsa. Designamos por
a probabilidade de se cometer erro do tipo ().

O objetivo de se testar uma hiptese proposta tomar uma deciso, se possvel, correta. Assim,
rejeitar H0 implica na aceitao de H1 e aceitar H0 implica na rejeio de H1.
A possibilidade de cometermos os erros Tipo e Tipo baseado em dados amostrais
apresentada na tabela abaixo:
Deciso
Realidade

Aceitar H0

Rejeitar H0

H0 verdadeira

Deciso correta (1-)

Erro Tipo ()

H0 falsa

Erro Tipo ( )

Deciso correta (1- )

Observe que o erro Tipo I s poder ser cometido se rejeitarmos H0, e o erro Tipo II, quando se
aceitar H0.
O tomador de deciso deseja, obviamente, reduzir ao mnimo as probabilidades dos dois tipos de
erros. Infelizmente, esta uma tarefa difcil, porque, para uma amostra de determinado tamanho, a
probabilidade de se incorrer em um erro Tipo II aumenta medida que diminui a probabilidade do
erro Tipo I, e vice-versa. A reduo simultnea dos erros poder ser alcanada pelo aumento do
tamanho da amostra.

Prof. Jerry A. Johann

73

Estatstica Descritiva, Probabilidades e Inferncia

14.3 PROCEDIMENTOS PARA SE EFETUAR UM TESTE DE SIGNIFICNCIA.


1. Enunciar as hipteses H0 e H1;
2. Fixar o limite de erro e identificar a varivel do teste;
3. Determinar as Regies Crticas (RC) e as Regies Aceitveis (RA) em funo do nvel de , pelas
tabelas estatsticas;
4. Avaliar o valor da varivel do teste por meio dos elementos amostrais;
5. Concluir pela aceitao ou rejeio de H0, comparando-se o valor obtido no 4 passo com as
regies crticas e de aceitao fixadas no 3 passo.
Teste para a Mdia populacional ()

14.3.1

conveniente lembrar que todos os testes de mdias, pressupem a normalidade da distribuio


amostral da varivel do teste x .
1 passo) Enunciar as hipteses:
H0: =0
vs
H1: 0 (a)
H1: >0 (b)
H1: <0 (c)

 (a) teste bicaudal


 (b) teste unicaudal direita
 (c) teste unicaudal esquerda.

2 passo) Fixar o nvel de significncia


Admitindo-se que no se conhece a varincia populacional a varivel do teste ser t Student com
n-1 graus de liberdade.

3 passo) Definir a Regio Crtica (RC) e Regio Aceitvel (RA)

RC

t 2

RA

RA
RC

RC

t 2

(a)
4 passo) Calcular

(b)

t cal =

RA
RC

t
(c)

x 0
s

onde:

x : mdia amostral;
0: valor de H0;
s: desvio padro amostral;
n: tamanho da amostra.
5 passo) Concluses
Se Tcal estiver em RA, aceita-se a hiptese H0, caso contrrio, rejeita-se H0 e aceita-se a hiptese H1.
(a) Se

t 2 t cal t 2 , aceita-se H0;

(b) se t cal

> t , rejeita-se H0;

(c) se t cal

< t , rejeita-se H0;

 Bicaudal

 teste unicaudal direita


 teste unicaudal esquerda

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

74

Exemplo: Uma mquina foi regulada para fabricar placas em mdia com de 30mm de espessura. A
distribuio das espessuras normal. Iniciada a produo, foi colhido uma amostra de 15 placas,
que forneceu as seguintes de espessura 22,31,31,26,27,22,26,24,21,40,42,30,28,26 e 25mm. Ao nvel
de 5% de significncia, pode-se aceitar a hiptese de que a regulagem da mquina satisfatria, ou
seja de 30mm?
xi = 421 = 28,07
x=
n
15
2

1
(421)2 = 1 * [520,93] = 37,21 ento s = 6,1
n
2
(
xi )
1


2
2
S
=
*
12337

S =
* xi
15 1
15 14
n 1 i =1
n

1 passo:
H0: =30
vs
H1: 30 (a)

 teste bicaudal

 2 passo:
Graus de liberdade: n-1  15-1=14  gl=14
Nvel de significncia=0,05  =0,05 = 5%


3 passo: busca-se na tabela t Student no eixo horizontal o valor de 5% e no eixo vertical os graus de
liberdade (gl=14). Obtendo-se desta forma o valor de 2,145. Assim teramos:

0,025

0,025
RA

RC
-2,145


0 2,145

4 passo: calcular o valor de tcal

t cal =

RC

x 0
s

t cal =

28,07 30
6,10

15

= 1,225

5 passo: Concluso

Como o valor de tcal=-1,225 encontra-se na regio aceitvel (RA), aceita-se a hiptese H0. Assim, a mdia
amostral ( x =28,07mm) estatisticamente igual a mdia populacional (=30mm).

14.3.2

Teste para a proporo populacional ()

As mesmas idias apresentadas no caso do teste de uma mdia podem ser utilizadas para se
realizarem testes envolvendo a proporo populacional. Assim teremos:
1 passo) Enunciar as hipteses
H0: =0
vs
H1: 0 (a)
H1: >0 (b)
H1: <0 (c)

 (a) teste bicaudal


 (b) teste unicaudal direita
 (c) teste unicaudal esquerda.

2 passo)
Fixa-se o nvel de significncia . A varivel usada a normal padronizada Z, em geral quando
n>30.

Prof. Jerry A. Johann

75

Estatstica Descritiva, Probabilidades e Inferncia

3 passo) Definir a Regio Crtica (RC) e Regio Aceitvel (RA)

2
RA
RC

Z 2

2
RA

RA

RC

RC

RC

Z 2

(a)

(b)

(c)

4 passo) Calcular

Z cal =

f 0

0 * (1 0 )
n

onde:
n: tamanho da amostra.
f: freqncia relativa evidenciando a proporo existente;
0: valor da hiptese H0;
5 passo) Concluses
Se Zcal estiver em RA, aceita-se a hiptese H0, caso contrrio, rejeita-se H0 e aceita-se a hiptese H1.
(a) Se

Z 2 Z cal Z 2 , aceita-se H0;

(b) se

Z cal > Z , rejeita-se H0;

(c) se

Z cal < Z , rejeita-se H0;

 Bicaudal

 teste unicaudal direita


 teste unicaudal esquerda

Tabela Z Normal testes bilaterais () ou unilaterais (< OU >)


0,10

0,20
1,28

Nvel de Significncia para Teste Unilateral ( )


0,075
0,05
0,025
0,01
Nvel de Significncia para Teste Bilateral ( )
0,15
0,10
0,05
0,025
1,44
1,65
1,96
2,24

0,005
0,01
2,58

Exemplo: As condies de mortalidade de uma regio so tais que a proporo de nascidos que
sobrevivem at 60 anos de 0,60. Teste a hiptese ao nvel de 5% se em 1000 nascimentos
amostrados aleatoriamente, verificou-se 530 sobreviventes at 60 anos.
 1 passo:
H0: =0,60
vs
H1: 0,60 (a)


 (a) teste bicaudal

2 passo:

Nvel de significncia=0,05  =0,05 = 5% e a varivel usada a normal padro(0,1).




3 passo: vimos anteriormente no captulo sobre intervalos de confiana que quando se trata da famlia
de distribuio normal reduzida Z, para a proporo da rea do intervalo, teremos para 95% o valor de
1,96. Obtm-se desta forma o valor crtico (RC) de Z  Z 0, 05 =1,96.

Prof. Jerry A. Johann

76

Estatstica Descritiva, Probabilidades e Inferncia

0,025

0,025

RA
RC

RC

-1,96 0 1,96


4 passo: calcular o valor de Z

f = 530

1000

= 0,53 que representa a proporo dos sobreviventes at 60 anos dos 1000 nascimentos

amostrados.

Z cal =

f 0

0 * (1 0 )

Z cal =

n


0,53 0,60
0,60 * (1 0,60)
1000

Z cal = 4,52

5 passo: Concluso

Como o valor de Zcal=-4,52 encontra-se na regio crtica (RC), rejeita-se a hiptese H0. Assim, a proporo
amostral (f=0,53) estatisticamente diferente da proporo populacional (=0,60).
Teste para a igualdade de duas mdias populacionais ()

14.3.3

Caso 1) As varincias so conhecidas, independentes e normais


1 passo) Enunciar as hipteses:
H0: 1=2
vs
H1: 12
H1: 1>2
H1: 1<2

ou 1-2=d

onde d>0 uma diferena admitida entre as mdias

ou 1-2d  (a) teste bicaudal


ou 1-2>d  (b) teste unicaudal direita
ou 1-2<d  (b) teste unicaudal esquerda

2 passo) Fixar o nvel de significncia


Escolher a varivel normal Padro: Z
3 passo) Definir a Regio Crtica (RC) e Regio Aceitvel (RA)

RA
RC

Z 2

RA

RA

RC

RC

RC

Z 2

(a)
4 passo) Calcular

(b)

Z cal =

(c)

(x1 x2 )
12
n1

onde:

x 1 e x 2: mdias amostrais da populao X1 e X2;


12 e 22 : varincias populacionais;
n1 e n2 :tamanho das amostras de cada populao .

22
n2

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

77

5 passo) Concluses
Se Zcal estiver em RA, aceita-se a hiptese H0, caso contrrio, rejeita-se H0 e aceita-se a hiptese H1.
(a) Se

Z 2 Z cal Z 2 , aceita-se H0;

(b) se

Z cal > Z , rejeita-se H0;

(c) se

Z cal < Z , rejeita-se H0;

 Bicaudal

 t0este unicaudal direita


 teste unicaudal esquerda

Exemplo: Um fabricante de pneus faz dois tipos. Para o tipo 1, =2500 milhas, e para o tipo 2,
=3000 milhas. Um txi testou 50 pneus do tipo 1 e 40 do tipo 2, obtendo 24000 milhas e 26000
milhas de durao mdia dos respectivos tipos. Adotando-se um risco =5%, testar a hiptese de
que a vida mdia dos dois tipos a mesma.
 1 passo) Enunciar as hipteses:
H0: 1-2=0 1=2
vs
H1: 12  (a) teste bicaudal


2 passo) Fixar o nvel de significncia

Nvel de significncia=0,95  =0,05 = 5% e a varivel usada a normal padro(0,1).




3 passo: Obtm-se desta forma o valor crtico (RC) de Z  Z 0, 025 =1,96.


2

0,025

0,025

RA
RC

RC

-1,96 0 1,96


4 passo: calcular o valor de Z

Z cal =

(x1 x 2 )

2
1

n1


2
2

Z cal =

(24000 26000 )
(2500 )2 + (3000 )2
50

n2

Z cal = 3,38

40

5 passo: Concluso

Como o valor calculado de Zcal=-3,38 encontra-se na regio crtica (RC), rejeita-se a hiptese H0. Assim, em
mdia os dois tipos de pneus tm durabilidade diferente.

Caso 2: As varincias so desconhecidas e admitidas iguais, independentes e normais


1 passo) Enunciar as hipteses:
H0: 1=2
vs
H1: 12
H1: 1>2
H1: 1<2

ou 1-2=d

onde d>0 uma diferena admitida entre as mdias

ou 1-2d  (a) teste bicaudal


ou 1-2>d  (b) teste unicaudal direita
ou 1-2<d  (b) teste unicaudal esquerda

2 passo) Fixar o nvel de significncia


Admitindo-se que no se conhece as varincias populacionais a varivel do teste ser t Student
com (n1 + n2 2) graus de liberdade.

Prof. Jerry A. Johann

78

Estatstica Descritiva, Probabilidades e Inferncia

3 passo) Definir a Regio Crtica (RC) e Regio Aceitvel (RA)

2
RA
RC

2
RA

RC

t 2

RC

t 2

t cal =

RA
RC

(a)
4 passo) Calcular

(b)

( x1 x2 )
n +n
sc * 1 2
n1 * n2

sc =

onde

(c)

(n1 1) * S12 + (n2 1) * S 22


(n1 + n2 2)

onde:

x 1 e x 2: mdias amostrais da populao X1 e X2;


n1 e n2 :tamanho das amostras de cada populao;
sc: desvio-padro comum as duas populaes;
S12 e S 22 : varincias amostrais da populao X1 e X2;
5 passo) Concluses
Se Tcal estiver em RA, aceita-se a hiptese H0, caso contrrio, rejeita-se H0 e aceita-se a hiptese H1.
(a) Se

t 2 t cal t 2 , aceita-se H0;

(b) se t cal
(c) se t cal

 Bicaudal

> t , rejeita-se H0;  teste unicaudal direita


< t , rejeita-se H0;  teste unicaudal esquerda

Exemplo: Dois conjuntos de 50 crianas de uma escola primria foram ensinados a ler por dois
mtodos diferentes. Aps o trmino do ano, um teste de leitura deu os seguintes resultados: o
conjunto A teve mdia de 73,4 e desvio padro de 8,0 e o conjunto B teve mdia de 70,3 e desvio
padro de 10,0. Adotando =5%, verifique se estatisticamente estas mdias so iguais ou diferentes.
 1 passo) Enunciar as hipteses:
H0: 1=2
vs
H1: 12

 (a) teste bicaudal

 2 passo) Fixar o nvel de significncia  t Student


Graus de liberdade: (n1 + n2 2)  (50+50-2)=98  gl=98
Nvel de significncia=0,05  =0,05 = 5%
 3 passo: busca-se na tabela t Student no eixo horizontal o valor de 5% e no eixo vertical os graus de
liberdade (gl=98). Obtendo-se desta forma o valor de 1,980. Assim teramos:

0,025

0,025

RA
RC
-1,980


4 passo: calcular o valor de tcal

RC
0 1,980

Prof. Jerry A. Johann

sc =
t cal =

(n1 1) * S12 + (n 2 1) * S 22
(n1 + n 2 2)
(x1 x2 )

sc *


n1 + n2
n1 * n2

 t =
cal

79

Estatstica Descritiva, Probabilidades e Inferncia

sc =

(73,4 70,3)

9,06 *

50 + 50
50 * 50

(50 1) * 8 2 + (50 1) * 10 2
(50 + 50 2)


s c = 9,06

t cal = 1,71

5 passo: Concluso

Como o valor de tcal=1,71 encontra-se na regio aceitvel (RA), aceita-se a hiptese H0. Assim, em mdia
os dois mtodos de ensino apresentaram comportamento semelhante.
Tabela de distribuio t-Student

BIBLIOGRAFIA:
a
FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Curso de Estatstica. 6 ed. So Paulo:Atlas,
1996, 320 p.
COSTA NETO, Pedro Luis de Oliveira. Estatstica. So Paulo:Edgard Blcher, 1977, 264p.
DOWNING, Douglas; CLARK, Jeffrey. Estatstica Aplicada. So Paulo: Saraiva, 1998, 453 p.
a
BUSSAB, Wilton O.; MORETTIN, Pedro A. Estatstica Bsica: mtodos quantitativos. 4 ed. So
Paulo:Atual, 1987, 321p.
a
SPIEGEL, Murray R. Estatstica. 3 ed. So Paulo:Makron Books, 1993, 629p.

Prof. Jerry A. Johann

15

80

Estatstica Descritiva, Probabilidades e Inferncia

ANLISE BIDIMENSIONAL

At agora vimos como organizar e resumir informaes pertinentes a uma nica varivel, mas
freqentemente estamos interessados em analisar o comportamento conjunto de duas ou mais variveis.
Neste sentido, a distribuio conjunta das freqncias ser um poderoso instrumento para ajudar na
compreenso dos dados. Um dos principais objetivos de uma distribuio conjunta descrever a
associabilidade existente entre as variveis, isto , queremos conhecer o grau de dependncia entre
elas, de modo que possamos prever melhor o resultado de uma delas quando conhecemos a realizao da
outra.
Por exemplo, se queremos estimar qual a renda mdia de uma famlia moradora da cidade de
So Paulo, a informao adicional sobre a classe social a que ela pertence permite-nos estimar com maior
preciso essa renda, pois sabemos da dependncia existente entre as duas variveis: renda familiar e
classe social.
15.1 CORRELAO LINEAR DE PEARSON (r) E MODELO DE REGRESSO LINEAR SIMPLES (RLS)
De um modo geral, se existe dependncia entre variveis, sempre interessante quantificar o
grau de dependncia entre estas duas variveis, o que pode ser obtido atravs do coeficiente de
correlao de Pearson.
Quando desejamos ento estudar as relaes existentes entre variveis como peso e altura de
um grupo de pessoas, uso de cigarro e incidncia de cncer, vocabulrio e compreenso da leitura,
dominncia e submisso, estamos procurando verificar se existe alguma relao entre as variveis de
cada um dos pares e qual o grau dessa relao.
Assim, havendo uma relao entre duas variveis de natureza quantitativa, a correlao o
instrumento adequado para descobrir e medir essa relao. Uma vez caracterizada a relao, podemos
ainda descrev-la atravs de uma funo matemtica. Neste sentido, a regresso o instrumento mais
adequado e apropriado para a determinao dos parmetros dessa funo.
Um procedimento bastante til para se verificar a associao entre duas variveis quantitativas, o
grfico de disperso, que nada mais do que a representao dos pares de valores num sistema
cartesiano por meio de uma nuvem de pontos. Na verdade, este diagrama nos fornece uma idia
grosseira, porm til, da correlao existente.

Notas de estatstica

Exemplo: Consideremos uma amostra aleatria de dez de um total de 98 alunos de uma classe da
universidade XYZ e pelas notas obtidas por eles em matemtica e estatstica:
NOTAS
os
N
Diagrama de Disperso entre Matemtica e Estatstica
Matemtica (xi)
Estatstica (yi)
12
01
5,0
6,0
08
8,0
9,0
10
24
7,0
8,0
38
10,0
10,0
8
44
6,0
5,0
6
58
7,0
7,0
59
9,0
8,0
4
72
3,0
4,0
80
8,0
6,0
2
92
2,0
2,0
0
Fonte: CRESPO (1998)
0

10

12

Notas de matemtica

Os pontos obtidos, vistos em conjunto, formam uma elipse em diagonal. Podemos imaginar que,
quanto mais fina for a elipse, mais ela se aproximar de uma reta. Dizemos ento, que a correlao tem
como imagem uma reta. Assim uma correlao :


Linear positiva se os pontos do diagrama tm como imagem uma reta ascendente;

Linear negativa se os pontos tem como imagem uma reta descendente;

No-linear se os pontos tem como imagem uma curva;

Sem relao entre as variveis se os pontos apresentam-se dispersos, no oferecendo uma imagem
definida.

Prof. Jerry A. Johann

81

Estatstica Descritiva, Probabilidades e Inferncia

O instrumento que se utiliza para medir esta correlao linear o coeficiente de correlao de
Pearson (r). Este coeficiente deve indicar o grau de intensidade da correlao entre duas variveis, e ainda
o sentido dessa correlao (positivo ou negativo) expresso pela seguinte expresso:

r=

{n * ( x * y )} ( x * y )
{(n * x ) ( x) }* {(n * y ) ( y ) }
2

onde n o n de observaes.Assim, se:


 .r = +1  h uma correlao perfeita e positiva entre as variveis;
 .r = -1  h uma correlao perfeita e negativa entre as variveis;
 .r = 0  no h uma correlao entre as variveis, ou a relao que porventura exista no linear ou
ainda a proximidade do zero indica total independncia entre as variveis.
Com o coeficiente de correlao podemos tirar concluses como:
Se 0,6 | r | 1 pode-se tirar algumas concluses significativas sobre o comportamento simultneo das
variveis analisadas;
 Se 0,3 | r | 0,6 h uma correlao relativamente fraca entre as variveis;
 Se 0 | r | 0,3 a correlao muito fraca e, praticamente, nada podemos concluir sobre a relao
entre as variveis em estudo.
Vamos ento determinar o coeficiente de correlao (r) da tabela abaixo:

Matemtica (xi)
5,0
8,0
7,0
10,0
6,0
7,0
9,0
3,0
8,0
2,0
=65

r=

Estatstica (yi)
6,0
9,0
8,0
10,0
5,0
7,0
8,0
4,0
6,0
2,0
=65

(10 * (473)) (65 * 65)


((10 * 481) (65)2 )* ((10 * 475) (65)2 )

xi*yi
30
72
56
100
30
49
72
12
48
4
=473

xi
25
64
49
100
36
49
81
9
64
4
=481


r=

505
585 * 525

yi
36
81
64
100
25
49
64
16
36
4
=475

= 0,9112

Resultado que indica uma correlao linear positiva altamente significativa entre as duas variveis.

A anlise de regresso tem por objetivo descrever atravs de um modelo matemtico, a relao
entre as duas variveis (x e y), partindo de n observaes das mesmas. A varivel sobre a qual desejamos
fazer uma estimativa recebe o nome de varivel dependente (Y) e a outra o nome de varivel
independente (X). A principal funo da anlise de regresso predizer o valor de uma varivel
(dependente) dada uma varivel independente.

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

82

Este modelo de regresso dever estar sujeito as seguintes hipteses:


 A varivel dependente uma varivel aleatria (obtidos por processos de amostragem);
 As variveis independente e dependente esto associadas linearmente;
 As varincias das distribuies condicionais da varivel dependente, dados diferentes valores da
varivel independente, so todas iguais (homocedasticidade)
O modelo de Regresso Linear Simples (RLS) estimado pelo mtodo dos Mnimos Quadrados,
ou seja, a reta de melho ajusnte ser aquela que minimizar a soma quadrtica dos desvios (resduos) entre
os valores observados e estimados da varivel dependente para os dados amostrais. Assim, a forma geral
do modelo de Regresso Linear Simples para dados de amostra dado por:

Y = a + b* X
onde,
Y = varivel dependente;
X = varivel independente;
a = coeficiente linear que representa o ponto onde a reta corta o eixo do Y;
b = coeficiente angular ou coeficiente de regresso. Nos mostra em mdia quanto a varivel
dependente Y varia para o aumento de uma unidade da varivel independente X.
As letras a e b so os parmetros do modelo que so eterminados pelas seguintes expresses:

b=

(n * ( x * y )) ( x * y )
(n * x ) ( x )

a = y bx

onde:
n o n de observaes;

x a mdia da varivel independente xi  x =


y a mdia da varivel independente yi  y =

xi
n

yi
n

Como estamos fazendo uso de uma amostra para obtermos os valores dos parmetros, o resultado
na realidade uma estimativa da verdadeira equao de regresso. Assim, escrevemos:

Y = a + (b * X ) +
onde

Y o Y estimado e o erro aleatrio do modelo.

Considerando o exemplo dados teramos:

b=

(10 * (473)) (65 * 65)


(10 * 481) (65)2

Como x = 65

10

= 6,5 e

b = 0,863

a = 6,5 (0,863 * 6,5) a = 0,888

y = 65 = 6,5
10

Y = 0,888 + 0,863 X

Assim:

O coeficiente de determinao (R ) representa a qualidade do ajuste realizado quando da


regresso entre as duas variveis. Este ajuste ser tanto melhor quanto mais prximo de 1 (100%) ele
estiver.
2

O coeficiente de determinao (R ) facilmente obtida atravs do coeficiente de correlao de


Pearson (r), bastando apenas que este seja elevado ao quadrado. Assim, para nosso exemplo:
Coeficiente de correlao  r=0,91
Por conseqncia o coeficiente de determinao ser:
2

R =(0,91)  R =0,8304 ou seja,

R =83,04%

No grfico a seguir podemos visualizar o ajuste da reta aos pontos, a funo de regresso e o
2
coeficiente de determinao (R ).

Prof. Jerry A. Johann

83

Estatstica Descritiva, Probabilidades e Inferncia


y = 0,89 + 0,86X
R2 = 0,8304

Ttulo do grfico
12

Notas de estatstica

10
8
6
4
2
0
0

10

12

Notas de matemtica

15.2 ESTATSTICA NO-PARAMTRICA PARA ANLISE DE CORRELAO


A maioria dos mtodos estatsticos envolve a estimativa de valores para parmetros desconhecidos,
quando se supe aplicvel uma distribuio de determinada forma. Em situaes onde no necessrio
fazer uma hiptese sobre a forma da distribuio, aplicam-se os testes no-paramtricos.
Este conceituado como sendo aquele cujo modelo no especifica suposies quanto distribuio
dos parmetros da populao da qual a amostra foi obtida. Mesmo quando existem certas suposies,
estas so mais genricas do que aquelas associadas aos testes paramtricos. Algumas suposies
associadas a estes tipos de modelos so as de que as observaes sejam independentes e que a varivel
em estudo tenha continuidade.
Esta tcnica mais utilizada para analisar dados das cincias do comportamento. Podem ser
aplicadas a dados que se disponham simplesmente em ordem, ou mesmo para o estudo de variveis
nominais. Estes testes so extremamente interessantes para anlises de dados qualitativos. A maior parte
das provas no-paramtricas se aplica a dados em escala ordinal ou nominal.










Algumas razes para o seu uso so:


So menos exigentes do que os paramtricos. Dispensam a normalidade dos dados;
Independem da forma da populao da qual a amostra foi retirada;
So, em geral, de mais fcil aplicao e exige um menor nmero de clculos;
Alguns testes permitem trabalhar com dados de diferentes populaes, o que no possvel com os
paramtricos;
So teis nos casos em que difcil estabelecer uma escala de valores quantitativos para os dados. O
pesquisador pode apenas dizer que um dado tem mais ou menos da caracterstica que est sendo
analisada;
So mais eficientes do que os paramtricos, quando os dados da populao no tm distribuio
normal.
Algumas restries para o seu uso so:
Em geral no leva em considerao a magnitude dos dados. muito comum transformar os dados de
valores para simples ordens ou sinais o que pode levar a um desperdcio de informaes;
Em geral, no nos permite testar interaes, o que restringe o seu uso em modelos mais complexos
(anlise de varincia);

15.2.1

Teste aplicvel a uma amostra ou Teste de Aderncia (Teste Qui-Quadrado - )


2

Tambm conhecido como teste de adequao do ajustamento.Seja um experimento aleatrio com


E1, E2,..., Ek, k eventos associados a . Sejam Fo1, Fo2,..., Fok, as freqncias observadas e Fe1, Fe2,...,
Fek, as freqncias esperadas, respectivamente, dos k eventos.
Deseja-se realizar um teste estatstico para verificar se h adequao de ajustamento entre estes
dois tipos de freqncias, ou seja, avaliar se as discrepncias (Foi - Fei) so devidas ao acaso, ou se de fato
existe diferena significativa entre as freqncias.

Prof. Jerry A. Johann

84

Estatstica Descritiva, Probabilidades e Inferncia

Procedimentos para se efetuar o teste.

1 passo) Enunciar as hipteses H0 e H1.


H0: afirmar no haver discrepncia entre as freqncias observadas e as esperadas.
versus
H1: afirmar haver discrepncia entre as freqncias observadas e as esperadas.
2 passo) Fixar o limite de erro e escolher a varivel qui-quadrado com (k-1) graus de liberdade (k = n de
eventos);
0

3 passo) Com o auxlio da tabela qui-quadrado ( ), determinar as Regies Crticas (RC) e as Regies
Aceitveis (RA) em funo do nvel de ;
2

RA
RC

k21
4 passo) Clculo do valor da varivel;
k

2
=
cal

(Fo
i =1

Fei )

Fei

Sendo a Fei determinada como a mdia dos eventos


5 passo) Concluso


Se

2
cal
k21 ,

rejeita-se H0, ou seja, conclui-se com um nvel de significncia de %, que h

discrepncia entre as freqncias observadas e esperadas, ou ainda, h correlao.




Se

2
cal
< k21 ,

aceita-se H0, ou seja, as freqncias observadas e esperadas, no so

discrepantes, ou seja so iguais (no h correlao).


Exemplo: Deseja-se testar se o nmero de acidentes numa rodovia se distribui igualmente pelos dias
da semana. Adotar =5%. Para tanto foram levantados os seguintes dados:
Dia da Semana
Dom
Seg
Ter
Qua
Qui
Sex
Sab
0
N de acidentes
33
26
21
22
17
20
36


1 passo:
H0: so iguais as quantidades de acidentes nos dias da semana
vs
H1: so diferentes as quantidades de acidentes nos dias da semana
 2 passo:
Graus de liberdade: k-1  7-1=6  gl=6 (k=7 sete dias da semana)
Nvel de significncia =0,05 = 5%


3 passo: busca-se na tabela qui-quadrado no eixo horizontal o valor de =5% e no eixo vertical os
2

graus de liberdade (gl=6). Obtendo-se desta forma o valor crtico (RC) de

5%
RA
RC

12,59

62,5% =12,59.

Prof. Jerry A. Johann

85

Estatstica Descritiva, Probabilidades e Inferncia

4 passo: calculo do valor da varivel

Fe =

175
= 25
7
Fo
Fe

33
25

26
25

21
25

22
25

17
25

20
25

36
25

Assim, teremos:
k

2
cal
=

2
cal
=

(Fo
i =1

Fei )

Fei

(33 25)2 + (26 25)2 + (21 25)2 + (22 25)2 + (17 25)2 + (20 25)2 (36 25)2
25
2
cal
= 12,0

5 passo: Concluso

Como

2
2
cal
=12,0 < 6, 5% =12,59 aceita-se H0, logo so iguais as quantidades de acidentes durante os

dias da semana.
15.2.2

Teste aplicvel a duas amostras independentes- tabelas de dupla-entrada - (Teste )


2

Aqui se deseja estudar a associao ou dependncia entre duas variveis. A representao das
freqncias observadas dada por uma tabela de dupla entrada ou tabela de contingncia. Diz-se que X e
Y so independentes se a distribuio conjunta de (X,Y) igual ao produto das distribuies marginais de X
e de Y.


Procedimentos para se efetuar o teste.

1 passo) Enunciar as hipteses H0 e H1.


H0: as variveis so independentes, ou as variveis no esto associadas (no h correlao).
vs.
H1: as variveis so dependentes, ou as variveis esto associadas (h correlao).
2 passo) Fixar o limite de erro e escolher a varivel qui-quadrado com (L-1)*(C-1) graus de liberdade.
Onde L e C representam respectivamente, o nmero de linhas e colunas da tabela de contingncia.
3 passo) Com o auxlio da tabela qui-quadrado ( ), determinar as Regies Crticas (RC) e as Regies
Aceitveis (RA) em funo do nvel de ;
2

RA
RC

(2L 1)*(C 1)
4 passo) Clculo do valor da varivel;
L

2
cal
=
i =1

(Foi Fei )2

j =1

Fei

Feij =

onde, cada Feij determinado por:

(soma da linha i ) * (soma da coluna j )


total de observaes

Prof. Jerry A. Johann

86

Estatstica Descritiva, Probabilidades e Inferncia

5 passo) Concluso


Se

2
cal
(2L1)*(C 1) , rejeita-se H0, conclui-se com um nvel de significncia de %, que as variveis

so dependentes, ou esto associadas (h correlao).




Se

2
cal
< (2L 1)*(C 1) , aceita-se H0, ou seja,

no se pode dizer que as variveis sejam dependentes

(no h correlao).
Exemplo: Deseja-se testar ao nvel de 5% se h dependncia entre as preferncias por sabor da
pasta de dentes e o bairro. Para tanto foram levantados os seguintes dados:
Bairros
Sabor da pasta
Total
A
B
C
limo
70
44
86
200
chocolate
50
30
45
125
hortel
10
6
34
50
outros
20
20
85
125
Total
500
150
100
250


1 passo:
H0: a preferncia pelo sabor independe do bairro (no h correlao)
vs
H1: a preferncia pelo sabor depende do bairro (h correlao)
 2 passo:
Graus de liberdade: (L-1)*(C-1) (4-1)*(3-1)=6  gl=6
Nvel de significncia =0,05 = 5%


3 passo: busca-se na tabela qui-quadrado no eixo horizontal o valor de =5% e no eixo vertical os
2

graus de liberdade (gl=6). Obtendo-se desta forma o valor crtico (RC) de

62,5% =12,59.

5%
RA
RC

12,59


4 passo: calculo do valor da varivel

A tabela das freqncias esperadas(Fe) dada por:


Sabor da
pasta
(1) limo
(2) chocolate
(3) hortel
(4) outros
onde por exemplo: Fe11 =

Bairros
B(2)
40
25
10
25

A(1)
60
37,5
15
37,5

C(3)
100
62,5
25
62,5

150 * 200
= 60 e assim por diante.
500

Assim,
2
cal
=

(70 60 )2 + (50 37,5)2 + (10 15)2 + (20 37,5)2 + (44 40 )2 + (30 25)2
60

37,5

15

37,5

40

25

(6 10)2 + (20 25)2 + (86 100)2 + (45 62,5)2 + (34 25)2 + (85 62,5)2
10

25

100

62,5

25

62,5

= 37,88

5 passo: Concluso
Como

2
2
cal
=37,88 > 6, 5% =12,59 rejeita-se H0, concluindo-se, ao nvelde 5% de significncia, que h

dependncia entre sabor da pasta de dentes e bairros, ou seja h correlao entre as variveis estudadas.

Prof. Jerry A. Johann

87

Estatstica Descritiva, Probabilidades e Inferncia


Tabela de distribuio Qui-Quadrado (
)
2

Tabela Qui-Quadrado
Graus de

0,995

0,990

0,975

0,950

Liberdade

0,900

0,750

0,250

0,100

0,050

0,025

0,010

0,005

0,001

0,004

0,016

0,102

1,323

2,706

3,841

5,024

6,635

7,879

0,010

0,020

0,051

0,103

0,211

0,575

2,773

4,605

5,991

7,378

9,210

10,597

0,072

0,115

0,216

0,352

0,584

1,213

4,108

6,251

7,815

9,348

11,345

12,838

0,207

0,297

0,484

0,711

1,064

1,923

5,385

7,779

9,488

11,143

13,277

14,860

0,412

0,554

0,831

1,145

1,610

2,675

6,626

9,236

11,071

12,833

15,086

16,750

0,676

0,872

1,237

1,635

2,204

3,455

7,841

10,645

12,592

14,449

16,812

18,548

0,989

1,239

1,690

2,167

2,833

4,255

9,037

12,017

14,067

16,013

18,475

20,278

1,344

1,646

2,180

2,733

3,490

5,071

10,219

13,362

15,507

17,535

20,090

21,955

1,735

2,088

2,700

3,325

4,168

5,899

11,389

14,684

16,919

19,023

21,666

23,589

10

2,156

2,558

3,247

3,940

4,865

6,737

12,549

15,987

18,307

20,483

23,209

25,188

11

2,603

3,053

3,816

4,575

5,578

7,584

13,701

17,275

19,675

21,920

24,725

26,757

12

3,074

3,571

4,404

5,226

6,304

8,438

14,845

18,549

21,026

23,337

26,217

28,299
29,819

13

3,565

4,107

5,009

5,892

7,042

9,299

15,984

19,812

22,362

24,736

27,688

14

4,075

4,660

5,629

6,571

7,790

10,165

17,117

21,064

23,685

26,119

29,141

31,319

15

4,601

5,229

6,262

7,261

8,547

11,037

18,245

22,307

24,996

27,488

30,578

32,801

16

5,142

5,812

6,908

7,962

9,312

11,912

19,369

23,542

26,296

28,845

32,000

34,267

17

5,697

6,108

7,564

8,672

10,085

12,792

20,489

24,769

27,587

30,191

33,409

35,718

18

6,265

1,015

8,231

9,390

10,865

13,675

21,605

25,989

28,869

31,526

34,805

37,156

19

6,844

7,633

8,907

10,117

11,651

14,562

22,718

27,204

30,144

32,852

36,191

38,582

20

7,434

8,260

9,591

10,851

12,443

15,452

23,828

28,412

31,410

34,170

37,566

39,997

21

8,034

8,897

10,283

11,591

13,240

16,344

24,935

29,615

32,671

35,479

38,932

41,401

22

8,643

9,542

10,982

12,338

14,042

17,240

26,039

30,813

33,924

36,781

40,289

42,796

23

9,260

10,196

11,689

13,091

14,848

18,137

27,141

32,007

35,172

38,076

41,638

44,181

24

9,886

10,856

12,401

13,848

15,659

19,037

28,241

33,196

36,415

39,364

42,980

45,559

25

10,520

11,524

13,120

14,611

16,473

19,939

29,339

34,382

37,652

40,646

44,314

46,928

26

11,160

12,198

13,844

15,379

17,292

20,843

30,435

35,563

38,885

41,923

45,642

48,290

27

11,808

12,879

14,573

16,151

18,114

21,749

31,528

36,741

40,113

43,194

46,963

49,645

28

12,461

13,565

15,308

16,928

18,939

22,657

32,620

37,916

41,337

44,461

48,278

50,993

29

13,121

15,257

16,047

17,708

19,768

23,567

33,711

39,087

42,557

45,722

49,588

52,336

30

13,787

14,954

16,791

18,493

20,599

24,478

34,800

40,256

43,773

46,979

50,892

53,672

Prof. Jerry A. Johann

Estatstica Descritiva, Probabilidades e Inferncia

88

SUMRIO
1.

2.

3.

4.

5.

6.

7.

A NATUREZA DA ESTATSTICA ................................................................................................. 1


1.1.
Introduo ........................................................................................................................... 1
1.2.
Mtodo Estatstico............................................................................................................... 1
1.3.
A Estatstica ........................................................................................................................ 1
1.4.
Fases Do Mtodo Estatstico .............................................................................................. 2
DEFINIES BSICAS DA ESTATSTICA ................................................................................. 3
2.1.
Fenmeno Estatstico.......................................................................................................... 3
2.2
Dado Estatstico .................................................................................................................. 3
2.3. Populao e Universo............................................................................................................... 3
2.4.
Parmetros.......................................................................................................................... 3
2.5.
Amostra ............................................................................................................................... 3
2.6.
Estimativa ............................................................................................................................ 3
2.7.
Atributo ................................................................................................................................ 3
2.8.
Varivel ............................................................................................................................... 3
TABELAS, SRIES ESTATSTICAS E GRFICOS ..................................................................... 4
3.1.
Representao Tabular....................................................................................................... 4
3.1.1. Sries Estatsticas ......................................................................................................... 5
3.1.1.1. Sries Homgradas .............................................................................................. 5
3.1.1.2. Sries Conjugadas ................................................................................................ 6
3.1.1.3. Sries Hetergradas ............................................................................................. 6
3.2.
Representao Grfica ....................................................................................................... 6
3.2.1. Classificao dos grficos segundo o objetivo ou uso:................................................. 6
3.2.2. Classificao dos grficos segundo a forma: ................................................................ 7
DISTRIBUIO DE FREQUNCIAS.......................................................................................... 13
4.1.
Elementos de uma Distribuio de Freqncia com Intervalos de Classe:...................... 14
4.2.
Mtodo Prtico para Construo de uma Distribuio de Freqncias
com
com Intervalos de Classe ................................................................................................. 14
4.3.
Tipos De Distribuio De Freqncia ............................................................................... 15
4.4.
Representao Grfica De Uma Distribuio ................................................................... 16
4.4.1. Histograma, Polgono de freqncia simples e Polgono de frequncia acumulada .. 16
MEDIDAS DE POSIO OU DE TENDNCIA CENTRAL ........................................................ 18
5.1.
Introduo ......................................................................................................................... 18
5.2.
Mdia Aritmtica ............................................................................................................... 19
5.2.1. Dados no-agrupados ................................................................................................. 19
5.2.2. Dados agrupados ....................................................................................................... 19
5.3.
Moda - Mo ......................................................................................................................... 20
5.3.1. Dados no-agrupados ................................................................................................. 20
5.3.2. Dados agrupados ........................................................................................................ 20
5.4.
Mediana Md.................................................................................................................... 22
5.4.1. Dados no-agrupados ................................................................................................. 22
5.4.2. Dados agrupados ........................................................................................................ 22
5.4.3. Emprego da Mediana .................................................................................................. 23
5.5.
Separatrizes ...................................................................................................................... 24
5.5.1. Quartis ......................................................................................................................... 24
5.5.1.1. Dados no-agrupados......................................................................................... 24
5.5.1.2. Dados agrupados ................................................................................................ 24
5.5.2. Decis ............................................................................................................................... 25
5.5.3. Percentil ou Centil........................................................................................................ 25
MEDIDAS DE DISPERSO OU VARIABILIDADE ..................................................................... 26
6.1.
Disperso ou Variabilidade ............................................................................................... 26
6.2.
Amplitude Total - AT.......................................................................................................... 26
2
6.3.
Varincia (S ) e Desvio Padro (s) ................................................................................... 26
6.3.1. Dados no-agrupados ................................................................................................. 26
6.3.2. Dados agrupados ........................................................................................................ 27
6.4.
Coeficiente de Variao - CV............................................................................................ 28
MEDIDAS DE FORMA ................................................................................................................ 28
7.1.
Medidas de Assimetria - AS.............................................................................................. 28
7.2.
Medidas de Curtose - C .................................................................................................... 30

Prof. Jerry A. Johann

8.
9.

Estatstica Descritiva, Probabilidades e Inferncia

89

OUTRA ESTRATGIA DE ANLISE EXPLORATRIA ............................................................ 32


PROBABILIDADE ....................................................................................................................... 36
9.1
Introduo ......................................................................................................................... 36
9.2
Experimento Aleatrio ....................................................................................................... 36
9.3
Espao Amostral - S.......................................................................................................... 37
9.4
Eventos - E........................................................................................................................ 37
9.5
Conceito de Probabilidade ................................................................................................ 37
9.5.1. Propriedades da probabilidade.................................................................................... 37
9.6
Operaes com Eventos Aleatrios.................................................................................. 38
9.6.1 Exemplos: interseo e reunio de eventos................................................................ 40
9.7
Probabilidade Condicional e Independncia..................................................................... 41
9.7.1 Regra do Produto (Independncia) ............................................................................. 42
9.8
Reviso ............................................................................................................................. 43
10.
DISTRIBUIO DE PROBABILIDADES ............................................................................... 44
10.1
Variveis Aleatrias Discretas .......................................................................................... 44
10.1.1 Valor mdio (esperana matemtica); Varincia e desvio padro.............................. 46
10.1.2 Distribuio Binomial ................................................................................................... 46
10.1.3 Distribuio de Poisson ............................................................................................... 48
10.2
Variveis Aleatrias Contnuas ......................................................................................... 50
10.2.1 Distribuio Normal ..................................................................................................... 50
Propriedades da distribuio normal ........................................................................................ 50
11.
INTRODUO INFERNCIA ESTATSTICA..................................................................... 53
11.1 Amostragem Distribuies Amostrais................................................................................ 53
11.1.1 Amostragem Aleatria Simples - AAS......................................................................... 54
11.1.2 Amostragem Sistemtica - AS..................................................................................... 55
11.1.3 Amostragem Estratificada - AE.................................................................................... 56
11.1.4 Amostragem por Meio de Conglomerados.................................................................. 56
11.1.5 Amostragem Mltipla ................................................................................................... 57
11.2
Exemplos (Amostragem)................................................................................................... 58
12.
ESTIMAO POR PONTO E POR INTERVALOS ............................................................... 66
12.1
Intervalos de Confiana - IC.............................................................................................. 66
2
12.1.1 Intervalo de Confiana para a mdia populacional () quando a varincia ( )
a
2
a varincia ( ) populacional conhecida................................................................... 66
2
12.1.2 Intervalo de Confiana para a mdia populacional () quando a varincia ( )
a
populacional desconhecida ...................................................................................... 67
12.1.3 Intervalo de Confiana para a proporo ou probabilidade ........................................ 68
2
12.1.4 Intervalo de Confiana para a varincia da populao ( ) ........................................ 69
12.1.5 Intervalo de Confiana para o desvio padro () da populao ................................. 69
13.
TAMANHO DAS AMOSTRAS................................................................................................ 70
14
TESTE DE HIPTESE (TH) .................................................................................................. 72
14.1
Conceitos .......................................................................................................................... 72
14.2
Erros Tipo e Tipo ......................................................................................................... 72
14.3
Procedimentos para se efetuar um teste de significncia. ............................................... 73
14.3.1 Teste para a Mdia populacional () ........................................................................... 73
14.3.2 Teste para a proporo populacional ()..................................................................... 74
14.3.3 Teste para a igualdade de duas mdias populacionais ()......................................... 76
Caso 1) As varincias so conhecidas, independentes e normais ..................................... 76
Caso 2: As varincias so desconhecidas e admitidas iguais, independentes e normais . 77
15
ANLISE BIDIMENSIONAL ................................................................................................... 80
15.1
Correlao Linear de Pearson (r) e Modelo de Regresso Linear Simples (RLS)......... 80
15.2
Estatstica No-Paramtrica para Anlise de Correlao................................................. 83
2
15.2.1 Teste aplicvel a uma amostra ou Teste de Aderncia (Teste Qui-Quadrado - )... 83
15.2.2 Teste aplicvel a duas amostras independentes- tabelas de dupla-entrada
a
2
- (Teste ) .................................................................................................................. 85

Vous aimerez peut-être aussi