Vous êtes sur la page 1sur 59

CENTRO UNIVERSITRIO TUPY

PS-GRADUAO EM ENGENHARIA DA
QUALIDADE













ESTATSTICA E
PROBABILIDADE APLICADA
A ENGENHARIA DA
QUALIDADE













Prof. Ernesto Berkenbrock MSc

Autor: Gilsiley Henrique Dar MSc

Todos os direitos em relao ao design deste material didtico so reservados
Instituto Superior Tupy.
Todos os direitos quanto ao contedo deste material didtico so reservados
ao(s) autor(es).




2

Sumrio
1. PROGRAMA DA DISCIPLINA ............................ ERRO! INDICADOR NO DEFINIDO.
1.1 EMENTA ............................................................................. ERRO! INDICADOR NO DEFINIDO.
1.2 OBJETIVOS ......................................................................... ERRO! INDICADOR NO DEFINIDO.
1.3 CONTEDO PROGRAMTICO ............................................ ERRO! INDICADOR NO DEFINIDO.
1.4 BIBLIOGRAFIA RECOMENDADA ........................................ ERRO! INDICADOR NO DEFINIDO.
1.5 CURRCULO RESUMIDO DO PROFESSOR .......................... ERRO! INDICADOR NO DEFINIDO.
2.1 BREVE HISTRICO ............................................................ ERRO! INDICADOR NO DEFINIDO.
2.2 DEFINIO ......................................................................... ERRO! INDICADOR NO DEFINIDO.
2.3 ENTIDADES ........................................................................ ERRO! INDICADOR NO DEFINIDO.
2.4 REVISO............................................................................. ERRO! INDICADOR NO DEFINIDO.
2.4.1 ARREDONDAMENTO ....................................................... ERRO! INDICADOR NO DEFINIDO.
2.4.2 PORCENTAGEM .............................................................. ERRO! INDICADOR NO DEFINIDO.
3 REPRESENTAES GRFICAS ........................ ERRO! INDICADOR NO DEFINIDO.
3.1 GRFICO DE LINHAS ......................................................... ERRO! INDICADOR NO DEFINIDO.
3.2 GRFICO DE COLUNAS ..................................................... ERRO! INDICADOR NO DEFINIDO.
3.3 GRFICO DE BARRAS ........................................................ ERRO! INDICADOR NO DEFINIDO.
3.4 CARTOGRAMA ................................................................... ERRO! INDICADOR NO DEFINIDO.
3.5 GRFICO EM SETORES ...................................................... ERRO! INDICADOR NO DEFINIDO.
3.6 HISTOGRAMA .................................................................... ERRO! INDICADOR NO DEFINIDO.
3.7 CURVA DE FREQUNCIA ACUMULADA ............................ ERRO! INDICADOR NO DEFINIDO.
4. ESTATSTICA CONCEITOS E DEFINIESERRO! INDICADOR NO DEFINIDO.
4.1 DEFINIES ....................................................................... ERRO! INDICADOR NO DEFINIDO.
4.2 HISTOGRAMA OU DISTRIBUIO DE FREQUNCIA ........ ERRO! INDICADOR NO DEFINIDO.
4.2 MEDIDAS DE TENDNCIA CENTRAL ................................ ERRO! INDICADOR NO DEFINIDO.
MDIA ARITMTICA ............................................................... ERRO! INDICADOR NO DEFINIDO.
Mdia harmnica ....................................................... Erro! Indicador no definido.
Mdia geomtrica ...................................................... Erro! Indicador no definido.
Mediana ..................................................................... Erro! Indicador no definido.
Moda .......................................................................... Erro! Indicador no definido.
4.2 MEDIDAS DE DISPERSO OU VARIABILIDADE ................. ERRO! INDICADOR NO DEFINIDO.
Amplitude Total ......................................................... Erro! Indicador no definido.
Desvio ........................................................................ Erro! Indicador no definido.
Desvio absoluto .......................................................... Erro! Indicador no definido.
Varincia .................................................................... Erro! Indicador no definido.
Desvio Padro ............................................................ Erro! Indicador no definido.
Coeficiente de Variao ............................................. Erro! Indicador no definido.
4.3 MEDIDAS DE ASSIMETRIA OU OBLIQUIDADE .................. ERRO! INDICADOR NO DEFINIDO.
4.4 MEDIDAS DE CURTOSE ..................................................... ERRO! INDICADOR NO DEFINIDO.
5. PROBABILIDADE ................................................. ERRO! INDICADOR NO DEFINIDO.




3
5.1 CONCEITOS E DEFINIES ............................................... ERRO! INDICADOR NO DEFINIDO.
5.3 TEORIA DOS CONJUNTOS .................................................. ERRO! INDICADOR NO DEFINIDO.
Unio, Interseo, Independncia e Eventos Mutuamente ExclusivosErro! Indicador
no definido.
Eventos Complementares .......................................... Erro! Indicador no definido.
Teorema de De Morgan ............................................. Erro! Indicador no definido.
Anlise Combinatria: Permutao, Arranjo, CombinaoErro! Indicador no definido.
5.2 DISTRIBUIES DE PROBABILIDADE ............................... ERRO! INDICADOR NO DEFINIDO.
Funo Densidade de Probabilidade (fdp) ................. Erro! Indicador no definido.
Esperana ................................................................... Erro! Indicador no definido.
Varincia .................................................................... Erro! Indicador no definido.
5.2.1 Distribuio Binomial ....................................... Erro! Indicador no definido.
5.2.2 Distribuio de Poisson .................................... Erro! Indicador no definido.
5.2.3 Distribuio Uniforme ...................................... Erro! Indicador no definido.
5.2.4 Distribuio Exponencial .................................. Erro! Indicador no definido.
5.2.5 Distribuio Normal ......................................... Erro! Indicador no definido.
5.2 Aplicaes da Curva Normal ............................... Erro! Indicador no definido.
5.3 ESTIMAO INTERVALAR ................................................................................................... 49
5.3.1 Clculo do tamanho da amostra ...................................................................... 51
6. TESTE DE HIPTESE ........................................................................................................ 53
7. REGRESSO LINEAR ........................................................................................................ 56





4


1. PROGRAMA DA DISCIPLINA
1.1 Ementa
Introduo estatstica.
Estatstica descritiva.
Introduo probabilidade.
Distribuies de probabilidade.
Variveis aleatrias.
Amostragem.
Testes de hiptese.
Anlise de varincia.
Regresso linear.

1.2 Objetivos


Espera-se que ao trmino deste mdulo os participantes estejam aptos a reconhecer a
importncia da estatstica e probabilidade para aplicar no gerenciamento e controle das
atividades dirias, sejam pessoais ou profissionais.




5

1.3 Contedo programtico

Introduo estatstica.
Definir estatstica. Diferenciar a aplicabilidade
de suas divises. Nomear os precursores da
estatstica.
Estatstica descritiva.
Esboar dados estatsticos. Resumir os
parmetros populacionais atravs de estatsticas.
Introduo probabilidade. Definir os principais conceitos da probabilidade.
Distribuies de probabilidade.
Identificar o modelo de melhor ajuste para uma
varivel aleatria.
Variveis aleatrias. Conceituar e identificar variveis aleatrias.
Amostragem.
Dimensionar o tamanho de uma amostra e
caracterizar o erro amostral.
Testes de hiptese. Compreender e aplicar um teste de hiptese.
Anlise de varincia. Aplicar a anlise de varincia para inferncias.
Regresso linear.
Aplicar o modelo de regresso linear a
problemas de correlao de variveis e
interpretar seus resultados.





6

1.4 Bibliografia recomendada

KUME, HITOSHI. Mtodos Estatsticos para melhoria da Qualidade.. So Paulo: Editora
Gente, 1993.
Larson, Ron e Farber, Betsy. Estatstica e Mtodos Quantitativos. So Paulo: Pearson,
2008.
Maclave, James et alli. Estatstica para Administrao e Economoia. So Paulo: Pearson,
2008.
Memria, Jos Maria Pompeu. Breve Histrica da Estatstica. Braslia. Embrapa. 2004.
Disponvel em:
http://www.embrapa.br/publicacoes/tecnico/folderTextoDiscussao/arquivos-
pdf/Miolo_21.pdf. ltimo acesso: 27/09/2012.
Crespo, Antonio A. Estatstica Fcil. So Paulo. Saraiva. 1999.
Sistema Nacional de Metrologia, Normalizao e Qualidade Industrial. NBR 4, Norma
Brasileira Probatria, NBR 5891. Regras de arrendondamento decimal. ABNT. Dez
1977.
Tiboni, Conceio G. R. Estatstica Bsica para o Curso de Turismo. So Paulo, Atlas,
2003.
Carta de conjuntura / Instituto de Pesquisa Econmica Aplicada. Diretoria de Estudos e
Polticas Macroeconmicas. Grupo de Anlise e Previses. (dez .2007)- . Rio de
Janeiro: Ipea. Dimac, 2007-.
McClave, James T. Estatstica para administrao e economia. Prentice Hall, So Paulo,
2008.
Costa Neto, Pedro Luiz de Oliveira e Cymbalista, Melvin. Probabilidades. Editora Edgard
Blucher, So Paulo, 2006.
Takahashi, Shin. Guia Mang de Estatstica. Editora Novatec, So Paulo, 2010.
Ross, Sheldon. Probabilidade: um curso moderno com aplicaes. Bookman, Porto
Alegre, 2010.




7

1.5 Currculo resumido do professor

Gilsiley Henrique Dar - Possui graduao em Engenharia Mecnica pela Universidade do
Estado de Santa Catarina (1999), graduao em Processamento de Dados pela Universidade
do Estado de Santa Catarina (1997) e mestrado em Mtodos Numricos em Engenharia pela
Universidade Federal do Paran (2005). Atualmente coordenador do curso e professor de
Engenharia de Produo da UNIASSELVI, e chefe departamento da seo de planejamento e
controle da produo - WEG. Tem experincia na rea de Engenharia de Produo, com
nfase em Gerncia de Produo. Mdulos SAP com nfase em planejamento da produo.
Analista de Sistemas e desenvolvedor de aplicaes utilizando solvers matemticos e
programao por restries. Consultor independente na rea de estatstica, nfase em
estatstica descritiva, regresso, confiabilidade e modelos probabilsticos.







8
2. Introduo

2.1 Breve Histrico
A estatstica no uma cincia recente. Surgiu junto com a necessidade que o status
Estado possui de coletar impostos. Conforme (Memria, 2004) A etimologia da palavra, do
latim status (estado), usada aqui para designar a coleta e a apresentao de dados quantitativos
de interesse do Estado, bem reflete essa origem. O Estado possua particular interesse nas
populaes e suas riquezas, obtivando-se coletar tributos e mensurar seu poderio militar.
Para se ter uma idia, Confcio comentou sobre levantamentos realizados na China
2000 anos antes de Cristo. Os faras Egpcios, os maias, astecas e incas tambm se utilizaram
destas tcnicas. Os cristos foram recenseados aps uma ordem do Imperador Augusto,
fazendo uso de tcnicas estatsticas.
Na Inglaterra, Guilherme, o Conquistador, no sculo XI, mandou levantar as
propriedades rurais dos conquistados anglo-saxes, para conhecer as novas riquezas recm
adquiridas.
O surgimento da estatstica propriamente dita se deu no sculo XVI, na Itlia. O
trabalho de Francesco Sansovini (1521 1586), publicou uma orientao descritiva para os
italianos em 1561. A Igreja Catlica passou a catalogar seus batismos, casamentos e bitos a
partir do Conclio de Trento (1545-1563).
A ampliao dos estudos foi feita pelo alemo Gottfried Achenwall, que criou o
vocabulrio estatstico em 1746, ampliando e aprimorando as definies do trabalho de
Sansovini.
No sculo XVII, iniciaram-se os primeiros trabalhos para se tentar tirar concluses
mais gerais a partir de nmeros amostrais, denominada Aritmtica Poltica. Estas tbuas,
como eram conhecidas, permitiam estimar a expectativa de vida da populao. Uma primeira
tbua foi construda por Halley (1656-1742), o mesmo do cometa, servindo para o clculo do
seguro de vida.
Na mesma poca, a partir de correspondncias trocadas por Blaise Pascal (1623-1662)
e Pierre de Fermat(1601-1665), para solucionar problemas relacionados com jogos de azar,
em moda nos sales da Frana.
Nesta vertente, muitos cientistas contriburam para a evoluo da cincia estatstica,
cabendo destacar, Jacob Bernoulli, Nicholas Bernoulli, Abraham De Moivre, Stirling, Pierre
Simon (Marqus de Laplace), Francis Galton e um dos mais famosos, Carl Friedrich.




9
Para uma leitura mais aprofundada sobre a histria da estatstica, recomenda-se
(Memria, 2004).

2.2 Definio

Segundo (Crespo, 1999), estatstica uma parte da matemtica aplicada que fornece
mtodos para coleta, organizao, descrio, anlise e interpretao de dados e para a
utilizao dos mesmos na tomada de decises. Esta abordagem sugere a estatstica como uma
ferramenta de suporte a deciso.

2.3 Entidades

A seguir entidades que trabalham intensivamente com estatsticas.

Instituto Brasileiro de Geografia e Estatstica - IBGE: http://www.ibge.gov.br/home/
Instituto de Pesquisas Econmicas Avanadas - IPEA: http://www.ipea.gov.br/
Instituto VoxPopuli : http://vox2.zapto.org/
IBOPE: http://www.ibope.com.br/pt-br/Paginas/home.aspx
Datafolha: http://datafolha.folha.uol.com.br/
Associao Brasileira de Empresas de Pesquisa ABEP:
http://www.abep.org/novo/Default.aspx

Existem inmeras outras, mas aqui, procurou-se demonstrar a vasta aplicao desta
cincia, percorrendo o caminho desde dados geogrficos, demogrficos at eleies e
comportamento social.





10

2.4 Reviso

2.4.1 Arredondamento

importante, para incio do estudo, compreender a representao e a incerteza dos dados
apresentados. Uma das questes refere-se ao arredondamento dos nmeros. Onde isto
importante? Imagine-se diante de uma diretoria, interessada em nos milhes do faturamento.
No faz sentido apresentar o resultado como R$ 1.256.725,42. O interesse est na casa dos
milhares de reais, portanto, deveria se apresentar o resultado em uma unidade mais
interessante. Neste caso o valor R$ 1.256.725,42 deve ser esboado em milhares de reais. A
pergunta que surge , qual o valor a exibir? Pode ser 1256 ou 1257. Neste momento
lanamos mo das regras de arredondamento.

Estas regras so normatizadas pela Associao Brasileira de Normas Tcnicas ABNT, NBR
5891 de dezembro de 1977. Seu contedo exposto abaixo na ntegra.
1. OBJETIVO
Esta norma tem por fim estabelecer as regras de arredondamento na Numerao Decimal.
2. REGRAS DE ARREDONDAMENTO
2.1 Quando o algarismo imediatamente seguinte ao ltimo algarismo a ser conservado for inferior a 5, o ltimo
algarismo a ser conservado permanecer sem modificao.
Exemplo:
1,333 3 arredondado primeira decimal tornar-se- 1,3.
2.2 Quando o algarismo imediatamente seguinte ao ltimo algarismo a ser conservado for superior a 5, ou, sendo 5, for
seguido de no mnimo um algarismo diferente de zero, o ltimo algarismo a ser conservado dever ser aumentado de
uma unidade.
Exemplo:
1,666 6 arredondado primeira decimal tornar-se-: 1,7.
4,850 5 arredondados primeira decimal tornar-se-o : 4,9.
2.3 Quando o algarismo imediatamente seguinte ao ltimo algarismo a ser conservado for 5 seguido de zeros, dever-se-
arredondar o algarismo a ser conservado para o algarismo par mais prximo. Conseqentemente, o ltimo a ser
retirado, se for mpar, aumentar uma unidade.
Exemplo:
4,550 0 arredondados primeira decimal tornar-se-o: 4,6.
2.4 Quando o algarismo imediatamente seguinte ao ltimo a ser conservado for 5 seguido de zeros, se for par o
algarismo a ser conservado, ele permanecer sem modificao.
Exemplo:
4,850 0 arredondados primeira decimal tornar-se-o: 4,8.
Para uma melhor compreenso segue alguns exerccios resolvidos para esclarecer regra a
regra. O primeiro passo identificar o nmero a ser conservado. Para isto seja o nmero
125,36. Deseja-se arredonda-lo para unidades. O nmero a ser conservado 125,36. Neste
caso aplicando-se a regra 2.1, o nmero posterior ao que deve ser conservado inferior a 5,
neste caso 3, logo mantm-se. Uma constatao imediata que o nmero 125,36 est mais
prximo de 125 do que 126. uma questo de bom senso. Para o mesmo exemplo, se o
objetivo fosse arredondar para a decimal, agora o nmero a ser arredondado o 3, 125,36.
Neste caso a regra a ser aplicada a 2.2, o nmero posterior ao que deve ser conservado
superior a 5 ou 5 seguido de outro valor diferente de 0, aumenta-se de uma unidade, ou seja,
125,4.




11

Resumindo-se 125,36 125 e 125,36 125,4.

Alguns exemplos:

Tabela 01. Exemplos de Arredondamento.
Valor Objetivo
Identificao do
nmero a ser
arredondado
Valor Regra
12,45 Dezena 12,45 10 2.1
127,89 Unidade 127,89 128 2,2
15,2501 Decimal 15,2501 15,3 2.2
1585,00 Dezenas 1585,00 1580 2.4
1.524.658 Centenas
de Milhares
1.524.658 1.500.000 2.1
0,55 Decimal 0,55 0,6 2.3
450 Unidade de
Milhar
0450 0 2.1


2.4.2 Porcentagem

No decorrer do estudo ser importante relativizar os dados, trazendo-os para uma determinada
base de referncia. Por exemplo, em uma determinada empresa, identificou-se que o
problema de qualidade de um produto gerado por 5 fatores. Estes esto resumidos na tabela
02. O valor absoluto, representado pela coluna quantidade, no permite em uma anlise
posterior, comparar resultados. O valor relativo mais adequado.

Causa Quantidade Valor
Relativo
Cabo rompido 22 44%
Cabo invertido 12 24%
Conector Quebrado 8 16%
Outros 8 16%
Total 50


Para se calcular o valor relativo, utiliza-se a frmula abaixo:



Para o exemplo da tabela 02, o clculo do valor percentual dado por


Abaixo segue alguns exemplos resolvidos.





12
1) Em uma empresa foram produzidos 250 produtos, dos quais 4 foram reprovados pela
qualidade. Qual o percentual de defeito?
Neste caso, aplica-se diretamente a frmula




2) Um produto vendido por R$ 150,00. Foi dada uma comisso de 3,5%. Qual foi a
comisso do vendedor?
Neste caso, a incgnita o valor, ento tem-se:




3) Sabe-se que a taxa mdia de falhas de um produto de uma determinada empresa de
8%. Foram encontrados em um lote 5 produtos defeituosos. Sabendo-se que este
representou fielmente a taxa de falha da empresa, qual o tamanho do lote
inspecionado?
Para este exemplo, deseja-se o valor total



Neste caso, o produto vendido em peas. Aplicando o critrio de arredondamento, o
valor Lote = 62 peas.







13
3. Representaes Grficas
Na estatstica, existem inmeras maneiras de representar um conjunto de dados. Para cada
situao pode-se escolher um modelo que melhor o representa. Os grficos so uma maneira
rpida de visualizar um conjunto de dados. Abaixo segue uma lista no extensiva dos
modelos que podem ser utilizados.

3.1 Grfico de Linhas

O grfico em linha elaborado em um eixo cartesiano. No eixo horizontal, eixo x ou eixo das
abcissas, atribui-se uma varivel de anlise. No eixo vertical, eixo y ou eixo das ordenadas
corresponde aos valores desta varivel. Aps a marcao do par cartesiano (X, Valor de X),
ligam-se os pontos com uma reta. Para o exemplo abaixo, no eixo X, tem-se o tempo, e no
eixo y, a demanda interna em milhes e o PIB da indstria em milhes.


Grfico 01. Evoluo da demanda interna versus PIB da indstria.
Fonte: http://www.ipea.gov.br/portal/images/stories/PDFs/conjuntura/cc16_completa.pdf






14
3.2 Grfico de Colunas

O grfico em coluna elaborado, similarmente ao grfico de linha, em um eixo cartesiano.
No eixo horizontal, eixo x ou eixo das abcissas, atribui-se uma varivel de anlise. No eixo
vertical, eixo y ou eixo das ordenadas corresponde aos valores desta varivel. Aps a
marcao do par cartesiano (X, Valor de X), desenham-se retngulos, ligando o eixo
horizontal ao par cartesiano marcado. Para o exemplo abaixo, no eixo X, tm-se as regies do
Brasil, e no eixo y, o percentual de pessoas com carteira de trabalho assinada.




Grfico 01. Percentual de pessoas com carteira de trabalho assinada.
Fonte: http://cod.ibge.gov.br/7hg


3.3 Grfico de Barras

O grfico em barra elaborado, similarmente ao grfico de coluna, em um eixo cartesiano,
com o adicional de se inverter os eixos. No eixo vertical, atribui-se uma varivel de anlise.
No eixo horizontal, corresponde aos valores desta varivel. Aps a marcao do par
cartesiano (Y, Valor de Y), desenham-se retngulos, ligando o eixo vertical ao par cartesiano
marcado. Para o exemplo abaixo, no eixo Y, tm-se as faixas etrias, e no eixo x, a taxa de
analfabetismo.


Grfico 02. Taxa de analfabetismo das pessoas de 15 anos ou mais.
Fonte: http://cod.ibge.gov.br/7hg




15
3.4 Cartograma

Conforme (Tiboni, 2003), definido como ilustraes relativas a cartas geogrficas, em que
representaes so feitas diretamente sobre o desenho de uma rea geogrfica.. Segue
abaixo um modelo de cartograma, extrado do IBGE. Os tamanhos dos tringulos
representam a proporo de indgenas em uma determinada localidade. Para cada local, um
retngulo associado com esta proporo.

Grfico 04. Proporo da populao indgena em relao ao total de ambientes local em
2010.
Fonte: http://www.ibge.gov.br/indigenas/mapas.html





16

3.5 Grfico em Setores

Este grfico representado no sistema de coordenadas polares. O raio uma constante,
porm o ngulo do setor circular proporcional ao valor da varivel a ser analisada. Abaixo
segue um exemplo.


Grfico 05. Distribuio de Renda em 2010.
Fonte: http://veja.abril.com.br/multimidia/infograficos/o-desenvolvimento-em-uma-decada
apud ibge/2010.

3.6 Histograma
Um dos grficos mais importantes o histograma. um grfico em colunas, onde no eixo x,
apresenta-se a varivel em estudo e no eixo y, a frequncia de ocorrncia desta varivel.
construdo a partir da distribuio de frequncia de um conjunto de dados.
Mais a frente, aps a definio de alguns conceitos estatsticos, apresentado passo a passo a
sua construo. O histograma uma das sete ferramentas da qualidade.





17

Grfico 06. Lista de tarefas por grau de urgncia.
Fonte: O autor.

3.7 Curva de Frequncia Acumulada

construdo a partir da distribuio de frequncia de um conjunto de dados. Similar ao
histograma, porm com a diferena que os valores so acumulados. Geralmente construdo
sobre o histograma. O grfico abaixo ilustra esta representao.


Grfico 06. Lista de tarefas por grau de urgncia, com curva de frequncia acumulada.
Fonte: O autor.







18
4. Estatstica conceitos e definies

4.1 Definies

A estatstica pode ser dividida em duas grandes reas. A primeira a estatstica descritiva,
que objetiva, descrever uma populao, enquanto que a estatstica inferencial visa prever
comportamento, fazer previses sobre o um determinado conjunto de dados. Segundo
(McClave, 2008), estatstica descritiva se utiliza de mtodos numricos e grficos que
permitem identificar padres em um conjunto de dados, permitem ainda resumir e apresenta-
los de maneira conveniente. Enquanto a estatstica inferencial utiliza-se de amostras de dados
para fazer estimativas, tomar decises, realizar previses ou realizar generalizaes sobre um
conjunto de dados.

Independente da estatstica que se far o estudo, o conceito de populao e amostra, estatstica
e parmetros so importantes. Populao o conjunto de interesse a ser estudado, pode ser
pessoas, objetos, transaes, eventos, entre outros. Uma populao possui parmetros
populacionais de interesse, como por exemplo, mdia, desvio padro ou proporo (ser visto
mais posteriormente). Para levantar seus valores possvel realizar um censo, que consiste
em coletar a informao de toda a populao. Porm, em sua grande maioria, ou isto
custoso (por exemplo, coletar informaes de todos os brasileiros), ou impraticvel (exemplo
de sries temporais os quais os dados ainda no esto todos disponveis). Para simplificar o
modelo, lanasse mo de uma amostra. Amostra um subconjunto da populao. Os valores
levantados em uma amostra so conhecidos como estatsticas e so estimadores para os
parmetros populacionais. A figura 1 apresenta um esquema desta definio. A populao
um conjunto maior com seus parmetros, os quais so desconhecidos. Para estima-los,
utiliza-se uma amostra e estatsticas para inferir sobre os reais valores dos parmetros
populacionais.

Outro conceito importante de Varivel Aleatria. Define-se como uma caracterstica ou
propriedade de interesse de uma amostra. Por exemplo, em uma eleio, o candidato
escolhido a varivel aleatria. Sobre esta varivel podemos obter inmeras estatsticas ou
parmetros. Na estatstica descritiva poderamos calcular a estatstica proporo de eleitores
que escolheram o candidato A e na estatstica inferencial, estimar o nmero de eleitores que
votaro no candidato A, lembrando de esboar o erro amostral devido a extrapolao da
informao. Na sequencia, aborda-se as principais estatsticas para estimao de alguns
parmetros populacionais.








19

Figura 1. Representao esquemtica de uma populao e amostra
Fonte: O autor.

4.2 Histograma ou Distribuio de Frequncia

Dada a importncia que este tipo de grfico tem na estatstica, probabilidade e determinao
de distribuies, aborda-se aqui a sua construo.

O histograma resultado de uma amostra. Para tal, define-se dois conceitos, dados brutos e
rol. Dados brutos, nada mais so que os dados coletados, obtidos aps uma pesquisa ou coleta
de dados. Rol consiste na ordenao destes dados. Para um exemplo, suponha que se est
coletando o valor do dimetro de uma haste de um determinado produto. A tabela 1 exibe os
dados na sequencia de coleta.

Tabela 1. Dados brutos obtidos para a medio do dimetro de uma haste de um determinado produto.
10,1 10,0 10,6 10,7 9,5 10,2 9,7 11,1 9,6 8,4
10,0 10,4 10,3 10,5 8,3 12,0 9,8 10,2 9,7 11,3
8,2 9,3 10,5 10,2 8,7 8,7 8,9 9,5 10,6 10,3
9,2 10,1 9,9 9,3 9,8 9,9 9,4 7,9 9,4 10,4
9,1 11,1 10,5 10,2 9,8 8,2 10,3 10,0 10,8 11,7
8,7 9,6 9,5 10,4 8,0 11,0 10,4 8,8 10,5 9,8
10,2 8,8 7,9 9,3 9,5 10,6 10,5 8,7 11,8 10,2
10,9 11,4 8,8 9,7 10,2 9,6 8,2 8,0 7,5 11,0
9,1 9,5 8,4 8,3 8,8 10,9 11,5 10,3 10,4 10,2

Mdia
Desvio
Proporo
Mdia
Desvio
Proporo
Amostra

Estimativa




20
12,0 8,5 9,4 10,0 11,1 10,8 9,4 10,7 11,6 11,0

O prximo passo ordenar este conjunto de dados. A tabela 2 exibe o rol da tabela anterior.
A partir da lista ordenada, ou rol, pode-se iniciar algumas anlises, como identificar moda ou
mediana. Porm para construo do histograma, deve-se transformar os dados, criando o que
se chama de intervalos de classe.

Tabela 2. Rol das coletas dos dimetros da haste
7,5 7,9 7,9 8,0 8,0 8,2 8,2 8,2 8,3 8,3
8,4 8,4 8,5 8,7 8,7 8,7 8,7 8,8 8,8 8,8
8,8 8,9 9,1 9,1 9,2 9,3 9,3 9,3 9,4 9,4
9,4 9,4 9,5 9,5 9,5 9,5 9,5 9,6 9,6 9,6
9,7 9,7 9,7 9,8 9,8 9,8 9,8 9,9 9,9 10,0
10,0 10,0 10,0 10,1 10,1 10,2 10,2 10,2 10,2 10,2
10,2 10,2 10,2 10,3 10,3 10,3 10,3 10,4 10,4 10,4
10,4 10,4 10,5 10,5 10,5 10,5 10,5 10,6 10,6 10,6
10,7 10,7 10,8 10,8 10,9 10,9 11,0 11,0 11,0 11,1
11,1 11,1 11,3 11,4 11,5 11,6 11,7 11,8 12,0 12,0

Isto importante, pois se o nmero for grande de intervalos, a uma fragmentao muito
grande na visualizao dos dados. A figura 1 exibe esta fragmentao. H uma quantidade
muito grande de intervalos de classe, isto dificulta uma anlise, por exemplo, de identificao
da tendncia central dos dados. Inversamente se o nmero de intervalos for pequeno, dificulta
uma boa interpretao. A figura 3 exibe esta situao, onde foi determinado apenas dois
intervalos. Desta forma, apenas se sabe que h mais coletas no segundo intervalo, de 9,5 a 12
do que no primeiro intervalo, de 7,0 a 9,5.


Figura 2. Histograma do dimetro das Hastes com muitos intervalos




21




Figura 3 Histograma do dimetros das hastes com poucas classes

Neste caso, surge a pergunta. Qual o nmero de classes ou intervalos que se deve adotar?
Para isto existem algumas frmulas empricas para estimar o nmero adequado de intervalos
de classe. A frmula adotada neste texto a regra de Sturges, dado pela equao 1. Aonde i
o nmero de intervalos e n o nmero de amostras.


Equao 1. Frmula de Sturges

Aplicando ao exemplo dado, onde n igual a 100 amostras, obtm-se o valor 7,6. Desta
forma o nmero sugerido de intervalos de classe 8. A figura 4 exibe este resultado.
Observar que o histograma permite visualizar certo padro de comportamento. Os dados
apresentam-se concentrados em torno do valor 10, possuindo uma variao, com menor
frequncia nas caudas. A curva apresenta uma caracterstica de simetria. Estas informaes e
sua frmula de clculo sero apresentadas nos tpicos a posteriori.





22

Figura 4. Histograma do dimetros das hastes, com nmero de intervalo de classes conforme Sturges

4.2 Medidas de Tendncia Central

Quando os dados so agrupados eles tendem a se concentrar em torno de um determinado
nmero. Este nmero chamado de tendncia central. O parmetro costumeiro que
representa esta medida do centro dos dados chama-se mdia populacional. Para determina-lo
exatamente, faz-se necessrio um censo. Porm para estim-lo pode-se utilizar algumas
estatsticas. Estas estatsticas, que passam a ser estimadores da mdia populacional, so a
mdia, a moda e a mediana. Existem algumas outras como a mdia geomtrica, a mdia
harmnica, a mdia ponderada e a mdia entre o mximo e o mnimo de um conjunto de
dados.

Pode-se fazer uma analogia com a fsica e associar este ponto ao centro de gravidade. Por
exemplo, supondo que um tringulo seja representado pelos seus vrtices ( (0,0),(2,0),(2,2) ).
O centro de gravidade exibido na figura 5. Consiste no ponto de cruzamento das trs retas
que ligam o vrtice ao ponto mdio das arestas do triangulo. Seu valor pode ser determinado
e consiste no ponto . Este ponto o centro de gravidade da figura e o centro dos dados.




23

Figura 5. Centro de gravidade de um tringulo, ou dos pontos (0,0), (2,0) e (2,2).
Fonte: O autor.

Mdia Aritmtica

A mdia aritmtica um dos estimadores mais utilizados para medidas de tendncia central.
Pode-se mostrar que este no tendencioso e possui boas propriedades de estimao. Para
seu clculo, utiliza-se a equao XX. Seu clculo consiste na soma de todos os valores e
dividir esta soma pela quantidade total de elementos.



Equao 2. Mdia
Aritmtica Simples

Algumas vezes os dados esto agrupados. Desta forma tem-se a frequncia ou o nmero de
repeties de um determinado valor que deve ser considerado quando se calcular a mdia.
Desta forma, altera-se a Equao Xx, para a equao YY, onde se deve multiplicar o valor xi
pela sua frequncia ou peso ou ainda probabilidade.



Equao 3. Mdia
Aritmtica Ponderada

Para um exemplo, realizou-se uma coleta de dados e obtiveram-se resultados constantes na
figura x. Visualmente est se procurando um valor que esteja no centro dos dados.
Utilizando-se a equao 1, para encontrar esta medida, soma-se todos os resultados obtendo-
se 100,76. Dividindo-se pelo nmero de amostras, tem-se a mdia igual a 10,08. Uma
observao, no h como a mdia ser mais precisa que os dados amostrais, ento se os dados
foram coletados com duas casas aps a vrgula, a mdia deve no mximo possuir duas casas.
Este valor exibido como uma linha na figura abaixo. O objetivo mostrar a representao
grfica da mdia como um valor o qual os dados se distribuem ao redor.





24


Para dados agrupados, deve-se utilizar a equao 2. A forma de representao o histograma.
Abaixo replica-se a tabela x do exemplo y.

Limite Inf Limite Sup Ponto Mdio Frequencia
7,5 8,1 7,8 5
8,1 8,6 8,3 8
8,6 9,2 8,9 11
9,2 9,8 9,5 19
9,8 10,3 10,0 24
10,3 10,9 10,6 17
10,9 11,4 11,2 10
11,4 12,0 11,7 6

Para dados agrupados com intervalo de classe, faz-se necessrio escolher um ponto dentro do
intervalo. Escolhe-se costumeiramente o ponto mdio do intervalo. Para a tabela acima tem-
se 8 intervalos de classe, para se calcular a mdia, utiliza-se a equao de clculo de mdia
para dados agrupados. Substituindo-se na equao obtm-se:




Ainda existem outras mdias, com aplicaes diversas, descritas abaixo.

Mdia harmnica
A mdia harmnica uma mdia que se relaciona com valores inversamente proporcionais.
Por exemplo, ao se tratar de velocidade e tempo. Neste caso, quanto mais rpido nos




25
deslocarmos, menor o tempo gasto. Suponha que percorre-se um quilmetro a 60km/h e o
segundo quilmetro a 90km/h. A velocidade mdia no ser 75km/h, se utilizarmos o
conceito de mdia aritmtica simples. Para este caso, deve-se utilizar uma mdia harmnica.
Seu valor dado pela equao 3.


Equao 4. Mdia
Harmnica

Caso os dados estejam agrupados, deve-se utilizar a equao 4.


Equao 5. Mdia
Harmnica para dados
agrupados

Para o exemplo dado, a velocidade mdia do trajeto dada pela mdia harmnica
. Fazendo a prova real, 1 km a 60km/h implica em 1 minuto. 1 km a
90km/h implica em 40 segundos. O tempo total para percorrer os 2 km foi de 1min e 40seg.
A velocidade mdia 2km/1,6667min*60min/h. O resultado 72km/h.
Mdia geomtrica

Uma aplicao da mdia geomtrica para o clculo de mdias em investimentos. Por
exemplo, seja VP o valor presente de um investimento. Aps um ano, obteve-se um
rendimento de 10%. Aps o segundo ano, o rendimento foi de 20%. Ao final tem-se
VP*1,2*1,3 = 1,56VP. Ao se calcular o rendimento mdio com a mdia simples, obtem-se
25%. Porm VP*1,25*1,25 = 1,625, o que maior que o valor real. Para calcular o valor que
aplicado a si mesmo resulta no valor final, calcula-se a mdia geomtrica. A mdia
geomtrica dada pela equao 3.


Equao 6. Mdia
Geomtrica

Caso os dados estejam agrupados deve-se utilizar a equao 4. Agora a frequncia o
expoente do valor amostrado.


Equao 7. Mdia
Geomtrica para dados
agrupados





26
Para o exemplo abordado, a mdia geomtrica dada por Fazendo a
prova real, VP*1,249*1,249, obtm-se 1,56*VP. Assim, para problemas financeiros, ou que
tenham aplicao composta de valores ou taxas, por exemplo, aplica-se a mdia geomtrica.


Mediana

A mediana definida como o elemento que separa um conjunto de dados ordenados em dois
subconjuntos. Assumindo n como o tamanho da amostra, a mediana corresponde ao elemento
que se encontra exatamente na posio 50%. Para uma definio, se n for mpar a mediana
dada pelo valor do elemento (n+1)/2. Se o conjunto contiver um nmero par de elementos, a
mediana dada pela mdia dos elementos n/2 e n/2+1. A figura abaixo exibe visualmente o
elemento mediano.


Figura 6. Identificao do elemento mediano para amostra com nmero mpar e par.
A mediana utilizada como medida de tendncia central para dados assimtricos. Por
exemplo, suponha uma pesquisa salarial. Os dados contm os salrios dos colaboradores e
tambm os salrios do gerente e diretor. Neste caso, estes salario aumentam a mdia
aritmtica. O resultado que melhor representaria o centro dos dados a mediana.

Para um exemplo, suponha uma amostra contendo os valores {2,3,5,8,10}, como o conjunto
possui um nmero mpar de valores, no exemplo cinco valores, o valor mediano dado por
(n+1)/2, ou seja o 3 elemento. O valor do 3 elemento 5, desta forma a mediana 5. Se
para este conjunto fosse adicionado o valor 14, o novo conjunto dado por {2,3,5,8,10,14}.
A mediana dada pela mdia do 3 e 4 elementos. A mediana dada por 6,5 (mdia de 5 e
8).

Moda

A moda definida como o elemento que possui a maior frequncia. Uma amostra pode ser
amodal, unimodal, bimodal, trimodal ou n-modal. Se todos os valores possuem a mesma
frequncia. Fazendo uma aluso ao sinnimo do mundo fashion, moda o que mais se usa,
no caso estatstico, o que elemento que mais se repete. Para um exemplo, a tabela abaixo
apresenta a distribuio de frequncia do nmero de produtos visitado por um usurio em um
site (dados fictcios). Esta amostra unimodal, e a moda o valor 10.




27


4.2 Medidas de Disperso ou Variabilidade

Um dos principais conceitos da estatstica refere-se a disperso ou variabilidade. Quando
identifica-se o ponto central, este representa um valor que pode ser derivado de diversas
formas. H um comentrio, mal colocado por sinal, mas que ilustra o problema do elemento
central tomado por si s como representante de uma populao. Este diz o seguinte, se os ps
estiverem no gelo e a cabea estiver em um forno a 80 graus, na mdia o corpo est vivo.
Este o problema de quando se utiliza apenas o elemento de tendncia central para descrever
uma populao. Atualmente nas modernas anlises, sempre se carrega o que se chama de
margem de erro. Esta margem de erro, caracteriza-se pela variabilidade. Para um melhor
entendimento, expe-se duas figuras, que ilustram a performance de dois atiradores.



Atirador A Atirador B

Qual atirador melhor? Para responder a esta pergunta, deve-se utilizar o conceito de
disperso e vis. No exrcito, a avaliao do atirador feita utilizando-se pequenos crculos e




28
tentando enquadrar seus tiros dentre do menor crculo possvel. Para o atirador B, temos uma
concentrao, ou disperso menor. Assim, pelo conceito militar, este um melhor atirador.
A explicao que, mesmo com uma mdia melhor do atirador A, este mais instvel,
sofrendo muita variao. O atirador B precisa apenas calibrar sua arma (retirar o vis) para
transportar o centro dos dados.

O conceito de variabilidade tambm remete a idia de qualidade ou estabilidade. Quanto
menos variabilidade, melhor, mais estvel um conjunto de dados.

Nas prximas sees so apresentadas algumas medidas de variabilidade.

Amplitude Total

Amplitude total a diferena entre o maior valor de um conjunto de dados e o menor.
Assumindo representando o maior valor e representando o menor valor, a equao
para seu clculo dada abaixo:


Equao 8. Amplitude Total

A amplitude uma estimativa para a medida de variabilidade. Para um exemplo de sua
utilizao, tem-se a previso do tempo, onde, costumeiramente, apresenta-se as mximas e
mnimas temperaturas. A figura abaixo exibe a previso para o dia 02 de outubro de 2012,
para as trs cidades abaixo.


Fonte: tempo.cptec.inpe.br

Ao se calcular a amplitude das trs cidades tem-se para Boa Vista uma variao de 11C, para
Braslia uma variao de 11C e para Campo Grande uma variao de 13C. Pode-se inferir
que a maior variabilidade na temperatura da cidade de Campo Grande. Esta medida pode
significar que, por exemplo, a populao ter mais dificuldades na adaptao do clima, onde
pela manh casacos sero utilizados e a tarde o calor predomina. A amplitude como nica
fonte de medida de variabilidade carece de alguns problemas, quando os dados apresentam
pontos discrepantes, os resultados podem ficar desvirtuados. Para isto utilizam-se outras
medidas de variabilidade.

Desvio





29
Uma forma de medir a variabilidade calcular a somatria dos desvios dos dados em relao
a mdia. Porm este possui uma propriedade demonstrada abaixo, que no permite extrair
informao a respeito da disperso.


Equao 9. Desvio pontual

Equao 10. Desvio total
Seja a figura abaixo, representando os dados coletados em uma amostra do dimetro de uma
haste. As setas representam o desvio em relao a mdia, representada por uma linha.



Substituido a equao 10 na equao 9, obtm-se . Aplicando as
propriedades de somatria, vem . Porm da definio de mdia, pode-
se substituir por . Desta forma . A segunda parcela soma a
mdia n vezes. O valor pode ser substitudo por . Por fim, . Ou
seja, a soma dos desvios em relao a mdia igual a zero. Esta propriedade faz com que o
desvio no possa ser utilizado como medida de variabilidade. Para corrigir este problema
possvel utilizar o desvio absoluto.

Desvio absoluto

Aplicando-se a funo mdulo no desvio, obtm-se o desvio absoluto. As equaes abaixo
exibem sua frmula de clculo.


Equao 11. Desvio absoluto pontual




30

Equao 12. Desvio absoluto total

A dificuldade em se utilizar este valor que a funo mdulo no possui propriedades
matemtica tais como diferenciabilidade, pois, observando o grfico abaixo, ela possui um
bico. Isto no permite trata-la de uma maneira funcional, pois a derivada diferente,
dependendo do lado analisado.



Para resolver este problema, eleva-se o desvio ao quadrado. A funo quadrtica possui
continuidade, derivabilidade e integrabilidade. Desta forma mais adequado para
manipulao e tratamentos matemticos ou estatsticos.

Varincia

Varincia definida como a mdia da soma dos desvios ao quadrado. Deve-se diferenciar a
varincia populacional da varincia amostral . A diferena entre uma e outra o
nmero de graus de liberdade. Enquanto na populao, cada elemento um grau de
liberdade, na amostra, a mdia dependente das amostras e por isto, um parmetro deve ser
retirado.

Assim, as equaes abaixo definem matematicamente o conceito.


Equao 13. Varincia Populacional

Equao 14. Varincia Amostral

A varincia muito utilizada para realizar testes de hipteses, assunto da prxima aula.
Porm, seu valor sem tratamento possui uma escala quadrtica, o que dificulta realizar
diretamente uma anlise. O prximo conceito facilita a interpretao do resultado.




31
Desvio Padro

O desvio padro a raiz quadrada da varincia, seja ela populacional ou amostral. Desta
forma a escala retorna as unidades originais. a principal medida de variabilidade ou
disperso.


Equao 15. Desvio Padro
Populacional

Equao 16. Desvio Padro Amostral
Coeficiente de Variao

Outro importante conceito utilizado para o clculo da disperso o coeficiente de variao.
Ele permite que a disperso possa ser comparada entre amostras diferentes e unidades
diferentes, pois seu valor dado de forma adimensional. Sua forma de clculo envolve dois
valores com a mesma unidade. definido como o desvio-padro dividido pela mdia. Para
apresentar o resultado em porcentagem deve-se multiplicar por 100. As equaes abaixo
representam a frmula para seu clculo.


Equao 17. Coeficiente de Variao
Populacional

Equao 18. Coeficiente de Variao
Amostral

4.3 Medidas de Assimetria ou Obliquidade

Quando o histograma apresenta valores igualmente distribudos em torno do centro, a curva
dita simtrica, caso contrrio assimtrica. Uma das formas de calcular esta assimetria o
coeficiente de assimetria de Pearson.


Equao 19. Coeficiente de Assimetria
de Pearson

Para valores menores que 0,15 a curva pode ser considerada simtrica. Para valores entre
0,15 e 1, a curva contm leve assimetria. Para valores maiores que 1, a curva consiste em
assimtrica. As figuras abaixo exibem curvas assimtricas e sua classificao.





32

Figura 7 Exemplo de uma curva simtrica
Fonte: O autor.


Figura 8. Exemplo de uma curva assimtrica positiva.
Fonte: http://en.wikipedia.org/wiki/Skewness


Figura 9. Exemplo de uma curva assimtrica negativa.
Fonte: http://en.wikipedia.org/wiki/Skewness

4.4 Medidas de Curtose

Curtose representa o conceito de achatamento de uma curva. Ele pode ser associado com
disperso, pois uma curva muito achatada possuir uma maior disperso, uma curva mais
concentrada, possuir menos variao. Uma forma de calcul-lo se utilizando do coeficiente
percentlico de curtose. Este dado pela equao abaixo.


Equao 20. Coeficiente de Assimetria
de Pearson





33
Se C igual a 0,263; a curva chamada de mesocrtica, para valores inferiores a 0,263 a curva
chamada de leptocrtica, para qualquer outro caso, platocrtica. As figuras abaixo mostram
a aparncia de tais curvas.


Figura 10. Classificao de curvas segundo sua curtose
Fonte: O autor.





34

5. Probabilidade

5.1 Conceitos e Definies

O estudo da probabilidade se inicia com o estudo da teoria dos conjuntos. Alguns conceitos
so importantes, apesar de simples, para um entendimento adequado. Em probabilidade
estamos interessados em resultados, observaes verificadas a partir de medies.
Experimento o processo de realizar uma observao que no pode ser prevista. Um
resultado elementar do processo de experimentao chama-se ponto amostral ou evento
simples. O conjunto de todos os pontos amostrais possveis chama-se espao amostral ou
conjunto universo . Um subconjunto de resultados de um experimento chama-se
evento .


Para ilustrar estes conceitos, suponha o experimento de lanar dois dados. Um resultado
elementar o par (2,3), por exemplo. O conjunto de todos os resultados elementares forma o
espao amostral, dado abaixo. Este espao amostral consiste em 36 resultados elementares.


1 2 3 4 5 6
1 (1,1) (2,1) (3,1) (4,1) (5,1) (6,1)
2 (1,2) (2,2) (3,2) (4,2) (5,2) (6,2)
3 (1,3) (2,3) (3,3) (4,3) (5,3) (6,3)
4 (1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
5 (1,5) (2,5) (3,5) (4,5) (5,5) (6,5)
6 (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)





35
Um possvel subconjunto de interesse so os resultados os quais a soma das faces dem 7. A
tabela abaixo exibe em destaque os resultados de interesse. Para este caso tem-se 6 resultados
possveis para o evento soma 7.

1 2 3 4 5 6
1 (1,1) (2,1) (3,1) (4,1) (5,1) (6,1)
2 (1,2) (2,2) (3,2) (4,2) (5,2) (6,2)
3 (1,3) (2,3) (3,3) (4,3) (5,3) (6,3)
4 (1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
5 (1,5) (2,5) (3,5) (4,5) (5,5) (6,5)
6 (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)


Mas qual o interesse de se conhecer isto? Exatamente para se definir o conceito de
probabilidade.

A probabilidade de um evento P(E) definida como a relao entre o nmero de possveis
resultados favorveis do evento (#E) e todos os resultados possveis ( ). A frmula dada
pela equao abaixo. Leia-se o smbolo # como cardinalidade, ou simplesmente a quantidade
de elementos pertencente ao conjunto.


Equao 21. Clculo da probabilidade
de um evento.

Para um exemplo de clculo, a probabilidade do evento dado acima, a soma ser igual a 7
calculada como .

Propriedades

A partir da definio, so derivadas algumas propriedades.

Um evento vazio, possui um conjunto vazio de pontos amostrais. Sua cardinalidade zero e
assim P(E) = 0.
Um evento que se confunde com o conjunto universo possui todos os pontos amostrais. Sua
cardinalidade igual ao espao amostral, portanto P(E) = 1. Desta forma, deriva-se a
primeira propriedade.



Assuma, um ponto amostral, ento . Isto significa que a soma da
probabilidade de todos os pontos amostrais igual a 1 (ou 100%).

Alguns exemplos:





36
Seja um experimento de selecionar uma carta de um baralho de 52 cartas, conforme figura
abaixo. Qual a probabilidade de se tirar uma carta de copas? Qual a probabilidade de se tirar
uma figura?

Fonte: http://www.mathgoodies.com/lessons/vol6/sample_spaces.html

O espao amostral consiste em todas as cartas do baralho, no exemplo, 52. O primeiro
evento, tirar uma carta de copas, possui 13 possibilidades. Desta forma, a probabilidade de se
tirar uma carta de copas . J a probabilidade de se tirar uma figura
.

5.3 Teoria dos Conjuntos

Unio, Interseo, Independncia e Eventos Mutuamente Exclusivos

Algumas operaes sobre conjuntos so importantes para o entendimento de algumas relaes
na probabilidade. Assim, defina-se A como um conjunto de objetos, e um objeto de A.
Defina-se B como um conjunto de objetos no necessariamente igual a A e . A relao
definida como a relao de interseo e informa que se implica
. Quando se tem eventos independentes, por exemplo, ao se lanar uma
moeda, este resultado no interfere no resultado do prximo lanamento ou outro exemplo o
resultado de um sorteio da Mega Sena no passado no interfere no resultado da prxima
semana, pode-se calcular .

A relao definida como a relao de incluso ou unio e informa que se
implica .


Equao 22. Clculo da
probabilidade de uma unio.

Definem-se eventos mutuamente exclusivos como eventos que no possuem elementos em
comum. Por exemplo, suponha em um experimento lanar um dado, temos o evento A igual a
obter um nmero par e o evento B igual a obter um nmero impar. Um nmero que pertence
a A no pertence a B e vice-versa. Desta forma, no h elementos em comum e a equao
alterada conforme abaixo.




37


Equao 23. Clculo da probabilidade de uma
unio com eventos mutuamente exclusivos

Vamos para um exemplo, resgatando as cartas do exemplo passado, suponha A o evento de
obter uma carta de copas e B o evento de obter uma figura. Qual a probabilidade de se obter
uma figura que seja de copas? Qual a probabilidade de se obter uma figura OU uma carta de
copas?

Para resolver este problema inicialmente descreve-se os elementos de cada conjunto. O
evento A igual a uma carta de copas contm 13 elementos, destacados pela barra azul. O
evento B contm 12 elementos representados pelo retngulo vermelho. Deve-se perceber que
h um conjunto de cartas que se encontra em ambos os eventos, a saber, as figuras de copa
{J, Q, K}. Este conjunto o conjunto de interseo de A e B representado por .
Sua probabilidade dada por . Como os eventos no so mutuamente
exclusivos, para se calcular a segunda questo, deve-se aplicar a equao abaixo.


Eventos Complementares

Por definio, todos os elementos de um experimento que no fazem parte de um determinado
evento A, dito complementar de A, representado por . Sua probabilidade dada por
. Esta equao muito til em algumas situaes as quais mais fcil
calcular a probabilidade do complemento do que do prprio evento desejado.

Teorema de De Morgan

Uma relao desenvolvida por De Morgan, um estudioso da teoria dos conjuntos relaciona
uma unio com intersees e eventos complementares. Suponha A e B dois eventos, desta
forma, .

Por exemplo, suponha que um candidato est procurando emprego e no emprego A, est
concorrendo com 3 pessoas e no emprego B, est concorrendo com 5 pessoas. Qual a
probabilidade deste candidato terminar empregado? Neste caso ele pode ser aprovado no
primeiro emprego, pode ser aprovado no segundo emprego ou em ambos. Desta forma




38
deseja-se saber a probabilidade de . Porm, para este caso mais fcil calcular sua
negao, utilizando o teorema de De Morgan. Sabendo que e , tem-se que
os eventos complementares so dados por e
. Desta forma, . Como os eventos
so independentes (supondo que as vagas so em empresas que no tem contato uma com a
outra), tem-se . Assim, a resposta dada por
. Ou seja, o candidato possui 47% de chance de
sair contratado aps os resultados destes dois processos de seleo.

Anlise Combinatria: Permutao, Arranjo, Combinao

Em muitas situaes enumerar as possibilidades muito complexo, moroso ou at mesmo
impossvel. Porm, o que se deseja apenas a quantidade de elementos de um experimento
ou evento. Assim, lana-se mo do que chamamos de anlise combinatria.

PERMUTAO
Suponha que se tenha n objetos. De quantas maneiras diferentes pode-se orden-los? Esta
ordem chama-se permutao. Para um exemplo, suponha 3 objetos {A,B,C}. As
permutaes possveis so {A,B,C},{A,C,B},{B,A,C},{B,C,A}, {C,A,B} e {C,B,A}. Para
este caso o resultado final contempla 6 permutaes. Para calcular diretamente este resultado
sem levantar exaustivamente estas, utiliza-se a frmula abaixo:


Equao 24. Clculo do nmero de Permutaes



Onde

Para este exemplo, tem-se 3 elementos, logo 3! = 3.2.1 = 6.

ARRANJO

Quando se deseja permutar n elementos, porm tomados r elementos de cada vez, chamamos
de Arranjo. Sua frmula de clculo dada abaixo:


Equao 25. Clculo do nmero de Arranjos

Suponha em uma corrida, com 5 corredores, de quantas maneiras podemos ter o pdio? Neste
caso, temos 5 competidores, porm estes sero tomados de trs em trs. Neste caso, o nmero
de arranjos dado por
. Ou seja, h 60 maneiras do pdio ser tomado.





39
COMBINAES

Existem situaes em que no se interessa a ordem, por exemplo, em um sorteio de loteria,
neste caso, um resultado possvel chama-se de combinao. Da mesma forma que o Arranjo,
em uma combinao, geralmente se est interessado em combinar n elementos r a r. Neste
caso, pode-se definir combinao da seguinte forma:


Equao 26. Clculo do nmero de
Combinaes

Para um exemplo, o sorteio da loto fcil possui 25 nmeros dos quais 15 so sorteados.
Quantos resultados existem? Esta uma situao onde no importa a ordem de sorteio, se o
nmero 15 for o primeiro ou o ltimo a ser sorteado isto irrelevante, ele foi sorteado! Para
este exemplo, deseja-se ento
, ou seja, so aproximadamente trs milhes de combinaes.
Sua chance de ganhar de uma em trs milhes.

5.2 Distribuies de Probabilidade

Define-se Varivel Aleatria como sendo uma funo que associa a cada resultado de
interesse de um evento aleatrio um valor numrico. Para um exemplo, seja o experimento
lanar uma moeda no viciada 5 vezes. Seja o evento contar o nmero de caras, assim, a
varivel X possui como valores {0,1,2,3,4,5}. Para cada resultado, associa-se um nmero. Se
este nmero for a probabilidade do resultado ocorrer, tem-se a funo densidade de
probabilidade. As variveis aleatrias podem ser discretas ou contnuas. So variveis
aleatrias discretas as variveis que assumem valores enumerveis. Em outro caso chamam-
se variveis aleatrias contnuas.

Seja o experimento de lanar 3 moedas. Seja ainda o evento contar o nmero de caras. Seu
espao amostral {CaCaCa, CaCaCo, CaCoCa, CaCoCo, CoCaCa, CoCaCo, CoCoCa,
CoCoCo}. Associando a cada ponto amostral uma funo de interesse que mapeia o nmero
de caras obtm-se {3,2,2,1,2,1,1,0}. Definindo-se a varivel aleatria X como sendo o
nmero de caras, seu domnio dado por {0,1,2,3}. Para cada resultado do experimento
associa-se um nmero, neste caso a quantidade de resultados com a caracterstica desejada. A
funo associada exibida na figura abaixo. Por exemplo, para o valor do evento 0 caras,
tem-se apenas um resultado CoCoCo. Para cada valor faz-se esta anlise.




40

Se ao invs de se representar os valores, fosse representada a probabilidade, a funo recebe o
nome de funo densidade de probabilidade. Para este exemplo, esta funo exibida abaixo.


Funo Densidade de Probabilidade (fdp)

No qualquer funo que pode ser associada a uma varivel aleatria. Uma funo
densidade de probabilidade possui algumas propriedades. Abaixo, segue estas propriedades
tanto para o caso discreto quanto para o caso contnuo.

Descrio Discreto Contnuo
Assume somente valores
positivos. (No existe
probabilidade negativa).


fdp(X)
Domnio Resultados

0
1
2
3
0.125
0.375
0.375
0.125

X
Domnio Resultados

0
1
2
3
1
3
3
1




41
A soma das probabilidades
de todos os resultados
igual a 100%



Muitas variveis aleatrias possuem caractersticas similares. Devido a isto, algumas funes
ganharam importncia e so conhecidas como distribuies de probabilidade.

Esperana

Define-se o operador esperana E(X) de uma varivel aleatria como o valor da varivel
multiplicado pela sua fdp. Seu valor similar ao clculo da mdia. Abaixo a equao para
variveis discretas e contnuas.


Equao 27. Esperana para varivel
discreta

Equao 28. Esperana para varivel
contnua

O operador esperana possui algumas propriedades.

A esperana de uma constante a prpria constante. .
A esperana de uma varivel aleatria multiplicada por uma constante igual a constante
multiplicada pela esperana da varivel aleatria. .
A esperana da soma de duas variveis aleatrias a soma das esperanas.
.

Varincia

O operador varincia a generalizao da varincia amostral vista em medidas de
variabilidade. Tambm conhecida como momento de segunda ordem, definido conforme
abaixo.


Equao 29. Varincia para varivel
discreta

Equao 30. Varincia para varivel
contnua

Quando no se tem disponvel o valor de , pode-se utilizar a mdia amostral .

A Varincia possui algumas propriedades descritas abaixo.





42
;
;

Uma relao comumente adotada para varincia que relaciona o operador esperana dado
abaixo:



5.2.1 Distribuio Binomial

A distribuio Binomial tem as seguintes propriedades:
a) So realizados n amostras.
b) Cada amostra possui apenas um resultado, ou sucesso ou fracasso.
c) A probabilidade de sucesso p e a probabilidade de fracasso q e constante para
cada amostra.

A varivel X representa o nmero de sucessos nestas n amostras.

Desta forma a probabilidade de X igual a k sucessos dada pela equao abaixo.


Equao 31. Distribuio Binomial

Os parmetros E(X) e V(X) so dados abaixo.




Observao, para valores de n grandes (sugesto a partir de n=30), pode-se utilizar a
distribuio normal para aproximar estes valores.

5.2.2 Distribuio de Poisson

Na distribuio Binomial, o objetivo era obter k sucessos em n experimentos. Porm,
se o interesse for o nmero de sucessos em um determinado intervalo de tempo t,
comprimento, superfcie, etc., utiliza-se a distribuio de Poisson.


Equao 32. Distribuio de Poisson

Os parmetros E(X) e V(X) so dados abaixo.







43

5.2.3 Distribuio Uniforme

Existem situaes as quais os resultados so equiprovveis, ou seja, todos os resultados do
domnio possuem a mesma probabilidade de acontecer. Por exemplo, o lanamento de um
dado de seis faces no viciado. Mas existem aplicaes importantes como na rea de
simulao, onde simula-se dados uniformes e depois os transforma em uma distribuio
especfica. Abaixo segue a funo densidade de probabilidade da funo uniforme.


Equao 33. Distribuio uniforme

Equao 34. Probabilidade para um
varivel com domnio restrito,
seguindo uma distribuio uniforme

Os parmetros E(X) e V(X) so dados abaixo.




Exemplo, extrado de (Ross, 2012), Um nibus sai de um terminal de quinze em quinze
minutos, tendo hora cheia como um dos horrios de sada. Se um passageiro chega
aleatoriamente entre 7:00 e 7:30, qual a probabilidade de que ele espere:
a) menos de 5 minutos;
b) mais de 10 minutos por um nibus.

Supondo que cada instante de tempo tem a mesma probabilidade de chegada do passageiro.
Seja X o instante de chegada do passageiro. Desta forma, X tem domnio (0,30) e segue uma
distribuio uniforme. Para que o passageiro espere menos de cinco minutos, este deve
chegar entre 7:10 e 7:15 ou 7:25 e 7:30. Equacionando, tem-se:



Portanto, a probabilidade de passageiro esperar menos de 5 minutos de 33,3%. Realizando
as mesmas contas para o caso de mais de 10 minutos:


De forma a obter um resultado igual, pois os intervalos tem o mesmo tamanho. Assim a
resposta , ao chegar em um ponto, onde o nibus passa de quinze em quinze minutos, tem-se
33,3% de chance de esperar menos de 5 minutos ou mais de 10 minutos.




44

5.2.4 Distribuio Exponencial

Em situaes cotidianas aparece comumente o interesse em saber o tempo ou a probabilidade
de algo ocorrer em determinado instante. Esta necessidade surge com frequncia na teoria das
filas, no tempo de chegada entre clientes, na fsica relacionada ao tempo de decaimento
radiativo, entre outros. A funo densidade de probabilidade dada abaixo. Como se fala em
tempo, no se define esta funo para valores negativos.


Equao 35. Distribuio exponencial
O grfico abaixo ilustra graficamente a fdp exponencial.

Figura 11. Grfico da fdp da distribuio exponencial com mdia .
Fonte: O autor.

Os parmetros E(X) e V(X) so dados abaixo.




5.2.5 Distribuio Normal





45
A distribuio mais famosa a distribuio normal. Foi introduzida, conforme (Ross, 2010)
por Abraham DeMoivre para aproximar variveis aleatrias binomiais com n grande. Est
associado ao teorema do limite central e uma distribuio limite para um soma de variveis
aleatrias. Sua funo densidade de probabilidade possui dois parmetros e , dada
abaixo.


Equao 36. Distribuio normal

Os parmetros E(X) e V(X) so dados abaixo.




O grfico da curva normal exibido abaixo.


Figura 12. Grfico da fdp normal, com mdia 0 e desvio padro 1.

5.2.5 Aplicaes da Curva Normal

Devido a sua importncia, esta distribuio estudada mais profundamente nos tpicos a
seguir. Primeiro porque ela uma curva limite para uma soma de variveis e segundo por
possuir grande aplicabilidade e servir como aproximao para outras distribuies.





46
A curva normal possui algumas propriedades interessantes. Seja trs curvas, conforme
abaixo, mdia 0, mas variabilidades 0.5, 1 e 2.



(a) Desvio 0,5 (b) Desvio 1 (c) Desvio 2
A rea sobre a curva informa a probabilidade de uma varivel aleatria dentro de um
intervalo. Independente da curva que escolhermos, se for escolhido para qualquer delas a
probabilidade entre mdia menos desvio e mdia mais desvio, o valor sempre ser o mesmo.
Devido a esta propriedade, possvel transformar a curva normal em uma curva padronizada,
que serve para qualquer parmetro, bastando realizar uma transformao adequada. Esta
transformao, chamada de padronizao ou normalizao, relacionada com o valor da
varivel, sua mdia e seu desvio, conforme equao abaixo, para o caso populacional ou
amostral:



Devido a simetria da curva, qualquer probabilidade de um intervalo pode ser obtido de uma
tabela padro. Esta tabela, geralmente apresentada conforme abaixo.





47


Estes valores representam a rea sob a curva de 0 at z desvios, onde z o valor apresentado
na tabela e representa o valor transformado. O grfico abaixo ilustra o seu significado.




48


Alguns exemplos de aplicao.

Exemplo 01 Na fabricao de sabonetes de 90g, h uma pequena variao em seu peso. O
peso mdio 90g, como esperado, porm h 5g de desvio padro. Sabendo que o INMETRO
exige que o peso seja no mnimo 80g (suposio). Qual a probabilidade da empresa ser
multada?
Para resolver este exerccio primeiro deve-se identificar a rea de interesse. Neste caso,
deseja-se saber a probabilidade do peso do sabonete ser menor que 80g. Padronizando este
valor obtm-se . A figura abaixo exibe a regio de interesse.

Para chegar no resultado da rea abaixo faz-se as seguintes operaes, explicitadas
visualmente abaixo. Na curva (a) tem-se metade da curva, ou seja, 50% do total. A curva (b)
fornece o valor do centro at dois desvios. A curva (c) fornece a diferena entre as duas.
Como a curva simtrica, este resultado o mesmo que se desejava.













49
(a)
Metade da curva (50%)
(b)
Curva para 2 desvios (tabela)
= (a)-(b)



0,5000 0,4772 0,0228

Para este exemplo, a probabilidade de 2,28% de a empresa ser multada.

5.3 Estimao Intervalar

A partir do teorema do limite central, quando se trata de mdias, independente da distribuio
da varivel estudada, esta seguir uma distribuio normal. A partir deste resultado,
possvel estimar a mdia de um resultado, no de forma pontual, mas sim em um intervalo, o
qual carrega a probabilidade de certeza que o resultado correto esteja dentro deste intervalo.
Esta certeza chama-se nvel de confiana c. Nvel de confiana a probabilidade de que o
intervalo estimado contenha o parmetro populacional. A figura abaixo exibe a rea sob a
curva normal, que possui uma rea igual ao nvel de confiana desejado.



Algumas definies importantes so estimativa pontual estimativa de um nico valor para
um parmetro populacional. A probabilidade de que ele represente exatamente o valor
verdadeiro muito baixa ou nula. J a estimativa intervalar um intervalo de valores usado
para estimar um parmetro populacional. Devido ao teorema do limite central, sabe-se que a
distribuio da mdia sempre segue uma normal. Para se realizar uma estimativa intervalar,
define-se o erro, que uma funo no nvel de confiana. O erro dado pela equao abaixo.


Equao 37. Frmula do erro para estimao
intervalar




50
Sendo que o valor tabelado da curva normal para o nvel de confiana desejado, o
desvio padro populacional, ou s, o desvio padro amostral (estimador para ) e n o
tamanho da amostra.

Uma vez definido o erro, a estimao intervalar dada pela equao abaixo. O valor de a
estimativa para a mdia.


Equao 38. Estimao Intervalar

Exemplo) Nos estados unidos proibido vender mariscos com peso inferior a 12,6 gramas.
Um navio chegou com 11000 sacos, dos quais 100 foram amostrados. A mdia obtida foi de
11,6g com desvio de 5g. Construir um intervalo com 95% de confiana.




Para resolver este problema, primeiro deve-se calcular o valor de para o nvel de confiana
desejado. Para o exemplo, o nvel de confiana de 95%. Como a curva normal simtrica,
tem-se 47,5% para cada lado. Procura-se ento 0,475 dentro da tabela. Aps o identificado,
faz-se a leitura do valor do correspondente. Neste caso, a figura acima demonstra este
passo a passo. O valor fornecido 1,9 + 0,06. O valor de ento 1,96. Pelo enunciado
tem-se n igual a 100 amostras e o desvio padro estimado de 5g. Substituindo estes valores
obtm-se



Com o valor do erro, faz-se a estimativa intervalar, neste caso, assumindo a mdia igual a
11,6, tem-se:

Atentar para o arredondamento para uma casa decimal.

Observao: O nvel de confiana deve ser interpretado da seguinte forma. A probabilidade
de que um determinado intervalo contenha o valor verdadeiro do parmetro populacional o
47,5%




51
nvel de confiana. A figura abaixo foi montada da seguinte forma. Uma determinada
varivel aleatria segue uma normal com mdia 100 e desvio padro de 10 unidades. Foi
realizado um experimento o qual foi extrado 30 amostras. Para esta amostra, encontrou-se o
intervalo de confiana. Este resultado foi desenhado no grfico, em destaque abaixo.
Repetiu-se este experimento 100 vezes, cada um conduzido por um pesquisador diferente.
Para cada experimento, gerou-se os intervalos de confiana. Todos os resultados so exibidos
abaixo. De todos os intervalos gerados, perceber que somente 6 intervalos no contm o
valor verdadeiro, ou seja, 100. Assim, a confiana gerada foi de 94%. Ou seja, uma vez
realizado o experimento e gerado o intervalo, espera-se que o mesmo possua a mdia (neste
caso o valor 100), em 94% das vezes (o intervalo foi gerado para 95%, como os resultados so
aleatrios, isto est condizente com os parmetros simulados).


5.3.1 Clculo do tamanho da amostra

Na estimao intervalar, quanto maior a confiana maior o intervalo de estimao, certo?
No necessariamente. possvel fazer o processo contrrio, ficar o tamanho do intervalo e a
partir da calcular o nmero de amostras necessrias para que se tenha a confiana desejada.
Para isto, utiliza-se a frmula abaixo.


Equao 39. Clculo do tamanho de amostra.

Exemplo: Para o exemplo anterior, qual o nmero de amostras necessrias, para que o erro
seja de 1 grama, confiana de 95%, sabendo que a mdia de 11,6g e o desvio de 5g.

Assumindo o valor , conforme exposto anteriormente, s dado e vale 5g. Deseja-se
um erro de 1g para a estimao, desta forma

Amostra
1




52


A resposta ento 97 amostras. Atentar para o valor do nmero de amostras, no o valor
arredondado. Pois este o valor mnimo, logo deve-se arredondar para cima.




53

6. TESTE DE HIPTESE
Uma das grandes ferramentas estatsticas desenvolvidas ao longo do sculo XX foi
certamente o teste de hiptese. Os trabalhos de Pearson e suas distribuies e principalmente
Fisher com o delineamento de experimentos, marcam o incio dos testes de hipteses.
Um teste de hiptese consiste em formular uma hiptese nula Ho, a qual se deseja testar.
Caso existam evidncias o suficiente, rejeitamos a hiptese nula e favor da hiptese
alternativa.

Retornando ao exemplo dos mariscos, proibido vende-los se o peso for inferior a 12,6
gramas. Neste caso, a hiptese nula assumir que o peso dos mariscos superior a 12,6
gramas. A hiptese alternativa condenar o barco pesqueiro, assumindo que o peso no
superior. A descrio do modelo descrita da seguinte forma:

Ho: Peso dos mariscos superior a 12,6 gramas.
Ha: Peso no superior a 12,6 gramas.

Para isto, assume-se que a mdia o valor em teste, neste caso 12,6 gramas, porm o desvio
padro desconhecido. Para isto, assume-se como melhor estimativa do parmetro o desvio
padro amostral, neste caso 5g. O nmero de amostras 100. Assumindo uma margem de
confiana de 95%, desenha-se o teste conforme abaixo.





O teste de hiptese possui como valor crtico 1,64 desvios. Deve-se testar o valor obtido da
amostra contra este valor crtico. Desta forma, calcula-se o nmero de desvios que o valor
11,6 (mdia da amostra) est longe da mdia do teste.


Regio de
Rejeio (5%)




54


Como este valor cai dentro da regio de rejeio, rejeita-se a hiptese nula em prol da
hiptese alternativa, pois o valor 11,6 como mdia est to longe do valor desejado, 12,6, que
improvvel que a mdia da amostra tenha vindo de uma populao com uma mdia 12,6
gramas. possvel calcular o valor limite, o qual a partir deste, a hiptese nula rejeitada. A
frmula de clculo dada pela equao abaixo.



Para o exemplo dos mariscos, o valor limite , ou 11,78 gramas. Isto
significa que qualquer mdia de 100 amostras com menos de 11,78 gramas rejeitar a hiptese
nula. Isto sabe-se que pode ocorrer com uma frequncia de 5%, que est relacionada com o
nvel de confiana.

Em um teste de hiptese pode-se cometer erros, j que se trata de dados probabilsticos. Estes
erros so denominados erro tipo I e erro tipo II. A tabela fornece as possibilidades de erro no
modelo.

Deciso Ho verdadeira Ho Falsa
No Rejeitar Ho Deciso correta Erro tipo II
Rejeitar Ho Erro Tipo I Deciso correta
Realidade de Ho


A figura abaixo exemplifica visualmente estes erros. Explicando-o melhor. Do lado esquerdo
tem-se a curva do teste. Ao centro tem-se o valor que se quer testar. Na cauda direita tem-se
a regio crtica (denotada por Erro Tipo I com probabilidade ). Um valor nesta regio
possvel de ocorrer, mas somente vezes. Supondo para o caso dos mariscos, a
probabilidade de uma amostra das sacas fornecerem uma mdia inferior a 11,78 gramas de
5%, porm possvel de ocorrer. Neste caso, comete-se um erro tipo I, com probabilidade de
5%, de rejeitar a hiptese nula sendo que a mesma era verdadeira. Isto implicaria em rejeitar
a carga de mariscos, quando se deveria t-la aceitado. Esta probabilidade determinada pelo
experimentador e dada por , onde o nvel de confiana.
H ainda o erro tipo II, neste caso, a probabilidade de que aceitemos a hiptese nula, sendo
ela falsa. Para o exemplo dos mariscos, suponha que a mdia fosse 12,0. Este valor inferior
ao valor limite de 12,6, porm com um nvel de confiana de 95% no se pode descartar que
esta mdia no tenha vindo de uma populao com 12,6 gramas, apenas por mero acaso. Se
no basco pesqueiro a mdia realmente fosse 12 gramas, estaramos cometendo um erro tipo II,
j que aceitaramos a hiptese nula mesmo que o valor fosse inferior.





55





56

7. REGRESSO LINEAR
Anlise de Regresso um mtodo estatstico que utiliza uma relao linear entre duas ou
mais variveis de modo que uma varivel pode ser estimada (ou predita) a partir da outra ou
das outras. Para iniciar a discusso tabela abaixo os tempos dos medalhistas de ouro nos
100m rasos nas olimpadas de 1928 a 2012. A primeira coluna traz o ano, a segunda coluna
traz o tempo do medalhista masculino e a terceira coluna o tempo da medalhista do feminino.
O grfico exibe no eixo x o tempo do masculino, no eixo y o tempo do feminino. O ponto no
extremo direito do grfico, em destaque, representa o cruzamento do tempo masculino com o
tempo feminino para 1928. A pergunta a ser feita : existe uma relao entre os tempos
masculinos e femininos? Se sim possvel relacion-los de alguma forma?
Ano
Homens
(segundos)
Mulheres
(segundos)
1928 10,80 12,20
1932 10,30 11,90
1936 10,30 11,50
1948 10,30 11,90
1952 10,40 11,50
1956 10,50 11,50
1960 10,20 11,00
1964 10,00 11,40
1968 9,95 11,00
1972 10,14 11,07
1976 10,06 11,08
1980 10,25 11,60
1984 9,99 10,97
1988 9,92 10,54
1992 9,96 10,82
1996 9,84 10,94
2000 9,87 10,75
2004 9,85 10,93
2008 9,69 10,78
2012 9,63 10,75




Para responder a esta pergunta pode-se utilizar uma regresso linear. Ser assumido que h
uma relao linear entre as duas variveis. Esta relao possui a forma:

Y
i
=
0
+
1
X
i
+
i


Onde os valores de
0
e
1
so parmetros a serem estimados e
i
o erro de estimao.

Como se est interessado em um modelo linear, procura-se uma reta que passe pelos pontos e
possua o menor erro possvel. Alm disto, deseja-se que a soma dos erros seja zero (as setas
da figura abaixo). Esta reta possvel de se obter, utilizando-se as equaes mais a seguir.





57




Equao 40. Clculo do coeficiente angular
1.

Equao 41. Clculo do coeficiente linear.

Uma vez calculado estes coeficientes, encontra-se a reta de regresso. Para um exemplo, a
equao que relaciona os tempos masculino e feminino, est exposta no grfico acima e y =
1,36X-2,48.

Para identificar o grau de relao entre as duas variveis, utiliza-se o coeficiente de Pearson.
Sua equao dada abaixo:


Equao 42. Coeficiente de correlao de
Pearson.

Seu valor fica no intervalo . Quanto maior o grau de adequao, mais o modelo
permite predio para os valores da varivel dependente.

Os grficos abaixo ilustram sua interpretao. O grfico (a) exibe um bom ajuste, para este
caso o valor de r fornece uma valor prximo de 1. O grfico (b) fornece um ajuste ruim,
valores prximos de 0. O grfico (c) exibe um grfico sem relao entre as variveis. O
grfico (d) fornece um bom ajuste, porm negativo, ou seja, com um aumento em X, Y




58
diminui. O grfico (e) apresenta um ajuste perfeito o qual r = 1. Porm, ruim, pois,
provavelmente o modelo deve conter erros ou desvio, verifique que os valores entre os pontos
sofrem de uma instabilidade. Por fim, o grfico (f) fornece um modelo que no se ajusta
adequadamente, sendo necessrio encontrar outra equao de ajuste, por exemplo,
exponencial, logartmica, potencia ou polinomial.




(a) Bom ajuste (b) Ajuste ruim (c) Sem ajuste



(d) Ajuste negativo (e) Ajuste perfeito (f) Ajuste no linear

Por fim, seja o grfico dos tempos dos 100m rasos nas olimpadas, repetido abaixo. Agora
pode-se interpretar os resultados obtidos. O valor de r = 0,86 um indicativo de um bom
ajuste, ou seja, h uma relao linear entre o tempo masculino e o tempo feminino. Esta
relao positiva, ou seja, o aumento em uma implica em um aumento em outra. No caso,
uma diminuio no tempo masculino seguida de uma diminuio no tempo feminino. A
equao obtida, informa o seguinte, o valor 1,36 indica a relao entre as duas variveis. Para
cada segundo de aumento ou diminuio no tempo masculino, isto implica em 1,36 segundos
no tempo feminino.





59

Vous aimerez peut-être aussi