Vous êtes sur la page 1sur 57

UNIJUÍ - Universidade Regional do Noroeste do

Estado do Rio Grande do Sul

Estatística Aplicada a Engenharia

Compilado por

Luiz Carlos Martinelli Jr.


Professor UNIJUÍ - Campus Panambi

Panambi, 2001

1
Sumário

1 Ferramentas Estatísticas ................................................................................................................................. 4


1.1 - O que é Estatística? ................................................................................................................................ 4
1.2 - Onde se aplica a Estatística na Engenharia?........................................................................................... 4
1.3 - Definições Básicas da Estatística ........................................................................................................... 6
2. Planejamento para Coleta e Análise de Dados .............................................................................................. 7
2.1 - Exemplo 1: Folha de verificação para a distribuição do processo de produção ..................................... 9
2.2 - Exemplo 2: Folha de verificação para item defeituoso ........................................................................ 10
2.3 – Exemplo 3: Folha de verificação para localização de defeitos ............................................................ 11
3 - Estatística Descritiva .................................................................................................................................. 13
4 - Gráficos Estatísticos................................................................................................................................... 13
4.1 - Diagramas ............................................................................................................................................ 14
4.2 - Estereogramas ...................................................................................................................................... 16
4.3 - Pictogramas .......................................................................................................................................... 16
4.4 - Cartogramas ......................................................................................................................................... 16
4.5 - Gráficos dos Dados na Ordem Cronológica ......................................................................................... 17
4.6 - Histogramas de Freqüência ou Distribuição de Freqüências................................................................ 17
4.6.1 - Como construir um Histograma .................................................................................................... 23
4.6.2 - Tipos de Histograma ..................................................................................................................... 24
4.7 - Características amostrais ...................................................................................................................... 26
4.8 - Medidas de Tendência Central ............................................................................................................. 27
4.9 - Medidas de Dispersão .......................................................................................................................... 27
4.10 - Cálculo de Médias e Desvios Padrões a partir de Tabelas de Freqüência .......................................... 29
5 - Diagramas de Dispersão............................................................................................................................ 30
5.1 - Como Construir um Diagrama de Dispersão........................................................................................ 31
5.2 - Como Interpretar os Diagramas de Dispersão ...................................................................................... 33
5.3 - Cálculo de Coeficientes de Correlação................................................................................................. 34
6 – Ajustamento de Curvas e o Método dos Mínimos Quadrados.................................................................... 36
6.1 - Equações das Curvas de Ajustamento .................................................................................................. 37
6.2 - O Método dos Mínimos Quadrados ..................................................................................................... 37
6.3 - Relações Não-Lineares......................................................................................................................... 38
6.4 - A Parábola de Mínimos Quadrados...................................................................................................... 40
6.5 - Regressão ............................................................................................................................................. 41
6.6 - Aplicações das Séries Temporais ......................................................................................................... 43
6.7 - Problemas que envolvem mais de duas variáveis................................................................................. 44
7 - Modelos de Probabilidade para Experimentos ............................................................................................ 45
7.1 - Espaço Amostral .................................................................................................................................. 46
7.2 - Eventos................................................................................................................................................. 47
7.3 - Análise Combinatória........................................................................................................................... 47
7.4 - Teoremas .............................................................................................................................................. 48
7.5 - Distribuições Discretas de Probabilidade ............................................................................................. 48
7.6 - Distribuições Contínuas de Probabilidade............................................................................................ 50
Referências Bibliográficas................................................................................................................................ 56

2
Observações

Esta apostila foi organizada com objetivo de fornecer aos alunos da disciplina Estatística Aplicada a
Engenharia material de pesquisa e estudo, complemento da sala de aula.

O material aqui exposto tem como origem, além das minhas anotações, as anotações do Prof. Luís
Francisco Marcon Ribeiro, quando professor desta disciplina e uma coletânea de vários livros de Estatística,
Controle Estatístico de Processo e sobre Qualidade citados nas Referências Bibliografias desta.

3
1 FERRAMENTAS ESTATÍSTICAS

1.1 - O que é Estatística?


Segundo JURAN:
1. É a ciência da tomada de decisão perante incertezas;
2. Coleta, análise e interpretação de dados;
3. É um “kit” de ferramentas que ajuda a resolver problemas;
4. Base para a maior parte das decisões tomadas quanto ao controle da qualidade, assim como em quase
todas as outras áreas da atividade humana moderna.

Vista dessa forma, a Estatística não deve ser confundida como uma disciplina isolada, e sim,
compreendida como uma ferramenta ou um conjunto de ferramentas, disponível para a solução de problemas
em diversas áreas do conhecimento.
Segundo FEIGENBAUM: “Precisão significativamente aumentada em produção de itens e produtos
tem sido acompanhada pela necessidade de métodos aperfeiçoados para medição, especificação e registro
dela. A estatística, denominada ciência das medições, representa uma das técnicas mais valiosas utilizadas
nas quatro tarefas, e isso tem ficado cada vez mais evidente”.

1.2 - Onde se aplica a Estatística na Engenharia?


As aplicações concentram-se fundamentalmente em dois campos de ação: o Controle Estatístico do
Processo e o Controle Estatístico da Qualidade.

Definições segundo JURAN:


1. Processo: é qualquer combinação específica de máquinas, ferramentas, métodos, materiais e/ou pessoas
empregadas para atingir qualidades específicas num produto ou serviço. Estas qualidades são chamadas
de “características de qualidade”, que podem ser uma dimensão, propriedade do material, aparência, etc.
2. Controle: é um ciclo de feedback (realimentação) através da qual medimos o desempenho real,
comparando-o com o padrão, e agimos sobre a diferença.
3. Controle Estatístico do Processo (CEP): aplicação de técnicas estatísticas para medir e analisar a
variação nos processos.
4. Controle Estatístico da Qualidade (CEQ): aplicação de técnicas estatísticas para medir e aprimorar a
qualidade dos processos. CEQ inclui CEP, ferramentas de diagnóstico, planos de amostragem e outras
técnicas estatísticas.

Segundo FEIGENBAUM, provavelmente, mais importante do que os próprios métodos estatísticos,


têm sido o impacto causado sobre o pensamento industrial pela filosofia que representam. O “ponto de vista

4
estatístico” resume-se essencialmente nisto: a variabilidade na qualidade do produto deve ser constantemente
estudada:
ð Dentro de lotes de produto;
ð Em equipamentos de processo;
ð Entre lotes diferentes de um mesmo produto;
ð Em características críticas e em padrões;
ð Em produção piloto, no caso de novos produtos.

Esse ponto de vista, que enfatiza o estudo da variação, exerce efeito significativo sobre certas
atividades no controle da qualidade.
Ainda segundo FEIGENBAUM, cinco ferramentas estatísticas tornaram-se amplamente utilizadas
nas tarefas de controle da qualidade:
1. Distribuição de freqüências;
2. Gráficos de controle;
3. Aceitação por amostragem;
4. Métodos especiais;
5. Confiabilidade.

Na abordagem do papel dos métodos estatísticos no gerenciamento de processos de produção,


KUME também faz referência à variabilidade. Diz que, “(...) independentemente dos tipos de produtos ou de
métodos de produção usados, as causas de produtos defeituosos são universais. Variação, esta é a causa.”
“Variações nos materiais, na condição dos equipamentos, no método de trabalho e na inspeção são as
causas dos defeitos.”
Ainda segundo KUME, “(...) os métodos estatísticos são ferramentas eficazes para a melhoria do
processo produtivo e redução de seus defeitos”.
O primeiro passo na busca da verdadeira causa de um defeito é a cuidadosa observação do fenômeno
do defeito. Após tal observação cuidadosa, a verdadeira causa torna-se evidente.
As ferramentas estatísticas, diz KUME, conferem objetividade e exatidão à observação. As máximas
da forma estatística de pensar são:
1. Dar maior importância aos fatos do que os conceitos abstratos;
2. Não expressar fatos em termos de intuição ou idéias. Usar evidências obtidas a partir de
resultados específicos da observação;
3. Os resultados da observação, sujeitos como são a erros e variações, são partes de um todo
obscuro. A principal meta da observação é descobrir esse todo obscuro;
4. Aceitar o padrão regular que aparece em grande parte dos resultados observados como uma
informação confiável.

5
O conhecimento dominado ato o presente momento não é nada mais que um embasamento para
hipóteses futuras. Uma vez que isso tenha sido compreendido, a forma de pensar mencionada pode ser
aproveitada para aprofundar a compreensão do processo produtivo e dos meios para melhorá-lo.

1.3 - Definições Básicas da Estatística

1) FENÔMENO ESTATÍSTICO: é qualquer evento que se pretenda analisar, cujo estudo seja possível da
aplicação do método estatístico. São divididos em três grupos:
Fenômenos de massa ou coletivo: são aqueles que não podem ser definidos por uma simples
observação. A estatística dedica-se ao estudo desses fenômenos. Ex: A natalidade na Grande Vitória,
O preço médio da cerveja no Espírito Santo, etc.
Fenômenos individuais: são aqueles que irão compor os fenômenos de massa. Ex: cada
nascimento na Grande Vitória, cada preço de cerveja no Espírito Santo, etc.
Fenômenos de multidão: quando a s características observadas para a massa não se verificam para
o particular.
2) DADO ESTATÍSTICO: é um dado numérico e é considerado a matéria-prima sobre a qual iremos aplicar
os métodos estatísticos.
3) POPULAÇÃO: é o conjunto total de elementos portadores de, pelo menos, uma característica comum.
4) AMOSTRA: é uma parcela representativa da população que é examinada com o propósito de tirarmos
conclusões sobre a essa população.
5) PARÂMETROS: São valores singulares que existem na população e que servem para caracterizá-la.Para
definirmos um parâmetro devemos examinar toda a população.Ex: Os alunos do 2º ano da Universidade
Federal do Ceará (UFC) têm em média 1,70 metros de estatura.
6) ESTIMATIVA: é um valor aproximado do parâmetro e é calculado com o uso da amostra.
7) ATRIBUTO: quando os dados estatísticos apresentam um caráter qualitativo, o levantamento e os estudos
necessários ao tratamento desses dados são designados genericamente de estatística de atributo.

Exemplo de classificação dicotômica do atributo: A classificação dos alunos da UNIJUÍ quanto ao sexo.
atributo: sexo..........................classe: alunos da UNIJUÍ
dicotomia: duas subclasses ( masculino e feminino)

Exemplo de classificação policotômica do atributo: Alunos da UNIJUÍ quanto ao estado civil.


atributo: estado civil...............classe: alunos da UNIJUÍ
dicotomia: mais de duas subclasses ( solteiro, casado, divorciado, viúvo, etc.)

8) VARIÁVEL: É, convencionalmente, o conjunto de resultados possíveis de um fenômeno.


Variável Qualitativa: Quando seu valores são expressos por atributos: sexo, cor da pele,etc.

6
Variável Quantitativa: Quando os dados são de caráter nitidamente quantitativo, e o conjunto dos
resultados possui uma estrutura numérica, trata-se portanto da estatística de variável e se dividem em
:
Variável Discreta ou Descontínua: Seus valores são expressos geralmente através de números
inteiros não negativos. Resulta normalmente de contagens.Ex: Nº de alunos presentes às aulas de
introdução à estatística econômica no 1º semestre de 1997: mar = 18 , abr = 30 , mai = 35 , jun = 36.
Variável Contínua: Resulta normalmente de uma mensuração, e a escala numérica de seus possíveis
valores corresponde ao conjunto R dos números Reais, ou seja, podem assumir, teoricamente, qualquer valor
entre dois limites. Ex.: Quando você vai medir a temperatura de seu corpo com um termômetro de mercúrio o
que ocorre é o seguinte: O filete de mercúrio, ao dilatar-se, passará por todas as temperaturas intermediárias
até chegar na temperatura atual do seu corpo.

Exercício 01

Classifique as variáveis em qualitativas ou quantitativas (contínuas ou discretas):


. Cor dos olhos das alunas... Resp: qualitativa
. Índice de liquidez nas índústrias capixabas... Resp: quantitativa contínua
. Produção de café no Brasil... Resp: quantitativa contínua
. Número de defeitos em aparelhos de TV... Resp: quantitativa discreta
. Comprimento dos pregos produzidos por uma empresa... Resp: quantitativa contínua
. O ponto obtido em cada jogada de um dado... Resp: q

2. PLANEJAMENTO PARA COLETA E ANÁLISE DE DADOS

As ferramentas devem ser utilizadas de maneira eficiente para alcançar o sucesso. Para tanto, o
processo deve incluir:
1. planejamento cuidadoso da coleta de dados;
2. análise de dados para tirar conclusões estatísticas e
3. transição para a resposta ao problema técnico original.

Segundo JURAN, alguns passos-chave são:


1. Coletar informações anteriores suficientes para traduzir o problema de engenharia em problema
específico que possa ser avaliado por métodos estatísticos;
2. Planejar a coleta de dados:
a. Determinar o tipo de dados necessários – quantitativos (mais custo, mais útil) e qualitativos;
b. Determinar se quaisquer dados prévios estão disponíveis e são aplicáveis ao presente
problema;

7
c. Se o problema exigir uma avaliação de várias decisões alternativas, obter informações sobre
as conseqüências econômicas de uma decisão errada.
d. Se o problema exigir a estimação de um parâmetro, definir a precisão necessária para a
estimativa;
e. Determinar se o erro de medição é grande o suficiente para influenciar o tamanho calculado
da amostra ou o método da análise de dados;
f. Definir as suposições necessárias para calcular o tamanho da amostra exigido;
g. Calcular o tamanho da amostra necessário considerando a precisão desejada do resultado,
erro amostral, variabilidade dos dados, erros de medição e outros fatores;
h. Definir quaisquer requisitos para preservar a ordem das medições quando o tempo for um
parâmetro chave;
i. Determinar quaisquer requisitos para coletar dados em grupos definidos – diferentes
condições a serem avaliadas;
j. Definir o método de análise de dados e quaisquer hipóteses necessárias;
k. Definir os requisitos para quaisquer programas de computador que venham a ser
necessários.
3. Coletar dados:
a. Usar métodos para assegurar que a amostra é selecionada de forma aleatória;
b. Registrar os dados e também as condições presentes no momento de cada observação;
c. Examinar os dados amostrais para assegurar que o processo mostra estabilidade suficiente
para se fazer previsões válidas para o futuro.
4. Analisar os dados:
a. Selecionar os dados;
b. Avaliar as hipóteses previamente estabelecidas. Se necessário, tomar atitudes corretivas
(novas observações);
c. Aplicar técnicas estatísticas para avaliar o problema original;
d. Determinar se dados e análises adicionais são necessários;
e. Realizar “análises de sensibilidade” variando estimativas amostrais importantes e outros
fatores na análise e observando o efeito sobre as conclusões finais.
5. Rever as conclusões da análise de dados para determinar se o problema técnico original foi avaliado
ou se foi modificado para se enquadrar nos métodos estatísticos.
6. Apresentar os resultados:
a. Estabelecer as conclusões de forma significativa, enfatizando os resultados nos termos do
problema original, e não na forma dos índices estatísticos usados na análise;
b. Apresentar graficamente os resultados quando apropriado. Usar métodos estatísticos
simples no corpo do relatório e colocar as análises complexas em um apêndice.
7. Determinar se as conclusões do problema específico são aplicáveis a outros problemas ou se os
dados e cálculos poderiam ser úteis para outros problemas.

8
Como dito acima, quando for preciso coletar dados é essencial esclarecer sua finalidade e ter valores
que reflitam claramente os fatos. Além disso, em situações reais, a simplicidade deve ser uma linha mestra.
O formulário, normalmente de papel, deve ser produzido com os itens a serem verificados de forma que os
dados possam ser coletados de forma fácil e concisa.
O formulário, ou FOLHA DE VERIFICAÇÃO, deve:
1. facilitar a coleta de dados;
2. organizar os dados simultaneamente à coleta para que possam ser facilmente usados mais tarde e
3. conter dados, os quais podem (devem) ser registrados através de marcas ou símbolos simples.

A seguir têm-se alguns tipos de folhas de verificação:


1. Folha de Verificação do processo de produção;
2. Folha de Verificação para verificação de item defeituoso;
3. Folha de Verificação para localização de defeitos e
4. Folha de Verificação para verificação de defeito.

2.1 - Exemplo 1: Folha de verificação para a distribuição do processo de produção


Suponha que se queira conhecer a variação nas dimensões de um certo tipo de peça cuja
especificação de usinagem seja 8,300±0,008mm. Para estudar a distribuição dos valores característicos do
processo, são normalmente usados histogramas (gráficos). Valores como a média e variância são calculados
com base no histograma e a forma da distribuição também é examinada de várias maneiras.
Na construção de um gráfico, é muito incômodo coletar uma grande quantidade de dados e, em
seguida, desenhar um gráfico mostrando a distribuição das freqüências. Uma maneira mais simples é
classificar os dados exatamente no instante de sua coleta. O formulário abaixo é um exemplo de uma folha de
verificação que deve ser previamente preparada. Cada vez que uma medição é feita, uma marca é colocada na
quadrícula apropriada, para que se tenha o gráfico pronto no momento em que as medições forem encerradas.

9
Figura 1 - Folha de Verificação para Distribuição do Processo Produtivo

2.2 - Exemplo 2: Folha de verificação para item defeituoso


A figura abaixo mostra uma folha de verificação usada no processo de inspeção final de um certo
produto de plástico. O inspetor faz uma marca sempre que encontra um defeito. No fim do dia, ele pode
verificar rapidamente a quantidade total e os tipos de defeitos que ocorreram.
O mero conhecimento da quantidade total de defeitos não nos leva às ações corretivas, mas se uma
folha de verificação for utilizada, pistas muito importantes podem ser obtidas para a melhoria do processo,
porque os dados mostram claramente quais tipos de defeitos são freqüentes e quais não são.
Mas é necessário definir claramente, de antemão, como os defeitos devem ser registrados quando
forem encontrados dois ou mais num mesmo produto e, então, dar instruções completas para as pessoas que
farão a contagem.
Na folha de verificação abaixo, entretanto, a quantidade total de defeitos foi de 62 porque, em alguns
casos, foram encontrados dois ou mais defeitos num mesmo item.

10
Figura 2 - Folha de Verificação para Itens Defeituosos

2.3 – Exemplo 3: Folha de verificação para localização de defeitos


Defeitos externos tais como riscos e manchas são encontrados em todos os tipos de produtos e
muitos esforços estão sendo feitos em várias fábricas para reduzi-los. A folha de verificação para localização
de defeitos tem uma função poderosa na solução deste tipo de problema.
Geralmente, as folhas de verificação desse tipo têm um croqui ou uma vista ampliada onde são
anotadas as marcas, permitindo a observação da distribuição das ocorrências de defeitos.
A figura abaixo mostra um exemplo utilizado por um fabricante de máquinas na inspeção de
aceitação de peças fundidas. O defeito a ser verificado é “bolha presa”. Anteriormente o fornecedor era
apenas informado sobre a rejeição ou aceitação de cada lote e a quantidade de defeitos por lote. A qualidade,
contudo, não havia apresentado nenhuma melhoria.
A introdução da folha de verificação possibilitou um estudo mais detalhado dos lotes, indicando onde
havia maior probabilidade de ocorrer bolhas. Com esta informação, a qualidade da peça melhorou muito
porque ficou mais fácil encontrar as causas dos defeitos.
Esta folha de verificação conduz facilmente à tomada de ações e é indispensável para o diagnóstico
do processo, porque as causas dos defeitos podem, freqüentemente, ser encontradas através do exame dos
locais onde ocorrem os defeitos e pela cuidadosa observação do processo para determinar o por que os
defeitos se concentram nesses locais.
A folha de verificação da figura abaixo é usada para apontar a localização de defeitos. Além disso,
folhas de verificação são algumas vezes usadas para uma estratificação ainda maior, de modo a encontrar as
causas de defeitos. De forma geral, a maioria dos estudos voltados à detecção das causas de defeitos envolve a
associação dos dados de causas com os dados dos correspondentes efeitos, disposição dos dados numa ordem

11
que mostre claramente esta correspondência, e mais tarde, análise dos dados através da estratificação por
causas ou da construção de dispersão.

Figura 3 - Folha de Verificação para Localização de Defeitos

Figura 4 - Folha de Verificação para Localização de Defeitos

Exercício
Num processo de polimento de lentes, trabalham dois operários, cada um operando duas máquinas.
Ultimamente, a fração defeituosa deste processo tem aumentado. Os operários estão solicitando uma
mudança de máquinas, alegando que as que estão atualmente em uso são muito velhas. O pessoal técnico

12
encarregado do processo diz que os operários deveriam ser mais cuidadosos porque eles estão cometendo
erros por falta de atenção.
O que você faria numa situação semelhante? Explique detalhadamente.

3 - ESTATÍSTICA DESCRITIVA

Viu-se anteriormente um roteiro para coleta e análise de dados. As séries de dados, basicamente, são
provenientes de duas fontes: os “dados históricos” e os “dados de experimentos planejados”.
Os dados históricos são séries de dados existentes e, em geral, analisar estatisticamente esses dados
é mais econômico (tempo e despesas) se comparado com dados obtidos a partir de experimentos planejados.
Mesmo com uma análise estatística complexa, em geral, pouco sucesso se obtém com tais dados. No controle
de um processo, algumas razões para esse insucesso ocorrer são:
• As variáveis do processo podem estar altamente correlacionadas entre si, tornando impossível distinguir a
origem de um determinado efeito.
• As variáveis do processo podem ter sido manipuladas para controlar o resultado do processo.
• As variáveis do processo têm abrangência pequena em relação ao intervalo de operação do processo.
• Outras variáveis que afetam o resultado do processo podem não ter sido mantidas constantes, e serem as
reais causadoras dos efeitos observados no processo.
Por essas razões, recomenda-se a análise de séries de dados históricos apenas para a indicação de
variáveis importantes a serem observadas em um experimento planejado.
Os dados de experimentos planejados são coletados com o objetivo estudar e analisar um
problema. São dados reunidos em diversas séries de variáveis com aparente importância em um processo,
enquanto se mantém constantes (com valores registrados) todas as outras variáveis que possivelmente
poderiam alterar o resultado.
Aqui tratar-se-á de métodos práticos de organização de dados. Segundo SPIEGEL4: “A parte da
estatística que procura somente descrever e analisar um certo grupo, sem tirar quaisquer conclusões ou
inferências sobre um grupo maior, é chamada estatística descritiva ou dedutiva.”
Freqüentemente dois ou mais métodos de organização são utilizados para descrever com clareza
dados coletados. Alguns desses métodos são: gráficos dos dados na ordem cronológica, distribuição e
histogramas de freqüência, características amostrais, medidas de tendência central e medidas de dispersão.

4 - GRÁFICOS ESTATÍSTICOS

São representações visuais dos dados estatísticos que devem corresponder, mas nunca substituir as
tabelas estatísticas. Têm como características principais, o uso de escalas, a existência de um sistema de
coordenadas, a simplicidade, clareza e veracidade de sua representação.

4
M. R. SPIEGEL. Estatística. São Paulo: Makron Books, 1993.

13
Os gráficos podem ser:
1. Gráficos de informação: gráficos destinados principalmente ao público em geral, objetivando
proporcionar uma visualização rápida e clara. São gráficos tipicamente expositivos, dispensando
comentários explicativos adicionais. As legendas podem ser omitidas, desde que as informações
desejadas estejam presentes ou
2. Gráficos de análise: gráficos que prestam-se melhor ao trabalho estatístico, fornecendo elementos
úteis à fase de análise dos dados, sem deixar de ser também informativos. Os gráficos de análise
freqüentemente vêm acompanhados de uma tabela estatística. Inclui-se, muitas vezes um texto
explicativo, chamando a atenção do leitor para os pontos principais revelados pelo gráfico.

Mas o uso indevido de Gráficos pode trazer uma idéia falsa dos dados que estão sendo analisados,
chegando mesmo a confundir o leitor, tratando-se, na realidade, de um problema de construção de escalas.
.
Os gráficos pode ser classificados em: Diagramas, Estereogramas, Pictogramas e Cartogramas.
.

4.1 - Diagramas
São gráficos geométricos dispostos em duas dimensões. São os mais usados na representação de
séries estatísticas. Eles podem ser :
.1 - Gráficos em barras horizontais.
.2 - Gráficos em barras verticais ( colunas ).
Quando as legendas não são breves usa-se de preferência os gráficos em barras horizontais.
Nesses gráficos os retângulos têm a mesma base e as alturas são proporcionais aos
respectivos dados. A ordem a ser observada é a cronológica, se a série for histórica, e a
decrescente, se for geográfica ou categórica.

14
.3 - Gráficos em barras compostas.
.4 - Gráficos em colunas superpostas.
Eles diferem dos gráficos em barras ou colunas convencionais apenas pelo fato de
apresentar cada barra ou coluna segmentada em partes componentes. Servem para
representar comparativamente dois ou mais atributos.
.5 - Gráficos em linhas ou lineares.

São freqüentemente usados para representação de séries cronológicas com um grande


número de períodos de tempo. As linhas são mais eficientes do que as colunas, quando
existem intensas flutuações nas séries ou quando há necessidade de se representarem várias
séries em um mesmo gráfico.
Quando representamos, em um mesmo sistema de coordenadas, a variação de dois fenômenos, a

parte interna da figura formada pelos gráficos desses fenômeno é denominada de área de excesso.

.6 - Gráficos em setores.
Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a
participação do dado no total. O total é representado pelo círculo, que fica dividido em tantos setores quantas
são as partes. Os setores são tais que suas áreas são respectivamente proporcionais aos dados da série. O
gráfico em setores só deve ser empregado quando há, no máximo, sete dados.
Obs: As séries temporais geralmente não são representadas por este tipo de gráfico.
.

15
4.2 - Estereogramas
São gráficos geométricos dispostos em três dimensões, pois representam volume. São usados nas
representações gráficas das tabelas de dupla entrada. Em alguns casos este tipo de gráfico fica difícil de ser
interpretado dada a pequena precisão que oferecem.

4.3 - Pictogramas
São construídos a partir de figuras representativas da intensidade do fenômeno. Este tipo de gráfico
tem a vantagem de despertar a atenção do público leigo, pois sua forma é atraente e sugestiva. Os símbolos
devem ser auto-explicativos. A desvantagem dos pictogramas é que apenas mostram uma visão geral do
fenômeno, e não de detalhes minuciosos. Veja o exemplo abaixo:

4.4 - Cartogramas
São ilustrações relativas a cartas geográficas (mapas). O objetivo desse gráfico é o de figurar os
dados estatísticos diretamente relacionados com áreas geográficas ou políticas.

16
Dados obtidos de uma amostra servem como base para uma decisão sobre a população. Quanto
maior for o tamanho da amostra, mais informação obtemos sobre a população. Porém, um aumento do
tamanho da amostra também implica um aumento da quantidade de dados e isso torna difícil compreender a
população, mesmo quando estão organizados em tabelas. Em tal caso, precisa-se de um método que
possibilite conhecer a população num rápido exame.
Um histograma atende às necessidades, por meio da organização de muitos dados num histograma,
pode-se conhecer a população de maneira objetiva.

4.5 - Gráficos dos Dados na Ordem Cronológica


Representação gráfica do resultado Y versus a ordem cronológica de execução do experimento
(diagrama do resultado Y versus tempo t). Nesse tipo de gráfico, alguns dos possíveis fenômenos que podem
ser observados são:
• Curva de aprendizagem dos experimentadores (pontos no início do experimento).
• Tendências dentro de um determinado período (horas, turnos, dias, etc.), freqüentemente em função de
aquecimento, fadiga, e outros fatores relacionados com o tempo.
• Aumento ou diminuição da variabilidade dos dados com o tempo, podendo representar curva de
aprendizagem ou características relativas ao material.

4.6 - Histogramas de Freqüência ou Distribuição de Freqüências


É uma ferramenta estatística apropriada para a apresentação de grandes massas de dados numa forma
que torna mais clara a tendência central e a dispersão dos valores ao longo da escala de medição, bem como a
freqüência relativa de ocorrência dos diferentes valores.
Para um melhor entendimento do procedimento de distribuição de freqüências apresentar-se-á dois
exemplos de organização de dados, apresentado por JURAN e KUME.
A tabela 4.1 apresenta “dados brutos” (dados que não foram numericamente organizados) de
medidas de resistência elétrica de 100 bobinas. Essa forma de apresentação de dados é de difícil
entendimento.

17
Tabela 4.1 Dados Brutos: Resistência (ohms) de 100 bobinas
3,37 3,34 3,38 3,32 3,33 3,28 3,34 3,31 3,33 3,34
3,29 3,36 3,30 3,31 3,33 3,34 3,34 3,36 3,39 3,34
3,35 3,36 3,30 3,32 3,33 3,35 3,35 3,34 3,32 3,38
3,32 3,37 3,34 3,38 3,36 3,37 3,36 3,31 3,33 3,30
3,35 3,33 3,38 3,37 3,44 3,32 3,36 3,32 3,29 3,35
3,38 3,39 3,34 3,32 3,30 3,39 3,36 3,40 3,32 3,33
3,29 3,41 3,27 3,36 3,41 3,37 3,36 3,37 3,33 3,36
3,31 3,33 3,35 3,34 3,35 3,34 3,31 3,36 3,37 3,35
3,40 3,35 3,37 3,32 3,35 3,36 3,38 3,35 3,31 3,34
3,35 3,36 3,39 3,31 3,31 3,30 3,35 3,33 3,35 3,31

A tabela 4.2 apresenta os mesmos dados depois da tabulação. As marcações na coluna “tabulação”
têm a função de evidenciar qual é a tendência central e a dispersão. A coluna “Freqüência” é a contagem
dessas marcações.

Tabela 4.2 Tabulação de valores de resistência de 100 bobinas

Resistência Tabulação Freqüência Freqüência


(ohms) Acumulada
3,44 | 1 1
3,43 1
3,42 1
3,41 || 2 3
3,40 || 2 5
3,39 |||| 4 9
3,38 |||| | 6 15
3,37 |||| ||| 8 23
3,36 |||| |||| ||| 13 36
3,35 |||| |||| |||| 14 50
3,34 |||| |||| || 12 62
3,33 |||| |||| 10 72
3,32 |||| |||| 9 81
3,31 |||| |||| 9 90
3,30 |||| 5 95
3,29 ||| 3 98
3,28 | 1 99
3,27 | 1 100
Total 100

18
A tabela 4.2 mostra uma escala de valores entre 3,44Ω e 3,27Ω ou 17 intervalos de 0,01Ω cada.
Quando se deseja reduzir o número de tais intervalos, os dados são agrupados em “classes”. Agrupar os dados
em classes é uma importante ferramenta para resumir grandes massas de dados brutos, no entanto acarreta
perda de alguns detalhes.
A seguir, são apresentados os passos recomendados por JURAN para construir uma distribuição de
freqüência:

1o) Decidir quanto ao número de classes.


A Tabela 4.3 apresenta diretrizes adequadas para a maioria dos casos. Segundo JURAN, “essas
diretrizes não são rígidas e devem ser adaptadas quando necessário”.

Tabela 4.3 Número de células na distribuição de freqüências


Número de Número recomendado
observações de classes
20 - 50 6
51 - 100 7
101 - 200 8
201 - 500 9
501 - 1000 10
Mais de 1000 11 a 20

2o) Calcular aproximadamente a dimensão i da classe.


A dimensão da classe é
i = maior observação - menor observação
número de classes
Deve-se arredondar o resultado para algum número conveniente.

3o) Construir as classes, fazendo uma lista dos seus limites. Deve-se observar que:
a- Os limites de classe devem ter um decimal a mais que os dados reais, sendo o último dígito igual a 5.
b- A dimensão da classe deve ser constante para toda a distribuição de freqüência.

4o) Enquadrar e assinalar cada observação dentro da classe apropriada (coluna “Tabulação”) e calcular a
freqüência f para cada classe (colunas “Freqüência” e “Freqüência acumulada”).

Aplicando-se cada passo à distribuição de freqüência dos valores de resistência, observa-se que:
• Pela tabela 4.3, o número de classes recomendado para 100 observações é 7.
• Considerando-se 7 classes, e sabendo-se que a maior observação é 3,44Ω e a menor observação é 3,27Ω
(amplitude R = 0,17Ω), então o intervalo de classe calculado é (3,44 - 3,27)/7 que é igual a 0,024Ω.
Arredondando para 0,03Ω, observa-se que a amplitude passa a ser 7 x 0,03Ω que é igual a 0, 21Ω (maior

19
que a amplitude real de 0,17Ω) e abrange toda a escala real das observações. No entanto se recalcularmos
a amplitude, agora considerando 6 classes, obtém-se 6 x 0,03Ω que é igual a 0, 18Ω (maior que a
amplitude real de 0,17Ω) e igualmente abrange toda a escala real das observações, com a vantagem de
utilizar um número menor de classes. A partir dessas considerações decide-se agrupar os dados da tabela
4.1 numa distribuição de freqüência de somente seis classes com 0,03Ω de extensão cada.
• Constroem-se as classes conforme a tabela 4.4.

Tabela 4.4 Distribuição de freqüência dos valores de resistência


Resistência (ohms)
Limites Pontos Freqüência Freqüência
medianos acumulada
3,265 - 3,295 3,28 5 5
3,295 - 3,325 3,31 23 28
3,325 - 3,355 3,34 36 64
3,355 - 3,385 3,37 27 91
3,385 - 3,415 3,40 8 99
3,415 - 3,445 3,43 1 100
100

Uma das muitas maneiras de representar graficamente uma distribuição de freqüência, é o histograma
de freqüência. A Figura 4.1 mostra os dados de resistência elétrica da tabela 4.4 representados na forma de
histograma.

40
36
35

30 27

25 23
freqüência

20

15

10 8
5
5
1
0
3,28 3,31 3,34 3,37 3,40 3,43
3,265 - 3,295 3,295 - 3,325 3,325 - 3,355 3,355 - 3,385 3,385 - 3,415 3,415 - 3,445
classes de resistência (ohms)

Figura 4.1- Histograma de resistência.

20
Os histogramas são largamente utilizados na comparação de aptidão de processos com seus limites
de tolerâncias. Segundo JURAN, “análises de histogramas, para que sejam tiradas conclusões além dos dados
amostrais, devem ser baseadas em pelo menos 50 medições.”

Um outro exemplo de organização de dados é proposto por KUME. Deseja-se investigar a


distribuição dos diâmetros de eixos de aço produzidos em um processo de usinagem, os diâmetros de 90 eixos
foram medidos conforme mostra a Tabela 4.5.

Tabela 4.5 - Dados originais do problema


Amostra 01-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90
2,510 2,527 2,529 2,520 2,535 2,533 2,525 2,531 2,518
2,517 2,536 2,523 2,514 2,523 2,510 2,515 2,545 2,527
Resultado das Medições (mm)

2,522 2,506 2,523 2,512 2,526 2,542 2,520 2,524 2,511


2,522 2,541 2,523 2,534 2,525 2,524 2,519 2,522 2,519
2,510 2,512 2,519 2,526 2,532 2,530 2,526 2,520 2,531
2,511 2,515 2,528 2,530 2,522 2,521 2,527 2,519 2,527
2,519 2,521 2,543 2,532 2,502 2,522 2,522 2,519 2,529
2,532 2,536 2,538 2,526 2,530 2,535 2,542 2,529 2,528
2,543 2,529 2,518 2,523 2,522 2,540 2,540 2,522 2,519
2,525 2,524 2,534 2,520 2,514 2,528 2,528 2,513 2,521

Procedimento Exemplo
Etapa 1 – Calcular a amplitude (R) Etapa 1 – Calcular R
Obtenha o maior e o menor dos valores observados e R foi obtida a partir do maior e do menor valores
calcule R. observados (Tabela 4.6)
R = (o maior valor) – (o menor valor) O maior valor = 2,545
O maior e o menor dos valores observados podem ser O menor valor = 2,502
facilmente obtendo-se o máximo e o mínimo dos
valores de cada coluna da tabela de observações. Portanto:
Depois, tomando-se o maior dos valores máximos e o R = 2,545 – 2,502 = 0,043
menor dos valores mínimos, acha-se os limites da
tabela.
Etapa 2 – Determinar o intervalo de classe Etapa 2 – Determinar o intervalo de classe
O intervalo de classe é determinado de forma que
amplitude, que compreende o maior e o menor dos 0,043 / 0,002 = 21,5 à adota-se 22
valores, seja dividida em intervalos de mesmo (número inteiro mais próximo)
tamanho.
Para obter o tamanho dos intervalos, divida R por 1, 2 0,043 / 0,005 = 8,6 à adota-se 9
ou 5 (ou 10; 20; 50 ou 0,1; 0,2; 0,5; etc.) de forma a (número inteiro mais próximo)
obter de 5 a 20 intervalos de classe de tamanho igual.
Quando houver duas possibilidades, use o tamanho de 0,043 / 0,010 = 4,3 à adota-se 4
intervalo menor se o número de valores observados (número inteiro mais próximo)
for maior ou igual a 100, e o tamanho de intervalo

21
maior se houver 99 ou menos valores observados.
Etapa 3 – Preparar a tabela de freqüência Etapa 3 – Preparar a tabela de freqüência
Prepare um formulário como o da Tabela 4.7, no qual
possam ser registradas as classes, o ponto médio, as Prepare uma tabela conforme mostra a Tabela 4.7
marcas de freqüência, freqüência, etc.

Tabela 4.6 - Determinação da Amplitude

Amostra 01-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90
2,510 2,527 2,529 2,520 2,535 2,533 2,525 2,531 2,518
2,517 2,536 2,523 2,514 2,523 2,510 2,515 2,545 2,527

Menor e Maior valores da Tabela


Resultado das Medições (mm)

2,522 2,506 2,523 2,512 2,526 2,542 2,520 2,524 2,511


2,522 2,541 2,523 2,534 2,525 2,524 2,519 2,522 2,519
2,510 2,512 2,519 2,526 2,532 2,530 2,526 2,520 2,531
2,511 2,515 2,528 2,530 2,522 2,521 2,527 2,519 2,527
2,519 2,521 2,543 2,532 2,502 2,522 2,522 2,519 2,529
2,532 2,536 2,538 2,526 2,530 2,535 2,542 2,529 2,528
2,543 2,529 2,518 2,523 2,522 2,540 2,540 2,522 2,519
2,525 2,524 2,534 2,520 2,514 2,528 2,528 2,513 2,521
Máximo 2,543 2,541 2,543 2,534 2,535 2,542 2,542 2,545 2,531 2,545
Mínimo -9 -9 -9 -9 -9 -9 -9 -9 -9 2,502

Etapa 4 – Determinar os limites das classes Etapa 4 – Determinar os limites das classes
Determine os limites dos intervalos, de forma que Os limites da primeira classe devem ser
englobem o menor e o maior dos valores registrados, e determinados como 2,5005 e 2,5055 de forma que a
anote-os na tabela de freqüência. classe inclua o menor valor 2,502; os limites da
Determine, primeiro, o limite inferior da primeira classe segunda classe devem ser determinados como
e adicione a este o tamanho do intervalo para obter o 2,5055 e 2,5105, e assim por diante.
limite entre a primeira e a segunda classe. Quando fizer Registre esses limites numa tabela de freqüência.
isso, assegure-se de que a primeira classe contém o
menor valor observado e que os valores dos limites
tenham uma casa decimal a mais do que a precisão dos
valores medidos.
Depois, adicione sucessivamente o tamanho do
intervalo ao valor do limite anterior para obter o
segundo limite, o terceiro, e assim por diante, e
verifique se a última classe inclui o maior valor
observado.
Etapa 5 – Calcular o ponto médio da classe Etapa 5 – Calcular o ponto médio da classe
Usando a equação seguinte, calcule o ponto médio das Ponto médio da primeira classe
classes e anote-os na tabela de freqüência.
2,5005 + 2,5055
Ponto médio da primeira classe = = 2,503 ,
2
soma dos limites superior e inferior da primeira classe
=
2 Ponto médio da segunda classe
Ponto médio da segunda classe
soma dos limites superior e inferior da segunda classe = 2,5055 + 2,5105 = 2,508
=
2 2

22
e assim por diante.
Os pontos médios da segunda classe, da terceira classe e assim por diante.
e demais classes, também podem ser obtidos da
seguinte forma:

Ponto médio da segunda classe = ponto médio da


primeira classe + intervalo de classe

Ponto médio da terceira classe = ponto médio da


segunda classe + intervalo de classe
Etapa 6 - Obter as freqüências Etapa 6 - Obter as freqüências
Leia os valores observados um por um e registre as Registre as freqüências (Tabela 4.7)
freqüências obtidas em cada classe usando marcas de
contagem em grupos de 5, como segue:

Freqüência 1 2 3 4 5
Notação da / // /// //// ////
freqüência

Freqüência 6 7 ...
Notação da //// / //// // ...
freqüência

Ponto Médio
Classe Marcas de Freqüências Freqüência f
da Classe
1 2,5005 – 2,5055 2,503 / 1
2 2,5055 – 2,5105 2,508 //// 4
3 2,5105 – 2,5155 2,513 //// //// 9
4 2,5155 – 2,5205 2,518 //// //// //// 14
5 2,5205 – 2,5255 2,523 //// //// //// //// // 22
6 2,5255 – 2,5305 2,528 //// //// //// //// 19
7 2,5305 – 2,5355 2,533 //// //// 10
8 2,5355 – 2,5405 2,538 //// 5
9 2,5405 – 2,5455 2,543 //// / 6
Total - - 90
Observação: (1) A soma das freqüências f tem que ser igual à quantidade (n) de dados levantados. (2) A
freqüência relativa, quando necessária, é obtida pela divisão de f por n.

4.6.1 - Como construir um Histograma


Em uma folha de papel quadriculado, marque o eixo horizontal com uma escala. É melhor que a
escala não seja baseada nos limites de intervalo das classes e sem na unidade de medida dos dados, 10 gramas
correspondendo 10mm, por exemplo. Isto torna-a conveniente para fazer comparações entre vários
histogramas que descrevem fatores e características semelhantes, bem como com especificações (padrões).
Deixe um espaço aproximadamente igual ao intervalo de classe em cada extremidade do eixo horizontal,
antes da primeira e após a última classe.
Marque o eixo vertical do lado esquerdo com uma escala de freqüência e, se necessário, trace o eixo
vertical do lado direito e marque-o com uma escala de freqüência relativa. A altura da classe com a

23
freqüência máxima deveria ser de 0,5 a 2,0 vezes a distância entre os valores máximo e mínimo do eixo
horizontal.
Marque os valores dos limites das classes no eixo horizontal. Usando o intervalo de classe como
base, desenhe um retângulo cuja altura corresponda à freqüência daquela classe.
Trace uma linha no histograma para representar a média e, se for o caso, trace também os limites da
especificação.
Numa área em branco do histograma, anote o histórico dos dados (o período em que os dados foram
coletados, etc.), a quantidade de dados (n), a média x e o desvio-padrão (σ).

4.6.2 - Tipos de Histograma


É possível obter informações úteis sobre a população pela análise da forma do histograma. As
seguintes formas são típicas, podendo utiliza-las como modelos para análise de um processo.

24
a) Tipo geral (simétrico ou em forma de sino)
Forma: O valor médio do histograma está no meio da amplitude dos dados. A freqüência é mais alta no
meio e torna-se gradualmente mais baixa na direção dos extremos. A forma é simétrica.
Nota: Esta é a forma que ocorre mais freqüentemente.

b) Tipo pente (tipo multi-modal)


Forma: Várias classes têm, como vizinhas, classes com menor freqüência.
Nota: Esta forma ocorre quando a quantidade de dados incluídos na classe varia de classe para classe ou
quando existe uma tendência particular no modo como os dados são arredondados

c) Tipo assimétrico positivo (tipo assimétrico negativo)


Forma: O valor médio do histograma fica localizado à esquerda (direita) do centro da amplitude. A
freqüência decresce de modo um tanto abrupto em direção à esquerda (direita), porém de modo
suave em direção à direita (esquerda). É assimétrica.
Nota: Esta forma ocorre quando o limite inferior (superior) é controlado, ou teoricamente, ou por um valor
de especificação, ou quando valores menores (maiores) do que um valor não ocorrem.

d) Tipo abrupto à esquerda (tipo abrupto à direita)


Forma: O valor médio do histograma fica localizado bem à esquerda (direita) do centro da amplitude. A
freqüência decresce abruptamente à esquerda (direita), e suavemente em direção à direita (esquerda).
É assimétrica.
Nota: Esta é uma forma que ocorre freqüentemente quando é feita uma inspeção separadora 100% por
causa da baixa capacidade do processo e também quando a assimetria positiva (negativa) se torna
ainda mais extrema.

25
e) Tipo achatado
Forma: As freqüências das classes formam um achatamento porque as classes possuem mais ou menos a
mesma freqüência, exceto aquelas das extremidades.
Nota: Esta forma ocorre com a mistura de várias distribuições que têm diferentes médias.

f) Tipo abrupto à esquerda (tipo abrupto à direita)


Forma: A freqüência é baixa próximo ao meio da amplitude de dados e existe um pico em cada lado.
Nota: Esta forma ocorre quando duas distribuições, com médias muito diferentes, são misturadas.

g) Tipo pico isolado


Forma: Num histograma do tipo geral existe mais um pequeno pico isolado.
Nota: Esta é uma forma que surge quando há uma pequena inclusão de dados provenientes de uma
distribuição diferente, como nos casos de anormalidade de processo, erro de medição ou inclusão de
dados de um processo diferente.

4.7 - Características amostrais


A estatística descritiva propõe um método simples de extrair informações de uma massa de números
aparentemente sem lógica. Estas características podem representar:
• Um valor típico ou central. Enquadram-se média, mediana e moda.
• Uma medida de dispersão. Enquadram-se variância, desvio-padrão e amplitude.
• Uma medida de freqüência. Enquadra-se a curva de percentil.
Uma curva de percentil é um gráfico de a distribuição percentil acumulada dos dados (freqüência
acumulada) versus os valores dos dados. Por exemplo para os dados de resistência das 100 bobinas da Tabela
4.2 constrói-se a curva de percentil conforme a Figura 4.2.

100

90

80

70
escala percentil y

60

50

40

30

20

10
mediana = 3,34
0
3,27

3,29

3,31

3,33

3,35

3,37

3,39

3,41

3,43

resistência x

Figura 4.2- Curva de percentil para um conjunto de dados.

26
Percebe-se pela curva que, por exemplo, 5% dos dados estão com ou abaixo de 3,29Ω, e assim pode-
se avaliar as chances de ocorrência dos valores. A maioria dos trabalhos estatísticos usa a curva de percentil
sob o nome função de distribuição dos dados. Observa-se ainda que nenhum dos dados é descartado (ou
agrupado) na elaboração da curva, preservando todas as informações, ao contrário do histograma dos dados.

4.8 - Medidas de Tendência Central


A maioria das distribuições de freqüência exibe uma “tendência central”, isto é, uma forma tal que a
maior parte das observações se acumula na área entre os dois extremos. Tendência Central é um dos conceitos
fundamentais em toda a análise estatística.
Há três medidas principais de tendência central: média aritmética, mediana e moda.
A Média Aritmética (ou simplesmente média) é usada para distribuições simétricas ou quase
simétricas, ou para distribuições que têm um único pico dominante. É calculada somando-se as observações e
dividindo-se pelo número de observações.

∑x
i =1
i (4.1)
X =
n

A Mediana é o valor central quando os dados estão ordenados por valor. É usada para reduzir o
efeito dos valores extremos ou para dados que possam ser ordenados mas que não sejam economicamente
mensuráveis (tons de cor, aparência visual, odores). Na curva percentil, é o valor da escala horizontal onde a
curva alcança a altura 50%.
A Moda é o valor que ocorre com maior freqüência. É usada para distribuições extremamente
assimétricas, situações irregulares onde dois picos são encontrados, ou para eliminar os efeitos dos valores
extremos.

4.9 - Medidas de Dispersão


Os dados estão sempre dispersos ao redor da zona de tendência central, e a extensão dessa dispersão
é chamada dispersão ou variação. Uma medida de dispersão é a segunda das duas medidas mais fundamentais
em toda a análise estatística.
Há várias medidas de dispersão. A mais simples é a Amplitude, que é a diferença entre os valores
máximo e mínimo dos dados. Como a amplitude é baseada em dois números, é mais útil quando o número de
observações é pequeno ( cerca de 10 ou menos).

O Desvio-Padrão é a medida mais importante de variação, ele determina a dispersão dos valores em
relação à média. A definição do Desvio-Padrão da amostra é:
∑(X − X )
2
s= (4.2)
n −1

Onde: s é o desvio-padrão amostral, X os valores observados, X a média aritmética e n o número de


observações.
Quando é necessário distinguir entre o desvio padrão de uma população e o de uma amostra dela
extraída, adota-se freqüentemente o símbolo (σ) e (s) respectivamente.
Para fins de cálculo uma fórmula equivalente é:

n ∑ ( X 2 ) − (∑ X ) 2
s= (4.3)
n(n − 1)

27
O Desvio Padrão tem as seguintes propriedades:
1) A Variância é o quadrado do desvio-padrão. Ou seja:

V = s2
Com dados em forma de distribuição de freqüência, cálculos simplificados podem facilitar a
determinação da média e do desvio-padrão.
 ∑ f ⋅ d' 
X = A+ ⋅i (4.4)
 n 
onde A tem origem arbitrária.

s =i
( )
n.∑ fd ' 2 − (∑ f .d ')2
(4.5)
n(n − 1)

ou ainda,

( ) (∑ fd ')2
∑ fd ' −
2
n (4.6)
s =i
(n − 1)

Se um conjunto de dados é ordenado em ordem de grandeza, o valor médio (ou média aritmética dos
dois valores médios) que divide o conjunto em duas partes iguais é a mediana. Por extensão desse conceito,
pode-se pensar nos valores que dividem o conjunto em quatro partes iguais. Esses valores, representados por
Q1, Q2 e Q3 denominam-se primeiro, segundo, terceiro quartis, respectivamente, sendo o valor Q2 igual à
mediana.
A diferença entre Q1 e Q3 é a amplitude quartil. A amplitude semi-quartil é definida por:
Q3 − Q1
q= (4.7)
2

Semelhantemente, os valores que dividem os dados em dez partes iguais denominam-se decis e são
representados por D1, D2, ..., D9 enquanto que os valores que dividem os dados em cem partes iguais
chamam-se percentis e são representados por P1, P2, ..., P99. O quinto decil e o qüinquagésimo percentil
correspondem à mediana. O 25º e o 75º percentis correspondem ao 1º e 3º quartis, respectivamente.

Exemplo 4.1
Considere-se as notas de dois grupos de 10 alunos cada:

Grupo A 3,0 4,5 4,5 5,0 5,0 5,0 6,5 6,5 7,0 8,0
Grupo B 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0

Esses grupos têm a mesma quantidade de elementos e admitem a mesma média aritmética ( X = 5,5 ),
mas apresentam variações bem diferentes em torno dessa média. O grupo A apresenta notas mais uniformes e
o grupo B apresenta notas mais variadas.
Observe-se os quartis:

Grupo A 3,0 4,5 4,5 5,0 5,0 5,0 6,5 6,5 7,0 8,0
Q1 Q2 Q3
Grupo B 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0

As amplitudes semi-quartis são:

28
65 − 45
qA = = 10
2
80 − 30
qB = = 25
2

4.10 - Cálculo de Médias e Desvios Padrões a partir de Tabelas de Freqüência

Como exemplo, pode-se calcular a média e o desvio padrão dos diâmetros de 90 eixos, conforme
mostrado na Tabela 4.7. Como a quantidade de dados é grande e os dados estão agrupados em uma tabela de
freqüência, a média e o desvio padrão são calculados como segue:

Tabela 4.7 - Tabela de Freqüências de uma amostra 90 eixos


Nº Classe Ponto Médio x Freqüência f d' d.f d².f

1 2,5005 – 2,5055 2,503 1 -4 -4 16

2 2,5055 – 2,5105 2,508 4 -3 -12 36

3 2,5105 – 2,5155 2,513 9 -2 -18 36

4 2,5155 – 2,5205 2,518 14 -1 -14 14

5 2,5205 – 2,5255 2,523 22 0 0 0

6 2,5255 – 2,5305 2,528 19 1 19 19

7 2,5305 – 2,5355 2,533 10 2 20 40

8 2,5355 – 2,5405 2,538 3 3 15 45

9 2,5405 – 2,5455 2,543 6 4 24 96

Total 90 - 30 302

29
Procedimento Exemplo
Etapa 1
Prepare um formulário de cálculo como o da Tabela
Etapa 2
Anote os limites das classes, os pontos médios das
classes e a freqüência f.
Etapa 3 Etapa 3
Atribua o ponto médio 0 (d’ = 0) para a classe que Atribua 0 (zero) ao ponto médio da classe número 5 da
tem freqüência f máxima e anote 0 na coluna u. coluna d’.

Escreva –1, -2, ... na direção dos menores valores


observados e, +1, +2, ... na direção dos maiores
valores observados.

A relação entre x e d’ é expressa pela seguinte


equação:

d'=
( x − A)
i
onde, A = 2,523
A – é o ponto médio da classe onde u = 0 i = 0,005
i – é o tamanho do intervalo de classe
Etapa 4 Etapa 4
Insira os produtos de d’ e f na coluna fd’, e os Nº. 1 fd’ = (-4) . 1 = -4
produtos de d’ e fd’ na coluna f(d’)² Nº. 2 fd’ = (-3) . 4 = -12
.
Obtenha a soma de cada coluna e anote-as nos Nº. 1 f(d’)² = (-4)² . 1 = 16
espaços reservados. Nº. 2 f(d’)² = (-3)² . 4 = 36
.
∑ d ' f = f 1 d '1 + f 2 d ' 2 +... ∑ fd ' = ( −4) + (−12) + ... + 24 = 30
∑ d '² f = f 1 (d '1 ) + f 2 (d ' 2 ) + ... ∑ f (d ' )² = 16 + 36 + ... + 96 = 302
2 2

Etapa 5 Etapa 5
Calcule x usando a seguinte equação:
= 2,523 + 0,00167 = 2,52467(mm )
 ∑ fd '  30
x = A + i  x = 2,523 + 0,005.
 n  90
Etapa 6 Etapa 6
σ) usando a equação:
Calcule s (σ 30 2
302 −
( ) (∑ fd ') 2
s = 0,005 90 = 0,00906(mm )
∑ fd ' −
2
n (90 − 1)
s =i
(n − 1)

5 - DIAGRAMAS DE DISPERSÃO
(1 )
Na prática, é muitas vezes essencial estudar a relação entre duas variáveis associadas como, por
exemplo, o grau a dimensão de uma peça de máquina irá variar em função da mudança da velocidade de um
torno.

1
KUME, HITOSHI, 1993, “Métodos Estatísticos para Melhoria da Qualidade”, Capítulo 6, pp. 74-95

30
Para estudar a relação entre duas variáveis, tais como dito acima, pode-se usar o chamado diagrama
de dispersão. Diagrama de Dispersão é uma forma de gráfico onde simplesmente representa-se graficamente
cada par de variáveis de uma série de dados em um sistema de eixos.
Tomando como exemplo os dados da Tabela 5.1 abaixo, pode-se construir um diagrama de
dispersão:

Tabela 5.1
Ponto de Dados X1 X2 Y
1 -2 1 10
2 -1 -2 5
3 0 -5 0

5.1 - Como Construir um Diagrama de Dispersão

Um diagrama de dispersão é construído conforme as seguintes etapas:

Etapa 1
Coletar dados em pares (X,Y) entre os quais deseja-se estudar as relações, e organize-os em uma
tabela. É desejável que se tenha pelo menos 30 pares de dados.

Etapa 2
Encontrar os valores máximo e mínimo, tanto para X como para Y. Defina as escalas dos eixos
horizontal e vertical de forma que ambos os comprimentos sejam aproximadamente iguais; assim, o diagrama
ficará mais fácil de interpretar.
Determinar, para cada eixo, entre 3 e 10 divisões para as unidades da escala de graduação, e utilize
números inteiros para torna-lo mais fácil de ler. Quando duas variáveis consistirem em um fator e uma
característica da qualidade, use o eixo horizontal X para o fator e o eixo vertical Y para a característica da
qualidade.

Etapa 3
Marcar os dados num papel milimetrado. Quando os mesmos valores de dados forem obtidos a partir
de diferentes observações, mostre estes pontos, desenhando círculos concêntricos (¥), ou marcando o
segundo ponto rente ao primeiro.

Etapa 4
Inserir todos os itens necessários. Certificar de que os seguintes itens sejam incluídos para que
qualquer pessoa, além do autor do diagrama, possa entende-lo num rápido exame:

a. Título do diagrama;
b. Período de tempo;
c. Quantidade de pares de dados;
d. Denominação e unidade de medida de cada eixo;
e. Nome (etc.) da pessoa que elaborou o diagrama.

Exemplo 5.1
Um fabricante de tanques plásticos, que os fabricava pelo processo de moldagem a sopro, encontrou
problemas de tanques defeituosos com paredes finas. Suspeitou-se que a variação da pressão do ar, dia a dia,
era a causa das paredes finas não-conformes. A Tabela 5.2 mostra dados sobre a pressão de sopro e a
percentagem defeituosa.

31
Tabela 5.2 – Dados da Pressão de Sopro e Percentagem Defeituosa
de Tanques de Plástico
Pressão de Percent. Pressão de Percent.
Data Sopro Defeituosa Data Sopro Defeituosa
(kgf/cm²) (%) (kgf/cm²) (%)
Out 1 8,6 0,889 Out 22 8,7 0,892
2 8,9 0,884 23 8,5 0,877
3 8,8 0,874 24 9,2 0,885
4 8,8 0,891 25 8,5 0,866
5 8,4 0,874 26 8,3 0,896
8 8,7 0,886 29 8,7 0,896
9 9,2 0,911 30 9,3 0,928
10 8,6 0,912 31 8,9 0,886
11 9,2 0,895 Nov 1 8,9 0,908
12 8,7 0,896 2 8,3 0,881
15 8,4 0,894 5 8,7 0,882
16 8,2 0,864 6 8,9 0,904
17 9,2 0,922 7 8,7 0,912
18 8,7 0,909 8 9,1 0,925
19 9,4 0,905 9 8,7 0,872

Etapa 1
Conforme visto na Tabela 5.2, existem 30 pares de dados.

Etapa 2
Neste exemplo, indicamos a pressão de sopro por X (eixo horizontal) e a percentagem defeituosa por
Y (eixo vertical).
Assim:

O valor máximo de x: xmáx = 9,4 (kgf/cm²)


O valor mínimo de x: xmín = 8,2 (kgf/cm²)

O valor máximo de y: ymáx = 0,928 (%)


O valor mínimo de y: ymín = 0,864 (%)

Marca-se divisões para graduação:

no eixo horizontal – em intervalos de 0,5(kgf/cm²) de 8,0 a 9,5(kgf/cm²)


no eixo vertical – em intervalos de 0,01(%) de 0,85 a 0,93(%)

Etapa 3
Marca-se os pontos no gráfico.

Etapa 4
Anota-se o período de tempo a que se refere a amostra coletada (1 de outubro a 9 de novembro), a
quantidade de amostras (n = 30), o eixo horizontal (pressão de sopro [kgf/cm²]), o eixo vertical (percentagem
defeituosa [%]), e o título do diagrama (diagrama de dispersão da pressão do sopro e a percentagem
defeituosa).

32
Figura 5.1 – Exemplo de Diagrama de Dispersão

5.2 - Como Interpretar os Diagramas de Dispersão

Assim como é possível avaliar o formato de uma distribuição em um histograma, a distribuição


global dos pares de dados pode ser interpretada a partir de um diagrama de dispersão. Ao proceder a leitura, a
primeira coisa que se deve fazer é examinar se há ou não pontos atípicos no diagrama. Geralmente, pode-se
julgar que quaisquer pontos afastados do grupo principal (Figura 5.2) resultaram de erros na medição ou
registro de dados, ou foram causados por alguma mudança nas condições de operação. É necessário excluir
esses pontos para análise da correlação. Contudo, ao invés de desprezar completamente estes pontos, deveria
ser dada a devida atenção à causa de tais irregularidades pois, muitas vezes, informações inesperadas, porém
muito úteis, são obtidas descobrindo-se por que eles ocorreram.
Existem muitos tipos de padrões de dispersão, e alguns destes são dados da Figura 5.3. Nesta figura,
tanto na .1 como na .2, Y aumenta com X; este é o caso da correlação positiva. E ainda, como a .1 mostra esta
tendência de forma notável, diz-se que ela apresenta forte correlação positiva. As Figuras .4 e .5 mostram o
oposto da correlação positiva, pois à medida que X aumenta, Y diminui; este é o caso da chamada correlação
negativa. A Figura .4 indica uma forte correlação negativa. A Figura .3 mostra o caso em que X e Y não têm
nenhuma relação específica; portanto, dizemos que não há correlação. Na Figura .6, à medida que X
aumenta, Y varia num padrão curvo. Isto será explicado posteriormente.

Figura 5.2 – Exemplo de Pontos Suspeitos

33
.1 - Correlação Positiva .2 - Correlação Negativa

.3 - Pode haver Correlação Positiva .4 - Pode haver Correlação Negativa

.5 - Não Há Correlação .6 - Não Há Correlação


Figura 5.3 – Exemplos de Correlação

5.3 - Cálculo de Coeficientes de Correlação

Para estudar a relação entre X e Y é importante traçar primeiro um diagrama de dispersão, entretanto,
a fim de conhecer a força da relação em termos quantitativos, é útil calcular o coeficiente de correlação de
acordo com a seguinte definição:
S ( XY )
r=
S ( XX ).S (YY )
(5.1)

onde:

34
2
 n 
 ∑ Xi 
S ( XX ) = ∑ X i − X ( )2 = ∑ (X i2 )  n =1  (5.2)
n n

i =1 i =1 n

2
 n 
 ∑ Yi 
S (YY ) = ∑ Yi − Y ( )2 = ∑ (Yi2 )  n =1  (5.3)
n n

i =1 i =1 n

 n  n 
 ∑ X i  ∑ Yi .
( )(
S ( XY ) = ∑ X i − X Yi − Y = ∑ ( X i Yi ) −  )  n =1  (5.4)
n n n =1
i =1 i =1 n
onde “n” é a quantidade de pares de dados e S(XY) é chamado de covariância.

O coeficiente de correlação, r, está no intervalo –1 ≤ r ≤ +1. Se o valor absoluto de r for maior que
1, houve claramente um erro de cálculo e deve-se refaze-lo. No caso de forte correlação positiva, ele atinge
um valor próximo de +1 e, de forma análoga, numa forte correlação negativa, ele fica próximo de –1.
Quando | r | está próximo de 1, ele indica uma forte correlação entre X e Y. Quando se aproxima de
0 (zero), implica numa correlação fraca.
Quando | r | = 1, os dados estarão sobre uma linha reta.

Exemplo 5.2

Calculemos o coeficiente de correlação para o Exemplo 5.1, dos tanques de plástico. A Tabela 5.3
abaixo apresenta os cálculos, a partir dela obtêm-se os resultados desejados.

2
 n 
 ∑ Xi 
S ( XX ) = ∑ X i2
n

i =1
( ) −
 n =1 
n
= 2312,02 −
263,2 2
30
= 2,88

2
 n 
 ∑ Yi 
S (YY ) = ∑ Yi 2
n

i =1
( ) −
 n =1 
n
= 23,97833 −
26,816 2
30
= 0,00840

 n  n 
 ∑ X i  ∑ Yi .
S ( XY ) = ∑ ( X i Yi ) −   n =1  = 235,3570 − 263,2.26,816 = 0,0913
n n =1
i =1 n 30

S (xy ) 0,0913
r= = = 0,59
S (xx ).S ( yy ) 2,88.0,00840

O valor de r é 0,59, existindo portanto uma correlação positiva entre a pressão de sopro e a
percentagem defeituosa de tanques de plástico.

35
Tabela 5.3 – Preparação para o cálculo do coeficiente de correlação.
Data X Y X² Y² X.Y
Out. l 8,6 0,889 73,96 0,79032 7,6454
2 8,9 0,884 79,21 0,78146 7,8676
3 8,8 0,874 77,44 0,76388 7,6912
4 8,8 0,891 77,44 0,79388 7,8408
5 8,4 0,874 70,56 0,76388 7,3416
8 8,7 0,886 75,69 0,78500 7,7082
9 9,2 0,911 84,64 0,82992 8,3812
10 8,6 0,912 73,96 0,83174 7,8432
11 9,2 0,895 84,64 0,80102 8,2340
12 8,7 0,896 75,69 0,80282 7,7952
15 8,4 0,894 70,56 0,79924 7,5096
16 8,2 0,864 67,24 0,74650 7,0848
17 9,2 0,922 84,64 0,85008 8,4824
18 8,7 0,909 75,69 0,82628 7,9083
19 9,4 0,905 88,36 0,81902 8,5070
22 8,7 0,892 75,69 0,79566 7,7604
23 8,5 0,877 72,25 0,76913 7,4545
24 9,2 0,885 84,64 0,78322 8,1420
25 8,5 0,866 72,25 0,74996 7,3610
26 8,3 0,896 68,89 0,80282 7,4368
29 8,7 0,896 75,69 0,80282 7,7952
30 9,3 0,928 86,49 0,86118 8,6304
31 8,9 0,886 79,21 0,78500 7,8854
Nov. 1 8,9 0,908 79,21 0,82446 8,0812
2 8,3 0,881 68,89 0,77616 7,3123
5 8,7 0,882 75,69 0,77792 7,6734
6 8,9 0,904 79,21 0,81722 8,0456
7 8,7 0,912 75,69 0,83174 7,9344
8 9,1 0,925 82,81 0,85563 8,4175
9 8,7 0,872 75,69 0,76038 7,5864
Total 263,2 26,816 2312,02 23,97833 235,3570

6 – AJUSTAMENTO DE CURVAS E O MÉTODO DOS MÍNIMOS QUADRADOS


(2 )
Num diagrama de dispersão é possível, freqüentemente, visualizar uma curva regular que se
aproxima dos dados. Essa curva é denominada de ajustamento.

Relação Linear Relação Não-Linear


Figura 6.1 – Exemplo de Curvas em Diagramas de Dispersão

2
SPIEGEL, M.R., 1976, “Estatística”, Cap. 13, pp.362-400. / RIBEIRO, L. F. M., 1999, “Notas de Aula”

36
O problema geral da determinação das equações de curvas que se acomodem a certos conjuntos de
dados é denominado AJUSTAMENTO DE CURVAS.

6.1 - Equações das Curvas de Ajustamento

Para fins de referência, relaciona-se abaixo alguns tipos de curvas de ajustamento e suas equações.
Todas as letras, exceto X e Y, representam constantes. As letras X e Y referem-se, freqüentemente, a variáveis
independentes e dependentes, respectivamente, embora esses papéis possam ser permutados.

(1) Y = a 0 + a1 X Linha Reta


(2) Y = a 0 + a1 X + a 2 X 2
Parábola ou Curva do 2º Grau
(3) Y = a0 + a1 X + a2 X + a2 X 2 3
Curva do 3º Grau
(4) Y = a0 + a1 X + a2 X + a2 X + a4 X
2 3 4
Curva do 4º Grau
(5) Y = a0 + a1 X + a2 X + ... + an X
2 n
Curva de Grau n

onde o segundo membro das equações são denominados polinômios do 1º, 2º, 3º, 4º e n -ésimo graus.

As funções definidas pelas quatro primeiras equações são, às vezes, denominadas Funções Linear,
Quadrática, Cúbica e do 4º Grau, respectivamente.

Como outras equações possíveis (entre muitas usadas na prática), menciona-se as seguintes:

1 1
(6) Y= ou = a 0 + a1 X Hipérbole
a 0 + a1 X Y
(7) Y = ab X ou log Y = log a + (log b )X = a 0 + a1 X Curva Exponencial
(8) Y = aX b
ou log Y = log a + b log X Curva Geométrica
(9) Y = ab X
+g Curva Exponencial Modificada
(10) Y = aX + g b
Curva Geométrica Modificada
X
(11) Y = pq b ou log Y = log p + b X log q = ab X + g Curva de Gompertz
(12) Y = pq bX
+h Curva de Gompertz Modificada
1 1
(13) Y = ou = ab X + g Curva Logística
ab X
+g Y
(14) Y = a 0 + a1 log X + a 2 (log X )2

Para decidir qual a curva a adotar, é conveniente a obtenção de diagramas de dispersão das variáveis
transformadas. Por exemplo, se o diagrama de dispersão de log Y em função de X apresentar uma relação
linear, a equação terá o aspecto da (7), enquanto, se o de log Y em função de log X for linear, a equação terá o
formato de (8).
Emprega-se, freqüentemente, para tal finalidade, gráficos no qual uma ou ambas as escalas são
logarítmicas (semilog ou log-log [dilog]).

6.2 - O Método dos Mínimos Quadrados

Antes, é necessário instituir uma definição da “melhor reta de ajustamento”, da “melhor parábola de
ajustamento”, etc.

37
Figura 6.2 - A melhor curva de ajustamento

Para conseguir uma definição possível, considere-se a Figura 6.2 na qual os dados estão
representados pelos pontos (X1,Y1), (X2,Y2), ..., (Xn,Yn). Para um valor dado de X, por exemplo X1, haverá uma
diferença entre y1 e p valor correspondente determinado na curva C.
Como está representado na figura, essa diferença é e1, que é, muitas vezes, designada como desvio,
erro ou resíduo e pode ser positivo, negativo ou nulo. De modo semelhante, obtém-se os desvios e2, e3, ..., en.

Uma medida de “qualidade do ajustamento”da Curva C aos dados apresentados (aderência) é


proporcionada pela quantidade e2² + e3² + ... + en². Se ela é pequena, o ajustamento é bom, se é grande, o
ajustamento está ruim.

Portanto, uma definição pode ser feita:

è De todas as curvas que se ajustam a um conjunto de pontos, a que tem a propriedade de apresentar o
mínimo valor de e2² + e3² + ... + en² é denominada a melhor curva de ajustamento.

Diz-se que uma curva que apresenta essa propriedade ajusta os dados no sentido dos mínimos
quadrados e é denominada curva de mínimos quadrados.

6.3 - Relações Não-Lineares

As relações não-lineares podem, às vezes, ser transformadas em lineares mediante a transformação


adequada das variáveis, conforme pode ser visto no exemplo a seguir.

Exemplo 6.1
A Tabela 6.1 dá os valores experimentais da pressão P de uma massa dada de gás, que correspondem
a vários valores do volume V. De acordo com os princípios da Termodinâmica, deve existir entre essas
variáveis uma relação da forma PVγ = C, em que γ e C são constantes.

(a) Determinar os valores de γ e C;


(b) Escrever a equação de correlação entre P e V; e
(c) Estimar P para V = 100 pol³.

Tabela 6.1 - Valores de Pressão em função


do Volume de um gás
V (pol³) 54,3 61,8 72,4 88,7 118,6 194,0
P (psi) 61,2 49,5 37,6 28,4 19,2 10,1

Solução:

38
Como PV γ = C , tem-se:
log P + γ log V = log C
log P = log C − γ log V

fazendo-se: log V = X
log P = Y

a equação fica:
Y = a 0 + a1 X (reta de regressão)
onde: a 0 = log C e a1 = −γ

à Cálculo dos Coeficientes a0 e a1 da reta de regressão pelo método dos mínimos quadrados.

Tabela 6.2
V (pol³) P (psi) X = log V Y = log P X² X.Y
54,3 61,2 1,7348 1,7868 3,0095 3,0997
61,8 49,5 1,7910 1,6946 3,2076 3,0350
72,4 37,6 1,8597 1,5752 3,4586 2,9294
88,7 28,4 1,9479 1,4533 3,7944 2,8310
118,6 19,2 2,0741 1,2833 4,3018 2,6617
194 10,1 2,2878 1,0043 5,2340 2,2977
Total 11,6953 8,7975 23,0061 16,8544

1ª Etapa:
∑ X 11,6953
X= = = 1,9492
n 6
∑ Y 8,7975
Y = = = 1,4662
n 6

2ª Etapa:
Utilizando-se as equações (5.2) e (5.4):

2
 n 
 ∑ Xi 
( )
S ( XX ) = ∑ X i2 −
n

i =1
 n =1 
n
= 23,0059 −
11,6953 2
6
= 0,2092

 n  n 
 ∑ X i  ∑ Yi .
 n =1  n =1 
S ( XY ) = ∑ ( X i Yi ) −
n 11,6953.8,7975
= 16,8543 − = −0,2939
i =1 n 6

3ª Etapa:
S ( XY ) − 0,2939
a1 = = = −1,4049
S ( XX ) 0,2092
a 0 = Y − a1 X = 1,4662 − (− 1,4049).1,9492 = 4,2046

Assim:

(a) a1 = −γ
γ = − a1 = −(− 1,4049) = 1,4049

39
(b) a 0 = log C
C = 10 a0 = 10 4, 2046 = 16017,69

(c) PV γ = C
então:

PV 1, 4049 = 16017,69

16017,69
(d) Para V = 100 pol³ à P= = 25,28 psi
1001, 4049

Figura 6.3 - A curva de ajustamento (mono-log)

6.4 - A Parábola de Mínimos Quadrados

A parábola de mínimos quadrados que se ajusta ao conjunto de pontos (X1,Y1), (X2,Y2), ..., (Xn,Yn) tem
a equação:
y = a 0 + a1 X + a 2 X 2 (6.1)

cujos constantes a0, a1, e a2 são determinadas mediante a resolução das equações:
∑ Y = a 0 n + a1 ∑ X + a 2 ∑ X 2

∑ XY = a 0 ∑ X + a1 ∑ X + a 2 ∑ X
2 3
(6.2)

X 2 Y = a 0 ∑ X 2 + a1 ∑ X 3 + a 2 ∑ X 4
∑

denominadas equações normais da parábola de mínimos quadrados.


Ocorrem simplificações para as expressões acima quando X é escolhido de tal modo que ∑ X = 0 .
Também ocorrem simplificações quando se escolhem novas variáveis:
x = X − X e y =Y −Y (6.3)

40
6.5 - Regressão

Deseja-se, freqüentemente, com base em dados amostrais estimar o valor de uma variável Y,
correspondente ao conhecido de uma variável X. Isso pode ser alcançado mediante a avaliação do valor de Y,
a partir de uma curva de mínimo quadrado que se ajuste aos dados amostrais. A curva resultante é
denominada de regressão de Y para X, visto que Y é avaliado a partir de X.
Se se desejar estimar o valor de X a partir de um atribuído a Y, usa-se uma curva de regressão de X
para Y, o que importa em uma permutação das varáveis no diagrama de dispersão, de modo que X passa a ser
a variável dependente e Y a independente.
Em geral, a reta ou curva de regressão de Y para X não é igual à de X para Y.

Exemplo 6.2
No Exemplo 5.1, dos tanques plásticos com paredes finas defeituosas, constatou-se que havia uma
correlação positiva entre a pressão de sopro e a percentagem defeituosa. A fim de evitar esse problema,
pergunta-se:
- Quando a pressão de sopro estiver em um certo valor, qual será a espessura das paredes formadas?
- Como a pressão de sopro deve ser controlada para que as paredes do tanque não fiquem finas?

Para realizar essa análise e poder responder às perguntas feitas, é necessário compreender,
quantitativamente, a relação entre a pressão de sopro e a espessura da parede.
A Tabela 6.3 mostra os dados de uma experiência na qual a pressão de sopro foi mudada e, em cada
vez, a espessura das paredes foi medida. A Figura 6.4 é um diagrama de dispersão baseado nestes dados.

Tabela 6.3 – Pressão de Sopro x Espessura da Parede


Pressão de sopro
8,0 8,5 9,0 9,5 10,0
(kgf/cm²)
4,62 4,12 3,21 2,86 1,83
Espessura da 4,50 3,88 3,05 2,53 2,02
Parede (mm) 4,43 4,01 3,16 2,71 2,24
4,81 3,67 3,30 2,62 1,95

Figura 6.4 – Relação entre a Pressão de Ar e a Espessura da Parede

Pode-se representar a pressão do sopro por x e a espessura da parede por y, admitindo uma relação linear:
y = α + βx (6.4)

onde:
α é uma constante
β é chamado de coeficiente de regressão

41
Tal reta é geralmente chamada de reta de regressão, onde y é a variável resposta (ou variável
dependente), e x é a variável explicativa (ou variável independente). A forma quantitativa de entender a
relação entre x e y , pela busca de uma forma de regressão entre x e y , é chamada de Análise de Regressão.
Seja (Xi,Yi) (para 1 ≤ i ≤ n) um conjunto de n pares de dados observados. Sejam α̂ e β̂ os
valores estimados e α e β, e seja ei o resíduo entre Yi e αˆ + βX i , isto é:
(
ei = y i − αˆ + βˆX i ) (1 ≤ i ≤ n) (6.5)

n
Pelo método dos mínimos quadrados, α̂ e β̂ são obtidos como os valores que minimizam ∑ ei2 , a
i =1
soma dos quadrados dos resíduos. Esse método é aplicado através das seguintes etapas:

Etapa 1
Obtenha X e Y a partir dos dados.

Etapa 2
Calcule S(XX) e S(XY).

Etapa 3

Obtenha β̂ de
S ( XX )
β̂ =
S ( XY )
(6.6)

e obtenha α de

αˆ = Y − βˆX (6.5)
os valores de α̂ e β̂ obtidos dessas etapas minimizam a soma dos quadrados dos resíduos.
Agora, usando os dados da Tabela 6.3, pode-se calcular a reta de regressão.

Tabela 6.4
Pressão Espessura X² X.Y
1 8,0 4,62 64 36,96
2 8,0 4,5 64 36
3 8,0 4,43 64 35,44
4 8,0 4,81 64 38,48
5 8,5 4,12 72,25 35,02
6 8,5 3,88 72,25 32,98
7 8,5 4,01 72,25 34,085
8 8,5 3,67 72,25 31,195
9 9,0 3,21 81 28,89
10 9,0 3,05 81 27,45
11 9,0 3,16 81 28,44
12 9,0 3,3 81 29,7
13 9,5 2,86 90,25 27,17
14 9,5 2,53 90,25 24,035
15 9,5 2,71 90,25 25,745
16 9,5 2,62 90,25 24,89
17 10,0 1,83 100 18,3

42
18 10,0 2,02 100 20,2
19 10,0 2,24 100 22,4
20 10,0 1,95 100 19,5
Total 180 65,52 1630 576,88

1ª Etapa:
∑ X 180
X= = = 9,0
n 20
∑ Y 65,52
Y = = = 3,276
n 20

2ª Etapa:
2
 n 
 ∑ Xi 
( )
S ( XX ) = ∑ X i2 −
n

i =1
 n =1 
n
= 1630 −
180 2
20
= 10,0

 n  n 
 ∑ X i  ∑ Yi .
 n =1  n =1 
S ( XY ) = ∑ ( X i Yi ) −
n 180.65,52
= 576,88 − = −12,8
i =1 n 6

3ª Etapa:
S ( XY ) − 12,8
βˆ = = = −1,28
S ( XX ) 10,0

αˆ = 3,276 − (−1,28).9,0 = 14,80

Assim, a reta de regressão é expressa por:

Y = 14,80 − 1,28 X

A cada aumento de 1(kgf/cm²) da pressão do ar, a espessura da parede diminui de 1,28(mm). A


Figura 6.5 mostra a reta de regressão calculada acima.

Figura 6.5 – Relação entre a Pressão de Ar e a Espessura da Parede

6.6 - Aplicações das Séries Temporais

43
Se a variável independente X corresponder ao tempo, os dados representarão os valores de Y em
diversos momentos. Os dados ordenados em relação ao tempo são denominados séries temporais.
A curva de regressão de Y para X, neste caso é denominada de tendência e é freqüentemente
empregada para as finalidades de estimação, predição (ato de predizer) ou previsão.

6.7 - Problemas que envolvem mais de duas variáveis

Podem ser tratadas de maneira análoga aos de duas. Por exemplo, pode haver uma relação entre três
variáveis X, Y e Z que pode ser descrita pela expressão:
Z = a 0 + a1 X + a 2Y
que é denominada equação linear das variáveis X, Y e Z.
Em um sistema tridimensional de coordenadas retangulares, essa equação representa um plano e os
pontos amostrais reais (X1,Y1), (X2,Y2), ..., (Xn,Yn) podem “dispersar-se” em posições não muito distantes desse
plano, que pode ser denominado de ajustamento.
Mediante a extensão do método dos mínimos quadrados, pode-se falar de um plano de mínimos
quadrados de ajustamento dos dados.
Se o número de variáveis exceder a três, perde-se a intuição geométrica porque, então, seria
necessário considerar espaços de quatro ou mais dimensões.
Os problemas que envolvem a avaliação de uma variável a partir de duas ou mais outras são
denominados problemas de regressão múltipla.

44
7 - MODELOS DE PROBABILIDADE PARA EXPERIMENTOS
(3)
Antes de se apresentar os diferentes modelos de probabilidade, é importante que se tenha perfeitamente
claro o entendimento da diferença entre “amostra” e “população” (ou “universo”). Utilizando-se mais uma vez
as conceituações de JURAN (1992, p.33), pode-se dizer que: “Uma ‘amostra’ é um número limitado de medidas
tiradas de uma fonte maior. Uma ‘população’ é uma grande fonte de medidas das quais a amostra é retirada.”
A partir das conceituações anteriores, apresenta-se a conceituação de “distribuição de probabilidade” e
suas classificações: “distribuição contínua de probabilidade” e “distribuição discreta de probabilidade”.
Segundo JURAN (1992, p.33), ainda: “Uma ‘distribuição de probabilidade’ é uma fórmula matemática
que relaciona os valores da característica com a sua probabilidade de ocorrência na população.”
“Quando a característica que está sendo medida puder assumir qualquer valor (sujeito à exatidão do
processo de medição), sua distribuição de probabilidade é chamada distribuição contínua de probabilidade.” Um
exemplo: a distribuição de freqüências dos dados de resistências elétricas medidas.
As distribuições contínuas de probabilidade mais comuns são:
(1) a Distribuição Normal;
(2) a Distribuição Exponencial e
(3) a Distribuição de Weibull.

Distribuição Forma Função de Probabilidade Comentários sobre Aplicação


Aplicável quando houver uma
− ( X − µ )2 concentração de observações sobre
1
y= e 2σ 2 a média e for igualmente provável
Normal
σ 2π que as observações ocorrem acima
e abaixo da média. Variação nas
µ = média observações é geralmente o
σ = desvio padrão resultado de muitas pequenas
causas.
X Aplicável quando é provável que
1 −
Exponencial y= e µ mais observações ocorram abaixo
µ da média do que acima.

Aplicável na descrição de uma


y = αβ ( X − γ )
β −1 α ( X −γ )β grande variedade de padrões de
Weibbull e variação incluindo casos
particulares da normal e
exponencial

“Quando a característica medida puder assumir somente certos valores específicos (por exemplo,
inteiros 1, 2, 3, etc.), sua distribuição de probabilidade é chamada de distribuição discreta de probabilidade.” Um
exemplo: a distribuição do número de defeitos “r” numa amostra de cinco itens, pois “r” só pode ser 0, 1, 2, 3, 4
ou 5, nunca 1,5 defeitos.
As distribuições discretas de probabilidade mais comuns são:
(1) a Distribuição de Poisson;
(2) a Distribuição Binomial;
(3) a Distribuição Binomial Negativa e
(4) a Distribuição Hipergeométrica.

Distribuição Forma Função de Probabilidade Comentários sobre Aplicação


Poisson
y=
(np ) e
r − np O mesmo que a binomial, porém,
empregada particularmente
r! quando há muitas oportunidades
n = número de tentativas de ocorrência de um evento, mas
r = número de ocorrências uma pequena probabilidade
p = probabilidade de ocorrência (menos de 0,10) em cada tentativa

3
JURAN, J.M. & GRYNA, F.M. Controle da Qualidade Handbook. Vol. VI. pp. 33-69

45
Binomial n! Aplicável na definição da
y= p r q n−r
r!(n − r )!
probabilidade de r ocorrências em
n tentativas de um evento, que tem
n = número de tentativas uma probabilidade de ocorrência
r = número de ocorrências de p em cada tentativa.
p = probabilidade de ocorrência
q=1-p
Binom. Negativo
y=
(r + s − 1)! p r q s Aplicável na definição da
(r − 1)!(s )! probabilidade que r ocorrências
exigirão um total de r + s
r = número de ocorrências tentativas de um evento que tem
s = diferença entre número de uma probabilidade de ocorrências
tentativa e número de de p em cada tentativa (note que o
ocorrências número total de tentativas n é
p = probabilidade de ocorrência r + s).
q=1-p
Hipergeométrica  d  N − d  Aplicável na definição da
   probabilidade de r ocorrências em

y =   
r n r n tentativas de um evento quando
N há um total de d ocorrências em
 
n uma população de N.
 

A seguir explicar-se-á como as distribuições de probabilidade podem ser usadas em uma amostra de
observações para inferir sobre a população maior.

7.1 - Espaço Amostral


A estatística trabalha com os resultados dos experimentos. Quando algum experimento é realizado,
algum resultado ocorre; denota-se um resultado típico pelo símbolo “e”. Tal resultado é chamado evento simples.
Se for feita uma lista de todos os possíveis resultados de interesse do experimento, essa série é chamada
de espaço amostral.

Exemplo: Se for realizado o experimento de jogar para cima três moedas e observar-se se o resultado é
cara (F) ou coroa (C), o espaço amostral conterá os oito resultados possíveis.

FFF FFC FCF CFF FCC CFC CCF CCC

Para simplificação de notação, denota-se esses resultados, respectivamente, por

e1, e2, e3, e4, e5, e6, e7, e8.

Associa-se um número chamado “probabilidade” a cada um dos eventos simples. Probabilidade é a


proporção de vezes que cada evento simples ocorreria num número muito grande de experimentos deste tipo.

Exemplo: Qual a probabilidade de FFF ocorrer?


Geralmente tomada como sendo 1 = 0,125 , já que ela ocorre em cerca de 1 das vezes de um grande
8 8
número de experimentos onde 3 moedas são lançadas.
Denota-se a probabilidade de um evento simples “e” por P(e); assim, para o exemplo, P(FFF) = 1 .
8

Adicionando a proporção de vezes que cada “e” no espaço amostral ocorreu, deve-se obter uma soma
igual a 1.

Por exemplo, no lançamento de moedas:


P(e1)+ P(e2)+ P(e3)+ P(e4)+ P(e5)+ P(e6)+ P(e7)+ P(e8)= 1

46
7.2 - Eventos
Muitas vezes não se está interessado em um evento simples, mas sim numa combinação deles, chamado
evento composto.

Por exemplo: o evento “mais caras que coroas”, no exemplo do lançamento de 3 moedas, ocorre se, e
somente se, um dos eventos simples e1, e2, e3, e4 ocorrer.
A freqüência com a qual obtém-se “mais caras que coroas” será a soma das freqüências relativas de e1,
e2, e3 e e4.
Então: P(mais caras que coroas) = P(e1)+ P(e2)+ P(e3)+ P(e4)

Para facilitar a escrita, freqüentemente denota-se o evento de interesse por um símbolo, como “A” para
o evento “mais caras que coroas”, logo, P(mais caras que coroas) = P(A)

Portanto: A probabilidade de um evento composto é a soma das probabilidades de todos os eventos


simples que o formam.

1 1 1 1 1
No exemplo anterior: P(A) = + + + =
8 8 8 8 2

Isto é, espera-se encontrar mais caras que coroas em mais ou menos 50% de tais experimentos.
Neste exemplo têm-se eventos simples igualmente prováveis, isto é, P(ei) = P(ej) para todo i, j.
Quando isto for verdade, segue-se que para qualquer evento composto “A” têm-se
número de eventos simples em A
P( A) =
número de pontos no espaço amostral
4 1
Para o exemplo anterior: P(A) = =
8 2

Diz-se que dois eventos compostos A1 e A2 são mutuamente excludentes se nenhum e1 estiver em A1 e
A2, ao mesmo tempo.

Por exemplo: Se A1 é o evento “2 caras” e A2 é o evento “mais coroas que caras”, então A1 e A2 são
mutuamente excludentes, pois A1={e1, e3, e4} e A2={e5, e6, e7, e8} não têm qualquer evento em comum.

Com freqüência expressamos o fato de que A1 e A2 são mutuamente excludentes com símbolos,
escrevendo A1 A2 = ∅.
Se A1 e A2 são mutuamente excludentes, então para o evento “A1 ou A2” tem-se
P(A1 ou A2) = P(A1) + P(A2)
Assim, conclui-se que para quaisquer eventos A e A1 a Regra da Adição é:
P(A ou A1) = P(A) + P(A1) - P(A e A1)
Para eventos mutuamente excludentes (caso particular), P(A e A1) é zero, de forma que a equação se
reduziria para duas parcelas, como já foi visto.

7.3 - Análise Combinatória


A teoria das probabilidades fundamenta as decisões baseadas em amostragem. Percebe-se que
a probabilidade sempre será expressa como um número em 1,0 (certeza de ocorrência de um dado evento) e 0,0
(impossibilidade de ocorrência), e a definição mais intuitiva de probabilidade é aquela baseada numa
interpretação de freqüência.
No caso simples, quando um evento A pode ocorrer em “s” casos de um total de “n” possíveis
e igualmente prováveis, então a probabilidade de que o evento ocorra é:
s número casosbem sucedidos
P( A) = =
n número total de casos possíveis
Contar “s” e “n” pode ser complexo, nesse caso é chamado de problema de análise
combinatória.

47
Exemplo: Um lote consiste em 100 itens. Um único item é selecionado ao acaso, e assim, cada
um dos 100 itens tem chance igual de ser selecionado. Suponha que um lote contém um total de 8 itens não-
conformes. Então: a probabilidade de retirada de um único item não-conforme é:
s 8
= = 0,08 = 8%
n 100

7.4 - Teoremas
Teorema 1
Se P(A) for a probabilidade de um evento A, então a probabilidade de que A não ocorra é
P(não A) = 1-P(A)

Teorema 2
Se A e B são dois eventos, então a probabilidade de que A ou B ocorra é
P(A ou B) = P(A) + P(B) - P(A e B)

Teorema 3
Se A e B são dois eventos, então a probabilidade de ocorrência conjunta de A e B é
P(A e B) = P(A) x P(BA)
Onde P(BA) é a probabilidade de que B ocorra, supondo-se que A já tenha ocorrido.

Exemplo: Um sistema complexo consiste em 2 subsistemas principais. A probabilidade de


desempenho bem sucedido do primeiro subsistema é 0,95; a probabilidade correspondente do segundo
subsistema é 0,90. Ambos subsistemas devem operar com êxito a fim de alcançar o sucesso do sistema todo. A
probabilidade da operação bem sucedida do sistema todo é , portanto
P(A e B) = 0,95 x 0,90 = 0,855

Os teoremas mostrados podem ser expandidos para qualquer número de eventos.

7.5 - Distribuições Discretas de Probabilidade


Distribuições Discretas de Probabilidade são usadas para modelar situações onde o resultado de
interesse pode assumir apenas alguns valores discretos (tais como 0 ou 1 para falha ou sucesso, ou 0, 1, 2, 3, ...
como número de ocorrências de algum evento de interesse).

.1 - Distribuição Uniforme Discreta


Se cada um dos valores x1, ...,xn é igualmente provável de ocorrer como resultado de um experimento,
então dizemos que o valor obtido tem a distribuição uniforme na série de valores x1, ...,xn.
O modelo que leva a uma distribuição uniforme é a seleção aleatória a partir de uma população finita na
qual cada valor ocorre o mesmo número de vezes (isto faz com que os valores tornem-se igualmente prováveis
de ocorrer na amostragem).

.2 – Distribuição Binomial
Se a probabilidade de ocorrência p de um evento é constante em cada uma das n tentativas
independentes do evento, então a probabilidade de r ocorrências em n tentativas é:
n!
p r q n−r
r!(n − r )!
onde: q = 1 - p.

A suposição de uma probabilidade constante de ocorrência é considerada razoável quando o


tamanho da população é pelo menos 10 vezes o tamanho da amostra.
Quando n tentativas independentes de um experimento tiverem, cada uma, probabilidade p
constante de ocorrência de um evento de interesse, o número de ocorrências segue uma distribuição binomial.
O nome vem do fato que o fator
n!
r!(n − r )!
visto no cálculo das probabilidades é chamado de Coeficiente Binomial, em matemática.

48
.3 – Distribuição Hipergeométrica
Ocasionalmente, as hipóteses de Poisson ou binomiais não podem ser satisfeitas nem mesmo
de forma aproximada. Sujeita apenas à suposição de uma amostra aleatória, a hipergeométrica dá a
probabilidade de exatamente r ocorrências em n tentativas de um lote de N itens tendo d defeituosos como:
 d  N − d 
  
 r  n − r 
y=
N
 
n
N  N! 
  são as “combinações” de N itens tomados n de cada vez e á igual a   , onde
 n!( N − n )! 
onde
n
N != N .( N − 1)(
. N − 2 )...1 e 0!= 1 . Os cálculos podem ser evitados usando-se tabelas como aquelas
preparadas por Lieberman e Owen (1961).
A Distribuição Hipergeométrica é apropriada quando tentativas independentes são feitas, mas a
probabilidade de ocorrência do evento de interesse muda de tentativa a tentativa por causa da diminuição de uma
população finita.
Exemplo: Um lote de 100 unidades é examinado por um fabricante cuja qualidade passada foi em torno
de 5% de não-conformidade. Uma amostra aleatória de 20 unidades é selecionada do lote. Para calcular a
probabilidade de 0 não-conformes em 20, observe que o lote tem 5 itens não-conformes e 95 conformes. Então:
 5   95   5!   95!   120   1,033.10148 
 .   0!(5 − 0)!. 20!(95 − 20)! 1.120   2,43.1018.2,48.10109 
.
P(0 em 20) =     =   =   = 0,319
0 20
100  100! 9,33.10157
 
 20  20!(100 − 20)! 2,43.1018.7,16.10118
Substituições repetidas na fórmula são feitas para encontrar P(r em 20), onde r neste exemplo é 0, 1, 2, 3, 4 e 5.

.4 – Distribuição de Poisson
É uma aproximação de distribuições mais exatas e aplica-se quando o tamanho da amostra é pelo menos
16. O tamanho da população é pelo menos 10 vezes o tamanho da amostra e a probabilidade de ocorrência p em
cada tentativa é menor que 0,1. (Estas condições são freqüentemente satisfeitas).
Além de ser uma aproximação de distribuições mais exatas, a Poisson é a distribuição exata quando
certas hipóteses são satisfeitas. Essas hipóteses são:
- que os eventos ocorram ao acaso, e.g., no tempo, no espaço ou na localização com uma probabilidade
de ocorrência mais ou menos proporcional ao espaço de tempo (ou volume, ou área)
- que não haja “agrupamentos”.

.5 – Distribuição Binomial Negativa


Ocorre em situações onde o tamanho da amostra não é fixado previamente, mas, sim, determinado
durante o experimento.
Se a probabilidade de ocorrência de um evento é constante de tentativa para tentativa, e faz-se tentativas
até encontrar m ocorrências, então a probabilidade de que r tentativas sejam necessárias é:
(r − 1)! p m (1 − p )r −m
(m − 1)!(r − m )!
onde r pode ser m, m+1, m+2,...

.6 – Distribuição Multinomial
Utilizada em casos importantes onde o produto é “multivariado”, isto é, numa amostra de tamanho n
observa-se tanto o número de peças que precisam ser retrabalhadas quanto o número a ser sucateadas. Como há
duas quantidades, isto é chamado de situação “bivariada”.

.7 – Seleção de uma Distribuição Discreta


A seleção de qual distribuição discreta deve ser usada é geralmente feita por conhecimento da situação
ou por ajuste de um modelo de probabilidade a partir das freqüências relativas. Em, qualquer caso, um teste do
modelo selecionado é de interesse para se verificar sua validade.

49
7.6 - Distribuições Contínuas de Probabilidade
Distribuições Contínuas de Probabilidade são usadas para moldar situações onde o resultado de
interesse pode assumir valores numa escala contínua, por exemplo, os valores maiores que zero para o tempo de
falha de um motor que está trabalhando continuamente.

.1 - Distribuição Uniforme Contínua


Se todos os valores entre a e b (a < b) são possíveis e se as chances do valor estar em um subintervalo
são proporcionais à sua extensão, então a distribuição uniforme é apropriada.
1
A função de probabilidade é horizontal sobre o intervalo (a, b), onde: y =
(b − 1)
c
assim a probabilidade do valor estar em um subintervalo da extensão c é .
(b −a)
.2 - Distribuição Exponencial
A função de probabilidade exponencial é:
X
1 −µ
y= .e
µ
onde:
X – amostra para qual se deseja a probabilidade
µ – Média da População
A função exponencial é útil na descrição da distribuição do tempo de falha de certos equipamentos
complexos. Pode ser mostrado que a distribuição exponencial do tempo de falha aplica-se quando falhas ocorrem
“ao acaso” (e não são devidas a desgaste, mas a tais itens como impactos aleatórios). Na verdade, ela é
caracterizada como a única distribuição contínua com a propriedade de “falta de memória” de que as chances do
item passar por uma unidade de tempo adicional t0 dependem apenas da extensão t0 e não de quanto tempo o
item vem sendo usado.
Predições baseadas em uma população exponencialmente distribuída necessitam somente de uma
estimativa da média da população.
Um exemplo:
O tempo entre falhas de um componente complexo de um equipamento é medido e o histograma
resultante assemelha-se à curva exponencial de probabilidade. Os resultados das medições de uma amostra
indicam que o tempo médio entre falhas é de 100h. Qual a probabilidade de que o tempo entre duas falhas
sucessivas deste equipamento seja pelo menos 20h?
O problema consiste em achar a área sob a curva acima de 20h, Figura 7.1. A Tabela 7.1 dá a área sob
X X 20
a curva acima de qualquer razão . No problema: = = 0,20 De acordo com a Tabela 7.1, a área sob a
µ µ 100
curva acima de 20h é então 0,8187. A probabilidade de que o tempo entre duas falhas sucessivas seja superior a
20h é de 0,8187, ou seja, há em torno de 82% de chance de que o equipamento opere sem falhas, continuamente,
por 20 horas ou mais.

Figura 7.1 – Distribuição do tempo entre falhas

50
Tabela 7.1 – Distribuição Exponencial

.3 - Distribuição de Weibull
A distribuição de Weibull é uma família de distribuições tento a função densidade genérica:
y = αβ ( X − γ ) β −1 e −α ( X −γ )
β

onde:
α ≡ parâmetro de escala;
β ≡ parâmetro de forma e
γ ≡ parâmetro de localização.
A curva da função de Weibull varia muito, dependendo dos valores numéricos dos parâmetros. Os mais
importante é o parâmetro de forma, o qual reflete o padrão da curva.
O parâmetro de escala α está relacionado ao ponto máximo da curva, ou seja, de acordo com a mudança
de α, a curva torna-se mais plana ou mais pronunciada.
O parâmetro de localização γ é o menor valor possível de X. Na maior parte das vezes assume-se que
este valor é zero, resultando assim na simplificação da equação.
A distribuição de Weibull surge se uma variável exponencial é elevada a uma potência, ou seja, se Y é
uma exponencial então Y 1 β tem uma distribuição de Weibull.

.4 - Distribuição Normal
Quando a variação de uma característica é gerada pela soma de um grande número de erros
infinitesimais independentes devidos a diferentes fatores, a distribuição da característica se torna, em muitos
casos, aproximadamente uma distribuição normal. A Distribuição Normal pode ser simplesmente descrita como
tendo a forma de um sino ou montanha, e numa descrição mais detalhada:
a) a densidade de probabilidade é mais alta no meio e diminui gradualmente em direção às caudas e
b) ela é simétrica.
Esta curva pode ser expressa matematicamente como segue:

( X − µ )2
1 2σ 2
y= .e
σ 2π
onde:
e = 2,718
π = 3,141

51
µ = média da população e
σ = desvio-padrão da população
Os problemas são solucionados por meio de tabelas, mas note que a distribuição exige estimativas
apenas da média e do desvio-padrão da população.

Teorema do Limite Central


Se uma variável Y é o resultado da soma de muitas outras variáveis e aquelas variáveis não são muito
dependentes umas das outras, então Y terá aproximadamente uma Distribuição Normal.

Como pode-se observar, a equação da distribuição normal possui dois parâmetros, µ e σ². A
distribuição normal é unicamente determinada por estes dois parâmetros e é denotada simplesmente por N(µ,σ²).
Estes dois parâmetros podem ser descritos graficamente como na Figura 7.2.

Figura 7.2 Distribuição Normal e seus Parâmetros

Para obter uma probabilidade em uma distribuição normal, realiza-se a padronização e usa-se a tabela
de distribuição normal.
Padronização é a transformação de uma variável x para:
x−µ
Z=
σ
Têm-se então o valor padronizado Z, que se distribui como a distribuição normal padronizada N(0,1²).
A Tabela 7.2 da distribuição normal fornece probabilidades na distribuição normal padronizada.

Um exemplo:
Um fabricante de lâmpadas verifica, através de uma distribuição de freqüências, que o tempo de queima
de um determinado modelo de lâmpada é distribuído normalmente. Uma amostra de 50 lâmpadas foi testada e o
tempo médio de vida encontrado foi 60 dias, com um desvio-padrão de 20 dias. Quantas lâmpadas, na
população total de lâmpadas fabricadas por ele, pode se esperar que ainda estejam funcionando após 100 dias de
vida?

O problema aqui dado é encontrar a área sob a curva além dos 100 dias, Figura 7.3.
A área sob uma curva de distribuição entre dois limites estabelecidos representa a probabilidade de
ocorrência. Portanto, a área além dos 100 dias é a probabilidade que uma lâmpada tem de durar mais de 100
dias.

Figura 7.3 Distribuição Normal de duração de uma Lâmpada

Para encontrar a área desejada, faz-se a padronização:


X − µ 100 − 60
Z= = = 2,0
σ 20
onde:

52
X = 100 dias
µ = 60 dias
σ = 20 dias

Na Tabela 7.2, acha-se uma probabilidade para Z = 2,0 { Φ(z) = 2,0 } de 0,9773. Este valor é a
probabilidade de uma lâmpada ter uma vida útil de até 100 dias (97,73%).
Mas no problema proposto, pede-se a probabilidade de uma lâmpada ter uma vida útil de mais de 100
dias. Como a curva normal é simétrica e tem área igual a 1,000, a probabilidade da duração de uma lâmpada ser
maior que 100 dias é então 1,000 - 0,9773 ou 0,0227 (2,27%).
Na Tabela 7.2, pode-se obter o mesmo valor observando a coluna da função -Z { Φ(-z) }. Ainda na
Tabela 7.2, pode-se calcular a probabilidade da duração das lâmpadas estar entre 20 e 100 dias observando a
coluna de D(z), obtendo-se 0,9545 ou 95,45% das lâmpadas têm uma vida útil entre 20 e 100 dias.

Observação: Os valores das funções Φ(-z), Φ(z) e D(z) têm o indicativo de decimal no alto da coluna { 0. }

53
Tabela 7.2 – Distribuição Normal

54
Tabela 7.2 – Distribuição Normal (continuação)

55
REFERÊNCIAS BIBLIOGRÁFICAS

[1] KUME, HITOSHI, 1993, “Métodos Estatísticos para Melhoria da Qualidade”, Editora Gente, SP.

[2] JURAN, J.M. & GRYNA, F.M., 1992, “Controle da Qualidade Handbook”, Volume VI, 4ª Edição,
Editora Makron Books, SP.

[3] BROCKA, BRUCE & BROCKA, M.S., 1994, “Gerenciamento da Qualidade”, Makron Books, SP.

[4] BONINI, E.E. & BONINI, S.E., 1972, “Estatística Teoria e Exercícios”.

[5] MOURA, A.G., 1995, “Tópicos de Estatística Descritiva”, Editora Goiânia, Universidade Católica
de Goiás, GO.

[6] SPIEGEL, M.R., 1976, “Estatística”, 10ª Reimpressão, Editora McGraw-Hill do Brasil Ltda., SP.

[7] ALMODOVA, JOSÉ, 1978, “Introdução à Estatística Geral”, Editora Estrutura, SP.

[8] SERRA COSTA, J.J., 1981, “Elementos de Estatística”, Editora Campus, RJ.

[9] NAZARETH, HELENALDA, 1987, “Curso Básico de Estatística”, 2ª Edição, Editora Ática, SP.

[10] RIBEIRO, L. F. M., 1999, “Notas de Aula da Disciplina Estatística Aplicada a Engenharia”.

56