Vous êtes sur la page 1sur 31

Workshop

Aplicaes do Minitab em diversas reas do


conhecimento

Maria Luza Toledo

Apresentado na IX Semana de Estatstica da Unicamp

Agosto de 2006

1 - REA INDUSTRIAL
Controle Estatstico de Processos
O que uma Carta de Controle?
Uma carta de controle um grfico seqencial desenvolvido especialmente para ajudar
a identificar padres anormais de variabilidade em um processo. As cartas Xbar e R so
as cartas de controle mais usadas.
utilizada para monitorar os dados temporais para uma caracterstica particular de
qualidade, como por exemplo: a cor do produto, o peso ou a temperatura.
Estrutura geral:

O que faz a Anlise de Capacidade?


Nos auxilia a avaliar o quo capaz um processo em atingir as especificaes do
cliente.

Ferramentas:

Cartas de controle que indicam se o processo est sob controle;

Testes de ajuste avaliar a distribuio dos dados;

Mtodos de transformao dos dados;

ndices de capacidade, como Cp, Cpk, Pp, Ppk, entre outros, que
apontam a capacidade total e a potencial do processo.

Exemplo 1 Cartas de Controle e Anlise de Capacidade no Minitab


Na linha de montagem de uma fbrica de motores de automveis, uma das peas, um
eixo de comando, deve ter 600 mm +2 mm de comprimento para atender s
especificaes de engenharia. Recentemente houve um problema crnico que fez com
que os comprimentos dos eixos de comando estivessem fora da especificao, o que
resultou em muitas sobras e altas taxas de retrabalho. O supervisor decide construir
uma carta Xbar-R para monitorar esta caracterstica. Desta forma, durante um ms, foi
coletado um total de 100 observaes (20 amostras de 5 eixos de comando cada) de
todos os eixos de comando usados na planta, e 100 observaes de cada fornecedor.
Primeiro, avaliaremos os eixos de comando produzidos pelo Fornecedor 1.
1 Abra a worksheet EixoDeComando.MTW.
2 Selecione Stat > Control Charts > Variables Charts for Subgroups > Xbar-R.
3 Selecione All observations for a chart are in one column, e entre com
Fornecedor1.
4 Em Subgroup sizes, digite 5.
5 Clique em Xbar-R Options. Selecione a aba Tests.
6 Selecione a opo Perform all tests for special causes.
7 Clique em OK.

A linha central na carta Xbar est em 599,548, implicando que a mdia do seu processo
est dentro dos limites de especificao. Todos os pontos caem dentro dos limites de
controle, o que indica que o processo est estvel. O valor da linha central da carta R,
1,341, pequeno, considerando-se que a variao mxima permitida + 2 mm.
Portanto, o processo do Fornecedor 1 no apresenta problemas de falta de controle.
Agora, avaliaremos os eixos de comando produzidos pelo Fornecedor 2.
1 Selecione Stat > Control Charts > Variables Charts for Subgroups > Xbar-R.
2 Selecione All observations for a chart are in one column, e entre com
Fornecedor2.
3 Em Subgroup sizes, digite 5. Clique em OK.

A linha central na carta Xbar est em 600.23, implicando que a mdia do processo est
dentro dos limites de especificao, mas trs pontos caem do lado de fora dos limites
de controle, implicando em um processo instvel. O valor da linha central da carta R,
3.890, tambm bem grande considerando que a variao mxima permitida + 2 mm.
Pode haver variabilidade em excesso no seu processo.
As cartas Xbar e R mostraram que a produo do Fornecedor 2 estava fora de controle.
Assim, decidiu-se parar de aceitar produtos desse fornecedor, at que a produo dele
esteja sob controle.
Aps descartar o Fornecedor 2, o nmero de montagens com mau ajuste na linha de
montagem diminuiu significativamente, mas os problemas no desapareceram
completamente. Vamos ento executar um estudo de capacidade para verificar se o
Fornecedor 1 sozinho capaz de atender s especificaes de engenharia.

1 Selecione Stat > Quality Tools > Capability Analysis > Normal.
2 Em Single column, entre com Fornecedor 1. Em Subgroup size, digite 5.
3 Em Lower spec, digite 598. Em Upper spec, digite 602.
4 Clique em Options. Em Target (adds Cpm to table), digite 600.
5 Clique em OK.

Podemos ver que a mdia do processo (599.548) est um pouco afastada do alvo
(600). E a cauda da distribuio cai abaixo do limite de especificao inferior. Isto
significa que voc s vezes ver eixos de comando que no atendem especificao
inferior de 598 mm.
O ndice Cpk indica se o processo produzir unidades dentro dos limites de tolerncia.
O ndice Cpk para o Fornecedor 1 apenas 0.90, indicando que eles precisam melhorar
o processo, reduzindo a variabilidade e centralizando o processo no alvo.
Da mesma forma, o PPM < LSL - o nmero de peas por milho cuja caracterstica de
interesse menor que o limite inferior de especificao, 3621.06. Isto significa que
aproximadamente 3621 eixos de comando em um milho no satisfazem a
especificao inferior de 598 mm.
Como o Fornecedor 1 atualmente seu melhor fornecedor, necessrio trabalhar com
ele para que ele melhore seu processo, e consequentemente, o seu prprio.

Anlise de Confiabilidade/Sobrevivncia
A confiabilidade de um produto pode ser reportada de vrias formas, utilizando-se, por
exemplo, de algumas quantidades de interesse, denominadas figuras de mrito.

O MTTF, ou Mean Time to Failure, que o tempo mdio que um item leva para
falhar;

A frao esperada de falhas no perodo de garantia;

E probabilidades associadas a diversos percentis, tal como o B10, relacionado


ao percentil de 10%, que o tempo no qual se estima que 10% dos produtos
colocados em operao venham a falhar.

Portanto, todas essas quantidades relatam estimativas associadas durabilidade do


produto, e auxiliam os fabricantes a investigar a necessidade de efetuar melhorias.
A tcnica de confiabilidade de Testes de Vida, tambm denominada Anlise de Weibull,
consiste em coletar e analisar dados provenientes da durabilidade de produtos,
observando-se o tempo decorrido at a ocorrncia da falha de itens sob teste. Os dados
dos itens para os quais a falha no foi observada durante o experimento, so
denominados como censuras.
Com base nas informaes obtidas, estimam-se quantidades de interesse.
Exemplo 2 Testes de Vida
Um fabricante de circuitos eltricos para a montagem de turbinas quer estimar, sob
determinadas condies, a vida til desses circuitos, obtendo informaes, tais como:
- Quanto tempo leva para 0,1% dos circuitos falharem?
- Qual o tempo at que 95% dos circuitos ainda funcionem?
- Qual a proporo de circuitos que ainda funcionam aps 85 dias?
- A companhia atende especificao de que no mximo 1% dos circuitos pode falhar
dentro de 40 dias?

Para obter essas informaes, foi realizado um experimento com 50 circuitos,


observando-se o tempo at ocorrer a falha.
Para se obter as informaes desejadas, podemos usar o Stat > Reliability/Survival >
Distribution Analysis (Right Censoring). Seguindo essa rota, temos as seguintes
opes:

Primeiramente, precisamos especificar a distribuio dos dados. A opo Distribution


ID Plot Right Censoring pode nos ajudar a escolher essa distribuio.
1 Abra a worksheet TemposDeFalha.MTW.
2 Selecione Stat > Reliability/Survival > Distribution Analysis (Right censoring) >
Distribution ID Plot.
3 Em Variables, entre com a coluna Tempo;
4 Clique em Specify. Deixe marcadas as opes default como Weibull, Lognormal,
Exponential e Normal;
5 Clique em OK.

Nessa sada, verificamos se os dados se ajustam a alguma distribuio, entre as quatro


testadas. No grfico da distribuio Lognormal, podemos ver que os pontos caem bem
prximos da linha reta, o que indica que essa distribuio pode ser uma boa escolha na
execuo da Anlise de Tempos de Falha.
Distribution ID Plot: Tempo
Goodness-of-Fit

Distribution
Weibull
Lognormal
Exponential
Normal

Anderson-Darling
(adj)
1,017
0,650
18,557
0,878

Correlation
Coefficient
0,985
0,986
*
0,984

Table of Percentiles

Percent
1
1
1
1

Percentile
16,0908
22,6814
0,426372
9,09647

Standard
Error
2,64633
2,45050
0,0508641
6,05595

Weibull
Lognormal
Exponential
Normal

5
5
5
5

26,5637
29,5148
2,17605
23,8971

3,11251
2,52675
0,259592
4,80124

21,1131
24,9557
1,72236
14,4869

33,4215
34,9069
2,74924
33,3074

Weibull
Lognormal
Exponential
Normal

10
10
10
10

33,1464
33,9634
4,46978
31,7873

3,21644
2,54670
0,533223
4,20718

27,4055
29,3214
3,53787
23,5414

40,0899
39,3402
5,64716
40,0332

Weibull
Lognormal
Exponential
Normal

50
50
50
50

59,1645
55,7295
29,4058
59,62

3,06229
3,04557
3,50797
3,07138

53,4570
50,0688
23,2750
53,6002

65,4815
62,0301
37,1516
65,6398

Distribution
Weibull
Lognormal
Exponential
Normal

95% Normal CI
Lower
Upper
11,6570
22,2110
18,3529
28,0307
0,337477 0,538682
-2,77297
20,9659

Table of MTTF

Distribution
Weibull
Lognormal
Exponential
Normal

Mean
59,3602
60,0497
42,4236
59,6200

Standard
Error
2,87257
3,41080
5,06094
3,07138

95% Normal CI
Lower
Upper
53,9889 65,2660
53,7233 67,1211
33,5787 53,5985
53,6002 65,6398

Na Session, podemos tambm comparar os valores do teste goodness-of-fit de


Anderson-Darling para determinar qual distribuio melhor se ajusta aos dados. Um
valor menor da estatstica de Anderson-Darling indica que a distribuio fornece um
ajuste melhor. Aqui, o valor de Anderson-Darling para a distribuio Lognormal menor

que o das outras distribuies, apoiando nossa concluso de que a distribuio


Lognormal fornece o melhor ajuste.
A tabela de percentis e a tabela de MTTFs nos permitem ver como as concluses
podem mudar de acordo com a escolha de diferentes distribuies. Os percentis nos
mostram o tempo no qual se espera que uma porcentagem da populao ir falhar.
Com a distribuio Lognormal ajustada aos dados, espera-se que 1% dos circuitos
falhem em 22,6814 dias.
s vezes difcil determinar a melhor distribuio com base no grfico de probabilidade
e nos testes de ajuste (goodness-of-fit). Se muitas distribuies fornecem um ajuste
razovel aos dados, e tambm fornecem concluses similares dos percentis, ento
provavelmente no importa a distribuio escolhida.
Agora que especificamos a distribuio dos dados, usaremos o Distribution Overview
Plot para gerar um layout dos grficos, que vai nos permitir visualizar graficamente os
dados de tempos de vida de diferentes maneiras.

1 Selecione Stat > Reliability/Survival > Distribution Analysis (Right Censoring) >
Distribution Overview Plot.
2 Em Variables, entre com os dados dos tempos de falha, que esto na coluna Tempo.
Como na anlise anterior verificamos que a distribuio Lognormal forneceu um bom
ajuste aos dados, realizamos uma anlise com base nessa mesma distribuio.
3 Debaixo de Parametric Analysis, em Distribution, selecione a opo Lognormal.
4 Clique em OK.
Agora, obtivemos um Distribution Overview Plot. Essa sada composta por 04
grficos que descrevem a taxa de falha para os circuitos. Analisando cada um
separadamente:

Probability density function:

Exibe a forma da distribuio escolhida


(nesse caso, a Lognormal)

Fornece a chance relativa de que o circuito


venha falhar em qualquer tempo particular;

Quando pausamos o cursor sobre essa


curva, o MINITAB exibe uma tabela de
tempos de falha e a probabilidade da
ocorrncia de falha em cada tempo.

Podemos interpretar esses valores concluindo, por exemplo, que


a chance de um circuito falhar com 24 dias de 0,39953%, e
com 54 dias de 1,90547%.

Probability Plot
Esse grfico o mesmo da anlise anterior
(Distribution ID Plot), onde procurvamos por
uma distribuio que se ajustasse aos dados.
Ele repetido nessa anlise para mostrar o
ajuste da distribuio escolhida, caso no
tivssemos testado anteriormente.

Survival Function
O

grfico

de

sobrevivncia

descreve

probabilidade de que um item sobreviva at um


determinado tempo. Assim, o Survival Plot
exibe a confiabilidade do produto ao longo do
tempo. O eixo Y exibe a probabilidade de
sobrevivncia e o eixo X exibe a medida de
confiabilidade (que nesse caso o tempo em
dias).

Quando pausamos o cursor sobre essa curva, o MINITAB exibe


uma tabela de tempos de falha, com a probabilidade de
sobrevivncia em cada tempo.
Nesse exemplo, a chance de um circuito durar 24 dias ou mais
de 98,5375%, e a chance de um circuito durar 120 dias ou mais
de 2,35833%.

Hazard Function
Fornece a taxa de falha instantnea em um
tempo particular, t. A Hazard function mostra a
tendncia da taxa de falha ao longo do tempo.
Portanto, a taxa de falha desse item
Crescente, ou seja, os itens se tornam mais
provveis de falharem medida que o tempo

passa e eles se tornam mais velhos. Uma


funo crescente tipicamente aparece nos
estgios mais tardes da vida de um produto.
A forma dessa funo, assim como das demais, determinada com base nos dados e
na distribuio escolhida (que nesse caso a Lognormal).
Aqui, tambm temos a tabela referente ao grfico.
Agora, usaremos a opo Parametric Distribution Analysis para estimar percentis e
probabilidades de sobrevivncia.
1 Selecione Stat > Reliability/Survival > Distribution Analysis (Right censoring) >
Parametric Distribution Analysis.
2 Em Variables, entre com a varivel Tempo.
3 Em Assumed distribution, marque Lognormal.
4 Clique em Estimate. Em Estimate percentiles for these additional percents digite
0,1; (tempo que leva para 0,1% dos circuitos falharem?).
5 Em Estimate probabilities for these times (values), digite 85. (Proporo de
circuitos que esto funcionando aps 85 dias ? ). Clique em OK;
6 Clique em Graphs. Desmarque a opo Probability Plot e marque Survival plot.
7 Clique em OK.
Distribution Analysis: Tempo
Variable: Tempo
Censoring Information
Uncensored value

Count
50

Estimation Method: Least Squares (failure time(X) on rank(Y))


Distribution:

Lognormal

Parameter Estimates

Parameter
Location
Scale

Estimate
4,02051
0,386428

Standard
Error
0,0546491
0,0400627

Log-Likelihood = -223,271
Goodness-of-Fit

95,0% Normal CI
Lower
Upper
3,91340
4,12762
0,315370 0,473496

Anderson-Darling (adjusted) = 0,650


Correlation Coefficient = 0,986

Characteristics of Distribution

Mean(MTTF)
Standard Deviation
Median
First Quartile(Q1)
Third Quartile(Q3)
Interquartile Range(IQR)

Estimate
60,0497
24,0987
55,7295
42,9427
72,3236
29,3809

Standard
Error
3,41080
3,33383
3,04557
2,61800
4,40920
3,50421

95,0% Normal CI
Lower
Upper
53,7233 67,1211
18,3754 31,6045
50,0688 62,0301
38,1063 48,3931
64,1781 81,5030
23,2564 37,1181

Table of Percentiles

Percent
0,1
1
2
3
4
5
6
7
8
9
10
20
30
40
50
60
70
80
90
91
92
93
94
95
96
97
98
99

Percentile
16,8839
22,6814
25,2010
26,9429
28,3321
29,5148
30,5603
31,5074
32,3803
33,1952
33,9634
40,2570
45,5070
50,5321
55,7295
61,4614
68,2483
77,1487
91,4449
93,5611
95,9155
98,5728
101,628
105,228
109,620
115,273
123,240
136,931

Standard
Error
2,28486
2,45050
2,48920
2,50787
2,51913
2,52675
2,53233
2,53673
2,54040
2,54366
2,54670
2,58505
2,66436
2,80876
3,04557
3,41625
3,99582
4,95401
6,85688
7,16933
7,52506
7,93630
8,42124
9,00848
9,74681
10,7297
12,1729
14,7940

95,0% Normal CI
Lower
Upper
12,9503 22,0122
18,3529 28,0307
20,7654 30,5840
22,4498 32,3351
23,8010 33,7258
24,9557 34,9069
25,9791 35,9494
26,9080 36,8931
27,7652 37,7626
28,5660 38,5745
29,3214 39,3402
35,4962 45,6562
40,5735 51,0405
45,3163 56,3482
50,0688 62,0301
55,1175 68,5355
60,8493 76,5470
68,0252 87,4959
78,9465 105,922
80,5137 108,723
82,2447 111,859
84,1832 115,422
86,3931 119,549
88,9732 124,452
92,0889 130,489
96,0496 138,343
101,549 149,565
110,799 169,225

Table of Survival Probabilities

Time
85

Probability
0,137324

95,0% Normal CI
Lower
Upper
0,0738740 0,230467

Os percentis nos dizem o tempo no qual se espera que uma porcentagem da populao
ir falhar. Usamos os valores dos percentis para determinar se o produto satisfaz os
requerimentos de confiabilidade ou para comparar a confiabilidade de dois ou mais tipos
de produtos.

Pela tabela, podemos verificar que leva 16,8839 dias para 0,1% dos circuitos falharem.
Podemos visualizar tambm que leva 29,5184 dias para 5% dos circuitos falharem, ou
seja, em 29,5184 dias, 95% dos circuitos ainda estariam funcionando.
Para os dados dos circuitos eltricos, o nico requerimento que no mais de 1% dos
circuitos falhem dentro 30 dias. Aqui, se espera que 1% dos circuitos falhem em
22,6814 dias, e 6% falhem em 30,5603 dias. Assim, os circuitos no atendem s
especificaes de confiabilidade.
Na tabela de Survival Probabilities, podemos verificar que 13,7324% dos circuitos ainda
estaro funcionando aps 85 dias.

2 - PESQUISA DE MERCADO
Estatstica Multivariada Anlise de Conglomerados
Use a anlise de conglomerados para classificar observaes em grupos quando os
grupos so inicialmente desconhecidos.
Exemplo 3 - Anlise de Conglomerados
Foram tomadas medidas de 5 caractersticas nutricionais (protena, carboidrato,
gordura, calorias, e percentual da quantidade diria recomendada de Vitamina A) de 12
marcas de cereal matinal. O exemplo e os dados foram retirados da p. 623 de R.
Johnson and D. Wichern (1992). Applied Multivariate Statistical Methods, Third Edition.
Prentice Hall. O objetivo agrupar marcas de cereais com caractersticas similares.
Usaremos o agrupamento de observaes com a padronizao das variveis, pois elas
tm unidades diferentes.
1 Abra a worksheet Cereal.MTW.
2 Selecione Stat > Multivariate > Cluster Observations.
3 Em Variables or distance matrix, entre com Proteina-Vitamina A.
4 Em Linkage Method, escolha Complete e em Distance Measure escolha Squared
Euclidean.
5 Marque Standardize variables.
6 Em Specify Final Partition by, escolha Number of clusters e digite 4.
7 Marque Show dendrogram. Clique em OK.

Cluster Analysis of Observations: Protena; Carboidrato; Gordura; Calorias; ...


Standardized Variables, Squared Euclidean Distance, Complete Linkage
Amalgamation Steps

Step
1
2
3
4
5
6

Number
of
clusters
11
10
9
8
7
6

Similarity
level
100,000
99,822
98,792
94,684
93,406
87,329

Distance
level
0,0000
0,0640
0,4347
1,9131
2,3730
4,5597

Clusters
joined
5
12
3
5
3
11
6
8
2
3
7
9

New
cluster
5
3
3
6
2
7

Number
of obs.
in new
cluster
2
3
4
2
5
2

7
8
9
10
11

5
4
3
2
1

86,189
80,601
68,079
41,409
0,000

4,9701
6,9810
11,4873
21,0850
35,9870

1
2
2
1
1

4
6
7
2
10

1
2
2
1
1

2
7
9
11
12

Final Partition
Number of clusters: 4

Cluster1
Cluster2
Cluster3
Cluster4

Number of
observations
2
7
2
1

Within
cluster
sum of
squares
2,48505
8,99868
2,27987
0,00000

Average
distance
from
centroid
1,11469
1,04259
1,06768
0,00000

Maximum
distance
from
centroid
1,11469
1,76922
1,06768
0,00000

Cluster Centroids
Variable
Protena
Carboidrato
Gordura
Calorias
Vitamina A

Cluster1
1,92825
-0,75867
0,33850
0,28031
-0,63971

Cluster2
-0,333458
0,541908
-0,096715
0,280306
-0,255883

Cluster3
-0,20297
0,12645
0,33850
0,28031
2,04707

Cluster4
-1,11636
-2,52890
-0,67700
-3,08337
-1,02353

Grand centroid
0,0000000
0,0000000
0,0000000
-0,0000000
-0,0000000

Distances Between Cluster Centroids

Cluster1
Cluster2
Cluster3
Cluster4

Cluster1
0,00000
2,67275
3,54180
4,98961

Cluster2
2,67275
0,00000
2,38382
4,72050

Cluster3
3,54180
2,38382
0,00000
5,44603

Cluster4
4,98961
4,72050
5,44603
0,00000

O Minitab exibe os passos da aglomerao na janela Session. Em cada passo, dois


grupos so unidos. A tabela mostra quais grupos foram unidos, a distncia entre eles, o
nvel de similaridade correspondente, o nmero de identificao do novo grupo (este
nmero sempre o menor dos dois nmeros dos grupos unidos), o nmero de
observaes no novo grupo, e o nmero de grupos. As aglomeraes continuam at
que exista apenas um grupo.
Os passos de aglomerao mostram que o nvel de similaridade diminui em
incrementos em torno de 6 ou menos at que ele decresa cerca de 13 incrementos
quando passa de quatro agrupamentos para trs. Isto indica que quatro grupos so
razoavelmente suficientes para a partio final. Se este agrupamento fizer sentido
intuitivo para os dados, ento esta , provavelmente, uma boa escolha.

Quando voc especifica a partio final, o Minitab exibe trs tabelas adicionais. A
primeira tabela resume cada grupo pelo nmero de observaes, a soma de quadrados
dentro do grupo, a distncia mdia das observaes ao centride do grupo, e a
distncia mxima das observaes ao centride do cluster. Em geral, um grupo com
uma soma de quadrados pequena mais compacto do que um grupo com uma soma
de quadrados grande. O centride o vetor de mdias das variveis para as
observaes naquele grupo e usada como um ponto central de um grupo. A segunda
tabela exibe os centrides para os grupos individuais enquanto a terceira tabela fornece
as distncias entre os centrides dos grupos.

O dendograma exibe a informao da tabela de formao de grupos na forma de um


diagrama de rvore. No nosso exemplo, os cereais 1 e 4 compem o primeiro grupo; os
cereais 2, 3, 5, 12, 11, 6, e 8 compem o segundo; os cereais 7 e 9 compem o
terceiro; o cereal 10 compe o quarto.

3 - REA BIOLGICA
Modelos de Regresso Logstica
O MINITAB fornece trs procedimentos de regresso logstica para avaliar a relao
entre um ou mais preditores e uma resposta categrica: Binary Logistic Regression,
Ordinal Logistic Regression e Nominal Logistic Regression, sendo que existem
situaes especficas para a aplicao de uma ou outra.
Usamos a opo Binary Logistic Regression quando a varivel resposta binria, ou
seja, tem apenas duas categorias, como por exemplo, sucesso e falha, ou sim e no.
A Ordinal Logistic Regression se aplica em casos em que a varivel resposta
ordinal, com trs nveis ou mais, e existe uma ordenao natural dos nveis. Essa
ordenao natural pode ser por exemplo do tipo fraco, moderado e forte, ou pequeno,
mdio, e grande.
J a Nominal Logistic Regression usada quando a varivel resposta nominal, com
trs categorias ou mais, mas no existe uma ordenao natural entre esses nveis,
como por exemplo, azul, vermelho e amarelo. Assim, a escolha de qual ferramenta a
ser usada depende da varivel resposta obtida no estudo.
Exemplo 4 - Regresso Logstica Binria
Um pesquisador est interessado em investigar o efeito do hbito de fumar e do peso
de indivduos na taxa de pulsao em repouso dos mesmos. Em um estudo realizado,
foi avaliada a taxa de pulsao em repouso de indivduos, que a varivel resposta.
Essa varivel foi avaliada em duas categorias: alta ou baixa.
Outras variveis medidas no estudo foram o peso e o hbito de fumar de cada
indivduo, que sero as variveis explicativas ou preditoras do modelo a ser construdo.
Assim, o objetivo do pesquisador era ser capaz de determinar a probabilidade de um
indivduo ter uma taxa de pulsao alta ou baixa de acordo com o peso e o hbito de
fumar do mesmo.

1 Abra a worksheet TaxaPulsacao.MTW.


2 Selecione Stat > Regression > Binary Logistic Regression. Em Response, entre
com a varivel resposta, Taxa de pulsao. Em Model entre com as duas variveis
explicativas Hbito de fumar e Peso.
3 Caso no modelo tenha alguma varivel explicativa categrica, devemos entrar com a
coluna correspondente em Factors. Nesse exemplo, entraremos com a varivel Hbito
de Fumar, que binria.
3 Clique em OK.
Binary Logistic Regression: Taxa de puls versus Hbito de fu; Peso
Link Function: Logit

Response Information
Variable
Taxa de pulsao

Value
Baixa
Alta
Total

Count
70
22
92

(Event)

Logistic Regression Table

Predictor
Constant
Hbito de fumar
Sim
Peso

Coef
-1,98717

SE Coef
1,67930

Z
-1,18

P
0,237

-1,19297
0,0250226

0,552980
0,0122551

-2,16
2,04

0,031
0,041

Odds
Ratio

0,30
1,03

95% CI
Lower Upper

0,10
1,00

Log-Likelihood = -46,820
Test that all slopes are zero: G = 7,574, DF = 2, P-Value = 0,023

Goodness-of-Fit Tests
Method
Pearson
Deviance
Hosmer-Lemeshow

Chi-Square
40,8477
51,2008
4,7451

DF
47
47
8

P
0,724
0,312
0,784

Table of Observed and Expected Frequencies:


(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)

Value
Baixa
Obs
Exp
Alta
Obs
Exp

Group
5
6

4
4,4

6
6,4

6
6,3

8
6,6

8
6,9

5
4,6

4
3,6

3
2,7

1
2,4

1
2,1

10

Total

6
7,2

8
8,3

12
12,9

10
9,1

2
1,9

70

3
1,8

2
1,7

3
2,1

0
0,9

0
0,1

22

0,90
1,05

Total

10

10

15

10

92

Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total

Number
1045
461
34
1540

Percent
67,9
29,9
2,2
100,0

Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a

0,38
0,39
0,14

Em Response Information temos vrias informaes relacionadas ao estudo: abaixo


de Variable temos o nome da varivel resposta, que a taxa de pulsao. Em Value,
temos os dois nveis dessa varivel: alto e baixo. Em Count, temos o nmero de
observaes em cada nvel da resposta: 70 indivduos com taxa de pulsao Baixa e 22
com taxa Alta, somando 92 indivduos no estudo. A legenda Event se refere ao evento
de referncia, que nesse caso a taxa de pulsao Baixa.
Logistic Regression Table a tabela de regresso logstica, usada para avaliar como a
probabilidade de ocorrncia do evento muda quando ocorre uma mudana na varivel
explicativa. Abaixo de Predictor temos a Constante e as duas variveis preditoras. Em
Coef temos os os coeficientes estimados, em SE Coef o erro padro dos coeficientes, a
estatstica de teste Z, os valores-p relacionados a cada estatstica de teste, a Odds
Ratio, ou Razo de chances, e o intervalos de confiana de 95% para a razo de
chances relacionada a cada varivel explicativa. Para a varivel Hbito de Fumar,
temos a categoria Sim, o que indica que vamos avaliar a probabilidade do evento de
referncia ocorrer com a pessoa que fuma em relao que no fuma. Assim o
coeficiente negativo dessa varivel implica que uma pessoa que fuma menos provvel
de ter uma taxa de pulsao baixa que uma pessoa que no fuma. Da mesma forma, o
coeficiente positivo para a varivel Peso indica que quanto maior o peso do indivduo,
maior a probabilidade de ocorrer o evento de referncia com o mesmo, ou seja, quanto
maior o peso, maior a probabilidade desse indivduo ter a taxa de pulsao baixa. Os
valores-p de cada uma das variveis: 0,031 para a varivel Hbito de Fumar e 0,041
para a varivel Peso mostram que essas variveis so significativas para explicar a taxa
de pulsao desse modelo, a um nvel de 5% de significncia.
A odds ratio (ou razo de chances) da varivel Hbito de fumar indica a chance do
evento de referncia, que a baixa pulsao, ocorrer com um indivduo que fuma em

relao ao que no fuma. O valor de 0,3 indica que a chance de um indivduo fumante
ter uma pulsao de repouso baixa apenas 30% da chance de um indivduo no
fumante ter uma pulsao de repouso baixa, ou seja, as pessoas que fumam tendem a
ter uma taxa maior de pulsao de repouso que as pessoas que no fumam.
J para a varivel Peso, mesmo havendo evidncia de que essa varivel significativa
(pelo valor-p baixo), a odds ratio muito prxima de 1 (1.03), indicando que o aumento
de uma unidade no peso do indivduo afeta muito pouco a taxa de pulsao em repouso
do mesmo. Indica que com o aumento de 1 unidade no peso, a chance do indivduo ter
uma pulsao baixa, que o evento de referncia, multiplicada por 1,03, ou seja,
medida que aumenta uma unidade no peso, a chance do indivduo ter uma taxa de
pulsao baixa aumenta em 3%.
O Goodness-of-Fit Tests, que so os testes de ajuste, com valores-p variando de 0.312
a 0.724, indicam que no existe evidncia suficiente para dizer que o modelo no ajusta
os dados adequadamente. Portanto, o ajuste do modelo adequado.
A Table of Observed and Expected Frequencies, que a tabela de freqncias
esperadas e observadas, permite ver quo bem o modelo ajusta os dados,
comparando-se as frequncias observadas e esperadas. Ento ns temos aqui para a
taxa de pulsao baixa as freqncias observadas na 1 linha e as esperadas na 2
linha. Da mesma forma para a taxa de pulsao alta. Assim, se o modelo adequado,
esperamos que a diferena entre as freqncias observadas e esperadas seja baixa.
No existe evidncia suficiente de que o modelo no ajusta bem os dados, pois as
frequncias esperadas e observadas so similares. Isso sustenta as concluses tiradas
a partir dos testes de ajuste.
Temos a Measures of Association, que a tabela de medidas de associao em que
avalia-se a concordncia entre as respostas observadas e as respostas preditas pelo
modelo de regresso. Uma alta porcentagem de concordncia indica que o modelo
ajustou bem os dados. Para os dados, 67,9% dos pares foram concordantes, enquanto
29,9% dos pares foram discordantes.
Os valores das medidas so resumos da tabela de pares concordantes e discordantes.
Esses valores normalmente caem entre 0 e 1, e valores mais altos indicam que o

modelo tem uma boa capacidade de predio. Nesse exemplo, os valores variaram de
0.14 a 0.39, o que implica que a capacidade de predio do modelo menor do que o
desejvel.
Assim, atravs do modelo de regresso logstica ajustado aos dados, foi possvel ao
pesquisador avaliar se as variveis estudadas realmente esto relacionadas com a taxa
de pulsao em repouso dos indivduos, identificando possveis fatores de risco.

4 - REA ECONMICA
Anlise de Sries Temporais
Exemplo 5: Modelo ARIMA
Deseja-se realizar previses para uma srie de preos, atravs de um modelo ARIMA.
Primeiramente usaremos a autocorrelao para ajudar a identificar um modelo mais
adequado.
1 Abra a worksheet ARIMA.MTW.
2 Selecione Stat > Time Series > Time Series Plot > Simple.
3 Em Series, entre com a coluna Srie de Preos. Clique em OK.
O grfico de series temporais construdo o seguinte:

Como os dados exibem um forte componente sazonal de 12 meses, diferenciamos a


srie em lags de 12 para induzir a estacionaridade e avaliar a autocorrelao da srie
diferenciada. Parece existir alguma tendncia crescente de longo-prazo nesses dados,
mas a magnitude disso parece ser pequena se comparada ao componente sazonal. Se

a tendncia fosse maior, consideraramos realizar outra diferenciao de um lag para


induzir a estacionaridade.
Diferenciando a srie:
1 Nomeie a coluna C3 como Serie2.
2 Selecione Stat > Time Series > Differences.
3 Complete a caixa de dilogo como mostra a figura abaixo.

3 Clique em OK.

Construindo o FAC:
1 Selecione Stat > Time Series > Autocorrelation
2 Entre com a srie de dados e clique em OK.

Autocorrelation Function: Serie2


Lag
1
2
3
4
5
6
7
8
9
10
11
12

ACF
0,701388
0,512266
0,366882
0,310364
0,234743
0,173069
0,162046
0,170051
0,322438
0,252774
0,208020
0,150936

T
4,86
2,52
1,60
1,29
0,94
0,68
0,63
0,66
1,24
0,94
0,76
0,55

LBQ
25,12
38,81
45,99
51,24
54,32
56,03
57,57
59,30
65,70
69,74
72,54
74,06

O FAC mostra grandes valores positivos nos lags 1 e 2 com autocorrelaes positivas
subsequentes que no diminuem rapidamente. Esse padro tpico de um processo
autoregressivo.

Construindo o FACP:
1 Selecione Stat > Time Series > Partial Autocorrelation.
2 Entre com a srie de dados e clique em OK.

Partial Autocorrelation Function: Serie2


Lag
1
2
3
4
5
6
7
8
9
10
11
12

PACF
0,701388
0,039998
-0,012022
0,092572
-0,034921
-0,014194
0,075222
0,049848
0,326936
-0,227678
0,005302
-0,000979

T
4,86
0,28
-0,08
0,64
-0,24
-0,10
0,52
0,35
2,27
-1,58
0,04
-0,01

Apenas o lag 1 possui um valor alto, o que tpico de um processo autoregressivo de


ordem 1. O lag 9 tambm significativo, mas no temos evidncias de um processo
no aleatrio ocorrendo aqui.

O FAC e o FACP desses dados sugerem um modelo autoregressivo de ordem 1, ou


AR(1), aps realizar uma diferenciao de ordem 12. Ajustaremos ento esse modelo,
examinaremos grficos de diagnstico, e examinaremos o goodness of fit. Para tomar
uma diferenciao de ordem 12, especificamos que o perodo sazonal seja 12, e a
ordem da diferena seja 1. Posteriormente, realizaremos predies.

Ajustando o modelo ARIMA:


1 Selecione Stat > Time Series > ARIMA.
2 Entre com a srie original de dados.
3 Marque Fit seasonal model. Em Period, mantenha 12.
4 Em Nonseasonal, digite 1 em Autoregressive.
5 Em Seasonal, digite 1 em Difference.
6 Em Graphs, marque ACF of residuals e PACF of residuals.

ARIMA Model: Srie de Preos


Estimates at each iteration
Iteration
0
1
2
3
4
5
6
7
8
9

SSE
95,2343
77,5568
64,5317
56,1578
52,4345
52,2226
52,2100
52,2092
52,2092
52,2092

Parameters
0,100 0,847
0,250 0,702
0,400 0,556
0,550 0,410
0,700 0,261
0,733 0,216
0,741 0,203
0,743 0,201
0,743 0,200
0,743 0,200

Relative change in each estimate less than 0,0010

Final Estimates of Parameters


Type
AR
1
Constant

Coef
0,7434
0,1996

SE Coef
0,1001
0,1520

T
7,42
1,31

P
0,000
0,196

Differencing: 0 regular, 1 seasonal of order 12


Number of observations: Original series 60, after differencing 48
Residuals:
SS = 51,0364 (backforecasts excluded)
MS = 1,1095 DF = 46

Modified Box-Pierce (Ljung-Box) Chi-Square statistic


Lag
Chi-Square
DF
P-Value

12
11,3
10
0,338

24
19,1
22
0,641

36
27,7
34
0,768

48
*
*
*

O modelo ARIMA convergiu aps nove interaes. O parmetro AR(1) tem um valor-t
de 7,42. Parmetros com valores-t maiores que 2 podem ser considerados
significativos. O valor-p tambm indica isso. O MS dos Resduos (1,1095) pode ser
usado para comparar ajustes de diferentes modelos ARIMA.
As estatsticas Ljung-Box fornecem valores-p no significativos, indicando que os
resduos parecem ser no-correlacionados.

O FAC e o FACP dos resduos verificam essa informao. Podemos assumir que o alto
valor do lag 9 se deve a eventos aleatrios. O modelo AR(1) parece fornecer um bom
ajuste, de forma que podemos utiliz-lo para realizar previses para os prximos 12
meses.
Utilizando o modelo para fazer previses:
Reajuste o modelo ARIMA sem construir o FAC e o FACP.
Clique em Graphs, marque Time series plot (including optional forecasts).
Clique em Forecasts, em Lead, digite 12.
Forecasts from period 60

Period
61
62
63
64
65
66
67
68
69
70
71
72

Forecast
56,4121
55,5981
55,8390
55,4207
55,8328
59,0674
69,0188
74,1827
76,3558
67,2359
61,3210
58,5100

95 Percent
Limits
Lower
Upper
54,3472 58,4770
53,0251 58,1711
53,0243 58,6537
52,4809 58,3605
52,8261 58,8394
56,0244 62,1104
65,9559 72,0817
71,1089 77,2565
73,2760 79,4357
64,1527 70,3191
58,2360 64,4060
55,4240 61,5960

Actual

O ARIMA fornece as previses com os limites de 95% de confiana, usando o modelo


AR(1). A sazonalidade domina o perfil de previses para os prximos 12 meses com os
valores das previses sendo levemente maiores para os prximos 12 meses.

Sobre a autora:
Maria Luiza Toledo Graduada em Estatstica pela Universidade Federal de Minas
Gerais-UFMG, Mestranda em Estatstica pela UFMG e faz parte da Equipe Tcnica da
Minitab Brasil (www.minitabbrasil.com.br).

Nenhuma parte deste artigo poder ser reproduzida ou transmitida de qualquer modo
sem prvia autorizao por escrito da autora.