Académique Documents
Professionnel Documents
Culture Documents
Anlise de Dados
Estimao de Parmetros Em geral, numa simulao, deseja-se conhecer quantidades relacionadas a v.a.'s cuja obteno direta seria muito difcil ou impossvel. Exemplo: Tempo mdio de sistema em regime numa rede de filas complexa. Em geral utilizam-se dois tipos de estimao: estimao pontual: quando se deseja um nico valor correpondendo quantidade de intersse; estimao de intervalo: quando se deseja conhecer um intervalo no qual o parmetro estimado esteja com nvel de confiana dado (1). As tcnicas de estimao so utilizadas tambm para determinar parmetros das distribuies de dados de entrada obtidos experimentalmente.
4. Anlise de Dados
Estimao Pontual
Considere-se uma srie de v.a.'s correspondendo amostragem de n valores de um espao amostral: X1, X2, ..., Xn Caso mais simples: a sequncia acima i.i.d., sendo a mdia da distribuio comum. Um estimador para :
1 n n = X i n i =1
^ obs.: n uma v.a. utilizada para estimar o nmero real . ^ Se E[n] = o estimador dito no-polarizado
4. Anlise de Dados
1 n 1 n E[ n ] = E[X i ] = = n i =1 n i =1
Se o processo estocstico contnuo:
1 T = X( t )dt T0
^ Qual a varincia da v.a. n ?
2 Var[ n ] = n
se a sequncia Xi for i.i.d. e 2 = Var[Xi]
4. Anlise de Dados
1 n S = X i n n 1 i =1
2 n
Prova-se que E[Sn2] = 2, quando a seq. for i.i.d. ^ Finalmente, um estimador para Var[n] :
n S2 1 ( n ) = n = X i n n n ( n 1) i =1 2
obs.: lim 2 ( n ) = 0
n
4. Anlise de Dados
Teorema forte dos Grandes Nmeros: Se X1, X2, ..., Xn uma sequncia i.i.d. de v.a.'s com mdia finita, ento: ^ n com probabilidade 1, quando n Obervaes: a) assim como a no polarizao, a propriedade acima denominada "consistncia forte" desejvel em qualquer estimador. b) um estimador pode ser fortemente consistente e ao mesmo tempo no polarizado.
4. Anlise de Dados
comportamento tpico:
^ Var[n]
^ n n
Em experimentos de simulao, usual que as sequncias de amostras no sejam i.i.d. Este fato no interfere em geral na estimativa ^ de n, mas afeta Sn2. Alternativas: estimar correlaes ou organizar os dados de sada de modo a descorrelacion-los
4. Anlise de Dados
Estimao de Intervalos
Problema: Estimar um intervalo dentro do qual o parmetro esteja com grau de confiana 1 (p.ex. 95%) Define-se:
n E[ n ] Zn = Var[ ]
n
No caso i.i.d.:
E[ n ] = 2 Var[ n ] = n
portanto:
Zn =
n 2 n
4. Anlise de Dados
lim Fn ( x ) = ( x ) =
1 e 2
2 2
Duas consequncias deste teorema: ^ A distribuio de n se aproxima de uma normal Esta normal tende mdia e varincia 2/n
4. Anlise de Dados
z
2
4. Anlise de Dados
^ ^ P[n z/2 (2/n) n + z/2(2/n)] 1 Portanto, a determinao do intervalo de confiana depende de: ^ n: estimao da mdia; z/2: tabulado (dado ); ^ 2: varincia da v.a. n (desconhecida) Contudo, 2 pode ser estimado por:
1 n S = X i n n 1 i =1
2 n
Tn =
n S2 n n
10
4. Anlise de Dados
Portanto o intervalo ^ ^ n z/2 (Sn2/n) n + z/2(Sn2/n) fica completamente determinado. Questo: Qual deve ser o valor de n?
Suponha que a sequncia X1, X2, ..., Xn seja normal. Se isto fsse o caso, qual seria a densidade de probabilidade da varivel aleatria:
Tn =
n S
2 n
^ Observe-se que tanto n quanto Sn2 dependem dos Xi. Esta distribuio conhecida como distribuio t de Student
11
4. Anlise de Dados
Um dos parmetros da distribuio t de Student o nmero de graus de liberdade. A distribuio Tn anterior (com a hiptese de que cada Xi seja normal) tem (n 1) graus de liberdade. A partir de dados tabulados possvel determinar (em funo de e de n) o valor de tn1,/2 tal que: P[tn1,/2 Tn tn1,/2 ] = 1 o que leva a: ^ P[n tn1,/2 (Sn2/n) ^ n + tn1,/2(Sn2/n)] 1 Obs.: Esta continua sendo uma aproximao, porm melhor que a anterior. Este o clculo implementado na maior parte dos simuladores
12
4. Anlise de Dados
13
4. Anlise de Dados
Numa simulao a determinao de modelos adequados para as entradas do sistema ao mesmo tempo: Fundamental para a confiabilidade dos resultados da simulao; Exigente, em termo de tempo e recursos.
Etapas na determinao de modelos para os dados de entrada: 1. Coleta de dados (nem sempre possvel); 2. Identificao da distribuio de probabilidades do processo de entrada (usualmente com a ajuda de histogramas); 3. Determinar parmetros para a distribuio escolhida; 4. Avaliar a distribuio resultante (graficamente ou atravs de testes estatsticos)
14
4. Anlise de Dados
Coleta de Dados
Sugestes: Planejamento cuidadoso; pr-observao; considerao de vrias formas de coletar os dados; observao de circunstncias no-usuais.
Anlise preliminar durante a coleta; verificao da adequao dos dados; rejeio de dados suprfluos.
15
4. Anlise de Dados
Combinao de conjuntos de dados homogneos; verificao da homogeneidade de dados coletados em horrios ou dias diferentes (p.ex. atravs de suas mdias)
Ateno omisso de dados fora dos processos de intersse, porm importantes para o processo global.
Verificao de eventuais relaes entre variveis; p.ex. atravs da inspeo visual de diagramas de espalhamento.
Considerao da possibilidade de que uma sequncia de medidas aparentemente independentes possa apresentar autocorrelao.
16
4. Anlise de Dados
Identificao da Distribuio
10 passo: Construo de um histograma Dividir a faixa de valores dos dados em intervalos (usualmente iguais); Rotular o eixo horizontal; Determinar a frequncia de ocorrncia dentro de cada intervalo; Plotar as frequncias no eixo vertical.
20 passo: Selecionar uma famlia de distribuies Esta seleo deve ser feita com base: na aparncia do histograma; na natureza do processo analisado.
17
4. Anlise de Dados
Alternativa til quando h poucos dados: Grficos Quantile Quantile Seja a v.a. X, com funo de distribuio F(x); define-se o q-quantile de X (0 q 1)como sendo: = F1(q) Considere-se agora um conjunto de observaes da v.a. X: {y1, y2, ..., yn}, colocados em ordem crescente: yj yj+1, j interessante observar que yj uma estimativa para o [(j )/n]-quantile de X
F(x) 1 (12 )/12
n = 12
(1 )/12 x y1 y6 y9 y12
18
4. Anlise de Dados
Portanto, para verificar se um conjunto de observaes, {y1, y2, ..., yn} tem como distribuio F(x), plota-se:
j 1 2 y j versus F n
1
Se a distribuio for correta o resultado aproximadamente uma linha reta com inclinao unitria. Se a inclinao no for unitria, trata-se da escolha correta da famlia de distribuies, porm com parmetros errados. Observaes: Os valores observados nunca caem exatamente sobre a curva; Devido ordenao, h dependncia, portanto se um ponto cai acima da curva, o prximo provavelmente tambm cair. As varincias nos extremos podem ser maiores que no resto da faixa de valores (maior linearidade no centro da faixa).
Simulao de Sistemas Dinmicos 19
4. Anlise de Dados
Determinao de Parmetros As distribuies usuais tem parmetros diretamente relacionados mdia e varincia e portanto podem ser avaliados a partir de seus estimadores. Em alguns casos outros estimadores podem ser usados. Exemplos: Distribuio Poisson Exponencial Gama Parmetros = t , Estimadores ^ ^ = n ^ = 1/ ^ n ^ ^ = 1/n
1 n $ M = ln( n ) ln( X i ) n i =1
$ n +1[max(X )] b= i i n
^ ^ = n ^ 2 = Sn2
20
4. Anlise de Dados
Testes de Ajuste de Distribuies A varivel aleatria chi-quadrado com n graus de liberdade definida como:
2 n
i =1
z2 i
( X i ) 2 = 2 i =1
n
E[ 2 ] = n n Var[ 2 ] = 2n n
n
lim 2 = normal n
2 21 + 2 2 = n1+ n 2 n n
A propriedade de aditividade pode ser generalizada para um nmero arbitrrio finito de variveis.
21
4. Anlise de Dados
22
4. Anlise de Dados
Considerem-se n dados observados, agrupados em k intervalos e seja f(x) a densidade que se quer testar.
f(x) densidade de probabilidade
histograma
Sejam:
Ei: frequncia esperada de uma varivel aleatria X no i-simo intervalo de valores: Ei = n i; Oi: frequncia observada no mesmo intervalo: Oi = ni (i = 1, 2, ..., k).
23
4. Anlise de Dados
2 = 0
(O i E i )2
Ei
i=0
uma distribuio chi-quadrado com p graus de liberdade, onde: p = k s 1; s o nmero de parmetros estimados a partir da amostra. Para verificar se o conjunto de dados coletados corresponde distribuio proposta com nvel de significncia (), aplica-se o teste de chi-quadrado:
2 2 > ,p 0
24
4. Anlise de Dados
Observaes: a) Se o nmero de observaes muito pequeno, dificilmente algum candidato rejeitado; se grande, todo candidato facilmente rejeitado. b) recomendvel que a frequncia esperada em cada intervalo (Ei) seja > 5. Caso isso no acontea deve-se agrupar intervalos adjacentes. O parmetro k deve ser nesse caso, adequadamente reduzido. c) Sugere-se que o nmero de intervalos para variveis contnuas obedea a seguinte tabela: tamanho da amostra (n) 20 50 100 >100 nmero de intervalos (k) no usar o chi-quadrado 5 a 10 10 a 20
n a n 5
25
4. Anlise de Dados
Exemplo: Durante 100 dias teis observou-se o nmero de automveis passantes num certo ponto de uma estrada no perodo entre 7h00 e 7h05. Os nmero obtidos foram:
n0 de autos: 0 1 2 3 4 5 6 7 8 9 10 freq. obs.: 12 10 19 17 10 8 7 5 5 3 3 11 1
freq. esper.: 2,6 9,6 17,4 21,1 19,2 14,0 8,5 4,4 2,0 0,8 0,3 0,1
26
4. Anlise de Dados
n0 de autos: 0 1 2 Oi: 12 10 19
3 17
4 10
5 8
6 7
7 8 9 10 11 5 5 3 3 1
22
17
n0 de autos: 0
8 9 10 11
Ei: 2,6 9,6 17,4 21,1 19,2 14,0 8,5 4,4 2,0 0,8 0,3 0,1
12,2 portanto:
7,6
i=0
(O i E i )2
Ei
= 27,68
40 passo: p = k s 1 = 7 1 1 = 5; = 0,05
rejeitar hiptese
27
4. Anlise de Dados
Dados empricos indisponves: Dados tcnicos: Alguns dispositivos simulados podem apresentar informaes do fabricante do tipo: tempo mdio entre falhas, taxa de produo mdia, etc.. Opinio de especialistas: Especialistas no processo em simulao podem estimar piores e melhores casos para uma varivel, variabilidade de uma varivel, fonte de variabilidade, etc.. Limitaes fsicas e convencionais: A taxa em regime de processos em cascata no pode exceder a taxa do componente mais lento; polticas de uma emprsa podem limitar duraes, etc.. Natureza do processo: As distribuies usuais esto associadas a alguma hiptese, muitas vezes identificvel.
28
4. Anlise de Dados
Modelos multivariveis: Quando h um nmero fixo e finito de variveis aleatrias Sries Temporais: Sequncia de variveis aleatrias relacionadas Dadas duas v.a.'s, X1 e X2, respectivamente com mdias 1 e 2, e varincias 1 e 2 define-se: cov(X1,X2) = E[(X1 1)(X2 2)] = E[X1X2] 12 = corr(X1,X2) = cov(X1,X2)/(1 2) 1 +1
29
4. Anlise de Dados
Modelos multivariveis: Se X1 e X2 so duas variveis aleatrias normais dependentes, a distribuio conjunta completamente caracterizada por: mdias: 1 e 2; varincias: 12 e 22 covarincia: cov(X1, X2) Suas estimativas, a partir de n pares de dados {(X11, X21), (X12, X22), ..., (X1n, X2n)}so relacionadas por:
1 n $ $ $ cov( X1 , X 2 ) = ( X1 j 1 ) ( X 2 j 2 ) = n 1 j=1 1 n $ $ X1 j X 2 j n 1 2 n 1 j=1
= cov(X1 , X 2 ) 1 2
4. Anlise de Dados
Sries Temporais: Seja {X1, X2, ...} uma sequncia de v.a.'s identicamente distribudas, dependentes e com covarincia estacionria. Alguns modelos so possveis para descrever este tipo de processo. Exemplo:
X t = + (X t 1 ) + t
t = 2, 3, ... 2, 3, ... so v.a.'s normais i.i.d. com mdia nula e varincia 2 1 < < 1 Se X1 definida com distribuio normal, mdia e varincia 2/(1 2), ento as v.a.'s X2, X3, ... tem a mesma distribuio e ainda: h = corr(Xt, Xt+h) = h A estimao do parmetro pode ser obtida de: = 1 = corr(Xt, Xt+1)
31
4. Anlise de Dados
Exemplo:
Xt =
t = 2, 3, ... 2, 3, ... so v.a.'s exponenciais i.i.d. com mdia 1/ 0<<1 Se X1 definida com distribuio exponencial, mdia 1/, ento as v.a.'s X2, X3, ... tem a mesma distribuio e ainda: h = corr(Xt, Xt+h) = h
Como anteriormente, a estimao do parmetro pode ser obtida de: = 1 = corr(Xt, Xt+1)
32
4. Anlise de Dados
Verificao e Validao Reproduzir o comportamento do sistema modelado o mais realisticamente possvel; Aumentar a credibilidade do simulador, inclusive frente aos usurios finais; Processo pelo qual se adquire confiana de que a anlise de sadas leva a inferncias vlidas.
Verificao "Construir o modelo corretamente" Comparao entre um modelo conceitual e um modelo operacional, representvel em computador; O modelo est implementado corretamente no computador? Os parmetros de entrada e a estrutura lgica esto corretamente representados?
33
4. Anlise de Dados
Validao "Construir o modelo correto" A representao em computador um modelo preciso? Usualmente atingida via calibrao do modelo: Calibrao: Processo iterativo de comparao entre os comportamentos do modelo e do sistema; correo at que se atinja a preciso desejada. Etapas na construo de um modelo A - Observao e questionamento: Observao do comportamento geral; Observao da interao entre os componentes; Coleta de dados; Questionamento de pessoas familiares com o sistema (operadores, tcnicos, pessoal de manuteno, engenheiros, supervisores, gerentes, etc.). Esta etapa deve ser revisitada medida que o desenvolvimento do modelo avana.
34
4. Anlise de Dados
B - Construo de um modelo conceitual: Coleo de hipteses sobre os componentes e estrutura do sistema; Hipteses relativas aos valores dos parmetros das entradas do modelo; Abstraes e simplificaes; A validao conceitual a comparao do sistema real com o modelo conceitual. C - Traduo do modelo conceitual para um modelo operacional: O modelo operacional reconhecvel pela linguagem de simulao - "forma computadorizada"
Todas estas etapas devem ser revisitadas permanentemente, inclusive nos processos de verificao e validao.
35
4. Anlise de Dados
Sistema Real
calibrao e validao validao conceitual
Modelo conceitual: 1. Hipteses sobre os componentes do sist. 2. Hipteses sobre a estrutura, que definem as interaes entre os componentes 3. Parmetros de entrada e hipteses sobre os dados
verificao do modelo
36
4. Anlise de Dados
Verificao Garantir que o modelo conceitual est adquadamente representado no modelo operacional; um procedimento dificilmente formalizvel; As sugestes a seguir derivam da experincia e bomsenso e se aplicam a qualquer construo de software:
1 - Garantir que a representao computadorizada seja verificada por algum alm do programador; 2 - Construir um fluxograma com todas asaes logicamente possveis decorrentes da ocorrncia de um evento; 3 - Examinar se as sadas do sistema so razoveis para uma grande variedade de entradas - imprimir muitas estatsticas de sada; 4 - Imprimir os parmetros de entrada ao fim da simulao para detectar mudanas inadvertidas;
37
4. Anlise de Dados
5 - Documentar a representao computadorizada da maneira mais completa possvel; definir as variveis precisamente; comentar a funo de trechos relevantes de cdigo; 6 - Se h animao, verificar a compatibilidade com o sistema real (p. ex. AGV's que se superpem); 7 - Usar, se houver, um "Controlador de Execuo Interativo" (Interactive Run Controller - IRC ou debugger); 8 - Interfaces grficas facilitam o processo de validao e verificao (constituem uma forma de documentao - vide Extend) 9 - Uma tcnica mais sofisticada o trao de um simulador.
38
4. Anlise de Dados
Validao e Calibrao
Modelo inicial
Sistema Real
comparao 1a reviso
comparao
M
Simulao de Sistemas Dinmicos 39
4. Anlise de Dados
subjetivos: envolvem especialistas e seus julgamentos sobre o modelo e suas sadas. objetivos: envolvem dados do sistema e do modelo; revises at a preciso desejada.
Alternativa: Novo conjunto de dados para uma fase final de validao. Se discrepncias muito grandes forem detectadas: reviso do modelo
40
4. Anlise de Dados
Validao no um processo com fronteira clara; Nenhum modelo representa completamente um sistema. H portanto um compromisso: preciso custo
Sugestes: 1. Construir um modelo com boa"validade de rosto"; 2. Validar as hipteses do modelo; 3. Comparar as transformaes entrada-sada do modelo com as transformaes entrada-sada do sistema.
41
4. Anlise de Dados
"Validade de rosto": Qualidade de "parecer razovel" do ponto de vista dos usurios e dos conhecedores do sistema; Os potenciais usurios devem preferencialmente estar envolvidos desde a conceitualizao at a implementao do modelo; Usurios e conhecedores podem tambm ajudar a identificar deficincias no modelo; A credibilidade final do simulador essencial para basear tomadas de deciso; Teste: Anlise de Sensibilidade Se variveis de entrada forem alteradas, as sadas variam conformemente ?
(aspecto importante: seleo das relaes entrada-sada a serem testadas)
42
4. Anlise de Dados
Validao das hipteses do modelo: Estruturais Hipteses do modelo: Dados Estruturais: Envolvem simplificaes e abstraes da realidade; Verificadas por observao do sistema nos perodos apropriados e com conhecedores do sistema. Dados: As hipteses sobre os dados devem ser baseadas em coleta de dados confiveis e anlise estatstica correta; Deve-se tomar cuidado para garantir a no-correlao dos dados tratados; Os procedimentos para fundamentar e analisar as hipteses sobre os dados foram tratados anteriormente.
43
4. Anlise de Dados
Validao das transformaes Entrada-Sada Nesta fase o modelo visto como uma transformao entrada-sada. Tcnica: predio do passado Usar dados passados (diferentes daqueles usados para calibrar o sistema) ao fazer uma validao final.
1a alternativa: Coletar dados de entrada e calcular as respectivas sadas; Gerar, via modelo, dados de entrada e obter sadas; Comparar estatisticamente as sadas reais com as sadas simuladas (testes de hiptese).
44
4. Anlise de Dados
Exemplo:
entradas observadas
Sistema Real
entradas geradas
Modelo
sadas
Teste de hiptese: as sadas calculadas (p. ex. E[S]) e as sadas obtidas pelo modelo tem a mesma distribuio?
45
4. Anlise de Dados
2a alternativa: Utilizar os dados observados como entradas do modelo e calcular as sadas; Comparar estatisticamente (teste de hiptese) com as respectivas sadas calculadas no sistema real.
3a alternativa: Teste de Turing: Comparao, por conhecedores do sistema, de resultados reais resultados simulados Exemplo: 5 simulaes 10 relatrios usuais: (embaralhados) 5 reais
Se um especialista reconhecer um nmero significativo de relatrios obtidos via simulao: rever o modelo
46
4. Anlise de Dados
Anlise de Dados de Sada Um aspecto fundamental para a anlise estattica de dados que os valores sejam independentes. Numa sequncia: Y1, Y2, ..., Yk, ..., Yn, se: cov[Yi, Yi+p] = E[(Yi Y) (Yi+p Y)] 0 ento a estimativa da varincia ser polarizada.
1 n 2 = n 1 (Yk Y ) k =1
47
4. Anlise de Dados
Em geral, as simulaes podem ser divididas em: a) Simulaes terminantes: Simulaes que tem uma finalizao bem definida: tempo evento estado b) Simulaes no-terminantes: Simulaes sem final definido, estando o intersse em analisar o funcionamento em regime do sistema. Deseja-se por exemplo estimar parmetros de distribuies estacionrias. condies iniciais Dificuldades: regra de parada no h regras rigorosas
48
4. Anlise de Dados
Simulaes terminantes Sejam X1, X2, ..., Xk, ..., XM, medidas de algum parmetro de intersse numa simulao. Em geral, esta sequncia no i.i.d. e uma estimativa (p. ex. da mdia) da sequncia seria polarizada. Pode-se estar interessado numa funo de M medidas L(X1, X2, ..., Xk, ..., XM). Esta funo pode inclusive ser a mdia. A pergunta : como estimar L ? Uma tcnica usual so as "replicaes independentes"
49
4. Anlise de Dados
Calcula-se L(X1, X2, ..., Xk, ..., XM) para N simulaes diferentes: mesmas condies iniciais; diferentes sequncias de v.a.'s
(variam-se aleatoriamente as sementes)
L
j=1
50
4. Anlise de Dados
Simulaes no-terminantes Nesse caso, em geral, deseja-se conhecer algum parmetro referente ao comportamento de alguma sequncia em regime (se o regime existir). X1, X2, ..., Xk, ... Quanto maior o nmero de amostras, melhor o resultado, contudo o nmero deve ser finito. Uma tcnica para melhorar a anlise deste tipo de sada eliminar dados no incio da simulao:
51
4. Anlise de Dados
Xi,j
M
(j-sima simulao)
Xr,j
r eliminado
j = 1,L , n
1 m Lj = X i, j ; m r i =r +1
1 = n
L
j=1
52
4. Anlise de Dados
Mdia de bateladas (tcnica mais simples, porm menos segura) Uma nica simulao (mais longa) realizada e somente um perodo de "warm-up" considerado; as estimativas de Lj so obtidas de dados sequenciais. Xi
eliminado
bat_1
bat_2
r + jm
...
j = 1,L , n
bat_n
1 Lj = Xi ; m i= r + ( j1) m+1
1 = n
L
j=1
53