Académique Documents
Professionnel Documents
Culture Documents
Tolerância a Falhas
Graduação: CIC e ECP
Taisy Silva Weber
2002
Bibliografia básica
y Pradhan, D. K.
• Fault-Tolerant System Design.
• Prentice Hall, New Jersey, 1996.
y Jalote, P.
• Fault tolerance in distributed systems.
• Prentice Hall, Englewood Cliffs, New Jersey, 1994.
y Birman, K.
• Building secure and reliable network applications.
• Manning Publications Co, Geenwich, 1996
y Notas de aula disponível para download
http://www.cs.cornell.edu/ken/book.pdf
Taisy Weber 2
Conteúdo da disciplina
y Conceitos básicos de tolerância a falhas
x atributos e medidas: dependabilidade, confiabilidade,
disponibilidade e outros
x redundância arquiteturas
convencionais,
x aplicações de TF servidores de rede,
clusters de alta
y Arquiteturas tolerantes a falhas disponibilidade
y TF em sistemas distribuídos
x Difusão confiável e de grupo. Recuperação de
processos. Replicação de dados. Validação.
Taisy Weber 3
Motivação para tolerância a falhas
capacidade de manter o serviço desejado
mesmo na presença de falhas
evitar que o usuário do serviço seja o
componente tolerante a falhas do sistema
Taisy Weber 4
Desafios atuais
y bugs no projeto de hardware e software
• altíssima complexidade dos sistemas
y paralelismo em alta escala
• uso de novas tecnologias (não provadas)
y sistemas distribuídos
• para sistemas críticos
• para operação em tempo real
y computadores móveis
• baixa potência
– difícil usar replicação de componentes
Taisy Weber 5
Dependabilidade vs desempenho
dependabilidade
sistemas
ultra
confiáveis
sistemas
comerciais objetivo
tolerantes a
falhas
sistemas altamente
paralelos e sistemas
distribuídos
PC
z nesse item:
y Falha, erro, defeito
y Falhas
y Dependabilidade
y Atributos de dependabilidade
y Exemplos de áreas de aplicação
y Técnicas de TF
Taisy Weber 8
Conceitos básicos
y falha, erro e defeito
y atributos
x dependabilidade, confiabilidade, disponibilidade e
outros
y redundância Barry Johnson,
y aplicações de TF cap. 1, livro do Pradhan
Taisy Weber 10
Falha versus erro
subsistema
falha
falha erro defeito
sistema
Taisy Weber 11
falha (falta) → erro → defeito
processamento posterior
pode levar a defeito
universo da
informação
universo físico
falha
erro defeito
Taisy Weber 12
Latência
z latência de falha
x período de tempo desde a ocorrência da falha até a
manifestação do erro devido aquela falha
z latência de erro
x período de tempo desde a ocorrência do erro até a
manifestação do defeito devido aquele erro
falha
erro defeito
latência de falha latência de erro
Taisy Weber 13
Falhas
z falhas físicas confiabilidade sempre
foi um problema de
y permanentes engenharia, assim
falhas físicas, que
y temporárias intermitentes afetam diretamente o
transitórias hardware,
tradicionalmente vem
z humanas recebendo atenção
especial
y falhas de projeto
falhas são inevitáveis
intencionais
y interação não intencionais
Taisy Weber 14
Causas de falhas
z problemas de especificação
z problemas de implementação
z componentes defeituosos
x imperfeições de manufatura
x fadiga
z distúrbios externos
x radiação, interferência eletromagnética, variações
ambientais (temperatura, pressão, umidade),
problemas de operação
falhas são inevitáveis
Taisy Weber 15
Descrição de falhas
z natureza
y falha de hardware, falha de software, etc..
z duração
y permanente ou temporária
z extensão
y local a um módulo, global
z valor
y determinado ou indeterminado no tempo
Taisy Weber 16
Objetivo de TF
z alcançar dependabilidade
y dependabilidade (dependability)
x qualidade do serviço fornecido por um dado sistema
x confiança no serviço fornecido adiante veremos mais
detalhes sobre
y atributos (medidas): medidas
Taisy Weber 18
Confiabilidade
Taisy Weber 21
Outros atributos
sistema continua a operar, mas
y performability com queda de desempenho
x relacionado a queda de desempenho provocada por
falhas
y mantenabilidade
x facilidade de realizar a manutenção do sistema
• probabilidade que um sistema com defeitos seja restaurado a
um estado operacional dentro de um período t
y testabilidade
• capacidade de testar certos atributos internos ao sistema
• facilidade de realizar certos testes
• relacionada a mantenabilidade
Taisy Weber 22
Performability
y P(L,t)
x probabilidade que o desempenho do sistema seja no
mínimo L no instante de tempo t
Taisy Weber 23
Mantenabilidade
Taisy Weber 24
Testabilidade
z aplicações críticas:
x segurança humana, proteção de equipamento ou
segurança do meio ambiente
y áreas:
freqüentemente de tempo real
x controle de tráfego aéreo
x sistemas militares
x controle de plantas industriais
y exemplos:
• Space Shuttle
• controladores industriais programáveis
Taisy Weber 27
Alta disponibilidade
Taisy Weber 29
Técnicas: validação
dependabilidade
remoção previsão
verificar a presença
de falhas e removê-las
Taisy Weber 30
Técnicas: prevenção
dependabilidade
remoção previsão
Taisy Weber 31
Técnicas: tolerância a falhas
dependabilidade
remoção previsão
Taisy Weber 32
Técnicas para alcançar
dependabilidade
dependabilidade
remoção previsão
evitar introduzir
falhas durante
estimar presença projeto e
de falhas e suas construção do fornecer serviço
conseqüências sistema esperado mesmo
na presença de
verificar presença falhas
de falhas e remover
Taisy Weber 33
Técnicas de TF
Taisy Weber 34
Técnicas de TF
z mascaramento
x falhas são mascaradas e não chegam a provocar defeito
Taisy Weber 35
Classificação
z outra classificação
x detecção, diagnóstico, confinamento, mascaramento,
compensação
Taisy Weber 36
Detecção
x duplicação e comparação
x testes de limites de tempo
• time-out, cão de guarda (watchdog timers)
x testes reversos
x codificação
x teste de razoabilidade tratamento
• limites ou compatibilidades
recuperação
x testes estruturais
• consistência confinamento e avaliação
x diagnóstico detecção
Taisy Weber 37
Duplicação e comparação
mesmos
dados de erro
COMPARADOR
entrada
Taisy Weber 38
Duplicação e comparação: software
detecção
leitura
escrita
processador A memória local de A
resultado resultado
de B COMPARAÇÃO de A
memória
compartilhada SINAL DE ERRO
SINAL DE ERRO
Taisy Weber 39
Confinamento e avaliação de danos
Taisy Weber 40
Mecanismos de
confinamento e avaliação
z confinamento:
y restrições ao fluxo de informações
x evitar fluxos acidentes
x estabelecer interfaces de verificação para detecção de
erros
z avaliação dos danos:
y estática: projeto inicial e hardware
y dinâmica: execução e software
Taisy Weber 41
Exemplos
z ações atômicas
x operações primitivas auto encapsuladas
x sem efeitos secundários
z isolamento de processos
x tudo que não é permitido é proibido
z hierarquia de processos
x clareza conceitual
z controle de recursos
Taisy Weber 42
Recuperação de erros
detecção
Taisy Weber 43
Recuperação
os dois grupos são compatíveis
z dois grupos
x retorno
condução a estado anterior estado anterior
P falha
rollback
x avanço
novo estado
condução a novo estado falha
P
avanço
Taisy Weber 44
Avanço
Taisy Weber 45
Retorno
Taisy Weber 46
Recuperação
Taisy Weber 47
Tratamento de falhas
recuperação
y hipótese de falha
confinamento e avaliação
x uma única falha de cada vez
detecção
Taisy Weber 48
Localização da falha
z duas fases:
y localização grosseira (módulo ou subsistema)
x deve ser rápida
y localização fina
x reparos de menor custo
z diagnóstico para localização da falha
x manual
x automático (componentes livres de falha são
responsáveis pela execução do teste)
Taisy Weber 49
Reparo da falha
Taisy Weber 50
Auto-reparo
z substituição automática
y sistemas com longo período de missão sem
possibilidade de reparo manual
y aplicação de redundância de componentes
x redundância dinâmica
x redundância híbrida
x redundância auto-eliminadora
Taisy Weber 51
Bibliografia para conceitos básicos
z capítulo de livro
y Johnson, Barry. An introduction to the design na analysis of the fault-
tolerante systems, cap 1. Fault-Tolerant System Design. Prentice Hall, New
Jersey, 1996
z artigos
y Avizenis. The four-universe information system model for the study of fault-
tolerance, FTCS 1982
y Laprie, Jean-Claude. Dependable Computing: Concepts, Limits, Challenges.
FTCS, 1995
y Jean-Claude Laprie - Dependability of Computer Systems: from Concepts to
Limits. DCIA 98, http://www.cs.wits.ac.za/research/workshop/ifip98.html
z livros
y Birman, K. Building secure and reliable network applications. Manning
Publications Co, Geenwich, 1996
Taisy Weber 52