Sistema de AD y Tolerantes A Fallos

Curso: Administracin de Servicios de Red 2
Sesiones 8 al 9
Unidad 4: Sistemas de Alta

Disponibilidad y Tolerantes a Fallos
UPC
2014
Administracin Servicios Red 2
Objetivos de la Unidad
Desarrollar la terminologa y los conceptos necesarios
para realizar una adecuada Gestin de los Sistemas de
Tolerancia a Fallos.
Conocer como disear los sistemas de tolerancia a
fallos.
Comprender los principales mtodos y controles
para implementar sistemas de tolerancia a fallos.
reas de Conocimiento
Terminologa preliminar
Estrategias de tolerancia a fallos
Grados de tolerancia a fallos

Priorizacin de procesos y servicios
Tiempos de recuperacin (RTO, RPO)

Mtodos de tolerancia a fallos
Situacin Actual
Fuente: Universidad Autnoma de Barcelona
Servicio comprometido
Uptime de VISA
Visa Internacional tuvo 92 minutos sin servicio en los
ltimos 12 aos (99.998%).
Es probablemente la instalacin comercial ms segura
del mundo
5 minutos sin servicio significan dejar de procesar 55
millones de dlares en pagos.
10.000 transacciones por segundo
Qu es la Fiabilidad?
Segn el diccionario de la RAE se define como:
La probabilidad de buen funcionamiento de algo.
MTTF: Tiempo durante el cual el Sistema
pueda operar sin pararse
Estrategias para obtener Fiabilidad
10
Qu es un Sistema Tolerante a Fallos?

Un Sistema Tolerante a Fallos es aquel que
posee la capacidad interna para preservar la
ejecucin correcta de las tareas a pesar de la
ocurrencia de fallos de Hardware y/o Software
11
Cul es el Objetivo de la Tolerancia a Fallos?

Evitar el impacto de la avera presentado al
Sistema, incluso en presencia de fallos, es decir
tratar de conseguir que el Sistema o Servicio no
se paralice y siga funcionando.
La tolerancia a fallos se basa en la redundancia
12
FALLO / ERROR / AVERA (FEA)
13
Puede existir redundancia a

cualquier nivel?
Hardware
Software
Temporal
Informacin
14
Deteccin de Fallos
Se utilizan componentes adicionales para
detectar los fallos y recuperar el normal
funcionamiento del Servicio.
Se incrementa:
La complejidad del Sistema
Puede introducir fallos adicionales
El costo del Sistema
15
Grados de Tolerancia a Fallos
(1/3)
Tolerancia Completa (fail operational):

El sistema sigue funcionando, al menos durante
un tiempo, sin perder funcionalidad ni
prestaciones del Servicio.
Ejemplo:
Servicios Virtualizados bajo un entorno de
Enclousure de Servidores
16
(2/3)
Degradacin Aceptable (fail soft, graceful

degradation):
El sistema sigue funcionando, con una prdida
parcial de funcionalidad o prestaciones hasta la
reparacin del fallo.
Ejemplo:
Arreglo de Discos (RAID 5)
17
(3/3)
Parada Segura (fail safe):

El sistema se detiene en un estado que asegura
la integridad del entorno hasta que se repare el
fallo.
Ejemplo:
Falla del ventilador del CPU
18
Qu Grado de Tolerancia a
Fallos debemos utilizar?
Depender del Sistema o Servicio afectado
Sistema
Misin Crtica
Vital
Importante
19
Limitaciones de la Prevencin de Fallas

Los componentes de HW fallan a pesar de los
mecanismos de prevencin implementados.
La prevencin podra ser insuficiente si:
La frecuencia y la duracin de las reparaciones es
inaceptable.
No se puede detener el Sistema o Servicio para
efectuar operaciones de mantenimiento.
20
Qu hacer ante las limitaciones de la

Prevencin de Fallas ?
Utilizar tcnicas de Tolerancia a Fallos.
Tcnicas de Tolerancia a Fallos: la capacidad de un
Sistema o Servicio de comportarse de una forma
previamente definida a pesar de la ocurrencia de un
fallo.
Ejemplos:
Naves espaciales tripuladas y no tripuladas
Aviones Comerciales
Centros de Cmputo Alterno
21
22
Diseo de Sistemas Tolerantes a Fallos
Por donde empezar?
23
1ero. Qu queremos proteger?
24
Funciones y Procesos
(1/2)
Una funcin es una unidad especializada en la realizacin de

una cierta actividad y es la responsable de su resultado. Las
funciones incorporan todos los recursos y capacidades
necesarias para el correcto desarrollo de dicha actividad.
Funcin o Macroproceso
Fuente: ITIL V3
25
Funciones y Procesos
(2/2)
Un proceso es un conjunto de actividades interrelacionadas

orientadas a cumplir un objetivo especfico.
Procesos
Fuente: ITIL V3
26
EJERCICIO 1 :
IDENTIFICANDO PROCESOS Y SERVICIOS
CRTICOS DE TI
27
Ejercicio 1: Priorizacin de Procesos y

Servicios de TI
Servicios de
TI
Tipo de
Procesos
Objetivos
Empresa
Priorizacin
Procesos
Crticos
28
2do. De qu queremos protegerlos?

i.
Identificar todos los posibles fallos
ii.
Evaluar las tcnicas existentes de Tolerancia a Fallos:

a. Fallos que se pueden anticipar (Predictivos)
b. Fallos que no se pueden anticipar (Recuperacin)
29
EJERCICIO 2:
DEFINICIN DE POSIBLES FALLOS
30
Ejercicio 2: Amenazas y
Vulnerabilidades posibles de Fallos
Propietario
Servicio
Vulnerabilidades
Potenciales
Amenazas
Controles
Servicios de
TI
Recursos
31
32
Tiempos de Tolerancia requeridos

3ro. Que Niveles de Servicio se requiere?
i.
Identificar el RPO
ii.
Determinar el RTO
33
TIEMPOS DE RECUPERACIN
RPO
RTO
Cuanto ms bajo sea el tiempo de

recuperacin requerido (RTO), mayor ser
el costo de las estrategias de recuperacin
Fuente: www.quadrasystems.net
34
RPO y RTO
(1/3)
o Punto Objetivo de Recuperacin (RPO)

Se determina en base a la prdida aceptable de datos.
Indica el punto ms prximo en el tiempo en el cual es
aceptable recuperar los datos (ltimo Backup de Datos
disponible en la empresa)
o Tiempo Objetivo de Recuperacin (RTO)
Basado en el tiempo improductivo aceptable
Tiempo mximo tolerable que una organizacin puede
permitirse estar sin un sistema o servicio especfico.
35
RPO y RTO
(2/3)
$$
perdida
operacional
Nivel de perdida
aceptable
RPO
t1
RTO
Tiempo de
Recuperacin de
Operacin
36
RPO y RTO
(3/3)
En conclusin se puede decir:

Las perdidas operacionales son directamente
proporcionales al tiempo de recuperacin.
Si el tiempo de recuperacin aumenta, las
perdidas se incrementarn en forma
proporcional.
37
Objetivo Tiempo de Recuperacin

(RTO)
o Periodo de tiempo en que los sistemas, aplicaciones, procesos o
funciones deben ser recuperados despus de una interrupcin
o Los RTO son usados siempre como la base para:
Definir prioridades de recuperacin
Desarrollar estrategias de recuperacin
Determinar cuando un evento se convierte o no en un desastre.
o Consideran trabajo acumulado (datos manuales, procesos y
sistemas requeridos)
38
Objetivo Punto de Recuperacin (RPO)

o Prdida potencial de transacciones
Procesos Manuales
Capacidades operacionales provisionales
o Objetivo de punto de recuperacin en el

tiempo.
o Ultimo Backup de Datos disponible
o Prdida Tolerable de Datos
39
EJERCICIO 3:
DEFINICIN DE LOS NIVELES DE SERVICIO
40
Ejercicio 3: Niveles de Servicio

Procesos
RTO
RPO
Criticidad
Niveles de
Servicio
SISTEMAS
Priorizar
41
42
Mtodos de Recuperacin
I. Backup de Datos
II. Sitios Alternos
III. RAID, Mirrored Systems
IV. SLAS
V. UPS, Generadores, Grupo Electrgeno
VI. Redundancia de Telecomunicaciones
VII.Equipos de reemplazo
43
Estrategias de Recuperacin para

Servicios de TI (1/10)
Mtodos de Backup:
Frecuencia: segn poltica definida
Procedimiento: localizacin almacenamiento de
dispositivos, rotulado, rotacin medias, mtodo de
transporte offsite.
Dispositivos: discos magnticos, cintas, dvds, etc.

Mtodos a utilizar: SAN, RAID, Mirrored Disks,
Virtualizacin.
44

Almacenamiento de Backup Offsite - criterios:
Area Geogrfica
Accesibilidad
Seguridad
Entorno y Ambiente
Costos
45

Sitios Alternos tres tipos disponibles
Sitio propio dedicado u operado por la organizacin
Acuerdo o Contrato Recproco con entidad interna o externa

Centro alterno alquilado
46

Sitios Alternos basados en su disponibilidad operacional:
Cold Sites
Warm Sites
- Tiempo
Hot Sites
- Costo
Mobile Sites
Mirrored Sites
Fuente: NIST SP 800-34
47

Acuerdos de Nivel de Servicio (SLAs) or Memorandum of Agreement
(MOA):
o Duracin del contrato o acuerdo
o Declaracin del Desastre
o Disponibilidad del Site
o Garanta del Site
o Otros clientes accediendo a los mismos recursos compartidos
o Requerimientos de areas de trabajo (sillas, escritorio, pcs, telefono, etc.)
48

Equipamiento de Reemplazo:
Si los Sistemas de TI son daados o destruidos o el
sitio principal de la organizacin deja de estar
disponible, ser necesario contar con el hardware
y software requerido o proveer la entrega

inmediata de dicho equipamiento al sitio alterno
establecido.
49

Existen 3 Estrategias bsicas para preparar el equipamiento de
reemplazo:
o Contratos con Proveedores
o Stock de Equipos
o Equipo compatible existente
50

Contrato con Proveedores:
SLAs de Hw, Sw y Servicios de Soporte
Tiempos de Respuesta definidos
Prioridad de entrega y envo de equipos.
Prioridad de atencin de multiples clientes en casos de

desastres presentados.
SLAs alineados con el Plan de Contingencia TI
51

Stock de Equipos:
Adquisicin de Equipo de Contingencia (spare or backup
hardware)
Almacenamiento en sitio alterno seguro.
Presupuesto necesario y aprobado por la Direccin
Actualizacin de Hardware por renovar
52

Equipo compatible existente:
Equipamiento disponible en servicio de Hot Site podra
ser utilizado por la organizacin.
Equipamiento disponible en diferentes sites de la
empresa podran ser utilizados en emergencias.

Establecer Acuerdos de Servicios con entidades internas
o externas
53
Criterios de Decisin de Estrategias

para Sitios Alternos
Sitio Alterno
Cold Site
Warm Site
Hot Site
Mobile Site
Mirrored Site
Tiempo de
Hardware
Telecom
Ubicacin
Ninguno
Ninguno
Fija
Largo
Bajo
Parcial
Parcial
Fija
Mediano
Medio
Full
Full
Fija
Corto
Alto
Dependiente
Dependiente
Variable
Dependiente
Alto
Full
Full
Fija
Ninguna
Alto
Recuperacin
Costo
54
55
Conclusiones de la Unidad
i.
Conocido como aquel Sistema que posee la capacidad interna para

preservar la ejecucin correcta de las tareas a pesar de la ocurrencia
de fallos de Hardware o Software :
ii.
Es aquel Grado de Tolerancia a Fallos en la que el sistema se

detiene en un estado que asegura la integridad del entorno hasta que
se repare el fallo :
iii. Periodo de tiempo en que los sistemas, aplicaciones, procesos o

funciones deben ser recuperados despus de una interrupcin o
avera presentada.
56
57
Muchas
Gracias
58

Sistema de AD y Tolerantes A Fallos

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Sistema de AD y Tolerantes A Fallos

Transféré par

Droits d'auteur :

Formats disponibles

Curso: Administracin de Servicios de Red 2

Unidad 4: Sistemas de Alta

Administracin Servicios Red 2

Administracin Servicios Red 2

Grados de tolerancia a fallos

Tiempos de recuperacin (RTO, RPO)

Administracin Servicios Red 2

Fuente: Universidad Autnoma de Barcelona

Administracin Servicios Red 2

Fuente: Universidad Autnoma de Barcelona

Administracin Servicios Red 2

Administracin Servicios Red 2

Administracin Servicios Red 2

Estrategias para obtener Fiabilidad

Fuente: Universidad Autnoma de Barcelona

Administracin Servicios Red 2

Qu es un Sistema Tolerante a Fallos?

Administracin Servicios Red 2

Cul es el Objetivo de la Tolerancia a Fallos?

Administracin Servicios Red 2

FALLO / ERROR / AVERA (FEA)

Fuente: Universidad Autnoma de Barcelona

Administracin Servicios Red 2

Puede existir redundancia a

Administracin Servicios Red 2

Grados de Tolerancia a Fallos

Tolerancia Completa (fail operational):

Administracin Servicios Red 2

Grados de Tolerancia a Fallos

Degradacin Aceptable (fail soft, graceful

Administracin Servicios Red 2

Grados de Tolerancia a Fallos

Parada Segura (fail safe):

Administracin Servicios Red 2

Administracin Servicios Red 2

Limitaciones de la Prevencin de Fallas

Administracin Servicios Red 2

Qu hacer ante las limitaciones de la

Administracin Servicios Red 2

Diseo de Sistemas Tolerantes a Fallos

Por donde empezar?

Administracin Servicios Red 2

Diseo de Sistemas Tolerantes a Fallos

1ero. Qu queremos proteger?

Administracin Servicios Red 2

Una funcin es una unidad especializada en la realizacin de

Administracin Servicios Red 2

Un proceso es un conjunto de actividades interrelacionadas

Administracin Servicios Red 2

Administracin Servicios Red 2

Ejercicio 1: Priorizacin de Procesos y

Administracin Servicios Red 2

Diseo de Sistemas Tolerantes a Fallos

2do. De qu queremos protegerlos?

Identificar todos los posibles fallos

Evaluar las tcnicas existentes de Tolerancia a Fallos:

Administracin Servicios Red 2

Administracin Servicios Red 2

Administracin Servicios Red 2

Administracin Servicios Red 2

Tiempos de Tolerancia requeridos

Administracin Servicios Red 2

Cuanto ms bajo sea el tiempo de