Vous êtes sur la page 1sur 58

Curso: Administracin de Servicios de Red 2

Sesiones 8 al 9

Unidad 4: Sistemas de Alta


Disponibilidad y Tolerantes a Fallos
UPC
2014

Administracin Servicios Red 2

Objetivos de la Unidad
Desarrollar la terminologa y los conceptos necesarios
para realizar una adecuada Gestin de los Sistemas de
Tolerancia a Fallos.
Conocer como disear los sistemas de tolerancia a
fallos.
Comprender los principales mtodos y controles
para implementar sistemas de tolerancia a fallos.

Administracin Servicios Red 2

reas de Conocimiento
Terminologa preliminar
Estrategias de tolerancia a fallos

Grados de tolerancia a fallos


Priorizacin de procesos y servicios

Tiempos de recuperacin (RTO, RPO)


Mtodos de tolerancia a fallos
Administracin Servicios Red 2

Administracin Servicios Red 2

Situacin Actual

Fuente: Universidad Autnoma de Barcelona

Administracin Servicios Red 2

Servicio comprometido

Fuente: Universidad Autnoma de Barcelona

Administracin Servicios Red 2

Uptime de VISA
Visa Internacional tuvo 92 minutos sin servicio en los
ltimos 12 aos (99.998%).
Es probablemente la instalacin comercial ms segura
del mundo
5 minutos sin servicio significan dejar de procesar 55
millones de dlares en pagos.
10.000 transacciones por segundo
Fuente: Universidad Autnoma de Barcelona

Administracin Servicios Red 2

Qu es la Fiabilidad?
Segn el diccionario de la RAE se define como:
La probabilidad de buen funcionamiento de algo.
MTTF: Tiempo durante el cual el Sistema
pueda operar sin pararse

Administracin Servicios Red 2

Estrategias para obtener Fiabilidad

Fuente: Universidad Autnoma de Barcelona

Administracin Servicios Red 2

10

Qu es un Sistema Tolerante a Fallos?


Un Sistema Tolerante a Fallos es aquel que
posee la capacidad interna para preservar la
ejecucin correcta de las tareas a pesar de la
ocurrencia de fallos de Hardware y/o Software

Administracin Servicios Red 2

11

Cul es el Objetivo de la Tolerancia a Fallos?


Evitar el impacto de la avera presentado al
Sistema, incluso en presencia de fallos, es decir
tratar de conseguir que el Sistema o Servicio no
se paralice y siga funcionando.
La tolerancia a fallos se basa en la redundancia

Administracin Servicios Red 2

12

FALLO / ERROR / AVERA (FEA)

Fuente: Universidad Autnoma de Barcelona

Administracin Servicios Red 2

13

Puede existir redundancia a


cualquier nivel?
Hardware

Software

Temporal

Informacin
Administracin Servicios Red 2

14

Deteccin de Fallos
Se utilizan componentes adicionales para
detectar los fallos y recuperar el normal
funcionamiento del Servicio.
Se incrementa:
La complejidad del Sistema
Puede introducir fallos adicionales
El costo del Sistema

Administracin Servicios Red 2

15

Grados de Tolerancia a Fallos

(1/3)

Tolerancia Completa (fail operational):


El sistema sigue funcionando, al menos durante
un tiempo, sin perder funcionalidad ni
prestaciones del Servicio.
Ejemplo:
Servicios Virtualizados bajo un entorno de
Enclousure de Servidores

Administracin Servicios Red 2

16

Grados de Tolerancia a Fallos

(2/3)

Degradacin Aceptable (fail soft, graceful


degradation):
El sistema sigue funcionando, con una prdida
parcial de funcionalidad o prestaciones hasta la
reparacin del fallo.
Ejemplo:
Arreglo de Discos (RAID 5)

Administracin Servicios Red 2

17

Grados de Tolerancia a Fallos

(3/3)

Parada Segura (fail safe):


El sistema se detiene en un estado que asegura
la integridad del entorno hasta que se repare el
fallo.

Ejemplo:
Falla del ventilador del CPU

Administracin Servicios Red 2

18

Qu Grado de Tolerancia a
Fallos debemos utilizar?
Depender del Sistema o Servicio afectado
Sistema

Misin Crtica

Vital

Administracin Servicios Red 2

Importante

19

Limitaciones de la Prevencin de Fallas


Los componentes de HW fallan a pesar de los
mecanismos de prevencin implementados.
La prevencin podra ser insuficiente si:
La frecuencia y la duracin de las reparaciones es
inaceptable.
No se puede detener el Sistema o Servicio para
efectuar operaciones de mantenimiento.

Administracin Servicios Red 2

20

Qu hacer ante las limitaciones de la


Prevencin de Fallas ?
Utilizar tcnicas de Tolerancia a Fallos.
Tcnicas de Tolerancia a Fallos: la capacidad de un
Sistema o Servicio de comportarse de una forma
previamente definida a pesar de la ocurrencia de un
fallo.
Ejemplos:
Naves espaciales tripuladas y no tripuladas
Aviones Comerciales
Centros de Cmputo Alterno
Administracin Servicios Red 2

21

Administracin Servicios Red 2

22

Diseo de Sistemas Tolerantes a Fallos

Por donde empezar?

Administracin Servicios Red 2

23

Diseo de Sistemas Tolerantes a Fallos

1ero. Qu queremos proteger?

Administracin Servicios Red 2

24

Funciones y Procesos

(1/2)

Una funcin es una unidad especializada en la realizacin de


una cierta actividad y es la responsable de su resultado. Las
funciones incorporan todos los recursos y capacidades
necesarias para el correcto desarrollo de dicha actividad.

Funcin o Macroproceso

Fuente: ITIL V3

Administracin Servicios Red 2

25

Funciones y Procesos

(2/2)

Un proceso es un conjunto de actividades interrelacionadas


orientadas a cumplir un objetivo especfico.

Procesos

Fuente: ITIL V3

Administracin Servicios Red 2

26

EJERCICIO 1 :
IDENTIFICANDO PROCESOS Y SERVICIOS
CRTICOS DE TI

Administracin Servicios Red 2

27

Ejercicio 1: Priorizacin de Procesos y


Servicios de TI
Servicios de
TI

Tipo de
Procesos

Objetivos
Empresa

Priorizacin
Procesos
Crticos

Administracin Servicios Red 2

28

Diseo de Sistemas Tolerantes a Fallos

2do. De qu queremos protegerlos?


i.

Identificar todos los posibles fallos

ii.

Evaluar las tcnicas existentes de Tolerancia a Fallos:


a. Fallos que se pueden anticipar (Predictivos)
b. Fallos que no se pueden anticipar (Recuperacin)

Administracin Servicios Red 2

29

EJERCICIO 2:
DEFINICIN DE POSIBLES FALLOS

Administracin Servicios Red 2

30

Ejercicio 2: Amenazas y
Vulnerabilidades posibles de Fallos
Propietario
Servicio
Vulnerabilidades

Potenciales
Amenazas

Controles

Servicios de
TI

Administracin Servicios Red 2

Recursos

31

Administracin Servicios Red 2

32

Tiempos de Tolerancia requeridos


3ro. Que Niveles de Servicio se requiere?
i.

Identificar el RPO

ii.

Determinar el RTO

Administracin Servicios Red 2

33

TIEMPOS DE RECUPERACIN

RPO

RTO

Cuanto ms bajo sea el tiempo de


recuperacin requerido (RTO), mayor ser
el costo de las estrategias de recuperacin
Fuente: www.quadrasystems.net

Administracin Servicios Red 2

34

RPO y RTO

(1/3)

o Punto Objetivo de Recuperacin (RPO)


Se determina en base a la prdida aceptable de datos.
Indica el punto ms prximo en el tiempo en el cual es
aceptable recuperar los datos (ltimo Backup de Datos
disponible en la empresa)
o Tiempo Objetivo de Recuperacin (RTO)
Basado en el tiempo improductivo aceptable
Tiempo mximo tolerable que una organizacin puede
permitirse estar sin un sistema o servicio especfico.
Administracin Servicios Red 2

35

RPO y RTO

(2/3)

$$
perdida
operacional

Nivel de perdida
aceptable

RPO
t1
RTO
Administracin Servicios Red 2

Tiempo de
Recuperacin de
Operacin
36

RPO y RTO

(3/3)

En conclusin se puede decir:


Las perdidas operacionales son directamente
proporcionales al tiempo de recuperacin.
Si el tiempo de recuperacin aumenta, las
perdidas se incrementarn en forma
proporcional.
Administracin Servicios Red 2

37

Objetivo Tiempo de Recuperacin


(RTO)
o Periodo de tiempo en que los sistemas, aplicaciones, procesos o
funciones deben ser recuperados despus de una interrupcin
o Los RTO son usados siempre como la base para:
Definir prioridades de recuperacin
Desarrollar estrategias de recuperacin
Determinar cuando un evento se convierte o no en un desastre.
o Consideran trabajo acumulado (datos manuales, procesos y

sistemas requeridos)
Administracin Servicios Red 2

38

Objetivo Punto de Recuperacin (RPO)


o Prdida potencial de transacciones
Procesos Manuales
Capacidades operacionales provisionales

o Objetivo de punto de recuperacin en el


tiempo.
o Ultimo Backup de Datos disponible
o Prdida Tolerable de Datos
Administracin Servicios Red 2

39

EJERCICIO 3:
DEFINICIN DE LOS NIVELES DE SERVICIO

Administracin Servicios Red 2

40

Ejercicio 3: Niveles de Servicio


Procesos
RTO

RPO

Criticidad

Niveles de
Servicio

SISTEMAS

Administracin Servicios Red 2

Priorizar

41

Administracin Servicios Red 2

42

Mtodos de Recuperacin
I. Backup de Datos
II. Sitios Alternos
III. RAID, Mirrored Systems
IV. SLAS
V. UPS, Generadores, Grupo Electrgeno
VI. Redundancia de Telecomunicaciones
VII.Equipos de reemplazo
Administracin Servicios Red 2

43

Estrategias de Recuperacin para


Servicios de TI (1/10)
Mtodos de Backup:
Frecuencia: segn poltica definida
Procedimiento: localizacin almacenamiento de
dispositivos, rotulado, rotacin medias, mtodo de
transporte offsite.

Dispositivos: discos magnticos, cintas, dvds, etc.


Mtodos a utilizar: SAN, RAID, Mirrored Disks,
Virtualizacin.

Administracin Servicios Red 2

44

Estrategias de Recuperacin para


Servicios de TI (2/10)
Almacenamiento de Backup Offsite - criterios:
Area Geogrfica
Accesibilidad
Seguridad
Entorno y Ambiente

Costos

Administracin Servicios Red 2

45

Estrategias de Recuperacin para


Servicios de TI (3/10)
Sitios Alternos tres tipos disponibles
Sitio propio dedicado u operado por la organizacin

Acuerdo o Contrato Recproco con entidad interna o externa


Centro alterno alquilado

Administracin Servicios Red 2

46

Estrategias de Recuperacin para


Servicios de TI (4/10)
Sitios Alternos basados en su disponibilidad operacional:

Cold Sites
Warm Sites

- Tiempo

Hot Sites

- Costo

Mobile Sites

Mirrored Sites

Fuente: NIST SP 800-34

Administracin Servicios Red 2

47

Estrategias de Recuperacin para


Servicios de TI (5/10)
Acuerdos de Nivel de Servicio (SLAs) or Memorandum of Agreement
(MOA):
o Duracin del contrato o acuerdo
o Declaracin del Desastre
o Disponibilidad del Site
o Garanta del Site
o Otros clientes accediendo a los mismos recursos compartidos
o Requerimientos de areas de trabajo (sillas, escritorio, pcs, telefono, etc.)
Administracin Servicios Red 2

48

Estrategias de Recuperacin para


Servicios de TI (6/10)
Equipamiento de Reemplazo:
Si los Sistemas de TI son daados o destruidos o el
sitio principal de la organizacin deja de estar
disponible, ser necesario contar con el hardware

y software requerido o proveer la entrega


inmediata de dicho equipamiento al sitio alterno
establecido.
Administracin Servicios Red 2

49

Estrategias de Recuperacin para


Servicios de TI (7/10)
Existen 3 Estrategias bsicas para preparar el equipamiento de

reemplazo:

o Contratos con Proveedores

o Stock de Equipos
o Equipo compatible existente
Administracin Servicios Red 2

50

Estrategias de Recuperacin para


Servicios de TI (8/10)
Contrato con Proveedores:
SLAs de Hw, Sw y Servicios de Soporte
Tiempos de Respuesta definidos
Prioridad de entrega y envo de equipos.

Prioridad de atencin de multiples clientes en casos de


desastres presentados.
SLAs alineados con el Plan de Contingencia TI
Administracin Servicios Red 2

51

Estrategias de Recuperacin para


Servicios de TI (9/10)
Stock de Equipos:
Adquisicin de Equipo de Contingencia (spare or backup
hardware)
Almacenamiento en sitio alterno seguro.
Presupuesto necesario y aprobado por la Direccin
Actualizacin de Hardware por renovar
Administracin Servicios Red 2

52

Estrategias de Recuperacin para


Servicios de TI (10/10)
Equipo compatible existente:
Equipamiento disponible en servicio de Hot Site podra
ser utilizado por la organizacin.
Equipamiento disponible en diferentes sites de la

empresa podran ser utilizados en emergencias.


Establecer Acuerdos de Servicios con entidades internas
o externas
Administracin Servicios Red 2

53

Criterios de Decisin de Estrategias


para Sitios Alternos
Sitio Alterno

Cold Site
Warm Site
Hot Site
Mobile Site

Mirrored Site

Tiempo de

Hardware

Telecom

Ubicacin

Ninguno

Ninguno

Fija

Largo

Bajo

Parcial

Parcial

Fija

Mediano

Medio

Full

Full

Fija

Corto

Alto

Dependiente

Dependiente

Variable

Dependiente

Alto

Full

Full

Fija

Ninguna

Alto

Administracin Servicios Red 2

Recuperacin

Costo

54

Administracin Servicios Red 2

55

Conclusiones de la Unidad
i.

Conocido como aquel Sistema que posee la capacidad interna para


preservar la ejecucin correcta de las tareas a pesar de la ocurrencia
de fallos de Hardware o Software :

ii.

Es aquel Grado de Tolerancia a Fallos en la que el sistema se


detiene en un estado que asegura la integridad del entorno hasta que
se repare el fallo :

iii. Periodo de tiempo en que los sistemas, aplicaciones, procesos o


funciones deben ser recuperados despus de una interrupcin o
avera presentada.
Administracin Servicios Red 2

56

Administracin Servicios Red 2

57

Muchas
Gracias

Administracin Servicios Red 2

58

Vous aimerez peut-être aussi