Vous êtes sur la page 1sur 20

Universidad Central de Venezuela Facultad de Ciencias Escuela de Computacin

Las Redes y su Tolerancia a Fallas


Dr. Eddy Carrasco, Lic. Rogert Guevara

Diciembre 200

Las Redes y su Tolerancia a Fallas

!"TR#DUCC!#" Si Ud. va en su vehculo por una autopista y repentinamente siente que una llanta se ha da ado, lo primero que hace es ir a !uscar la llanta de repuesto en la maleta de su vehculo, de encontrarla en !uen estado, simplemente sustituye y continua con su via"e, pero que ocurre si no tiene, simplemente se queda accidentado hasta que alguien acuda ayudarlo. En el mundo de las redes corporativas de datos ocurren hechos similares, suceden #allas en muchos de sus componentes de $ard%are o de So#t%are, y si no estamos preparados, nos quedamos sin servicio por un tiempo indeterminado. &olerancia a 'allas (&') en una red signi#ica que si ocurre una #alla en uno de sus componentes, esta continuar* #uncionando, y se logra aplicando un con"unto de recomendaciones que se e+plicar*n posteriormente y de!en ser aplicados a cada uno de los componentes de la red. Las redes son 'le+i!les a 'allas, cuando al ocurrir alguna, esta de"a de #uncionar, pero al sustituir el componente a#ectado se restaura el servicio en un corto tiempo. Es !ueno aclarar tam!i,n que el hecho de seleccionar un componente con ciertas caractersticas de &olerancia a 'allas (e"e. Un Servidor), muchos creen que ya la Red es &olerante a 'allas, esto no es as, y es el o!"eto de este artculo, esta!lecer criterios y e+plicar a los dise adores de redes como de!en ser aplicados para disponer de un sistema &olerante a 'allas.

RECOMENDACIONES GENERALES PARA EL DISEO CORPORATIVAS DE DATOS TOLERANTES A FALLAS. -ara el dise o de una Red &' recomendamos cuatro pasos. Determinar la U!icaci/n Geogr*#ica. Seleccionar el 0edio de &ransmisi/n. Determinar la &opologa de la Red.

DE

REDES

1plicar recomendaciones de &' a cada uno de los componentes de la Red.

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

Las Redes y su Tolerancia a Fallas

$%L!C$R REC#&E"D$C!#"E' C#&%#"E"TE' DE L$ RED

DE

TF

C$D$

U"#

DE

L#'

Los principios que guan el dise o de redes tolerantes a #allas son simples. Dise ar e implantar todos los componentes m*s importantes de la red en una #orma totalmente redundante con la capacidad de continuar #uncionando si un evento de #alla se produce. Use componentes #le+i!les a #allas para minimi6ar componentes que #allen. Distri!uya los nodos de la red en una topologa matricial, con recuperaci/n ro!usta. Esto es que no haya dependencia so!re un solo punto de enlace omitido. 7o est, su"eto a #allas 8nicas de enlaces. 9nsistir so!re los est*ndares de la 9ndustria para todos los componentes, de manera de asegurar protecci/n a la inversi/n y la interopera!ilidad. Documente todos los componentes, as ellos podr*n ser administrados. Esta!le6ca una !uena :rgani6aci/n de Servicios en &ecnologa de la 9n#ormaci/n. Esta!le6ca esquemas de 0onitoreo y 1dministraci/n pro activa de la red. Dise ar relacionando Costos vs. 9mportancia de los Servicios para la :rgani6aci/n.

ANALISIS DE LOS COMPONENTES DE UNA RED TOLERANTE A FALLAS.


(or)station *('+ TF, Si no se aplica un control riguroso a las ;S, el n8mero de estas, con #allas en los servicios se incrementar*. Se recomienda llevar estadsticas desde el punto de vista de usuarios, como. &iempos de respuesta, reinicio de carga del sistema, errores de lnea, errores de protocolos, etc. -ene.icio del Control de las (', 0uchas #allas de las ;S est*n relacionadas con el So#t%are que se instala en ellas o en la red. So!re todo de!e evaluarse y medir el impacto del

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

<

Las Redes y su Tolerancia a Fallas

so#t%are antes de permitir su uso en la red. -or eso se de!en certi#icar los procesos y evaluarlos antes de implantarlos. &edidas preventivas para las (' Se pueden tomar medidas que permitan evitar que ocurran interrupciones en los servicios de las ;S, esto es proveer los mismos niveles de redundancia de los componentes crticos como los servidores. Estos niveles de redundancia de los componentes de hard%are internos de las ;S pueden ser muy costosos para instalarlos y mantenerlos, pero si las ;S y el usuario son de alta importancia y mane"an procesos crticos de la empresa, no hay dudas en considerarlos y reali6arlos. Recomendaciones/ De!e disponer de U-S para todas las ;S que considere crticas para la organi6aci/n. 9nstale do!le tar"eta de inter#a6 a la red en cada una de las ;S y conectarlas en segmentos separados de la red. 7o se de!e desestimar lo o!vio, un rat/n o un teclado se pueden da ar y generar inconvenientes innecesarios. Se de!e tener un =it de componentes de las ;S. 7o se de!e utili6ar el disquete como medio de respaldo, hay que emplear esquemas reales de respaldo. Realice el respaldo y veri#quelo. Certi#ique estos respaldos. 1nalice los Logs con los resultados de los respaldos. Se de!en esta!lecer normas para que los usuarios cono6can !ien sus responsa!ilidades, esto incluye modi#icar el sistema operativo de las ;S para que el usuario no pueda introducir so#t%are no certi#icado y que no guarde su data !a"o esquemas de Respaldo no esta!lecidos.

Segmento 5

Segmento 3

&ape ?ac@up U-S

Fi0ura "ro, , Recomendaciones para (' cr1ticas,

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

>

Las Redes y su Tolerancia a Fallas

Cableado Tolerante a Fallas, El ca!leado de una red es el componente inicial que se instala y representa el medio #undamental de comunicaci/n. 0uchas veces este componente no es considerado importante, pero un mal ca!leado tiene un impacto negativo en los tiempos de respuesta y en el rendimiento total de la red. -ara aplicar &olerancia a 'allas a los componentes del ca!leado se de!en tomar en cuenta o considerar las siguientes recomendaciones. o E+i"a a los proveedores 5A a os de garanta para las instalaciones que realicen. Esto es que sus ca!les, conectores y paneles cumplan con los est*ndares de la industria. o Se de!e certi#icar el ca!leado, esta es la partida de nacimiento de la red. o Evite utili6ar ca!les coa+iales en lo posi!le, hay que emplear est*ndares, usar par tren6ado de Categora A o superior, para vo6 y data. o $ay que utili6ar m*s ca!le del que se necesita, para prever el movimiento de alguna ;S en el *rea de tra!a"o. o Se de!e colocar m*s puntos de los requeridos, como recomendaci/n un 54B m*s. o 0antenga la norma, mover personas y sus equipos y no el ca!leado de la red. o Se recomienda tener dos segmentos por piso y distri!uir las estaciones de tra!a"o por segmento, sin em!argo !a"o el concepto de &olerancia a 'allas de!en estar todas las estaciones conectadas a am!os segmentos. o Se de!e etiquetar cada uno de los ca!les, tanto en las estaciones de tra!a"o como en los paneles de control. o Se de!e tener una lista de todos los puntos que est*n conectados a cada uno de los segmentos de la red. o Utili6ar aplicaciones que mane"en ?ases de Datos y mantener actuali6ada la in#ormaci/n. o Si tiene m*s de un cuarto de ca!leado emplee #i!ra para la cone+i/n de estos (segmentos). o 9nsista en las reali6aciones de las certi#icaciones pasivas y activas de todo el ca!leado instalado. o 9n#ormar a otros donde est* u!icado el departamento de ca!leado, como al departamento de electricidad y todos los procedimientos que se de!en seguir al respecto.

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

Las Redes y su Tolerancia a Fallas

Fi0ura "ro, 2, Cableado Estructurado y sus componentes,

Concentradores *2ubs+ o '3itc4es Tolerantes a Fallas Los Concentradores o S%itches son elementos activos #undamentales para asegurar una red &olerante a 'allas, estos previenen los impactos a la red, de!ido a errores producidos por otros dispositivos y es considerado la primera lnea de de#ensa de la red. &odos los Concentradores o S%itches de!en ser administra!les e idealmente soportar 1dministraci/n Remota (R0:7) y ser #le+i!les a #allas [;alsCD]. Ser administra!les signi#ica que cada uno de sus puertos puede ser con#igurado, monitoreado, ha!ilitado o desha!ilitado por un administrador de la red, desde una aplicaci/n de administraci/n de Concentradores o S%itches EDelmCCF. $ay tres maneras de minimi6ar la #alla de un Concentrador o S%itche, las cuales son. 1signar a cada estaci/n de tra!a"o (;S) dos tar"etas de comunicaci/n. Estas se de!en conectar a segmentos di#erentes y estos hay que conectarlos a Concentradores o S%itches di#erentes.

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

Las Redes y su Tolerancia a Fallas

Seleccionar aquellos Concentradores o S%itches con un n8mero de puertos que puedan cu!rir el n8mero de cone+iones de otro Concentrador o S%itche. Un e"emplo es seleccionar dos Concentradores o S%itches de <3 puertos cada uno, pero solo se de!en utili6ar 5D puertos en cada uno, en caso de #alla de alguno, el otro puede cu!rir las 5D cone+iones del otro, evitando de"ar sin servicio a los usuarios. Distri!uir a los usuarios de un departamento a trav,s de varios Concentradores o S%itches.
$u!H5 $u!H3

;or@stationH3 L17 Lin@H5 L17 Lin@H3

;or@stationH5

Fi0ura "ro, 5, Cone6in de (' a se0mentos separados y Concentradores o '3itc4es di.erentes,

Recomendaciones/ 1dquirir Concentradores S%itches que sean administra!les y que soporten R0:7. Reali6ar 9nventario de los Concentradores o S%itches. 0antener !a"o el n8mero de cone+iones por Concentrador o S%itches. Esto minimi6ar* el impacto en caso que un Concentrador o S%itch #alle. 1signar un U-S al Concentrador o S%itch central, me"or si es redundante. Con#igurar enlaces de #i!ras redundantes, tales como 'DD9, entre el Concentrador o S%itch central y los que se encuentran en los cuartos de ca!leados. En las prue!as de los Concentradores o S%itches e+i"a que se incluya el -atch -anel.

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

Las Redes y su Tolerancia a Fallas

Documentar las cone+iones entre el -atch -anel y los puertos del Concentrador o S%itch y apoyarse en ?ases de Datos que puedan ayudar a dar un soporte remoto. 9ncluir entre sus costos, adquirir aplicaciones que permitan monitorear los Concentradores o S%itches. Enrutadores *Routers+ Tolerantes a Fallas, Los enrutadores (Routers) signi#ican protocolos y los protocolos necesitan esta!ilidad para tener ,+ito. 1ntes de seleccionar un enrutador primero hay que seleccionar el protocolo que se emplear* en la red. Es imposi!le que una red soporte todos los protocolos que e+istan en la actualidad. Los protocolos tienen di#erentes niveles de #le+i!ilidad [;alsCD]. $ay que esta!lecer una meta para las redes tolerantes a #allas, y esta es eliminar todos los protocolos que no tengan soporte t,cnico y seleccionar aquellos protocolos que sean uni#ormes para la red local y el ?ac@!one. De!en tenerse presente las siguientes recomendaciones. o Reali6ar inventarios de los enrutadores. o Usar un su!con"unto limitado de tar"etas y #acilidades. o Cuando se haga una actuali6aci/n, se de!e hacer so!re todos los enrutadores y se de!e asegurar que haya soporte para ellos. o Considerar los aspectos de resistentes a #allas, cuando se seleccione un enrutador. o Seleccionar aquellos enrutadores que permitan hacer cam!ios mayores en su con#iguraci/n con So#t%are en lnea y el cam!io de $ard%are en caliente, sin requerir estar #uera de servicio. Esto incluye cam!ios en la con#iguraci/n del So#t%are, agregando nuevas redes L17 y puertos seriales, cam!ios en caliente de tar"etas y #uentes de poder. o Seleccionar aquellos enrutadores que tengan ?ac@plane -asivo y #uentes de poder dual. Las #uentes de poder dual pueden ser usadas cada una como soporte de entrada independiente. Un ?ac@plane -asivo permite que si una #alla ocurre en una tar"eta, esta se pueda cam!iar sin inconvenientes. o El enrutador de!e estar con#igurado para que en caso de #alla tenga la capacidad de un 1rranque autom*tico y r*pido. El enrutador leer* en lnea velo6mente y de!er* soportar una "erarqua inteligente de caminos de 1rranque. La in#ormaci/n del 1rranque es guardada en varias locali6aciones en la red, localmente en memoria #lash, so!re un servidor local, o so!re uno o m*s servidores distantes. El enrutador seleccionar* el 1rranque de las alternativas en la "erarqua si uno ha #allado. o -ara la cone+i/n de los enrutadores se pueden tener alternativas. Si cada ;S tiene dos segmentos al cual conectarse,
Copyright 2 Dr. E Carrasco, Lic. R. Guevara Diciem!re 3445 I

Las Redes y su Tolerancia a Fallas

aseg8rese que cada uno de esos segmentos se conecta a un enrutador di#erente. Una alternativa m*s ro!usta es posi!le, un segundo enrutador por segmento, permitir* que si uno #alle el otro se active y tome las actividades del primero. De!emos tener un segundo camino dentro del ?ac@!one, la conectividad no de!e ser a#ectada. o El correcto uso de las estadsticas que pueda proporcionar el monitoreo de los enrutadores, pueden permitir !alancear la carga en ellos.

Fi0ura "ro, 7, Enrutadores y %rotocolos

-ac)bones Tolerantes a Fallas, Si se desea lograr una red &olerante a 'allas se necesita asegurar un ?ac@!one sano, estos de!en ser con#ia!les y con capacidad de auto repararse. Los #actores que se de!en considerar en el dise o de un ?ac@!one local sano son. aislamiento, rutas alternas, y medios ro!ustos (capacidad de auto diagnosticarse y de administrarse) [;alsCD]. 1islamiento del medio, signi#ica dedicar un segmento de la red L17 e+clusivamente para comunicar los enrutadores. Solamente enrutadores o S%itches pueden participar en este enlace. Los medios de segmentos de usuarios #inales, servidores y Gate%ays de!en ser e+cluidos. El ?ac@!one local es la 8ltima lnea de de#ensa. Se de!e de#ender de dispositivos y protocolos pro!lem*ticos.

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

Las Redes y su Tolerancia a Fallas

Fi0ura "ro, 8, -ac)bone Tolerante a Fallas,

El ?ac@!one local de!e tener rutas alternas, como mnimo dos enlaces. -or e"emplo el ?ac@!one local primario puede ser un 'DD9, mientras que una Ethernet o un &o@en Ring puede ser la alternativa. Si uno de los enlaces #alla la alternativa provee un respaldo. Los 'DD9 son soluciones para !ac@!ones locales. Cada 'DD9 es actualmente un do!le anillo. 18n con enlaces ro!ustos entre los enrutadores, un segundo respaldo es aconse"a!le. Enlaces Tolerantes a Fallas en redes de 9rea amplia *($"+, La ;17 es el lado e+terior de la red y #orma el ?ac@!one de la organi6aci/n. Se pueden aplicar los mismos principios que se recomendaron para el ?ac@!one local. Esto es despliegue correcto de ta!las de rutas (medios ro!ustos), aislamiento del tr*#ico, #iltro a los paquetes no deseados y rutas alternas. Si un enlace es importante se de!e crear un camino de respaldo. Se puede modelar el pro!lema usando circuitos paralelos redundantes entre nodos importantes. Se de!en usar caminos alternos para llegar a la ;17. Estas son preguntas que se de!en #ormular a los -ortadores.

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

54

Las Redes y su Tolerancia a Fallas

JSoporta y certi#ican los dispositivos que se desean conectar a la red del -ortadorK. JComo es la recuperaci/n de los -ortadores, cuando haya interrupci/n del servicio por parte de ellosK. Como se resta!lecer* la red.JLue tipo de rutas usanK. JLue #acilidades comparten o prestan a otros -ortadoresK. 1seg8rese que el -ortador Local (LEC) y el -ortador 9nternacional (9EC) est,n coordinados para recuperar la red ante cualquier evento de #alla.

Fi0ura "ro, 0, E:emplo de una ($",

'ervidores Tolerantes a Fallas, El primer paso para lograr o!tener servidores tolerantes a #allas es hacer que estos servidores sean #le+i!les a #allas. 1lgunos proveedores venden servidores #le+i!les a #allas con niveles !*sicos de tolerancia a #allas, tales como memoria ECC, Discos Duros tipo arreglos R19D y m8ltiples tar"etas de comunicaciones (79C). 0uchos de los proveedores poseen alg8n tipo de servidor #le+i!le a #allas, sin em!argo muy pocos son los que pueden garanti6ar que no haya #alla en alguno de sus componentes. Caractersticas de un Servidor #le+i!le a #allas con niveles !*sicos de &olerancia a 'allas [CollCG].

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

55

Las Redes y su Tolerancia a Fallas

$r;uitectura -ac)plane %asivo, En la arquitectura est*ndar de un Servidor, el ?ac@plane es simplemente el medio que permite que se comuniquen entre si los di#erentes componentes de hard%are internos del servidor. El ?ac@plane es conocido como la tar"eta madre, este componente contiene circuitos electr/nicos como el C-U, la memoria, los slots de e+pansi/n y otros componentes. La tar"eta madre generalmente tiene limitaciones de slots para su e+pansi/n, lo com8n es que tenga seis (D) o menos. Los sistemas de ?ac@plane pasivo remueven todos los circuitos electr/nicos de estado s/lido que residen so!re la tar"eta madre, permitiendo m*s slots de e+pansi/n (generalmente m*s de 34), esto hace al ?ac@plane m*s #le+i!le a la #alla, pues de ocurrir una es m*s #*cil identi#icarla y sustituir el componente de hard%are da ado. Redundancia y Cambio en Caliente, La energa es la vida de un Servidor, la energa de alta calidad, sin interrupci/n es un requerimiento a!soluto para sistemas de alta disponi!ilidad. -or esta ra6/n, reali6ar inversiones en U-S (uninterrupti!le po%er supplies), redundancia de componentes internos de hard%are y cam!ios en calientes est*n "usti#icados. MCam!ios en Caliente ($otHs%appa!le)N signi#ica que los componentes de hard%are son dise ados para ser reempla6ados sin interrumpir o desactivar el servicio del sistema. La &olerancia a #allas es lograda en muchos casos por la construcci/n de redundancia en los componentes de hard%are en los servidores, pero esto no es su#iciente. Es importante de#inir estrategias de respaldos para los componentes de hard%are crticos en el servidor. En especial a los componentes que tienen mecanismos m/viles, estos tienen alta pro!a!ilidad de #allar. :tros aspectos que contri!uyen a tener un servidor tolerante a #allas son. $ard%are que tenga sistemas de apagado, encendido y reinicio (Re!oot) de modo remoto, para que los administradores de la red puedan darle soporte. Sistemas :perativos que permitan reali6ar cam!ios en su con#iguraci/n y en la de programas de control de dispositivos sin necesidad de reali6ar un reinicio de carga del sistema operativo. Una inter#a6 al U-S para un #*cil apagado del equipo (Shutdo%n) en el evento de que el U-S se quede sin !atera.

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

53

Las Redes y su Tolerancia a Fallas

Cam!ios en caliente de tar"etas controladoras de discos duros tipo arreglos R19D y de otros componentes de hard%are. Respaldos y Restauraciones activas. El sistema se podr* usar durante estos procesos. De!e permitir administraci/n remota de eventos. -rocedimientos que permitan actuar ante el evento de una #alla para restaurar el estado de tolerancia a #alla en un servidor. &odelos de 'ervidores Tolerantes a Fallas, $ay dos modelos de servidores &olerantes a 'allas, el de perdida de datos y el de perdida de tiempo [;alsCD]. El servidor de perdida de datos lo que hace es prevenir la perdida del dato al registrarlo de manera simult*nea en varios medios de almacenamiento, para esto se usan discos duros tipos espe"o o tipos R19D. ?a"o el concepto de redundancia hay que asegurar que el acceso al dispositivo sea a trav,s de dos adaptadores SCS9. Si tiene un Servidor con disco tolerante a #allas R19D, el tener una tar"eta de control SCS9 no es de gran utilidad ya que, s esta #alla no podr* evitar parali6ar el servicio. Si un servidor #alla por alg8n evento, la data puede ser salvada !a"o los preceptos anteriores, pero puede ese servidor reiniciar sus actividades en tiempos adecuados. $ay que evaluar para o!servar el tiempo que toma cargar e iniciar un servidor. El iniciar un servidor siempre toma tiempo, m*s a8n cuando hay discos e+tras, unidades de respaldo en cinta u otros dispositivos y esto no se resuelve con adicionar m*s memoria. Se de!e hacer un dise o de recuperaci/n (reinicio) del servidor en el menor tiempo posi!le. 0ida el tiempo que toma una restauraci/n total de las actividades del servidor. En caso de que se disponga del tiempo para iniciar un servidor que ha #allado en su #uncionamiento, sin crear contratiempos, es una !uena alternativa. Si no se dispone del tiempo para reiniciar un servidor, hay dos alternativas para el arranque en caliente. aplicaciones !asadas en redundancia y cam!ios de peri#,ricos. 1plicaciones !asadas en redundancia se re#ieren a dise os de rutinas en las aplicaciones que mantienen la integridad del dato, tales como dos #ases de McommitN (culminar e+itosamente) o varios procesos de replicaci/n de datos. 0ane"adores de !ases de Datos que soporten dos #ases de commit, son m*s ro!ustos para recuperar y asegurar contra perdida de datos.

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

5<

Las Redes y su Tolerancia a Fallas

Conmutar peri#,ricos es usar un conmutador inteligente so!re el SCS9 entre el servidor y el dispositivo de R19D. Un e"emplo de conmutaci/n de peri#,ricos es. Dos dispositivos R19D son conectados a un conmutador compartido por dos servidores. Un servidor es primario, el otro es un respaldo activo. Cada servidor posee uno de los dispositivos R19D. En el servidor stand!y, una aplicaci/n !ac@ground se e"ecuta peri/dicamente monitoreando al primario con peque as lecturas al disco para asegurar la operaci/n. Si la prue!a #alla, espera un perodo con#igura!le para reiniciar. 1nte una segunda #alla noti#ica al conmutador para mover la #alla del dispositivo R19D al secundario. El secundario monta el volumen e inicia las aplicaciones apropiadas. Discos redundantes con Cambios en Caliente Los discos son componentes crticos del Servidor, son de naturale6a mec*nica, tienen movimiento, por lo tanto est*n propensos a #allar. $ay una variedad de Discos Redundantes y m,todos de protecci/n de #allas, disponi!les en los dise os de los Servidores. $ay un rango desde discos espe"os hasta arreglos de discos que proveen total tolerancia a #alla. El m*s popular de los arreglos de discos es llamado el R19D (Redundant 1rray 9ndependent Dis@). 'ue desarrollado con dos o!"etivos. &olerancia a #allas y capacidad y rendimiento (per#ormance). El sistema R19D incrementa la velocidad de lectura y escritura de la data, o#rece m*s protecci/n a la data que los sistemas de discos que no son R19D. Sin em!argo administrarlos y distri!uir la data so!re estos discos puede ser comple"o [OogoCC]. $ay varias con#iguraciones de R19D, denotadas por n8meros, a!arcando un espectro de velocidad, #le+i!ilidad y costos E;ong44F. #tras consideraciones para 'ervidores Tolerantes a Fallas, Oentilaci/n apropiada y aire acondicionado redundante. 1dem*s de las #allas de los componentes de hard%are y las interrupciones de energa, el polvo y el calor son dos grandes enemigos de los componentes de un servidor. El sistema de ventilaci/n de un servidor &olerante a 'allas de!e tener redundantes ventiladores (al menos tres) que puedan en#riar continuamente. De igual manera en el *rea donde tiene u!icado el servidor de!e ha!er sistemas duales de aire acondicionado o dos aires independientes que en caso de #alla se activa el de respaldo. E+celente soporte t,cnico y de mantenimiento. Es importante o!tener hard%are de proveedores reconocidos, que den garanta y soporte t,cnico en sitio, con visita el mismo da o en las pr/+imas 3>

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

5>

Las Redes y su Tolerancia a Fallas

horas. :tra *rea crtica para el servidor es la rutina de mantenimiento del sistema, esto es mantenimiento preventivo del disco de #ragmentaci/n, etc. '*cil acceso a los componentes interno. 1l ver el chasis de un servidor, se o!serva que su construcci/n es rgida y no es #le+i!le. En un chasis #le+i!le los componentes de hard%are internos pueden sacarse y a"ustarse con #acilidad, de!e ser #*cil a!rir y remover, sin estor!ar a las tar"etas que est*n en el ?ac@plane. La #uente de poder y el controlador del disco de!en ser accesi!les sin a!rir ,l case. Capacidad de E+pansi/n. -ara un servidor que tenga ?ac@plane pasivo el n8mero de Slots es muy importante, normalmente son dise ados para soportar so!re 34 tar"etas. 1l adquirir un servidor o!serve que el chasis soporte cuatro o m*s tar"etas controladoras de discos, dos o m*s ventiladores y dos o m*s #uentes de poder. Sistema de monitoreo propio. De nada sirve tener un servidor con cam!ios en caliente y componentes redundantes, si no hay manera de sa!er si uno de esos componentes ha #allado. Los servidores &olerantes a 'allas de!en tener un sistema de monitoreo propio para noti#icar al administrador de la red (idealmente al sistema operativo) de la #alla de un componente. Si una #alla es detectada y reportada, inmediatamente un plan de contingencia de!e ser e"ecutado para reparar la #alla con un mnimo impacto so!re la disponi!ilidad del sistema. =its de reserva para componentes importantes de hard%are. -ara esos componentes de cam!ios en caliente, como los otros componentes del sistema, se de!e mantener componentes de reempla6os, para hacer reparaciones r*pidas. Un tpico =it de respaldo de!e incluir. Unidad de Disco. Una #uente de -oder. Un ventilador. Una tar"eta de comunicaciones tele#/nica. Una tar"eta de red. Chips de memoria. &ar"eta de Odeo. :tros que sean relevantes al servicio.

'inalmente !a"o la estrategia de redundancia en el ca!leado, en concentradores, S%itches y en enrutadores no se de!e olvidar las siguientes recomendaciones.

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

5A

Las Redes y su Tolerancia a Fallas

&odo servidor de!e tener mnimo dos tar"etas 79C. Esas inter#aces de!en conectarse a segmentos di#erentes de L17. Cada uno de estos segmentos se conectar* a inter#aces separadas en di#erentes enrutadores. 'istemas #perativos de red *"#'+ Tolerantes a Fallas, Los Sistemas :perativos de Redes (7:S) 'le+i!les y &olerantes a 'allas, de!en asegurar alta disponi!ilidad de la in#ormaci/n y de los servicios que presta, de tres maneras [0icrCC]. 0ane"o uni#orme del $ard%are y del So#t%are por Sistemas de mane"o de 'allas. -rotecci/n a los programas de los usuarios, entre ellos mismos y el sistema operativo. -roveer mecanismos de recuperaci/n de datos. Estos 7:S de!en ser #*ciles de operar, seguros, manteni!les, #*ciles de administrar, con inter#aces amiga!les y herramientas para diagnosticar los componentes del servidor. De!en permitir m8ltiples thread (Unidad despacha!le de tra!a"o EStal45F ) para procesar, lo cual incrementa la e#iciencia y la #le+i!ilidad [0icrCC]. Caracter1sticas/ errores. Su!Hsistema de protecci/n y mane"o de

Sistema de recuperaci/n de archivos. Reinicio 1utom*tico. Soporte de unidades de respaldo en cintas. Soporte de U-S. Soporte de Discos Espe"os. Soporte de Discos D8ple+. Soporte de Discos con 'ran"a (R19D A).

'ub<'istema de %roteccin y mane:o de Errores, Las aplicaciones de so#t%are no siempre operan como se espera, estas pueden #allar. Un 7:S de!e estar dise ado para tolerar esas #allas y asegurar que estas no a#ecten otros componentes del Sistema :perativo. -ara un 7:S la primera lnea de de#ensa es el so#t%are de mane"o de error de e+cepci/n. Cuando un evento anormal ocurre, el evento es capturado y el procesador o el sistema operativo mane"an la e+cepci/n. Este dise o asegura que errores

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

5D

Las Redes y su Tolerancia a Fallas

detectados no se les permita in#luir en el sistema o en los programas de los usuarios. Los su!sistemas de protecci/n, asignan locali6aciones 8nicas de memoria a los di#erentes procesos y aplicaciones, separando as a los programas. De esta manera el 7:S asegura que si un programa #alla no a#ectar* al n8cleo del sistema, evitando el colapso del sistema. &am!i,n se evita de esta #orma que cuando un programa #alle no a#ecte a otros que est*n e"ecut*ndose so!re el sistema. Reinicio $utom9tico, La com!inaci/n del mane"o de errores de e+cepci/n y el su!sistema de protecci/n hace que una #alla en el 7:S sea e+tremadamente rara. Sin em!argo el 7:S de!e incluir un reinicio autom*tico. En el evento de una #alla el sistema puede ser con#igurado para un reinicio autom*tico. Esta me"ora de!e proveer un m*+imo de tiempo para estar disponi!le. El 7:S de!e guardar el contenido de la memoria antes del reinicio en un archivo en disco (log), para su posterior an*lisis por parte del administrador, para determinar la causa de la #alla. 'istema de Recuperacin de $rc4ivos, El 7:S de!e mane"ar las #allas de $ard%are tales como las de discos y las relacionadas. De!e ha!er archivos Log en el cual se registren cada una de las operaciones de entrada y salida de una transacci/n. Cuando un usuario actuali6a un archivo, el servicio de Log, guarda lo anterior y posterior de la in#ormaci/n para esa transacci/n. Rehacer (Redo) es la in#ormaci/n de c/mo se repetir* la transacci/n. Deshacer (Undo) es como hacer MRoll?ac@N a la transacci/n. Si la transacci/n es completada, el archivo actuali6ado es McommitN (la transacci/n culmin/ e+itosamente). Si la transacci/n es incompleta, se hace un Roll?ac@ de la transacci/n por la in#ormaci/n del Deshacer (Undo). Si se detecta un error en la transacci/n esta tam!i,n es Roll?ac@ EDateC4F. De!en mane"ar el M$otH'i+ingN. Si un error ocurre en un sector, el servicio de!e mover la in#ormaci/n a un sector di#erente y marcar el sector original como da ado. Este proceso es completado de manera transparente para la aplicaci/n evitando mensa"es como 1!ort, Retry, o 'ail. 'oporte de Respaldo en Cinta, Respaldos en cintas es un modo importante de la disponi!ilidad de la data. Es recomenda!le que el 7:S disponga de herramientas para este proceso, si son gr*#icas mucho me"or. Este respaldo de!e permitir.

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

5G

Las Redes y su Tolerancia a Fallas

Respaldar y Restaurar archivos locales y remotos. Respaldar y Restaurar por volumen, directorios o archivos individuales, visuali6ando in#ormaci/n como el detalle, largo, #echa de modi#icaci/n, etc. &ipos de respaldos, normal, copia, incremental, di#erencial y programados. Crear procesos para automati6ar respaldos repetitivos, esto es programar los respaldos. Control del destino de la restauraci/n. -asos de veri#icaci/n para asegurar respaldos y restauraciones. 1dministraci/n remota de respaldos y dispositivos de respaldo en clientes. U%' *uninterruptible %o3er 'upply+, El U-S es una !atera conectada a un computador que suple energa para mantener #uncionando el sistema en caso de #alla de la energa normal. El 7:S de!e tener un servicio que permita avisar a los usuarios cuando hay #alla de energa y de!e mane"ar un apagado autom*tico del equipo cuando el nivel de !atera del U-S este muy !a"a y cerca de terminar. El 7:S de!e permitir. Seleccionar el puerto serial donde el U-S esta conectado. Chequea si el Dispositivo del U-S enva una se al s la energa regular #alla. Chequea si el Dispositivo del U-S enva una se al de alarma cuando el nivel de !atera es !a"o. Chequea que el servicio de U-S enve una se al al dispositivo del U-S para apagarlo. &iene un archivo de comandos que al e"ecutarse hacen un 1pagado del equipo en un tiempo determinado. 7oti#ica al usuario el tiempo de vida esperada y de carga de una !atera. Selecciona el tiempo para mensa"es de alertas. Discos R$!D, Los sistemas de Discos tolerantes a #allas son estandari6ados y categori6ados en seis niveles, conocidos como 1rreglos Redundantes de Discos

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

5I

Las Redes y su Tolerancia a Fallas

Econ/micos (R19D), desde el nivel 4 hasta el A. Cada nivel o#rece varios alcances, #le+i!ilidad y costos.

Re.erencias,
E1cncCCF E1ni+CDF E?lacCCF E?uchCDF ECahnCIF ECarrC3F 1C7C, M1cP7c 1rray &echnologyN, %%%.acnc.com, 5CCC. 1ni+ter, MEst*ndar &91QE91 ADIH1N, %%%.ani+ter.comQtechli!Qpd#Q?<45A544.pd#, 5CCD. ?lac@ Uyless, M&ecnologas emergentes para redes de computadoras, 3a. edN, -rentice $all $ispanoamericana, S.1., 5CCC. ?uchanan Ro!ert ;., M&he 1rt o# &esting 7et%or@ SystemsN, Rohn ;iley P Son, 5CCD. Cahn Ro!ert S., M;ide 1rea 7et%or@ Design, Concepts and &ools #or :ptimi6ationN, 0organ =au#mann -u!lishers, 9nc, 5CCI. Carrasco Eddy, M0etodologa para el dise o y E"ecuci/n de -royectos para la Comunicaci/n de Sistemas, integraci/n de Recursos y 1utomati6aci/n de :#icinas con Redes de SreaN, Escuela de Computaci/n, 'acultad de Ciencias, U.C.O., 5CC3. Carrasco Eddy, M7otas de clases dadas por el -ro#. Eddy CarrascoN, 5CCC. Cisco, MCisco 7et%or@ing 1cademy -rogramN, &utorial versi/n en espa ol, 5CCC. Collier =eith, M&he -CH?ased telephony -lat#orm a perspective on 'ault &olerance, $ard%are and :perating System choicesN, %%%.interHintelli.com, 1!ril 5CCG. Date C.R., M9ntroducci/n a los Sistemas de ?ases de Datos, Ool 9, Ata edN, 1ddisonH;esley 9!eroamericana, S.1., 5CC4. $arris 0ichael -, ML17 $ard%are Q ;iring P 9nstallation, Lesson I, E+ploring $u!s, ?ridges, Routers y S%itchesN, http.QQOi@ing.Delmar.edu, 5CCC. Digital, MDEC79S 0ultiprotocol ?ac@!one RoutersN, %%%.dnpg.comQdrQnpgQdns#mHmn.html, Enterasys, MSmart S%itch virtual router clusterN, %%%.enterasys.com, 0ayo 3444. 'ord 0erilee, Le% =im, Spanier Steve, Stevenson &im, M&ecnologas de interconectividad de redesN, -rentice $all, 5CCI. 0icroso#t, MRelia!ility and 'ault &olerance in ;indo%s 7& SEROERN, %%%.microso#t.comQ7&ServerQ#ileprintQe+ecQovervie%Qrelia!ility.asp, Septiem!re 5CCC. 0usciano Chuc@, M4,5,4T5, Raid !asics, -art 5, 1 quic@ tutorial on ho% these di##erent Raid con#iguration %or@N, %%%.sun%orld.com, 1!ril 3444.

ECarrCCF ECisc44F ECollCGF

EDateC4F EDelmCCF

EDnpg44F EEnte44F E'ordCIF E0icrCCF

E0usc44F

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

5C

Las Redes y su Tolerancia a Fallas

Stallings ;illiam, MData and computer communications D th ed.N, -rentice $all 9nc., 3444, 5CCD. EStal45F Stallings ;illiam, M:perating System, 9nternal and Design -rinciples < ed.N, -rentice $all 9nc., 5CCG. ES%amI5F S%amy, 0., MGraphs, 7et%or@s and 1lgorithmsN, Rohn ;iley P Son, 5CI5. E&aneCDF &anen!aum 1ndre%, MComputer net%or@s <rd edN, -rentice $all -&R, 5CCD. E&rulCGF &rulove Rames, ML17 ;iring. an illustrated net%or@ing guideN, 0cGra%H$ill, 5CCG EOogoCCF Oogon 9nternational, MRaid P Dis@ 1rray Recovery, ;hat is RaidKN, %%%.dis@HrecoveryHvogon.com, 5CCC. EStal44F E;alsCDF ;als ?rian, M'aultH&olerance 7et%or@ingN, %%%.net%or@computing.com, 7oviem!re 5CDD. E;ong44F ;ong ?rian, MRaid. ;hat does it mean to meKN, %%%.sun%orld.com, 3444.

Copyright 2 Dr. E Carrasco, Lic. R. Guevara

Diciem!re 3445

34

Vous aimerez peut-être aussi