Vous êtes sur la page 1sur 8

THEME 

: OPTIMISATION DE LA GESTION DE LA CONTINUITE


DES SERVICES APRES INCIDENTS

L’optimisation de la gestion de la continuité des services après incidents consiste à mettre en


place des procédures et processus efficaces et normalisées afin de garantir la disponibilité
ainsi que la performance des services en cas d’incidents, afin de réduire les temps d’arrêt de
services, les coûts de solutions et l’impact business ou métier des incidents.

I- EXPLICATION DES PREREQUIS

Toutes les définitions suivantes ont été faites selon la norme ITIL.

1) Gestion des incidents

Un incident est une interruption imprévue d’un service ou une réduction de la qualité de
service.

Gérer un incident revient à minimiser l’impact négatif de cet incident, en rétablissant le


fonctionnement normal du service dans les plus brefs délais afin d’assurer la continuité des
services.

2) Gestion des problèmes

Un problème est une cause réelle ou potentielle d’un ou de plusieurs incidents.

Gérer un problème consiste à réduire la probabilité et l’impact des incidents, en identifiant les
causes réelles et potentielles des incidents, et en gérant les solutions de contournement et les
erreurs connues.

3) Gestion des services

Un service est moyen de permettre la co-création de valeur en facilitant les résultats que les
clients veulent obtenir, sans que le client ait à gérer des coûts et des risques spécifiques.

La gestion des services est un ensemble de capacités organisationnelles spécialisées,


permettant de générer de la valeur pour les clients sous forme de services.
4) Gestion de la continuité des services

La gestion de la continuité de service prend en charge une capacité globale de gestion de la


continuité des opérations et de planification, en garantissant la reprise des services
informatiques dans les délais impartis et convenus après une catastrophe ou une crise. La
gestion de la continuité de service est un processus de planification et de
conception. L'objectif principal est de fournir un plan et une organisation permettant la reprise
la plus rapide possible de l'activité après un désastre.

5) Importance de la gestion de la continuité des services

Assurer la continuité des services au sein d’une entreprise est une priorité absolue car un
incident peut avoir des conséquences multiples autant sur l’image de l’entreprise, sur sa
productivité, ainsi qu’au niveau financier ; Par exemple la panne de 5 heures qui a coûté 150
millions de dollars à Delta Air Lines en 2016, ou encore les nombreuses perturbations qu’il
y’a eu au niveau du réseau des opérateurs de réseaux mobiles Orange et MTN ces derniers
temps au Cameroun a engendré de nombreuses plaintes de la part des usagers et a eu des
conséquences sur leur image terni auprès des clients, ainsi que des répercussions de nature
financière.

6) Méthodologie de travail

La méthodologie choisie pour effectuer notre plan de continuité s’inspire largement des
référentiels ITIL. La construction du plan de continuité d'activité s’appuie sur les mêmes
étapes que celles d'un projet, à savoir :

 Analyse : Analyse des étapes précédentes

 Conception : Collecte des besoins internes en termes de continuité/disponibilité puis


proposition d'une solution.

 Validation : Validation de la solution


II- LES SOLUTIONS DE CONTINUITE DE SERVICES

CONGELCAM est une entreprise possédant une grande infrastructure informatique


(matériels, logiciels, systèmes d’exploitation, services, applications, ...). L’enjeu de garantir la
continuité des services nous amène à proposer les solutions suivantes :

1) Les sites de secours

Afin de garantir la continuité des services en cas de destruction de la salle serveur ou de son
système informatique, il faudrait mettre en place des sites de secours.

Les sites de secours sont des sites secondaires permettant de disposer d'un système
informatique, équivalent à celui pour lequel on veut limiter l'indisponibilité : ordinateurs,
périphériques, systèmes d'exploitation, programmes particuliers, …, en ordre de marche et
capable de prendre le relais du système défaillant. Selon que le site de secours sera implanté
sur le site d'exploitation ou sur un lieu géographiquement différent, on parlera d'un secours in
situ ou d'un secours déporté.

Pour répondre aux problématiques de recouvrement de désastre, on utilise de plus en plus


fréquemment des sites délocalisés, c'est-à-dire physiquement séparés des utilisateurs, de
quelques centaines de mètres à plusieurs centaines de kilomètres : plus le site est éloigné,
moins il risque d'être touché par un désastre affectant le site de production. Mais la solution
est d'autant plus chère, car la bande passante qui permet de transférer des données d'un site
vers l'autre est alors généralement plus coûteuse et risque d'être moins performante.
Cependant la généralisation des réseaux longues distances et la baisse des coûts de
transmission rendent moins contraignante la notion de distance : le coût du site ou la
compétence des opérateurs (leur capacité à démarrer le secours rapidement et rendre l'accès
aux utilisateurs) sont d'autres arguments de choix.

Voici les différentes solutions de sites de secours, de la moins coûteuse à la plus coûteuse :

 Salle blanche : une salle machine protégée par des procédure d'accès particulières,
généralement secourue électriquement.
 Salle noire : une salle ayant les mêmes configurations qu’une salle blanche mais
entièrement pilotée à distance, sans aucun opérateur à l'intérieur.
 Site chaud : site de secours où l'ensemble des serveurs et autres systèmes sont
allumés, à jour, interconnectés, paramétrés, alimentés à partir des données
sauvegardées et prêt à fonctionner. Le site doit aussi fournir l'ensemble des
infrastructures pour accueillir l'ensemble du personnel à tout moment et permet une
reprise d'activité dans des délais relativement courts (quelques heures). Un tel site
revient quasiment à doubler les capacités informatiques de l'entreprise (on parle
de redondance) et présente donc un poids budgétaire non négligeable.
 Site froid : site de secours qui peut avoir une autre utilisation en temps normal (ex :
gymnase). Les serveurs et autres systèmes sont stockés mais non installés, connectés,
etc. Lors d'un sinistre, un important travail doit être effectué pour mettre en service le
site ce qui conduit à des temps de reprise long (quelques jours). Mais son coût de
fonctionnement, hors période d'activation, est faible voire nul.
 Site tiède : site de secours intermédiaire. En général on trouve des machines installées
(mise à jour décalée par rapport au site de production) avec les données sur bande
mais non importées dans les systèmes de données.

Il est aussi possible d'utiliser des systèmes distribués sur plusieurs sites (diminution du risque
de panne par effet de foisonnement) ou un site de secours mobile qui correspond à
un camion transportant des serveurs et autres systèmes, permettant de n'avoir besoin que d'un
système de secours pour plusieurs sites, en tablant sur l'improbabilité qu'une panne touche
simultanément plusieurs sites. Plus les temps de rétablissement garantis sont courts, plus la
stratégie est coûteuse. Il faut donc choisir la stratégie qui offre le meilleur équilibre entre le
coût et la rapidité de reprise.

2) La réplication des serveurs

Afin de garantir une continuité des services et une disponibilité des données, il faut mettre en
place une solution de réplication des données.

La réplication informatique des données est un procédé qui consiste à copier les données d’un
serveur maître et à les stocker sur d’autres supports, la plupart du temps un ou différents
serveurs. On les appelle serveurs cibles, aussi appelés serveurs esclaves ou de destination, et
l’on parle de réplication de serveur à serveur en réseau.

Elle fonctionne en trois temps :


 Le serveur maître reçoit une information (modification, ajout ou suppression de
donnée) ;
 Les changements sont détectés ;
 Puis les modifications sont répercutées sur le serveur cible.

Le but recherché est d’assurer leur accessibilité et leur disponibilité. Ainsi, les modifications
intervenant sur le serveur maître se répercutent automatiquement, ou ponctuellement, sur les
autres serveurs. Donc, en cas de panne sur votre serveur par exemple, le ou les serveurs de
destination vont pouvoir prendre le relai et continuer à faire fonctionner vos services.

 Les types de réplication : il existe différents types de réplication, à savoir :

 Active : Lors de réplication active, les calculs effectués par la source (ou maître) sont
répliqués dans les autres serveurs
 Passive : Lors de la réplication passive, seul le serveur maître effectue les calculs. Ce
sont alors les informations finales qui sont transmises aux autres serveurs.
 Synchrone : La réplication synchrone est un processus de mise à jour simultanée de
plusieurs référentiels souvent utilisé avec un réseau de stockage ou un réseau sans fil
ou un autre système segmenté. Dans la réplication synchrone, la technologie écrit des
données sur deux systèmes à la fois, plutôt qu'un à la fois. Le serveur cible doit
envoyer un accusé de réception pour que la réplication puisse se poursuivre.
 Asynchrone : La réplication asynchrone est une technique de sauvegarde du stockage
de données dans laquelle les données ne sont pas immédiatement sauvegardées
pendant ou immédiatement après que le stockage principal accuse réception de
l'écriture, mais plutôt sur une période de temps. Cette méthode donne un système avec
de bonnes performances et une exigence de bande passante moindre, mais les
sauvegardes ne sont pas immédiatement disponibles si quelque chose arrive au
stockage principal.

 Les avantages de la réplication  : la réplication présente des avantages multiples et


variés tels que :

 Améliorer la tolérance aux pannes et coupures de service quand le volume de données


traitées augmente. En cas d’indisponibilité du serveur principal pour quelque raison
que ce soit, le serveur de destination peut prendre le relai
 Garantir la disponibilité et l’accessibilité des données ;
 Équilibrer la charge de traitement entre les différents serveurs pour assurer un meilleur
temps de réponse ;
 Donner un espace de stockage supplémentaire pour sauvegarder les données.

3) La redondance des routeurs et/ou des switchs

Afin de s’assurer de la continuité des services dans l’acheminement du trafic réseau, il est
important de mettre en place la redondance des routeurs et/ou switchs.

La redondance de routeurs est le fait de mettre plusieurs routeurs dans un même réseau pour
que, si l’un tombe en panne, l’autre le remplace.

Pour mettre en place la redondance de routeurs dans un réseau, il existe deux protocoles. Le
premier protocole est appelé HSRP. C’est le premier qui a été créé. Il n’est configurable que
sur des routeurs Cisco. Le deuxième, appelé VRRP, est, quant à lui, configurable sur les
routeurs de n’importe quel constructeur. Ces deux protocoles fonctionnent en créant un ou
plusieurs routeurs virtuels, communs à plusieurs routeurs réels. Cela permet aux équipements,
qui veulent communiquer avec un élément hors du réseau dans lequel ils se trouvent, de le
faire en transmettant les données à une passerelle par défaut indifférenciée. Chaque routeur a
un niveau de priorité. Le routeur ayant le niveau de priorité le plus fort est automatiquement
désigné comme étant le maître. Lors d’une panne sur le routeur maître, les routeurs sont
configurés pour désigner un nouveau maître selon les niveaux de priorité définis. Ainsi,
l’équipement qui envoie les données n’a pas à choisir à quel routeur il les transmet, puisque
les données sont automatiquement envoyées au routeur qui a le rôle de maître.

4) Le cloud computing

Afin de garantir la continuité des services quel que soit la situation géographique dans
laquelle on se trouve, le cloud computing répond à ce besoin.

Le cloud computing est une technologie permettant de fournir des services informatiques (un
catalogue d’application, un accès aux données et des ressources de stockage) via Internet. Le
cloud (ou « le nuage ») fait référence à l’utilisation de serveurs distants auxquels on accède
via Internet, pour stocker, gérer et traiter des données, plutôt que sur un serveur local ou un
ordinateur personnel.

Il existe trois principaux modèles de cloud :

 Le cloud privé ou d’entreprise : est déployé exclusivement pour une entreprise, une
organisation ou une institution. L’organisation détient et gère l’infrastructure et
l’héberge sur place ou à distance, mais peut aussi confier la gestion de son cloud privé
à un fournisseur.
 Le cloud public : est détenu et géré par le fournisseur qui gère le hardware, le logiciel
et l’infrastructure. Les serveurs sont situés dans son Data Center. Les clients
peuvent accéder à ces ressources via internet, et détiennent leurs données et
applications.
 Le cloud hybride : Il permet de stocker une partie des données sur le cloud public,
tout en conservant les données sensibles sur un Data Center privé.

Dans notre cas, c’est la solution de cloud privé qui est adapté à nos besoins car elle présente
les avantages suivants :

 Une collaboration plus facile entre les employés grâce au cloud computing : Avec
un cloud privé, les employés de votre entreprise peuvent accéder aux mêmes
applications et données de n’importe où dans le monde ; ainsi ils pourront collaborer
et communiquer plus facilement sur des projets et se partager des fichiers.
 Sécurité et confidentialité des données accrues sur cloud privé : Le fait que les
données soient stockées hors site réduit également le risque de vol ou de dommage. La
plupart des fournisseurs de services cloud ont mis en place des protocoles de sécurité
stricts pour protéger les données des clients contre tout accès non autorisé.
 Stockage et récupération des données plus efficaces : le cloud privé peut vous
fournir des services de sauvegarde des données en temps réel et de reprise après
sinistre.
 Une meilleure disponibilité des données sur une plateforme cloud : Avec un cloud
privé, les entreprises peuvent s’assurer que leurs données sont toujours disponibles et
accessibles, quel que soit le lieu. En effet, un cloud privé est hébergé sur un serveur
distant qui est constamment sauvegardé. Cela signifie que même si les propres
serveurs de l’entreprise tombent en panne, les données seront toujours disponibles sur
le nuage.

Vous aimerez peut-être aussi