Vous êtes sur la page 1sur 6

Club des Responsables

Fiche Pratique d’Infrastructures et de Production En association avec le

PRA - PCA

L’automatisation
du PRA
1. Synthèse
Pour assurer la reprise d’activité dans des conditions Etape Automatisation
conformes aux objectifs établis à l’avance, l’automatisation
Escalade d’alerte · L ogiciel d’appel automatique
du PRA doit faciliter l’obtention du Recovery Time Objec- de convocation d’intervenants
tive (RTO) et du Recovery Point Objective (RPO) prédéter-
minés. L’automatisation doit également contribuer à réduire Détermination des · Logiciel d’analyse d’impacts
le nombre d’erreurs humaines qui risquent de se produire impacts du sinistre (serveurs, applications, processus)
sur la CMDB avec cartographie
dans ces situations de crise exceptionnelles et dans un
applicative et des flux
environnement incertain où les intervenants se trouvent
soumis à un stress important. Prise de décision de · L’automatisation n’est pas possible
Ceci étant, un sinistre partiel peut survenir à n’importe quel basculer en secours ni souhaitable
moment, et le nombre de scénarios de reprise d’activité Reprise d’activité sur le · L e degré d’automatisation est partiel
est très élevé. L’automatisation du PRA est-elle possible ? secours et dépend des environnements
Est-elle rentable ? Le cas envisagé dans le scénario d’auto- (systèmes d’exploitation)
matisation pouvant ne jamais se produire en réalité. · La reprise technique est plus
facilement automatisable que
Il faut distinguer l’automatisation du pilotage. L’automatisa- la reprise métier
tion a pour objet de réduire au maximum les interventions Contrôle technique et · L e contrôle technique est plus
humaines et de rendre ainsi plus rapide la reprise d’activité. fonctionnel facilement automatisable que
Alors que le pilotage consiste à maitriser le déroulement le contrôle fonctionnel métier
des opérations, à synchroniser les différentes actions de la
Fonctionnement en · Automatisable au même niveau
reprise d’activité et à en conserver une trace de l’exécution. secours que le fonctionnement normal

L’automatisation de la reprise d’activité n’est pas possible Retour à une situation · Le retour à une situation normale
en totalité. Elle ne peut s’appliquer qu’à certaines étapes du normale est planifié. Il est exécuté dans des
conditions préparées à l’avance.
PRA. Le tableau ci-contre résume les possibilités d’auto-
Le pilotage reste nécessaire.
matisation pour chaque étape du PRA.

Février En cas d’incident pendant les opérations de reprise, la L’entraînement des intervenants par des tests et exercices
2013 reprise d’activité devient manuelle, d’où l’intérêt du pilotage. facilite l’automatisation de la reprise d’activité.
2. Contexte
L’automatisation du PRA vise à répondre aux enjeux Le PRA totalement automatisé n’existe pas, mais
suivants : un certain niveau d’automatisation existe déjà.
Cependant, tout ne peut pas et ne doit pas être
• Réduire les temps de reprise en conformité avec automatisé. Par exemple, la prise de décision de
les besoins métier, en particulier en déléguant aux basculer en secours reste une décision purement
machines la réalisation de tâches fastidieuses et/ humaine qui demande une appréciation spécifique
ou répétitives. des circonstances du sinistre, de sa nature, de ses
• Simplifier les opérations de reprise pour éviter les conséquences, et dépend du délai qui précède cette
erreurs humaines qui risquent toujours de se pro- prise de décision, délai qui varie lui-même très large-
duire dans des situations de forte tension. ment selon les circonstances.
• Mieux maîtriser les opérations de reprise d’acti-
En ce qui concerne le pilotage du PRA, le principal
vité dans des environnements techniques dont
problème est la synchronisation des actions opéra-
la complexité ne cesse d’augmenter. En effet,
tionnelles. Le pilotage nécessite un « maître de céré-
aujourd’hui, un même service applicatif peut
monie », qui donne l’ordre du lancement des actions
reposer sur des dizaines de logiciels, d’appli-
devant être exécutées en plusieurs endroits. Ce mode
cations unitaires et d’équipements (serveurs,
de fonctionnement souligne le besoin d’un outillage
stockage, matériels réseau) eux-mêmes orga-
du « runbook » (compilation systématique de pro-
nisés en des ensembles complexes (clusters,
cédures et d’opérations à effectuer pour réaliser
fermes, Clouds, etc.). La remise en service d’une
une tâche ou une série de tâches) ainsi que de
telle masse de systèmes devient parfois difficile-
disposer d’un ordonnanceur avec des gestions de
ment réalisable sans l’assistance d’automates,
dépendance entre actions. Des logiciels du marché
particulièrement sous délai contraint.
existent pour automatiser certaines parties de la re-
• Les offres Cloud et les environnements hautement prise d’activité : SRM de VMware, Dataguard de HP,
virtualisés fonctionnent aujourd’hui avec un haut etc. D’autres logiciels permettent de piloter le PRA :
degré d’automatisation, donc le PRA doit en béné- eFront d’eFront, PARAD de Devoteam, etc. Actuel-
ficier lui aussi, et s’automatiser. lement, ces logiciels pilotent l’exécution de PRA
• L’automatisation dispense dans une certaine construits sur des cas de sinistre prédéterminés.
mesure d’assurer des astreintes pour l’ensemble Ils formalisent l’ordonnancement de la reprise
des compétences pointues qui pourraient s’avé- d’activité. Ils pilotent toutes les actions à exécu-
rer nécessaires au moment de déclencher le PRA. ter. Les outils d’automatisation et de pilotage sont
L’automatisation permet de confier une partie de complémentaires et peuvent être utilisés ensemble,
l’expertise aux automates. le logiciel de pilotage maîtrisant le déroulement de
toutes les actions dont celles automatisées par un
logiciel d’automatisation.

2
3. Problématique
Suite à un sinistre informatique, peut-on automatiser tout Ce découpage doit avoir été prévu dans la procédure
ou partie de la reprise d’activité sur un site de secours ? d’automatisation. Les différents modules peuvent même
s’exécuter en parallèle, mais il faut que l’automatisation
La difficulté la plus importante de l’automatisation, c’est prenne en compte ce mode de fonctionnement.
la resynchronisation des plaques applicatives et/ou
fonctionnelles et des échanges entre les composants b. La démarche d’automatisation doit avoir prévu les
suite à la reprise. En effet, l’opération de reprise com- différences entre situations d’exercice et situations de
porte deux phases qu’il faut bien isoler car elles posent PRA réel (fortuit, suite à sinistre). Dans le « runbook »,
des problèmes totalement différents : les procédures de certaines actions estampillées exercices (sauvegardes
reprise technique et les procédures de reprise applica- complémentaires,  synchronisations  complémen-
tive. Ce sont les secondes qui posent des problèmes de taires, etc.) sont exécutées en cas d’exercice, mais pas
synchronisation complexes. forcément lors de la survenue d’un incident fortuit dans
lequel les exigences de retour à la normale dans des
Ce point étant établi, il faut y ajouter plusieurs remarques. délais contraints imposent parfois de shunter certaines
étapes. L’automatisation doit être conçue de façon à
a. Pour prendre en compte des sinistres partiels de plus permettre le débrayage de ce qui n’est pas strictement
en plus fréquents, les scripts complets de reprise sont indispensable.
découpés en modules qui sont comme autant d’îlots de
reprise relativement indépendants les uns des autres. c. Lors d’un PRA fortuit, une des principales difficultés
La difficulté consiste avant tout pour chacun de ces consiste à savoir quelle partie du SI se trouve impactée,
îlots à déterminer des plaques de reprise homogènes. alors que dans un exercice ou un test de PRA, ce
Les échanges entre applications étant nombreux, cela périmètre se trouve déjà connu (sauf en cas d’exercice
ne va pas de soi, et il faut une grande connaissance avec détermination aléatoire des composants impac-
des interactions entre composants au sein de blocs tés, ce qui reste rare). Ce sujet de la détermination des
fonctionnels. composants du SI impactés n’est pas couvert par
l’automatisation, mais par la supervision. Il faut donc
Le PRA se compose lui aussi de plusieurs phases lar- savoir quoi redémarrer au moment de lancer l’automa-
gement hétérogènes : on n’y règle pas les mêmes tisation, ce qui impose soit d’avoir relancé la supervi-
familles de problèmes, on n’y pratique pas les mêmes sion, soit de disposer d’un processus d’automatisation
méthodes, on n’y mobilise pas les mêmes ressources. capable d’analyser lui-même la situation.
Cette hétérogénéité interdit d’envisager une réponse
unique d’automatisation qui serait valable de bout en
bout.

Il faut donc bien isoler :


• Une phase de déclenchement préparatoire avant le
point de non-retour (abandon de toutes tentatives
de reprise sur le site de production nominal),
• Une phase de reconstruction de l’infrastructure du
secours,
• Une phase de reprise métier.

3
4. Analyse
La reprise d’activité se décompose en différentes phases : mations. Existe-t-il des outils permettant de faire des
escalade d’alerte, gestion de crise et détermination des évaluations simples afin de clarifier la prise de décision ?
impacts du sinistre, décision de basculer sur le secours, Peut-on automatiser la recherche des impacts ?
reprise, contrôle de la reprise d’activité, fonctionnement
en secours et retour à une situation normale. Les possi- La CMDB ou des outils de cartographie IT à jour peuvent
bilités d’automatisation sont décrites par phase dans les aider à ce genre d’analyse. Lors d’un incident majeur, cette
paragraphes suivants. analyse n’a pas forcément lieu d’être car l’information re-
monte directement des Métiers qui signalent l’indisponi-
La mise en place de ces possibilités d’automatisation bilité de leurs outils et permettent d’évaluer l’ampleur du
est progressive. On commence avec des tests d’appli- problème en cours. Attention cependant, l’information
cations isolées. Ensuite des tests réels le week-end pour remontée des Métiers s’apparente plus à une alerte qu’à
prouver que les procédures de bascule fonctionnent. une réelle analyse d’impacts.
Puis des tentatives de fonctionnement en secours pen-
dant une semaine, puis un mois pour valider les clôtures Certaines entreprises utilisent cependant des outils
de fin de mois. On arrive ainsi à un processus beaucoup de gestion des impacts. Suite à un incident grave,
plus mature. l’impact sur les Métiers est déterminé automatique-
ment. Cela ne permet pas de réparer plus vite, mais de
La participation des utilisateurs métier est très importante. prévenir les Métiers des conséquences du sinistre sur
Si les métiers ne portent pas l’exercice, l’automatisation leur activité, y compris en ce qui concerne des éléments
du PRA ne fonctionnera jamais. auxquels les équipes présentes n’auraient pas forcé-
ment pensé. Il faut, pour ce faire, disposer d’une CMDB
• Escalade d’alerte : reliée aux cartographies applicatives qui remontent
Des processus d’escalade avec des seuils d’alerte en jusqu’aux processus métier. Cela reste assez théorique,
fonction de la gravité de l’incident sont déterminés à si la partie cartographie n’est pas très détaillée et bien à
l’avance. Il faut appréhender l’impact global de l’incident jour. Le maintien en condition opérationnelle permanent
grave / du sinistre pour choisir les compétences à mobi- de ces dispositifs est primordial pour qu’ils remontent
liser. une information de qualité au jour de l’incident.

Certaines entreprises mettent en place un système de Il serait contreproductif de chercher à automatiser des
gestion « d’incidentologie ». Il s’agit d’un mécanisme processus de gestion de crise dans une période où les
d’escalade systématique déterminé en fonction de la équipes se trouvent forcément « chahutées ». La sim-
durée prévue de l’incident et des préconisations des plicité prime et pousse vers des fiches « réflexes » ou
Métiers qui ont indiqué leur durée de réaction souhaitée. d’aide à la prise de décision. Dans une situation de pa-
Quand la durée de reprise est dépassée, on sort de « nique, il faut pouvoir réagir simplement. L’automatisation
l’incidentologie » pour aller vers un sinistre qui possède totale peut être contre-productive.
une gestion particulière. Les automates d’appel envoient
alors des messages au niveau des intervenants opéra- Il faut aussi se laisser le temps de prendre la bonne
tionnels et décisionnels. décision. Par exemple, un début d’incendie, qui finale-
ment n’en était pas un, a arrêté les climatisations, éteint
Il vaut mieux prendre une bonne décision un peu tard les serveurs, etc. La décision de déclencher le PRA a
qu’une mauvaise un peu vite. Selon la nature du sinistre, été évoquée, suite à l’arrêt brutal des serveurs. Mais la
il existe des workflows différenciés. Les scripts d’expédi- cellule de crise s’est laissée le temps de prendre une
tion d’alertes évitent de nombreuses erreurs humaines. décision, et le site de production a redémarré plus vite
que la mise en service du site de secours. Le passage
• Gestion de crise et détermination des impacts en secours n’a pas été précipité. L’analyse humaine est
du sinistre : très importante.
Mesurer les impacts réels de ce qui vient de se pas-
ser est essentiel. On lutte contre la montre, il faut
prendre les bonnes décisions avec les bonnes infor-

4
• Décision de basculer en secours EAI), il est possible de l’utiliser pour réaliser les synchro-
La prise de décision de basculer sur le site de secours nisations. L’automatisation repose alors sur des scripts
reste de la compétence des cellules de crise. Cette opé- avec des tableaux relativement simples. L’ouverture des
ration n’est donc pas automatisable mais seulement flux et la synchronisation des processus restent plus
pilotable. complexes.

• Reprise d’activité technique, reprise applicative La reprise d’activité métier est plus faiblement automa-
et reprise métier tisable car beaucoup plus coûteuse et très difficile dès
La reprise n’est pas un bloc homogène, elle comporte qu’il y a de l’asynchronisme dans les flux.
trois éléments : reprise technique, reprise applicative et
reprise métier. • Contrôle technique et fonctionnel de la reprise
d’activité
La reprise d’activité technique est très largement auto- Les contrôles techniques et fonctionnels sont automa-
matisable. Mais il faut disposer de plaques techniques et tisables, et il est souhaitable de les automatiser. Les
fonctionnelles cohérentes et homogènes. Plus la plate- contrôles techniques se font au moyen de scripts et des
forme est complexe, plus il sera difficile d’automatiser outils de supervision. En ce qui concerne les contrôles
sa reprise technique. Cependant, en ce qui concerne métier on utilisera surtout les scripts. Mais ce contrôle par
la reprise technique, la boîte à outils est désormais script reste partiel et on demandera toujours à quelques
bien fournie. Bien qu’au sein d’un même silo technique utilisateurs métier de valider la cohérence des données.
(Mainframe, Unix propriétaires, Windows) il existe des Les équipes métier doivent donc être informées à l’avance
solutions, il n’en existe pas réellement de transverses : de l’existence de cette phase de contrôle pour désigner
chaque silo technique propose son approche de l’auto- des groupes de validation.
matisation. Lors de la reprise, les utilisateurs qui n’appartiennent pas
à ces groupes de validation devront être tenus écartés
La reprise d’activité des environnements consolidés de de l’application tant que sa reprise n’a pas été validée.
type Unix propriétaires se rapproche de la reprise d’acti-
vité sur un mainframe. Le redémarrage est très auto- • Fonctionnement en secours
matisé, avec un fort enchaînement des tâches de redé- Nous nous retrouvons ici dans le domaine du fonction-
marrage. Dans des environnements fortement virtualisés nement normal de la Production. Les outils de pilotage
avec VMware, même situation. De façon générale, et d’automatisation doivent être opérationnels comme
l’automatisation du PRA se trouve simplifiée par lesé- sur le site nominal.
volutions des systèmes. Il y a dix ans, conduire un PRA
était beaucoup plus complexe. Actuellement, nous • Retour à une situation normale
avons beaucoup d’outils d’automatisation technique. Le retour à une situation normale est planifié. Il est
Les interventions manuelles s’en trouvent réduites. exécuté dans des conditions préparées à l’avance. Le
pilotage reste nécessaire. L’automatisation utilisée pré-
En termes de reprise applicative, automatiser la reprise cédemment est utilisable dans un contexte plus simple.
d’une application isolée ne pose guère de problèmes,
mais il semble difficile d’automatiser la reprise d’un
ensemble d’applications interdépendantes, et encore
plus d’automatiser la reprise des flux, opération qui
demande en règle générale une intervention humaine.
Pour traiter des milliers de flux, il faut avoir défini des
points de synchronisation, avec des actions à exécu-
ter. Cela peut être automatisé mais au prix d’un énorme
travail de préparation. Il y a là un problème de temps
et de moyens, qui demande de mobiliser en amont les
ressources métier pour la mise au point. Si l’infrastruc-
ture d’échanges est une application à part entière (ESB,

5
5. Conclusion
Comme nous l’avons vu, l’automatisation complète du Le système d’exécution du PRA est donc basé sur un
PRA en tant que tel semble difficilement réaliste au regard écosystème complexe de processus ( gestion d’inci-
de la difficulté de qualification du niveau de criticité de dents, gestion de crise, bascule d’infrastructures, … )
l’incident. Cependant une approche «EPAO» ( Exécution qui nécessite une aide au pilotage. Les outils ne sont
des PRA assistée par ordinateur ) semble acceptable actuellement pas encore totalement matures sur cette
dans l’objectif de raccourcir le temps d’exécution de la vision transverse. Cela donne de la valeur au respon-
bascule. sable PRA /PCA, mais l’oblige à exercer un vrai rôle de
coordinateur …
Retenons que, comme pour un système de contrôle
industriel, le système d’automatisation du PRA doit La confusion dans l’action serait-elle une garantie de
disposer d’un asservissement fort sur l’état du SI. clarté dans la réalisation ? L’art difficile du PRA nécessite
Cela rend sa conception délicate. maitrise, répétition et coordination. Le succès n’existe
qu’à ce prix.

Rédaction : Groupe de Travail PRA-PCA - Assistance Editoriale : Renaud Bonnet, CRiP - Création Fred.lameche - www.anousdejouer.fr
On peut atteindre un haut niveau d’automatisation tech-
nique, mais on ne peut pas automatiser l’expertise qui Finalement, le pilotage des PRA ne prime-t-il pas sur leur
conduit à la prise de décision de la bascule en PRA ni automatisation ? La puissance n’est rien sans maitrise !
la validation par les Métiers de la reprise d’activité, car,
sur ce point, ce sont les Métiers qui ont toujours la main.
L’automatisation du PRA doit être prise en compte dès
la conception de l’application.

Club des Responsables d’Infrastructures et de Production


15 rue vignon 75008 PARIS - contact@crip-asso.fr www.crip-asso.fr

Club de la Continuité d’Activité


73 rue Anatole France 92300 LEVALLOIS PERRET - contact@clubpca.eu www.clubpca.eu

En application de la loi du 11 mars 1957, il est interdit de reproduire ; sous forme de copie, photocopie, reproduction, traduction ou conversion, le
présent ouvrage que ce soit mécanique ou électronique, intégralement ou partiellement, sur quelque support que ce soit, sans autorisation du CRiP.

Vous aimerez peut-être aussi