Vous êtes sur la page 1sur 17

Tolrance aux pannes dans les systmes

distribus
Alain BUI
Professeur
Dpartement de Mathmatiques et Informatique
alain.bui@univ-reims.fr

Alain BUI -- Universit de Reims 1

Introduction
Nombre croissant de composants dans un systme =>
Probabilit plus grande que des composants tombent en
panne pendant lexcution de lalgorithme
Causes diverses
Erreurs de conception, Accidents, Malveillances etc.

Objectif: viter de relancer un algorithme aprs chaque


panne => concevoir des algorithmes capables de
fonctionner malgr des pannes.
Alain BUI -- Universit de Reims 2

Systme Distribu: panne => systme est affect


partiellement et improbable quil le soit en totalit
Ide de solution: les sites corrects prennent en charge
les tches des sites dfaillants
Consquence: perte de performances mais pas de
fonctionnement erron

Alain BUI -- Universit de Reims 3

Dfinition
erreurs => dfaillances => fautes
Un composant est dfaillant sil ne rpond plus sa
spcification (composant en SD = lien ou site)
Une faute ou panne dsigne une dfaillance temporaire
ou dfinitive dun ou plusieurs composants du systme

Alain BUI -- Universit de Reims 4

Spcifications
Spcifications pour les sites
Si un site na pas atteint un tat final, il finira par excuter une
autre tape de lalgorithme

Spcifications pour les liens de communications


Un site j reoit un message dun site i au plus une fois et
seulement si i a prcdemment envoy le message j
Si i a envoy un message j et j excute infiniment des tapes
de lalgorithme alors j finira par recevoir le message de i.

Alain BUI -- Universit de Reims 5

Algorithmes Robustes
Robuste : Garantir la correction du comportement
global du systme vis vis des spcifications de
lalgorithme
Spcifications dfinies en terme dinvariants qui doivent tre
constamment vrifis
Aucun dysfonctionnement nest tolr pour le systme
Algos robustes masquent les fautes
Approche dite pessimiste

Alain BUI -- Universit de Reims 6

Algorithmes Robustes : exemple comportemental


Exclusion Mutuelle
Proprits de sret et de vivacit toujours vrifies
Par exemple, on ne se retrouvera jamais avec une
configuration o 2 sites sont en mme temps en SC

lection
Un et un seul site sera lu
Par exemple, aucun moment il existe une configuration o
simultanment plusieurs sites dcident quils sont lus.

Alain BUI -- Universit de Reims 7

Algorithmes auto-stabilisants
Finir par garantir la correction du comportement global
du systme vis vis des spcifications de lalgorithme
Systme tolre certaines priodes de dysfonctionnement
Algorithmes ne masquent pas les fautes
Approche dite optimiste

Alain BUI -- Universit de Reims 8

Algorithmes Auto-stabilisants: exemple comportemental


Exclusion mutuelle
Proprit de sret non vrifi pendant un intervalle de temps
Deux sites peuvent se retrouver en SC
MAIS au bout dun moment le systme retrouve un
comportement correct (lalgorithme retrouve de lui mme un
tat valide)

Alain BUI -- Universit de Reims 9

Classification des fautes


Des critres
Origine de la faute
Type de composant : ex. lignes ou sites

Cause de la faute: bnignes ou malignes


Dfaillances temporaires ou dfinitives : si le composant fonctionne il
fonctionne correctement
ex. ligne transmet le msg ou non / site traite le msg ou non
Dfaillances byzantines : comportement arbitraire du composant
dfaillant. Si le composant fonctionne, il ne fonctionne par
correctement linsu des autres composants.
ex. site rpond blanc certains sites et noir dautres.

Alain BUI -- Universit de Reims 10

Classification (suite)
Dure de la faute
Dfinitive
Temporaire

Dtectabilit de la faute
Dtectable localement. Rparation par le site lui-mme.
Non dtectable localement. Rparation ncessite change de messages.

Diffrentes classification selon ces critres, en voici une

Alain BUI -- Universit de Reims 11

Une hirarchie
Sites
Site mort-n : site nexcute aucune instruction de son algo.
Site en panne franche : site fonctionne correctement jusqu
lapparition de la panne et cesse totalement de fonctionner.
Site byzantin : comportement arbitraire.

Mort-n Panne franche Byzantin

Rsultat dimpossibilit

Rsultat de faisabilit
Alain BUI -- Universit de Reims 12

Typologie
Panne franche
Composant fonctionne correctement puis panne et cesse
immdiatement de fonctionner = panne permanente
Panne franche de site
Coupure dune ligne => changement de topologie du rseau

Alain BUI -- Universit de Reims 13

Panne transitoire
Comportement erron des composants pendant une certaine
priode. Comportement correct ensuite.
On peut distinguer si la panne napparat quune fois ou plus ou moins
priodiquement
Corruption mmoire
Annulation dune transaction
Perte de messages sur une ligne

Panne byzantine
Toute panne engendrant une comportement scartant des
spcifications
Alain BUI -- Universit de Reims 14

Robustes vs Auto-stabilisants
Fautes transitoires Fautes dfinitives Masquant
AS

OUI

Robuste NON

NON

NON

OUI

OUI

2 approches complmentaires
Choix dpend du problme rsoudre

Alain BUI -- Universit de Reims 15

Alain BUI -- Universit de Reims 16

Alain BUI -- Universit de Reims 17

Vous aimerez peut-être aussi