Académique Documents
Professionnel Documents
Culture Documents
G. Florin
Laboratoire CEDRIC
CNAM
1
PLAN DE L'EXPOSE
- Conclusion.
2
INTRODUCTION: CONCEPTS DE BASE
SURS DE FONCTIONNEMENT
3
Systme sr ("dependable")
Systme rparti sr
4
Terminologie de la sret de
fonctionnement ("Dependability")
5
Dfaillances, pannes
("Failures")
6
Systmes de scurit, systmes critiques
"Safety critical systems"
- Pannes catastrophiques
Elles sont inacceptables
7
Techniques pour la construction de
systmes srs
8
Techniques pour la validation de
systmes srs
9
Les composantes quantitatives de la
sret de fonctionnement
- La fiabilit ('Reliability') -
R(t) = Probabilit pour qu'un systme
soit continment en fonctionnement sur une
priode donne (entre 0 et t).
- La disponibilit ('availability') -
D(t) = Probabilit pour qu'un systme
soit en fonctionnement un instant t donn.
- La maintenabilit ('Maintainability) -
M(t)= Probabilit pour qu'un systme en
panne l'instant 0 soit rpar l'instant t.
- La scurit ('Security')-
S(t) = Probabilit pour qu'un systme
soit continment en fonctionnement non
catastrophique sur une priode donne
(entre 0 et t).
10
Grandeurs moyennes caractristiques
de la sret de fonctionnement
- La disponibilit asymptotique -
La disponibilit aprs une longue dure:
D * = lim t + D (t )
11
Sret de fonctionnement et systmes
rpartis
12
I
13
Modle des systmes rpartis tudis
14
Consquences sur les quipements
matriels
Processeurs corrects
Excution du jeu d'instruction respect.
Respect de l'intgrit des donnes en
mmoire.
Temps de traitement conformes aux
spcifications.
15
Panne franche ("Crash")
Distinction
16
Modles de systmes relativement au
temps
Systmes synchrones
Ide de base
Deux systmes ne peuvent se mettre
agir des vitesses relatives non prvues.
. Les dlais de transmission des
messages sont borns (par une valeur D).
. Il existe une borne suprieure pour le
temps d'excution d'une tape par un
processus.
. Les horloges matrielles ont une
drive borne.
Hypothses temporelles synchrones
La rponse une sollicitation s'effectue
toujours dans un dlai born ou pas du tout.
Systmes asynchrones
On ne connat pas de borne au temps de
rponse une requte qui peut-tre
arbitraire.
Aucune hypothse temporelle n'est
formule.
17
Dtecteurs des pannes franches.
18
Proprits d'un dtecteur de pannes
franches.
Compltude ("Completeness")
Compltude forte
Invitablement tout processus en panne
franche est suspect de manire permanente
par tout processus correct
Compltude faible
Invitablement tout processus en panne
franche est suspect de manire permanente
par un processus correct.
19
Prcision ("Accuracy")
20
Catgories de dtecteurs de pannes
franches selon Chandra et Toueg
Prcision
Invitablement Invitablement
Forte Faible Faible
Compltude Forte
Parfait Fort Invitablement Invitablement
Forte Parfait Fort
P S P S
Faible Invitablement
Faible Q W Q Faible
W
22
Panne temporelle
"Timing, Performance failure"
- Trop tard.
- Trop tt.
23
Panne quelconque ou byzantine
("Malicious, byzantine Failures")
On distingue quelquefois :
24
Classification complmentaire des
pannes byzantines
25
Hirarchisation des classes de pannes
Panne franche:
Pas de rponse une entre
=> Panne transitoire
Panne transitoire:
Un dlai de rponse infini.
=> Panne temporelle
Panne temporelle:
Non respect d'une chance (spec)
=> Panne quelconque
26
II
de redondance
27
Rappel : Architectures redondances
matrielles
CPU CPU
MEMOIRE MEMOIRE
Voies physiques
28
Les diffrents types de redondances
Nombreuses propositions
Nombreux points de vue
Reprises arrires
Redondances temporelles
("Backward Recovery")
- Pour un composant soumis des pannes
transitoires il est courant de tenter de
corriger cette panne par un nombre fix de
tentatives successives.
Ncessite la pose de points de reprise.
29
Reprises avants / Traitement
des exceptions / Poursuite
("Forward Recovery")
30
Techniques de compensation ou de
masquage d'erreurs
Redondances de donnes
31
Redondances spatiales
ou redondances de groupes
32
Diffrentes redondances spatiales
Redondance passive
("Standby redundancy")
("Primary backup")
Objectif poursuivi : tolrance aux pannes
franches de calculateurs.
- Un seul des composants ralise
effectivement les traitements et est affect
aux sorties (le primaire).
- En cas de panne du primaire l'un des
calculateurs inactifs (secondaire) est
slectionn et activ pour prendre en charge
le service.
ACTIF
ENTREES PRIMAIRE
GESTIONNAIRE
DE LA
ENTREES INACTIF SORTIES
SECONDAIRE
REDONDANCE
(COMMUTATEUR)
ENTREES INACTIF
SECONDAIRE
33
Problmes de synchronisation en
redondance passive
Solutions possibles
. Recopie priodique d'informations de
reprise constitues par le primaire pour les
secondaires.
Priodes statiquement prdtermines
Points de reprise applicatifs.
. Rxcution des services fournis depuis le
dernier point de reprise.
Requte
Sauve
Fait
Rponse
Client Primaire Secondaire
34
Redondances actives ou
dynamiques
("Active redundancy")
ACTIF
ENTREES SORTIES
ACTIF
GESTIONNAIRE
ACTIF
DE LA
REDONDANCE
35
Redondance slective active
ENTREES SORTIES
GESTIONNAIRE
ACTIF (secondaire) DE LA
REDONDANCE
COMMUTATEUR
36
Problmes de synchronisation en
redondance slective active
Remarque :
Le gestionnaire de la redondance peut-
tre plus complexe qu'un simple
commutateur. Quand les deux composants
sont actifs il peut choisir d'utiliser les
rsultats de l'un ou de l'autre selon les sites
de rsidence.
37
Redondance massive
Tolrance des pannes quelconques.
ACTIF
ENTREES SORTIES
ACTIF
ACTIF
Voteur
Entres Sorties
Capteurs Actionneurs
38
Problmes de synchronisation en
redondance massive
Remarques:
39
Tolrance aux pannes logicielles
40
III
41
Rappel des diffrentes tapes d'un
mcanisme de tolrance (1)
42
Rappel des diffrentes tapes d'un
mcanisme de tolrance (2)
43
Rappel des diffrentes tapes d'un
mcanisme de tolrance (3)
g) Si la programmation de l'application
organise des donnes rparties partages sur
diffrents sites il faut assurer le contrle de
l'accs concurrent aux donnes (maintien
de la cohrence) pour des donnes
dupliques.
h) Si la programmation de l'application
comporte encore des sites centraux
(redondances slectives) il faut prvoir la
dfaillance de ces serveurs.
44
LA DTECTION DE COMPORTEMENT FAUTIF
45
REPRISE ARRIERE
46
PROTOCOLE D'APPARTENANCE A UN GROUPE
47
LA DIFFUSION ET LE CONSENSUS
48
LE PROTOCOLE DE SYNCHRONISATION
D'HORLOGES
49
LE PROTOCOLE D'LECTION
50
CONCLUSION
51
2 Algorithmes utiliss dans les systmes
tolrants les pannes pour la tolrance.
Exemples vus:
Dtection de panne
Reprises arrire
lection
Diffusion fiable
Gestion des groupes
Vote rparti
Synchronisation d'horloges
Copies multiples
etc....
52
Bibliographie
53