Académique Documents
Professionnel Documents
Culture Documents
Jean-Marc Mercantini
1.1 DEFINITIONS
Le service délivré par un système est son comportement tel que perçu par son (ou ses)
utilisateur(s).
La notion d'utilisateur doit être considérée au sens large, c'est à dire qu'elle représente
aussi bien un opérateur qu'un autre système.
1.2 LA NOTION DE SERVICE
CONCEPTION
DEFAILLANCE SYSTEME
FONCTIONS
ENVIRONNEMENT LE SERVICE
UTILISATEUR SPECIFIE
LE SERVICE
DELIVRE
1.3 LES ENTRAVES A LA SURETE DE FONCTIONNEMENT
1.3.1 La défaillance
Une entité connaît une défaillance lorsqu’elle n’est plus en mesure de remplir sa
(ou ses) fonction(s). Par extension, on considère parfois qu’il y a une défaillance
lorsqu’il y a altération de l’aptitude d’une entité à accomplir une fonction
requise : les tolérances associées doivent alors être définies. Afin de préciser
cette notion de défaillance, on réalise plusieurs classifications des défaillances.
1.3.2 Classification des défaillances
Défaillance critique : défaillance qui entraîne la perte d’une (ou des) fonction(s)
essentielles d’un système et cause des dommages importants au dit
système ou à son environnement en ne présentant, toutefois, qu’un
risque négligeable de mort ou de blessure. (C. Lievens).
COMPOSANT FONCTIONS
Le défaut
La panne
La panne est l'effet fonctionnel local du défaut et elle existe dès que le défaut
apparaît. Elle peut être dormante ou active. Si une panne devient active alors
elle produit une erreur.
1.3.4 Un modèle phénoménologique
L'erreur
Erreur latente
Erreur détectée
Panne dormante
1.4 LES MOYENS D’OBSERVATION
E SYSTEME F
SOUS TEST
SORTIES DE TEST
OBSERVATION
SIGNATURE
1.4LES MOYENS D’OBSERVATION
1.4.1 Le test hors ligne
1.5.1 La fiabilité
D1. C'est l'aptitude d'une entité à accomplir une fonction requise, dans des conditions
données, pendant une durée données.
D2. C'est la mesure de la continuité de l'accomplissement du service, ou, ce qui est
équivalent, du temps avant qu'une défaillance ne survienne.
R(t) = Prob { E non défaillante sur [ 0, t ] }
1.5.2 La maintenabilité
D1. C'est l'aptitude d'une entité à être maintenue ou rétablie dans un état dans lequel elle
peut accomplir une fonction requise, lorsque la maintenance est accomplie dans des
conditions données avec des procédures et des moyens prescrits.
D2. C'est la mesure du temps nécessaire pour remettre en service une entité.
M(t) = Prob { E réparée sur [ 0, t ] }
1.5.3 La disponibilité
D1. C'est l'aptitude d'une entité à être en état d'accomplir une fonction
donnée, dans des conditions données et à un instant donné.
1.5.4 La sécurité
D1. C'est l'aptitude d'une entité à éviter de faire apparaitre dans des
conditions données, des événements critiques ou catastrophiques.
Privilégisation de la technologie
Conception
Qualité des surdimentionnement qualité de structurée
composants des composants fabrication et prudente
1.6.2 La tolérance aux pannes
La panne devient un événement naturel pour le système qui doit être
capable de réagir de façon à pouvoir assurer sa mission.
Redondance structurelle
Détection des erreurs Restauration du système
Localisation des pannes
TEST TEST DETECTION LOCALISATIO DIAGNOSTIC
EN HORS D’ERREURS N DE DE DEFAUTS
LIGNE LIGNE PANNES
E
M
SURET N
O E DE T PANNE
Y FONCTIONNEMEN
R
E T
TOLERANCE N A
INTOLERANC ERREUR
AUX OBSERVATIONS DEFAUT
S ATTRIBUTS V
PANNES
2.1.1 Définitions
D1. Une expérience est qualifiée d'aléatoire si on ne peut prévoir par avance son
résultat et si, répétée dans des conditions identiques, elle peut donner lieu à des
résultats différents. Nous appellerons w le résultat d'une expérience et W l'ensemble
de tous les résultats possibles. W est l'ensemble fondamental ou encore l'univers de
tous les possibles.
D2. Un événement est une assertion ou proposition logique relative au résultat de
l'expérience.
D4. A1, A2, ..., An, forment un système complet d'événements si les parties A1, A2,
..., An, de W constituent une partition de W :
i j, Ai I A j
U A
i
2.1.3 Lois de probabilités conditionnelles, indépendance.
A B
Pr { A B}
Pr { A / B } = (6)
Pr { B }
2.1.3.2 Indépendance de deux événements
Prob { A B } (7)
P2. Si Prob{A / B} = Prob{A} alors = Prob{A}
Prob { B }
Soient A1, A2, ..., An, des événements ; ils sont dits mutuellement indépendants si
pour toute partie I de l'ensemble des indices allant de 1 à n on a :
⎧n
⎪ ⎧n ⎫
⎫
⎪ ⎪
Pr⎨
⎪
Ai⎬ 1 ⎨ Ai ⎬
Pr
⎪⎩i 1 ⎪ i1 ⎪
⎩ ⎭
⎪⎭
⎧ n ⎫
⎪ Ai⎬ ⎪
1 Pr⎨
⎪⎩i1 ⎪⎭
n i1
1
Pr
Ai
1.4 Les formules de BAYES
Première formule :
Prob { A / B } . Prob { B }
Prob { B / A } = Prob { A }
Prob { B }
Prob{B / A} =
Prob { A B}
Prob { A } } Prob{A/B} . Prob{B} = Prob{B/A} . Prob{A}
La deuxième formule est obtenue en considérant un système complet d'événements
B1, B2, … Bi, … Bn, et permet de calculer l’expression de Pr{Bi/A}.
D’où l’expression :
n n
PrA Bi PrA / Bi.PrBi PrA
i1 i1
D’où la deuxième formule de Bayes :
Prob { A / Bi } . Prob { Bi } (13)
Prob { Bi / A } =
i Prob{A / Bi} . Prob{Bi}
Exercice. Dans une usine, trois machines fabriquent des boulons de même type. La
machine M1 produit 0,3% de boulons défectueux, la machine M2 produit 0,8% de
boulons défectueux et la machine M3 produit 1% de boulons défectueux. Pour
répondre à une commande de 1000 boulons, l’usine produit 500 boulons avec M1, 350
boulons avec M2 et 150 boulons avec M3. Le service de contrôle qualité tire un boulon
au hasard parmi les 1000. Le boulon étant défectueux, on demande de calculer la
probabilité pour qu’il provienne de M1, de M2 ou de M3.
2.2 La fonction de probabilité ou fonction de distribution
Définition : La fonction p(t) qui prend les valeurs p(t1), p(t2), …, p(tn) est appelée fonction de
probabilité ou fonction de distribution. On utilise aussi l’écriture :
p(ti) = Prob [T=ti] qui se lit probabilité que la variable aléatoire T soit égale à ti.
La fonction de distribution
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
p(x)
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
P[X<=x]
Dans le cas où T est la variable aléatoire associée à la durée de vie d’une entité, la fonction de
répartition représente la DEFIABILITE et on la note F(t). On l’appelle également la fonction de
DEFAILLANCE.
F(t) = p(t) = P [ T t ] = P { E défaillante sur [0, t] }
Si T est la variable aléatoire associée à la durée de réparation d’une entité, alors la fonction représente
la probabilité que l’entité soit réparée sur [0, t]. Elle représente la MAINTENABILITE.
Le même raisonnement que précédemment nous amène à la fonction de répartition complémentaire :
P [ T > t ] qui représente la probabilité que la durée de vie d’une entité soit supérieure à une date
donnée. Cette fonction représente la fonction de FIABILITE ou encore fonction de SURVIE. On la
note R(t).
R(t) = P [ T > t ] = 1 – F(t) = P { E non défaillante sur [0, t] }
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
P[X>x]
Lorsque T représente la variable aléatoire associée à la durée de réparation, cette fonction représente
l’IMMAINTENABILITE : P { E non réparée sur [ 0, t] }
Remarques :
R1. Les fonctions M(t) et F(t) sont croissantes monotones et varient de 0 à 1 sur l’intervale [0, +
∞[, de plus :
C’est une certitude que l’entité sera réparée et c’est une certitude que l’entité sera défaillante.
R2.
R(t) = 1 – F(t) = 1- p(ti)
tit
R(t-1) = 1 – F(t-1) = 1 – p(ti)
tit 1
M (t) M (t 1)
pc(t) = 1 M (t 1)
2.4 La densité de probabilité
Supposons qu’une entité ait déjà effectué t heures de service et qu’on veuille calculer la probabilité de
sa défaillance dans l’intervalle de temps dt qui suit.
L’expression pc(t) = (t) dt représente la probabilité qu’une entité ayant atteint l’age t sans
défaillance, ait une défaillance dans l’intervalle de temps ] t, t+dt].
(t) représente le taux de défaillance conditionnel instantané. La condition étant que le composant ait
déjà effectué t heures de service.
Dans le cas d’une étude de la maintenabilité, (t) s’appelle le taux instantané de
réparation et il est noté (t) :
lim pc(t) / t = pc(t) / dt = (t)
t 0
Ainsi, (t) dt représente la probabilité qu’une entité ayant atteint la date t sans
réparation, soit réparée dans l’intervalle de temps ] t, t+dt ].
2.5 Relation entre (t) et R(t)
dR(t)
pc(t R ( t ) R( t
lim = lim = - dt = (t)
) t ) R(t)
t t.R(t)
t 0 t 0
d M (t)
(t)dt 0
M (t)
M(t) = 1 – k exp [- t
0 (t).dt ]
Remarque sur λ(t)
La courbe en baignoire
Taux
instantané
de défaillance
(t)
0
λ(t) R(t)
1
λ0
On dit que la variable aléatoire T (la durée de vie) est distribuée de façon exponentielle
Ou encore que la loi de distribution est de type exponentielle
La loi de Weibull :
Remarques :
EF
HF Réparation
A(t dt ) A(t)
– A(t) . (t) + (t) – A(t) . (t)
dt
Ce qui nous amène à l’équation différentielle suivante :
dA(t )
A(t ).[ (t) (t )] (t )
dt
Déterminons maintenant l’expression de la disponibilité en fonction du temps, suivant
qu’à l’instant initial l’entité est disponible ou pas : A(0) = 1 ou A(0) = 0
Nous considèrerons (t) = et (t) =
Soit alors :
dA(t)
A(t).[ ]
dt
k A(0).( )
Pour A(0) = 0 nous obtenons :
A(t)
[1 e ( )t ]
Pour A(0) = 1 nous obtenons :
A(t)
e( )t
A(t)
A(0) = 1
A(0) = 0
Remarques :
1
lim A(t) 1
MTTF
t 1 1 1 MTTF MTTR
lim A(t) 1 1 MTTF MTTR
t MTTF MTTR MTTF MTTR
Ces deux relations caractérisent la disponibilité intrinsèque d’une entité, telle qu’elle a été
conçue. Lorsque l’entité est en phase d’exploitation, nous parlerons de disponibilité
opérationnelle qui tient compte de la logistique mise en œuvre pour maintenir cette entité
en état d’accomplir son service.
4. La disponibilité opérationnelle
DISPONIBILITE OPERATIONNELLE
La disponibilité intrinsèque se calcule de la façon suivante :
Do
TCBF
TCBF TCI
MDT : Durée moyenne d’indisponibilité (Mean Down Time). Elle couvre les
phases suivantes : la détection de l’erreur, la réparation du défaut, la
remise en service.
MTBF : Durée moyenne entre deux défaillances consécutives d’une entité réparée
(Mean Time Between Failure)
Remise en service
1ère 2ème
Défaillance Défaillance
MTBF
Calcul de la date moyenne d’apparition d’une avarie (le MTTF)
L’age moyen d’apparition de la première défaillance d’une entité est définie comme la
valeur attendue de la variable aléatoire T. Elle est obtenue en calculant la moyenne
pondérée des valeurs que prend T. Les poids sont les probabilités que ces valeurs soient
prises :
Et
MTTF =
0 .
x. f (x) dx
0R(x).dx
Exercice :
calculer le MTTF dans le cas d’une loi exponentielle : R(t) exp(0t)
MTTR = M (pour T continue)
0(x).dx
Exercice :
Calculer le MTTR dans le cas où (t) = 0 = Cte
3. LA TOLERANCE AUX PANNES
3.1 Introduction
La tolérance aux pannes est vue comme une propriété de l'architecture du système, qui permet à la
machine logique d'accomplir ses tâches spécifiques correctement, du point de vue de l'utilisateur,
alors que son système physique, fait l'objet de divers types de pannes et de défaillances de
composants [4].
L'intérêt de construire des systèmes qui tolèrent les pannes remonte aux années 1940 où les
premières machines à calculer furent construites en utilisant des relais. Les fondements théoriques
sur l'impact des redondances ainsi que le développement formel des concepts du calcul tolérant les
pannes, remontent aux années 1950. Les premières architectures tolérantes aux pannes ont été
développées pour des applications limitées aux secteurs militaires, spatiaux, et des
télécommunications.
Les années 1980 ont vu le nombre des domaines d'application augmenter de façon considérable et
s'étendre jusqu'aux applications commerciales. Deux développements parallèles sont à l'origine de
l'intérêt porté aux calculateurs tolérants les pannes :
- la chute des coûts du matériel informatique,
- l'augmentation de la dépendance du public vis à vis des systèmes informatisés.
Evolution de la Sûreté de Fonctionnement en Informatique
Facteur
UNIVAC 1 TANDEM
d'amélioration
Date de la mesure 1951 1987
Indisponibilité 0,17 2,8 . 10
-5
6,2 . 10 3
MTTF ( en heures ) 66 2,4 . 10 5 3,6 . 10 3
nb d'instructions 8 15 6
exécutées entre deux 4,7 . 10 2,6 . 10 5,4 . 10
arrêts matériels
3.2 LES DOMAINES D’APPLICATION
Les Systèmes à Sécurité Critique (Safety Critical Systems en anglais) sont constitués
d’une partie commande numérique sur laquelle repose la sécurité du système et de son
environnement. Dans la plupart des cas, la commande est également « temps réelle ».
On retrouve ces systèmes dans les domaines : industriels, médicaux, du transport, etc
…
A titre d'exemple nous pouvons citer le cas de la navette spatiale dont le bon
fonctionnement dépend totalement de ses ordinateurs. Une mission en cours
d'exécution ne peut plus être avortée, si les calculateurs sont défaillants. La tolérance
aux pannes est obtenue en utilisant une architecture redondante constituée de cinq
calculateurs dont le principe est décrit ci dessous.
M1 S1
M2 S2 Interface de puissance
VOTE P.O
M3 S3
S4
M4
Ci
Vote
M5 S5 Si
Mi
3.2.2.- Les applications à longue durée de vie
Ce type d'application correspond à des missions où les équipements ne seront jamais maintenus, ou bien,
lorsque les dates d'intervention sont déterminées à l'avance et avec des espacements de trés longue durée.
Nous pouvons citer en exemple les vols spatiaux non habités où les architectures informatiques sont
fortement redondantes de façon à maintenir un niveau de performance minimum jusqu'à la fin de la
mission. Ces systèmes n'occupent pas forcément une fonction à caractère critique.
L' "Orbiting Astronomical Observatory" ( OAO ) illustre ce type d'application où les concepteurs ont
implanté quatre copies de chaque composant discret : résistances, capacités, transistors. Le tout étant
organisé suivant un réseau qui peut tolérer tout défaut unique de type court-circuit ou circuit ouvert.
Elles correspondent à des missions où un arrêt temporaire de la fonction en question peut être toléré. Nous
pouvons citer en exemple le cas d'un système de commutation téléphonique conçu par un laboratoire de
"Bell Telephon" ; le cahier des charges précisait que l'indisponibilité ne devait pas dépasser deux heures,
pour une durée de service de quarante ans.
Les applications où les accès aux informations en ligne tels que les réservations d'hôtels, d'avions et de
trains, sont les principales responsables de l'emploi de telles architectures.