Vous êtes sur la page 1sur 54

COURS SURETE DE

FONCTIONNEMENT
3° ANNEE
2008-2009

G.ZWINGELSTEIN
2
Avant-propos

Ce cours présente les principales composantes de la sûreté de fonctionnement et un


grand nombre d’outils et de méthodes. Il n’est nullement exhaustif. Le lecteur pourra se
reporter aux références bibliographiques (les premières références en particulier) pour obtenir
une appréciation globale de la sûreté de fonctionnement, et quelques précisions concernant les
méthodes illustrées par des exemples. L’objectif est plutôt de montrer que la sûreté de
fonctionnement est devenue un domaine très étendu faisant appel à de nombreuses spécialités,
d’où son approche difficile tant elle revêt de nombreuses facettes en gardant un esprit de
globalité. Cette tendance est encore en pleine évolution et s’étend encore, de nombreux
groupes de travail (ISdF, Institut de Sûreté de Fonctionnement, etc...) se penchant sur ses
différents aspects.

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 1
Sommaire

1. Introduction
1.1. Bref historique

2. Définitions et concepts
2.1. Notions et concepts de base
2.2. Systèmes, composants et défaillances
2.3. Notions et concepts complémentaires

3. Analyse prévisionnelle des dysfonctionnements des systèmes


3.1. Principe
3.2. Etapes d’une analyse en sûreté de fonctionnement
3.3. Méthodes d’analyse en sûreté de fonctionnement

4. Approche opérationnelle : données de sûreté de fonctionnement


4.1. Les données de fiabilité
4.2. Les banques de données

5. Démonstrations/Exemples
5.1. Définition du taux de défaillance en fonction de la fiabilité
5.2. Définition du taux de remise en service en fonction de la maintenabilité
5.3. Formulation intégrale des durées moyennes MTTF et MTTR
5.4. Les grandeurs de sûreté de fonctionnement pour une entité réparable
5.5. Etude d'un système à 2 composants identiques à redondance active
5.6. Etude d'un système à l'aide d'un arbre de défaillance

Références bibliographiques

Annexe 1 : Abréviations

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 2
1. Introduction

La sûreté de fonctionnement est apparue récemment dans l’histoire, et s’est développée


ème
au cours du XX siècle pour être un domaine incontournable actuellement pour les
industries à risques (en premier chef, l’industrie nucléaire et les industries chimiques) mais
aussi de plus en plus pour toute l’industrie en raison de sa corrélation avec la notion de
qualité, les problèmes ergonomiques (relation homme-machine) et l’impact sur
l’environnement.

1.1. Bref historique

1.1.1. Prémices et balbutiements (jusqu’aux années 30)


− ère industrielle (XIXème siècle − début XXème siècle)
approche intuitive : mises en parallèle, redondance (chemin de fer, systèmes
mécaniques puis électriques)
− développement avec les transports aériens (début XXème siècle, fin 1ère guerre
mondiale)
approche statistique, notion de taux de défaillance : équipements des avions (moteurs)
− apparition de la théorie de la fiabilité (années 30) : aspect prévisionnel

Quelques accidents marquants...


➔ Delft (Pays-Bas, 1654) : fabrique de poudre, nombreuses victimes
➔ Paris (1794) : fabrique de poudre, plus de 1000 victimes
➔ Meudon (8/5/1842) : chemins de fer, 150 victimes
➔ Titanic (14/4/1912) : naufrage, 1490 victimes
➔ Oppau (Allemagne, 21/9/1921), usine de salpêtre et gaz : 561 victimes

1.1.2. Débuts (années 40 et 50)


− deuxième guerre mondiale : étude de fiabilité des fusées V1 de Von Braun (loi de
Lusser, formulation de Pieruschka)
− amélioration de la qualité (contrôle − qualité), loi de Murphy : “ if anything can go
wrong, it will ” (1949)
− développement de la fiabilité surtout aux Etats-Unis en électronique (applications
militaires) : commission AGREE (Advisory Group on Reliability of Electronic
Equipment)

Quelques accidents marquants...


➔ Tessenderlo (Belgique, 1942) : dépôt de nitrate d’ammonium, 200 victimes

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 3
➔ Le Mans (13/6/1955) : piste automobile, automobile partant dans la foule, 82
victimes
➔ Tcheliabinsk 40 (Kychtym, Oural, URSS, 29/9/1957) : explosion, déchets
radioactifs

1.1.3. Elargissement des applications (années 60)


− apparition de nouveaux outils et méthodes : Arbres des Causes (aéronautique,
A. Watson puis Haasl, NASA : Gemini, Apollo), Analyse des Modes de Défaillance et
de leurs Effets (aéronautique), Méthode des Combinaisons de Pannes (SNIAS :
Concorde, puis Airbus), et méthode THERP (Technique for Human Error Rate
Prediction, A.D. Swain)
− apparition de normes (Department of Defense, USA, et CEI)
− publications de tables de taux de défaillance des équipements
− création de la première revue spécialisée : IEEE Transaction on Reliability

Un accident marquant...
➔ Torrey Canyon (Seven stones, Angleterre, 18/3/1967) : 119000 t de brut, marée
noire

1.1.4. Développements tant prévisionnels qu’opérationnels (années 70)


− analyses de risques pour les centrales nucléaires (USA, France), étendues à l’industrie
chimique (pétrochimie, Convay Island, Angleterre)
− nombreuses collectes de données de fiabilité (banques de données)
− essais de dispersion de gaz et d’explosions (essais AMEDE, EDF et CEA)
− normes internationales de la CEI
− nouvelles méthodes : Méthode de l’Arbre des Conséquences,...

Quelques accidents marquants...


Seveso (Italie, 10/7/1976) : usine ICMESA (Hoffman-Laroche), vapeurs de dioxine,
population exposée (36000 personnes)
➔ Three Mile Island (Pennsylvanie, USA, 28/3/1979) : fuites
➔ Mississauga (Canada, 10/11/1979) : chemins de fer, émanations toxiques,
évacuation de 250000 personnes

1.1.5. Nouvelles méthodes et extension à toute l’industrie (années 80−90)


− développement de la notion de qualité (création de l’AFCERQ)
− nouvelles méthodes et nouveaux moyens : réseaux de Petri, simulation...; pour les
facteurs humains : HCR, HEART; utilisation de logiciels de calcul de fiabilité;
modélisation et simulation des accidents (dispersion de gaz...)

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 4
− extension à toutes les industries (automobile, industries chimiques...)
− essais à grande échelle (Thorney Island, 1982-1984), collecte de fiabilité
− “ Directive Seveso ” (CEE 82/501, 24/6/1981) : études de risque des installations
− élargissement à l’étude générale de la vie d’un système, à la prévention et la
minimisation des facteurs humains

Quelques accidents marquants...


➔ Bhopal (Inde, 3/12/1984) : usine de pesticides, 2000 victimes officiellement
➔ Mtogura (Japon, 12/8/1985) : Boeing 747 écrasé, 524 victimes
➔ Tchernobyl (URSS, 26/4/1986) : explosions puis fonte d’un réacteur et fuites...
➔ Piper Alpha (mer du Nord, G.B., 1988) : plate-forme pétrolière, incendie,
167 victimes
➔ Exxon Valdez (Alaska, 24/3/1989) : 40000 t de brut, marée noire

2. Définitions et concepts [1,5,6]

2.1. Notions et concepts de base


Les notions et concepts introduits dans ce paragraphe sont présentés dans l’optique
d’étudier des “ systèmes techniques ”. Les facteurs humains sont sommairement introduits au
§ 3.3.4. et nécessiteraient des définitions appropriées concernant la fiabilité, disponibilité
etc...(cf. [1]).

2.1.1. Notion de Risques


Les circonstances et les conséquences des catastrophes et accidents sont variables. Elles
montrent que le risque présente deux aspects : probabilité et conséquences. Au niveau des
conséquences, elles se caractérisent par la sécurité : protection des personnes, de
l’environnement mais aussi protection de l’outil de production (aspect économique, et par
extension social).
Deux voies peuvent être pratiquées pour réduire les risques :

− diminution de la probabilité d’occurrence de “ l’événement indésirable ”


− atténuation des conséquences de “ l’événement indésirable ”

2.1.2. Sûreté de fonctionnement


La sûreté de fonctionnement est également appelée Science des “ défaillances ”.
D’autres désignations existent suivant le ou les domaines d’application : analyse de risque
(milieu pétrolier), aléatique, cyndinique (Science du Danger), FMDS (Fiabilité,
Maintenabilité, Disponibilité, Sécurité, RAMS en anglais)... Elle se caractérise à la fois par
l’étude structurelle (statique) et dynamique des systèmes du point de vue prévisionnel, mais

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 5
aussi opérationnel et expérimental (essais, accidents), en tenant compte des aspects
probabilités et conséquences des défaillances. Cette discipline intervient non seulement au
niveau du produit fini (système existant) mais aussi au niveau conceptuel pour la réalisation
d’un système ou la connexion de plusieurs sous-systèmes (surtout s’ils sont de natures
différentes).
La sûreté de fonctionnement consiste à connaître, évaluer, prévoir, mesurer, et maîtriser
les défaillances des systèmes. Les grandeurs fondamentales utilisées dans cette discipline sont
définies dans les paragraphes suivants. Les termes spécifiques utilisés dans les définitions qui
suivent sont également normalisés (norme NF X 60-500, cf. [5,6]).

2.1.3. Fiabilité (Reliability)

Norme NF X 60-500
Aptitude d’une entité à accomplir une fonction requise,
dans des conditions données, pendant un intervalle de temps donné.

L’entité (E) désigne un composant, sous-système ou système et la fonction requise est la


ou les fonctions que doit accomplir le dispositif pour pleinement remplir la tâche qui lui est
assignée.
Par extension, on appelle également fiabilité la probabilité associée R(t) à cette notion
alors qu'elle n'en est qu'une mesure. Elle est définie par :
R(t) = P(E non défaillante sur la durée [0,t])

L’aptitude contraire est appelée défiabilité, et est définie par : R ( t ) = 1 − R ( t )


On distingue plusieurs types de fiabilités (termes spécifiques) :

− la fiabilité opérationnelle (observée ou estimée) déduite de l’analyse d’entités


identiques dans les mêmes conditions opérationnelles
− la fiabilité prévisionnelle (prédite) correspondant à la fiabilité future d’un système et
établie par son analyse connaissant les fiabilités de ces composants
− la fiabilité extrapolée déduite de la fiabilité opérationnelle par extrapolation ou
interpolation pour des conditions ou des durées différentes.

Une grandeur moyenne associée à la fiabilité souvent utilisée est le temps moyen de
fonctionnement d’une entité avant la première défaillance, Mean operating Time To Failure
(MTTF). On peut écrire (sous certaines conditions mathématiques, cf [1] et § 5.3.) :

+∞
MTTF = ∫0 R(t).dt
© Gilles Zwingelstein « Sûreté de Fonctionnement »
page 6
Définition du taux de défaillance en fonction de la fiabilité

La définition du taux de défaillance (norme NF X 60-500) donnée au § 2.2.2. peut


s'exprimer ainsi :

λ (t) = lim P(E déf.sur[t,t + ∆ t]sachant que E non déf.sur[0,t]) / ∆ t


∆ t→ 0

En utilisant la formule de Bayes sur les probabilités conditionnelles, on peut réexprimer


l'égalité ci-dessus :

P(E déf.sur[t,t + ∆t]et E nondéf.sur [0,t])


λ (t) = lim
∆t→ 0 ∆t.P(E nondéf.sur [0,t])

Au dénominateur le terme P(E non déf. sur [0,t]) = R(t) par définition.
L’analyse de P(E déf.sur[t,t + ∆t]et E nondéf.sur [0,t]) conduit à conclure qu’elle est
équivalente à P(E déf.sur[t,t + ∆t]) . En effet si l’on s’intéresse au comportement de l’entité E
entre [t, t+∆t], c’est qu’elle fonctionnait à l’instant t.
La probabilité au numérateur pouvant également s'écrire soit par :
F [t + ∆t] − F [t] ou
(1- F[t + ∆t]) − (1- F [t] )
:
F(t + ∆t ) − F(t)
λ (t) = lim
∆t→ 0 ∆t.(1− F(t))

(1 − R(t + ∆t)) − (1 − R(t)) R(t) − R(t + ∆t)


λ (t) = lim = lim
∆t→ 0 ∆t.R(t) ∆t→0 ∆t.R(t )

λ(t) est donc mathématiquement une densité de probabilité conditionnelle et s’écrit (cf.
démonstration § 5.1.) :
R(t) − R(t + ∆t) R′ (t)
λ (t) = lim =−
∆t→ 0 ∆t.R(t) R(t)

ou bien
F(t + ∆t ) − F(t) f (t)
λ (t) = lim =
∆t→ 0 ∆t.(1− F(t)) 1 − F(t)
(En effet en calcul différentiel si dt est petit : y(t+dt)-y(t)=y’(t) dt)
La fonction −dR(t)/dt est appelé densité de défaillance et le terme λ(t)dt taux de hazard
Relations entre R(t), F(t), f(t) et λ(x)
du
du du ∫
d (Ln(u)) = ∫
= Ln(u) ⇒ u = e u
'

u u

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 7
R ′(t) d
λ (t) = − = − Log(R(t))
R(t) dt
t

∫ λ(u )du = −[Log( R(u))] = −[Log (R (t )) − Log( R (0))]


t
0
0
t
t − ∫ λ (u) du

∫0 λ(u)du = −Log(R(t)) ⇒ R(t) = e 0

Comme on mesure la fiabilité à partir de t = 0, il est évident que R(o) = 1, d’où

F(t) R(t) f(t) λ(t)


t t
F(t) 1 1-R(t) − ∫ λ (u )du
∫0 f (u )du 1−e 0

∞ t
R(t) 1-F(t) 1 − ∫ λ (u )du
∫t f (u )du e 0

dF(t) dR(t) t
f(t) − 1 − ∫ λ (u) du
dt dt λ (t)e 0

λ(t)
dF(t) R ′(t) f (t)
− +∞
1
dt R(t)
1 − F(t) ∫ f (u)du
t

2.1.4. Disponibilité (Availability)

Norme NF X 60-500
Aptitude d’une entité à être en état d’accomplir une fonction requise dans des
conditions données, à un instant donné ou pendant un intervalle de temps donné, en
supposant que la fourniture des moyens extérieurs nécessaires soit assurée

La probabilité associée A(t) à l’instant t est aussi appelée disponibilité et s’exprime par :

A(t) = P(E non défaillante à l’instant t)

L’aptitude contraire est appelée indisponibilité, et est définie par : A (t ) = 1 − A (t )

ATTENTION : la disponibilité A(t) est une grandeur instantanée. Le système peut


donc avoir subi une panne puis une réparation avant l’instant t, contrairement à la fiabilité

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 8
R(t) qui est une grandeur mesurée sur une durée (intervalle [0,t]). La confusion entre
disponibilité et fiabilité est due au fait que ces deux concepts sont équivalents quand le
système est non réparable.
Comme la fiabilité, plusieurs types de disponibilités peuvent être utilisées :
− la disponibilité instantanée prévisionnelle (définie ci-dessus)
− la disponibilité moyenne : moyenne sur un intervalle de temps donné [t1,t2] de la
disponibilité instantanée prévisionnelle, ou mesurée en phase opérationnelle par la
durée de fonctionnement effectif divisée par la durée donnée.

Les grandeurs moyennes associées à la disponibilité le plus souvent utilisées sont :


− le Temps Moyen de Disponibilité (TMD), Mean Up Time (MUT) : durée moyenne de
fonctionnement après réparation
− le Temps Moyen d’Indisponibilité (TMI), Mean Down Time (MDT)

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 9
2.1.5. Maintenabilité (Maintainability) et Maintenance (Maintenance)

Norme NF X 60-500
Dans les conditions données d’utilisation, aptitude d’une entité à être
maintenue ou rétablie, sur un intervalle de temps donné,
dans un état dans lequel elle peut accomplir une fonction requise, lorsque la
maintenance est accomplie dans des conditions données, avec des procédures
et des moyens prescrits.

La maintenance étant définie par :

Norme NF X 60-500
Ensemble des actions destinées à maintenir ou rétablir une entité dans un
état dans lequel elle peut accomplir une fonction requise

La maintenabilité est caractérisée par une probabilité M(t) (également appelée


maintenabilité) que la maintenance d’une entité E accomplie dans des conditions données,
avec des procédures et des moyens prescrits, soit achevée au temps t, sachant que E est
défaillante au temps t = 0 :
M(t) = P(la maintenance de E est achevée au temps t)
= 1 − P(E non réparée sur la durée [0,t])

Il s’agit donc d’un équivalent à la fiabilité mais appliqué à la réparation au lieu de la


défaillance.
L’immaintenabilité correspond à la probabilité contraire, soit : M ( t ) = 1 − M ( t )

Les grandeurs moyennes associées à la maintenabilité le plus souvent utilisées sont :


− le temps Moyen de Fonctionnement Entre Défaillances (FMED), Mean operating
Time Between Failures (MTBF), on a MTBF = MUT + MDT.
− le Temps Moyen avant Remise en Service ou temps d’indisponibilité après
défaillance (TMRS), Mean Time To Restoration (Mean Time To Repair, MTTR). On
peut l’exprimer par (sous certaines conditions mathématiques, cf [1] et § 5.3.) :

+∞
MTTR = ∫
0
[1− M(t)].dt

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 10
2.1.6. Sécurité
La sécurité restant un terme très général, il n’existe pas actuellement de consensus pour
une normalisation. La définition de la probabilité associée reste donc dépendante des
approches. Une définition est donnée par la référence [1] :

Aptitude d’une entité à éviter de faire apparaître, dans des conditions données, des
événements critiques ou catastrophiques.

L’évaluation de la sécurité est actuellement encore limitée et est effectuée pour les
installations chimiques , les centrales nucléaires, les plates-formes pétrolières et
l’aéronautique. Elle est basée sur des études statistiques des impacts des accidents (réels,
expérimentés ou simulés) sur l’homme et l’environnement (notion de gravité).

2.1.7. Schémas explicatifs pour quelques grandeurs moyennes


Pour préciser les définitions des grandeurs moyennes utilisées en sûreté de
fonctionnement, deux schémas sont présentés figure 1. Attention, ces schémas ne sont pas
normalisés, ils ne présentent que l’usage courant. A noter que la notion de MTTR peut être
étendue aux durées entre défaillance et remise en service, la différence avec la MDT n’étant
alors plus que les durées d’indisponibilité dues aux contrôles de maintenance.

2.2. Systèmes, composants et défaillances

2.2.1. Systèmes et composants


Du point de vue classique (déterministe, donc non systémique), un système est un
ensemble déterminé d’éléments discrets (composants) interconnectés ou en interaction. Il faut
remarquer que cette définition ne fait pas paraître l’aspect dynamique d’un système
susceptible d’évoluer dans le temps. Ainsi, une défaillance spécifique d’un composant donné
peut avoir un effet différent suivant l’instant auquel elle se produit. Les composants sont
considérés comme non décomposables et correspondent aux limites de résolution de l’analyse
du système. De même, le choix des limites d’extension du systèmes sont choisies en fonction
de l’étendue de l’analyse et de l’influence de l’évolution de l’environnement du système sur
celui-ci.
Hormis ces notions de systèmes et composants, on peut définir des structures
intermédiaires telles que les systèmes élémentaires, sous-systèmes etc...
Les systèmes sont de formes variées suivant les technologies mises en jeu (électriques,
électroniques, thermo-hydrauliques, mécaniques, informatiques, etc...) et parfois hybrides. On
caractérise un système par :

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 11
Remise
en
service
1ère Défaillance Défaillance

temps

MTTF MDT MUT

MTBF

début de la fin de la
réparation réparation

détection Remise
de la en
Défaillance défaillance service

temps

MTTR

MDT

Fig. 1

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 12
− ses fonctions ou missions (hiérarchisées)
− sa structure : les composants, leurs caractéristiques, leurs interactions et leurs
localisations
− son fonctionnement (états du système et des composants, évolutions possibles)
− son exploitation (maintenance et conditions spécifiques d’exploitation)

2.2.2. Défaillances, panne et réparation

La défaillance d’une entité est définie suivant la norme :

Norme NF X 60-500
Cessation de l’aptitude d’une entité à accomplir une fonction requise.

De même, la panne d’un composant ou système (entité) est définie de la manière


suivante :
Norme NF X 60-500
Etat d’une entité inapte à accomplir une fonction requise,
dans des conditions données d’utilisation.

La panne est donc l’état induit par la défaillance de l’entité considérée, elle-même
pouvant être la conséquence d’une ou plusieurs défaillances de ses composants. On distingue
la panne : intermittente (retour au fonctionnement sans maintenance corrective), fugitive
(intermittente mais non détectable), permanente (maintenance corrective nécessaire), et
latente ou cachée (non détectée).
La remise en service rend apte l’entité à accomplir une fonction requise. Remarquons
que le temps d’indisponibilité comprend le temps de réparation plus le temps écoulé depuis la
défaillance jusqu’à sa détection et puis la mise en œuvre de la réparation. Il faut également
souligner l’existence des notions d’entités réparables ou non réparables aux sens technique
et/ou économique.

Une grandeur fondamentale souvent utilisée caractérise la défaillance d’un composant :


le taux de défaillance λ(t) (instantané).

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 13
Il est défini par :
Norme NF X 60-500
Limite, si elle existe, du quotient de la probabilité conditionnelle pour que
l’instant d’une défaillance d’une entité soit comprise dans un intervalle de
temps donné, [t,t+∆t], par la durée ∆t de l’intervalle de temps, lorsque ∆t tend
vers zéro sachant que l’entité n’a pas été défaillante entre 0 et t

λ(t) est donc mathématiquement une densité de probabilité conditionnelle et s’écrit (cf.
démonstration § 5.1.) :
R (t ) − R (t + ∆t ) 1  dR ( t ) 
λ (t ) = lim = −
∆t → 0 R (t ). ∆t R (t )  dt 

On appelle la fonction f(t) = −dR(t)/dt, densité de défaillance.


De même, on définit un taux de remise en service µ(t) :

Norme NF X 60-500
Limite, si elle existe, du quotient de la probabilité conditionnelle pour qu’une
entité soit remise en service dans un intervalle [t,t+∆t], sachant qu’elle a une
défaillance à l’instant 0 et que la remise en service n’a pas encore été effectuée à
l’instant t, par la durée ∆t de l’intervalle de temps, lorsque ∆t tend vers 0.

µ(t) est donc mathématiquement une densité de probabilité conditionnelle et s’écrit (cf.
démonstration § 5.2.) :
M (t + ∆t ) − M (t ) 1  dM ( t ) 
µ (t ) = lim =
∆t → 0 (1 − M (t )). ∆t 1 − M (t )  dt 

On définit également un taux de réparation noté ν(t) et qui parfois se confond avec µ(t).
On peut mettre en évidence plusieurs types de défaillances suivant la manière, l’instant, les
causes et les conséquences (effets) qui caractérisent leurs manifestations :

1. la manière
− rapidité : défaillance progressive ou soudaine (prévisible ou non par contrôles et
surveillances)
− amplitude : défaillance partielle ou complète (disparition partielle ou complète de la
fonction requise)
− rapidité et amplitude : défaillance catalectique ou par graduation (soudaine et
complète, ou progressive et partielle)

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 14
2. l’instant
Ceci fait référence à l’évolution du taux de défaillance des composants pendant leur vie.
Cette évolution se divise en trois périodes (fig. 1 : courbe “ baignoire ” valable
essentiellement en électronique) : la période de jeunesse (1 : décroissance plus ou moins
rapide du taux de défaillance jusqu’à un minimum), la période de taux constant de défaillance
(2 : taux de défaillance pratiquement constant : palier), et la période de fin de vie
(3 : croissance plus ou rapide du taux de défaillance depuis le palier). Elle conduit à la
distinction de trois types de défaillances :
− défaillance précoce (période de jeunesse)
− défaillance à taux constant (période de taux constant)
− défaillance par vieillissement ou d’usure (période de fin de vie)

3. les causes
Les origines d’une défaillance peuvent être de natures différentes :

− défaillance première (la défaillance est due uniquement à l’entité elle-même qui est
utilisée conformément aux spécificités prévues)
− défaillance secondaire (la défaillance est semblable à la précédente, mais hors
spécificités)
− défaillance de commande (même processus mais l’autre entité est émettrice de
commandes et peut être corrigée pour rétablir le fonctionnement)

λ (t )

1 2 3

Temps
Fig. 1.

4. les conséquences (effets)

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 15
On peut différencier quatre classes d’effets des défaillances :

− défaillance mineure (nuisance au bon fonctionnement du système, dommages


négligeables à tous les niveaux)
− défaillance significative (nuisance au bon fonctionnement du système, dommages non
notables et sans risque important pour l’homme)
− défaillance critique (perte de fonctions essentielles du système, dommages importants
au système et environnement, risque négligeable de blessure ou de mort)
− défaillance catastrophique (perte de fonctions essentielles du système, dommages
importants au système et environnement, risque de mort ou dommages corporels)

Les modes de défaillance ou de panne


Un mode de défaillance caractérise l’effet ou les effets observés au cours de la
défaillance d’un composant. Il est plutôt recommandé d’utiliser le terme de mode de panne
défini par :

Norme NF X 60-500
Un des états possibles d’une entité en panne pour une fonction requise donnée.

2.3. Notions et concepts complémentaires

D’autres concepts peuvent être définis : durabilité (durability), continuabilité (service


retainability performance), servibilité (serveability performance), accessibilité (service
accessibility performance)...
On utilisera souvent le terme de redondance. Une redondance consiste à donner plus
d’un moyen à une entité (système) pour accomplir une fonction requise. On distingue trois
types de redondances :
− la redondance active : les moyens accomplissent simultanément la fonction requise.
− la redondance passive : une partie seulement des moyens accomplit la fonction
requise, le reste étant sollicité en cas de défaillance de la partie en fonctionnement.
− la redondance majoritaire m/n : une fonction requise n’est assurée que si au moins m
des n moyens existants sont en état de fonctionner ou en fonctionnement.

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 16
3. Analyse prévisionnelle des dysfonctionnements des systèmes

3.1. Principe

Principe d'analyse prévisionnelle


en sûreté de fonctionnement

Définition des Objectifs


Définition du système
(recueil d'informations)

Analyse fonctionnelle
Analyse technique

Identification des risques

Modélisation du système

Analyse qualitative
Analyse quantitative
(choix des méthodes)

Synthèse/Décisions

Organigramme 1.

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 17
L’analyse des systèmes est réalisée à partir d’informations diverses dont le tri et
l’analyse permet de concevoir un modèle du système. Ce modèle permet à l’aide de
différentes méthodes de prévoir son futur comportement.
Les informations nécessaires à l’analyse sont :
− la description du système réel : structure physique
− les caractéristiques des composants du système et des interactions entre eux (les
modes de défaillance et leurs conséquences...)
− les relations entre le système et son environnement
− la prise en compte des erreurs humaines en phase d’exploitation

3.2. Les étapes d’une analyse en sûreté de fonctionnement

On peut diviser une analyse de sûreté de fonctionnement de système en quatre étapes


principales, à savoir :
− l’analyse structurelle et fonctionnelle du système
− l’analyse qualitative du système
− l’analyse quantitative du système
− la synthèse des analyses précédentes et une conclusion

Les détails et l’enchaînement de ces étapes sont donnés dans l’organigramme 1. Il faut
remarquer que ces étapes ne sont pas totalement disjointes et présentent des aspects
communs. De plus, une étude réelle est itérative, les quatre étapes principales sont répétées
plusieurs fois jusqu’à l’obtention d’une conclusion acceptable (objectifs réalisés).

3.3. Les méthodes d’analyse en sûreté de fonctionnement

3.3.1. Présentation générale


Les méthodes d’analyse en sûreté de fonctionnement sont variées. Elles sont adaptées à
une ou plusieurs formes d’analyse (structurelle et fonctionnelle, qualitative, quantitative) ou à
un ou plusieurs domaines de l’industrie (pétrolière, chimique, électrotechnique...). Elles font
appel à la logique inductive (événements élémentaires → comportement général du système,
cause/effets) ou déductive (comportement général du système → événements élémentaires,
effets/cause).
Les paragraphes suivants présentent brièvement les méthodes suivantes :
− Analyse Préliminaire des Dangers (APD), Analyse Préliminaire des Risques (APR)
(années 60, aéronautique)
− Analyse des Modes de Défaillances et de leurs Effets (AMDE, années 60,
aéronautique), Analyse des Modes de Défaillances, de leurs Effets et de leur Criticité

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 18
(AMDEC, années 60, NASA), Failure Mode , Effects and Criticality Analysis
(FMECA)
− HAZard and OPerability study (HAZOP, années 70, industries chimiques)
− Méthode du Diagramme de Succès ou de Fiabilité (MDS ou MDF, années 60),
Reliability Block Diagram Method (RBDM)
− Méthode de la Table de Vérité (MTV), Méthode de la Table de Décision (MTD)
− Méthode de l’Arbre des Causes (MAC, années 60), Fault Tree Method (FTM)
− Méthode des Combinaisons de Pannes Résumées (MCPR, années 70, aéronautique)
− Méthode de l’Arbre des Conséquences ou des Arbres d’Evénements (MACQ ou
MAE, années 70, nucléaire), Event Tree Method (ETM)
− Méthode du Diagramme Causes-Conséquences (MDCC, années 70, nucléaire),
Cause-Consequence Diagram Method (CCDM)
− Méthode de l’Espace des Etats (MEE, années 50, processus de Markov)

3.3.2. Méthodes qualitatives


Toutes ces méthodes qualitatives sont basées sur la nomenclature des dangers et risques,
de leurs origines et causes. Elles utilisent des tableaux standards permettant de classer les
données et événements.

3.3.2.1. Analyse Préliminaire des Dangers, des Risques (APD, APR)


Preliminary Hazard Analysis [1,2]
Cette méthode a été utilisée au début des années 60 aux Etats-Unis pour l’analyse de
sécurité de missiles. La méthode a pour but d’identifier les dangers d’une installation et ses
causes (éléments dangereux) et d’évaluer la gravité des conséquences liées aux situations
dangereuses et accidents potentiels. L’identification des dangers est effectuée grâce à
l’expérience et la connaissance des spécialistes et de listes-guides (check-lists) d’éléments et
situations dangereuses qui dépendent du domaine d’application. Par extension, on appelle
Analyse Préliminaire des Risques, la même analyse complétée par une estimation de la
probabilité d’occurrence des situations dangereuses et accidents potentiels ainsi que leurs
effets et conséquences.
Ces méthodes sont souvent utilisées pour la phase d’identification des risques et son
orientées vers la sécurité.

3.3.2.2. Analyse des Modes de Défaillance et de leurs Effets (AMDE)


Failure Mode and Effect Analysis (FMEA) [1,4,6]
Cette méthode utilisée depuis les années 60 en aéronautique a été depuis généralisée à
de nombreux domaines de l’industrie. Elle est inductive et permet l’étude systématique des
causes et des effets des défaillances (modes de défaillance et effets) qui affectent les

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 19
composants d’un système. La méthode se divise en quatre étapes et se caractérise par une
présentation sous forme de tableaux (cf. exemple en annexe 2).

1. Définition du système, de ses fonctions et de ses composants : définition des


principales fonctions du système, de ses limites fonctionnelles (globales et composants), et
des spécifications relatives au fonctionnement du système, de ses composants ou à
l’environnement du système.

Modes de défaillance génériques


1. Défaillance structurelle 18. Mise en marche erronée
2. Blocage physique au coincement 19. Ne s’arrête pas
3. Vibrations 20. Ne démarre pas
4. Ne reste pas en position 21. Ne commute pas
5. Ne s’ouvre pas 22. Fonctionnement prématuré
6. Ne se ferme pas 23. Fonctionnement après le délai prévu
(retard)
7. Défaillance en position ouverte 24. Entrée erronée (augmentation)
8 Défaillance en position fermée 25. Entrée erronée (diminution)
9. Fuite interne 26. Sortie erronée (augmentation)
10. Fuite externe 27. Sortie erronée (diminution)
11. Dépasse la limite supérieure tolérée 28. Perte de l’entrée
12. Est en dessous de la limite inférieure 29. Perte de la sortie
tolérée
13. Fonctionnement intempestif 30. Court-circuit (électrique)
14. Fonctionnement intermittent 31. Circuit ouvert (électrique)
15. Fonctionnement irrégulier 32. Fuite (électrique)
16. Indication erronée 33. Autres conditions de défaillance
excep-
17. Ecoulement réduit tionnelles suivant les caractéristiques du
système, les conditions de fonctionnement
et les contraintes opérationnelles

Tableau 1.

2. Etablissement des modes de défaillance des composant et leurs causes : cette phase
doit être la plus complète que possible, et demeure le point faible de la méthode. On classifie
les modes de défaillances en général en quatre catégories (normalisées) :
− fonctionnement prématuré (ou intempestif)

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 20
− ne fonctionne pas au moment prévu
− ne s’arrête pas au moment prévu
− défaillance en fonctionnement

Les modes de défaillances sont définis par rapport à un fonctionnement précis du


système, et sont donc dépendants de celui-ci. Pour aider l’analyse, on utilise des tableaux
comme le tableau 1 donnant une liste-guide de modes de défaillance générique (norme
NF X 60-510, déc. 1986, [6]).

3. Etude des effets des modes de défaillances : étude complète des effets sur les
fonctions des systèmes et sur chacun des composants, en supposant un seul mode de
défaillance (les autres composants étant tous en état de fonctionner). Il faut tenir compte des
variations des paramètres importants et étudier leurs effets (modèles de phénomènes
physiques parfois nécessaire) en sachant distinguer ceux qui concerne le système lui-même et
ceux qui concernent son environnement (suivant les objectifs, les uns ou les autres peuvent
être prioritaires). Cette phase permet également d’identifier les défaillances secondaires.

4. Conclusions, recommandations : à partir des étapes précédentes, on peut conclure et


établir des recommandations compte tenu des objectifs de l’étude. Les recommandations
permettent d’émettre des propositions : ajout de redondances, de procédures de détection et de
maintenance pour chaque mode de défaillance.

3.3.2.3. Analyse des Modes de Défaillance, de leurs Effets et de leur criticité (AMDEC)
Failure Mode, Effects and Criticality Analysis (FMECA) [1,2,7,8]
Cette méthode est une extension naturelle de la méthode AMDE. Elle considère la
probabilité d’occurrence de chaque mode de défaillance et la gravité des effets associés pour
effectuer une classification suivant une échelle en criticité. Ce type d’analyse a été développé
dans l’aéronautique pendant les années 60, l’une des premières utilisations importantes étant
pour la conception du module lunaire LEM (NASA). Une grille spécifique permet l’analyse
de la criticité qui fait la spécificité de cette méthode [1,2,6] et annexe 2.

3.3.2.4. Méthode d’analyse HAZOP (HAZard and Operability Study) [1,2,9,10]


Cette méthode a été développée par la société “ Imperial Chemical Industries ” au début
des années 70 et s’applique à l’industrie chimique. Elle est de même type que l’AMDE mais
est mieux adaptée pour l’analyse des circuits thermo-hydrauliques. Elle consiste à remplir un
tableau standard contenant préalablement un certain nombre de mots-clefs. Ceux-ci
permettent de passer en revue les déviations des paramètres importants en mettant en
évidence les causes et les conséquences de leurs déviations éventuelles, ainsi que les moyens
de détection et les actions correctrices possibles. Une hiérarchisation d’après la fréquence et la

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 21
gravité des déviations possibles est alors effectuée. Un méthode dérivée a été développée par
l’Union des Industries Chimiques [10].

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 22
3.3.2.5. Méthode des Combinaisons de Pannes Résumées (MCPR)
Failure Combination Method [1,11]
Cette méthode complète la méthode AMDE en incluant une étude des combinaisons de
défaillances conduisant à des événements indésirables. Elle a été créée par la SNIAS et les
Autorités de certification du Ministère de l’Air français pour l’analyse de la sécurité des
avions Concorde puis Airbus [11]. Cette méthode se divise en quatre étapes :

− décomposition du système élémentaire : AMDE appliquée à chaque système


élémentaire
− élaboration des “ pannes résumées internes ” : regroupement des modes de
défaillances qui seuls ou groupés produisent les mêmes effets sur le système
élémentaire considéré ou les autres systèmes élémentaires
− élaboration des “ pannes résumées externes ” : les pannes résumées internes ou leurs
combinaisons relatives aux autres systèmes pouvant affecter le fonctionnement du
système élémentaire étudié constituent les pannes résumées externes.
− élaboration des “ pannes résumées globales ” : elles sont composées des pannes
résumées internes, externes et de leurs combinaisons ayant les mêmes effets sur le
système élémentaire étudié et sur les autres systèmes élémentaires.

Cette méthode permet de regrouper les pannes ayant les mêmes effets et de tenir compte
des interactions entre systèmes élémentaires. De plus, à partir des modes de défaillances
conduisant aux événements indésirables, il est possible de construire facilement un Arbre des
Causes, et donc d’aborder l’aspect quantitatif directement.

3.3.3. Méthodes mixtes et quantitatives


Ces méthodes sont nombreuses, soit inductive, ou déductive comme celle de l’Arbre
des Causes ou de Défaillance, ou encore un mélange des deux. On distingue trois types
d’approches suivant l’aspect du support diagrammatique utilisé :
− approche arborescente (MAC/MAD, MACQ/MAE, MDCC)
− approche structurelle (MDS/MDF, MTV, MTD)
− approche par graphe des états (MEE)

De plus, on peut diviser ces méthodes en deux classes :


− méthodes dites “ statiques ” : le système est étudié à partir de sa structure et de sa
“ logique de fonctionnement ” sans tenir compte de son évolution possible dans le
temps.
− méthodes dites “ dynamiques ” : le système est étudié à partir de sa structure en tenant
compte de son évolution au cours du temps.

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 23
3.3.3.1. Méthode du Diagramme de Succès ou de Fiabilité (MDS/MDF)
Reliability Block Diagram Method [1,2,3]
Cette méthode est la plus ancienne, et reste encore appelée souvent Méthode du
Diagramme de Fiabilité (MDF). En effet, elle est naturelle car proche de la structure physique
du système. Elle consiste à construire un diagramme composé de blocs, chacun d’eux
représentant une entité (composant, sous-système, voire une fonction) reliés par des lignes
orientées indiquant les dépendances des entités entre elles. Le comportement des entités est
binaire (fonctionnement/défaillance).
Les diagrammes sont constitués d’une entrée E, d’un corps diagrammatique et d’une
sortie S. On suppose qu’un signal est émis en E, et est transmis par les lignes jusqu’à la sortie
S, la défaillance d’une entité entraînant l’arrêt du signal au niveau du bloc qui lui est associé.
S’il n’existe aucun chemin d’accès permettant le passage du signal de E vers S, le système est
défaillant, sinon il fonctionne. Un tel diagramme est une représentation statique du système.
L’étude consiste à chercher les combinaisons de défaillances d’entités élémentaires
conduisant à la défaillance du système, appelées “ coupes ”. Les “ coupes ” ne contenant
aucune autre coupe sont dites “ minimales ” (la notion de chemins minimaux est aussi utilisée
pour ce type d’étude). Ces dernières sont essentielles pour les calculs probabilistes découlant
de cette première analyse. Les règles de transmission du signal sont énumérées ci-dessous :

− en série : toutes les entités doivent fonctionner pour que le signal passe.
− en parallèle : il suffit que toutes les entités d’une branche fonctionnent pour que le
signal passe.
− cas de redondance : la représentation fait apparaître un nœud commun spécifiant s’il
s’agit d’un cas m/n ou non et des “ interrupteurs ” si la redondance est passive.

Un descriptif de ces configurations est donné dans l'annexe 3, et un exemple figure au


§ 5.5.1.

3.3.3.2. Méthode de l’Arbre des Causes ou de Défaillance (MAC/MAD)


Fault Tree method Analysis (FTA) [1,2,3,12]
Cette méthode a été développée en 1961-1962 par la Société Bell Telephone par
A. Watson. Elle fut améliorée peu après par Haasl (Boeing), avant de se généraliser à de
nombreux domaines de l’industrie. L’outil de cette méthode déductive est couramment appelé
Arbre de Défaillance (AdD) et est une représentation statique du système. Elle consiste donc
à considérer une défaillance donnée du système et à construire d’une manière arborescente
(descendante) l’ensemble des combinaisons de défaillances des composants mises en jeu
(comportement binaire des événements élémentaires). L’événement indésirable ou non
souhaité est au sommet de l’arbre d’où la dénomination “ d’événement-sommet ”, les

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 24
événements indésirables intermédiaires ou de base étant reliés en cascade à l’aide de symboles
correspondant à des opérations logiques. Une branche se termine toujours par un événement
de base. Ces opérateurs appelés “ portes ” sont ( cf. annexe 3) :

− portes ET, ET prioritaire ou séquentiel, ET avec condition


− portes OU, OU exclusif, OU avec condition
− porte SI condition
− porte k/n combinaison
− porte DELAI
− porte NON
− porte matricielle (sortie générée pour certaines combinaisons d’entrée)

Les événements sont spécifiés dans des blocs de formes normalisées ( entre parenthèse,
sont spécifiés si l’événement est développable et la défaillance de composant correspondante,
cf. annexe 3) :
− rectangle : événement-sommet ou intermédiaire ( défaillance de commande)
− cercle : événement de base élémentaire (non développé, défaillance première)
− losange : événement de base non élémentaire (non développé, défaillance seconde)
− double losange : événement non de base (développement à effectuer)
− maison : événement de base considéré comme normal (événement de fonctionnement)
− ovale : événement conditionnel (portes logiques)

Des triangles sont également utilisés pour effectuer des transferts d’un arbre à d’autres
sous-arbres, et donc de simplifier la présentation d’un arbre complexe.
Pour construire l’AdD, on procède comme suit :
− recherche des causes immédiates, nécessaires et suffisantes de l’événement
indésirable (obtention d’événements intermédiaires)
− classement et analyse des événements intermédiaires (liés à un ou plusieurs
composants et à quels types de défaillances)
− recherche des causes immédiates, nécessaires et suffisantes des événements
intermédiaires jusqu’à obtention d’événements de base

Il faut remarquer que ces phases doivent souvent être répétées pour permettre à
l’analyste de mieux connaître le système et d’améliorer sa décomposition en événements de
base. Enfin, l’AdD permet de générer l’ensemble des coupes (comme un diagramme de
fiabilité dont il est le “ dual ”) et d’en déduire celui des “ coupes minimales ”. Avant
d’effectuer cette évaluation, des techniques de “ réduction ” de l’arbre (simplification)
peuvent être appliquées.

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 25
On distingue plusieurs types d’AdD suivant leur complexité :
− AdD-c : Arbres de Défaillance cohérents composés de portes ET, OU, et de variables
monoformes (événements élémentaires de même catégorie : défaillance)
− AdD-nc : Arbres de Défaillance non cohérents composés de portes ET, OU, et de
variables biformes (événements élémentaires de catégories différentes)
− AdD à délai : Arbres de Défaillance composés de portes ET, OU et DELAI
− AdD-r : Arbres de Défaillance avec restriction, généralisant les AdD-nc pour des
événements élémentaires exclusifs non complémentaires
− AdD-mp : Arbres de Défaillance multiperformants, généralisation à des opérateurs à n
entrées...

Un exemple d'application sur un cas simple est présenté au § 5.6.

3.3.3.3. Méthodes de la Table de Vérité et de la Table de Décision (MTV, MTD) [1]


Basée sur l’algèbre booléenne, la méthode de la Table de Vérité permet d’identifier tous
les états (fonctionnement ou panne) du système à partir de comportements binaires. Elle reste
limitée aux cas simples pour l’analyse manuelle, mais peut être automatisée. La construction
de la table est réalisée après identification des modes de défaillances des composants et de
leurs états de panne, ainsi que leurs effets (AMDE). A chaque état de composant est associée
une variable qui peut prendre la valeur 0 (fonctionnement) ou 1 (panne). Le nombre de
combinaisons devenant important quand le nombre de composants croît, cette méthode reste
limitée aux systèmes comportant peu de composants. La table de décision est une extension
de la table de vérité permettant de traiter un nombre quelconque d'états pour chaque entrée de
la table. Elle peut servir à l'élaboration d'un arbre de défaillance.

3.3.3.4. Méthode de l’Arbre des Conséquences ou des Arbres d’Evénements


(MACQ/MAE) Event Tree Method [1,13]
L’utilisation de cette méthode remonte aux années 70 aux Etats-Unis pour l’évaluation
des risques dans les centrales nucléaires. Cette méthode est dérivée de la méthode des arbres
de décisions (analyse de décision) et est principalement utilisée dans l’industrie nucléaire.
Une séquence d’événements est constituée d’un événement initiateur et d’une
combinaison de défaillances et fonctionnements de systèmes de sûreté. Elle est qualifée
d’inacceptable ou d’acceptable suivant les conséquences qu’elle engendre.

La méthode MACQ permet d’identifier ces séquences et ensuite de les étudier


quantativement et qualitativement. Il faut d’abord définir les fonctions de sûreté du système et
les événements initiateurs (utilisation d’un arbre des causes “ standard ”). Deux approches
sont possibles, soit inductive, soit déductive.

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 26
L’approche déductive commence par construction d’un arbre des conséquences
“ fonctions ” à partir d’un événement initiateur. Il se développe en envisageant à chaque étape
le succès ou l’échec de la fonction de sûreté considérée. Ensuite, l’arbre est réduit : certaines
séquences sont supprimées en raison de leur incohérence. L’arbre des conséquences
“ systèmes ” est déduit en remplaçant dans l’arbre précédent les fonctions par les systèmes de
sûreté correspondants. Souvent, il faut revoir l’ordre des événements génériques en raison des
interactions entre fonctions de sûreté, ceci permettant également de simplifier l’arbre. La mise
en ordre est guidée par les aspects temporel, les interactions fonctionnelles et les interactions
entre systèmes élémentaires. Une simplification à l’aide de l’algèbre booléenne est également
possible.
L’approche inductive est basée sur la méthode MCPR qui permet l’élaboration des
pannes résumées globales. Celles-ci permettent la sélection des événements initiateurs et
ensuite l’élaboration des arbres des conséquences. La simplification des arbres des
conséquences est réalisée sur les mêmes critères et à l’aide des mêmes méthodes que dans
l’approche déductive.

3.3.3.5. Méthode du Diagramme Causes-Conséquences (MDCC)


Cause-Consequence Diagram Method [1,2,14]
Méthode développée dans les années 70 par le laboratoire Risø (Danemark), la Méthode
du Diagramme Causes-Conséquences est une combinaison des méthodes MAC et MACQ
(Arbre des Causes et Arbre des Conséquences). Elle met en œuvre à la fois les logiques
inductive de l’arbre des conséquences (AC) et déductive de l’arbre des causes (AdD). Donc,
un diagramme causes-conséquences (DCC) est constitué d’un ou plusieurs “ sommets ”
comme un AdD conduisant à des conséquences indésirables, redoutées ou inacceptables, et
d’une partie “ conséquences ” qui correspond aux conséquences des événements sommets.
Comme pour les AdD, des symboles spécifiques sont utilisés pour la construction des DCC,
la partie cause conservant les conventions des AdD. Les symboles spécifiques aux DCC sont
donnés en annexe 3.
La construction d’un DCC suit les règles cumulées des AdD et AC, et s’effectue en
sélectionnant un événement initiateur, puis en cherchant les causes (AdD) et les conséquences
(AC) de cet événement.
Ensuite, l’établissement des coupes, puis des coupes minimales permet d’obtenir des
résultats quantitatifs.

3.3.3.6. Méthode de l’Espace des Etats (MEE) et extensions [1,2,3]


Cette approche est assez ancienne (années 50) et s’est d’abord développée pour l’étude
des processus stochastiques du type “ markovien ”. On considère le système comme un
ensemble de composants pouvant se trouver dans un nombre fini “ d’états ” de
fonctionnement ou de panne (il est possible d’admettre des états dits “ dégradés ”). On

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 27
dispose donc d’un ensemble d’états de composants qui combinés permettent de définir
l’ensemble des états du système. Cet ensemble est divisé en deux sous-ensembles des états de
fonctionnement et de panne, devant être définis préalablement. Dans le cas de n composants
n
“ binaires ”, on obtient un nombre maximum de 2 états. Ensuite, il faut recenser toutes les
“ transitions ” possibles entre les différents états du système en identifiant leurs causes. Un
support graphique appelé “ graphe des états ” permet de visualiser les états, les transitions et
leurs caractéristiques (taux de défaillance, de remise en service ou de réparation...). Il consiste
à relié des cercles (états) par des arcs orientés (transitions d’états de départ vers des états
d’arrivée) avec des paramètres spécifiés avec ceux-ci (caractéristiques des transitions). Les
méthodes de résolutions basées sur ces graphes permettent une étude dynamique du système
(évolution dans le temps).

Processus markoviens, systèmes markoviens homogènes


On considère souvent les “ processus markoviens ” pour étudier l’évolution des
systèmes dans le temps. Un système est dit “ markovien ” si la probabilité conditionnelle de
transition d’un état présent vers un état suivant est indépendante du passé du système. On
parlera aussi de “ chaîne de Markov ” si le processus est discret (temps à valeurs entières).
Remarquons que sous certaines conditions, un processus markovien peut tendre vers un
régime stationnaire (notion de disponibilité asymptotique). Si les transitions entre les états se
caractérisent par des taux constants (indépendants du temps : densité de probabilité de type
exponentielle), le processus est dit “ markovien homogène ”.
L’étude d’un tel système nécessite la résolution d’un système d’équations différentielles
linéaires couplées du premier ordre et à coefficients constants. De nombreuses méthodes
analytiques et numériques permettent de résoudre ce type d’équations (transformation de
Laplace, exponentiation de matrices, intégrations numériques, calculs de valeurs propres...) et
d’obtenir fiabilité, disponibilité et maintenabilité en fonction du temps. De surcroît, des
grandeurs moyennes (MTTF, MTTR, MUT, MDT, MTBF) et la disponibilité asymptotique
(A(∞), si le processus est à régime permanent) peuvent être facilement obtenues par inversion
d’un système d’équations linéaires.

Processus semi-markoviens
Un processus semi-markovien est tel que la probabilité de transition d’un état vers un
autre ne dépende que du temps écoulé depuis l’arrivée dans cet état. Ce type de processus
conduit à un système d’équations couplées qui peut être résolu analytiquement.

Processus non markoviens homogènes, extensions


Certaines méthodes permettent de transformer un processus non markovien homogène
(transitions à paramètres non constants) en processus markovien homogène ou semi-
markovien :

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 28
− méthode des variables complémentaires (limitée car le nombre de variables croît très
vite en fonction du nombre de taux non constants)
− méthode des états fictifs (substitution des transition à taux non constants par un
ensemble d’états et transitions à taux constants)
− méthode de la chaîne immergée (utilisation des points de régénérations pour
construire une chaîne de Markov)

Ces méthodes restant limitées, d’autres approches ont été développées permettant
d’étudier les systèmes à partir des graphes d’états supports de représentation du système en
utilisant la simulation Monte-Carlo. Les réseaux de Petri, utiles pour l’identification des états
en vue de l’étude d’un processus markovien (aspect statique), sont des supports efficaces
pour ce type de simulation (aspect dynamique) [2,15]. Ils permettent une représentation de
l’évolution temporelle du système dans des cas complexes et de ses interactions avec d’autres
systèmes ou son environnement. D’autres supports peuvent être également utilisés...

3.3.4. Les facteurs humains


En raison de l’importance de l’intervention humaine dans les installations industrielles,
une étude de sûreté de fonctionnement doit tenir compte des facteurs humains. L’Evaluation
Prévisionnelle de Fiabilité Humaine (EPFH) a été développée à partir des années 60 suite à de
nombreux travaux montrant son importance dès les années 50. Les apports de l’ergonomie
permettent de mieux comprendre et maîtriser ces facteurs.

3.3.4.1. L’opérateur humain


L’accomplissement d’une tâche par un opérateur humain peut se diviser en plusieurs
étapes :
− l’acquisition des informations (activité sensorielle)
− le traitement de l’information (activité mentale) : traitement logique des informations
(diagnostic par méthode algorithmique ou heuristique), évaluation de l’évolution
possible de la situation (calcul de paramètre à l’aide de méthodes mathématiques)
− la prise de décision : conséquence directe du traitement d’information (activité
mentale)
− la réponse physique (activité physique)

L’analyse des erreurs humaines a mis en évidence l’importance de l’activité mentale


réflexe ou consciente. Rasmussen [16] a proposé trois grandes classes de comportement
humain :

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 29
− le comportement machinal (skill-based behaviour) : comportement automatique de
l’opérateur “ agissant comme une machine ”, l’activité mentale consciente n’est presque
pas activée.
− le comportement procédural (rule-based behaviour) : comportement faisant appel à
une activité mentale consciente et consistant à exécuter des tâches de manière
coordonnée en suivant des règles (ou procédures) apprises ou écrites.
− le comportement cognitif (knowledge-based behaviour) : cas des situations
inhabituelles où l’activité mentale consciente est complexe afin de résoudre des
problèmes et des planifications de tâches.

Il faut remarquer que l’exécution des tâches humaines présente certaines spécificités :
− la variabilité (différence d’exécution d’une même action dans des conditions
équivalentes)
− le besoin d’information et la capacité de prévision (le manque d’information n’est pas
toléré par le cerveau, il cherche à obtenir un maximum d’informations en vue d’une
prévision) : aspect positif pour l’accumulation d’information, négatif pour
l’extrapolation pouvant être erronée
− la capacité à compenser les variations de difficulté de la tâche par une augmentation
de charge de travail sans variation des performances : peut devenir dangereux pour
l’opérateur et altérer le processus de production, cet effet admettant un niveau
maximum qui s’il est dépassé conduit à une chute brutale des capacités
d’accomplissement de la tâche.
− le stress : ensemble des réactions physiologiques à une situation stressante (perception
par le sujet d’un écart entre les exigences de la situation et ses possibilités), se
répercutant également au niveau psychologique.

On distingue plusieurs types de tâches qui permettent une première approche des erreurs
humaines : tâches simples, complexes, de vigilance, de contrôle, et post-incidentelles ou post-
accidentelles.

3.3.4.2. Les méthodes


Une EPFH se décompose de la manière suivante :
− recherche des erreurs humaines potentielles
− sélection des erreurs pertinentes
− analyse détaillée des erreurs pertinentes
− intégration dans le modélisation du système
− quantification

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 30
La procédure SHARP (Systematic Human Action Reliability Procedure) [17] de l’EPRI
permet en suivant ces différentes étapes de choisir les méthodes adéquates pour effectuer une
EPFH. Citons quelques méthodes :
− TESEO (Tecnica Empirica Stima Errori Operatori) [18], due à l’ENI (compagnie
pétrolière italienne), probabilité d’erreur exprimée par le produit de cinq facteurs
tabulés exprimant la complexité de l’action, le temps disponible, l’expérience et la
formation de l’opérateur, son émotion et l’interface homme-machine.
− THERP (Technique for Human Error Rate Prediction) [19] due à Swain, probabilité
d’erreur élémentaire égale au produit de trois termes exprimant une probabilité de base
(suivant opération et interface homme-machine), un coefficient correctif (stress) et une
probabilité de non-récupération de l’erreur.
− HCR (Human Cognitive Reliability) [20], probabilité d’absence de réponse à un
incident sous forme de trois fonctions possibles (comportement machinal, procédural ou
cognitif) et à l’aide de 5 paramètres exprimant le temps disponible, le temps nécessaire,
la compétence de l’opérateur, le stress et l’interface homme-machine.
− HEART (Human Error Assessment and Reduction Technique)

Un exemple est présenté en annexe 5 accompagné d'extraits des tables de Swain.

4. Etude opérationnelle : données de sûreté de fonctionnement

Les données de sûreté de fonctionnement sont essentielles pour toute étude


prévisionnelle et principalement quantitative. Les données de sûreté de fonctionnement sont
de deux types : événementielles et fiabilistes.
Les données événementielles sont obtenues à l’aide d’études statistiques des accidents
et des expérimentations en grandeur nature. Elles concernent donc l’aspect
“ macroscopique ”, et donnent des estimations du comportement d’un système entier dans
certaines circonstances (grand nombre d’événements indiscernables ou non quantifiables).
Elles sont surtout utiles pour l’évaluation des risques (probabilité/gravité des conséquences) et
donc de la sécurité.
Par contre, les données fiabilistes sont obtenues par des essais sur des composants de
base des systèmes dans des conditions données (événements discernables et quantifiables).
Elles sont donc “ microscopiques ” et sont essentielles pour les méthodes prédictives décrites
dans le chapitre précédent, largement utilisées. Pour cette raison, nous nous attarderons sur ce
type de données.

4.1. Les données de fiabilité

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 31
On distingue les données de fiabilité qualitatives et quantitatives. L’approche qualitative
est récente et concerne la description de l’architecture du système du point de vue matériel et
fonctionnel (utilisation de systèmes experts). L’aspect matériel se caractérise par le
recensement des composants et la description de leurs connexions, alors que pour l’aspect
fonctionnel, il s’agit de modélisation de la logique du système, de ses conditions d’utilisation
et du comportement de ses composants à l’aide de variables d’état.
L’approche quantitative est basée sur des données techniques, humaines et
économiques. Les données économiques sont importantes pour l’évaluation des coûts de
remise en fonctionnement des composants (maintenance curative) et des coûts de prévention
des défaillances de ceux-ci (maintenance préventive). Ceci met en jeu les coûts en personnels,
matériels et de production.
Les données sur les facteurs humains sont obtenues de plusieures manières : retour
d’expérience, simulateurs, jugements d’experts, expériences en laboratoire (utilisées pour
HCR [20]) et banques de données (par exemple, CONFUCIUS de EDF).
Les données techniques sont obtenues soit par réalisation d’essais, par l’utilisation des
résultats en exploitation (retour d’expérience), ou sur avis d’experts. Nous allons préciser
maintenant les méthodes d’évaluation des données techniques.

4.1.1. Les paramètres


On caractérise la sûreté de fonctionnement d’un composant (ou d’une entité) par les
paramètres suivants :

− taux de défaillance en fonctionnement (λ)


− taux de défaillance à l’arrêt (λa)
− taux de défaillance à la sollicitation (γ)
− taux de réparation (µ)
− grandeurs moyennes (MTTF, MTTR, MUT, MDT, MTBF)

A chacun de ces paramètres, on associe un “ estimateur ” permettant son évaluation à


partir d’expériences ou d’essais dans des conditions données.

4.1.2. Les estimateurs


Les estimateurs sont calculés directement d’après les définitions des paramètres
données au § 2.1. On a donc :

− λ(t) : λˆ = (Nbre de déf. obs. en fonct.)/(Durée cumulée de fonct.)


− λa(t) : λɵ a = (Nbre de déf. obs. à l’arrêt)/(Durée cumulée d’arrêt)
− γ(t) : γˆ = (Nbre de déf. obs. à la sollicitation)/(Nbre de sollicitations)

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 32
− µ(t) : µɵ = (Nbre de réparations)/(Durée cumulée de réparation)

Les grandeurs moyennes sont également déterminées à partir des définitions


correspondantes, sachant que certaines peuvent être calculées d’après les estimateurs ci-
1 1
dessus. Ainsi, MTTR = et MTTF = .
µɵ λɵ
Ces estimateurs sont accompagnés de calculs d’intervalles de confiance qui permettent
de se donner une idée de la précision statistique sur ceux-ci. Ils suivent des lois de probabilité
que l’on peut approcher par des lois simples (détermination par le maximum de
vraisemblance...) présentées ci-dessous.

4.1.3. Les lois de probabilité


La courbe en “ baignoire ” du § 2.2.2. montre l’existence d’une partie de la vie d’un
composant appelée “ vie utile ” dans laquelle le taux de défaillance est constant. La validité de
cette variation du taux de défaillance est réduite essentiellement aux composants
électroniques. Dans cette hypothèse, la densité de défaillance f(t) suit une loi exponentielle.
En effet, si λ est constant, la relation λ = [-dR(t)/dt]/R(t) conduit à R (t ) = e − λt avec R( t = 0) =
1, et donc f (t ) = λ e − λt qui est bien une densité de probabilité car ∫ f ( t )dt = 1. Il faut
+
IR

également remarquer qu’un taux de défaillance constant simplifie la tâche de l’analyse quand
le système est markovien, celui-ci étant alors “ homogène ” et de résolution plus aisée (cf. §
3.3.3.6).
Néanmoins, de nombreuses études ont montré que cette loi est loin d’être générale.
Aussi, d’autres lois de probabilité permettent de décrire les taux de défaillance et les taux de
réparation. On peut citer :
− la loi normale, à deux paramètres, utilisable sur IR pour modéliser la durée de vie des
+

1  1  t − m 2
systèmes, soit f (t) = exp − , avec σ >0.
σ 2π  2  σ  
− la loi log-normale, à deux paramètres, qui permet de modéliser les durées de
1  1  ln t − µ  2 
réparation, f (t) = exp − , avec σ >0.
t. σ 2 π  2  σ  
− la loi de Weibull, ajustable grâce à ces trois paramètres, elle est utilisée dans plusieurs
domaines, mais surtout pour la fiabilité des composants mécaniques, où
β −1
β (t − γ )   t − γ β
f (t) = exp −  , avec , β > 0, σ >0 et t > γ.
σβ  σ  
λβ tβ −1 − λ t
− la loi Gamma, à deux paramètres, où f (t) = e . Quand le paramètre β est
Γ (β )
entier, la loi est appelée loi d’Erlang et est le produit de convolution de β lois
exponentielles. Alors, il s’agit d’une loi de la variable aléatoire somme de variables

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 33
aléatoires distribuées sur une même loi exponentielle (utilisation dans la méthode des
états fictifs, cf. § 3.3.3.6).

4.1.4. Les méthodes de calcul des estimateurs et intervalles de confiance


Les intervalles de confiance sont imposés par “ le niveau de confiance ”
1−α (α représente la probabilité que la valeur réelle se trouve en dehors de l’intervalle) et la
loi de probabilité correspondant au processus aléatoire. Par exemple, une défaillance se
déroulant dans l’intervalle [0,t] suit une loi de Poisson, alors qu’un refus de démarrage suite à
une sollicitation obéit à une loi binômiale.
Les principales méthodes de calcul des estimateurs sont :
− l’approche bayésienne (probabilités conditionnelles) [21] qui à partir de la
connaissance d’autres paramètres permet de calculer le nouveau paramètre. Dans le cas
où plusieurs sources de données sont utilisées, la méthode de Kaplan [22] est souvent
utilisée (double application du théorème de Bayes).
− la modélisation qui décompose le taux de défaillance en produit de paramètres
permettant de tenir compte des conditions réelles d’utilisation du composant (MIL-
HDBK-217B [23])
− les jugements d’experts, utilisés si aucune donnée n’est connue et souvent basés sur la
méthode “ Delphi ” (IEEE-Standard-500 [24])

4.2. Les banques de données

Les banques de données sont soit évolutives (mise à jour périodique, surtout dans le
domaine du nucléaire), soit spécialisées (électronique, mécanique...). On peut citer :
− Electronique : CNET (tome 1), MIL-HDBK-217B/F (équipement militaire)
− Mécanique : CNET (tome 2)
− Electromécanique : NPRDS-91 (nucléaire), OREDA 92 (plates-formes pétrolières)
− Mixte : IEEE-Stantard-500-1984
− Nucléaire : SYREL, ERDS, ...

Des extraits de banques de données (CNET) sont présentés dans l’annexe 4.

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 34
5. Démonstrations/Exemples

5.1. Définition du taux de défaillance en fonction de la fiabilité

La définition du taux de défaillance (norme NF X 60-500) donnée au § 2.2.2. peut


s'exprimer ainsi :

λ (t) = lim P(E déf.sur[t,t + ∆ t]sachant que E non déf.sur[0,t]) / ∆ t


∆ t→ 0

En utilisant la formule de Bayes sur les probabilités conditionnelles, on peut réexprimer


l'égalité ci-dessus :

P(E déf.sur [t,t + ∆t]et E nondéf.sur [0,t])


λ (t) = lim
∆t→ 0 ∆t.P(E nondéf .sur [0,t])

Or, P(E non déf. sur [0,t]) = R(t), et la probabilité au numérateur pouvant également
s'écrire P(E déf. sur [0, t+∆t])−P(E déf. sur [0, t]), on obtient l'expression :

(1 − R(t + ∆t)) − (1 − R(t)) R(t) − R(t + ∆t)


λ (t) = lim = lim
∆t→ 0 ∆t.R(t) ∆t→0 ∆t.R(t )

5.2. Définition du taux de remise en service en fonction de la maintenabilité

Le taux de remise en service est défini par la norme NF X 60-500 (§ 2.2.2.) et peut
s'écrire :
µ (t) = lim P(E rép.sur [t,t + ∆t]sachant que E en panne sur [0,t]) / ∆t
∆t→0

Comme au § 5.1., l'utilisation de la formule de Bayes donne :

P(E rép.sur [t,t + ∆t]et E en pannesur [0,t])


µ (t) = lim
∆t→0 ∆t. P(E en panne sur [0,t])

On fait apparaître ainsi 1− M(t) au dénominateur, et on peut exprimer le numérateur par


la différence P(E rép. sur [0, t+∆t])−P(E rép. sur [0, t]). D'où l'expression :

M(t + ∆t) − M(t)


µ (t) = lim
∆t→0 ∆t.(1 − M(t))

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 35
5.3. Formulation intégrale des durées moyennes MTTF et MTTR

La MTTF est la durée moyenne avant première défaillance du système. La défaillance


est caractérisée par la défiabilité R (t) (probabilité de défaillance sur l'intervalle [0,t]). Pour
calculer une valeur moyenne, il faut utiliser la densité de probabilité correspondante, soit la
dR (t)
densité de défiabilité . On a donc par définition :
dt
+∞ dR (t)
MTTF = ∫ t. .dt
0 dt

dR(t)
Comme R (t) = 1−R(t), on peut reformuler facilement l'intégrale en fonction de :
dt

+∞ dR(t)
MTTF = − ∫ t. .dt
0 dt

En intégrant par partie, on peut faire apparaître R(t), et obtenir une expression simple.
Ceci peut s'effectuer si R(t) admet un comportement spécifique quand t tend vers l'infini. En
effet :
+∞
MTTF = ∫ R(t).dt − [t. R(t)]0
+∞
0

+∞
ce qui donne MTTF = ∫ R(t).dt si l'on a lim t.R(t ) = 0 . Cette condition indique que
0 t→ +∞

R(t) doit tendre vers zéro quand t tend vers l'infini plus vite que la fonction 1/t.

La formulation intégrale de la MTTR est semblable. On a :

+∞ dM(t)
MTTR = ∫ t. .dt
0 dt

On peut faire apparaître l'expression 1−M(t) dans l'intégrale, et ainsi par intégration par
partie on obtient :

MTTR = − ∫
+∞
0
t.
d
dt
( ) +∞
1- M(t) .dt = −[t(1 − M(t)]0+∞ + ∫ (1 - M(t))dt
0

+∞
donc MTTR = ∫ (1 − M(t)).dt . Cette expression est valable uniquement si
0
lim t.(1 − M(t)) = 0 , soit que 1-M(t) tend vers 0 plus vite que 1/t quand t tend vers l'infini.
t→ +∞

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 36
5.4. Les grandeurs de sûreté de fonctionnement pour une entité réparable

Dans ce calcul élémentaire on considère une entité réparable de taux de défaillance λ


constant et de taux de remise en service µ constant. Nous commençons par nous intéresser à
la disponibilité de l'entité A(t). On a :

A(t + dt) = P(fonctionneen t et pas déf.sur [t,t + dt]) + P(en panne en t et rép.sur[t,t + dt])

Ceci peut également s'écrire :

A(t + dt) = A(t)(1− λ dt ) + (1 − A(t))µdt

dA(t) A(t + dt) − A(t)


A partir de cette relation, on peut faire apparaître la dérivée = :
dt dt

dA(t)
= µ − ( λ + µ )A(t)
dt

Cette équation différentielle du premier ordre en A(t) étant à coefficients constants, se


résoud facilement :
−( λ + µ )t µ
A(t ) = ke +
λ +µ

µ λ
la constante k étant déterminée sachant que A(0)=1 : k = 1− = .
λ +µ λ+µ
On remarque que la disponibilité asymptotique A(∞) = lim A(t) existe. Elle est égale
t→+ ∞
µ
au rapport .
λ +µ
La fiabilité R(t) est définie directement à partir de la définition du taux de défaillance
(§ 2.2.2.) par l'équation différentielle du premier ordre :

1 dR(t)
λ =−
R(t) dt

− λt
Ainsi, la solution est évidemment : R(t) = e avec R(0)=1.
De même la maintenabilité est caractérisée par l'équation différentielle (d'après la
définition du taux de remise en service) :

1 dM(t)
µ=
1− M(t) dt

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 37
ce qui donne M(t) = 1 − e − µt avec M(0)=0.

A partir de ces valeurs et des définitions intégrales des MTTF et MTTR (§ 2.1.3. et
2.1.5., puis § 5.3.), on obtient :

+∞ +∞ 1 +∞ +∞
MTTF = ∫ R(t)dt = ∫ e − λ t dt = et MTTR = ∫ (1- M(t))dt = ∫0 e − µ t dt =
1
0 0 λ 0 µ

5.5. Etude d'un système à 2 composants identiques en redondance active

On rappelle qu'un redondance active est caractérisée par le fonctionnement simultané


d'un ensemble de composants remplissant les mêmes fonctions ou missions, un seul de ceux-
ci suffisant pour les réaliser.

5.5.1. Cas de deux réparateurs disponibles


Ce cas peut être étudié à partir du diagramme de fiabilité, le système ne présentant pas
de délais d'attente ni d'indisponinilité pour maintenance. En effet, dans ces situations, la
représentation statique des composants dans le système n'est plus adéquate pour une
description dynamique correcte et ne peut servir qu'en tant que support pour l'établissement
des scénarios de panne.
Le diagramme de fiabilité est du type parallèle et le seul état de panne est donné par
X Y comme le montre le schéma ci-dessous. En effet, pour que le flux partant de l'entrée E ne
puisse plus atteindre la sortie S, il faut que les deux composants X et Y soient défaillants.

X
E S

La disponibilité du système est alors simple à calculer. La probabilité que le système


soit en panne P est égale à la probabilité que chaque composante soit en panne. La probabilité
qu'un composante soit en panne est 1−a(t), où a(t) est la disponibilité du composant. Donc :

( )
P = (1− a x (t)) 1 − ay (t)

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 38
Or, la disponibilité du système est A(t)=1−P. Utilisons maintenant les résultats du § 5.4.
Ainsi, en remplaçant ax(t) et ay(t) qui sont identiques par l'expression de la disponibilité d'un
composant réparable, on obtient :
2
 λ 
A(t ) = 1 −  (
1− e −(λ + µ )t )
2

λ +µ

De la même manière, on en déduit la fiabilité du système, mais avec des composants


irréparables, et sa maintenabilité (calcul valide uniquement s'il n'existe qu'un état de panne du
système) :
(
R(t) = 1− 1 − e − λ t )
2
et M(t) = 1− e −2 µ t

Les MTTF et MTTR se calculent facilement, on obtient :

5 1
MTTF = et MTTR =
2λ 2µ

On peut remarquer que la MTTR peut se calculer directement pour n composants en


redondance active (n réparateurs) par l'inverse de la somme des taux de remise en service des
composants. De même, la MTTF pour n composants en série (n réparateurs) est l'inverse de la
somme des taux de défaillance des composants.

5.5.2. Cas d'un seul réparateur disponible


Espace des états- réduction du nombre d'états
Comme précisé précédemment, l'approche par un diagramme de fiabilité n'est plus
suffisante si le nombre de réparateurs disponibles est inférieur au nombre de composants. On
dispose d'autres méthodes pour résoudre ce problème, en particulier basées sur l'espace des
états. Une des plus efficaces et couramment utilisée, est la méthode markovienne. Nous allons
donc présenter cette méthode appliquée à ce cas élémentaire.
D'abord, il faut établir l'ensemble des états du système. On distingue pour chaque
composant trois types d'états : les états de marche (fonctionnement), de réparation (un "r" sera
indiqué en indice) et de panne.
Ainsi, compte tenu qu'une seule réparation peut être effectuée à la fois, on distingue les
états suivants :
− états de fonctionnement du système : XY, XY ,XYr , XY , Xr Y
− états de panne du système : Xr Y ,X Yr , X Y

En fait, pour faciliter l'étude (réduction du nombre d'états), on peut considérer que les
états de réparation et de panne relève d'un même comportement vis à vis du système (le taux
de remise en service peut inclure la durée nécessaire à la détection de la défaillance du

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 39
composant). Ainsi, on réduit le nombre d'états possibles de 8 à 5 (on distingue les
composants, en particulier le premier défaillant). Comme les deux composants sont
identiques, ils sont donc indiscernables par rapport au système ce qui veut dire que les états
"symétriques" peuvent être confondus en un seul. Les états XY et XY sont dans ce cas
indifférenciés, ainsi que la distinction du premier composant défaillant quand les deux
deviennent défaillants. Le nombre d'états est finalement de 3 au lieu de 8. Cette technique de
réduction du nombre d'états peut être étendue quand le nombre d'états est important (méthode
des aggrégats).
On nommera les trois états ainsi :
− tous les composants fonctionnent (état 1)
− un composant est défaillant ou en réparation (état 2)
− tous les composants sont défaillants ou en réparation (état 3)
On représente l'espace des états à l'aide du graphe des états. Chaque place (cercle)
représente un état du système, et un ensemble d'arcs orientés permet d'indiquer les transitions
possibles d'état à état. En principe, le graphe que l'on devrait construire serait constitué de 8
ou 5 places en indiquant sur chaque arc "le taux de transition" (taux de défaillance, de
réparation ou de remise en service...). Cependant, nous nous contenterons de présenter le
"graphe de Markov" constitué des trois états présentés ci-dessus (graphe des états associé à un
système markovien).

1 2 3

Approche markovienne (cf. § 3.3.3.6.)


Un système est dit "markovien" si la probabilité conditionnelle de transition d'un état
présent vers un état suivant est indépendante du passé du système. Si les taux de transition
entre les états sont constants, le système est "markovien homogène" et est équivalent à un
système d'équations différentielles couplées du premier ordre à coefficients constants, les
inconnues étant les probabilités d'être dans un état donné. Dans ce cas, la résolution
analytique du système d'équations est possible. La transformation de Laplace est bien adaptée,
l'approche par calcul des valeurs propres et exponentiation pouvant également être pratiquée.

Formulation markovienne du problème

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 40
La première étape est la construction du graphe de Markov. Le graphe donné ci-dessus
indique les taux de transition d'état à état. Il faut remarquer que le taux de transition de l'état 1
vers l'état 2 est 2λ car l'un ou l'autre des deux composants peut être défaillant. Pour les autres
transitions, il n'y a qu'une possibilité à chaque fois (défaillance ou réparation). A partir de ce
graphe, on peut écrire le système d'équations différentielles suivant :

 dP1(t) = −2 λ P (t) + µP (t )
1 2
 dt
dP2 (t)
 = 2 λ P1(t) −( λ + µ )P2 (t) + µ P3(t)
dt
 dP3 (t )
 = λ P2 (t) − µP3(t)
 dt

Ce système est obtenu en considérant pour chaque état, que la variation de la probabilité
correspondante Pi en fonction du temps est la somme des probabilités d'être dans chacun des
états voisins et de transiter vers cet état (produit Pj par le taux correspondant), moins la
probabilité d'être dans cet état et de transiter vers l'état suivant (produit Pi par le taux
correspondant). Alors, on peut construire la matrice associée T dite de "transition" qui a la
propriété d'être "singulière" (la somme de chaque colonne est nulle, donc son déterminant est
nul) :
 −2 λ µ 0 
T =  2λ −(λ + µ ) µ 
 0 λ − µ 

La matrice transposée de T est également appelée matrice de transition par certains


auteurs (le vecteur probabilité P(t) est alors un vecteur ligne au lieu de colonne)

Calcul des probabilités d'occupation des états puis de la disponibilité


On peut résoudre ce système à l'aide de la transformation de Laplace. On commence par
calculer la transformée de Laplace des trois égalités :

s. L1 (s) − P1(0) = −2λ L1(s) + µL2 (s)



s. L2 (s) − P2 (0) = 2λ L1(s) −(λ + µ )L2 (s) + µL3 (s)
s. L (s) − P (0) = λ L2 (s) − µL3 (s)
 3 3

On utilise pour cela la propriété bien connue de la transformée de Laplace d'une dérivée
:

 dPi (t)
L (s) = sL(s) − Pi (0)
 dt 

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 41
En inversant le système, on en déduit L1(s), L2(s) et L3(s) en supposant que P1(0)=1 et
que P2(0)=P3(0)=0 (système avec ses deux composants en fonctionnement à l'origine des
temps) :
 s 2 + (2 µ + λ )s + µ 2
 L1 (s) = s. f (s)
 λ (s + µ )
 L2 (s) = 2
s. f (s)

λ2
 L3 (s) = 2
 s. f (s)

avec f (s) = s2 + s(2µ + 3λ ) + (2 λ 2 + 2 λµ + µ 2 ) .


Il reste à calculer les transformées inverses de Laplace de L1(s), L2(s) et L3(s) pour
obtenir les probabilités P1(t), P2(t) et P3(t). Ceci se calcule facilement en décomposant les
fractions rationnelles en s en éléments simples, la fonction f(s) admettant deux racines réelles.
En effet, rappelons que sur IR+, la transformée de Laplace inverse de 1/(s+α) est e-αt. On
obtient donc les solutions :

 α  µ 2  s1t β  µ 2  s2t µ 2 γ
P (t) = s + λ + 2 µ + e + s + λ + 2 µ + e + 2
 1 2λ 2 
1
s1  2λ 2 
2
s2  2λ
 α  µ  s1t β  µ  s2 t µγ
 P2 (t ) = 1+ e + 1+ e +
λ  s1  λ  s2  λ

α s1t β s 2t
 P3 (t) = e + e +γ
s1 s2

où les paramètres α, β et γ s'expriment en fonction de λ et µ et de s1 et s2, racines de


2λ 2 2λ 2
l'équation f(s) = 0 : α = = − β et γ = 2 .
s1 − s 2 µ + 2λ 2 + 2λ µ
La disponibilité A(t) est donc la somme P1(t)+P2(t).

Calcul de la fiabilité
La fiabilité par définition (§ 2.1.3.), est la probabilité que le système ne soit pas tombé
en panne pendant l'intervalle de temps [0,t]. Ceci implique qu'il ne faut pas tenir compte des
contributions dues à des remises en service du système. Donc, pour calculer la fiabilité, il faut
reprendre le calcul précédent en supprimant toutes les transitions des états de panne vers des
états de marche (ici, la transition de 3 vers 2). Ceci revient à résoudre le système réduit aux
états de fonctionnement sans tenir compte des états de panne. Ici, il faut donc résoudre le
système :

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 42
 dP1(t) = −2 λ P (t) + µP (t )
 1 2
 dPdt(t)

2
= 2 λ P1(t) −( λ + µ )P2 (t)
dt

On peut utiliser la transformation de Laplace comme précédemment ou, en découplant


les équations, se ramener à la résolution de deux équations différentielles linéaires du second
ordre, l'une en P1(t) et l'autre en P2(t). On obtient :

P
 1 (t) =
1
(
s1 − s 2 1
(s + λ + µ )e s1t − (s 2 + λ + µ )e s2 t )
 2λ
 P2 (t ) = s1 − s 2
(e s1t − e s2t )

où s1 et s2 sont racines de l'équation s 2 + s(3λ + µ ) + 2λ 2 = 0. La fiabilité R(t) est donc


la somme P1(t)+P2(t).

Calcul de la maintenabilité
La maintenabilité étant la probabilité de réparation du système sur un intervalle de
temps [0,t] alors qu'il était en panne en t=0, il faut considérer que P1(0)=P2(0)=0 et P3(0)=1,
et supprimer toutes les transitions des états de marche vers les états de panne. En effet, il ne
faut pas que le système soit réparé plus d'une fois sur l'intervalle [0,t], c'est-à-dire qu'une fois
réparé il ne puisse plus retomber en panne avant l'instant t. Alors, la quantité complémentaire
à 1 de la somme des probabilités des états de panne est la maintenabilité. Dans notre cas, seul
P3(t) est un état de panne, ce qui donne l'équation :

dP3 (t)
= − µP3 (t)
dt

− µt − µt
La solution est évidemment P3 (t) = e donc M(t) = 1 − e . Ce résultat est identique à
celui d'un composant réparable. Cela s'explique par le fait que le seul état de panne du
système correspond à l'indisponibilité de ses deux composants sachant que la réparation d'un
seul d'entre eux est réalisable par un unique réparateur et qu'alors le système se retrouve dans
un état de marche. Ceci est équivalent à la réparation d'un seul composant.

Calcul des grandeurs moyennes


On peut déduire MTTF et MTTR à partir des résultats précédents sur la fiabilité et la
maintenabilité. Néanmoins, il existe une méthode directe utilisant la matrice stochastique
introduite précédemment qui permet de calculer indépendamment MTTF, MTTR, MUT et
MDT (MTBF=MUT+MDT).

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 43
5.6. Etude d'un système à l'aide d'un Arbre de Défaillance

On considère un système composé d'un réservoir et d'un dispositif associé destiné à


prévenir tout débordement de celui-ci (cf. schéma ci-après). Le sécurité du système est
envisagée de la manière suivante :
− dès que le niveau du fluide contenu dans le réservoir atteint un premier seuil, le
détecteur NH (Niveau Haut) commande la fermeture de la vanne V2.
− En cas d'échec de l'action précédente un second capteur de niveau NTH (Niveau Très
Haut) commande la fermeture de la vanne V3 et alerte un opérateur OP par
l'intermédiaire d'un signal d'alarme émis par un klaxon K.
− L'opérateur OP vérifie alors que l'alimentation en fluide est coupée, sinon il ferme la
vanne manuelle V1 ou, en dernier recours, ouvre la vanne manuelle d'évacuation V4
qui autorise un débit supérieur à celui des autres vannes.

L'événement indésirable est donc le débordement du réservoir ( R ). Il constitue


l'événement sommet. Pour construire l'Arbre de Défaillance (AdD), il faut identifier les
événements intermédiaires de proche en proche jusqu'à atteindre un événement élémentaire
pour chaque branche de l'arbre. Dans notre cas, les événement élémentaires sont les
défaillances des composants suivants : les vannes V1, V2, V3 et V4, les détecteurs NH et
NTH, le klaxon K et l'opérateur OP. Ces événements seront notés :
V1, V2,V3,V 4, NH,NTH,K ,et OP . On ne tiendra pas compte des fuites éventuelles des
conduits ou du réservoir.
Les événements causant directement le débordement du réservoir, sont l'impossibilité
d'un arrêt de l'alimentation en eau et l'impossibilité d'évacuation de l'eau. Ensuite, on
décompose ses deux événements intermédiaires.

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 44
K
OP
Source

NH NTH
V1 V2 V3

Consommateur

V4

Evacuation
Schéma du principe de fonctionnement du système

S'il n'y pas d'arrêt d'alimentation en eau, cela veut dire que la vanne V1 n'a pas effectué
cet arrêt ainsi que la vanne V2 et la vanne V3. Pour chacune de ces vannes, cela signifie que
soit elles sont défaillantes, soit non actionnées. Ce dernier événement a une origine différente
suivant la vanne. Ainsi, la vanne V1 devant être actionnée par l'opérateur OP, ne l'est pas soit
parce que l'opérateur est "défaillant", soit qu'il n'a pas été averti, cette dernière possibilité
impliquant que le klaxon K est défaillant ou que le détecteur NTH est défaillant. Pour les
autres vannes, elles peuvent ne pas être actionnées parce que le détecteur correspondant est
défaillant (NH pour V2 et NTH pour V3).
L'impossibilité d'évacuation est due soit à la défaillance de V4, soit au fait qu'elle ne
soit pas actionnée. Alors, on se retrouve dans le même cas de figure qu'avec la vanne V1 dans
le paragraphe précédent.
Tous ces enchaînements d'événements peuvent être résumés par un AdD présenté ci-
après.
La structure logique de l'arbre permet de reconstituer facilement le booléen R associé à
l'événement sommet en fonction des autres booléens associés aux événements élémentaires. Il
suffit de remonter chaque branche en utilisant les propriétés des booléens par rapport aux
opérateurs logiques. On obtient finalement l'expression :

[ ]
R = (V1+ OP + K + NTH)(V2 + NTH)(V3 + NH) (V4 + OP + K + NTH)

Le but étant de déterminer la probabilité de l'événement indésirable, il faut que


l'expression finale soit présentée sous forme d'un somme contenant un minimum de terme et
de préférence disjoints pour réduire les calculs à l'aide de la formule de Sylvester-Poincaré.
On rappelle cette formule :

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 45
 n  n  lr   n 
P ∪ Ei  = ∑ P(Ei ) − ∑ P(E j ∩ Ek )+…+(−1) . ∑ P  ∩ Ei  +…+(−1) . P ∩ Ei 
r +1 n +1
 i=1  i=1 j≠ k l j ≠lk  i=l1   i=1 

Cette expression est composée de 2n−1 termes, ce qui croît très rapidement. Elle est
donc d'usage limité et nécessite des approximations ou une modification des coupes
minimales à l'aide d'algorithmes pour les rendre disjointes. Nous nous limiterons ici au calcul
des coupes minimales.
On commence par s'intéresser aux trois premiers facteurs de l'expression de R . Le
développement du produit des deux premiers termes donne V1.V2 + OP.V2 + K.V2 + NTH .
On rappelle qu'en algèbre booléenne X2 = X et que XY+Y = Y. Le produit de cette
expression par le troisième facteur donne les huit termes :

V1.V2.V3 + OP.V2.V3 + K.V2.V3 + NTH.V3 +


V1.V2.NH + OP.V2.NH + K.V2.NH + NTH.NH

Reste à effectuer le produit par le quatrième facteur. Il faut commencer par les termes
les plus courts qui sont susceptibles de faire disparaître des termes plus long à l'aide de la
relation XY+Y=Y. On génère donc en premier les termes NTH.V3 + NTH.NH en multipliant
par NTH , les autres termes étant simplifiés. Ces deux termes étant minimaux et déjà présents
dans les huit termes précédents, les produits suivants seront uniquement effectués par les six
autres termes. Les produits suivants sont préférentiellement effectués par des coupes
composées d'événements élémentaires communs avec celles déjà obtenues. Ici, on peut
prendre soit OP , soit K . Pour K , on remarque que les produits V2.V3 et V 2.NH
apparaissent plusieurs fois ce qui permet d'écrire le résultat simplifié de ce produit :
V2.V3. K + V2.NH.K . Même remarque pour OP , d'où le résultat : V2.V3.OP + V2. NH.OP .
Enfin, le produit par V 4 est simplifié en utilisant les coupes minimales déjà trouvées. On
obtient finalement huit coupes minimales :

V1.V2.V3.V 4 + V1.V2.NH.V4 + V2.V3.OP + V2.NH.OP +


V2.V3. K + V2.NH.K + NTH.V3 + NTH.NH

Donc, pour ce petit exemple, le calcul à l'aide de la formule de Sylvester-Poincaré


nécessite déjà l'évaluation de 255 termes !
Pour indication, il existe des algorithmes pouvant produire 8 termes "disjoints"
équivalents aux précédents, ce qui réduit donc le nombre d'évaluations de 255 à 8.

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 46
© Gilles Zwingelstein « Sûreté de Fonctionnement »
page 47
Références bibliographiques

1. 2. Le risque technologique, Alain Leroy et Jean-pierre Signoret, Que sais-je ?,


Presses Universitaires de France, 1992.
2. Fiabilité des Systèmes, A. Pagès, M. Gondran, Collection de la Direction des Etudes et
Recherches d’EDF, Ed. Eyrolles, 1980.
3. Techniques d’analyse de la fiabilité des systèmes. Procédures d’analyse des modes de
défaillance et de leurs effets (AMDE). Publication 812 de la CEI, 1985. [AMDE]
4. Fiabilité-maintenabilité-disponibilité. Recueil de normes françaises AFNOR, afnor-
ute, 1988.
5. Maintenance industrielle. Recueil de normes françaises AFNOR, afnor-ute, 1988.
6. Design Analysis Procedure for Failure Mode, Effects and Criticality Analysis
(FMECA). Recommanded Practice ARP 926. SAE Aerospace, sept. 1967. [AMDEC]
7. Failure Modes, Effects and Criticality Analysis, W.E. Jordan, G.C. Marshall. Annual
Reliability and Maintainability Symposium. San Fransisco, California, Jan. 25-27,
1972. [AMDEC]
8. Operating Study and hazards analysis, H.G. Lawley. Chemical Engineering Progress,
70 (1974, n°4) 45-56. [HAZOP]
9. Les différentes méthodes d’analyse de sécurité dans la conception d’une circulation
d’une installation chimique. 2ème méthode : l’étude de sécurité sur schémas de
circulation des fluides. Les cahiers de la sécurité. Union des Industries Chimiques,
nov. 1980. [HAZOP]
10. Sécurité des systèmes, C. Lievens, Cepadues Editions, Toulouse, 1976. [MCPR]
11. Arbres de défaillance, N. Limnios,Traité des Nouvelles Technologies, Ed. Hermès,
1990. [MAC/MAD]
12. Une méthode d’analyse de la fiabilité et de la sécurité des systèmes complexes en
interaction : la méthode des arbres d’événements. EDF-DER, HT/13/18/84, mai 1984.
[MACQ]
13. The Cause-Consequence Diagram method as abasic for quantitative accident
analysis, D.S. Nielsen, Danish Atomic Energy Commission, Report Riso, M. 1374,
Denmark, May 1971. [MDCC]
14. Du grafcet aux réseaux de Petri, H. Alla et P. Davis, Traité des Nouvelles
Technologies, Ed. Hermès, 1989. [MEE, réseaux de Petri]
15. Human Reliability in Risk Analysis in High Risk Safety Technology, J. Rasmussen, Ed.
A.E. Green, Wiley, 1982.
16. Systematic Human Action Reliability Procedure (SHARP), Hannaman, Spurgin,
Electric Power Research Institute, EPRI NP-3583, June 1984. [SHARP]

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 48
17. The human operator failures in petrochemical facilities : an historical investigation
th
and a tentative simulation model TESEO, Bello, Colombari. 6 Advances in
Reliability Technology Symposium, UKAEA-NCSR-R23, 1980. [TESEO]
18. Handbook of Human Reliability Analysis with Emphasis on Nuclear Power Plant
Application, A.D. Swain, H.E. Guttmann. US-NRC-NUREG/CR-1278, August 1983
[THERP]
19. A model for assessing human cognitive reliability in PRA studies, Hannaman,
Spurgin, Lukic. Third IEEE conference on Human Reliability, monterey, USA, 1985.
[HCR]
20. Data Analysis in Risk Assessments, G. Apostolakis, Nuclear Engineering and Design
71 (1982), 375-381.
21. On a “ Two Stage ” Bayesian Procedure for Determining failure rates from
experimental data, S. Kaplan, IEEE Transactions on Power Apparatus ans Ssystems,
PAS-102 (1983), 195-202
22. Mil Handbook 217B, Rome Air Development Center, RBRS, Griffis Air Force Base,
N.Y., 13441, USA
23. IEEE Guide to the collection and presentation of Electrical, Electronic, Sensing
Component and Mechanical Equipment Reliability Data for Nuclear Power
Generating Stations. IEEE Std 500, 1984.

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 49
Annexe 1 : Abréviations

Sociétés / Associations

AFCERQ : Association Française des CERcles de Qualité


AFCIQ : Association Française pour la Qualité
AGREE : Advisory Group on Reliability of Electronic Equipment
CEA : Commissariat à l’Energie Atomique
CEI : Commission Electrotechnique Internationale
CNET : Centre National d’Etudes des Télécommunications
EPRI : Electric Power research Institute (USA)
IEEE : Institute of Electrical and Electronic Engineers
ISdF : Institut de Sûreté de Fonctionnement
MFQ : Mouvement Français pour la Qualité
NASA : National Air Space Agency
SNIAS : Société Nationale des Industrie Aéronautique et Spatiale
UIC : Union des Industries Chimiques
UTE : Union Technique de l’Electricité

Outils/Méthodes

AC : Arbre des Conséquences


AD/AdD : Arbre de Défaillances
AMDE : Analyse des Modes de Défaillances et de leurs Effets
AMDEC : Analyse des Modes de Défaillances, de leurs Effets et de leur Criticité
APD/APR : Analyse Préliminaire des Dangers/Risques
CCDM : Cause-Consequence Diagram Method ⇔ MDCC
DCC : Diagramme Causes-Conséquences
DF : Diagramme de Fiabilité
EPFH : Evaluation Prévisionnelle de la Fiabilité Humaine
ETM : Event Tree Method ⇔ MACQ/MAE
FDMS : Fiabilité, Disponibilité, Maintenabilité, Sécurité (sûreté de fonctionnement) ⇔
RAMS
FMEA : Failure Mode and Effect Analysis ⇔ AMDE
FMECA : Failure Mode, Effects and Criticality Analysis ⇔ AMDEC
FTA/FTM : Fault Tree Analysis/Method ⇔ MAC/MAD
HAZOP : HAZard and OPerability Study
HCR : Human Cognitive Response technique

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 50
HEART : Human Error Assessment and Reduction Technique
MAC/MAD : Méthode de l’Arbre des Causes ou de Défaillance ⇔ FTA/FTM
MACQ/MAE : Méthode de l’Arbre des Conséquence/des Arbres d’Evénements ⇔ ETM
MCPR : Méthode des Combinaisons de Pannes Résumées
MDCC : Méthode du Diagramme Cause-Conséquence ⇔ CCDM
MDS/MDF : Méthode du Diagramme de Succès/Fiabilité ⇔ RBDM
MEE : Méthode de l’espace des Etats
MIL-HDBK-217B/F : MILitary HanDBooK 217B or 217F
MTD : Méthode de la Table de Décision
MTV : Méthode de la Table de Vérité
NPRDS-91 : Nuclear Plant Reliability Data System - 1991
OREDA 84 : Offshore REliability DAta book - 1984
RAMS : Reliability, Availability, Maintainability, Safety ⇔ FDMS
RBDM : Reliability Block Diagram Method ⇔ MDS/MDF
SHARP : Systematic Human Action reliability Procedure
TESEO : Tecnica Empirica Stima Errori Operatori
THERP : Technique for Human Error Rate Prediction

Grandeurs de sûreté de fonctionnement

FMAP : temps moyen de fonctionnement avant la première défaillance ⇔ MTTF


FMED : temps Moyen de Fonctionnement Entre Défaillances ⇔ MTBF
MDT : Mean Down Time ⇔ TMI
MTBF : Mean operating Time Between Failures ⇔ FMED
MTTF : Mean Time To Failure ⇔ FMAP
MTTR : Mean Time To Repair/Restoration ⇔ TMRS
MUT : Mean Up Time ⇔ TMD
TMD : Temps Moyen de Disponibilité ⇔ MUT
TMI : Temps Moyen d’Indisponibilité ⇔ MDT
TMRS : Temps Moyen de Remise en Service ⇔ MTTR

© Gilles Zwingelstein « Sûreté de Fonctionnement »


page 51
© Gilles Zwingelstein « Sûreté de Fonctionnement »
page 52

Vous aimerez peut-être aussi