Bernard - Robles These

Etude de la pertinence des parametres stochastiques sur
des modeles de Markov caches

Bernard Robles
To cite this version:

Bernard Robles. Etude de la pertinence des parametres stochastiques sur des modeles de
Markov caches. Autre. Universite dOrleans, 2013. Francais. <NNT : 2013ORLE2066>.
<tel-01058784>
HAL Id: tel-01058784

https://tel.archives-ouvertes.fr/tel-01058784
Submitted on 28 Aug 2014
HAL is a multi-disciplinary open access Larchive ouverte pluridisciplinaire HAL, est

archive for the deposit and dissemination of sci- destinee au depot et a la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publies ou non,
lished or not. The documents may come from emanant des etablissements denseignement et de
teaching and research institutions in France or recherche francais ou etrangers, des laboratoires
abroad, or from public or private research centers. publics ou prives.
UNIVERSIT DORLANS
COLE DOCTORALE Mathmatiques, Informatique,

Physique Thorique et Ingnierie des Systmes (MIPTIS)
LABORATOIRE PRISME
THSE prsente par :

Bernard Robles
soutenue le : 18 dcembre 2013

pour obtenir le grade de : Docteur de lUniversit dOrlans
Discipline : SCIENCES ET TECHNOLOGIES INDUSTRIELLES
tude de la pertinence des paramtres stochastiques

sur des Modles de Markov Cachs.
THSE dirige par :

Frdric Kratzaaaaaaaa Professeur des Universits, ENSI de Bourges
RAPPORTEURS :
Zohra Cherfi Boulanger Professeur des Universits, Universit de Technologie de
Compigne
Abdessamad Kobi Professeur des Universits, Universit dAngers
JURY :
Christian Olivier Professeur des Universits, Universit de Poitiers, Prsident
du jury
Zohra Cherfi Boulanger Professeur des Universits, Universit de Technologie de
Compigne
Abdessamad Kobi Professeur des Universits, Universit dAngers
Gilles Mourioux Matre de Confrences, Universit de Limoges
Yann Chamaillard Professeur des Universits, Universit dOrlans
Frdric Kratz Professeur des Universits, ENSI de Bourges
Manuel Avila Matre de Confrences, Universit dOrlans
Florent Duculty Matre de Confrences, Universit dOrlans
Remerciements
Je tiens remercier en tout premier lieu M. Frdric Kratz davoir accept, il y a quelques
annes de cela, que je dbute une thse sous sa direction. Jai ainsi dcouvert le monde de
la recherche au sein de lquipe IRAuS du laboratoire PRISME.
Je remercie Mme Zohra Cherfi Boulanger et M. Abdessamad Kobi davoir accept de rap-
porter sur mon travail de thse. Leur intrt pour ce travail et leurs remarques pertinentes
mont pouss aller plus loin dans certaines rflexions.
M. Christian Olivier, M. Gilles Mourioux et M. Yann Chamaillard davoir accepts de

faire parti de mon jury de thse.
Merci M. Manuel Avila et M. Florent Duculty qui ont co-dirig ce travail de thse, ils
ont cadrs mon travail tout au long de ma thse et ont su me diriger sur ce long chemin
sinueux.
M. Stphane Bgot pour les corrections quatre mains que nous avons ralis durant
de longues heures.
M. Manuel Avila, M. Florent Duculty, M. Pascal Vrignat et M. Stphane Bgot, pour

leurs relectures et leurs corrections pertinentes.
M. Pascal Vrignat qui ma transmis toutes les donnes rcoltes sur le terrain ainsi que
ces donnes de recherche.
Jai dcouvert le plaisir denseigner en parallle de mon travail dinformaticien. Je remer-
cie M. Manuel Avila qui ma fait confiance et ma donn la responsabilit des divers cours
magistraux en informatique, travaux dirigs et travaux pratiques que jai assur durant ces
annes.
Merci aussi tous les personnels de lIUT de lIndre qui mont encourag pendant toutes
ces annes. Merci Nicole Stride qui ma montr comment motiver les tudiants de LPSAR
pendant 4 heures de CM...
Merci M. Jean-Christophe Bardet, directeur de lIUT de lIndre et M. Grard Guillaume

responsable administratif, qui mont autoris participer aux diverses confrences, colloques
et runions recherche, sur mon temps de travail.
Merci Mme Pinkney pour son aide prcieuse dans la rdaction de communications en
i
anglais.
Merci Fanny, pour la correction des nombreuses erreurs de frappe sur ce manuscrit et
aussi pour sa patience de mavoir support travailler durant de nombreux soirs et week-end.
ii
Table des matires
Avant-propos 1
1 Principes gnraux, objectifs et politique de maintenance industrielle 5

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Prsentation de la maintenance dans le domaine industrielle . . . . . . . . . 9
1.2.1 Dfinitions normatives . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2 Politique de maintenance . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.3 Objectifs dune politique de maintenance . . . . . . . . . . . . . . . . 12
1.2.4 Typologies des actions de maintenance . . . . . . . . . . . . . . . . . 13
1.3 La Gestion de la Maintenance Assiste par Ordinateur : GMAO . . . . . . . 14
1.4 volution des politiques de maintenance industrielle . . . . . . . . . . . . . . 16
1.5 Utilisation de Modles de Markov Cachs dans le cadre dune politique de
maintenance industrielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.5.1 Anticiper une situation de panne . . . . . . . . . . . . . . . . . . . . 21
1.5.2 Utilisation des MMC dans la dtection de panne . . . . . . . . . . . . 22
1.6 Conclusion et objectifs de cette tude . . . . . . . . . . . . . . . . . . . . . . 24
2 Approches classiques de mesures de pertinence dans la chane de modli-

sation 27
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Problmatique gnrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Analyse de sensibilit dun modle . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.1 Comment raliser une analyse de sensibilit ? . . . . . . . . . . . . . . 31
2.3.2 Mthodes danalyse de sensibilit . . . . . . . . . . . . . . . . . . . . 31
2.3.3 Les enjeux de la prise en compte des incertitudes . . . . . . . . . . . 35
2.3.4 Incertitudes de conception . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4 Mthodes de mesures de pertinence de modles . . . . . . . . . . . . . . . . 38
2.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.2 Concepts de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.3 Mthodes avec score dintrt . . . . . . . . . . . . . . . . . . . . . . 40
2.4.4 Mthodes par apprentissage . . . . . . . . . . . . . . . . . . . . . . . 48
2.4.5 Mthodes statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.4.6 Comparaison de deux modles par corrlation linaire de Bravais-Pearson 52
2.5 Mesure du caractre stochastique dun modle . . . . . . . . . . . . . . . . . 53
2.6 Discussion sur les mthodes de slection de modles . . . . . . . . . . . . . . 55
2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
iii
TABLE DES MATIRES
3 valuation de modles par une approche markovienne 59

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.2 Attentes thoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3 Approches classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.3.1 Filtres particulaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.3.2 Filtre de Kalman tendu . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.3.3 Rseau de Petri stochastique . . . . . . . . . . . . . . . . . . . . . . . 63
3.4 Approche markovienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4.1 Chanes de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4.2 Modle de Markov Cach discret . . . . . . . . . . . . . . . . . . . . 67
3.4.3 Complexit de lvaluation dun MMC . . . . . . . . . . . . . . . . . 68
3.4.4 Topologies des modles tudis . . . . . . . . . . . . . . . . . . . . . 69
3.4.5 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4.6 Symboles manquants . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.5 Modle de synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.5.1 Caractre stochastique du modle de synthse . . . . . . . . . . . . . 77
3.5.2 Processus dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.5.3 Processus de gnration des symboles . . . . . . . . . . . . . . . . . . 81
3.5.4 Dtermination de la loi statistique . . . . . . . . . . . . . . . . . . . . 81
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4 Exprimentations et rsultats 87
4.1 Rsultats de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.1.1 Paramtres du modle de simulation . . . . . . . . . . . . . . . . . . 89
4.1.2 Pertinence des observations de simulation . . . . . . . . . . . . . . . . 90
4.1.3 volution de la modlisation . . . . . . . . . . . . . . . . . . . . . . . 92
4.1.4 Pertinence de larchitecture des modles de simulation . . . . . . . . . 98
4.1.5 Rsultats avec les autres topologies . . . . . . . . . . . . . . . . . . . 104
4.2 Rsultats des tudes relles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.2.1 Prsentation des environnements dtude . . . . . . . . . . . . . . . . 107
4.2.2 Modlisation des processus industriels . . . . . . . . . . . . . . . . . . 107
4.2.3 Description des MMC utiliss . . . . . . . . . . . . . . . . . . . . . . 108
4.2.4 Pertinence des observations empiriques . . . . . . . . . . . . . . . . . 110
4.2.5 volution de la modlisation . . . . . . . . . . . . . . . . . . . . . . . 119
4.2.6 Confrontation du modle de synthse avec lapplication relle . . . . . 125
4.2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.3 Comparaison du modle de synthse avec le cas industriel . . . . . . . . . . . 126
4.3.1 Ajustement du modle de synthse . . . . . . . . . . . . . . . . . . . 126
4.3.2 Rsultats aprs ajustement du modle de synthse . . . . . . . . . . . 129
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
Conclusion gnrale et perspectives 131
iv
TABLE DES MATIRES
A Algorithmes 139
A.1 Apprentissage Interactive Dichotomizer 3 (ID3) . . . . . . . . . . . . . . . . 141
A.2 Compression de Lempel-Ziv-Welch . . . . . . . . . . . . . . . . . . . . . . . 142
A.3 Itratif dEspace de Version (IVSA) . . . . . . . . . . . . . . . . . . . . . . . 143
A.4 Viterbi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
A.5 Algorithme de calcul de lentropie moyenne . . . . . . . . . . . . . . . . . . . 146
B Principales lois de probabilits 149

B.1 Loi Normale (Laplace Gauss) . . . . . . . . . . . . . . . . . . . . . . . . . 149
B.2 Loi Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
B.3 Loi Exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
C Notions de mathmatiques utilises 153
Bibliographie 155
Communications 171
Liste des Figures 175
Liste des tableaux 178
v
TABLE DES MATIRES
vi
Avant-propos
Le but des modles nest pas de reprsenter les donnes mais de prciser les
questions.
Samuel Karlin, 19242007
Un but majeur de la science est la comprhension et pas seulement la prdiction.

Willard van Orman (La poursuite de la Vrit), 19082000
1
Avant-propos
La notion de modles de Markov cachs MMC 1 ou HMM 2 , apparat dans de nombreux

domaines comme la thorie de linformation, la physique statistique, la compression de don-
nes, la bio-informatique (segmentation de gnes ou protines afin de comparer des squences
dADN), la reconnaissance vocale, la maintenance industrielle, etc. Cette modlisation est
une approche prometteuse dans certains domaines o lon cherche conceptualiser des don-
nes partiellement manquantes, comme la reconnaissance de caractres dans lcriture ma-
nuscrite ou la reconnaissance dempreintes digitales.
Nous proposons dans cette thse des outils permettant de choisir ou doptimiser des mo-
dlisations markoviennes utilises notamment dans le cadre dune politique de maintenance
industrielle. Nous dfinirons alors des critres dvaluation afin de mesurer la pertinence de
MMC.
Pour rester comptitives tout en prennisant leur productivit, les entreprises doivent
maintenir leurs quipements de production dans un tat de bon fonctionnement. En effet,
un simple dysfonctionnement dans un processus de fabrication peut savrer catastrophique
pour tout le reste de la chane de production et ainsi engendrer des pertes importantes de
bnfice pour lentreprise, voire dans le pire des cas, des priodes de chmage technique
pour les employs. Sous la pression de tels facteurs socio-conomiques, de nombreuses en-
treprises doivent non seulement investir continuellement dans leur politique de maintenance
industrielle mais galement dans linnovation technologique afin damliorer la qualit des
interventions de maintenance tout en assurant un retour sur exprience.
Nos travaux sinscrivent dans la continuit de ceux mens dans la thse de Pascal Vri-
gnat : Gnration dindicateurs de maintenance par une approche semi-paramtrique et
par une approche markovienne soutenue le 14 octobre 2010 [177]. Dans ces prcdents
travaux, lauteur sest concentr sur lestimation globale du niveau de dgradation dun pro-
cessus industriel. Lauteur a dmontr qu partir dobservations empiriques, il tait possible
deffectuer une modlisation de ces niveaux de dgradation.
Dans ce manuscrit, nous nous concentrerons sur ltude dun ensemble de modles dfinis
dans la thse de Pascal Vrignat [177]. Nous tudierons en effet la pertinence de ces diffrentes
architectures. Pour cela, nous parlerons de topologies, dobservations, de critres dchan-
tillonnage, dalgorithmes dapprentissage et de dcodage ou de critres de distributions des
observations.
Ainsi, dans le cadre dune politique de maintenance prventive, notre dmarche tente
damliorer laide la dcision des experts. Ce manuscrit sarticule autour dune prsenta-
tion des stratgies modernes de maintenance industrielle. Nous en dfinirons ensuite leurs
objectifs principaux. Pour tayer notre propos, un tat de lart des diffrentes approches
visant tudier la pertinence des paramtres de modlisation sera prsent dans un pre-
mier temps. Nous exposerons par la suite les lments de modle(s) (architecture) les plus
appropris. Pour terminer, les rsultats issus des donnes simules seront compars ceux
provenant de deux applications concrtes de maintenance industrielle.
1. Modle de Markov Cach
2. Hidden Markov Model
2
Avant-propos
La plupart des travaux publis ont pour objectif doptimiser la qualit du diagnostic
suivant la stratgie de fiabilisation applique. Notre dmarche se diffrencie des approches
habituelles de la littrature : utilisation des rseaux de Petri (Labadi et al. [105]) ou des filtres
particulaires (Li et al. [109]) ou encore des rseaux Baysiens (Przytula et Thompson [133]).
En effet, la dmarche utilise dans ces travaux consiste modliser les dgradations dun
processus en utilisant des MMC. Cet outil nous est apparu comme particulirement adapt
lidentification de signatures de ltat dun systme. Afin dtre dcorrl da priori, un
processus de synthse a t cr pour produire des vnements simuls associs un niveau
de dgradation connu. Cest en comparant le comportement de ce modle ceux dfinis
empiriquement dans le cadre industriel que nous arriverons prsenter des prconisations
concernant :
la pertinence des observations collectes (voire collecter) ;
les critres dchantillonnage de ces observations ;
le nombre dobservations ncessaire et suffisant pour dcrire le modle de manire op-

timale ;
la topologie dun MMC ;
lusage dalgorithmes dapprentissage et de dcodage.
Les informations utilises comme observations des modles empiriques proviennent des
activits de maintenance issues de divers secteurs de lindustrie. Le but de notre dmarche
est dtablir des indicateurs de niveaux de dgradation globale dun processus quelconque.
Ainsi, on peut esprer valider un modle indpendant de caractristiques trop lies un
processus industriel particulier.
Ceci est dautant plus vrai quune telle stratgie peut sappliquer des domaines trs
diffrents. Il pourrait sagir, par exemple, dun routeur indiquant lingnieur informatique
la charge probable de son rseau. Lors dune augmentation du niveau de collisions des pa-
quets IP, cet outil lui permettrait alors dallger cette charge avant quun arrt complet du
systme ne survienne.
A voir ces applications potentielles, on imagine bien que les modles doivent se construire
autour de caractristiques globales et non particulires. En suivant cette dmarche, nous
pouvons esprer obtenir une modlisation beaucoup plus transposable nimporte quel pro-
cessus.
Dans un premier chapitre, nous dtaillerons les diffrents aspects de la maintenance in-
dustrielle, ses objectifs principaux, ses politiques de mise en uvre classiques ainsi que ses
volutions. Nous prsenterons la problmatique gnrale ainsi que les objectifs de cette tude.
Comme nous lavons dj prcis, cette thse se situe dans la continuit de la thse de Pascal
Vrignat [177] sur la gnration dindicateurs de maintenance par une approche markovienne.
3
Avant-propos
Nous prsenterons dans un second chapitre, les diffrentes approches danalyse de mo-
dles. Nous dfinirons les diffrents types danalyse de sensibilit dans la conception dun
modle, les incertitudes dans la chane de modlisation ainsi que leurs impacts sur les mo-
dles. Cette analyse devrait nous permettre de dterminer les caractristiques des modles
les plus sensibles. Ensuite, nous raliserons une tude sur les diffrentes approches dvalua-
tion de pertinence dun modle.
Dans un troisime chapitre, nous dfinirons nos attentes thoriques, en ce qui concerne la
pertinence des observations, lvolution de la modlisation et la pertinence de larchitecture
des modles tudis. Ensuite, nous prsenterons notre approche markovienne et ces diffrents
aspects et proprits, ainsi que dautres approches pouvant rpondre notre problmatique.
Nous prsenterons galement la complexit du calcul de la squence la plus probable dtats
cachs ayant conduit la production dune squence dobservations donne. En effet, le
nombre de chemins possibles pour gnrer une telle squence est de lordre de N T (N tant
le nombre dtats dun MMC et T la longueur dune squence dobservations). Lapproche
directe nest pas acceptable sachant que pour notre cas N = 4 et T = 1000, le calcul de-
manderait alors approximativement 10600 oprations. Afin que notre modle soit ractif, il
est quand mme prfrable de mettre en place des alternatives au calcul direct. Enfin, le
processus de synthse sera introduit et ses caractristiques seront compares celles des
architectures empiriques mises en uvre partir de donnes industrielles.
Le quatrime chapitre sera consacr lanalyse des rsultats issus de notre modle de si-
mulation reprsentant le fonctionnement dune GMAO industrielle. Nous prsenterons dans
un premier temps les caractristiques de ce modle, puis les rsultats sur les trois points sui-
vants : la pertinence des observations, la pertinence de larchitecture des diffrents modles
utiliss et lvolution de la modlisation afin den amliorer son architecture. Nous utilise-
rons notamment le principe du maximum de vraisemblance pour valuer la pertinence des
paramtres dun ensemble de MMC. Ce principe permet en gnral de dterminer lappar-
tenance dun chantillon de n observations indpendantes un ensemble de distributions
donnes. Nous appliquerons la notion dentropie de Shannon, un second critre commun-
ment utilis dans la slection de modle. Ce critre est utilis dans de nombreux domaines.
Nous le trouvons dans le langage courant comme synonyme de dsorganisation . En fonc-
tion de la minimalit ou de la maximalit de lentropie, nous valuerons la pertinence des
squences de symboles en terme de quantit dinformation. Nous raliserons ensuite deux
tudes exprimentales, issues de cas concrets de processus industriels. Nous dbuterons par
une prsentation de ces environnements exprimentaux puis nous prsenterons nos rsul-
tats sur les trois points prcdemment cits. Nous terminerons en donnant des perspectives
damliorations possibles pour la modlisation.
4
Chapitre 1
Principes gnraux, objectifs et politique

de maintenance industrielle
5
Chapitre 1 : Principes gnraux, objectifs et politique de maintenance industrielle
6
1.1 Introduction
Afin de mieux apprhender les objectifs de la maintenance industrielle, il est important

de comprendre ses grands principes. Cest lobjet de ce premier chapitre.
Dans un premier temps, nous donnerons les dfinitions normatives de la maintenance.

Nous dtaillerons les deux types de maintenance couramment utiliss dans un contexte in-
dustriel. Leurs objectifs principaux ainsi que leurs politiques de mise en uvre seront ensuite
dfinis.
Dans un second temps, nous aborderons la gestion de la maintenance informatise, im-

plante dans les divers secteurs conomiques. Les diffrentes fonctionnalits de ces outils
informatiques seront dtailles par la suite. Il est notable que ces outils sont souvent de
fabrication maison et quils sont devenus indispensables la bonne pratique de la main-
tenance. Nanmoins, de nombreuses solutions professionnelles sont aujourdhui disponibles
sur le march.
La littrature expose un nombre croissant de nouvelles stratgies de politiques de main-

tenance. Afin de mieux apprhender ces volutions, nous tenterons de prsenter ensuite les
grands axes de ces nouvelles stratgies ainsi que leurs impacts sur les politiques de mainte-
nances industrielles implmentes.
Depuis quelques annes, des auteurs proposent lutilisation de MMC pour la mainte-
nance. Nous vous prsenterons ces approches afin de comprendre la gense de ces travaux
dbuts en 2007 [176].
Enfin, une prsentation succincte des travaux de Pascal Vrignat [177] : Gnration din-
dicateurs de maintenance par une approche semi-paramtrique et par une approche marko-
vienne , viendra conclure ce chapitre, point de dpart de notre contribution. En effet, ces
indicateurs de dgradation dun processus industriel quelconque doivent permettre lexpert
en maintenance damliorer la productivit des quipements dont il a la responsabilit. Sur
ces bases ainsi tablies, nous exposerons les objectifs de cette tude.
1.1 Introduction
La base de donnes ARIA 1 , du Ministre de lcologie, rpertorie toutes les informations
sur les accidents technologiques. Sur les 7716 accidents recenss sur une vingtaine dan-
nes, les experts ont mis en cause, pour 12% dentre eux, les stratgies de maintenances,
de rparations ou les protocoles de tests. Parmi eux, 30 % sont des accidents mortels ! Les
circonstances de ces accidents sont les suivantes :
sous estimation du risque industriel ;

inadaptation de la mise en scurit de certains quipements sensibles ;
1. Depuis 1992, elle rpertorie les incidents ou accidents qui ont, ou auraient, pu porter atteinte la sant
ou la scurit publique, lagriculture, la nature et lenvironnement. Site : http ://www.aria.developpement-
durable.gouv.fr
7
insuffisance du dialogue entre les acteurs ;

manque de contrle et de suivi des chantiers.
Sur ces accidents mortels, 6,7% sont ds des oprations de mise en service/arrt/redmarrage
dont les causes sont :
des manques dtanchit des quipements ;

des mauvais positionnements de vannes ;
des difficults pour stabiliser des paramtres.
Fig 1.1 Nombres daccidents mortels et de victimes lis un manque de suivi des quipe-
ments, pour les principales activits concernes.
Concrtement, les installations impliques (voir Figure 1.1, p. 8) sont lorigine de 254
accidents mortels et de 425 victimes entre 1992 et 2010. Il est regrettable de constater quun
dfaut ou un manque de suivi des quipements est trop souvent mis en cause par les experts.
Une meilleure gestion de la maintenance aurait-elle pu viter de tels drames ?
8
1.2 Prsentation de la maintenance dans le domaine industrielle
Dans le mme ordre dide, Genevive Montaigu du journal Luxembourgeois Le Quo-

tidien titrait rcemment (mars 2012) : Le parquet a requis hier une peine de 3 ans et
demi contre le pilote, une peine de 2 ans contre lancien directeur du service technique et
18 mois contre deux autres responsables du service maintenance. La dfense rappelle que
les prvenus ne peuvent tre condamns pour la mme faute dans un cas dhomicides in-
volontaires . Cet article concernant la tragdie de la Luxair en 2002 a fait jurisprudence
en matire dorganisation de la maintenance. En effet, le technicien de maintenance nayant
pas donn suite aux recommandations du constructeur alors quil avait les documents en
sa possession, est en partie responsable de la mort de 10 personnes. Toute une chane de
responsabilit est mise en cause, du pilote au personnel de maintenance. Ainsi ce drame
aurait pu tre vit si les consignes de maintenance avaient t respectes !
De tels drames ne sont pas inluctables dans le domaine de la maintenance. Ainsi, cer-
taines bonnes pratiques, que nous allons aborder par la suite, peuvent minimiser de tels
risques encourus par les personnes.
Comme nous lavons dit prcdemment, la maintenance industrielle est en constante vo-
lution depuis plusieurs annes, elle est devenue un secteur stratgique dans les entreprises.
En effet, outre les considrations humanistes, ces accidents ont un cot pour les entreprises
concernes. Dans la course effrne au rendement, le moindre dysfonctionnement du pro-
cessus dune chane de fabrication peut avoir des effets conomiquement catastrophiques.
Nous avons pu constater nous mme que cest le sentiment dun bon nombre dentreprises,
notamment dans lIndre, o une baisse de production pourrait engendrer une baisse de com-
ptitivit entrainant des licenciements voire des fermetures dusines.
La maintenance na plus aujourdhui comme vocation unique de simple rparation de
loutil de production, car elle doit permettre de prvoir et dviter ces dysfonctionnements.
Elle doit sans cesse sadapter aux innovations technologiques tout comme aux nouveaux
modes de gestion. Ces adaptations doivent aussi prendre en compte les nouvelles rglemen-
tations internationales sans accroitre pour autant les cots de production.
Il ne faut pas perdre de vue que lobjectif premier de la maintenance est de garantir la
disponibilit optimale de loutil de production dune entreprise. Nous verrons dans les sections
suivantes que cette ide est toujours la base de la maintenance mais quelle se dcline suivant
beaucoup dautres aspects.
1.2 Prsentation de la maintenance dans le domaine in-

dustrielle
De nos jours, les entreprises travaillent de plus en plus flux tendu, i.e. production
stock minimal . Cette politique de fonctionnement a normment fragilis la chane de
production. En effet, la moindre dfaillance sur un chanon du processus de fabrication peut
impliquer un arrt de toute la production. De ce fait, la fiabilisation de ces quipements est
devenue un enjeu majeur. Suivant cette politique du zro stock , le zro dfaut est
ainsi devenu une exigence vitale pour lentreprise. La scurit des personnes est devenue un
enjeu fondamental en gnral, voire primordial pour certains secteurs comme laronautique
ou le nuclaire (en particulier les centrales nuclaires).
9
Les cots lis la maintenance font dsormais partie intgrante de la politique budgtaire
de lentreprise. Son budget consacr la maintenance doit tre un juste quilibre entre
comptitivit et qualit de la production. En effet, environ 10 % des effectifs industriels sont
concerns par des tches de maintenance et sont toujours en constante croissance malgr
la conjoncture conomique actuelle. Selon lObservatoire Rseau Maintenance 2012 ,
les dpenses de maintenance ont progress de + 1,9 % en 2011, par rapport 2010 (les
chiffres pour 2013 sont bass sur des estimations). Le secteur de la mcanique reste toujours
dynamique mais ceux de lautomobile, du raffinage, de la fonderie ou de la papeterie ont
minimis ces cots, en ajustant leur budget maintenance la baisse ou en fermant des units
de production. Voir Tableau 1.1, p. 10.
2005 2006 2007 2008 2009 2010 2011 2012 2013

Production en valeur (Ge) 828 875 922 941 810 864 921 931 943
Dpenses maintenance/production (%) 2,7 2,5 2,4 2,3 2,6 2,4 2,3 2,3 2,3
Dpenses maintenance (Ge) 22 22,1 22 21,6 20,6 20,9 21,2 21,3 21,4
Sous-traitance de la maintenance (%) 31,4 32,2 32,8 32,4 33,2 32,4 33,3 34,4 34,6
Maintenance sous-traite (Ge) 6,9 7,1 7,2 7 6,9 6,8 7,1 7,3 7,4
Tableau 1.1 volution des valeurs et des grands ratios de la maintenance. Source : lOb-
servatoire Rseau Maintenance 2012.
1.2.1 Dfinitions normatives

Une dfinition donne par lAFNOR 2 de la maintenance est la suivante : Ensemble
de toutes actions techniques, administratives et de management durant le cycle de vie dun
bien, destines le maintenir ou le rtablir dans un tat dans lequel il peut accomplir la
fonction requise .
Le Petit Larousse 2010 donne la dfinition suivante : Ensemble de tout ce qui per-
met de maintenir ou de rtablir un bien dans un tat spcifi ou en mesure dassurer un
service dtermin .
En effet, le rle premier de la maintenance est la rparation et le dpannage au moindre
cot. Cest aussi le maintien des quipements en tat de marche avec une scurit de fonc-
tionnement maximale. La maintenance doit se conjuguer avec la notion de maintenabilit.
Les quipements de production doivent en effet pouvoir tre entretenus tout au long de leur
dure de vie (voir louvrage de Roucoules et al. [143] sur le cycle de vie dun produit).
1.2.2 Politique de maintenance

Le rle du responsable de maintenance a bien volu, au-del de ses connaissances tech-
niques. Il doit dsormais trouver le juste quilibre entre la monte en puissance des exigences
conomiques imposes par les dirigeants et la disponibilit sans faille des quipements dont
il est responsable. Le lecteur pourra se rfrer la thse de Castanier [37], qui ralise une
bonne synthse et donne un large ventail des politiques de maintenance.
2. Association Franaise de Normalisation
10
Avant le passage dune politique corrective vers une politique de maintenance prventive,
il faut tenir compte dventuelles rnovations futures. Il ne faudrait pas intgrer dans cette
politique, un quipement qui serait mis au rebut dans un avenir proche.
Il faut ensuite valuer les rpercussions dune panne sur le plan :
conomique et social : perte dexploitation, chmage technique, image de lentreprise ;
environnemental : traitement de la pollution, consquences nfastes sur lenvironne-

ment ;
qualitatif : larrt et le redmarrage ont une incidence sur la qualit des produits.
Si lon ne tient pas compte des cas extrmes o le risque est inacceptable, la politique de
maintenance mise en uvre devra tenir compte dautres situations pour lesquelles le risque
peut tre tolrable, ou mme totalement acceptable :
pour un risque inacceptable, il faut supprimer totalement les causes de panne ;
pour un risque tolrable, il faut choisir entre maintenance prventive systmatique et

maintenance conditionnelle (voir 1.2.4, p. 13) ;
et pour un risque acceptable, la maintenance prventive peut tre inutile.
Une tendance actuelle, de plus en plus frquente dans les grandes industries, est de confier
la maintenance de niveau 1 et 2 (voir ci-dessous la classification de lAFNOR) aux opra-
teurs de production afin de dcharger le service de maintenance sur des tches basiques et
de responsabiliser les oprateurs au bon entretien de leurs outils de travail.
LAFNOR distingue 5 niveaux de maintenance, suivant la complexit des oprations :
1er niveau : rglage simple prvu par le constructeur ou le service de maintenance, au

moyen dlment accessible sans aucun dmontage pour ouverture de lquipement. Ces
interventions peuvent tre ralises par lutilisateur sans outillage particulier partir
des instructions dutilisation.
Il sagit ici de contrler les paramtres ncessaires au bon fonctionnement de la machine
comme les niveaux dhuile, les niveaux deau, les tempratures de fonctionnement et
de raliser un contrle visuel et auditif du fonctionnement des organes sensibles.
2me niveau : dpannage par change standard des lments prvus cet effet et dop-
ration mineure de maintenance prventive. Ces interventions peuvent tre ralises par
un technicien habilit ou lutilisateur de lquipement dans la mesure o ils ont reu
une formation particulire.
Ce sont des oprations de remplacement, danalyse, de rglages simples ncessitant
ventuellement un outillage spcifique.
11
3me niveau : identification et diagnostic de panne suivis ventuellement dchange de

composant, de rglage et dtalonnage gnral. Ces interventions peuvent tre ralises
par un technicien spcialis sur place ou dans un local de maintenance laide de lou-
tillage prvu dans des instructions de maintenance.
Ces oprations de maintenance de type curative, concernent des rglages et des rpa-
rations mcaniques ou lectriques mineures, comme le remplacement de capteurs ou de
modules dfaillants.
4me niveau : travaux importants de maintenance corrective ou prventive lexception

de la rnovation et de la reconstruction. Ces interventions peuvent tre ralises par
une quipe disposant dun encadrement technique trs spcialis et des moyens impor-
tants adapts la nature de lintervention.
Ce sont des oprations assez complexes comme par exemple le rebobinage dun moteur
lectrique, la rectification de culasse, etc.
5me niveau : travaux de rnovation, de reconstruction ou de rparation importante

confis un atelier central de maintenance ou une entreprise extrieure prestataire de
service.
Ce niveau ncessite des moyens similaires ceux utiliss en fabrication.
1.2.3 Objectifs dune politique de maintenance

Dans un contexte de maintenance industrielle, le maintien en tat de marche des quipe-
ments est devenu une exigence conomique et sociale. Lentretien (activit oprationnelle de
maintenance) peut-tre correctif ou prventif. Dans le premier cas, les interventions de main-
tenance se font uniquement aprs quun dfaut a t constat ou subi. Cela peut conduire
des situations subies, en particulier pour les systmes sensibles aux risques industriels (nous
pouvons citer par exemple lexplosion rcente sur une plate-forme ptrolire dans le golfe du
Mexique, le 16 novembre 2012). Pour viter que de tels cas ne se produisent, un entretien
systmatique peut tre mis en uvre.
Les principaux objectifs de la maintenance sont :
assurer la scurit humaine : dans certains cas, elle permet de limiter les interventions
dangereuses qui comporteraient des risques pour les oprateurs de maintenance comme
par exemple la manipulation de mtal en fusion chez un mtallurgiste. La maintenance
doit minimiser les risques aux personnes sans augmenter pour autant les risques en-
courus par les personnels de maintenance ;
optimiser le temps de fonctionnement de lquipement : la planification des interven-

tions de maintenance prventive sur une machine doit tenir compte du planning darrt
de cet quipement ;
amliorer la fiabilit de lquipement : le contrle des rglages de la machine permet

de conserver une qualit optimale des produits fabriqus tout en limitant les rebuts.
12
1.2.4 Typologies des actions de maintenance
Nous prsentons ici les deux principaux types de maintenance utiliss dans lindustrie :
la maintenance prventive et la maintenance corrective.
La maintenance prventive
Se prmunir dune dfaillance matrielle avant quelle narrive est devenu une rgle dor en
matire de maintenance industrielle. La maintenance prventive doit tre applique lorsque
la panne potentielle a une incidence notable sur la scurit en devenant donc inacceptable
conomiquement pour lentreprise. Celle-ci permet damliorer la scurit des personnes en
minimisant les dpannages, daugmenter le taux de productivit en optimisant les temps
darrt de production (i.e. dassurer une continuit de service en planifiant des oprations de
maintenance pendant larrt de travail) et daugmenter la dure de vie des quipements.
Selon lAFNOR, cest une maintenance excute des intervalles prdtermins ou se-
lon des critres prescrits. Cette stratgie de maintenance est destine rduire la probabilit
de dfaillance ou la dgradation du fonctionnement dun bien . Les dfinitions suivantes
sont extraites de la norme NF EN 13306 X 60-319 [121].
La maintenance prventive est souvent subdivise en trois principaux types (voir Fi-
gure 1.2, p. 15) :
la maintenance prventive conditionnelle : Maintenance prventive base sur une

surveillance du fonctionnement du bien et/ou des paramtres significatifs de ce fonc-
tionnement intgrant les actions qui en dcoulent . Elle est base sur le franchissement
dun seuil de dgradation critique permettant de dclencher une opration de mainte-
nance. Nous trouvons aussi dans la littrature un autre sous ensemble de la maintenance
conditionnelle : la maintenance prvisionnelle ( Maintenance conditionnelle excute
en suivant les prvisions extrapoles de lanalyse et de lvaluation de paramtres signi-
ficatifs de la dgradation du bien . Cest une maintenance conditionnelle qui est base
sur le franchissement dun seuil de dgradation critique permettant de dclencher une
opration de maintenance) ;
la maintenance prventive systmatique : Maintenance prventive excute des in-

tervalles de temps prtablis ou selon un nombre dfini dunits dusage mais sans
contrle pralable de ltat du bien . Cette maintenance prventive est effectue selon
un chancier tabli lavance selon une stratgie complexe qui allie plusieurs facteurs
comme le taux dutilisation du matriel, la lgislation en vigueur (scurit rglemen-
te), etc. ;
la maintenance prventive programme : Maintenance prventive excute selon un

calendrier prtabli ou selon un nombre dfini dunits dusage .
13
La maintenance corrective
Cette norme [121] dfinit la maintenance corrective comme suit : Maintenance excute
aprs dtection dune panne et destine remettre un bien dans un tat dans lequel il peut
accomplir une fonction requise .
Elle dsigne llimination dune avarie aprs une dfaillance dans le fonctionnement dune
entit 3 matrielle, par rparation ou remplacement de celle-ci. Le caractre temporel est
parfois utilis dans certaines politiques de maintenance :
maintenance corrective immdiate, effectue tout de suite aprs la panne ;
maintenance corrective diffre, retarde en fonction de la politique de maintenance.
La maintenance corrective est souvent subdivise en deux types (voir Figure 1.2, p. 15) :
la maintenance corrective palliative : Action de maintenance corrective destine

permettre un bien daccomplir provisoirement tout ou partie dune fonction requise.
Appele couramment dpannage, la maintenance palliative est principalement consti-
tue dactions caractre provisoire qui doivent tre suivies dactions curatives [121].
Elle correspond au dpannage provisoire de lquipement (parfois mme, sans interpr-
tation de la dfaillance). Ce type de dpannage prsentant un caractre provisoire
devra tre suivi dactivits curatives ;
la maintenance corrective curative : elle a pour but la rparation dun quipement, afin
de lui permettre daccomplir une fonction requise. Ces activits doivent prsenter un
caractre permanent.
Ce type de politique est destin rendre oprationnelle une machine qui est tombe
en panne. Elle est peu efficace pour les quipements vitaux de production mais son
application est bien adapte certains matriels peu coteux.
1.3 La Gestion de la Maintenance Assiste par Ordina-

teur : GMAO
Pour rester comptitive, linformatisation est devenue une ncessit dans lindustrie. Lim-
plmentation dun outil de GMAO est devenue un levier de performance indispensable pour
les entreprises. Il sintgre aujourdhui avec une gestion globale appele ERP 4 . Une large
gamme de logiciels est disponible dans le commerce mais beaucoup dentreprises ont d-
velopp leurs propres solutions en local afin de ladapter plus particulirement leurs be-
soins. Ces outils permettent, entre autre, denregistrer toutes les observations, anomalies,
dfaillances ou oprations de maintenance. Toute personne autorise peut ainsi signaler un
problme ou une opration de maintenance effectue (mme banale). Ces donnes peuvent
3. jargon de la spcialit
4. Enterprise Resource Planning ou EAM Enterprise Asset Management
14
1.3 La Gestion de la Maintenance Assiste par Ordinateur : GMAO
Maintenance
Maintenance Maintenance
Prventive Corrective
Maintenance Maintenance Maintenance Maintenance

Maintenance Curative
Conditionnelle Systmatique Programme Palliative
Selon des situations Selon un chancier

significatives du Selon un chancier et des seuils prd- Dpannage dfinitif Dpannage provisoire
fonctionnement termins dutilisation
Fig 1.2 Typologies des actions de maintenance (NF EN 13306 (indice de classement :
X60319)) [121].
tre ainsi prises en considration a posteriori, par lexpert. Ces logiciels possdent de nom-
breuses fonctionnalits comme la planification des interventions, la gestion des stocks et
mme, le calcul en temps rel du KPI 5 . Certains logiciels intgrent des prvisions de dgra-
dation. Sans faire une tude approfondie, de nombreuses entreprises nutilisent pas doutils
de ce type. Nous donnons dans le Tableau 1.2, p. 16 les donnes issues de ltude de Fu-
magalli et al. de 2009 [69] montrant lutilisation de logiciels de GMAO dans les diffrents
secteurs dactivits. Nous pouvons voir que le secteur automobile (19%) est particulirement
bien dot par rapport aux autres secteurs industriels.
Le Tableau 1.3, p. 16 montre pour exemple une base de donnes utilise en GMAO dans
une usine de production agroalimentaire.
Ces outils font dsormais partie intgrante du systme dinformation de lentreprise [101].
Ils se rapprochent mme parfois dun logiciel dERP possdant une base de donnes centra-
lise et intgrant toutes les fonctionnalits de gestion dune entreprise (stock, commande,
facturation, ressources humaines, etc.). Ces donnes vont servir de base de travail notre
tude. Une phase consquente dinterprtation des donnes dentreprises a t mene par
Pascal Vrignat [177]. Le problme majeur consistait codifier toutes les actions de mainte-
nances, observations, sous forme de symboles (cf. colonne action ACT. (Tableau 1.3,
p. 16)). Lalphabet ainsi cr est alors utilisable trs simplement pour des traitements infor-
matiss de calculs divers, de statistiques ou de modlisations.
5. Key Performance Indicator ou indicateur cl de performance qui mesure lefficacit des mesures prises
en amont pour atteindre un objectif fix
15
SECTEUR %
Automobile 19,10%
Chimie 8,40%
Logistique et transport 13,80%
Energie 0,60%
Alimentation, boisson 5,00%
Sant 20,90%
Tourisme, hotels 0,20%
Industrie mcanique 5,00%
Industries pharmaceutiques 0,40%
Services publics 6,00%
Papeterie 1,00%
Sidrurgie 2,50%
Textiles 1,90%
Immobiliers 9,30%
Autres 5,90%
Tableau 1.2 Proportion dutilisation des logiciels de Gestion de la Maintenance Assiste

par Ordinateur , dans les diffrents secteurs conomiques.
Nom Demande Date estime Ralisation N OT Lieu Equipement ACT. TI

DUPOND 23/09/2008 13/01/2009 14/01/2009 M4291 FUSION - FOUR ARCHE VEP 4
DUPOND 06/10/2008 15/01/2009 15/01/2009 E1788 FINITION BATIMENT STOCK DEP 5,5
DUPOND 26/11/2008 05/01/2009 05/01/2009 MO936 FABRICATION PRESSE DEP 2,5
DUPOND 26/11/2008 06/12/2008 06/01/2009 MO940 FUSION - FOUR ARCHE AU 2
DUPOND 13/01/2009 13/01/2009 13/01/2009 M7 FABRICATION REBRULEUSE 92 DEP 0,25
DUPOND 29/01/2009 29/01/2009 29/01/2009 E1792 FINITION BURN OFF DEP 3
DUPOND 26/02/2009 28/02/2009 27/02/2009 MO987 FABRICATION REBRULEUSE DEP 4
DUPOND 02/03/2009 05/03/2009 02/03/2009 MO984 FINITION ETIQUETEUSE TEP 1
DUPOND 04/03/2009 25/03/2009 17/03/2009 E1813 FINITION CONVOYEUR CALCIN DEP 5,5
DUPOND 02/04/2009 30/03/2009 08/04/2009 C2295 FABRICATION PRESSE 93 VEP 4,5
DUPOND 15/04/2009 15/04/2009 15/04/2009 C2334 FUSION - FOUR VIBRANT RM 1
DUPOND 20/04/2009 21/04/2009 21/04/2009 C1318 EXTERIEUR CENTRALE AZOTE MOD 1,5
DUPOND 21/06/2009 21/06/2009 21/06/2009 M4839 FABRICATION FOUR A MOULES DEP 1
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Tableau 1.3 Exemple dune base de donnes utilise dans une Gestion de la Maintenance
Assiste par Ordinateur.
1.4 volution des politiques de maintenance industrielle
Comme explicit au 1.2.4, p. 14, la mise en uvre dune maintenance corrective ne

permet pas dviter les dfaillances et leurs consquences. Une maintenance prventive des-
tine limiter ces pannes est devenue indispensable. Un quilibre est alors trouver afin de
limiter les dpenses excessives ainsi que les temps dindisponibilit parfois inutile, des entits
impactes. Ainsi, la surveillance et la rparation ne sont plus les seules proccupations du
responsable de maintenance. Il doit dsormais apporter lentreprise une stratgie diffrente
base sur un mlange subtilement dos de technicit et dorganisation . Pour cela, il
doit utiliser au plus juste les moyens techniques et financiers dont il dispose.
16
Dtermination des limites du sys-

tme et dcoupage en sous-systmes
Recherche de la documentation et
des donnes concernant le systme
Identification des fonctions des sys-

tmes et des dfaillances fonctionnelles
Analyse des modes de dfaillance des matriels, de leurs

effets sur le systme et sur linstallation, et de leur criticit
Slection des tches de maintenance

applicables, efficaces et conomiques
Prparation du programme de maintenance prventive
Fig 1.3 Exemple doptimisation de la Maintenance Base sur la Fiabilit.
De nouvelles mthodes ont ainsi fait leur apparition comme la mthode MBF 6 [194] ou
RCM 7 [120], qui sintgre aux politiques de maintenance en vigueur en y rajoutant de nou-
velles instructions de maintenance prventive. Cette mthode se base sur les consquences
des dfaillances. Elle est reprsente sur la Figure 1.3, p. 17. La mthode consiste, avant
tout, aider lexpert en maintenance dans son choix parmi toutes les tches de maintenance
disponibles. Par ailleurs, le caractre itratif de cette mthode permet de faire voluer les
programmes de maintenance en fonction du retour dexprience. La mthode met dispo-
sition un certain nombre doutils pour lutilisateur (listes gnriques de fonctions pour les
systmes et les diffrents types de dfaillance pour les matriels). Ce guide comporte des
listes de tches gnriques utilises en maintenance prventive. Il dcrit les procdures
utiliser pour chaque type de dfaillance de matriels gnriques (vrins, pompes, etc.) en
dtaillant les prconisations dutilisation recommandes de ces matriels (niveau de criticit,
environnement particulier, conditions de fonctionnement).
Une autre mthode plus rcente, dcrite dans louvrage dAntoine Despujols de 2009 [58] :
l Optimisation de la Maintenance par la Fiabilit (OMF), mise en uvre par EDF, est
aujourdhui utilise dans dautres secteurs industriels. Elle possde les mmes spcificits
6. Maintenance Base sur la Fiabilit

7. Reliability-Centered Maintenance
17
que la mthode base sur la fiabilit explicite ci-dessus. Cette mthode est base sur trois
principes :
lvaluation des risques ;
lanalyse des retours dexpriences ;
la mise en uvre de tches de maintenance lmentaires, suivant une certaine logique.
Il sagit dans un premier temps de dterminer les objectifs viss : scurit, sret de
fonctionnement, taux de disponibilit, cots de fonctionnement, etc. La mthode dcrite Fi-
gure 1.4, p. 19, permet de dterminer les risques potentiels.
Lanalyse des dysfonctionnements permet didentifier les dfaillances des quipements.

Lanalyse du retour dexprience, nous apporte les donnes concernant les matriels et
modes de dfaillance critiques (AMDEC 8 ), ncessaires pour ltablissement dune stratgie
de maintenance adquate. Cette analyse donne une estimation de la frquence dapparition
des dfaillances, en utilisant les tudes probabilistes de sret [30], [106]. Ces procdures,
fondes sur une analyse fonctionnelle pousse, indiquent lutilisateur les conduites tenir
en fonction des spcificits techniques des matriels ainsi que de leur dure de rparation.
LOptimisation de la Maintenance par la Fiabilit est notamment utilise dans les centrales
nuclaires pour son aspect sret [106].
Dautres techniques prometteuses comme le Soutien Logistique Intgr (SLI) [13] sont
utilises par Alstom, Arva et EADS. Elle a pour but de rduire les cots de fonctionne-
ment et dinvestissements dun matriel, tout en maximisant lefficacit oprationnelle pour
lutilisateur (scurit, rgularit, disponibilit). Une autre mthode comme la maintenance
productive totale (TPM 9 ) [72], consiste assurer la maintenance tout en produisant, ou en
pnalisant le moins possible la production. Tous les aspects de lentreprise ainsi que tous ses
acteurs sont pris en considration. Cette technique est surtout mise en place dans lindustrie
automobile comme le lean manufacturing 10 chez Toyota.
Le lecteur pourra se rfrer au livre dAntoine Despujols [57], qui fait un tat des lieux
de diffrentes mthodes doptimisation de la maintenance dans divers secteurs industriels.
Rcemment publi dans larticle de Fumagalli et al. [69], la maintenance base sur des
conditions ou CBM 11 est considre comme lune des politiques les plus pertinentes en
ce qui concerne lamlioration de la gestion de la maintenance. Elle est trs proche de la
maintenance prvisionnelle ou prdictive. Cest une maintenance conditionnelle qui est
base sur le franchissement dun seuil de dgradation critique permettant de dclencher une
opration de maintenance. Couple avec le systme de GMAO ou dERP de lentreprise,
8. Analyse des Modes de Dfaillance, de leurs Effets et de leur Criticit

9. Total Productive Maintenance = maintenance productive totale
10. Amlioration continue et llimination des gaspillages de la gestion de la production
11. Condition Based Maintenance = maintenance base sur des conditions
18
Recherche des matriels

et modes de dfaillance
significatifs (AMDE)
Matriels et modes
Analyse du retour dexp-
de dfaillance
rience vnements - cots
significatifs
Recherche des matriels

et modes de dfaillance Fiabilit, cots
critiques (AMDEC) maintenance
Matriels et non critiques Maintenance

dfaillances corrective
critiques
Analyse et slection des tches de maintenance
Tches de mainte- Regroupement des

nance lmentaires tches de maintenance
Programme de main-
tenance prventive
Fig 1.4 Exemple dOptimisation de la Maintenance par la Fiabilit.
elle utilise sa base de donnes centralise. Elle permet de rduire le nombre de maintenances
prventives planifies inutiles et ainsi diminuer considrablement les cots de la maintenance.
Dans certains cas, un programme de surveillance peut viter dinutiles tches de maintenance
en prenant des mesures dentretien uniquement lorsque il y a la preuve dun comportement
anormal de lquipement.
La mise en uvre dune CBM [108] peut conduire des avantages significatifs. En effet,
contrairement un entretien systmatique, une CBM est ralise en fonction de ltat de sant
rel du matriel, estim ou mesur par des capteurs prsents sur lquipement. Les techniques
19
de surveillance les plus utilises sont la mesure des vibrations, la thermographie 12 et la

tribologie 13 . Ainsi, en utilisant des outils mathmatiques adapts (statistiques, modlisation,
etc.), un tat de panne peut-tre alors anticip par lquipe de maintenance.
Selon Tobon-Mejia et al. [167], lors de la mise en place dune CBM, le pronostic de
panne est considr comme lun des principaux objectifs, car il permet destimer ce quon
appelle la dure de vie utile restante (ou RUL 14 en Anglais) avant la dfaillance dun systme
donn [92]. De nombreuses mthodes et outils peuvent tre utiliss pour prdire la valeur de
la RUL. Ces mthodes peuvent tre classes selon trois groupes principaux [108], [80], sa-
voir les modles prdictifs, ceux prdiction base sur les donnes et enfin ceux prdiction
empirique :
le modle prdictif, dtermine la RUL des composants critiques laide de modles

mathmatiques ou physiques du phnomne de dgradation (fissure par fatigue, usure,
corrosion, etc.). Ce modle est bas sur des rsultats de simulation ;
les pronostics bass sur les donnes de tests rels, visent modliser la dgradation du
systme laide des donnes fournies par les capteurs ;
enfin, le pronostic empirique , bas sur des retours dexprience, exploite les donnes
recueillies partir de la machine pendant une longue priode de temps pour estimer
les paramtres des lois de fiabilit traditionnelles. Ils sont utiliss pour faire des extra-
polations et des projections afin den estimer la RUL.
La pratique du CBM peut aider amliorer la disponibilit, la fiabilit et la scurit tout

en rduisant les cots de maintenance. Elle peut remplacer les traditionnelles politiques de
maintenance impliquant les maintenances correctives et prventives.
Pour rester comptitif, les grandes entreprises doivent intgrer ces nouvelles stratgies
dans leur organisation et ainsi investir des sommes importantes. Lobjectif gnral de toutes
ces nouvelles techniques de gestion de la maintenance est de maximiser le temps de
production. Ces nouvelles techniques sont bases sur un historique de fonctionnement. La
fiabilit de ces tudes repose tout de mme en partie sur une saisie correcte des actions de
maintenance (observations) et sur de bonnes pratiques des oprateurs de production et du
service maintenance.
Quelques mthodes lies notre problmatique utilisant des MMC, proposes dans la
littrature seront abordes dans la prochaine section. Celles-ci feront probablement lobjet
doutils oprationnels mis disposition lexpert.
12. Technique permettant dobtenir, au moyen dun appareillage appropri, limage thermique dune
scne observe dans un domaine spectral de linfrarouge selon lAFNOR
13. Science qui tudie les phnomnes se produisant entre deux objets en contact (frottement, usure et
lubrification, etc.)
14. Remaining Useful Life = dure de vie utile restante
20
1.5 Utilisation de Modles de Markov Cachs dans le cadre dune politique de maintenance industrielle
1.5 Utilisation de Modles de Markov Cachs dans le

cadre dune politique de maintenance industrielle
Lobjectif de notre tude se situe au niveau de la maintenance prventive. Nous utilisons
des outils mathmatiques de modlisation comme les MMC, afin de rduire la probabilit de
dfaillance dun quipement ou dun service rendu. Dans cette section, nous situons nos tra-
vaux par rapport lestimation de la dgradation. Nous donnons ensuite quelques techniques
proches de celles que nous allons prsenter dans ce manuscrit.
Principe dun MMC

Soit un systme comportant un nombre dtats cachs, tats qui voluent au cours du
temps. Si on peut observer priodiquement des symboles (observations) mis par ce systme,
alors il peut-tre modlis sous forme de MMC (voir Figure 1.5, p. 21). A chaque instant,
lvolution dun tat est dtermine partir dune distribution de probabilit, fixe au pra-
lable, et de ltat prsent.
La matrice de transition est de la forme :

1
P= (0 < , 6 1), (1.1)
1
o P(i, j) donne la probabilit de transition de ltat i vers ltat j.
Symboles ou observations

1 1 2 1

Fig 1.5 Modle de Markov Cach deux tats.
1.5.1 Anticiper une situation de panne

La dfinition dune panne dans le secteur de la maintenance industrielle est larrt acci-
dentel et temporaire du fonctionnement dune machine. Le diagnostic de panne qui consiste
isoler et trouver la cause probable de la panne [93], est une opration effectuer a post-
riori, i.e. aprs lapparition du dfaut. Le pronostic de panne vise quant lui, anticiper le
moment de son apparition (Figure 1.6, p. 22) en saidant des observations passes du sys-
tme (interventions sur le systme, signaux mis par le systme, tempratures, etc.). Nous
retrouvons dans la littrature rcente plusieurs travaux concernant la dtection de panne en
maintenance industrielle [118], [108].
Dans ce manuscrit, nous nous situons dans le domaine a priori i.e. droite de la Figure 1.6,
afin disoler linformation qui va nous permettre danticiper cette panne.
21
Pronostic de panne
Diagnostic de panne
Pass Futur
Prsent
Fig 1.6 Diagnostic vs Pronostic de panne.
Dans la littrature rcente, de nombreuses tudes utilisent des MMC pour anticiper une
dfaillance dun systme. Dans la section suivante, quelques uns de ces travaux les plus
pertinents seront rsums.
1.5.2 Utilisation des MMC dans la dtection de panne

Pour amliorer lefficacit de lapprentissage pour MMC, Davis et al. [51] proposent
une classe de nouvelles mthodes destimation, o la procdure de restimation Baum-
Welch [97] est gre sparment sur plusieurs observations. Cette technique utilise lensemble
des squences dobservation, au lieu dune seule squence (une squence se terminant aprs
lapparition dun arrt). Les paramtres qui maximisent la vraisemblance du modle estim
sont ainsi dtermins. Nous utiliserons une partie de cette mthode dans ce manuscrit (2.4.3,
p. 42), dans le but dvaluer les paramtres les plus pertinents sur nos modles.
Lapproche de Tobon-Mejia et al. [167], modle prdictif fond sur les donnes, utilise les
MMC avec des mlanges de Gaussiennes (MoGHMM 15 ) pour modliser la dgradation et
estimer la valeur de la RUL avant une ventuelle dfaillance. Ce modle contient le nombre
dtats de sant ainsi que la dure de chaque tat. Les paramtres temporels sont estims
par lalgorithme de Viterbi [175]. Les autres paramtres sont estims par celui de Baum-
Welch [55]. Nous utiliserons par la suite ces deux algorithmes pour tester lapprentissage et
le dcodage des donnes de nos modles.
Une autre tude sur le diagnostic base de MMC [190], qui tente de trouver la meilleure
estimation des tats dun systme, arrive quantifier les avantages dune approche MMC
(base sur une distance de Hamming 16 ).
Jian Zhou et Xiao-Ping Zhang [192] utilisent une analyse de donnes squentielles,
pour tendre le modle classique (MMC) un systme continu 17 en modlisant les densi-
ts dobservation comme un mlange de non-Gaussiennes. Ils ont dvelopp des formules
de restimation pour les trois problmes fondamentaux dun MMC, savoir le calcul de la
vraisemblance, lestimation de squence dtats et lapprentissage des paramtres du modle.
Afin dobtenir une reprsentation paramtrique de la densit, ils appliquent une Analyse en
15. Mixture of Gaussians Hidden Markov Model
16. La distance de Hamming permet de quantifier la diffrence entre deux squences de symboles
17. Modlise un processus continu
22
1.5 Utilisation de Modles de Markov Cachs dans le cadre dune politique de maintenance industrielle
Composantes Indpendantes (ACI). Elle permet de sparer plusieurs des sources mlanges
sur chacune des composantes du mlange.
De nombreuses approches bases sur lanalyse des donnes ont t dveloppes en raison
de leur grande fiabilit et du faible cot des capteurs. La plupart de ces tudes sont axes
sur des mthodes destimation de densit de probabilit. On peut citer notamment celle de
Serir et al. [151], qui utilise la thorie de lvidence (voir 2.3.2, p. 34) pour des donnes
dapprentissage limites, en particulier les donnes dtats de dfaillance, qui sont gnrale-
ment coteuses et difficiles obtenir. Les paramtres estims ne sont alors plus fiables. Ce
nouvel outil bas sur des MMC (ou EvHMM 18 ) semble trs prometteur [138].
Une autre tude de prdiction de la RUL [168], aussi base sur les donnes, utilise les
mthodes temps-frquence, et en particulier, lanalyse par ondelettes associe un MMC.
Cette technique utilise dans un premier temps, les donnes issues des capteurs. Celles-ci sont
traites pour extraire les caractristiques sous la forme de coefficients permettant la dcom-
position par ondelettes. Les caractristiques ainsi extraites, sont ensuite introduites dans les
algorithmes dapprentissage pour estimer les paramtres du MMC correspondant au mieux
au phnomne de dgradation tudi. Le modle ainsi obtenu est exploit dans un deuxime
temps, afin dvaluer ltat de sant de lquipement et destimer sa dure de vie (RUL).
Une autre tude [35], utilise la Dcomposition Modale Empirique (EMD). Elle
consiste dcomposer un signal en un ensemble de fonctions, comme la dcomposition en
sries de Fourier ou une dcomposition en ondelettes. La particularit de lEMD rside dans
le fait que la base de fonctions nest pas donne a priori mais est construite partir des pro-
prits du signal. Associe une modlisation par Markov cach, elle permet par exemple
de dtecter des dfauts (fissures ou dents casses) dans une boite de vitesse.
Pour tenir compte de ces facteurs, Zhou Zhi-Jie et al. [193] ont dvelopp un nouveau
MMC bas sur la thorie des fonctions de croyances voir 2.3.2, p. 34. Ce MMC est
propos pour prdire une dfaillance cache en temps rel, en tenant compte des influences
des facteurs environnementaux. Dans le modle propos, le MMC est utilis pour capturer les
relations entre la panne cache et les observations dun systme. Les fonctions de croyances
sont utilises pour modliser les relations entre les facteurs environnementaux et les proba-
bilits de transition entre les tats cachs du systme, y compris la dfaillance cache.
18. Evidential Hidden Markov Models
23
1.6 Conclusion et objectifs de cette tude

Conclusion
La maintenance industrielle nest plus lapanage des grosses entreprises industrielles. Elle
est devenue un maillon essentiel dans la comptitivit des petites et moyennes entreprises.
Malheureusement, nombreuses sont celles qui ont des systmes de gestion de leur mainte-
nance peu efficaces. Ceci met en vidence un manque de rflexion globale et durable :
des actions de maintenance prventives ralises par habitude ;
de la planification des tches de maintenance (qui nest peu, voire jamais remise en
question) ;
de lhistorisation des vnements (description de la panne, pices changes, temps din-

tervention, etc.).
Nous venons de voir quil existe des solutions plus ou moins complexes mettre en uvre
avec lexpert. Les travaux initis par Pascal Vrignat dans sa thse [177], sur une modlisa-
tion de la maintenance en utilisant des MMC ont montr quil tait possible de modliser la
dgradation dun processus industriel quelconque. A travers des cas concrets, il a pu donner
aux experts une nouvelle approche de leur gestion de la maintenance prventive.
Objectifs de cette tude

Dans la continuit des prcdents travaux prsents dans ce chapitre, notre objectif est
dtudier la pertinence des observations (ou symboles) utilises dans la modlisation afin
den optimiser leurs utilisations. La dtermination de la pertinence de ces symboles consiste
valuer la quantit dinformations quils apportent, afin de privilgier ceux qui portent en
eux une information de qualit. Pour cela, nous utiliserons un modle de synthse reprodui-
sant des donnes de maintenance dun processus industriel. Ainsi, sans connaissance a priori,
nous tudierons la pertinence des donnes empiriques et des donnes issues de rsultats de
simulations.
Dans un deuxime temps, nous dterminerons la priode dchantillonnage des observa-

tions la plus efficace, par rapport aux architectures des modles proposs dans [177], afin
den faire voluer la modlisation. Ensuite, nous essaierons de trouver un nombre minimal
de donnes afin destimer de manire optimale les modles, sans utiliser trop dinformation.
Cette fentre glissante de symboles compose dune partie de lhistorique des observa-
tions de maintenance, nous permettrait de faire une mise jour rgulire des modles.
Enfin, nous analyserons les diffrentes architectures prsentes dans [177] afin den confir-
mer ou den infirmer les choix thoriques. Nous tudierons ainsi la pertinence des topologies,
des algorithmes dapprentissage et de dcodage ainsi que des lois statistiques utilises dans
la modlisation. Les donnes empiriques sont issues de GMAO (voir 1.3, p. 14) dentre-
24
1.6 Conclusion et objectifs de cette tude
prises, du secteur industriel de la rgion. Nous comparerons ensuite ces rsultats avec ceux
provenant de la simulation. Cette architecture la plus pertinente, permettra damliorer la
conception du modle de simulation.
25
26
Chapitre 2
Approches classiques de mesures de

pertinence dans la chane de
modlisation
27
Chapitre 2 : Approches classiques de mesures de pertinence dans la chane de modlisation
28
2.1 Introduction
2.1 Introduction
Afin de mieux apprhender les objectifs de notre travail sur lvaluation des Modles
de Markov Cachs, il est important de resituer les mthodes de la littrature traitant de
lvaluation de modles en gnral. Nous trouvons dans ce deuxime chapitre, les bonnes
pratiques pour la qualification de nos modles, un tat de lart des diffrentes approches
danalyse de modles ainsi quune rflexion prliminaire sur leur adquation aux MMC.
Nous dfinissons en premier lieu le terme analyse de sensibilit dun modle. Ces dfi-
nitions sont suivies dune prsentation des mthodes recenses dans la littrature, concernant
les mesures de pertinence dun modle, associes cette analyse. Nous dtaillons ainsi les
mthodes avec score dintrt qui permettent dvaluer et de comparer plusieurs modles
entre eux, de manire quantitative. Les mthodes statistiques diriges par les donnes sont
une alternative ces mthodes avec score dintrt. Elles sont tudies par la suite afin de
nous permettre de comparer nos modles candidats , par une analyse quantitative. Dans le
cadre de notre modle de simulation de type modle stochastique , nous donnons quelques
mthodes mesurant le caractre stochastique dun modle.
Incertitudes
Paramtres pist-
dentre miques
Dcomposi- Incertitudes
Robustesse Incertitudes
tion de la de concep-
du modle dentre
variance tion
Analyse de domaines connexes

Incertitudes
sensibilit
Incertitudes
Distribution
probabi-
de sortie
listes
Modles
de Markov
Cachs
Entropie Meilleur
de score
Shannon entropique
Mesures de Choix du
pertinence modle
Applications Maximum
AIC, BIC,
Maintenance de vrai-
HQC
Industrielle semblance
Tests Choix
statistiques stastistique
Fig 2.1 tudes de pertinences de Modles de Markov Cachs.
29
Outre la prsentation de ces diffrents critres dvaluation, cette analyse bibliographique

a pour ambition dtablir un point de dpart pour le dveloppement et la validation dune
mthode de slection de modles base de MMC. Nous terminons ce chapitre par une
discussion sur les mthodes de slection dun modle et leurs intrts. Les diffrents thmes
abords pour chacune des mthodes sont illustrs par la Figure 2.1, p. 29.
2.2 Problmatique gnrale

Cette tude a pour point de dpart, les travaux de Pascal Vrignat [177] sur la modlisation
du niveau de dgradation dun processus industriel quelconque. Dans sa thse [177], Pascal
Vrignat propose dutiliser plusieurs MMC comportant chacun quatre tats cachs. Ces tats
S1, S2, S3 et S4, reprsentent les niveaux de dgradation. Ainsi, diffrentes architectures de
modles sont prsentes : trois topologies sur les MMC, deux algorithmes dapprentissage
et deux distributions diffrentes (pour le modle de simulation que nous prsenterons par la
suite). Nous tudions ces diffrentes architectures proposes afin de dterminer les lments
de ces modles qui nous donnent les informations les plus intressantes. Cest cette notion que
nous appelons pertinence de modle . Ltude est ralise sans connaissance a priori
sur les donnes. Les meilleures architectures pourront ainsi tre utilises dans le cadre dune
politique de maintenance prventive industrielle.
2.3 Analyse de sensibilit dun modle

Dans cette section, nous commenons par dfinir l analyse de sensibilit (commu-
nment appele SA pour Sensitivity Analysis ). Nous prsentons ensuite les mthodes
dvaluation de la sensibilit dun modle ainsi que celles du domaine connexe, concernant
les incertitudes lies sa conception. Nous discutons ensuite des enjeux de la prise en compte
des incertitudes dans la chane de modlisation, puis nous dfinissons les diffrents types din-
certitudes lies un modle. A partir de ces analyses, nous pourrons ainsi dterminer les
lments du modle qui influent sur sa pertinence.
Que signifie analyse ?
Dfinition du Petit Larousse 2010 : Analyse vient du grec analusis, signifiant

dcomposition. Lanalyse est ltude faite en vue de discerner les diffrentes parties
dun tout, de dterminer ou dexpliquer les rapports quelles entretiennent les unes
avec les autres .
Que signifie sensibilit ?
Dfinition du Petit Larousse 2010 : sensibilit vient du latin sensibilis, aptitude

ragir des excitations externes ou internes .
Que signifie analyse de sensibilit ?
30
Nous parlons ici de lanalyse de sensibilit dun modle. Il sagit de la raction dun
modle suite un ensemble dexcitations externes ou internes.
Selon Rosen [142], lanalyse de sensibilit tudie les relations des flux dinformations entre
les sorties et les entres dun modle. Lanalyse de sensibilit est quantifie par des indices
de sensibilit que nous allons dtailler dans les sections suivantes. La valeur de lindice
est directement lie limportance de la variable i.e. plus lindice sera grand, plus la
variable aura de limportance.
Le lecteur pourra se rfrer lexcellent ouvrage de Saltelli et al. [145] ainsi que celui
de Iooss [89], donnant un bon aperu des mthodes de calcul des indices de sensibilit. Il
distingue ainsi deux principaux types danalyse de sensibilit :
lanalyse de sensibilit dite locale , qui est la variation de la rponse de sortie, par
rapport la variation dune entre (cette approche est souvent dterministe) ;
lanalyse de sensibilit globale , qui rpond la question : quelle est la contribution

de lincertitude des variables dentre (Xj ), sur lincertitude de la variable de sortie
(Y ) ?
2.3.1 Comment raliser une analyse de sensibilit ?

Selon Saltelli et al. [145], lanalyse de sensibilit peut se dcomposer en cinq tapes :
1. concevoir lexprimentation (i.e. quelle question le modle doit-il rpondre) et dter-
miner les facteurs dentres concerns par lanalyse ;
2. attribuer des fonctions probabilistes ou des plages de variation chaque facteur den-
tres ;
3. concevoir un vecteur ou une matrice dentres adapt au domaine dapplication ;
4. valuer le modle, dfinir ainsi une fonction de mesure ou distribution, pour la rponse
tudie ;
5. valuer linfluence ou limportance relative de chaque facteur dentres sur les variables
de sortie.
La Figure 2.2, p. 32 illustre cette dmarche danalyse de sensibilit.
2.3.2 Mthodes danalyse de sensibilit

Nous prsentons ici les diffrentes mthodes issues de la littrature courante, permettant
de raliser une analyse de sensibilit dun modle. Nous discutons chacune de ces mthodes
selon notre problmatique danalyse de sensibilit de MMC.
31
1.
2.
Symboles :
5.
3.
1 : ...
2 : ...
...
S1 S2 S3 S4

Le systme
est arrt
Le systme fonctionne avec
un niveau de dgradation estim
4.
Fig 2.2 Principe danalyse de sensibilit dun modle [145].
Plans dexpriences, mthode de Morris
Les plans dexpriences permettent dorganiser au mieux les essais qui accompagnent une
recherche scientifique ou des tudes industrielles [73]. Cette mthode sappuie sur diffrentes
notions :
la notion despace exprimental (trs utilise en modlisation B [1]). Il sagit de d-

finir exactement le domaine dapplication de chaque variable afin den tudier la valeur
de sortie ou rponse mesure ;
la notion de surface de rponse, est forme par les rponses (sorties du modle) asso-
cies aux domaines des variables ;
la notion de modlisation mathmatique : la simulation des valeurs de sortie permet

dtudier la rponse du modle sans refaire dexprimentations.
En 1991, Morris [117] a propos une mesure de sensibilit pour identifier les variables les
plus significatives dun modle. Cette mesure est surtout utilise dans le cadre de modles
dterministes 1 ayant un nombre trs lev dentres et dont lanalyse mathmatique savre
assez complique. Cette mthode utilise des plans dexpriences bass sur la technique du
One factor At a Time (OAT), explicite ci-dessous. Lanalyse des donnes est base sur
lobservation des effets lmentaires sur un chantillon alatoire et des modifications dune
sortie par rapport une entre particulire du modle. Campolongo et al. [34] ont rcem-
ment amlior la stratgie dchantillonnage de Morris [117], permettant un cot de calcul
1. Les relations entre les variables sont strictement fonctionnelles. Aucune variable alatoire nintervient
dans la modlisation
32
moindre. Cette dernire est employe pour valuer la sensibilit dun modle de raction
chimique du sulfure de dimthyle (DMS), un gaz impliqu dans le changement climatique.
Dans sa finalit, cette mthode permet didentifier les lments du modle ncessitant dtre
approfondis et ceux pouvant tre simplifis.
Nous nutiliserons pas cette technique assez lourde mettre en uvre. Il nous faudrait en
effet formaliser les domaines de fonctionnement de chaque variable et modliser nos MMC
sous forme de preuves mathmatiques.
Les mthodes de screening (criblage)

Saltelli et al. [145] prsentent des mthodes dites de screening , qui consistent ana-
lyser qualitativement limportance des variables dentre sur la variabilit de la rponse du
modle. Elles permettent de hirarchiser les variables dentre en fonction de leur influence
sur la variabilit de la rponse. Elle permet de dterminer le poids de chaque variable, pour
ensuite les classer par ordre dimportance [150].
Il existe dautres techniques comme le One factor At a Time (OAT) dont le principe
consiste modifier chaque entre du modle tudi de +10% et 10% par rapport leur
valeur relle. Leffet de ces petites variations est analys en sortie du modle. Cela nous
donne un pourcentage de variation appel Indice de Sensibilit qui nous donne les sorties
les plus sensibles aux paramtres dentre. Le lecteur curieux trouvera quelques applications
supplmentaires dans [169] et [4].
Borne de Cramr-Rao semi-paramtrique

Cette thorie fournit une borne infrieure pour la variance de la loi destimation [64].
Cette borne sapparente une mesure defficacit de la fonction estimer. La borne de
Cramr-Rao 2 [49], [161] ou FDCR, en lhonneur de Frchet, Darmois, Cramr et Rao, est
une ingalit indiquant que la variance de tout estimateur non biais est minore par linverse
de la matrice dinformation de Fisher I() :

var b > I()1 , (2.1)
b reprsente un estimateur non-biais, dun paramtre inconnu mais dterministe et f (x, ),

la densit de probabilit des observations X = (x1 , . . . , xn ). La matrice dinformation de
Fisher [171] est dfinie par :
" 2 #
log f (x, )
I() = E . (2.2)

Lintrt de cette borne est quelle fournit un indicateur defficacit de lestimateur,
lorsque lon veut estimer des paramtres dun modle dans un environnement stochastique.
2. Historiquement, cest Frchet qui la dcouverte en premier : Sur lextension de certaines valuations
statistiques au cas de petits chantillons [68]
33
Pour estimer les paramtres non dterministes dun modle, Hijazi et al. [82] utilisent la
BCRB (Borne Cramr-Rao Baysienne) qui permet danalyser des performances optimales
en terme dErreur Quadratique Moyenne 3 dun estimateur.
Dans notre problmatique de comparaison de modles, cette borne ne nous donnerait

quune information de base sur lefficacit de nos modles. Cette technique est notamment
utilise par Cappe et al. [36]. Ils utilisent des chanes de Markov temps continu pour
lobservation irrgulire de ltat dune file dattente.
Thorie de lvidence ou des fonctions de croyances

Cette thorie introduite par Dempster [55] et Shafer [152] permet de modliser lincer-
titude de sources de donnes. Elle est ensuite enrichie par Smets [158] avec le modle des
croyances transfrables TBM (Transferable Belief Model). Lapproche de cette thorie base
de MMC est utilise pour le diagnostic et la prdiction de dfaillances dans le domaine de
la maintenance de systmes dynamiques [151] et [138]. Utiliss dans le cadre de la mise en
place dune CBM 4 [167] (voir 1.4, p. 16), les MMC fournissent une estimation de la dure
de vie utile restante avant la dfaillance dun systme donn. Cette thorie permet aussi
de traiter les donnes incompltes, imprcises, incertaines, redondantes, contradictoires [22]
dun systme. Base sur la thorie de lvidence, Dezert et Smarandache lont implmente
de nouveau avec la thorie de Dezert-Smarandache (DSmT) [59], [157] et [165]. Celle-ci
permet de traiter les imprcisions, les conflits et les informations incertaines des sources de
donnes. Elle est notamment utilise dans lanalyse du mouvement humain [139].
Il sagit dtablir un degr de confiance appel distributions de masses dvidence l-
mentaires (basic belief assignment) aux sources dinformations (observations, mesures,
etc.). En pratique, il y a gnralement plusieurs types de sources dinformations. Toute
la difficult du processus dcisionnel pour lexpert consiste donc synthtiser toutes ces
informations. Cest la notion de fusion dinformations [22] qui consiste combiner des
informations issues de plusieurs sources afin damliorer la prise de dcision.
Pour en savoir plus, sur le processus dcisionnel, nous pouvons nous intresser aux travaux
dIsabelle Bloch [21]. Elle fait un comparatif sur les trois principales approches de fusion de
donnes : lapproche probabiliste, la thorie de lvidence et la thorie des possibilits.
Cette approche, complexe mettre en uvre pour une orientation industrielle , ne
sera pas dveloppe dans ce manuscrit.
Mthode destimation de Sobol

Trs utilis dans la littrature, lindice de Sobol est une assez bonne estimation de la
sensibilit dun modle. Son inconvnient majeur est sa complexit et son cot important en
calcul, du fait de la dcomposition multi-dimensionnelle de la variance.
Indice de Sobol [159] :
V ar[E(Y |Xj )]
Sj = , (2.3)
V ar(Y )
3. Elle est utilise pour comparer plusieurs estimateurs
4. Condition Based Maintenance = maintenance base sur des conditions
34
0 Sj 1.
E(Y |Xj ) est la fonction de Xj qui approche le mieux Y (expected fonction) ;
V ar[E(Y |Xj )] : fluctuation de la sortie si elle tait fonction des Xj ;
V ar(Y ) : pour la normalisation par la fluctuation totale.
Mthode GLUE (Generalized Likelihood Uncertainty Estimation)

La mthodologie GLUE [18] est fonde sur le concept dquifinalit de modles (i.e.
atteindre le mme objectif final partir de modles diffrents). Lide simple dune solution
unique et optimale est abandonne. Ce principe dquifinalit provient de la connaissance
imparfaite du modle tudi. En analysant les paramtres et les variables, la mthode GLUE
permet de slectionner les meilleurs modles en dfinissant un degr dappartenance (i.e. dans
quelle mesure le modle se rapproche de la ralit). Ce degr dappartenance est lui mme
estim laide du maximum de vraisemblance [119], [20].
Dans notre tude, nous nous inspirons de cette mthode pour dterminer les modles les
plus pertinents.
Cest aussi une mthode statistique permettant de quantifier lincertitude des prdictions
du modle. Limportance de ces incertitudes sera aborde dans les sections suivantes.
2.3.3 Les enjeux de la prise en compte des incertitudes

Lanalyse de sensibilit fut cre lorigine pour traiter les problmes dincertitude des
entres dun modle [145]. Lanalyse dincertitude consiste propager les incertitudes des
paramtres pris en compte dans la dmarche sur le rsultat final afin de lui affecter un
intervalle dincertitude ou de confiance (source : AFSSET).
Le problme majeur li aux diffrentes sources dincertitude (tape B de la Figure 2.3,
p. 36) concerne la fiabilit dans la prdiction du modle.
Cette prise en compte dans un processus industriel permet selon Iooss [90] :
loptimisation de la sret, en dlimitant qualitativement les dfaillances du systme ;
loptimisation conceptuelle, pour amliorer le systme et le modle.
2.3.4 Incertitudes de conception

Dans cette section, les diffrentes incertitudes lies la conception dun modle vont tre
discutes. Les modles dcrivant des phnomnes physiques contiennent deux types dincer-
titude : celle lie la description physico-mathmatique du systme et celle lie aux donnes
dentre. Dautres types dincertitudes lis dautres types denvironnement seront voqus.
Lenvironnement stochastique qui nous intresse plus particulirement dans la modlisation
sous forme de MMC sera abord.
Incertitudes physico-mathmatiques
Cette incertitude est lie au passage du phnomne physique au modle mathmatique.
Elle est dune part, lie linterprtation humaine du phnomne qui engendre des imperfec-
35
tions dans la conception du modle. Elle est dautre part, inhrente lIngnierie Dirige par
les Modles MDE (Model Driven Engineering). Le MDE propose, en effet, la dfinition dun
modle en se limitant un niveau dabstraction fini. Cette limite engendre invitablement
des incertitudes de description. En effet, Tous les modles sont faux, mais certains sont
utiles [27]. Selon Burnham et al. [31], le choix dun modle est peru comme un moyen
dapprocher la ralit plutt que de lidentifier compltement.
Incertitudes des donnes dentre

La seconde source dincertitude est lie aux donnes dentre du modle. Le lecteur pourra
se rfrer larticle de McKay et al. [114] qui prsente des techniques pour valuer les effets
des incertitudes dentre sur un modle. Ce sont des incertitudes stochastiques dues la
variabilit de lenvironnement et des conditions de mesures (temprature, hygromtrie, etc.).
Incertitudes probabilistes
Dans les annes 1970, les ingnieurs probabilistes ont commenc prendre en compte les
incertitudes apparaissant dans la modlisation des systmes physiques et ont tudi limpact
de ces incertitudes sur la rponse des systmes. Une tude rcente dEDF division R&D [52]
et [53] sur les incertitudes industrielles propose une analyse pertinente des incertitudes, dans
un contexte industriel. Les principales tapes de cette analyse sont rsumes Figure 2.3,
p. 36.
Tarentola et al. [166] ont rcemment dfini un nouvel indice de sensibilit bas sur la
variance dite total order permettant de quantifier la propagation de lincertitude dun
modle dentre sur un modle de sortie en tenant compte de linteraction entre le modle
dentre et les autres paramtres du modle.
tape B tape A tape C

Quantification des Modle, critres Propagation des
sources dincertitude dvaluation incertitudes
Modle
Environnement
stochastique Rponse du modle
Paramtres Probabilit dchec
dentre
tape C
Analyse de Sensibilit
Fig 2.3 schma gnral danalyse de lincertitude probabiliste inspir de [163].
tape A : spcification du problme : dfinir le modle (ou la squence de sous-modles

dans le cadre de systmes complexes) et ses critres dincertitude permettant une va-
36
luation du systme tudier ;
tape B : quantification des sources dincertitude i.e. identifier les paramtres connus
ou inconnus. Lintroduction dun processus stochastique est parfois ncessaire dans cer-
tains cas dvolution de variables dans le temps. Cette tape peut-tre aussi assimile
la phase didentification de paramtres, ou du calage/qualification du modle ;
tape C : la propagation des incertitudes : calcul de la mesure dincertitude au

travers du modle i.e. caractriser la rponse stochastique du modle, en rapport avec
les critres dvaluation dfinis ltape A ;
tape C : Analyse de sensibilit ou comment ragit le modle suite un ensemble

dexcitations externes ou internes.
Incertitudes dapprentissage
Prenons par exemple lapprentissage par Version Space (Mitchell [116]). Lavantage
est : plus on apprend, plus on colle aux donnes. Mais le risque est, qu la fin, tous les
exemples sont appris par cur, y compris le bruit (les informations contenues dans lexemple
ne servant pas dans ltude). Cest le phnomne de sur-apprentissage. Pour viter ce pige,
le critre darrt de lapprentissage doit tre dfini. Soit erreurapp (h) lerreur commise par
lhypothse h sur les donnes dapprentissage et erreurD (h) lerreur commise par h sur la
distribution totale des donnes.
Dfinition : on dira que h sur-apprend les donnes dapprentissage sil existe une hypo-
thse h telle que :
erreurapp (h) < erreurapp (h ), (2.4)
et
erreurD (h) > erreurD (h ). (2.5)
Mesure derreur stochastique de base

Pour une srie de n mesures x1 , x2 , . . . , xi , . . . , xn , la valeur moyenne ou moyenne arith-
mtique est dfinie par :
n
1X
x = xi . (2.6)
n i=1
et la variance empirique dchantillon par :
n
2 1X
S = (xi x)2 . (2.7)
n i=1
On montre alors que S 2 est un estimateur biais de 2 (variance de la population dont

est extrait lchantillon). De manire avoir un estimateur non biais, on construit
37
n
S 2 = S 2. (2.8)
n1
n1 2
(Car E(S 2 ) = que lon retrouve dans lquation (2.8)).
n
Si nous calculons la variance sur x :
2
.
V ar(x) = (2.9)
n
Lincertitude sur la moyenne de Pibouleau [129] :
v
u n
u 1 X
x = = t (xi x)2 . (2.10)
n n.(n 1) i=1
Si lcart type est fini, lincertitude de Pibouleau [129] converge inexorablement vers zro
lorsque n tend vers linfini [76].
Propagation des incertitudes

Dans tout modle, les variables dentre issues de mesures ou destimations, sont soumises
des transformations mathmatiques. La propagation des incertitudes dun modle est le
calcul ou lestimation de lincertitude induite par cette transformation.
Au travers de larticle [134], Pugol et al. proposent dvaluer des critres d incerti-
tude , des critres de fiabilit des performances et des critres de robustesse des
performances , ce dernier tant justement sensible aux incertitudes. La mthode utilise
un critre de quantile pour dfinir des intervalles de confiance. Pour le quantile q , un
intervalle de confiance est donn par :
L
X 2 1
P (q [L1 , L2 ]) = Cni .i .(1 )ni . (2.11)

i=L1
Lestimation des incertitudes dans notre problmatique, permettra de trouver les archi-
tectures des modles les plus pertinentes, sous la forme dintervalle de confiance.
2.4 Mthodes de mesures de pertinence de modles

Dans ce paragraphe, une tude bibliographique des principales mthodes de mesures
de pertinence de modles utilises dans la littrature est ralise. Nous terminons par une
discussion sur ces diffrentes mthodes dvaluation ( 2.6, p. 55) en expliquant notre choix
sur les mthodes utilises.
2.4.1 Introduction
Selon Stoica et Babu [162], la problmatique de la slection dun modle est base sur
la minimisation dun critre de pnalit. Les premiers critres qui apparaissent dans la lit-
trature sont lAIC : lAkaike Information Criterion [3] [38] [153] [32], le BIC : Bayesian
38
Information Criterion [148] [102], le MDL : Minimum Description Length [140] [50] puis le
Cp de Mallows [112]. De nombreux travaux thoriques ont t raliss sur leurs proprits
statistiques afin de les adapter des modles spcifiques. Prenons comme exemple lAICc ,
qui est une version corrige du critre AIC dHurvich [86] [54] et [32]. Nous trouvons ga-
lement Sugiura [164] avec le c AIC pour les petites tailles dchantillons par rapport au
nombre de paramtres estimer, lAICR [141] [95] pour une rgression derreurs non gaus-
siennes, le QAIC [32] et le c QAIC [155] pour les donnes sur-disperses. De nouveaux
outils statistiques apparaissent comme par exemple la technique PAC-Baysienne, pour les-
timation et la prdiction de modles de grandes dimensions [74]. Elle propose ainsi un oracle
pour lestimation et la reconstruction de modle.
2.4.2 Concepts de base

Nous commenons par prsenter les lments intervenant dans les diffrentes mthodes
de mesures de pertinence de modles que nous allons dvelopper.
Lchantillon
Les chantillons ou observations peuvent tre diviss en trois types [61] :
catgorie : les observations appartiennent un nombre limit de catgories qui nont

pas dchelle vidente ;
discrtes : il y a une chelle relle mais les valeurs de lchantillon ne sont pas toutes
possibles (par exemple : nombre despces dans un chantillon) ;
continues : o toute valeur est thoriquement possible, seulement limite par lappareil
de mesure (longueur par exemple).
Les MMC que nous tudions sont de type discret i.e. le champ dapplication des valeurs
des observations nutilise pas une chelle continue.
Test dhypothse
Un test statistique dhypothse est dfini par Steinebach [160] comme une mthode de
prise de dcisions statistiques utilisant des donnes exprimentales. Le concept est assez
simple : lorsque lon effectue un test statistique, on teste la probabilit quune hypothse est
correcte. Si cette probabilit est faible, alors lhypothse est considre comme fausse et elle
est rejete en faveur de lhypothse la plus intressante (souvent note H1 ). Lhypothse nulle
(souvent note H0 ) est lhypothse o rien ne se passe. Par exemple : pour un chantillon
donn, si lon rejette lhypothse nulle (H0 = lchantillon est issue dune population de
mme distributions) alors nous pouvons accepter lhypothse la plus intressante (H1 =
lchantillon est issue dune population de distributions diffrentes). Il ny a pas de test
statistique sans hypothse.
39
P-value
La p-value permet de dfinir un seuil au del duquel le postula dune galit ou dune
ingalit entre deux donnes dun modle est vrai. Si cette p-value est infrieure la valeur
du seuil pralablement dfinie, on rejette ce postula. Il est habituel de prendre une valeur de
5% comme niveau critique.
chantillonnage
Selon Steinebach et al. [160], les observations doivent tre recueillies dune certaine faon.
Ce processus dacquisition de donnes est appel chantillonnage. Bien quil existe de nom-
breuses mthodes pouvant tre utilises pour un chantillonnage, il y a nanmoins quelques
rgles gnrales : une des plus videntes est quun grand nombre dobservations est gnra-
lement mieux quun petit nombre. Il faut ensuite quilibrer lchantillonnage i.e. prendre un
mme nombre dobservations pour chaque squence tudie. La plupart des tests statistiques
supposent que les chantillons sont pris au hasard.
Statistiques
Les statistiques permettent en gnral dobtenir un rsultat simple, issu de la manipula-

tion dobservations complexes. Selon [61], il y a plusieurs catgories de statistiques :
les statistiques descriptives : trs simples mettre en uvre, elles permettent de rsu-
mer des ensembles de donnes, elles ne doivent pas tre ngliges ;
tests de diffrence : permettent de faire la diffrence entre 2 groupes dchantillons.

Lhypothse nulle est donc ici : le groupe 1 et le groupe 2 ne sont pas diffrents ;
tests de relation : permettent de rpondre la question : A est-il associ B ? Ou

encore avec lhypothse nulle : A nest pas associ B. Ce test est divisible en test de
corrlation et test de rgression, selon le type dhypothse ltude. La corrlation est
un test pour mesurer le degr auquel un ensemble dobservations varie en fonction de
lautre : elle ne veut pas dire quil ny a aucune relation de cause effet. Le test de
rgression est utilis pour ajuster une relation entre deux variables, cette relation tant
prdite partir de lautre ;
tests dinvestigation de donnes : contrairement aux tests prcdents, ces tests nont
pas besoin dhypothse. Dans le cas de groupes trop nombreux de population, il est
prfrable dutiliser une technique multivarie afin de faire apparaitre des relations
entre groupes dchantillons.
2.4.3 Mthodes avec score dintrt

Maintenant que les concepts de base sont tablis, les mthodes de slection de modles
avec score dintrt vont pouvoir tre prsentes.
40
Mesure de lentropie de Shannon

Selon Bouquet [25], lentropie de Shannon est une fonction mathmatique qui permet de
mesurer la quantit dinformations contenue dans une source dinformations. Cette source
peut tre un texte crit dans une langue donne, un signal lectrique ou encore un fichier
informatique quelconque, etc.
Wolsztynski [187] propose de minimiser lentropie des variables alatoires de ces modles,
dans le cas discret, afin den estimer les vnements rares. Cest effectivement cette diffrence
principale, ainsi que les autres critres de mesure de dispersion classiques que nous allons
utiliser.
Dfinition de lentropie
Lentropie de Shannon est dfinie dans [48] et [83] comme suit :
n
X
H(S) = Pi log Pi , (2.12)
i=1
Pi est la probabilit moyenne de voir apparatre le symbole i dans S.
Proprits formelles de lentropie de Shannon

Deux proprits nous intressent dans la thorie de lentropie :
la minimalit : une distribution pure (un seul symbole) a une entropie nulle : si un
seul symbole est reprsent, limpuret est nulle. On a donc une premire condition de
minimalit : lentropie dune distribution est nulle si cette distribution est pure.
5
X
H([, , , 1, ]) = Pi log Pi
i=1
= (0. log 0 + 0. log 0 + 0. log 0 + 1. log 1 + 0. log 0)
= 0.
la maximalit : linverse, une distribution mlange est impure : la valeur de

lentropie, lorsque plusieurs symboles sont reprsents, doit donc tre leve. Cest la
condition de maximalit : lentropie dune distribution est maximale lorsque tous les
symboles sont reprsents dans les mmes proportions. Pour de plus amples informa-
tions, le lecteur se rfrera Beirlant et al. [15] qui prsentent un tat de lart concernant
les mthodes destimation de lentropie et leurs proprits.
Nous utiliserons les deux proprits prcdentes dans ce manuscrit. Dans notre cas
dtude, nous aurons dterminer les observations les plus discriminantes de notre modle
en utilisant la proprit de minimalit. La maximalit sera utilise pour trouver les tats du
systme o le maximum dobservations est reprsent.
41
Principes de lentropie maximale

Les deux principes de maximisation dentropie de Jaynes [94] et [2] sont les suivants :
principe dassignation des probabilits une distribution lorsque nous ne disposons pas
dinformations compltes sur elle ;
de toutes les distributions de probabilit qui satisfont les contraintes, choisir celle qui
prsente lentropie maximale au sens de Shannon [154].
Chandrasekaran [43] utilise ce 2me principe pour la slection de modles, ainsi que [5] pour
construire des modles de plus en plus prcis simplement en rajoutant de linformation.
Notre dmarche consiste comparer la moyenne des entropies des diffrents modles. La
valeur dentropie moyenne serait alors maximale pour les modles les plus pertinents.
Notion de filtre entropique

Les valeurs extrmes de lentropie peuvent perturber le calcul de lentropie moyenne
dun modle. Il est donc prfrable dliminer ces valeurs pour ce calcul. Cette dmarche
est notamment utilise au travers des algorithmes dapprentissage ID3 (voir annexe A.1,
p. 141) [135], [25] et C4.5 [136] lors de la cration darbre de dcision en liminant rcursi-
vement lattribut ayant une entropie nulle. Afin dvaluer au plus juste notre modle, nous
proposons donc dliminer les symboles totalement discrimins dentropie nulle et les sym-
boles large spectre o lentropie est maximale. Cette opration dlimination sera nomme
par la suite : filtre entropique . Nous utiliserons cette notion pour dterminer les ob-
servations inutiles dans les bases de donnes, ainsi que celles nous apportant une quantit
importante dinformations en terme dentropie.
Maximum de vraisemblance
Pour un modle statistique P donn, et tant donne la squence dobservations X,
la probabilit de son apparition suivant P peut tre mesure par f (X, ) qui reprsente la
densit de X o apparat. Puisque est inconnue, il semble alors naturel de favoriser les
valeurs de pour lesquelles f (X, ) est leve : cest la notion de la vraisemblance de pour
lobservation X, sous la condition dindpendance des observations.
Dfinition 2.4.3.1 Expression de la vraisemblance V :

n
Y
V (x1 , . . . , xn ; ) = f (xi ; ), (2.13)
i=1
est lesprance mathmatique des xi .
Dfinition 2.4.3.2 Le maximum de vraisemblance :
Vb (x1 , . . . , xn ; ). (2.14)
42
Une transformation strictement croissante ne change pas un maximum. Le maximum de

vraisemblance peut donc aussi scrire :
log(V (x1 , . . . , xn ; )). (2.15)
Donc n
X
log(V (x1 , . . . , xn ; )) = log(f (xi ; )). (2.16)
i=1
Dfinition 2.4.3.3 Pour un chantillon discret :
f (X; ) = P (X = xi ), (2.17)
P (X = xi ) reprsente la probabilit discrte o apparat.
Dfinition 2.4.3.4 Maximum de vraisemblance pour un chantillon discret P (xi ) qui re-
prsente la probabilit discrte o apparat :
n
X
log(V (x1 , . . . , xn ; )) = log(P (xi )). (2.18)
i=1
En pratique, on maximise le logarithme de la fonction de vraisemblance pour comparer

plusieurs modles.
Pour notre problmatique de MMC o les tats sont cachs, la fonction de vraisemblance
ne possde pas dexpression analytique simple. Pour rsoudre le problme de recherche de
maxima, nous utilisons lalgorithme Expectation-Maximization (voir 2.4.3, p. 47). Plus
prcisment, nous emprunterons les donnes de cet algorithme calcul dans la thse de Vri-
gnat [177], pour faire des estimations de lois de survie. Ainsi, ce principe de maximum de
vraisemblance sera ncessaire dans la validation des architectures des modles les plus per-
tinents. Ce critre nous aidera dterminer la meilleure topologie, le meilleur algorithme
dapprentissage, la meilleure distribution entre autre.
Critres dAkaike, de Bayes et dHannan-Quinn

Daprs Ash [7], lentropie dune variable alatoire est une mesure de rgularit. Nous
pouvons aisment tendre cette notion un modle possdant plusieurs variables alatoires.
Dans la littrature, le critre dAkaike (AIC) [153] est souvent associ un autre critre
connu, appel critre dinformation de Bayes (BIC) [45], [102]. Dans son rapport de re-
cherche, Lebarbier [107] dcrit avec prcision les hypothses ncessaires son application.
Dfinition 2.4.3.5 AIC (Akaike Information Criterion) :
AIC = 2. ln V + 2k, (2.19)
o k est le nombre de paramtres, 2k reprsente la pnalit, V est la vraisemblance.
43
Le modle retenir est celui qui montre lAIC le plus faible. LAIC utilise le principe
du maximum de vraisemblance (quation 2.18). Il pnalise les modles comportant trop de
variables, et vite le sur-apprentissage. Hurvich et Tsai, [87] prconisent dutiliser lAIC
corrig lorsque le nombre de paramtres k est grand par rapport au nombre dobservations
n
n ( < 40).
k
2.k.(k + 1)
AICc = AIC + . (2.20)
nk1
Ce critre est souvent prsent avec celui de Schwarz : le BIC, qui pnalise davantage le
sur-paramtrage. Le critre BIC a t introduit dans Schwarz [148] et Kapetanios [102]. La
diffrence entre les deux critres concerne le terme de correction.
Dfinition 2.4.3.6 BIC (Bayesian Information Criterion) ou Schwarz Criterion :
BIC = 2. ln V + k. ln n, (2.21)
o k est le nombre de paramtres libres du modle de Markov, n est le nombre de donnes,
k. ln n est le terme de pnalit [10].
Comparaison des deux critres : choisir entre ces deux critres revient choisir entre un
modle prdictif et un modle explicatif [107]. Il permet de vrifier la validit dun modle
mais surtout de comparer plusieurs modles entre eux.
Dfinition 2.4.3.7 ou HQC (Hannan-Quinn information Criterion) est dfini dans [78]
et [39] par :
= 2. ln V + k. ln(ln n), (2.22)

o k est le nombre de paramtres libres du modle de Markov, n est le nombre de donnes,
k. ln(ln n) reprsente la pnalit du critre.
Ce critre apparat comme un compromis entre AIC et BIC. Par contre, Yu et al. [191]
montrent que le temps de calcul est trs lev pour les grands ensembles de donnes, ce
qui peut poser des problmes pour le choix dun modle parmi un ensemble de modles
candidats.
Critre de Kullback-Leibler
LAIC est reli linformation de Kullback-Leibler [104]. Pour le cas de deux distributions
de probabilits discrtes P et Q, la divergence ou information de Kullback-Leibler est :
n
X Pi
DKL (P k Q) = Pi . log2 . (2.23)
i=1
Qi
Aussi appel entropie relative, ce critre permet de mesurer lcart entre deux distribu-
tions de probabilits. Lobjectif dans notre cas est de mesurer lcart ou divergence dun
modle par rapport un autre. Ce critre nous permettra dtablir un classement entre nos
modles candidats.
44
Mesure du MDL
En 1978, Jorma Rissanen [140], a dvelopp lide de minimiser lerreur de dveloppement
sur la conception dun modle, en pnalisant celui-ci en fonction de la longueur de sa descrip-
tion. A cette poque, la seule autre mthode qui a russi empcher le sur-apprentissage par
la pnalisation tait le critre dinformation dAkaike (AIC) vu prcdemment. La mesure
choisie pour valuer ce travail de modlisation est une mesure de type Minimum Descrip-
tion Length (MDL) . La mesure MDL est une formalisation du principe du rasoir dOccam 5
dans laquelle la meilleure hypothse pour un ensemble de donnes est celle qui conduit
la plus grande compression des donnes. Le principe est de choisir le modle qui donne la
meilleure compression en tenant compte de lerreur, cest dire de ce qui nest pas expliqu
par le modle ; soit la minimisation de la longueur du modle + la longueur des
erreurs. La longueur se mesure en bits.
Cp de Mallows
Selon Joshi [96], le critre de choix Cp est une mthode de choix du modle de rgression
en fonction du nombre de variables explicatives entrant dans le cas dune rgression linaire.
Un faible Cp correspond un meilleur modle dans le sens quil reprsente la somme des
rsidus (SC rsiduelle) la plus faible et la moins pnalise par le nombre de paramtres
entrant dans le modle. Ce critre permet doptimiser lerreur dapprentissage du modle.
Cest la diffrence entre lerreur de gnralisation (en esprance sur les donnes) et lerreur
dapprentissage (celle du modle choisi). Le Cp de Mallows permet destimer cette erreur
sans utiliser les donnes elles mmes, mais en utilisant de linformation sur la richesse du
modle et le nombre de donnes n.
(SC Rsiduelle)p
Cp = (n 2p), (2.24)
2
p : le nombre de paramtres du modle,

n : le nombre dobservations,
2 : la variance,
(SC Rsiduelle)p : SCR du modle p paramtres.
si le modle est juste bien : SCR = (n p) 2 alors : Cp = p,

si le modle est sous-paramtr : SCR > (n p) 2 alors : Cp > p,
si le modle est sur-paramtr : SCR (npoptimal ) 2 alors : Cp = p+2. > p = putilis .
Information mutuelle
Dans le cas continu :
Z Z
p(x, y)
I(X, Y ) = p(x, y) log dxdy. (2.25)
R R p(x) p(y)
5. Cest en vain que lon fait avec plusieurs ce que lon peut faire avec un petit nombre
45
Dans le cas discret :

X P (X = i, Y = j)
I(X, Y ) = P (X = i, Y = j) log . (2.26)
i,j
P (X = i) P (Y = j)
Proprit 2.4.3.1 I(X, Y ) = 0 ssi X et Y sont des variables alatoires indpendantes.
Dans son tude sur lestimation rapide de modles de Markov semi-continus discriminants,
Linars et al. [110] nous donnent une mthode destimation de SHMM 6 par maximisation de
linformation mutuelle. Le principe gnral est de minimiser le risque derreur en maximisant
lcart de vraisemblance (voir 2.4.3, p. 42) entre la bonne transcription et les mauvaises.
Dans ce manuscrit, nous utilisons cette information mutuelle pour trouver dventuelles
dpendances entre les observations puis entre les tats et symboles.
Nouveaux critres : AIC3, AICu, AICp et CAIC

Selon Pigeau [130], le critre AIC est obtenu en se basant sur la thorie classique du
test des hypothses. Ce critre nest donc pas thoriquement pertinent pour dterminer le
nombre de composantes dans un modle. Pour rsoudre ce problme, une variante de AIC,
appele AIC3, a t propose par Bozdogan [28].
La pnalisation avec les paramtres libres du modle est ici plus forte que pour le critre
AIC.
AICu : le critre AICu McQuarrie [115] est utilis pour la slection dun modle dordre
infini ;
AICp : Vandewalle [172] propose un nouveau critre AICp, qui cherche valuer les
performances en prdiction dun modle gnratif appris . Ce critre est compos
de la vraisemblance pnalise par une quantit nouvelle qui sinterprte comme la
dimension prdictive du modle considr. Les modles gnratifs consistent en une
modlisation de la vraie distribution de probabilit p par une loi paramtrique ;
CAIC : enfin, le CAIC est un coefficient important, car il tient compte la fois du degr
dajustement du modle et du nombre de degrs de libert. Ceci permet destimer quel
modle semble le plus appropri, i.e. lequel devrait avoir les plus petites valeurs de
CAIC (Bentler [16]).
Critre ICOMP
Le critre ICOMP (Informational Complexity Criterion) (Bozdogan [29]) prsente la
particularit dutiliser une mesure de complexit non linaire. Celle-ci se base sur la matrice
dinformation de Fisher et le nombre de paramtres du modle. Le calcul de ce critre est
nanmoins beaucoup moins vident que celui des critres prcdents : la matrice de Fisher
est difficile obtenir.
6. Semi Continuous Hidden Markov Models
46
Critres de classification
Ces critres permettent de slectionner des modles avec des composantes distinctes et
des observations bien regroupes. Pigeau [130] prsente un tat de lart de ces critres pour
la slection de modle pour la classification. Ce sont les critres suivants : NEC (Normalized
Entropy Criterion), PC (Partition Coefficient), MIR (Minimum Information Ratio) et LP
(logarithme de la probabilit de la partition). Le critre de BEC (Bayesian Entropy Criterion)
quant lui, est utilis en classification supervise [24].
Critre ICL
Le critre ICL (Integrated Completed Likelihood) est propos par Biernacki [19]. Ici, la
vraisemblance est pnalise par la complexit du modle et le critre de classifiabilit E. Il
est dfini partir du critre BIC :
1
ICL = BIC + E, (2.27)
2
o E est un critre de classifiabilit.
Dtection des valeurs marginales

Dans la mme problmatique, Low-Kam et al. [111] nous prsentent une approche base
sur des modles de Markov dordre variable afin de mesurer les similarits entre objets s-
quentiels. Cette mesure permet entre autre la dtection de valeur aberrante (une observation
qui scarte tellement des autres quelle est susceptible davoir t gnre par un mcanisme
diffrent). Dans le cas de notre tude, nous pourrons avoir une estimation des squences
atypiques des modles de Markov.
Ceci permettra ensuite de dterminer les mauvais modles en utilisant la procdure
simplifie de Ueda [170] et Kadota et al. [99] :
1 log(n!)
U = AIC = n. log() + 2.s. , (2.28)
2 n
o s est le nombre de valeurs aberrantes candidats.
Algorithme Expectation-Maximization (EM)

Lalgorithme EM, propos par Dempster et al. [56] est une classe dalgorithmes qui permet
de trouver le maximum de vraisemblance des paramtres de modles probabilistes lorsque le
modle dpend de variables non observables comme dans notre problmatique de MMC.
Voici le principe en deux tapes :
tape E : valuation de lesprance, o lon calcule lesprance de la vraisemblance en

tenant compte des dernires variables observes ;
tape M : maximisation o lon estime le maximum de vraisemblance des paramtres

en maximisant la vraisemblance trouve ltape E.
47
On utilise ensuite les paramtres trouvs ltape M comme point de dpart dune nouvelle
phase dvaluation de lesprance, etc.
Lalgorithme EM, bien que trs performant et souvent simple mettre en uvre, pose
quand mme parfois quelques problmes qui ont donn lieu des dveloppements com-
plmentaires. Parmi ceux-ci, nous voquerons un dveloppement appel GEM (Generalized
EM) [56] qui permet de simplifier le problme de ltape maximisation. Un autre, appel
CEM (Classification EM) [42] permet de prendre en compte laspect classification lors de
lestimation. Un dernier, SEM (Stochastic EM) [40] et [41] dont lobjectif est de rduire le
risque de tomber dans un optimum local de vraisemblance.
Rcemment amlior, Huda et al. [85] proposent un algorithme hybride bas sur une mta-
heuristique SAS (Simulated Annealing Stochastic). Cette tape stochastique supplmentaire
qui reformule le processus destimation du MMC permet dempcher la convergence vers
un maximum local. Cet algorithme bas sur des MMC, donne une meilleure prcision en
reconnaissance de la parole.
2.4.4 Mthodes par apprentissage

Version space, graphe de gnralisation/spcialisation
La version space ou espace de versions est le fruit des travaux de Mitchell [116],
[84]. Par lutilisation dexemples positifs et ngatifs dobservations, on ralise une version
space 7 qui permet de crer un modle de description de ce concept. Nous ralisons ainsi
un graphe de gnralisation/spcialisation laide de lalgorithme IVSA 8 tir de [75]
(voir annexe A.3, p. 143). Lalgorithme dlimination construit de manire incrmentale
lespace de versions partir dun espace dhypothses H et dun ensemble dinstances I.
Les exemples sont ajouts un par un. Chaque exemple rduit ventuellement lespace des
versions en supprimant les hypothses qui sont incompatibles avec lexemple. Pour chaque
nouvel exemple ou squence dobservations, lalgorithme met jour la frontire entre sa
gnralisation ou sa spcialisation.
Certaines conditions sont ncessaires au bon fonctionnement du mcanisme :
existence dun nombre fixe dattributs pour dfinir les exemples prsents au systme ;
le modle de description dun exemple doit tre une combinaison des valeurs de ces
attributs ;
en aucune faon, les exemples positifs et ngatifs ne doivent tre errons.
Avec les techniques prcdentes (apprentissage par analyse des diffrences), le modle
de description tait modifi chaque fois quun nouvel exemple tait prsent au systme.
Pour viter une mauvaise modification, chaque nouvel exemple ne doit tre que lgrement
diffrent du modle. Ainsi, on vite de faire voluer le modle vers des interprtations incer-
taines. Avec la version space, on explore chaque interprtation possible, et ce, tant quelle
7. Espace de versions
8. Iterated Version Space Algorithm
48
reste viable.
Une version space est une reprsentation qui enregistre toutes les informations utiles des
exemples fournis au systme sans conserver un seul de ces exemples. Une version space est
une reprsentation dans laquelle :
il y a un arbre de spcialisation et un arbre de gnralisation ;
chaque noeud correspond un modle de description ;
la racine de larbre de gnralisation est un modle qui accepte tous les exemples ;
les liens entre les noeuds dnotent des relations de gnralisation et de spcialisation.
Lide de lapprentissage par version space est que la gnralisation des modles spci-
fiques et la spcialisation des modles gnraux conduisent un modle assurment correct
qui accepte tous les exemples positifs prsents au systme et rejette tous ceux qui sont
ngatifs. Dans ce manuscrit, nous utilisons cette mthode pour tenter de construire un mo-
dle qui accepte les diffrentes instances i.e. les chanes de Markov de diffrents ordres. La
construction de tels arbres va nous permettre de dtecter les futures pannes du systme.
Arbre de dcision
La construction darbre de dcision utilise la notion dattribut le plus discriminant. Les
donnes issues de GMAO industrielle nous donnent les tables de contingence tudier. Nous
pouvons alors appliquer plusieurs critres comme lentropie maximale (voir 2.4.3, p. 42).
Nous utilisons aussi cette technique, qui va nous permettre de faire une classification sur les
attributs (ou observations dans notre cas), les plus pertinents.
2.4.5 Mthodes statistiques

Kleijnen [103] disait avec humour : si la statistique mathmatique est utilise, les statis-
tiques appropries doivent tre utilises ! . Selon Easterling et al. [62], lobjectif fondamental
de lanalyse des donnes statistiques est dextraire et de transmettre ce que les donnes
ont dire au sujet de questions diverses . Dans le cadre de la validation de modle de
simulation, Sargent [146] fait la distinction entre trois types de modles diffrents :
aucune donne relle : utilisation de la thorie statistique sur la conception de plan

dexpriences (voir 2.3.2, p. 32) ;
donnes dentre uniquement : utilisation de tests statistiques dhypothses ;
donnes dentre et de sortie : ralisation dune analyse de sensibilit (voir 2.3, p. 30).
Dans notre tude, nous nous situons dans le deuxime cas. Nous tudions uniquement les
donnes dentre. Les donnes de sortie que nous ne connaissons pas, correspondent aux tats
49
cachs du MMC.
Mthodes de Monte-Carlo
Ces mthodes permettent de calculer une quantit inconnue en utilisant une suite de
nombres alatoires. Son intrt est la convergence plus rapide vers la solution quune ex-
ploration dit systmatique . Elles permettent de quantifier des variables en utilisant des
outils statistiques. Selon Pardoux [126], cette mthode consiste dans un premier temps
mettre sous la forme dune esprance, la quantit que lon cherche calculer. La deuxime
tape consiste faire une simulation de la variable alatoire et calculer E(X), o X est
une variable alatoire. Pour calculer E(X), il faut savoir simuler des variables alatoires in-
dpendantes X1 , . . . , Xn , ayant toutes la loi de X. Pour finir, il faut approcher la valeur de
E(X) par :
1
E(X) (X1 + . . . + Xn ). (2.29)
n
Le thorme de la loi forte des grands nombres permet de justifier la convergence de la
mthode et le thorme de la limite centrale prcise la vitesse de convergence. Pour plus de
dtails, le lecteur pourra se rfrer la loi forte des grands nombres, thorme de la limite
centrale et mthode de Monte-Carlo [126].
Test de Kolmogorov-Smirnov
Ce test permet de comparer les distributions de deux chantillons [60], [181], [182], [91]
et [125]. Cest un test non paramtrique. Il consiste comparer la distribution des frquences
dune variable observe avec la distribution thorique que cette variable aurait si elle tait
distribue normalement. On cherche alors lcart entre la distribution thorique et la distri-
bution observe. On veut tester lhypothse nulle H0 : il ny a pas de diffrence entre les
deux chantillons . Ce test repose sur le fait que si les fonctions de rpartition thoriques
sont gales, les diffrences entre les fonctions de rpartition empiriques sont faibles.
Pour le lecteur curieux, la preuve du thorme de Kolmogorov-Smirnov est dcrite dans
[17].
La fonction de rpartition empirique dun chantillon X1 , . . . , Xn est dfinie par (2.30) :
n
1X
Fn (x) = X 6x (2.30)
n i=1 i

1 si Xi 6 x,
avec Xi 6x =
0 sinon .
Avec lhypothse nulle H0 : les deux chantillons suivent la mme loi.
La distance de Kolmogorov-Smirnov est dfinie en (2.31) :
Dn = sup |F1n (x) F2n (x)|. (2.31)

x
Nous utilisons ce test afin dvaluer la diffrence entre la fonction de rpartition empirique
tudie et les lois de distributions testes.
50
Test dAspin-Welch
Un autre test dadquation qui prends en compte les moyennes des deux chantillons.
Lhypothse nulle H0 est la mme que celle du test de Kolmogorov-Smirnov ( il ny a pas
de diffrence entre les deux chantillons ).
Le test dAspin-Welch [184], [185], [79] est dfini par :
x1 x2
t= r , (2.32)
2
1 1
( + )
n1 n2
n1 12 + n2 22
2 = , (2.33)
n1 + n2 2
xi : moyenne de lchantillon,
: la variance des deux chantillons,
i : les variances des chantillons,
ni : la taille de lchantillon,
H0 : les deux chantillons suivent la mme loi.
avec , le nombre de degrs de libert est estim en utilisant lquation de Welch-
Satterthwaite : 2 2
1 22
+
n1 n2
= . (2.34)
14 24
+
n21 (n1 1) n22 (n2 1)
Nous utilisons galement ce test statistique afin dvaluer la diffrence entre la fonction
de rpartition empirique et les lois de distributions.
Bootstrap
Le Bootstrap est une mthode issue des recherches de Bradley Efron [63] la fin des annes
70. Son but est destimer la prcision dun intervalle de confiance ou dune distribution.
Elle consiste re-chantillonner un chantillon de taille limite, sans rajouter de nouvelles
donnes. Il permet dobtenir des informations sur les incertitudes statistiques lies un
chantillon de taille limite.
Thorme 2.4.1 Lorsque n tend vers linfini, la distribution des valeurs moyennes calcules
partir des chantillons de bootstrap est gale la distribution des valeurs moyennes obtenues
partir de tous les chantillons avec des n lments qui peuvent tre construits partir de
lespace complet. Ainsi, la largeur de la distribution donne une valuation de la qualit de
lchantillon (Bradley Efron [63]).
Pour tudier une population donne ( espace complet ), le Bootstrap (voir thorme 2.4.1),
consiste extraire un premier chantillon reprsentatif de cette population puis dchantillon-
ner de nouveau ce premier chantillon (sans recours de nouvelles observations) : cest le
r-chantillonnage. Cela permet de conserver toujours le mme nombre de donnes. Aprs
un certain nombre ditrations (formule 2.35), rsultant de la mthode de Monte-Carlo (voir
51
Espace complet
chantillon
initial de n
lments
1
2
Nb chantillons de 3
Bootstrap 4
..
.
Nb
Fig 2.4 Mthode du Bootstrap.
2.4.5), nous obtenons une statistique finale en faisant la moyenne des diffrentes statistiques
obtenues. Cette mthode permet de remplacer les difficults mathmatiques par dimportants
calculs. Le lecteur peut visualiser cette mthode Figure 2.4, p. 52 pour une meilleure com-
prhension.
En pratique, un nombre ditrations minimum est ncessaire pour lestimation des variances
ou des intervalles de confiance de statistique des paramtres du modle.
Nb 1000 : pour estimer lerreur-standard,
Nb 5000 : pour lvaluation dintervalles de confiance.
(2n 1)!
Nombre maximal ditrations pour un n-chantillon : Nmax = . (2.35)
n!(n 1)!
2.4.6 Comparaison de deux modles par corrlation linaire de Bravais-

Pearson
Contrairement un test de statistiques comme celui de Kolmogorov-Smirnov, ce coef-

ficient de corrlation nous permettra de comparer les distributions des donnes empiriques
avec celles issues de la simulation. Nous voulons ici comparer les distributions des symboles
et essayer de se rapprocher le plus possible de la ralit. Le but est de comparer deux courbes
entre elles, afin de regarder la diffrence entre chacun des points. Pour cela, nous utilisons
le coefficient de corrlation linaire de Bravais-Pearson [6]. Pour deux sries de donnes de
mme taille X(x1 , . . . , xn ) et Y (y1 , . . . , yn ), le coefficient de corrlation linaire liant ces deux
sries est dfini par :
52
2.5 Mesure du caractre stochastique dun modle
n
X
(xi x) (yi y)
x,y = s n i=1 s n . (2.36)
X X
(xi x)2 (yi y)2
i=1 i=1
Les deux courbes ne sont pas corrles si x,y est proche de 0. Les deux courbes sont
dautant plus corrles entre elles que x,y est proche de -1 ou de 1.
La covariance entre x et y est dfinie par :
N
2 1X
xy = (xi x) (yi y). (2.37)
N i=1
Cette technique de comparaison nous permettra de quantifier les diffrences entre les
distributions empiriques et simules. Cela pourra nous donner, dans un deuxime temps,
dventuelles amliorations apporter notre modle de synthse.
2.5 Mesure du caractre stochastique dun modle

Le but de cette section est de quantifier les aspects stochastiques des modles tudis.
Nous devons, en effet, vrifier que les modles tudis sont de type stochastique. Pour vrifier
ce caractre, le modle doit comporter des squences considres comme alatoires. Ainsi,
pour viter dutiliser des modles biaiss, nous devons vrifier le caractre alatoire des don-
nes du modle. Nous pouvons citer le guide du NIST 9 , qui a publi le guide [144]. Cest
une suite de 15 tests statistiques qui ont t dvelopps afin destimer le caractre alatoire
de squences binaires. Ces tests sont trs utiliss en cryptographie, ils permettent de dfi-
nir le caractre prdictible ou pas dun gnrateur de nombres alatoires ou pseudo-alatoires.
Nous vrifions que le gnrateur dtats du modle de synthse est suffisamment

alatoire en utilisant le test en frquence 2.5, p. 53.
Nous dcrivons succinctement quelques uns de ces tests les plus pertinents :
Test de Frquence (Monobit)

Le but de ce test est de dterminer si les nombres de uns et de zros dune squence
donne, sont approximativement les mmes quune relle squence alatoire. Tous les tests
suivants dpendent du passage de ce test.
Soit n, la longueur de la chane de bits tester,
est la squence de bits tester,
Xi = 2 1 = 1,
Sn = X 1 + X 2 + . . . + X n ,
9. National Institute of Standards and Technology
53
|Sn |
sobs = ,
2 Z +
2 2
erfc(z) = eu du : la fonction derreur complmentaire dite de Gauss,
z
sobs
p-value = erfc .
2
Si la squence est alatoire, les +1 et 1 auront tendance sannuler mutuellement et
la statistique tendra vers 0. Lhypothse nulle (H0 ) considre que la squence est alatoire.
Le test accepte H0 si p-value > 0, 01. La squence est considre comme non alatoire si
p-value < 0, 01.
Test de Maurer test statistique universel

Une squence significativement compressible est considre comme non-alatoire. Ce test
mesure simplement la longueur dune squence compresse. La compression utilise lalgo-
rithme de Lempel-Ziv-Welch [186] (voir annexe A.2, p. 142).
Test de complexit linaire

Ce test tudie la longueur dun LFSR (Linear Feedback Shift Register). Cest un registre
dcalage rtroaction linaire, cest--dire que le bit entrant est le rsultat dun OU
exclusif entre plusieurs bits du M-bloc. La squence est considre alatoire si celle-ci est
suffisamment complexe.
Test de lentropie approximative

Ce test utilise lentropie dfinie au 2.4.3, p. 41, pour comparer la frquence dapparition
de blocs de longueurs adjacentes m et m + 1. Cette frquence doit tre bien videmment
conforme celle dune squence alatoire.
Test des sommes cumules

Le but du test est de dterminer si la somme cumule de toutes les squences partielles
(quation 2.38) est proche de zro. Comme pour le Test de Frquence, les 0 de la squence
sont transforms en 1.
est la squence de bits tester,
Xi = 2 1 = 1,
Sn = X 1 + X 2 + . . . + X n . (2.38)
Test Random Excursions

Ce test examine toutes les squences partielles S1 Sn (quation 2.38), et dtermine le
nombre de cycles particuliers i.e. lorsque la somme cumule des squences partielles sannule
(les 0 de la squence sont transforms en 1 : Xi = 2 1 = 1). Il compare ce nombre
54
2.6 Discussion sur les mthodes de slection de modles
celui attendu pour une squence alatoire. Ce test est en fait une srie de huit tests (et
conclusions) pour chacun des tats : 4, 3, 2, 1 et +1, +2, +3, +4.
Test Random Excursions Variant

Le test est identique au prcdent, avec une srie de dix-huit tests (et conclusions) pour
les tats suivants : 9, 8, 7, 6, 5, 4, 3, 2, 1 et +1, +2, +3, +4, +5, +6, +7, +8, +9.
Vrification des tests prcdents

Pour vrifier la performance des tests prcdents, le NIST utilise le test de Kolmogorov-
Smirnov duniformit (voir 2.4.5, p. 50). La conformit est alors tudie partir des p-values
obtenues partir des squences tudies dans [144].
2.6 Discussion sur les mthodes de slection de modles

Il nexiste pas de critre universellement meilleur. En pratique, seule une parfaite connais-
sance du milieu analyser permet de donner un sens la notion de supriorit dun critre sur
un autre. Daprs Olivier et al. [123], le principe du maximum de vraisemblance conduit en
gnral sur-paramtrer le modle pour avoir de bons rsultats. Une pnalisation du terme
de vraisemblance peut pallier cet inconvnient. Le critre de type log-vraisemblance pnalis
le plus clbre est AIC Akaike (1973) [3]. Mme sil nest pas totalement satisfaisant, il am-
liore le principe du maximum de vraisemblance mais conduit aussi une sur-paramtrisation.
Dautres critres dsormais classiques, BIC et HQC, assurent une meilleure estimation en
pnalisant justement le sur-dimensionnement du modle. Enfin, le critre de comparaison de
Kullback-Leibler [174] mesure la dissimilarit entre 2 modles.
Une grande attention doit tre porte au choix du critre de slection du modle.
Il doit tre conditionn par lobjectif de lanalyse et de la connaissance des donnes. Olivier
et al. [122] ont remarqu que les critres comme BIC et AIC taient utiliss indiffremment,
quel que soit le problme pos, alors quils nont pas le mme objectif.
Les donnes dont nous disposons dans ce manuscrit sont essentiellement bases sur des
probabilits. Notre dmarche de slection se fera ainsi sur des modles probabilistes. Si
nous nous rfrons la littrature purement mathmatique, celle-ci recommande lutilisation
dune mthode Baysienne. En effet, linfrence baysienne est parfaitement maitrise dans
ce domaine. Mais selon Burnham [32], presque tous les arguments en faveur de lutilisation
de BIC plutt que AIC, avec des donnes relles, manquent de pertinence ! Ceci contribue
davantage la confusion qu la comprhension de lutilisation de ces critres. Il y a des
contextes clairement dfinis permettant le choix de la bonne mthode. Il apparait pour
certains quil vaut mieux choisir BIC car cest une mthode Baysienne. La diffrence doit se
faire dans la distribution a priori dfinissant le modle [32]. La comparaison des 2 mthodes
doit tre base selon [32], sur la comparaison des mesures de leur performance dans des
conditions ralistes dapplication. Celle-ci est fonction du nombre de paramtres du modle.
De plus, une augmentation de ce nombre de paramtres permet de rduire le biais dun
modle mais induit en contre partie une augmentation de la variance [131].
55
Consistance et efficacit
Certains critres sont bass sur le principe du maximum de vraisemblance (voir 2.4.3,
p. 42) tels que AIC [3] et BIC [148]. Nous utiliserons par la suite certains de ces critres
comme AIC, BIC et HQC. Le critre de BIC est connu comme consistant, i.e. si le vrai
modle est contenu dans lensemble des modles candidats, alors la probabilit de choisir le
vrai modle est proche de 1. Dautre part, le critre dAIC est optimal pour les cas la fois
paramtriques et non paramtriques. Ce critre donne de bons rsultats dans lestimation
dune fonction de rgression par exemple. Selon Claeskens et al. [46], BIC et HQC sont des
critres fortement consistants. AIC, AICc et le Cp de Mallows sont efficaces (un critre est
efficace lorsque lerreur de prdiction attendue est proche de lerreur de modlisation) [47].
Cependant, nous ne pouvons pas combiner la consistance de BIC avec lefficacit dAIC.
En effet, Yang [189] montre que si le vrai modle est inclu dans lensemble des candidats
alors les points forts des 2 prcdents critres, mentionns ci-dessus, ne peuvent tre partags.
Autrement dit, pour tre consistant, les critres de slection de modles doivent se comporter
de manire optimale par rapport lAIC, en terme derreur quadratique moyenne. Selon [98],
BIC a t conu pour trouver le modle le plus probable. Par contre AIC est meilleur lorsque
les modles candidats sont peu probables, il minimise la distance de Kullback-Leibler (voir
2.4.3, p. 44) qui permet aussi de comparer des modles entre eux.
Sur-apprentissage
Les donnes dapprentissage sont dterminantes dans la construction dun modle. Woo-
droofe [188] tudie le caractre de sur-apprentissage des critres comme lAIC ou le Cp de
Mallows. Il montre linfluence du paramtre k (pour k +) pour la loi de probabilit
Arc Sinus . Par exemple pour k +, la probabilit de sur-aprentissage est de 0,946
alors que la probabilit didentifier correctement le vrai modle est de 0,712 (voir Tableau 2.1,
p. 56)
k Probabilit de sur-aprentissage Probabilit didentifier le vrai modle

5 0,571 0,736
10 0,718 0,791
+ 0,946 0,712
Tableau 2.1 Caractre de sur-apprentissage de lAIC (distribution Arc Sinus [188]).
Cet exemple illustre le fait que ce critre de slection de modle minimise le score si le
nombre de paramtres est trop important.
56
2.7 Conclusion
2.7 Conclusion
Des approches telles que lanalyse de sensibilit dun modle, les mthodes avec score
dintrt ou statistiques, nous offrent de nombreuses possibilits pour trouver les architec-
tures des modles les plus pertinentes. De nombreuses mthodes utilises en mathmatiques
appliqus ne seront pas dveloppes ici cause de leur complexit. Nous utiliserons les m-
thodes dcrites ci-dessus pour tenter de mesurer la pertinence des architectures de MMC
proposes dans Vrignat [177]. De plus, afin de pouvoir comparer les donnes empiriques avec
des donnes issues de simulation, nous allons mettre en place un modle de synthse. Nous
allons alors vrifier dans un premier temps son caractre stochastique (avec un test du NIST).
Ensuite, nous allons dterminer les lments du modle les plus pertinents laide des m-
thodes prcdentes qui ont dj t utilises avec une problmatique similaire. Enfin, dans
un but damliorer les performances de notre modle, nous proposerons des amliorations en
les quantifiant laide de la corrlation linaire de Bravais-Pearson.
57
58
Chapitre 3
valuation de modles par une approche

markovienne
59
Chapitre 3 : valuation de modles par une approche markovienne
60
3.1 Introduction
Nous dbutons ce chapitre par une description des attentes thoriques de cette tude.
Nous prsentons ensuite quelques approches classiques issues de la littrature qui pourraient
tre utilises dans notre dmarche. Nous dtaillons ensuite les diffrents aspects lis notre
problmatique, notre choix de lapproche markovienne et les diffrentes architectures de mo-
dle que nous utilisons (topologies, algorithmes dapprentissage, algorithmes de dcodage).
Nous introduisons ensuite le modle de synthse utilis pour cette tude, afin dobtenir des
donnes simules proches dun processus industriel. Ce modle tablit ainsi des relations
cohrentes entre les observations de sortie dun processus industriel et ltat cach de
celui-ci. Comme prconis dans les travaux prcdents [177], nous utilisons une modlisa-
tion markovienne quatre tats (S1, S2, S3 et S4). S4 est ltat de fonctionnement optimal
et S1 est ltat critique o le processus est arrt. Enfin, nous prsenterons les lois statis-
tiques utilises dans la production des symboles laide du Principe de Maximum dEntropie
(PME).
3.1 Introduction
Certaines entreprises de la rgion ont mis en place des systmes de GMAO. Des donnes
de maintenance sur des processus industriels ont ainsi pu tre collectes. Ces dernires nous
servent de base pour notre tude empirique. Les comparaisons avec les donnes issues dun
modle de synthse nous permettent dvaluer les diffrentes architectures des modles utili-
ss. Nous prsentons ici les mthodes et donnons les rsultats dans le chapitre suivant. Tous
les calculs sont mens sur deux fronts : donnes empiriques et donnes de simulation.
3.2 Attentes thoriques

Notre tude est base sur des analyses comportementales de modles en fonction des
donnes dentre (informations de maintenance). Mais, il est vident, que toutes ces obser-
vations (informations dentre) nont pas le mme poids dans la construction du modle. De
ce fait, dans un premier temps, une analyse de la nature des donnes nous permet dtu-
dier la pertinence des symboles qui alimentent le modle (le symbole tant la nature de
lobservation). Donc, cela revient rpondre la question : les donnes apportent-elles de
linformation au modle ? Dans un deuxime temps, nous faisons voluer la modlisation
en proposant diffrentes amliorations apporter afin que le modle soit plus efficace. Enfin,
nous tudierons la pertinence de larchitecture des modles par diffrents critres de
slection.
Nous pouvons dcomposer nos attentes thoriques selon les axes suivants :
(a) Pertinences des observations sans connaissance a priori sur les rsultats :
quels sont les symboles les plus pertinents ? Ils proviennent dune GMAO industrielle,
quelles sont les instances qui napportent aucune ou trop peu dinformation au modle ?
peut-on retrouver ltat dun systme ou dun processus, partir dune squence dins-
tances particulires ?
(b) volution de la modlisation :
61
quel est le meilleur chantillonnage des observations pour obtenir une ractivit efficace
des modles ?
quel est le nombre minimal de donnes ncessaire au modle pour quil ait une informa-
tion suffisante ? Est-il possible dtablir une fentre optimale de symboles, de manire
pouvoir rvaluer le modle en fonction de cette fentre glissante ? Le modle se
fonderait donc sur un historique limit.
(c) Pertinence de larchitecture des modles :

quelle est la meilleure topologie parmi celles tudies ?
quel est le meilleur algorithme dapprentissage et de dcodage ?
quelle est la meilleure distribution des observations ?
3.3 Approches classiques

Lestimation de donnes non connues ou caches nest pas lapanage des MMC. Dautres
techniques peuvent estimer des tats cachs dun systme et modliser des niveaux de d-
gradation dun processus. Nous prsentons dans cette section dautres approches pouvant
rpondre cette problmatique. En effet, les filtres particulaires [33] (voir 3.3.1, p. 62) fon-
ds sur la thorie des filtres de Kalman, ainsi que les rseaux de Petri stochastiques [124] (voir
3.3.3, p. 63) permettent davoir des proprits proches de celles de la thorie markovienne.
3.3.1 Filtres particulaires

Lobjectif des filtres particulaires [109] est lestimation de modles fonds sur la simula-
tion. Il sagit ici destimer une squence de paramtres cachs en se basant uniquement sur
des observations.
Soit xk , les paramtres cachs et yk , les paramtres baysiens estims de xk . Les filtres
particulaires estiment la distribution de filtrage p(xk |y0 , y1 , . . . , yk ) au lieu dutiliser les pro-
babilits jointes a posteriori p(x0 , x1 , . . . , xk |y0 , y1 , . . . , yk ).
Ils constituent une alternative aux filtres de Kalman tendus (voir 3.3.2, p. 62) et
peuvent tre plus rapides que les mthodes de Monte-Carlo par chanes de Markov. Ils
donnent une estimation proche de la valeur optimale en utilisant la mthode des rseaux
Baysiens. Nous nutilisons pas cette technique, trop complexe mettre en uvre.
3.3.2 Filtre de Kalman tendu

Le filtre de Kalman [100], [11], [128], et [71] permet destimer ltat dun systme partir
dune information a priori sur lvolution de cet tat et de mesures relles. Il est notamment
utilis dans lidentification paramtrique dun modle.
Le principe est dutiliser une estimation de ltat prcdent pour prdire ltat prsent,
un peu comme lhypothse de Markov (voir 3.4.2, p. 68). Une deuxime phase consiste
corriger la prdiction en utilisant lobservation de linstant prsent. Ceci a pour but de
corriger lestimation.
62
3.3 Approches classiques
Prenons par exemple un modle dtat discret reprsent par lquation dtat suivante :

x(tk+1 ) = Ak x(tk ) + Bk u(tk ) + v(tk ) (quation dtat)
(3.1)
y(tk ) = Ck x(tk ) + (tk ) (quation de mesure).
o :
k > 0 reprsente les instants successifs du temps, tk = kTe o Te est la priode dchan-
tillonnage ;
x(tk ) Rn est le vecteur dtat du systme ;
u(tk ) Rm est le vecteur des entres dterministes ;
v(tk ) Rp est le vecteur bruit sur les entres ;
y(tk ) Rq est le vecteur des mesures ;
(tk ) Rq est le vecteur des signaux stochastiques (erreur de mesure).
Les hypothses suivantes doivent tre vrifies :
les matrices Ak , Bk , Ck ainsi que lentre u(tk ) sont dterministes ;
les bruits de mesure ainsi que les bruits sur les entres sont supposs de moyenne nulle,
non corrls entre eux tk ;
ltat initial x0 desprance x0 , de matrice de covariance P0 est indpendant du bruit
dtat et de mesure.
soit pour linitialisation :

x(t0 ) x0 x(t0 ) T P0 0 0
E v(ti ) = 0 , v(ti ) x(t0 ) v(tj ) (tj ) = 0 Qi ij 0 . (3.2)
(ti ) 0 (ti ) 0 0 Ri ij
.
E reprsente lesprance mathmatique ;
ij est le symbole de Kroknecker 1 ;
P0 , Qi et Ri sont des matrices symtriques dfinies positives.
La mthode consiste prdire ltat suivant en minimisant la variance de lerreur desti-
mation en deux phases :
la phase de prdiction : utilise ltat prcdent pour estimer ltat courant ;
la phase de correction : les observations de linstant courant permettent daffiner ltat
courant.
3.3.3 Rseau de Petri stochastique

Selon Labadi et al. [105], un rseau de Petri est un modle mathmatique utilis dans la
reprsentation de systmes dynamiques. Initis en 1962 dans la thse de doctorat de Carl
Adam Petri, les rseaux de Petri suscitent toujours autant dintrt de nos jours dans le do-
maine de la recherche. Malheureusement, peu dapplications industrielles voient le jour par
(
1 si i = j
1. ij =
0 si i 6= j
63
manque dune normalisation internationale contrairement au GRAFCET 2 , qui est dailleurs

driv du principe des rseaux de Petri. Les rseaux de Petri permettent de reprsenter
le fonctionnement dun automate. Ils peuvent ainsi modliser un processus industriel quel-
conque.
Nous illustrons la dmarche sur la Figure 3.1, p. 64. Il y a les tapes ou places, auxquelles
sont associes des actions. Les transitions entre tapes sont lies par des conditions de tran-
sition et les liaisons orientes entre les tapes et les transitions. Les Jetons correspondent
aux nombres de ressources disponibles.
P1 P1 P1
T1 T1 T1
P2 P3 P2 P3 P2 P3
T2 T2 T2
P4 P4 P4
Fig 3.1 Exemple dun rseau de Petri 4 places, 2 transitions et 2 jetons.
Ce rseau volue aprs chaque transition. Des jetons sont redploys au niveau des entres
et des sorties des transitions.
Notre problmatique est assez proche de celle des rseaux de Petri. En effet, lautomate
reprsent par un rseau de Petri peut aussi bien se reprsenter sous forme dun automate
de Markov. Dans ce manuscrit, nous navons pas choisi cette mthode car les rseaux de Petri
ne supportent pas la couche tats cachs comme peut le faire lapproche markovienne.
Peu dapplications industrielles voient le jour.
3.4 Approche markovienne

Lapproche markovienne est trs utilise, dans les tudes probabilistes de processus
comportements dynamiques. Cest une approche analytique par tats i.e. qui est fonde
sur lidentification des tats dun processus quelconque et lanalyse de lvolution au cours du
temps de ses tats. Elle est couramment utilise en fiabilit, pour les calculs de disponibilit.
En choisissant cette approche, nous bnficions dun certain nombre de proprits :
celles dun processus markovien qui imposent un dcoupage temporel rgulier [113]. Ce
dcoupage concerne videment lchantillonnage des donnes, quelles soient empiriques
2. GRAphe Fonctionnel de Commande Etape Transition
64
ou simules ;
des chanes de Markov pour des processus temps discrets (selon Foata [66]). Connais-
sant ltat prsent, la prdiction du futur nest pas rendue plus prcise par la connais-
sance des tats supplmentaires concernant leur pass ;
les tats inconnus du systme modliser correspondent aux tats cachs dun MMC ;
le systme modliser doit mettre des observations ou symboles.
Des MMC permettent alors, la modlisation de processus industriels notamment utiliss

pour la gestion de la maintenance. Les symboles mis correspondent ltat inconnu du
processus.
3.4.1 Chanes de Markov

Les chanes de Markov sont utilises dans ltude de suites de variables alatoires. Il y
a les chanes de Markov dont lensemble des tats est continu et celles dont lensemble E
des tats est discret (E N). Nous tudions dans cette thse uniquement le cas discret. Le
lecteur pourra se rfrer larticle de Baier et al. [12] pour plus de dtails sur les chanes de
Markov.
Dfinitions dune chane de Markov
Soit Xn , n > 0 une suite de variables alatoires valeurs dans lensemble des tats
E. Cette suite est une chane de Markov dordre 1, si pour tout n > 1 et toute suite
(i0 , . . . , in1 , i, j) dlments de E, pour laquelle la probabilit P (X0 = i0 , . . . , Xn1 =
in1 , Xn = i) est strictement positive, on a la relation suivante [66] :
P (Xn+1 = j|X0 = i0 , . . . , Xn1 = in1 , Xn = i) = P (Xn+1 = j|Xn = i). (3.3)
Dans lvolution au cours du temps, ltat du processus linstant n + 1 ne dpend que

de celui linstant n, mais non de ses tats antrieurs. Le processus est dit sans mmoire
ou non hrditaire.
Pour une chane de Markov dordre suprieur 1 (ordre m), ltat du processus linstant
n + 1 ne dpend que des m tats prcdents. Il a une petite mmoire.
Dfinition 3.4.1.1 La chane de Markov est dite homogne (dans le temps), si la probabilit
prcdente ne dpend pas de n :
pi,j = P (Xn+1 = j|Xn = i) (n > 0). (3.4)
Cette probabilit est appele probabilit de passage de ltat i ltat j, en une transition.
65
Dfinition 3.4.1.2 Soit A la matrice suivante :

a0,0 a0,1 a0,2

A = a1,0 a1,1 a1,2 . (3.5)
.. .. .. .. .. ..
. . . ...
Les coefficients sont les probabilits de transition pi,j et forment la matrice de passage
(ou de transition) de la chane de Markov. Cest une matrice finie ou dnombrable, suivant
que lensemble des tats est fini ou dnombrable.
Exemple dune chane de Markov deux tats

Les chanes de Markov sont intuitivement trs simples dfinir. En effet, un systme
comportant un certain nombre dtats qui changent au cours du temps discret peut-tre
modlis sous forme dune chane de Markov. Pour chaque changement dtat, celui-ci est
dtermin partir dune distribution de probabilits fixe au pralable et ne dpendant que
de ltat prsent. Nous montrons, ci-dessous, lexemple dune chane de Markov deux tats.
En excluant le cas trivial de la matrice unit, la matrice de transition est de la forme :

1
P= (0 < , 6 1). (3.6)
1
Le graphe associ est donn Figure 3.2.
Symboles ou observations

1 1 2 1

Fig 3.2 Chane de Markov deux tats.
Exemple du modle de diffusion dEhrenfest

Un autre exemple, un peu plus complexe est le modle des urnes [66] et [147]. Cest un
modle stochastique introduit en 1907 par les poux Ehrenfest. Ce modle est aussi appel
le dog-flea model (modle des chiens et des puces) :
Deux urnes A et B contiennent, elles deux, a boules, numrotes de 1 a. A chaque
instant, on choisit un nombre de 1 a, avec une probabilit de 1/a. Si ce nombre est i, on
change durne la boule numrote i.
Lensemble des tats est lensemble E = {0, 1, . . . , a}. Le processus est dit tre dans ltat
j si lurne A contient j boules. Dans ces conditions, si le processus est dans ltat 0 (lurne
A est vide), la probabilit est gale 1 lorsquil passe dans ltat 1 (respectivement ltat
(a 1)). La matrice de transition est donc donne par :
66

0 1 0 0 0 0 0
1/a 0 (a 1)/a 0 0 0 0

0 2/a 0 (a 2)/a 0 0 0

P = .. .. .. .. .. .. . .. .. (3.7)
. . . . . . . .

0 0 0 0 (a 1)/a 0 1/a
0 0 0 0 0 1 0
et le graphe associ est donn Figure 3.3, p. 67.
1 (a 1)/a (a 2)/a 3/a 2/a 1/a

...
0 1 2 ... a2 a1 a
1/a 2/a 3/a (a 2)/a (a 1)/a 1
Fig 3.3 Chane de Markov : modle de diffusion dEhrenfest.
Pour n > 0, dsignons par Xn le nombre de boules dans lurne A linstant n. Si X0 = a,

alors le processus (Xn ) (n > 0) dcrit la diffusion dun gaz de A vers B.
3.4.2 Modle de Markov Cach discret

Un Modle de Markov Cach discret est compos dun processus stochastique cach
modlis par une chane de Markov et un processus stochastique observ dpendant des
tats du processus cach [9]. Selon Rabiner [137] et Fox [67], cest un automate tats
cachs qui est constitu dune variable non observable. Celle-ci reprsente ltat du systme
modliser. Seule la variable de sortie est observable. Cela nous permet davoir une squence
dobservations en sortie de lautomate ; partir de maintenant, nous parlerons simplement
de symboles reprsentant ces observations.
Dfinitions formelles dun Modle de Markov Cach observations discrtes

soit N , le nombre dtats cachs possibles et S = {S1 , S2 , . . . , SN }, lensemble des
valeurs possibles de cette variable. On notera qt , la valeur de cette variable linstant
t;
le processus ainsi modlis, doit rpondre lhypothse markovienne : ltat un ins-
tant t ne dpend que de ltat linstant t 1 ;
soit K, le nombre total de symboles dobservations et nous notons V = {v1 , v2 , . . . , vK },

lensemble des K symboles missibles par le systme. On notera vt , la valeur de cette
variable linstant t. Soit V = (V1 , . . . , VT ), un T-uplet de valeurs alatoires dfinies
sur V ;
soit A = {aij }, la distribution de probabilit de la transition dtat avec :
aij = P (qt+1 = Sj |qt = Si ) 1 6 i, j 6 N. (3.8)
67
soit B = {bj (k)}, la distribution de probabilit des observations vk ltat Sj , avec :

bj (k) = P (Vt = vk |qt = Sj ) 16j6N 1 6 k 6 K, (3.9)
soit = {i }, la distribution des probabilits initiales, avec :
= P (q1 = Si ) 1 6 i 6 N. (3.10)
le Modle de Markov Cach sera not :
= (A, B, ). (3.11)
Les relations de dpendance entre les diffrentes variables alatoires dun MMC sont
reprsentes sur la Figure 3.4, p. 68 [8].
Symboles mis Vt V t Symboles mis
tats cachs qt qt tats cachs
Fig 3.4 Relations de dpendance entre les variables alatoires dun MMC. Pour chaque
tat qt un instant t, il y a mission dun symbole Vt pris dans lensemble V.
Hypothse de Markov
La prdiction de ltat futur nest pas rendue plus prcise par connaissance supplmentaire
dinformation a priori i.e. toute linformation utile pour la prdiction du futur est contenue
dans ltat prsent du processus :
P (Xn+1 = j|X0 , X1 , . . . , Xn = i) = P (Xn+1 = j|Xn = i). (3.12)
3.4.3 Complexit de lvaluation dun MMC

Comment trouver la squence la plus probable dtats cachs ayant conduit la produc-
tion dune squence dobservations donnes ? Le nombre de chemins possibles pour gnrer
une telle squence est de lordre de N T (N tant le nombre dtats dun MMC et T la lon-
gueur dune squence dobservations). Lapproche directe nest pas acceptable sachant que
pour notre cas N = 4 et T = 1000, le calcul demanderait alors approximativement 10600
oprations. Pour un ordinateur cadenc 1GHz et en supposant quun calcul est gal une
opration du processeur, la solution sera trouve dans :
10600
/(3600)/365 = 10400 annes . (3.13)
109
68
Cest pourquoi des alternatives doivent tre mises en place. Certains algorithmes comme celui
de forward-backward [70] appel aussi algorithme Baum-Welch, avec une complexit de
lordre de N 2 T , ainsi que celui de Viterbi [81] ayant une complexit de T N T , permettent
de pallier ce problme. Ils rduisent ainsi le temps de calcul.
3.4.4 Topologies des modles tudis

Nous reprenons pour notre tude, les trois topologies tudies dans [177]. Nous allons
tudier leurs comportements au travers des algorithmes dapprentissage que nous prsentons
3.4.5, p. 69.
topologie 1 : cet automate de Markov illustre toutes les transitions possibles entre tous
les tats S1 , S2 , S3 et S4 (voir Figure 3.5(a), p. 71) ;
topologie 2 : cette topologie est moins permissive que la prcdente. Pour passer de
ltat S4 (le systme fonctionne et tout va bien) ltat S1 (le systme est larrt
en panne), il faut obligatoirement passer par S3 et S2. Lobjectif du modle tant de
rduire autant que possible le temps de sjour en S2 avant S1, afin que cet tat soit un
indicateur pertinent de larrive imminente de la panne (voir Figure 3.5(b), p. 71) ;
topologie 3 : nous retrouvons ici la topologie 2, une diffrence prs : ltat S1 est un
tat aspirant i.e. cette topologie autorise moins de marge de manuvre pour aller
vers ltat S1, lors de la phase dapprentissage. Le passage de S1 S4 est le redmar-
rage aprs un arrt (voir Figure 3.5(c), p. 71).
Les tats S2 S4 sont des tats o le processus modlis fonctionne. S1 est un tat darrt du
systme. Pour un systme productif, cette situation darrt doit tre minimise. Dans notre
tude, cet tat doit tre prdit au plus juste.
Les symboles mis reprsentent des interventions de maintenance (voir la codification
Tableau 3.1, p. 70).
3.4.5 Apprentissage
Algorithmes dapprentissage et de dcodage
Pour raliser lapprentissage des diffrents modles, nous utilisons les deux algorithmes
suivants :
apprentissage Baum-Welch [14] et [88], dcod par Variables Forward [137] :
estimation du modle de faon itrative = (A, B, ),
avec une squence dobservations O = {o1 , o2 , . . . , oT } VT ,
Maximiser P (V = O|). (3.14)
apprentissage Segmental K-means [97], dcod par Viterbi [175] et [23] :
Optimiser la probabilit P (O, S = Q |), (3.15)
69
Etat du processus
MARCHE
ARRET
NObs. Symboles Nature des interventions
1 DEP (Dpannage / arrt de la production)
2 RM (Rglage Machine)
3 AU (Autre)
4 OBS (Observation)
5 TEP (Travaux Entretien Prventif)
6 SEC (Scurit)
7 RAN (Remise A Niveau / planifi)
8 NET (Nettoyage Machine)
9 VEP (Visite Entretien Prventif)
10 RAS (pas dintervention)
Tableau 3.1 Codification symbolique des interventions de maintenance.
Q : squence dtats cachs qui a le plus probablement engendr la squence telle que
calcule par lalgorithme de Viterbi (voir annexe A.4, p. 145).
Pour dcoder les informations et ainsi retrouver les donnes de sortie de nos modles,
issues de la phase dapprentissage, nous utilisons les deux algorithmes de dcodage suivants :
dcodage algorithme Variables Forward :
t (j) = P (o1 , o2 , . . . , ot , Qt = sj |). (3.16)
t est la probabilit dtre dans chaque tat linstant t.

dcodage algorithme Viterbi :
t (j) = max(q1 ,...,qt1 St1 ) {P (S1 = q1 , . . . , St1 = qt1 , St = sj , V1 = o1 , . . . , Vt = ot |}.

(3.17)
t est la probabilit dtre dans chaque tat linstant t.
Arbres de dcision par chanes de Markov

Principalement utiliss lordre 1, nous allons ici essayer de construire des arbres de
dcision (aussi appels arbres de gnralisations/spcialisations) en utilisant des chanes de
Markov dordres 1, 2 et 3, partir des donnes. Notre but est dessayer de trouver une
relation de cause effet entre les diffrents symboles tudis. Cette notion [77] darbres de
dcision est emprunte la problmatique de la classification.
Pour notre cas dtude et pour une chane de Markov dordre n, le symbole considr
linstant t dpend des n symboles prcdents. Ainsi, partir dune chane de Markov dordre
n, nous avons ralis des arbres de dcisions. Les observations (instances) constituent les
donnes de lapprentissage. Le but de cette dmarche est dessayer de trouver ltat dun
systme, partir dune squence dinstances particulires.
70
MMC 1
Production de symboles Production de symboles
1 : SEC
2 : DEP 4 5
3
4
5
:
:
:
NET
OBS
... 4 5
1 2 3
S1 1 S2 2 S3 3 S4
6
6 RUN
!
(a) Topologie 1
MMC 2
1 : SEC
2 : DEP
3
4
5
:
:
:
NET
OBS
...
5
1 2 3
S1 1 S2 2 S3 3 S4
6
RUN
!
(b) Topologie 2
MMC 3
1 : SEC
2 : DEP
3
4
5
:
:
:
NET
OBS
...
5
1 2 3
S1 S2 2 S3 3 S4
6
RUN
!
(c) Topologie 3
Fig 3.5 Modles de Markov Cachs, topologies 4 tats. Les k , k sont des aij illustrant les
transitions Si vers Sj . Les k dtriorent ltat et les k amliorent ltat. La matrice dini-
tialisation pointe obligatoirement sur ltat S4 puisque nous supposons dmarrer toujours
dans ltat optimal (S4 est ltat optimal, S1 est ltat du processus arrt).
71
Espace de versions par chanes de Markov

La technique des espaces de versions (voir 2.4.4, p. 48) permet de dterminer, dans
un ensemble dhypothses, lesquelles peuvent correspondre un ensemble dexemples pris
dans un tableau de contingence correspondant lespace des donnes. Cela nous permettra
de dterminer la correspondance dun tat particulier avec une squence de symboles mis.
Nous prsentons nos rsultats dans les paragraphes 4.2.4, p. 116 et 4.2.4, p. 115.
3.4.6 Symboles manquants

Les paramtres manquants dun modle de Markov peuvent tre interprts comme suit :
le modle tabli est relativement satisfaisant un certain niveau dabstraction (voir 2.3.4,
p. 35). En effet, nous avons tabli un certain nombre de variables sur nos modles. Ces va-
riables ont pour intrt de dcrire au mieux les processus physiques tudis. Certaines don-
nes pourraient alors tre rajoutes au modle, par exemple certaines observations peuvent
tre anodines mais pourraient engendrer des modifications notables en sorties de nos mo-
dles. Nous parlons alors de donnes incompltes qui correspondent un certain niveau
dabstraction considr. Il est classique alors dappliquer des mthodes destimations comme
le maximum de vraisemblance (voir 2.4.3, p. 42) [44].
3.5 Modle de synthse

Nous allons maintenant dfinir notre modle de simulation. Nous rpondons dans un pre-
mier temps aux questions suivantes :
pourquoi utiliser un modle de synthse ?
quoi va-t-il nous servir ?
Nous avons cr un modle de synthse afin dobtenir des donnes se rapprochant le plus
possible du cas rel. En effet, ces donnes simules vont nous permettre dprouver les ar-
chitectures des modles tudis, les diffrentes topologies, les algorithmes dapprentissage et
de dcodage ainsi que les deux distributions choisies dans lmission de symboles. Ce modle
de synthse va nous servir de rfrence pour valider le cas rel.
Nous prsentons ici les diffrentes tapes de construction du modle de synthse (un mo-
dle = une topologie, un algorithme dapprentissage et un algorithme de dcodage) :
une topologie,
une matrice de transition A,
une matrice de distribution des observations B et une matrice dinitialisation .
Nous discutons dans un premier temps, le choix du modle de rfrence qui nous a servi
construire notre modle de synthse. Connaissant les probabilits de transition du couple
(Symboles, Etats), nous avons test les diffrentes topologies tudies (voir Figure 3.5, p.
72
71) sur des algorithmes dapprentissage et de dcodage. A la fin de ces essais comparatifs,
nous avons conclu que la topologie 2 (voir Figure 3.6, p. 73) tait la plus pertinente, en terme
de dtection de panne. Elle caractrise au mieux les activits de maintenance.
MMC 2
1 : SEC
2 : DEP
3
4
5
:
:
:
NET
OBS
...
5
1 2 3
S1 1 S2 2 S3 3 S4
6
RUN
!
Fig 3.6 Modle de Markov Cach 4 tats, topologie 2, rfrence du modle de synthse.
La topologie dun MMC dpend uniquement des lments non nuls de la matrice de tran-
sition note A = {aij }. Un tel modle est dit connectivit totale lorsque sa matrice de
transition ne comporte aucun lment nul (voir Figure 3.5(a), p. 71). Le modle de synthse
gnre des missions de symboles suivant les deux distributions suivantes :
la distribution uniforme : cette loi permet de modliser des variables alatoires uni-
formment rparties sur un intervalle, comme le montre la Figure 3.8(a), p. 76. La
variable alatoire peut prendre n valeurs quiprobables {x1 , x2 , . . . , xn }. La probabilit
est : P (xi )i[1,n] = 1/n. Cette loi est peu reprsentative dun systme rel, car tous les
symboles ont le mme poids. Nous donnons quelques dtails supplmentaires sur cette
loi en annexe B.2, p. 150.
la distribution normale (Laplace Gauss) : cette loi permet de modliser de nom-

breuses rpartitions de variables alatoires. La loi normale est dfinie par la densit de
probabilit : R R+ , desprance et dcart type :
1 1 x 2
(x) = e 2 ( ) . (3.18)
2
Cette loi peut tre une bonne reprsentation dun systme rel, car les symboles ont des
poids diffrents. Nous donnons un exemple pratique utilisant cette loi en annexe B.1, p. 149.
La matrice A (probabilit de passage entre les tats) est le rsultat de calculs issus de
lalgorithme dapprentissage utilis pour le modle considr (topologie dsire a priori). Dans
notre situation, ces rsultats sont fournis par le modle de synthse avec ses caractristiques
topologiques et refltant une distribution des symboles suivant une loi normale (Figure 3.8(b),
p. 76).
73
Nous avons lanc une premire simulation afin de produire 1000 observations. La matrice
A est initialement dfinie comme suit :

0.500 0.250 0 0.250
0.100 0.070 0.500 0.330
A= 0
. (3.19)
0.005 0.495 0.500
0 0 0.001 0.999
Cette matrice de transition est dtermine soit empiriquement pour un apprentissage

supervis, soit alatoirement. Cette matrice est estime de nouveau, une fois injecte dans
les algorithmes dapprentissage.
Ces 1000 donnes simules correspondent aux observations que lon trouve couramment
dans une base de donnes de GMAO industrielle. Nous avons ainsi construit 11 squences
de symboles. A chaque squence (enchainement de symboles mis) correspond une signature
qui reflte loccurrence de chaque symbole dans la dite squence. Ceci est illustr par les
Figures 3.7(a) et 3.7(b), qui montrent la distribution de chaque symbole lors de la squence
(lordre des symboles nest pas reprsentatif de lordre de la squence. Remarque : chaque
squence est ponctue par le symbole DEP (situation de dpannage cf. Tableau 4.9, p. 108),
o le processus est arrt). Ces squences produisent des symboles stochastiques, issus de la
loi normale et de la loi uniforme, voir Figures 3.8(a) et 3.8(b).
74
50
DEP
RM
AU
OBS
Occurence de symboles de chaque squence
40
TEP
SEC
RAN
NET
VEP
RAS
30
20
10
0
seq1 seq2 seq3 seq4 seq5 seq6 seq7 seq8 seq9 seq10 seq11
(a) Distribution normale

50
DEP
RM
AU
OBS
Occurence de symboles de chaque squence
40
TEP
SEC
RAN
NET
VEP
RAS
30
20
10
0
seq1 seq2 seq3 seq4 seq5 seq6 seq7 seq8 seq9 seq10 seq11
(b) Distribution uniforme
Fig 3.7 Squences V des T observations du modle de synthse. La Figure 3.7(a) reprsente
la distribution normale et la Figure 3.7(b) reprsente la distribution uniforme. Sur labscisse,
nous pouvons voir la liste des 11 squences dobservations misent par le modle de synthse.
Pour chaque squence, on trouve les 10 symboles (DEP, RM, AU, OBS, TEP, SEC, RAN,
NET, VEP et RAS). Ces figures illustrent la distribution de chaque squence pour chaque
symbole. Nous remarquons que chaque squence se termine par le symbole darrt DEP.
75
150
S1
Occurrence des symboles pour les 11 squences
S2
S3
S4
100
50
0
DEP RM AU OBS TEP SEC RAN NET VEP RAS
Liste des symboles
(a) Distribution normale

150
S1
S2
S3
S4
100
50
0
DEP RM AU OBS TEP SEC RAN NET VEP RAS
Liste des symboles
(b) Distribution uniforme
Fig 3.8 Distribution des symboles par tat du modle de synthse. La Figure 3.8(a) re-
prsente la distribution normale et la Figure 3.8(b) reprsente la distribution uniforme. Sur
labscisse, nous pouvons voir la liste des 10 symboles. Pour chaque symbole, on trouve les 4
tats (S1, S2, S3 et S4). Ces figures illustrent la distribution de chaque symbole pour chaque
tat. Nous remarquons que le premier symbole nest mis que par ltat S1 (symbole darrt
pour ltat de non fonctionnement). Nous remarquons aussi que ltat S1 nmet aucun des
9 autres symboles.
76
Le modle de synthse permet de produire des squences de symboles Tableau 3.2, p. 77

partir dune topologie Figure 3.6, p. 73. Ce modle de synthse permet de produire des
squences de couples (Etats, Observations) Figure 3.9, p. 77 compltement dfinies qui ser-
viront de rfrence (vrits terrains) pour comparer les rsultats obtenus pour les diffrents
tests effectus par la suite.
TEP TEP SEC TEP TEP RAS RAS DEP AU ...
Tableau 3.2 Squence dun message issue des donnes de maintenance.
Ces symboles vont donc pouvoir ensuite tre implments dans les trois topologies tu-
dies par lintermdiaire des algorithmes dapprentissage Baum-Welch (dcodage Variables
Forward) et Segmental K-means (dcod par Viterbi). Finalement, nous obtenons des couples
(Etats, Observations) pour chaque sortie dautomates. Nous valuons ainsi la pertinence et
lincertitude de chaque topologie.
Estimation
dgradation
systme
Marche
Estimation avec
niveaux
dgradation de
du dgradation
systme
Arrt
N
Etiquette 1 2 3 4 5 6 7 8 9 10 11 12
N Obs 10 10 9 9 5 5 6 5 5 10 10 1
P
C
S
S
P
Observations
DE
RA
RA
RA
RA
VE
VE
SE
TE
TE
TE
TE
Fig 3.9 Dgradation dun processus.
3.5.1 Caractre stochastique du modle de synthse

Le Guide [144] du NIST est une suite de 15 tests statistiques qui ont t dvelopps
afin destimer le caractre alatoire de squences binaires. NIST a vrifi la performance de
ces tests en utilisant le test statistique de Kolmogorov-Smirnov. Le but de ces tests est de
dterminer si les nombres de uns et de zros dans une squence sont approximativement
les mmes, tels quils seraient prvus pour une squence vritablement alatoire. Nous uti-
lisons le Test de Frquence (Monobit) 2.5, p. 53, de NIST afin de valider le caractre
stochastique du modle de synthse.
77
La squence est considre comme alatoire pour p-value > 0, 01, et non alatoire pour
p-value < 0, 01. Nous vrifions que les squences Figure 3.8(a) et 3.8(b) sont issues dun
gnrateur alatoire : rsultats Tableau 3.3, p. 78. Les symboles des topologies 1 et 3 sont
gnrs partir du modle de rfrence utilisant la topologie 2. Ces topologies caractrisent
un contexte rel de dgradation et de rparation.
Test NIST p-value

Topologie du modle de synthse Loi uniforme Loi normale
Topologie 1 0,47 0,06
Tableau 3.3 p-value des tats gnre par le modle de synthse.
Les rsultats obtenus, Tableau 3.3, p. 78, indiquent que pour tous les modles, les
p-value > 0, 01. Les squences obtenues par le gnrateur sont donc considres comme
alatoires. La diffrence entre les lois uniformes et lois normales se fonde sur un constat
empirique.
3.5.2 Processus dvaluation

Nous ralisons lvaluation des diffrentes topologies vues en Figure 3.5, p. 71 en utili-
sant un modle de synthse. Ce modle de synthse nous permet de reproduire les conditions
relles dun processus industriel tant soumis des perturbations : pannes, rparations,
maintenances prventives, etc. (voir la distribution des observations sur la Figure 3.11(a),
p. 80). Corrlativement, nous produisons des squences dobservations (ou symboles) selon
les lois de deux diffrentes distributions (normale et uniforme). Nous injectons ces symboles
dans nos trois topologies tudies au travers de deux algorithmes dapprentissage :
apprentissage Baum-Welch, dcod par Variables Forward (voir un exemple de distri-

bution des observations Figure 3.11(b), p. 80),
apprentissage Segmental K-means, dcod par Viterbi (voir un exemple de distribution

des observations Figure 3.11(c), p. 80).
Nous ralisons ainsi des mesures de pertinence et dincertitude sur les nouvelles observa-
tions obtenues pour nos trois topologies tudies. Le processus complet est rsum sur la
Figure 3.10, p. 79.
78
Modle de synthse
Modle de
Markov Cach
Modle 2
(rfrence)
Production Production
Symboles g-
de squences Symboles g-
de squences
nrs parEtats)
(Symboles, une nrs parEtats)
(Symboles, une
loi Uniforme
gnrs par une loi Normale
gnrs par une
loi Uniforme loi Normale
Topologies 1, 2 & 3
Estimation du MMC Dcodage des squences
Variables
BaumWelch
Forward
Segmental
Viterbi
Kmeans
Analyse des squences des 3 MMC

Entropie de Shannon,
Maximum de vraisemblance, AIC, BIC,
Test de Kolmogorov-Smirnov et Aspin-Welch.
Analyse des incertitudes
Incertitudes pistmiques.
Modle le plus pertinent
Fig 3.10 tapes dvaluation de larchitecture des modles, laide dun modle de synthse.
Le modle de synthse utilise la topologie 2 pour gnrer des 2-uplet (Symboles, Etats) en
utilisant les distributions (uniforme et normale). Nous injectons alors ces signatures dans
les 3 topologies tudies. Nous utilisons les 2 algorithmes dapprentissage et de dcodage
pour obtenir de nouvelles squences que nous analysons pour en valuer la pertinence. Nous
essayons ainsi de trouver la meilleure architecture des modles.
79
Modle 1 Distribution Normale Modle 1 / Baum-Welch, Distribution Normale
4 4
3 3
2 2
1 1
15
15
10
10
5
5
0
NET RAS OBS AU TEP VEP RAN SEC RM DEP NET RAS OBS AU TEP VEP RAN SEC RM DEP
(a) MMCRfrence (b) BaumWelch
Modle 1 / Segmental K-means, Distribution Normale
4
1
15
10
5
0
NET RAS OBS AU TEP VEP RAN SEC RM DEP
(c) Segmental Kmeans
Fig 3.11 Distribution des symboles par tat. La Figure 3.11(a) reprsente la distribution
normale des observations mises par le modle de synthse. La Figure 3.11(b) reprsente
la distribution des observations aprs apprentissage Baum-Welch et dcodage par Variables
Forward. La Figure 3.11(c) reprsente la distribution des observations aprs apprentissage
Segmental K-means et dcodage par Viterbi.
80
3.5.3 Processus de gnration des symboles

Le modle de synthse produit des 2-uplets (Symboles, Etats) de manire alatoire pour
les trois topologies tudies. La distribution des symboles est donne par une loi normale :
(Symb_N, Etats_Ni ) et une loi uniforme : (Symb_U, Etats_Ui ) (les diffrentes topologies
sont reprsentes par i ). Ces diffrentes squences sont injectes dans les deux algorithmes
dapprentissage et de dcodage. Nous obtenons alors 12 sries de symboles supplmentaires :
(Symb_U, Etats_Ui BW ) pour lalgorithme Baum-Welch, dcodage par Variables Forward
et (Symb_U, Etats_Ui SK) pour Segmental K-means, dcodage par Viterbi. Nous rsumons
le processus de gnration des symboles Figure 3.12, p. 81.
150
150
S1 S1

S2 S2
S3 S3
S4 S4
100
100
50
50
0
0
DEP RM AU OBS TEP SEC RAN NET VEP RAS DEP RM AU OBS TEP SEC RAN NET VEP RAS
Liste des symboles Liste des symboles
MMC 1 MMC 2 MMC 3 MMC 1 MMC 2 MMC 3

Production de symboles Production de symboles Production de symboles Production de symboles Production de symboles Production de symboles Production de symboles Production de symboles Production de symboles Production de symboles Production de symboles Production de symboles
1 : SEC 1 : SEC 1 : SEC 1 : SEC 1 : SEC 1 : SEC
2 : DEP 4 5 2 : DEP 2 : DEP 2 : DEP 4 5 2 : DEP 2 : DEP
3 : NET
4 : OBS
3 : NET
4 : OBS
5 3 : NET
4 : OBS
5 3 : NET
4 : OBS
3 : NET
4 : OBS
5 3 : NET
4 : OBS
5
5 : ... 4 5 5 : ... 5 : ... 5 : ... 4 5 5 : ... 5 : ...
1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3
S1 1 S2 2 S3 3 S4 S1 1 S2 2 S3 3 S4 S1 S2 2 S3 3 S4 S1 1 S2 2 S3 3 S4 S1 1 S2 2 S3 3 S4 S1 S2 2 S3 3 S4
6 6 6 6 6 6
6 RUN RUN RUN 6 RUN RUN RUN
! ! ! ! ! !
Apprentissage BaumWelch Apprentissage Segmental K Apprentissage BaumWelch Apprentissage Segmental K

dcodage Variable Forward means dcodage par Viterbi dcodage Variable Forward means dcodage par Viterbi
12 * 1000 symboles estims, en utilisant 2 distributions, 3 topologies et 2 algorithmes dapprentissage/dcodage
Fig 3.12 Production des symboles. Cela nous permet de tester diffrentes distributions de
symboles, diffrentes topologies et diffrents algorithmes dapprentissage et de dcodage.
3.5.4 Dtermination de la loi statistique

Nous voulons ici confirmer nos choix dans la construction du modle de synthse : to-
pologies, reprsentation des distributions des observations, algorithmes dapprentissage et
de restitution i.e. de dcodage. Pour cela, nous allons construire des modles les plus
simples possibles, bass sur le Principe du Maximum dEntropie (PME), en utilisant les
donnes issues du modle de synthse.
Principe du Maximum dEntropie (PME) : construction de modles

A partir dune distribution issue du modle de synthse, nous allons essayer de retrouver
les densits des lois de probabilits utilises sur les observations. En effet, le thorme de
Glivenko-Cantelli [156] exprime quune loi de probabilit peut tre rvle par la connaissance
dun grand chantillon de cette loi. Nos modles du PME seront construits partir de 1000
donnes stochastiques aprs implmentation dans les topologies et algorithmes dapprentis-
sage / dcodage tudis. Nous construisons de nouveaux modles utilisant le PME aprs
avoir inject ces observations dans nos algorithmes dapprentissage et de dcodage . La
loi du Maximum dEntropie de chaque modle sera obtenue partir des moments successifs
dordre K fini [173].
81
Loi de maximum dentropie obtenue partir des moments successifs : Obser-

vations : xK
Niveaux de contraintes empiriques :
K
1 X k
xK = x . (3.20)
1000 k=1 i
Multiplicateurs :
mk , k {1, . . . , K}. (3.21)
tats de Gibbs :
K
!
1 X

f (x) = exp k xk , x [1, 8]. (3.22)
Z k=1
quations du Principe du Maximum dEntropie :

Z K
!
1 1000 l X
x exp k xk dx = xl , l {1, . . . , K}. (3.23)
Z 0 k=1
Constante de normalisation :
Z K
!
1000 X
Z= exp k xk dx. (3.24)
0 k=1
Pour un ensemble dobservations {oi } dont lesprance est dfinie par :
E(oi ) = ai , i {1, . . . , K}, (3.25)
les ai tant les niveaux de contraintes intervenant dans le calcul des moments dordre K.
Exemple
Prenons le cas dune variable X dans R. Nous voulons utiliser les trois premiers moments :
M = {(x, a1 ), (x2 , a2 ), (x3 , a3 )}, ai R. (3.26)
Il existe un tat de Gibbs de la forme suivante :

1
f (x) = exp(1 x + 2 x2 + 3 x3 ), i R, (3.27)
Z
cest la loi dentropie maximum pour les multiplicateurs i . Le systme dquations
non linaires suivant correspond aux quations du PME :
82
Z
1

a1 = xexp(1 x + 2 x2 + 3 x3 )dx

Z x

Z
1
a2 = x2 exp(1 x + 2 x2 + 3 x3 )dx (3.28)

Z x

Z

1

a3 = x3 exp(1 x + 2 x2 + 3 x3 )dx.
Z x
Z est la constante de normalisation dfinie comme suit :
Z K
!
X
Z= exp k x k
dx. (3.29)
x k=1
Nous calculons les moments successifs sur les donnes du modle de synthse. Nous utilisons
le logiciel SCILAB pour rsoudre les quations non linaires du PME. Les algorithmes de
calcul bass sur la mthode hybride de Powell [65] et [132]. Pour optimiser ce calcul, nous
valuons la matrice Jacobienne (voir C, p. 153). Lalgorithme sarrte lorsquil a atteint un
niveau de prcision prdfini.
Nous raliserons ensuite un test dadquation (Kolmogorov-Smirnov par exemple), afin
dvaluer les diffrences entre les frquences empiriques et les frquences estimes par ces
diffrents modles.
Rsultats attendus
Diffrents critres de pertinence nous ont dj fourni des rsultats en adquation avec
ceux de [179] : lalgorithme dapprentissage Baum-Welch / dcodage Variables Forward ainsi
que la distribution normale sur les observations. Avec cette mthode, nous esprons trouver
une nouvelle adquation entre les donnes issues du modle de synthse et les modles issus
du Principe du Maximum dEntropie.
Exemple de rsolution sous Scilab [149] en utilisant lalgorithme de Powell [132] :
def f (z = f 8(l), z = [(x8 )exp(1 x1 + 2 x2 + 3 x3 + 4 x4 + 5 x5 + 6 x6 + 7 x7 + 8 x8 )
a(1), . . .]
Mthode des moindres carrs par Newton

Cette mthode permet de comparer des donnes exprimentales un modle math-
matique. Pour notre cas, il nous servira comparer les squences dobservations du MMC
synthtique avec celles dautres modlisations mathmatiques.
Dans notre exemple, on suppose que deux variables physiques x et y sont lies entre elles
par une relation exponentielle, du type :
y = a.exp(b.x). (3.30)
83
Nous voulons dterminer a et b de manire minimiser :

p
X
E(a, b) = (yi a.exp(b.xi ))2 . (3.31)
i=1
Solutions trouves laide de Scilab (voir graphes 3.13(a), p. 85, 3.13(b), p. 85 et 3.13(c),
p. 85).
Modle de la distribution des symboles pour ltat S2 :
y = 0, 6027.exp(0, 4670.x). (3.32)
y = 0, 4853.exp(0, 3993.x). (3.33)
y = 0, 4304.exp(0, 3452.x). (3.34)
84
0.4
0.4

Densit empirique tat S2 Densit empirique tat S3
Modle moindres carrs Modle moindres carrs

0.3
0.3
densit
densit
0.2
0.2

0.1
0.1

0.0
0.0
AU RM OBS TEP SEC RAN NET VEP RAS SEC TEP RAN NET RM OBS VEP RAS AU
symboles symboles
(a) tat S2 (b) tat S3

0.4
Densit empirique tat S4

Modle moindres carres
0.3
densit
0.2

0.1

0.0
VEP NET RAS AU TEP OBS RM RAN SEC
symboles
(c) tat S4
Fig 3.13 Modlisation Newton de la densit des tats.
85
3.6 Conclusion
Notre approche permet de modliser des niveaux de dgradation dun processus quel-
conque. Nous bnficions ainsi de toutes les proprits relatives la thorie de Markov :
le processus de Markov qui impose un chantillonnage rgulier ;
les chanes de Markov pour des processus temps discrets ;
les MMC pour la modlisation dun processus sous la forme dautomates.
Nous avons ainsi tudi trois modles dautomates diffrents. Ils modlisent sur quatre ni-
veaux les tats de dgradation dun processus (S1, S2, S3 et S4). Leurs topologies diffrent
uniquement sur les transitions permises entre tats (forage de la topologie) ; le choix de ces
transitions tant dj tudi dans Vrignat [177].
Nous avons dcompos nos attentes thoriques selon trois axes principaux : tudier la
pertinence des observations ou symboles sans connaissance a priori sur les rsultats, faire
voluer la modlisation (i.e. dterminer les lments des modles qui vont nous permettre
doptimiser nos MMC) et enfin dterminer la pertinence des architectures des modles. Cette
dernire nous donnera des indicateurs sur la meilleure topologie, le meilleur algorithme dap-
prentissage et de dcodage et la meilleure distribution des observations synthtiques.
Nous avons introduit galement un modle de simulation que nous appelons modle de
synthse. Nous avons montr le comportement stochastique de ce modle de synthse. Celui-
ci nous a permis de gnrer des squences dobservations parfaitement dfinis entre niveau
de dgradation et symboles observs. Le choix de la topologie utilise pour la production des
symboles ainsi que la matrice de transition A ont t dmontrs dans Vrignat [177]. Nous
prsentons nos rsultats dans le chapitre suivant.
86
Chapitre 4
Exprimentations et rsultats
87
Chapitre 4 : Exprimentations et rsultats
88
4.1 Rsultats de simulation
Nous donnons dans ce chapitre, les rsultats issus de notre modle de simulation re-
prsentant le fonctionnement dune GMAO industrielle. Nous prsentons dans un premier
temps les caractristiques de ce modle, puis des rsultats sur les trois points suivants : la
pertinence des observations, la pertinence de larchitecture des diffrents modles utiliss et
lvolution de la modlisation afin den amliorer son architecture. Nous ralisons ensuite
deux tudes exprimentales, issues de cas concrets de processus industriel. Nous dbutons
par une prsentation de ces environnements exprimentaux. Nous prsentons ensuite nos r-
sultats sur les trois points prcdemment cits. Nous terminons en donnant des perspectives
damliorations possibles pour la modlisation.

4.1.1 Paramtres du modle de simulation
Le modle de simulation nous permet dobtenir des donnes se rapprochant le plus pos-
sible de la ralit (voir 3.5, p. 72).
Nous utilisons la topologie 2 (Figure 4.1, p. 89) comme modle de rfrence (voir discussion
3.5, p. 72).
MMC 2
1 : SEC
2 : DEP
3
4
5
:
:
:
NET
OBS
...
5
1 2 3
S1 1 S2 2 S3 3 S4
6
RUN
!
Fig 4.1 Modle de Markov cach 4 tats, topologie 2, rfrence du modle de synthse.
Nombre dtats
Nous avons choisi dutiliser un modle 4 tats nots S1, S2, S3 et S4 sur la Figure 4.1,
p. 89. Nous retrouvons ces 4 niveaux dalerte dans dautres champs disciplinaires comme le
plan canicule ou vigipirate.
Des tests ont t effectus dans [177] avec 5 tats et plus. Lalgorithme de calcul effectue
alors un talement des probabilits et le modle ne permet plus davoir des tats significatifs.
La dcision de lexpert savrerait alors plus dlicate trancher. A linverse, avec 3 tats,
ltat mdian serait trop rapidement atteint ne permettant pas ainsi lexpert de ragir
efficacement.
Le sens que nous pouvons attribuer chacun des tats est le suivant :
89
S4 : neuf ou quasi neuf ,

S3 : us ,
S2 : trs us ,
S1 : inutilisable .
Nombre de symboles
Les symboles correspondent aux observations lies au systme modliser i.e. ce que lon
veut ou que lon peut observer. Il faut que ces observations soient significatives a priori. Nous
avons choisi ici un alphabet de 10 symboles (les symboles mis reprsentent des interventions
de maintenance, voir la codification Tableau 3.1, p. 70). Ce nombre est dtermin en fonction
du processus que lon veut modliser et dpend de la politique de maintenance de lentreprise
(une autre tude de cas nous a amen considrer plus de 20 symboles).
Topologie de la chane de Markov

Nous utilisons les lois normale et uniforme pour lmission des symboles. Ces deux dis-
tributions sont dcrites dans le 3.5, p. 72. La relation symbole / tat est dtermine par la
matrice de passage B dfinie dans Vrignat [177].
Le passage dun tat un autre se ralise suivant une loi exponentielle (voir Annexe B.3,
p. 151). Cette loi est trs utilise en fiabilit dont le taux de dfaillance est constant. Elle
dcrit la vie des matriels qui subissent des dfaillances brutales.
La densit de probabilit dune loi exponentielle a pour expression :

et , t 0,
(t; ) = (4.1)
0 , t < 0.
La fonction fiabilit scrit :
R(t) = et . (4.2)
4.1.2 Pertinence des observations de simulation

Dans cette section, nous voulons dterminer les symboles ou les squences de symboles
les plus pertinents, partir de squences dobservations issues du modle de synthse. Nous
utilisons pour cela les diffrents principes de lentropie de Shannon (voir 2.4.3, p. 41).
Les entropies de chaque symbole (chane de Markov dordre 1) sont calcules par rapport
aux tats S1, S2, S3 et S4 pour les deux distributions du modle de synthse. Nous tablissons
ainsi les entropies pour chaque symbole, en fonction de tous les tats du modle.
Nous illustrons dans le Tableau 4.1, p. 91, lentropie du modle de synthse avec la
loi normale. Les rsultats du modle de synthse avec la loi uniforme sont donns dans le
Tableau 4.2, p. 91.
Le Tableau 4.1 montre que le symbole TEP obtient une entropie maximale de 1,129.
Ceci prouve que ce symbole est le mieux rparti parmi les tats du systme. Nous remarquons
aussi que lentropie du symbole DEP est nulle. Ce symbole est donc totalement discrimin
90
Symboles S1 S2 S3 S4 Total Entropie

AU 18 49 38 105 1,0277
DEP 19 19 0,000
NET 23 46 41 110 1,077
OBS 19 43 43 105 1,036
RAN 24 48 35 107 1,064
RAS 22 43 47 112 1,082
RM 11 37 53 101 0,952
SEC 19 47 37 103 1,025
TEP 22 56 46 124 1,129
VEP 18 45 51 114 1,068
Tableau 4.1 Mesure de lentropie, donnes issues du modle de synthse, loi normale.

AU 105 105 0,347
DEP 19 19 0,000
NET 1 109 110 0,686
OBS 1 104 105 0,677
RAN 1 106 107 0,681
RAS 112 112 0,359
RM 1 100 101 0,670
SEC 4 99 103 0,864
TEP 1 123 124 0,377
VEP 2 112 114 0,824
Tableau 4.2 Mesure de lentropie, donnes issues du modle de synthse, loi uniforme.
i.e. ltat S1 correspond toujours lmission de ce symbole ( DEP ) et uniquement ce

symbole.
Pour la distribution uniforme, le Tableau 4.2 montre que le symbole SEC obtient une
entropie maximale de 0,864. Nous trouvons galement une entropie nulle pour le symbole
DEP .
Nous utilisons par la suite la notion de filtre entropique vu au 2.4.3, p. 42 pour liminer
les symboles ayant une entropie nulle et ceux ayant une entropie maximale. Nous liminons
ainsi les deux symboles DEP et TEP pour la distribution normale puis DEP et
SEC pour la distribution uniforme.
Une fois les symboles prcdents limins du processus dvaluation, nous tablissons un
classement des symboles les plus pertinents par ordre dentropie dcroissante. Ainsi, si nous
classons les symboles du plus pertinent au moins pertinent, nous obtenons les squences
suivantes :
RAS, NET, VEP, RAN, OBS, AU, SEC, RM pour la distribution normale,
VEP, NET, RAN, OBS, RM, TEP, RAS, AU pour la distribution uniforme.
91
Ces squences sont obtenues en utilisant lalgorithme dlimination successive des sym-
boles (voir A.5, p. 146).
4.1.3 volution de la modlisation

Fentre glissante
Sans connaissance a priori, nous avons valu diffrentes signatures par mesure de lentro-
pie de Shannon. Cette signature est considre comme une chane de Markov cache du 1er
ordre. Lentropie de Shannon nous a permis dvaluer la pertinence des observations. Nous
avons trouv dans cette tude un maximum dentropie pour des donnes simules issues de
deux distributions diffrentes. La premire valeur maximale est de 88 symboles pour la dis-
tribution uniforme et 152 symboles pour la distribution normale. Les rsultats Figure 4.2,
p. 93 montrent aussi une valeur asymptotique de lentropie. Cela laisse supposer qu partir
dun certain nombre dchantillons observs, lapport dinformation par les symboles sui-
vant devient trs faible voire nulle. Le modle ainsi tabli avec un nombre fini de symboles,
pourrait tre remis jour en fonction des nouvelles activits de maintenance. Pour une
maintenance prdictive, nous pourrions ainsi tablir une fentre glissante contenant au
moins ce nombre de symboles trouv prcdemment. Nous constatons galement de manire
empirique que les deux courbes ont un cart constant au del de 200 symboles.
Le processus dvaluation de lentropie utilise les spcifications suivantes (voir Figure 4.3,
p. 94) :
1000 2-uplets (Symb_U, Etat_U ), pour la distribution uniforme (Figure 3.8(a)),
1000 2-uplets (Symb_N, Etat_N ), pour la distribution normale (Figure 3.8(b)).
Le modle de synthse gnre 1000 2-uplets (Symboles, Etats) en utilisant la distribution

uniforme ou normale ((Symb_U, Etat_U ) ou (Symb_N, Etat_N )). 12 squences de 1000
2-uplets sont ainsi gnres. Les 2-uplets sont utiliss dans le processus dvaluation afin
de dterminer le nombre minimal de donnes de modlisation, en utilisant lentropie de
Shannon. Chaque squence se termine par un arrt du processus (symbole DEP).
volution de lentropie pour le modle de synthse

Lvolution de lentropie de Shannon partir des donnes issues du modle de synthse
nous donne les rsultats prsents sur la Figure 4.2, p. 93. Nous observons un maximum
dentropie pour 152 symboles avec la distribution normale et 88 symboles avec la distribution
uniforme. Nous voyons galement que la courbe est asymptotique au-del de 200 symboles.
Algorithmes dapprentissage
La courbe en noire, Figure 4.4, p. 94, correspond lvolution de lentropie de Shannon
sur le modle de synthse en utilisant la topologie 2. Nous avons trouv les mmes genres de
courbes pour les topologies 1 et 3. Les courbes continues sont obtenues partir des donnes
issues de la loi normale et celles en pointills, partir de la loi uniforme.
92
0.8
max pour 152 symboles
max pour 88 symboles

0.6
Evolution de l'entropie
0.4
0.2
MMC, distribution gaussienne

MMC, distribution uniforme
0.0
0 100 200 300 400 500
Nombre de symboles
Fig 4.2 Nombre minimal de donnes par entropie de Shannon. Les donnes sont issues du
modle de synthse.
Les courbes rouges dcrivent lvolution de lentropie de Shannon du modle de synthse,

aprs implmentation dans lalgorithme dapprentissage Baum-Welch dcod par Variables
Forward.
Les courbes bleues dcrivent lvolution de lentropie de Shannon du modle de synthse par
lalgorithme dapprentissage Segmental K-means dcod par Viterbi.
Nous observons ainsi que lalgorithme dapprentissage Baum-Welch dcod par Variables
Forward est plus efficace que celui de Segmental K-means dcod par Viterbi car son entropie
est suprieure.
Analyse sur une fentre glissante
Le but de cette partie tait de trouver une quantit minimale de donnes pour estimer
correctement un modle. En dautres termes : existe-t-il une valeur limite (L) de lentropie
vers laquelle celle-ci converge ? Une telle convergence nous permettra de conclure quun
nombre fini de symboles permettra une modlisation optimale. Cette limite est dfinie par
la limite de la fonction dentropie H lorsque S tend vers + :
lim H(S) = L, (4.3)

S+
93
Modle de
synthse
Modle de
Markov Cach
(Rfrence)
Modle de synthse Modle de synthse

11 squences de 1000 11 squences de 1000
2-uplets avec la loi 2-uplets avec la loi
uniforme : gaussienne :
(Symb_U ,Etat_U ) (Symb_N ,Etat_N )
valuation valuation
de lentropie : de lentropie :
(Symb_U ,Etat_U ) (Symb_N ,Etat_N )
valuation du nombre
minimal de donnes
Fig 4.3 valuation du nombre minimal de donnes.

1.0
MMC2_Normale MMC2_Uniforme
BW2_Normale BW2_Uniforme
SK2_Normale SK2_Uniforme
0.8
Evolution de lentropie
0.6
0.4
0.2
0.0
0 200 400 600 800 1000
Nombre de symboles
Fig 4.4 Nombre minimal de donnes par entropie de Shannon en utilisant les 2 algorithmes
dapprentissage.
94
S est le nombre de symboles de la squence tudie.

Le processus dvaluation du nombre minimal de donnes est donn Figure 4.5, p. 95.
Modle de
Synthse
Modle de
Markov Cach
(Rfrence)
Modle de Synthse Modle de Synthse

12 squences de 1000 12 squences de 1000
2-uplets avec la dis- 2-uplets avec la dis-
tribution Uniforme : tribution Normale :
(Symb_U ,Etat_U ). (Symb_N ,Etat_N ).
2 algorithmes dapprentis- 2 algorithmes dapprentis-

sage et de dcodage appli- sage et de dcodage appli-
qus aux 3 topologies qus aux 3 topologies
(Symb_U ,Etat_U 1BW ), (Symb_N ,Etat_N 1BW ),
(Symb_U ,Etat_U 1SK), (Symb_N ,Etat_N 1SK),
(Symb_U ,Etat_U 2SK), (Symb_N ,Etat_N 2SK),
(Symb_U ,Etat_U 3SK). (Symb_N ,Etat_N 3SK).
valuation de lEntropie : valuation de lEntropie :

(Symb_U ,Etat_U iBW ) (Symb_N ,Etat_N iBW )
et et
(Symb_U ,Etat_U iSK) (Symb_N ,Etat_N iSK)
valuation du nombre minimal de donnes.
Fig 4.5 valuation du nombre minimal de donnes pour une utilisation optimale des algo-
rithmes dapprentissage.
Ce nombre optimal de symboles ou dobservations permettra lexpert en maintenance

de rajuster priodiquement ses modles, voir Figure 4.6, p. 96. Par exemple : avec un
chantillonnage la journe, nous pouvons supposer que la mise jour du modle existant,
partir des nouveaux vnements, pourrait se faire mensuellement ou bi-mensuellement (30
60 nouveaux vnements). Ce dlai pourrait tre rajust lors dun changement de recette
de fabrication sollicitant de manire diffrente le processus.
Essais avec une fentre glissante norme

Pour tenter de valider la fentre norme prcdemment trouve, nous avons inject des
squences de 200 symboles dans notre modle. Nous avons ensuite rvalu ces symboles en
utilisant lalgorithme Baum-Welch avec un dcodage variable Forward. Nous tudions
ainsi de nouveau lentropie, en utilisant cette quantit minimale de symboles pour les donnes
issues du modle de synthse :
95
Anciens symboles Horizon fini Futurs symboles

(estimation)
Fentre glissante
SP DEP RAS AU OBS RM SEC TEP VEP SP RM RAS RAS ? ? SP
Prod. avec degradations
4 4 0 4
3 3 3 3
0 2 2 2 2 0
Stop
1 1
Futurs tats
Estimation de dgradation du systme (tats cachs) (estims)
temps
maintenant
Fig 4.6 La fentre glissante en rouge contient un nombre minimal de symboles. Lentropie
est maximale pour ce nombre de symboles.
les rsultats sont donns Figure 4.7, p. 97. Une fois la phase de transition termine,
lentropie (en noire) reste infrieure celle du modle de synthse (en rouge). Nous
observons galement quune fois lapprentissage de la premire squence termine, len-
tropie rentre dans une phase asymptotique , identique la progression de lentropie
du modle de synthse.
96
Apprentissage BaumWelch dcod par variable Forward, squences de 200 symboles

Modle de synthse (distribution gaussienne)
0.6
0.4
0.2
Squence 1
0.0
Squence n
0 200 400 600 800 1000
Nombre de symboles
Fig 4.7 volution de lentropie value avec une fentre glissante norme (200 symboles).
Les donnes dapprentissage sont issues du modle de synthse en utilisant la distribution
normale.
97
Discussion
La fentre glissante (voir Figure 4.6) contient le nombre minimal de symboles trouvs
partir de la Figure 4.2, p. 93, o lentropie est maximale. Tous les symboles lintrieur
de cette fentre permettraient de raliser rgulirement une estimation des modles. Ainsi,
dans une phase dexploitation des indicateurs de niveaux de dgradation, les actions enga-
ges vont modifier le comportement du systme (notre but est de repousser la panne).
Les vnements qui ont permis dapprendre les modles ne seront donc plus limage du
nouveau comportement. Nous cherchons alors quel moment sera-t-il pertinent de rajuster
les modles.
4.1.4 Pertinence de larchitecture des modles de simulation

Dans cette section, nous allons valuer la pertinence de la modlisation. Le terme archi-
tecture dsigne lensemble des lments qui composent le modle i.e. la topologie, lalgorithme
dapprentissage et la loi statistique.
Entropie de Shannon
Sans connaissance a priori, nous calculons les entropies des diffrentes architectures tu-
dies. Lentropie de la Topologie 2, MMC 2 (voir Figure 4.17(b), p. 109) est significati-
vement plus leve que celles des autres topologies avec la distribution normale et avec
lalgorithme dapprentissage Baum-Welch dcodage variable Forward (voir Figure 4.8,
p. 99). Les rsultats quantitatifs sont donns dans le Tableau 4.3, p 98.
Topologie Estimations - loi Uniforme Entropie Avec filtre Entropique

1 Baum-Welch / Variables Forward 0.484 0.510
1 Segmental K-means / Viterbi 0.480 0.486
Estimations - loi Normale
Tableau 4.3 Entropie moyenne pour les algorithmes dapprentissage et dcodage.
Maximum de vraisemblance
Les rsultats du Tableau 4.4, p. 99 montrent un minimum pour la topologie 2 avec la
distribution normale.
98
Symboles gnrs par le MMC rfrence Symboles gnrs par le MMC rfrence
1.4
1.4
meilleure entropie
meilleure entropie
Entropie moyenne tats / symboles

1.2
1.2

1.0
1.0

0.8
0.8
BaumWelch, avec filtre entropique BaumWelch, avec filtre entropique
Segmental Kmeans, avec filtre entropique Segmental Kmeans, avec filtre entropique
0.6
0.6
BaumWelch, sans filtre entropique BaumWelch, sans filtre entropique
Segmental Kmeans, sans filtre entropique

Topologie1 Topologie2 Topologie3 Topologie1 Topologie2 Topologie3
(a) Distribution uniforme (b) Distribution normale
Fig 4.8 Mesure de lentropie de Shannon des donnes issues du modle de synthse. Fi-
gure 4.8(a) pour la distribution uniforme et Figure 4.8(b) pour la distribution normale.
Le graphe de la Figure 4.9, p 100 montre que la topologie 2 est la plus pertinente en terme
de vraisemblance, pour les 2 algorithmes dapprentissage et pour les 2 distributions tudies.
Malheureusement, concernant la distribution normale, les valeurs de la log-vraisemblance
sont trop proches pour dterminer le meilleur algorithme dapprentissage.
Tableau 4.4 Log-Vraisemblance.
Topologie Estimations - loi Uniforme Log-Vraisemblance

1 Baum-Welch / Variables Forward -1054.73
1 Segmental K-means / Viterbi -1249.57
99
Symboles gnrs par le MMC rfrence
800
Apprentissage BaumWelch, loi gaussienne
Apprentissage Segmental Kmeans, loi gaussienne
Apprentissage BaumWelch, loi uniforme
1000
Apprentissage Segmental Kmeans, loi uniforme
1200
Logvraisemblance
1400
1600
1800

2000
Topologie1 Topologie2 Topologie3
Fig 4.9 Critre de log-vraisemblance.
Critres dAIC (Akaike Information Criterion) et de BIC (Bayesian Information

Citerion)
Les rsultats du critre dAIC sont prsents Figure 4.10(a), p 100.

BaumWelch, loi gaussienne

1.0
Segmental Kmeans, loi gaussienne

4000
BaumWelch, loi uniforme

Kmeans, loi uniforme
0.8
3500
0.6
Critre AIC
Critre BIC
3000
0.4
0.2
2500
0.0

BaumWelch, loi gaussienne
2000
Segmental Kmeans learning, loi gausienne

BaumWelch, loi uniforme
0.2
Segmental Kmeans learning, loi uniforme

Topologie1 Topologie2 Topologie3 Topologie1 Topologie2 Topologie3
(a) AIC (b) BIC
Fig 4.10 Ces graphes nous montrent que la topologie 2 est la plus pertinente au vu du
critre dAIC et de BIC, pour les 2 algorithmes dapprentissage et pour les 2 distributions
tudies.
Nous arrivons la mme conclusion que celle du critre de log-vraisemblance, nonobstant
que pour le critre de log-vraisemblance et dAIC, il sagit dun minimum et que pour le
100
critre de BIC, il sagit dun maximum (voir Figure 4.10(b), p. 100). En effet, les plus fortes
valeurs du critre de BIC (malgr le terme de pnalit plus important) sont obtenues pour
la topologie 2 (voir Tableau 4.5, p. 101).
Tableau 4.5 Critre de BIC.
Topologie Estimations - loi Uniforme BIC

1 Baum-Welch / Variables Forward 2219.98
1 Segmental K-means / Viterbi 2609.65
101
Tests statistiques
Nous avons ensuite appliqu diffrents tests statistiques sur les 3 topologies tudies (pr-
sentes Figure 3.5, p. 71). Les tests de Kolmogorov-Smirnov et Aspin-Welch sont utiliss pour
valuer si deux distributions sont quivalentes. Notre but est ici de dterminer les meilleurs
lments de larchitecture de nos modles. La Figure 4.11(b), p. 102 nous montre les rsultats
du test Kolmogorov-Smirnov. Ce test dadquation obtient la plus petite p-value pour les
simulations suivantes :
topologie 2 ;
distribution normale ;
apprentissage Baum-Welch, dcod par variable Forward.
Nous prsentons Figure 4.11(a), p. 102 les rsultats du test dAspin-Welch. Nous obte-
nons les mmes conclusions que pour le test de Kolmogorov-Smirnov (Figure 4.11(b)). Les
deux tests nous donnent ainsi les architectures les plus pertinentes de nos modles.Les tests
de Kolmogorov-Smirnov ainsi que celui dAspin-Welch dterminent si deux ensembles de
donnes sont trs diffrents. Un autre avantage de ce test est de ne pas faire dhypothses
sur la distribution des donnes. Il est moins sensible que le test dAspin-Welch et il est conu
pour tre utilis sur des chantillons avec variances diffrentes, ce qui est le cas ici.
0.6
30
Distribution uniforme Distribution uniforme

Distribution gaussienne Distribution gaussienne
0.5
25
0.4
20
0.3
15
0.2
10
0.1
5
pvalue > seul rsulat valable pvalue

> seul rsultat valable
0.0
0
B.W. MMC1 S.K. MMC1 B.W. MMC2 S.K. MMC2 B.W. MMC3 S.K. MMC3 B.W. MMC1 S.K. MMC1 B.W. MMC2 S.K. MMC2 B.W. MMC3 S.K. MMC3
(a) Test statistique Aspin-Welch (b) Test statistique Kolmogorov-Smirnov
Fig 4.11 Nous testons les diffrentes architectures du modle de synthse laide de tests
statistiques dadquation : le test dAspin-Welch Figure 4.11(a) et celui de Kolmogorov-
Smirnov Figure 4.11(b).
102
Incertitudes pistmiques
La plus petite incertitude pistmique est obtenue pour la topologie 2 avec lalgorithme
dapprentissage Baum-Welch dcod par variable Forward, en utilisant la distribution
normale, voir Figure 4.12, p. 103.
0.020

0.015
Incertitudes sur la moyenne

0.010

0.005
Apprentissage BaumWelch loi uniforme

Apprentissage Segmental Kmeans, loi uniforme
Apprentissage BaumWelch loi gaussienne
Apprentissage Segmental Kmeans, loi gaussienne
0.000
Fig 4.12 Le calcul de lincertitude sur la moyenne est reprsentatif de lerreur pistmique
dans la phase de modlisation.
Nous calculons les incertitudes moyennes (voir 2.3.4, p. 35) sur les diffrentes topolo-
gies, diffrents algorithmes dapprentissage et diffrentes distributions. Nous observons Fi-
gure 4.12, p. 103 que la plus faible incertitude est de 0.6%. Elle est obtenue sur la topologie
2. Nous pouvons conclure que cette topologie nous donne des rsultats plus prcis que pour
les autres topologies 1 et 3 (Figures 3.5(a), p. 71 et 3.5(c), p. 71), en terme de conception
de modle. Concernant les algorithmes dapprentissage des modles, Baum-Welch / d-
codage Variables Forward nous donne les rsultats ayant le plus faible taux derreur.
Les rsultats nous montrent aussi que la distribution Normale nous donne la plus faible
incertitude. Le lecteur trouvera les rsultats quantitatifs dans le Tableau 4.6, p. 104.
Discussion
Nous avons mesur la pertinence des architectures des modles tudis, sans connais-
sance a priori. Nous avons utilis une batterie de tests pour tenter dvaluer les topologies,
les algorithmes dapprentissage et de dcodage, ainsi que les distributions utilises pour la
modlisation. Lentropie de Shannon, le maximum de vraisemblance, AIC, BIC, les tests
statistiques ainsi que lincertitude pistmique nous indiquent que la topologie 2 est la plus
pertinente. Nous retrouvons bien la topologie ayant servi simuler les donnes (modle de
rfrence bas sur la topologie 2).
En ce qui concerne les algorithmes dapprentissage et de dcodage, les rsultats nous
donnent Baum-Welch dcod par Variables Forward comme le plus pertinent. Seuls
103
Topologie Estimations - loi uniforme Incertitude (%)

1 Baum-Welch / Variables Forward 1,80%
1 Segmental K-means / Viterbi 1,70%
Estimations - loi normale
Tableau 4.6 Rsultats des incertitudes pistmiques.
les mesures de maximum de vraisemblance, BIC et AIC ne permettent pas de trancher.
La distribution normale apparait comme la plus pertinente avec toutes les mthodes
utilises. En accord avec le second principe (voir 2.4.3, p. 42), nous nous attendions
trouver une meilleure entropie pour la distribution uniforme. Ce rsultat est probablement
d aux valeurs extrmes de la distribution normale comme le montre Payaro dans [127].
4.1.5 Rsultats avec les autres topologies

Dans ce paragraphe, nous vrifions la concordance entre la topologie de rfrence utilise
pour le processus de synthse et la topologie la plus pertinente. Nous suivons le mme
cheminement que pour la topologie 2 i.e. implmentation dans les trois MMC tudis puis
dans les deux algorithmes dapprentissage.
Topologie 1
MMC 1
1 : SEC
2 : DEP 4 5
3
4
5
:
:
:
NET
OBS
... 4 5
1 2 3
S1 1 S2 2 S3 3 S4
6
6 RUN
!
Fig 4.13 Modle de Markov Cach, topologie 1.
104
Nous utilisons dans un premier temps la topologie 1 (Figure 4.13, p. 104) pour la produc-
tion des couples (Symboles, Etats) en utilisant la loi normale. Nous prsentons Figure 4.14,
p. 105, les rsultats de lentropie de Shannon. Ces rsultats corroborent le fait que la topologie
utilise pour la modlisation se retrouve bien comme tant la plus pertinente.
1.4
meilleure entropie
1.2

1.0

0.8
BaumWelch, avec filtre entropique

Segmental Kmeans, avec filtre entropique
0.6
BaumWelch, sans filtre entropique


Fig 4.14 Mesure de lentropie de Shannon avec la topologie 1 comme rfrence.
Topologie 3
MMC 3
1 : SEC
2 : DEP
3
4
5
:
:
:
NET
OBS
...
5
1 2 3
S1 S2 2 S3 3 S4
6
RUN
!
Fig 4.15 Modle de Markov Cach, topologie 3.
Dans un deuxime temps, nous utilisons la topologie 3 (Figure 4.15, p. 105) pour la
production des couples (Symboles, Etats). Nous obtenons les mmes conclusions que prc-
demment : la topologie 3 est la plus pertinente (voir Figure 4.16, p. 106).
105
Conclusion
Pour toutes les topologies tudies, nous retrouvons bien la topologie de rfrence comme
la plus pertinente lorsquelle est utilise dans le modle de synthse. Nous pouvons donc en
conclure que nos mthodes de mesures de pertinence redonnent bien la topologie ayant servi
construire le modle.
1.4
meilleure entropie

1.2
1.0

0.8
BaumWelch, avec filtre entropique

Segmental Kmeans, avec filtre entropique
0.6
BaumWelch, sans filtre entropique


Fig 4.16 Mesure de lentropie de Shannon avec la topologie 3 comme rfrence.
106
4.2 Rsultats des tudes relles

4.2.1 Prsentation des environnements dtude
Les donnes rcoltes pour cette tude sont issues dune peseuse volumtrique sur une
ligne de production dans lagroalimentaire. Les autres donnes industrielles sont issues dune
presse basse pression dun process industriel pour lautomobile. Tous les processus des usines
respectivement tudies, sont lis entre eux de manire squentielle. Larrt dun processus
engendre donc larrt des lments situs en aval. Ce processus de production est maintenu
par la mise en place dune politique de maintenance prventive. Pour ce faire, les agents
de maintenance doivent consigner leurs actions ou observations dans une base de donnes
centralise (voir un exemple dans le Tableau 4.8). Un chantillonnage toutes les 6 heures a
t choisi conformment la politique de maintenance interne. Si aucune donne nest saisie,
nous insrons dans cette base de donnes le symbole RAS (= tout va bien). Cet chantillon-
nage temporel rgulier permet de positionner notre tude dans le champ dapplication des
processus markoviens. Nous utilisons ensuite ces squences de symboles (voir Tableau 4.7)
pour modliser le niveau de dgradation du processus. Nous modlisons cette signature
laide de MMC. Les donnes rcoltes sur 2 ans comprennent environ 2000 vnements (voir
Tableau 4.8).
VEP VEP TEP TEP SEC TEP TEP DEP AU jour/heure/. . .
Tableau 4.7 Squence dun message issue des donnes de maintenance.
Noms Equipe Date Machine Opration Cd Ti N Code

Dupond AM 11/01/2007 Peseuse Huilage VEP 20 1 9
Dupond AM 11/01/2007 Peseuse Huilage VEP 20 2 9
Dupond N 12/01/2007 Peseuse Huilage TEP 30 3 5
Dupond N 12/01/2007 Peseuse Huilage TEP 30 4 5
Dupond M 13/01/2007 Peseuse Cadenas SEC 10 5 6
Dupond VSD 13/01/2007 Peseuse Cadenas TEP 30 6 5
Dupond VSD 13/01/2007 Peseuse Cadenas TEP 30 7 5
Dupond M 16/01/2007 Peseuse Huilage DEP 90 8 1
Dupond AM 19/01/2007 Peseuse Cadenas AU 10 9 3
.. .. .. .. .. .. .. .. ..
. . . . . . . . .
Tableau 4.8 Exemple de consignation des vnements.
4.2.2 Modlisation des processus industriels

Dans le cadre dactivits de maintenance, Vrignat et al. [178] modlisent ces dysfonction-
nements laide de MMC. Nous rappelons dans le Tableau 4.9, p. 108, la signification des
symboles choisis compte tenu des observations.
Ces symboles dfinissent les actions de maintenance menes sur le processus. Par exemple,
le symbole DEP correspond un arrt de la production. Cest un tat critique quil faut
107
minimiser. Ltude de Vrignat [178] considre deux modles diffrents avec deux corpus
dapprentissage, lun sur lanne 2005 et lautre sur les deux annes 20052006. Les symboles
RAS sont insrs pour avoir un chantillonnage la journe ou toutes les 6 heures. Pour la
suite nous adopterons les dnominations suivantes :
05M1 | 1j : Corpus dapprentissage 2005 modle 1 (topologie 1) / 1 donne par jour ;
0506M1 | 1j : Corpus 20052006 modle 1 (topologie 1) / 1 donne par jour ;
05M1 | 6h : Corpus 2005 modle 1 (topologie 1) / 1 donne toutes les 6 heures ;
0506M2 | 6h : Corpus 20052006 modle 2 (topologie 2) / 1 donne toutes les 6 heures.
Etat du processus
MARCHE
ARRET
NObs. Symboles Nature des interventions
1 DEP (Dpannage / arrt de la production)
2 RM (Rglage Machine)
3 AU (Autre)
4 OBS (Observation)
5 TEP (Travaux Entretien Prventif)
6 SEC (Scurit)
7 RAN (Remise A Niveau / planifi)
8 NET (Nettoyage Machine)
9 VEP (Visite Entretien Prventif)
10 RAS (pas dintervention)
Tableau 4.9 Codification symbolique des interventions de maintenance.
La topologie 3 na pas t teste car elle napportait rien par rapport la topologie
2. En effet, la seule diffrence avec la topologie 2 concerne la transition entre S1 et S2.
Ltat S1 devient alors un tat absorbant. Nous considrons empiriquement, que le modle
redmarre dans tous les cas en S4 et non en S2. Cette transition na de sens quen termes
dapprentissage.
4.2.3 Description des MMC utiliss

Les modles se prsentent sous la forme dun automate stochastique. Les tats repr-
sentent les niveaux de dgradation du processus. Les symboles de lautomate reprsentent
les observations du processus (nous redonnons pour mmoire, les diffrentes topologies tu-
dies Figure 4.17, p. 109).
Le modle donne la probabilit dtre dans un des quatre tats S1, S2, S3 ou S4, en
fonction des symboles (not Cd dans le Tableau 4.10, p. 109), selon les hypothses de
Markov pour les modles dordre 1 vues au paragraphe 3.4.2, p. 68. Les probabilits des
108
MMC 1 MMC 2
Production de symboles Production de symboles Production de symboles Production de symboles
1 : SEC 1 : SEC
2 : DEP 4 5 2 : DEP
3
4
5
:
:
:
NET
OBS
... 4 5 3
4
5
:
:
:
NET
OBS
...
5
1 2 3 1 2 3
S1 1 S2 2 S3 3 S4 S1 1 S2 2 S3 3 S4
6 6
6 RUN RUN
! !
(a) Topologie 1 (b) Topologie 2
MMC 3
1 : SEC
2 : DEP
3
4
5
:
:
:
NET
OBS
...
5
1 2 3
S1 S2 2 S3 3 S4
6
RUN
!
(c) Topologie 3
Fig 4.17 Modles de Markov Cachs, topologies 4 tats
quatre tats sont donnes par la variable Forward et les diffrents niveaux par lalgorithme
de Viterbi. Nous utilisons les donnes issues de ltude de Vrignat [178]. Nous obtenons ainsi
les niveaux de dgradation probables du processus tudi, sur une chelle de 1 4.
N DATE Cd Symb. S1 S2 S3 S4 Niveau

1 09/01/2007 RAS 10 0,0% 0,0% 0,0% 100,0% 4
2 10/01/2007 RAS 10 0,0% 0,0% 0,1% 99,9% 4
3 11/01/2007 VEP 9 0,0% 0,0% 99,9% 0,1% 3
4 11/01/2007 VEP 9 0,0% 66,3% 33,7% 0,0% 2
5 12/01/2007 TEP 5 0,0% 11,7% 86,8% 1,5% 3
6 12/01/2007 TEP 5 0,0% 8,3% 90,7% 1,0% 3
7 13/01/2007 SEC 6 0,0% 49,5% 48,8% 1,7% 3
8 13/01/2007 TEP 5 0,0% 14,9% 81,5% 3,6% 3
9 13/01/2007 TEP 5 0,0% 8,4% 89,7% 1,9% 3
10 14/01/2007 RAS 10 0,0% 99,5% 0,0% 0,5% 2
11 15/01/2007 RAS 10 0,0% 98,8% 0,0% 1,2% 2
12 16/01/2007 DEP 1 100,0% 0,0% 0,0% 0,0% 1
Tableau 4.10 Squence de symboles / niveaux de dgradation.
Les squences de symboles ainsi produites, nous donnent selon le modle, une estima-
tion du niveau de dgradation du processus (voir Figure 4.18, p. 110). Nous pouvons alors
quantifier ces informations au moyen de diffrents critres et ainsi tablir une valuation des
modles, selon ces critres.
109
Fig 4.18 Exemple de dgradation dun processus [178].
4.2.4 Pertinence des observations empiriques

Dans cette section, nous voulons dterminer les symboles ou les squences de symboles
les plus pertinents, partir de squences dobservations empiriques. Nous utilisons pour
cela les diffrents principes de lentropie de Shannon (voir 2.4.3, p. 41). Nous essayons
ensuite dtudier dventuels liens entre symboles. Nous utilisons l information mutuelle
vue au 2.4.3, p. 45. Une information mutuelle nulle prouverait leur indpendance.
Nous tentons galement de dterminer si une suite de symboles peut engendrer un tat
significativement discernable i.e. un phnomne particulier (par exemple, un arrt identifi
par le symbole DEP) est prcd dune srie identifiable de symboles. Nous effectuons pour
cela des calculs dentropie sur des chanes de Markov de diffrents ordres. Nous utilisons
aussi des techniques couramment utilises dans la littrature comme les arbres de dcision
ou les graphes de gnralisation / spcialisation.
Maximum dentropie
Les entropies de chaque symbole (chane de Markov dordre 1) sont calcules par rapport
aux tats S1, S2, S3 et S4 des modles de Markov prsents au 4.2.3, p. 108. Nous tablis-
sons ainsi les entropies pour chaque symbole, en fonctions de tous les tats du modle. Nous
prsentons dans le Tableau 4.11, p. 111, un exemple de rsultat pour 9 squences de dgra-
dations issues du modle de topologie 2 (MMC2 Figure 4.17(b), p. 109). Ce tableau nous
montre que le symbole RAS obtient une entropie maximale de 1,418. Ceci prouve que
ce symbole est le plus utilis dans tous les tats du systme. Nous remarquons aussi que le
symbole DEP a une entropie nulle. Ce symbole est donc totalement discrimin i.e. ltat
S1 correspond toujours lmission du symbole DEP et uniquement ce symbole. Comme
pour le modle de synthse, nous utilisons la notion de filtre entropique vu au 2.4.3, p. 42
pour liminer les symboles ayant une entropie nulle et ceux ayant une entropie maximale.
Nous liminons ainsi les deux symboles DEP et RAS pour les calculs avec ce filtre. Le
symbole RAS est utilis notamment pour combler les champs non renseigns de la base
de donnes. Il permet galement davoir un chantillonnage rgulier ncessaire la thorie
markovienne. Le symbole DEP est totalement discrimin, ces deux symboles napportent
aucune autre information sur la pertinence des observations.
Une fois les symboles prcdents limins du processus dvaluation, nous pouvons tablir
un classement des symboles les plus pertinents par ordre dentropie dcroissante. Ainsi, si lon
classe les symboles du plus pertinent au moins pertinent, nous obtenons la squence suivante :
110
AU, RAN, SEC, VEP, TEP, RM, OBS.
Cette squence est obtenue en utilisant lalgorithme dlimination successive des symboles
(voir A.5, p. 146).

AU 4 3 1 8 1,097
DEP 9 9 0,000
OBS 3 3 0,184
RAN 2 1 3 0,817
RAS 31 5 6 42 1,418
RM 4 4 0,224
SEC 6 1 7 0,641
TEP 12 12 0,420
VEP 16 16 0,473
Tableau 4.11 Mesure de lentropie, donnes empiriques, valuation modle MMC 2 dcodage
Viterbi.
tats
Codage symbolique S1 S2 S3 S4 Total Entropie
AU AU 2 2 0,174
AU DEP 2 2 0,482
OBS VEP 1 1 0,176
RAN RAN 2 2 0,174
RAN RAS 1 1 0,105
RAS AU 3 3 0,229
RAS DEP 5 5 0,471
RAS OBS 1 1 0,176
RAS RAS 2 3 21 26 1,309
RAS SEC 1 2 3 0,350
RAS TEP 1 1 0,105
.. .. ..
. . .
VEP VEP 8 1 9 0,819
Tableau 4.12 Entropie pour les chanes de Markov dordre 2, donnes empiriques, valuation
modle MMC 2 dcodage Viterbi.
111
tats
AU AU OBS 1 1 0,107
AU AU RAS 1 1 0,107
AU DEP RAS 2 2 0,176
RAS DEP SEC 1 1 0,107
RAS OBS VEP 1 1 0,176
RAS RAS AU 1 1 0,107
RAS RAS DEP 5 5 0,471
RAS RAS OBS 1 1 0,176
RAS RAS RAS 1 1 13 15 0,969
RAS RAS SEC 2 2 0,176
RAS RAS VEP 2 2 0,176
RAS SEC AU 1 1 0,107
.. .. .. ..
. . . .
VEP VEP DEP 1 1 0,352
VEP VEP RAS 1 1 2 0,475
VEP VEP RM 2 2 0,431
VEP VEP TEP 1 1 0,299
VEP VEP VEP 1 1 2 0,475
tats
AU AU OBS OBS 1 1 0,108
AU OBS OBS RAS 1 1 0,108
AU RAS RAS RAS 1 1 0,108
AU RAS VEP VEP 1 1 0,176
AU TEP TEP DEP 1 1 0,352
DEP AU AU OBS 1 1 0,108
DEP RAN RAN RAN 1 1 0,108
DEP RAS AU AU 1 1 0,108
DEP RAS AU RAS 1 1 0,108
DEP RAS RAS AU 1 1 0,108
DEP RAS RAS RAS 2 2 0,178
DEP SEC RAS RAS 1 1 0,108
OBS OBS RAS TEP 1 1 0,108
OBS RAS TEP TEP 1 1 0,176
OBS VEP VEP DEP 1 1 0,352
RAS RAS DEP RAS 2 2 0,178
RAS RAS DEP SEC 1 1 0,108
RAS RAS OBS VEP 1 1 0,176
RAS RAS RAS DEP 2 2 0,482
RAS RAS RAS OBS 1 1 0,176
RAS RAS RAS RAS 1 8 9 0,711
RAS RAS RAS SEC 2 2 0,178
RAS RAS RAS VEP 1 1 0,108
. . . . .
. . . . .
. . . . .
VEP VEP TEP TEP 1 1 0,176
VEP VEP VEP RAS 1 1 0,299
VEP VEP VEP VEP 1 1 0,176
112
Entropie dune chane de Markov dordre 2, 3 et 4
Nous tentons ensuite de calculer de nouveau les entropies de toutes les chanes de Markov
possibles dordre > 1. Nous utilisons les mmes donnes que pour le calcul prcdent pour
lordre 1. Les extraits des rsultats sont donns dans les Tableaux 4.12, p. 111 ; 4.13, p. 112
et 4.14, p. 112.
Les rsultats nous donnent les squences de symboles donnant le plus dinformation selon
le principe du maximum dentropie. Soit une entropie de 1,309 pour la squence RAS -
RAS dordre 2, 0,969 pour la squence RAS - RAS - RAS lordre 3 et 0,711
pour la squence RAS - RAS - RAS - RAS , dordre 4.
Nous avons ensuite recommenc les calculs dentropie en liminant les squences prc-
dentes pour chaque ordre (avec le filtre entropique). Le calcul est effectu indpendamment
du passage dun tat un autre. Malheureusement, ces diffrents ordres nont pas donn de
rsultats significatifs. Il y a trop de valeurs identiques pour en tirer des conclusions intres-
santes.
Nanmoins, si nous nous concentrons sur les observations prcdentes, une situation de
dpannage (i.e. des squences de 4 symboles se terminant par le symbole DEP), nous obte-
nons des rsultats trs intressants pour le cas dune chane de Markov dordre 4. En effet,
si nous calculons de nouveau lentropie aprs passage dans le filtre entropique, nous obte-
nons des entropies maximales pour les squences particulires de symboles. Ces squences
sont illustres dans le Tableau 4.15, p. 113. Nous observons des entropies maximales pour
certaines squences rcurrentes de 4 symboles se terminant par le symbole DEP. Un extrait
des rsultats du 4me ordre est donn dans le Tableau 4.14, p 112.
Squences de symboles Entropie

AU TEP TEP DEP 0,352
OBS VEP VEP DEP 0,352
VEP VEP AU DEP 0,352
Tous les autres 4-uplets 6 0,178
Tableau 4.15 Squences de symboles (ordre 4) ayant une entropie maximale, aprs passage
dans le filtre entropique.
Nous observons que le symbole DEP apparait uniquement dans toutes les squences
o lentropie est maximale. Nous pouvons en conclure que ces signatures particulires de 3
symboles, induisent un tat darrt de production (DEP = dpannage), soit un tat S1 de
lautomate considr. Certaines squences pourraient nous donner une indication de lordre
des oprations ne pas faire pour ne pas tre dans une situation critique. Une squence
AU - TEP - TEP , OBS - VEP - VEP ou VEP - VEP - AU , peut nous
amener cette situation critique. Daprs lhypothse de Markov prsente au paragraphe
3.4.2 p. 68, la connaissance des 3 tats prcdents peut en effet nous renseigner sur ltat
suivant. En effet, plusieurs actions prventives ( TEP, VEP ) indiquent que le service
maintenance avait pressentis la panne imminente.
113
Information mutuelle sur les donnes industrielles
Nous avons ralis des calculs dindpendance entre les diffrentes variables tudies (sym-
boles et tats). Nous utilisons linformation mutuelle vue au 2.4.3, p. 45. Le Tableau 4.16,
p. 114 prsente ce test dindpendance entre chaque symbole. Les symboles indpendants
ont une information mutuelle nulle. On trouve ainsi que les symboles RM, OBS, TEP et
VEP sont indpendants les uns aux autres. Pour les autres valeurs diffrentes de 0, nous
pouvons conclure dune certaine dpendance entre les symboles. Par exemple, le symbole
AU est en partie dpendant des symboles RAS, TEP et VEP, avec une valeur > 0, 5. Les
valeurs NC sont non calculables (division par zro).
Symboles AU DEP OBS RAN RAS RM SEC TEP VEP

AU NC 0,221 NC 0,646 0,277 0,425 0,542 0,614
DEP NC NC NC NC NC NC NC NC
OBS 0,221 NC NC 0,025 0,000 0,063 0,000 0,000
RAN NC NC NC NC NC NC NC NC
RAS 0,646 NC 0,025 NC 0,033 0,193 0,087 0,109
RM 0,277 NC 0,000 NC 0,033 0,077 0,000 0,000
SEC 0,425 NC 0,063 NC 0,193 0,077 0,137 0,151
TEP 0,542 NC 0,000 NC 0,087 0,000 0,137 0,000
VEP 0,614 NC 0,000 NC 0,109 0,000 0,151 0,000
Tableau 4.16 Information mutuelle pour les chanes de Markov dordre 1, donnes empi-
riques, valuation modle MMC 2 dcodage Viterbi.
Nous avons ensuite effectu des tests de dpendance entre tats et symboles. Des ex-
traits des rsultats sont prsents Tableau 4.17, p. 115. Ce tableau ne donne aucun rsultat
exploitable.
Pour terminer, nous avons tent de trouver dautres inter-dpendances entre des s-
quences de symboles. Nous avons ralis les mmes calculs que prcdemment en utilisant
les chanes de Markov dordre 2 4. Nous navons pas prsent ces rsultats car le nombre
de donnes des tableaux de contingence est assez consquent : 6400 pour lordre 2, 18000
pour lordre 3, 33200 pour lordre 4.
Malheureusement, nous navons trouv aucune conclusion pertinente pour ces informations
mutuelles calcules partir des chanes de Markov dordre > 1. Aucune dpendance ou
indpendance entre les 2-uplets, 3-uplets et 4-uplets nont pu tre mises en vidence.
Arbre de dcision et espace de versions
Dans ce paragraphe, nous mettons en uvre les deux approches dapprentissage vues au
2.4.4, p. 48 : larbre de dcision associ la mthode ID3 (voir lalgorithme en annexe
A.1, p. 141) et la gnralisation avec l espace de versions :
larbre de dcision sur des chanes de Markov de diffrents ordres est construit en utili-
sant les proprits de lentropie. Il permet didentifier le symbole ou la suite de symboles
comme tant dclencheur dun tat particulier du systme (o lentropie est minimale) ;
114
tats tats
05M1-1J S1 S2 S3 S4 05M1-6H S1 S2 S3 S4
AU 0,019 0,065 0,012 AU 0,144
DEP 0,424 DEP 0,233
OBS 0,018 OBS 0,001 0,010
RAN 0,083 0,036 RAS 0,339 0,747 0,018
RAS 0,174 0,038 0,062 RM 0,033 0,031
RM 0,024 SEC 0,006 0,014
SEC 0,035 0,009 TEP 0,001 0,117
TEP 0,072 VEP 0,014 0,037
VEP 0,097
0506M1-1J S1 S2 S3 S4 0506M1-6H S1 S2 S3 S4
AU 0,023 0,063 0,010 AU 0,011 0,004 0,002
DEP 0,424 DEP 0,233
OBS 0,004 0,022 0,022 OBS 0,002 0,010
RAN 0,032 0,076 RAS 0,344 0,040
RAS 0,203 0,035 0,048 RM 0,003 0,021
RM 0,011 0,017 0,016 SEC 0,004 0,027
SEC 0,041 0,007 TEP 0,001 0,117
TEP 0,085 VEP 0,006 0,111
VEP 0,113
05M2-1J S1 S2 S3 S4 05M2-6H S1 S2 S3 S4
AU 0,095 AU 0,005 0,006 0,006
DEP 0,424 DEP 0,233
OBS 0,010 0,020 OBS 0,002
RAN 0,036 RAS 0,159 0,009 0,009
RAS 0,011 0,023 0,347 RM 0,003
RM 0,018 0,108 SEC 0,005
SEC 0,020 0,011 0,038 TEP 0,009
TEP 0,109 0,058 0,013 VEP 0,012
VEP 0,223 0,005 0,014
0506M2-1J S1 S2 S3 S4 0506M2-6H S1 S2 S3 S4
AU 0,014 AU 0,004 0,006
DEP 0,424 DEP 0,233
OBS 0,005 OBS 0,001
RAN 0,005 RAS 0,109 0,007
RAS 0,073 RM 0,002
RM 0,007 SEC 0,003
SEC 0,012 TEP 0,006
TEP 0,021 VEP 0,008
VEP 0,028
Tableau 4.17 Information mutuelle pour les chanes de Markov dordre 1 - Modle MMC 2
lespace de versions ou graphe de gnralisation/spcialisation pour des chanes de

Markov, permet de classer, sous forme de tableau, les symboles selon un ordre de
pertinence. Le graphe est construit en liminant successivement les lments les plus
pertinents (o lentropie est minimale). Cela nous donne ainsi un aperu global des
symboles en fonction des tats ou des tats en fonction des symboles.
Arbre de dcision pour des chanes de Markov de diffrents ordres
La construction dun arbre de dcision permet de corriger le sur-apprentissage en effec-

tuant un lagage , a posteriori, des lments inutiles. Il faut construire larbre entier puis
supprimer les nuds inutiles. Cest aussi la mthode dapprentissage la plus utilise. Des
centaines dapplications couvrant des domaines comme le diagnostic ou encore le contrle de
processus utilisent les arbres de dcision. Quelques proprits de ce type dapprentissage :
les instances doivent tre reprsentes par des couples (attributs, valeurs) ;
les valeurs sont discrtes ;
115
les donnes pour lapprentissage (instances) peuvent contenir des erreurs.

En tout tat de cause, cette mthode dapprentissage est surtout utilise en classification.
Nous avons ralis des arbres de dcision partir des diffrents corpus dapprentissage.
Nous utilisons les 3 modles tudis, pour des chanes de Markov dordre 1 4. Au del
de lordre 4, les donnes sont dilues et les rsultats ne prsentent que peu dintrt. En
effet, la probabilit de retrouver plusieurs fois une mme srie de 5 symboles sur lensemble
des donnes est trs faible. Nous dtaillons les calculs jusqu lordre 3 (3-uplets) dans les
tableaux 4.18, p. 116, pour le corpus dapprentissage 20052006 / modle MMC 1 et dans
le Tableau 4.19, p. 117, pour le corpus dapprentissage 20052006 / modle MMC 2. Nous
voyons que plus lordre augmente, plus le nombre de n-uplets dont lentropie est minimale
augmente. De plus, sur le modle MMC 2, les entropies minimales montrent que ltat S2 est
le plus discriminant pour lensemble de ces n-uplets. Contrairement au modle 1, o ltat
S3 est le plus discriminant.
Corpus 2005-2006 Modle 1 Entropie min tats Entropie min Entropie max tats Entropie max
Symboles 1-uplet (ordre 1) DEP S1 VEP S2,S3
Symboles 2-uplet (ordre 2) OBS RAS S2 RAS RAS S2,S4
OBS VEP S2
RAS OBS S2
Symboles 3-uplet (ordre 3) AU AU RAS S2 RAS RAS RAS S2,S4
AU OBS RAS S2
OBS RAS RAS S2
RAS AU AU S2
RAS OBS VEP S2
RAS RAS OBS S2
RAS RM RAS S2
RAS SEC RAS S2
RM RM RAS S2
SEC RAS AU S2
SEC RAS RAS S2
SEC SEC RAS S2
Tableau 4.18 Exemple darbre de dcision pour une chane de Markov dordre 1, 2 et 3 /
Corpus 20052006 Modle MMC 1.
La construction de tels arbres avec le critre dentropie maximale, ne donne pas de r-

sultats pertinents (voir dernire colonne des Tableaux 4.18, p. 116 et 4.19, p. 117).
Espace de versions ou graphe de gnralisation/spcialisation pour des chanes

de Markov dordre 1
Le graphe est construit de manire incrmentale partir dun espace dhypothses i.e.
les niveaux de dgradations du processus et dun ensemble dinstances i.e. lensemble des
symboles. Nous donnons Tableau 4.20, p. 118, un exemple de construction dun graphe de
gnralisation/spcialisation. Malheureusement, nous ne pouvons en tirer aucune conclusion
pertinente sur une classification des symboles par ordre dimportance. Nous pouvons
juste conclure sur les symboles TEP et VEP. En effet, ils obtiennent une entropie la plus
leve pour les tats S2 et S3. Ils sont donc les symboles les plus reprsentatifs de ces tats.
Le Tableau 4.21, p. 118 dcrit la construction dun graphe de gnralisation/spcialisation
par rapport aux tats du systme. Il permet de dterminer les tats S1 S4 les plus pertinents.
Nous utilisons ici une chane de Markov dordre 1. Pour ltat S4, nous voyons que lentropie
116
Corpus 2005-2006 Modle 2 Entropie min tats Entropie min Entropie max tats Entropie max
Symboles 1-uplet (ordre 1) DEP S1 AU S3,S4
Symboles 2-uplet (ordre 2) AU OBS S3 DEP AU S4
OBS RAS S3
OBS VEP S3
RAS OBS S3
RM RM S3
RM SEC S3
SEC TEP S3
SEC VEP S3
TEP VEP S3
VEP RM S3
VEP TEP S3
Symboles 3-uplet (ordre 3) AU AU OBS S3 RAS RAS RAS S3
AU AU RAS S3
AU OBS RAS S3
DEP AU AU S3
OBS RAS RAS S3
OBS VEP VEP S3
RAS AU AU S3
RAS OBS VEP S3
RAS RAS OBS S3
RAS RM RAS S3
RAS RM SEC S3
RAS SEC RAS S3
RAS SEC SEC S3
RAS SEC TEP S3
RM RM RAS S3
RM SEC SEC S3
SEC RAS AU S3
SEC RAS RAS S3
SEC SEC RAS S3
SEC SEC VEP S3
SEC TEP TEP S3
SEC VEP VEP S3
TEP TEP VEP S3
TEP VEP VEP S3
VEP RM RM S3
VEP TEP TEP S3
VEP VEP RM S3
VEP VEP TEP S3
Tableau 4.19 Exemple darbre de dcision pour une chane de Markov dordre 1, 2 et 3 /
Corpus 20052006 Modle MMC 2 .
nest pas nulle (1,236) nous ne pouvons donc pas donner de conclusion sur cet tat. Par
ailleurs, nous avons des entropies leves sur les tats S2 et S3. Ces tats sont donc reprsents
par un maximum de symbole (voir dfinition de lentropie 2.4.3, p. 41).
117
tats
Codage symbolique S1 S2 S3 S4 Total Majoritaire Entropie
AU 6 1 1 8 6 0,532
OBS 1 1 2 1 0,247
RAS 182 24 206 182 0,320
RM 2 2 4 2 0,389
SEC 3 3 6 3 0,436
TEP 2 8 10 8 0,597
VEP 5 9 14 9 0,656
AU 6 1 1 8 6 0,540
RAS 182 24 206 182 0,314
RM 2 2 4 2 0,399
SEC 3 3 6 3 0,436
TEP 2 8 10 8 0,595
VEP 5 9 14 9 0,651
AU 6 1 1 8 6 1,244
RM 2 2 4 2 0,684
SEC 3 3 6 3 0,742
TEP 2 8 10 8 0,881
VEP 5 9 14 9 1,032
AU 6 1 1 8 6 1,262
SEC 3 3 6 3 0,764
TEP 2 8 10 8 0,895
VEP 5 9 14 9 1,024
AU 6 1 1 8 6 0,746
TEP 2 8 10 8 0,935
VEP 5 9 14 9 1,030
TEP 2 8 10 8 1,028
VEP 5 9 14 9 0,832
Tableau 4.20 Exemple de construction dun graphe de gnralisation/spcialisation pour

une chane de Markov dordre 1.
tats AU DEP OBS RAS RM SEC TEP VEP Total Entropie

S1 9 9 0,000
S2 6 1 182 2 3 2 5 201 2,964
S3 1 1 2 8 9 21 2,042
S4 1 24 3 28 1,236
tats AU OBS RAS RM SEC TEP VEP Total Entropie
S2 6 1 182 2 3 2 5 201 2,964
S3 1 1 2 8 9 21 2,042
S4 1 24 3 28 1,236
tats AU OBS RAS RM SEC TEP VEP Total Entropie
S2 6 1 182 2 3 2 5 201 2,186
S3 1 1 2 8 9 21 2,068
Tableau 4.21 Exemple de construction dun graphe de gnralisation/spcialisation sur les

tats (chane de Markov dordre 1).
118
Discussion
Nous avons appliqu lentropie de Shannon sur les symboles isols, sur les chanes de
Markov dordre 2, 3 et 4 (bigrammes, trigrammes, etc.). Nous avons trouv que le symbole
DEP, ayant une entropie nulle, tait totalement discrimin. Dans le mme ordre dide,
le symbole RAS est reprsentatif de tous les tats S2, S3 et S4 car il possde une entropie
maximale. Nous avons ainsi dcid dliminer ces deux symboles pour la mesure de pertinence
des autres symboles. Nous avons pu ainsi trouver une liste de symboles du plus pertinent
au moins pertinent. Nous avons mis en vidence des squences 3-uplet de symboles donnant
suite au symbole DEP. Ces squences sont donc surveiller car elles ont une probabilit plus
leve de produire une situation de panne.
Les calculs de linformation mutuelle entre les symboles nous ont donn des rsultats de
dpendance entre symboles. Le symbole AU est en partie dpendant des symboles TEP et
VEP. Les symboles RM, OBS, TEP et VEP sont indpendants entre eux.
Les calculs de graphes de gnralisation/spcialisation ou les arbres de dcision ne nous
ont pas permis dobtenir des conclusions exploitables sur la pertinence des observations.
4.2.5 volution de la modlisation

Dcoupage temporel
Nous tudions dans cette section, la pertinence de la priodicit des observations. Nous
rpondons la question : quel est lchantillonnage le plus pertinent pour les observations ?
Nous tudions ici les deux dcoupages temporels proposs dans Vrignat [177] : un chan-
tillonnage toutes les 6 heures ou un chantillonnage la journe.
Mesure de lentropie de Shannon

Sans connaissance a priori, nous calculons les entropies moyennes des symboles seuls (co-
lonne Ordre 1 du Tableau 4.22, p. 120), pour chaque mode dchantillonnage (1 jour et
6 heures). Nous mesurons ensuite lentropie des chanes de Markov dordre 2, 3 et 4. Rappe-
lons que pour une chane de Markov dordre k : ltat suivant dpend des k tats prcdents.
Nous voyons alors Tableau 4.22, p. 120, que les modles avec un chantillonnage de 1 jour
sont les plus pertinents (o lentropie est maximale). Ce tableau montre quil y a moins de
dispersion de linformation dans les modles avec un chantillonnage la journe, o len-
tropie moyenne est maximale.
Discussion : un chantillonnage 6 heures devrait donner plus dinformations au systme.
Lentropie devrait alors tre suprieure pour cette priode de scrutation des observations.
Lexplication se trouve dans le remplissage de la base de donnes. Pour fixer un chan-
tillonnage rgulier toutes les 6 heures, nous avons rempli les champs sans observation par
des champs RAS (Rien A Signaler). Ces informations napportent donc, selon Shannon,
aucune information au systme.
Dans un second temps, nous calculons lentropie moyenne de chaque modle. Selon le
me
2 principe de lentropie maximale nonc au 2.4.3, p. 42, nous choisirons alors le modle
dont lentropie moyenne est maximale. Nous calculons lentropie moyenne du modle afin
den valuer la pertinence des squences dobservations. Le meilleur chantillonnage sera
celui dont lentropie moyenne est maximale aprs filtrage entropique.
119
Entropie moyenne
chantillonnage Ordre 1 Ordre 2 Ordre 3 Ordre 4
1 jour 0,292 0,112 0,084 0,072
6 heures 0,158 0,074 0,060 0,051
Tableau 4.22 Entropie moyenne des modles de Markov sur les 2 types dchantillonnage.
Le Tableau 4.23, p. 120, prsente les rsultats des mesures dentropies moyennes des
modles avant et aprs le filtre entropique. Nous effectuons un filtrage de niveau 1 i.e. nous
liminons un seul symbole dont lentropie est maximale ainsi que toutes les entropies nulles
au travers de ID3 [135]. Le modle le plus pertinent apparat alors : 0506M1 | 1 jour o
lentropie moyenne est maximale.
chantillonnage Modles Entropie moy sans filtre Entropie moy avec filtre
1 jour 05M1 0,586 0,695
1 jour 0506M1 0,699 0,881
1 jour 05M2 0,698 0,857
1 jour 0506M2 0,268 0,365
6 heures 05M1 0,524 0,741
6 heures 0506M1 0,397 0,828
6 heures 05M2 0,264 0,393
6 heures 0506M2 0,200 0,394
Tableau 4.23 Rsultats de lentropie moyenne avec et sans filtre entropique.
Sur la Figure 4.19 (a), p. 121, nous voyons que le filtre entropique permet de mettre en
valeur un maximum pour le modle 0506M1 sur la base de temps de 1 jour. La Figure 4.19 (b),
p. 121, nous montre de manire beaucoup plus flagrante que le modle 0506M1 sur la base de
temps de 6 heures est le plus pertinent aprs application du filtre entropique. Daprs [178],
cest bien le modle 0506M1 qui fournit les meilleurs rsultats de prdiction de pannes.
Rsultats du maximum de vraisemblance

Nous utilisons ici une partie de la mthode de Bourguignon [26], qui permet de slec-
tionner des modles de Markov parcimonieux en utilisant le principe du maximum de
vraisemblance. Nous allons maximiser le logarithme de la fonction de vraisemblance i.e. pour
notre cas discret, nous calculons le maximum de vraisemblance sur les probabilits de tran-
sition de chaque modle : voir Tableau 4.24, p. 121. Nous observons un maximum pour le
modle 0506M1 | 6 heures (voir Figure 4.20, p. 122). Les rsultats pour les modles de base de
temps 1 jour ne nous donnent pas des rsultats exploitables. La variance trop faible indique
que la dispersion des rsultats nest pas satisfaisante pour tirer des conclusions pertinentes.
volution de lentropie pour les donnes empiriques

Les donnes industrielles, ont t collectes de 2005 2007. Les rsultats de lentropie de
Shannon sont donns Figure 4.21, p. 122. La valeur maximale est atteinte pour 180 symboles.
120
1.0
1.0

0.8
0.8

Mesure de l'Entropie
Mesure de l'Entropie
0.6
0.6
0.4
0.4

Avec filtre Entropique Avec filtre Entropique

Sans filtre Entropique Sans filtre Entropique
0.2
0.2
05M1 0506M1 05M2 0506M2 05M1 0506M1 05M2 0506M2
Modles Modles
(a) chantillonnage 1 jour (b) chantillonnage 6 heures
Fig 4.19 Entropies moyennes des modles
chantillonnage Modles Log-Vraisemblance

1 jour 05M1 930
1 jour 0506M1 820
1 jour 05M2 570
1 jour 0506M2 484
6 heures 05M1 2260
6 heures 0506M1 3626
6 heures 05M2 1446
6 heures 0506M2 1350
Tableau 4.24 Rsultats de vraisemblance.
Cette valeur maximale de lentropie correspond la valeur asymptotique pour un nombre

lev de symboles. Lcart entre les deux courbes est d une cardinalit diffrente des
alphabets de symboles, entre les deux processus tudis.
Essais avec une fentre glissante norme
Pour tenter de valider la fentre norme prcdemment trouve, nous avons utilis des
squences de 200 symboles dune GMAO industrielle. Nous avons ensuite rvalu ces sym-
boles en utilisant lalgorithme Baum-Welch avec un dcodage variable Forward. Nous
tudions ainsi de nouveau lentropie, en utilisant cette quantit minimale de symboles pour
des donnes empiriques :
les rsultats sont donns Figure 4.22, p. 123. La courbe en rouge reprsente lentropie
des donnes empiriques et celle en noire, lentropie issue de lapprentissage (prsente
121
Vraisemblance 1 jour
4000
Vraisemblance 6 heures
3000
Log Vraisemblance
2000
1000
05M1 0506M1 05M2 0506M2
Modles
Fig 4.20 Mesures de la vraisemblance.

0.25
160 observations
0.20
0.15
180 observations
0.10
0.05
Presse (2 ans)
Peseuse (2 ans)
0.00
0 500 1000 1500 2000
Nombre d'observations
Fig 4.21 Nombre minimal de donnes par entropie de Shannon, donnes issues dune GMAO
industrielle.
122
ci-dessus) en utilisant une fentre glissante norme de 200 symboles. Nous observons
une phase de transition qui correspond lapprentissage de la premire squence des
symboles. En effet, au fur et mesure que la base de donnes senrichit de nouveaux
symboles, lentropie de la squence augmente. Une fois cette phase termine, lentropie
reste suprieure lentropie issue des donnes empiriques. De plus, elle ne se stabilise
pas et oscille dans lintervalle [0, 12; 0, 27]. Nous remarquons galement une importante
diminution de lentropie entre 500 et 700 symboles. En effet, les squences [400; 600]
comportent beaucoup de symboles RAS (186 sur 200) ce qui engendre un appauvris-
sement en symboles, de la squence dapprentissage.
Apprentissage BaumWelch dcod par variable Forward, squences de 200 symboles

0.3
Donnes d'une GMAO industrielle

0.2
0.1
Squence 1
0.0
Squence n
0 200 400 600 800 1000 1200 1400 1600 1800 2000
Nombre de symboles
Fig 4.22 volution de lentropie value avec une fentre glissante norme (200 symboles).
Les donnes dapprentissage sont issues dune GMAO industrielle.
Conclusion
Le principe du maximum de vraisemblance nous donne comme modle le plus pertinent :
0506M1 | 6 heures. Les rsultats concernant 0506M1 | 1 jour ne sont pas loquents. Comme
pour lentropie, le principe du maximum de vraisemblance est intressant pour la slection
de modle dans la mesure o le nombre de donnes est suffisamment important.
Mesures des critres dAkaike, de Bayes et dHannan-Quinn

Nous avons vu au 2.4.3, p. 43, que chaque critre possde sa spcificit. Les critres
BIC et HQC pnalisent plus les modles ayant un grand nombre de donnes. Le modle
le plus pertinent tant celui qui obtient la valeur minimale. Nous obtenons les rsultats
du Tableau 4.25, p. 124, pour les modles tudis. Ce qui nous donne graphiquement la
Figure 4.23, p. 124.
123
chantillonnage Modles AIC BIC HQC

1 jour 05M1 12,33 46,71 6,29
1 jour 0506M1 12,58 46,96 6,54
1 jour 05M2 13,31 47,69 7,27
1 jour 0506M2 13,64 48,01 7,60
6 heures 05M1 10,55 56,79 6,85
6 heures 0506M1 9,61 55,85 5,90
6 heures 05M2 11,45 57,69 7,74
6 heures 0506M2 11,58 57,82 7,88
Tableau 4.25 Rsultats des diffrents critres.
8.0
14
60
7.5
13
55
7.0
12
HQC
AIC
BIC
50
6.5

11
6.0
10
AIC 1 jour HQC 1 jour

BIC 1 jour
45
AIC 6 heures HQC 6 heures

BIC 6 heures
5.5
9
05M1 0506M1 05M2 0506M2 05M1 0506M1 05M2 0506M2 05M1 0506M1 05M2 0506M2
Modles Modles Modles
(a) Mesure du critre AIC (b) Mesure du critre BIC (c) Mesure du critre HQC
Fig 4.23 Critres AIC, BIC et HQC.
Nous voyons que les 3 critres nous amnent aux mmes conclusions que prcdemment
pour le modle 0506M1 | 6 heures. Cest donc le plus pertinent au sens des critres AIC,
BIC et HQC. Les rsultats de [178] montrent que ce modle fonctionne. Par contre, il na
pas t retenu car il est trop sensible dans la dtection des pannes. En effet, le passage dun
niveau de dgradation un autre se fait avec plusieurs rebonds.
124
Algorithme de calcul de lentropie moyenne dun modle de Markov avec filtre

entropique
Description de lalgorithme (voir Annexe A.5, p. 146) : nous calculons les valeurs
dentropie de chaque symbole du modle de Markov en liminant les valeurs nulles chaque
itration. Le symbole ayant une entropie nulle est totalement discrimin par rapport ltat
qui lui correspond. Nous liminons ensuite les symboles dont lentropie est maximale. En effet,
ces symboles correspondent en gnral des donnes trop prsentes, comme par exemple dans
notre cas dtude, le symbole RAS . Trop nombreux, ces symboles peuvent empcher une
bonne estimation de la pertinence du modle. Une fois le modle pass au travers de ce filtre
entropique, nous calculons son entropie moyenne. La valeur maximale nous donne alors le
modle le plus pertinent.
4.2.6 Confrontation du modle de synthse avec lapplication relle

Nous comparons les donnes issues du modle synthtique avec celles provenant dune
GMAO industrielle. La codification symbolique choisie tant identique dans les deux cas
(MMC de synthse et MMC situation relle), nous avons une cohrence au niveau des ob-
servations du processus (voir Tableau 4.9, p. 108). Les donnes du modle de synthse sont
du type Symb_U pour la loi uniforme et Symb_N pour la loi normale.
Dans ltude du cas rel (voir contexte 4.2.1, p. 107), nous avons trouv une fentre de
180 symboles afin dobtenir un maximum dentropie. Comme nous pouvons le voir sur les
figures 4.2 et 4.21, la mesure de lentropie (informations issues du contexte rel) suit le mme
comportement que lentropie synthtique . Par ailleurs, toutes les valeurs du maximum
dentropie trouves prcdemment correspondent aux valeurs asymptotiques des volutions
des entropies respectives. Ainsi, ces valeurs dentropie maximales nous donnent une ide sur
le nombre minimal dobservations pour estimer au mieux, les modles. Ce nombre minimal
de symboles nous donne des lments pour choisir la taille minimale de la fentre glissante
permettant doptimiser la conceptualisation des modles de maintenance prventive.
4.2.7 Conclusion
Nous avons tudi la pertinence des diffrents dcoupages temporels. De la mme faon,
lentropie a t value selon les tats des modles afin de vrifier que le plus pertinent ob-
tient galement un bon score entropique . Nous illustrons ainsi que sans connaissance a
priori, le modle 0506M1 avec un dcoupage temporel de 6 heures est le plus pertinent. Les
autres mthodes dvaluation utilisant le principe de maximum de vraisemblance prsentes
ici, identifient aussi le modle 0506M1 comme le plus pertinent. Par contre, lchantillonnage
de 6 heures est prfr lchantillonnage la journe. Vrignat et al. [180] montrent que le
modle 0506M1 | 6 heures fonctionne mais il est trop ractif (par rapport aux contraintes
fixes dans [180]) et a donc une forte propension dans la prdiction de fausses pannes. Un
sous-chantillonnage apporte une certaine stabilit dans les changements dtats et diminue
donc le risque de converger trop vite dans un tat S1. Ceci engendre alors des rebonds
lors du passage dun tat un autre. La mthode par la mesure de lentropie ragit comme
un filtre anti-rebond et donne comme le plus pertinent le modle prconis par [180]. Par
contre, les mthodes utilisant le principe de maximum de vraisemblance nous dsignent le
125
modle le plus ractif.
Dans un deuxime temps, nous avons montr que lon peut trouver une quantit mini-
male de donnes pour estimer correctement un modle. Il faudra valider ce nombre minimal
dobservations avec de nouveaux tests sur le modle de synthse. Ainsi, dans une future phase
dexploitation, nous pourrons donc rvaluer le modle rgulirement. Dans ces conditions,
lexpert pourra bnficier dinformations lui permettant deffectuer une programmation dy-
namique des interventions de maintenance puisque les actions programmes par la mthode
vont modifier le comportement du systme.
4.3 Comparaison du modle de synthse avec le cas in-

dustriel
Nous avons compar le modle de synthse avec les donnes de maintenance fournies par
une entreprise dagro-alimentaire. Les deux distributions sont testes : distribution normale
et uniforme. Nous avons au pralable utilis lalgorithme du filtre entropique vu au 2.4.3, p.
42 afin dutiliser uniquement les symboles les plus pertinents. Nous donnons Tableau 4.26, p.
126 les densits respectives du modle de synthse (distributions Gaussienne et Uniforme),
simulant des donnes de maintenance, et celles dun cas industriel. Les donnes sont issues
de la GMAO dun sous-systme pour lagro-alimentaire (de 2005 2006).
Densits des symboles

Symboles Peseuse Modle Gauss Modle Ajust Modle Uniforme
AU 0,0769 0,0590 0,0590 0,0883
OBS 0,0288 0,0150 0,0150 0,0883
RAN 0,0288 0,0210 0,0210 0,0910
RM 0,0385 0,0530 0,0530 0,0831
SEC 0,0673 0,0760 0,1110 0,0857
TEP 0,0922 0,0990 0,0760 0,0934
VEP 0,1395 0,1110 0,0990 0,0902
Coef. Corrlation : Peseuse VS modles 0,7554 0,9611 0,3750
Kolmogorov-S : Peseuse VS modles 93.75% 93.75% 5.62%
Tableau 4.26 Comparaison du modle de synthse, avec les donnes de maintenance pro-
venant dune GMAO dun sous-systme pour lagro-alimentaire (anne 2005-2006).
Les rsultats dadquation avec un test de Kolmogorov-Smirnov (voir 2.4.5, p. 50)

donnent 93,75% pour le modle de synthse utilisant une distribution Gaussienne des sym-
boles. Nous trouvons 5,62% dadquation pour une distribution Uniforme des symboles. Nous
observons Figure 4.24, p. 127 que le modle de synthse avec une distribution Gaussienne
des symboles se rapproche le plus des donnes rcoltes en milieu industriel.
4.3.1 Ajustement du modle de synthse

Nous avons ajust le modle de synthse en proposant la modification suivante :
126
4.3 Comparaison du modle de synthse avec le cas industriel
lors de lmission du symbole TEP, il faut rmettre le symbole SEC ;

lors de lmission du symbole SEC, il faut rmettre le symbole VEP ;
lors de lmission du symbole VEP, il faut rmettre le symbole TEP.
En effet, les noms des symboles sont affects alatoirement au dpart. Il sagit alors de
raffecter les noms pour amliorer les correspondances avec les donnes empiriques.
Nous donnons Figure 4.25, p. 128 (courbe en pointills rouges), le nouveau modle de
synthse aprs lajustement propos prcdemment. Le coefficient de corrlation savre tre
meilleur aprs ajustement (0,9611). Le modle est donc plus proche des donnes empiriques.
0.15
Donnes Peseuse
Modle de synthse, loi gaussienne
Modle de synthse, loi uniforme
0.10
Densits
0.05
0.00
AU OBS RAN RM SEC TEP VEP
Symboles
Fig 4.24 Modles de synthse non ajusts.
Nous raffectons ainsi chaque action chacun des symboles afin que le modle de synthse
ressemble la situation industrielle. Ce rajustement nous permettra davoir un modle de
synthse plus proche de la ralit de terrain. Si le modle de synthse ressemble la situation
industrielle alors on peut supposer que le systme rel se dgrade comme nous lavons dfini
dans le modle de synthse.
127
0.15
Donnes Peseuse
Modle de synthse, loi gaussienne
Modle de synthse, loi uniforme
Ajustement du Modle de synthse
0.10
Densits
0.05
0.00
Symboles
Fig 4.25 Comparaison du modle de synthse ajust, avec les donnes de maintenance
provenant dune entreprise du secteur de lagro-alimentaire.
128
4.3 Comparaison du modle de synthse avec le cas industriel
4.3.2 Rsultats aprs ajustement du modle de synthse

Nous ajustons le modle de simulation avec la permutation des symboles propose ci-
dessus. Nous comparons alors de nouveau les donnes empiriques avec celles issues des trois
topologies du nouveau modle de simulation. Nous donnons les rsultats dans le Tableau 4.27,
p. 129, et sur la Figure 4.26, p. 129. En comparant les densits des 3 topologies avec celle
du cas industriel, nous trouvons la topologie 2 comme tant la plus proche du modle de
synthse (coefficient de corrlation le plus lev). Notre rajustement des symboles savre
donc tre plus efficace pour le modle de synthse utilisant la topologie 2.
Densits des symboles

Symboles Peseuse Topologie 1 Topologie 2 Topologie 3
AU 0,0769 0,1137 0,0862 0,1027
OBS 0,0288 0,0339 0,0301 0,0341
RAN 0,0288 0,01756 0,0156 0,0244
RM 0,0385 0,0436 0,0489 0,0317
SEC 0,0673 0,0735 0,0604 0,0747
TEP 0,0922 0,0719 0,0843 0,0813
VEP 0,1395 0,0652 0,0907 0,0779
Coef. Corrlation : Peseuse VS topologies 0,5631 0,8793 0,7370
Tableau 4.27 Comparaison des topologies aprs rajustement des symboles.

0.15
Donnes Peseuse
Topologie 1
Topologie 2
Topologie 3
0.10
Densits
0.05
0.00
Symboles
Fig 4.26 Comparaison des topologies aprs rajustement des symboles.
129
4.4 Conclusion
Les tudes sur les squences dobservations les plus pertinentes nous ont donn des s-
quences trs diffrentes entre le modle de simulation et ltude de cas rels. Ce qui parait
normal pour un modle de simulation de type stochastique.
Les rsultats sur la fentre glissante nous amnent aux mmes conclusions pour le modle
de simulation ainsi que pour le cas concret. En effet, nous trouvons une entropie maximale
pour un nombre fini de symboles. Cette fentre permettra destimer en temps rel les modles
sans utiliser lhistorique complet de la base de donnes de lentreprise. Nous pourrions ainsi
faire voluer la modlisation en utilisant dsormais 200 observations pour lestimation des
tats du systme.
Nous avons galement dtermin la pertinence de larchitecture des modles laide
doutils issus de la littrature. Des critres comme lentropie de Shannon, le maximum de
vraisemblance, AIC ou des tests statistiques, ont permis de mesurer la pertinence sur les
topologies, les algorithmes dapprentissage et de dcodage, ainsi que sur les distributions.
Le lecteur trouvera le rsum des rsultats dans le Tableau 4.28, p. 130. La croix ()
indique la meilleure topologie, le meilleur algorithme dapprentissage ou la meilleure distri-
bution, en fonction des critres prsents.
Topologie Apprentissage Distribution

Critres dvaluation 1 2 3 B.W. S.K. Normale Uniforme
Entropie de Shannon 1er ordre
Entropie de Shannon 2nd ordre aucune aucun aucune
Entropie de Shannon 3ime ordre aucune aucun aucune
Entropie de Shannon 4ime ordre aucune aucun aucune
Maximum de Vraisemblance aucun
Akaike Information Criterion aucun
Bayesian Information Criterion aucun
Test dAspin-Welch
Test de Kolmogorov-Smirnov
Meilleure incertitude
Tableau 4.28 Rsum des rsultats sur les diffrents critres de selection de modles.
Ainsi, la topologie 2 savre tre celle qui donne le meilleur score avec de nombreux cri-
tres ou tests statistiques. Lalgorithme dapprentissage Baum-Welch dcod par Variables
Forward donne les meilleurs rsultats. Enfin, la distribution normale, par rapport la dis-
tribution uniforme est la plus pertinente.
Nous avons ensuite tent dajuster les donnes du modle de synthse afin que celui-
ci puisse sidentifier le mieux possible la situation industrielle. Les donnes issues de la
loi uniforme ne refltant pas la situation relle, nous avons propos des raffectations de
symboles pour le modle utilisant la loi Gaussienne. Cela nous permet de supposer
que le processus industriel se dgrade de la mme manire que le processus de
synthse fond sur la topologie 2.
130
Conclusion gnrale et perspectives
131
132
Conclusion
Nous avons prsent dans un premier temps, les principes gnraux de la maintenance
dans le domaine industriel. En se basant sur des normes, nous avons dfini les objectifs,
les politiques de maintenance ainsi que les diffrentes typologies adoptes dans ce domaine.
Nous avons ensuite introduit les outils de GMAO ainsi que les avancs technologiques r-
centes utilises dans ce secteur de lindustrie. Enfin, nous avons prsent les travaux initis
par Pascal Vrignat dans sa thse [177], sur une modlisation de la maintenance en utilisant
des Modles de Markov Cachs, point de dpart de ce manuscrit. Ces travaux ont montr quil
tait possible de modliser la dgradation dun processus industriel quelconque. Au travers
de cas concrets, il a pu donner lexpert une nouvelle approche de sa gestion de la main-
tenance prventive laide dindicateurs de niveaux de dgradation du processus maintenir.
Dans un second temps, nous avons ralis un tat de lart sur les approches classiques de
mesures de pertinence de modles. Au travers des mthodes danalyse de sensibilit ou des
mthodes de mesures de pertinence de modles dont dispose la littrature, nous avons dfini
une stratgie dutilisation de certaines de ces mthodes dans notre problmatique.
Nous avons ensuite dfini les attentes thoriques de nos travaux, ainsi que plusieurs ap-
proches classiques visant valuer des modles selon une approche Markovienne. Aprs avoir
dfini les diffrents types de modlisation que nous avons choisis, nous avons prsent un mo-
dle de synthse ainsi que les architectures utilises (topologies, algorithmes dapprentissage,
algorithmes de dcodage). Ce dernier nous a permis de comparer les donnes empiriques avec
les donnes simules.
Enfin, les rsultats obtenus nous ont renseigns sur les architectures les plus pertinentes
des MMC tudis. Celles-ci nous ont donn dans un premier temps, les symboles les plus
pertinents ainsi que ceux qui napportent aucune information supplmentaire la construc-
tion dun modle. Nous avons pu trouver dans un second temps, des squences pertinentes
(notamment pour des chanes de Markov dordre 4) annonant une panne probable. Nous
avons ainsi propos un ajustement du modle de synthse (loi Gaussienne), afin quil se
comporte comme celui de la situation industrielle. Cela nous permet alors de supposer que le
processus rel se dgrade comme nous lavons dfini avec ce modle de synthse, amliorant
ainsi les probabilits de prdiction des pannes.
Des tudes sur les caractristiques de la modlisation nous ont montr quune priode
dchantillonnage des observations toutes les 6 heures tait plus pertinente quun chantillon-
nage la journe. Elles nous ont aussi montr que nous pouvions utiliser un nombre minimal
de symboles pour que le modle puisse donner une information la plus pertinente possible.
Ainsi, dans une future phase dexploitation de ces indicateurs de niveaux de dgradation,
cette quantit minimale de donnes nous permettra de rajuster les modles utiliss.
Les tudes sur la pertinence de larchitecture dun modle nous ont permis de choisir
la topologie, les algorithmes dapprentissage et de dcodage ainsi que la distribution des
observations la plus en adquation avec notre problmatique industrielle.
133
Situation scientifique dans le contexte National et Inter-

national actuel
De nombreuses approches rcentes dans la maintenance industrielle tentent dapprhen-
der la problmatique danticipation des pannes par diverses techniques telles que :
optimiser les performances en fonction du risque donn et les stratgies de fiabilit i.e.
tablir une politique de surveillance drastique sur les quipements les plus sensibles
aux risques de dfaillances ;
organiser le choix des tches de maintenance en fonction des consquences des d-

faillances (Maintenance Steering Groupe MSG-3) ;
utiliser des techniques comme l Asset Management pour obtenir lefficacit maxi-
male dun quipement en optimisant toute la chane humaine et matrielle lie cet
quipement.
Notre dmarche tente dapprhender ce pronostic de panne en prsentant des outils de
choix et doptimisation de modlisations markoviennes. Ainsi ces outils pourront aider lex-
pert en fiabilit (qui est devenu de nos jours expert en statistiques), denrichir la panoplie
doutils disponibles.
Bnfices et originalit de lapproche Markovienne :

Lutilisation des MMC dans la dtection de dfaillances est souvent base sur lestimation
des lois de survie dun matriel afin den dterminer sa dure de vie utile restante. Du point
de vue de lexpert en maintenance, lintrt fondamental de notre approche est son aspect
visuel qui permettra de contrler facilement ltat de son systme. En outre, bnficiant de
toute la thorie Markovienne, cette approche reste trs efficace pour lestimation des d-
faillances et assez simple mettre en uvre dans un systme de gestion de la maintenance
industrielle informatise. Son originalit rside en outre sur les points suivants :
utilisation dindicateurs de disponibilit par MMC : les quatre niveaux utiliss (S1
S4), nous permettent de visualiser trs facilement la situation de dgradation dun
processus industriel. Lapproche par MMC nous donne accs aux proprits dun pro-
cessus de Markov ainsi qu celles des tats cachs que nous avons dveloppes dans ce
manuscrit ;
pertinence des observations : en utilisant des mthodes de la littrature courante, nous

avons dvelopp des techniques pour tester et comparer la pertinence des observations.
Ces techniques pourront servir dans dautres domaines comme par exemple alerter un
routeur 1 informatique ou ladministrateur rseau dun engorgement futur de son rseau
informatique ;
1. Son rle est de faire circuler des informations dun rseau vers un autre rseau le plus efficacement
possible
134
nous avons ensuite dtermin un chantillonnage optimal pour la gestion des donnes
en maintenance industrielle. Nous avons aussi trouv quun nombre fini de donnes
tait ncessaire et suffisant afin dobtenir des rponses pertinentes de la part de nos
modles. Nous avons ainsi pu dterminer une fentre glissante optimale de symboles
qui permet de rvaluer le modle dynamiquement ;
enfin, par des tudes de pertinence sur les diffrentes architectures des MMC, nous
avons dvelopp des techniques de mise en vidence du meilleur MMC. La validation
de ces architectures de modle, a permis de dterminer le modle de synthse le plus
raliste par rapport un processus industriel rel.
Dveloppement durable :
Dans nos travaux sur la prdiction des pannes industrielles, la dtermination du meilleur
modle devrait permettre dabaisser significativement le taux de pannes du matriel de pro-
duction. Ce qui veut dire dans un premier temps, moins dintervention humaine. En ef-
fet, dans le cas dune fonderie industrielle, ces interventions ncessitent la manipulation de
produits haute temprature par les techniciens de maintenance et peuvent savrer trs
dangereuses. Dans un deuxime temps, dans le cadre du dveloppement durable, nos tudes
pourront engendrer une baisse de CO2 rejet dans latmosphre. Toujours dans notre exemple
dindustries possdant des fours, larrt dun four pour cause de panne, est une perte dner-
gie considrable. La minimisation des pannes pour la presse basse pression permettra dviter
la refonte de laluminium. La consommation lectrique ainsi que les rejets de CO2 seraient
donc diminus.
Limites de cette tude

La fiabilit des observations fluctue en fonction de la personne qui saisit les informations
de maintenance dans la base de donnes de la GMAO de lentreprise. Ces donnes sont uti-
lises pour lapprentissage de nos modles. Nous devons donc vrifier au pralable la fiabilit
de ces informations.
Enfin, chaque changement dquipement ou dvolution du processus de fabrication, le

modle doit voluer pour sadapter ces modifications. Il faudrait alors pouvoir faire des
mises jour dynamiques du modle.
Les perspectives dapprofondissement

les symboles manquants : nous avons trouv les observations (ou symboles) les plus
pertinents ainsi que ceux apportant peu dinformation au modle. Comme nous lavons
voqu au 3.4.6, p. 72, nous pourrions par la suite essayer de trouver dautres symboles
(donc dautres actions de maintenance), qui nous permettraient daffiner la qualit de
prdiction des dgradations dun processus ;
135
la robustesse du modle : nous avons test diffrentes qualits du modle par

lintermdiaire de divers critres de slection de modle. Nous pourrions traiter las-
pect robustesse i.e. tudier la stabilit du modle de synthse face des perturbations
externes. Nous pourrions par exemple introduire un bruit de type Gaussien dans les
observations et tudier le comportement des diffrentes architectures des modles ;
lutilisation de chanes semi-markoviennes : cette technique pourrait nous permettre

dtudier des processus dont le temps de passage dun tat un autre peut suivre
une loi discrte quelconque. Ce processus doit garder nanmoins une volution de type
markovienne i.e. un processus sans mmoire.
les rseaux baysiens dynamiques, avec les travaux de Philippe Weber [183]. Il utilise ce
procd pour des applications en sret de fonctionnement et danalyse de fiabilit de
systmes. Nous pourrions ainsi modliser lvolution des variables alatoires en fonction
des vnements de maintenance.
136
137
138
Annexe A
Algorithmes
139
Chapitre A : Algorithmes
140
A.1 Apprentissage Interactive Dichotomizer 3 (ID3)
A.1 Apprentissage Interactive Dichotomizer 3 (ID3)
Entre : une partie du corpus dtudes (entre 40 et 70 %) ;

Sortie : un arbre de dcision ;
Validation : la deuxime partie du corpus qui valide les rgles ;
Appel : ID3(Ce,Fob ,Attributs) ;

Corpus dtudes Ce : ensemble des individus ;
Un individu a des Attributs : Valeur(Ind,Att) ;
Une fonction-objectif Fob par attribut : Fob (Ind) = Obj ;
Lensemble dindividus qui ont pour lAttribut la valeur Val :
set(Attribut,Val) ;
[Crer un noeud]
Si (Fob est gale une seule valeur) Alors
Etiquette = valeur ;
Sinon
Soit A Attributs, lAttribut le plus discriminant ;
Etiquette = A ;
Pour chaque valeur possible de A faire
Si (set(A,Valeur) 6= ) Alors
Etiquette-arc = Valeur ;
Fils = ID3(set(A,Valeur),Fob ,Attributs /A)
Fin Si
Fin Pour
Fin Si
Renvoyer le noeud ;
Algorithme 1: ID3
141
A.2 Compression de Lempel-Ziv-Welch
w : nombre de symboles ayant une entropie max liminer ;

wc : nombre de symboles du modle ;
[initialisation]
w Nul ;
Tant que (lecture dun caractre c) faire
Si (wc existe dans le dictionnaire) Alors
w = wc ;
Sinon
ajouter wc au dictionnaire ;
crire le code de w ;
w = c;
Fin Si
Fait
crire le code de w ;
Algorithme 2: Lempel-Ziv-Welch
142
A.3 Itratif dEspace de Version (IVSA)
A.3 Itratif dEspace de Version (IVSA)
Entre : I, un ensemble dinstances ;

Sortie : H, une liste ordonne dhypothses rgionales ;
Initialisation : I := I, H :=<liste vide>, Acc0 := 0 ;
Rpter
Pour i = 1, 2, . . . faire
CH :=Generateur(I ) ;
(H, Acci ) :=Assembler(I, H, Acci1 , CH) ;
I :=Incorrect(I, H) ;
Fin Pour
jusqu ce que (I = ou (i > max et Acci = Accimax ))
Algorithme 3: IVSA
Entre : I , un ensemble dinstances dentre ;

Sortie : CH, un ensemble dhypothses rgionales candidates ;
Initialisation : CH = ;
Pour chaque valeur possible de dcision faire

X :=instance de I classe ngative ou positive ;
Rpter
(S, G, xm ) :=VSA(X) ;
X := X {x1 , . . . , xm1 } ;
CH := CH S G ;
jusqu ce que (X = )
Fin Pour
Algorithme 4: algorithme Gnrateur
143
Entre : I, un ensemble dinstances dentre ;

Entre : H, la liste initiale des hypothses rgionales accep-
tes ;
Entre : Acc , la prcision initiale de classification ;
Entre : CH, un ensemble dhypothses rgionales candidates ;
Sortie : mise jour de H et Acc ;
Pour chaque valeur dhypothse candidate hi CH faire

Ri := (|Pc | + |Nc |)/|I|
Fin Pour
Pour h CH, ordonnes par valeurs de R dcroissantes faire
BestAcc := 0 ;
Pour j = 1, 2, . . . |H| + 1 faire
H := H avec h insr avant la position j ;
Acc := |Correct(I, H )|/|I| ;
Si (Acc > BestAcc ) Alors
BestH := H ; BestAcc := Acc ;
Fin Si
Fin Pour
Si (BestAcc > Acc ) Alors
H := BestH ; Acc := BestAcc ;
Fin Si
Fin Pour
[Supprime les hypothses inutiles de la liste H]
Pour h H faire
H := H {h} ;
Acc := |Correct(I, H )|/|I| ;
Si (Acc > Acc ) Alors
H := H ; Acc := Acc ;
Fin Si
Fin Pour
Algorithme 5: algorithme Assembler
144
A.4 Viterbi
A.4 Viterbi
Entre : M M C, e1 , . . . , en ;
Sortie : V iterbi_path, pmax ;
[Initialisation]
(P aths, P robas) initialize(e1 , M M C) ;
E {e1 , e2 , . . . , e1 , . . . , en } ;
Pour e1 , . . . , ei E faire
Pour sl S faire
(p(ei )sl , sm )
maxsK S(p(e1 , . . . , ei1 )sk .p(sk ; sl ).p(sl ; ei )) ;
update_path (sl , sm , P aths, N ew_P aths) ;
update_proba (sl , P robas, N ew_P robas) ;
Fin Pour
P atch N ew_P aths ;
P robas N ew_P robas ;
Fin Pour
(V iterbi_path, pmax ) most_probable(P aths, P robas) ;
return V iterbi_path, pmax
Algorithme 6: algorithme Viterbi
145
A.5 Algorithme de calcul de lentropie moyenne
n-max : nombre de symboles ayant une entropie max limi-

ner ;
nb-symb : nombre de symboles du modle ;
nb-etat : entier ; nombre dtats du modle de Markov
S[ ] : liste des diffrents symboles du modle ;
entropie, entropie-max : rel ; calcul de lentropie
i,j : entier ; variables ditration
i-max : entier ; indice du symbole dentropie max
[Calcul des entropies nulles]
i 1;
Tant que (i nb-symb) faire
Si (entropie(S[i]) = 0) Alors
S[i] = NULL ; on limine le symbole du tableau
nb-symb = nb-symb 1 ;
i i++ ;
Fin Si
Fait
[Calcul des entropies maxi du modle]
i 1;
entropie-max = 0 ;
Pour (j = 0 ; j n-max ; j++) faire
Tant que (i nb-symb) faire
Si (entropie(S[i]) entropie-max) Alors
entropie-max = entropie(S[i]) ;
i-max = i ;
i i++ ;
Fin Si
Fait
S[i-max] = NULL ; on limine le symbole du tableau
nb-symb = nb-symb 1 ;
Fin Pour
[Calcul de lentropie moyenne du modle]
Pour (j = 0 ; j n-max ; j++) faire
entropie = entropie(S[i]) + entropie ;
Fin Pour
entropie = entropie / nb-etat ;
Algorithme 7: slection du modle le plus pertinent.
146
A.5 Algorithme de calcul de lentropie moyenne
147
148
Annexe B
Principales lois de probabilits
B.1 Loi Normale (Laplace Gauss)

Cette loi permet de modliser de nombreuses rpartitions de variables alatoires. La loi
normale est dfinie par la densit de probabilit : R R+ , desprance et dcart type
:
1 1 x 2
(x) = e 2 ( ) . (B.1)
2
Nous donnons Figure B.1(a), p. 149 un exemple dajustement de modle laide dune
loi normale.
0.4
1.0
= 3, 2 = 1

= 3, 2 = 2 = 3, = 1
2

= 3, 2 = 3 = 3, 2 = 2

0.8

= 3, 2 = 3

0.3

0.6

(x)
(x)

0.2

0.4

0.1

0.2

0.0
0.0
5 0 5 10 5 0 5 10
x x
(a) Loi Normale, densit de probabilit. (b) Loi Normale, fonction de rpartition.
Fig B.1 Loi Normale.
Nous donnons Figure B.1(b), p. 149 la fonction de rpartition de la loi de Gauss. Elle est
dfinie comme suit :
149
Chapitre B : Principales lois de probabilits
Z x Z x
1 12 ( x 2
) dt.
(x) = (t) dt = e (B.2)
2
B.2 Loi Uniforme

La loi uniforme permet de modliser des variables alatoires uniformment rparties sur
un intervalle.
Cette loi est dfinie par la densit de probabilit sur lintervalle [, ] :

1 pour 6 x 6 ,
(x) = (B.3)
0 sinon.
Nous donnons Figure B.2(a), p. 150 un exemple dans le cas discret dun d non biais
( = 1, = 6) :
0.20
1.0
Cas discret
Cas continu
0.8
0.15

0.6
(x)
0.10
(x)

0.4

0.05
0.2

0.00
0.0
0 2 4 6 8 0 2 4 6 8
x x
(a) Loi Uniforme, densit de probabilit. (b) Loi Uniforme, fonction de rpartition.
Fig B.2 Loi Uniforme.
La fonction de rpartition est donne par :

0 pour x < ,
x
(x) = pour 6 x < , (B.4)

1 pour x > .
Nous donnons Figure B.2(b), p. 150 la fonction de rpartition de la loi uniforme.
150
B.3 Loi Exponentielle
B.3 Loi Exponentielle

La loi exponentielle correspond souvent des vnements dont la probabilit de survenue
diminue avec le temps. Elle est galement utilise pour modliser des dures de vie.
La densit de probabilit est de la forme :
x
e , x 0,
(x; ) = (B.5)
0 , x < 0.
La fonction de rpartition est donne par :

1 ex , x 0,
(x; ) = (B.6)
0 , x < 0.
1.0
1.5
= 1, 5
=1
= 0, 5
= 0, 25
0.8
1.0
0.6
(x)
(x)
0.4
0.5
= 1, 5
=1
0.2
= 0, 5
= 0, 25
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
x x
(a) Loi exponentielle, densit de probabilit. (b) Loi exponentielle, fonction de rpartition.
Fig B.3 Loi Exponentielle.
151
Chapitre B : Principales lois de probabilits
152
Annexe C
Notions de mathmatiques utilises
Matrice Jacobienne
Dfinition
Soit F une fonction vectorielle de Rn dans Rm (i.e. F est dfinie par m fonctions valeurs
dans R) :

x1 f1 (x1 , . . . , xn )
F : ... 7 ..

. , (C.1)
xn fm (x1 , . . . , xn )
la matrice Jacobienne (du mathmaticien Charles Jacobi) JF (M ) est la matrice aux drives
partielles suivante :

f1 f1
x1 xn
. .. ..
JF (M ) = .
. . .
. (C.2)
fm fm

x1 xn
Cette matrice intervient dans la rsolution de problmes non-linaires, notamment pour
rsoudre des systmes dquations de Principe de Maximum dEntropie.
Exemple
La matrice Jacobienne de la fonction F : R3 R4 dfinie par :

F (x, y, z) = x, 2y + 5z, 3x2 4y + 10z, z sin (x) , (C.3)
est :

1 0 0
0 2 5
JF (x, y, z) =
6x
. (C.4)
4y 10
z cos (x) 0 sin (x)
153
Chapitre C : Notions de mathmatiques utilises
154
Bibliographie
[1] Abrial, J. R. The B Book. Cambridge University Press, 2005.

[2] Agouzal, A. et Lafouge, T. On the relation between the maximum entropy
principle and the principle of least effort : The continuous case. J. Informetrics 2, 1
(2008), pages 7588.
[3] Akaike, H. Information theory and an extension of the maximum likelihood principle.
2nd inter. symp. on information theory. 2nd Inter. Symp. on Information Theory
(1973), pages 267281.
[4] Alam, F., McNaught, K. et Ringrose, T. Using morris randomized oat design
as a factor screening method for developing simulation metamodels. In Simulation
Conference, 2004. Proceedings of the 2004 Winter (dec. 2004), volume1.
[5] Arminjon, M. et Imbault, D. Maximum entropy principle and texture formation.
Zeitschrift fr angewandte Mathematik und Mechanik, 80, Suppl. N1 (2000), pages
1316.
[6] Artusi, R., Verderio, P. et Marubini, E. Bravais-pearson and spearman cor-
relation coefficients : meaning, test of hypothesis and confidence interval. Int J Biol
Markers 17, 2 (2002), pages 148151.
[7] Ash, R. Information theory. Dover Publications (1990).
[8] Aupetit, S. Contributions aux Modles de Markov Cachs : mtaheuristiques dap-
prentissage, nouveaux modles et visualisation de dissimilarit. These, Universit Fran-
ois Rabelais - Tours, Nov. 2005.
[9] Aupetit, S., Monmarch, N. et Slimane, M. Hidden Markov models training
using population based metaheuristics. In Advances in Metaheuristics for Hard Opti-
mization, P. Siarry and Z. Michalewicz, diteurs, Natural Computing Series. Springer,
2007, pages 415438.
[10] Avila, M. Optimisation de modles Markoviens pour la reconnaissance de lcrit.
Thse de doctorat, Universit de Rouen, 1996.
[11] Bachir, S. Contribution au diagnostic de la machine asynchrone par estimation pa-
ramtrique. Thse de doctorat, Universit de Poitiers, 03 2002.
[12] Baier, C., Haverkort, B. R., Hermanns, H. et Katoen, J.-P. Model-checking
algorithms for continuous-time Markov chains. IEEE Transaction on Software Engi-
neering 29, 6 (2003), pages 524541.
[13] BARDOU, L. Soutien logistique intgr. Techniques de lingnieur Gestion des flux
logistiques base documentaire : TIB119DUO. (2013).
155
BIBLIOGRAPHIE
[14] Baum, L. E., Petrie, T., Soules, G. et Weiss, N. A maximization technique

occurring in the statistical analysis of probabilistic functions of Markov chains. The
Annals of Mathematical Statistics 41, 1 (1970), pages 164171.
[15] Beirlant, J., Dudewicz, E. J., Gyrfi, L. et Meulen, E. C. Nonparametric
entropy estimation : An overview. International Journal of the Mathematical Statistics
Sciences 6 (1997), pages 1739.
[16] Bentler, P. M. EQS structural equations program manual. BMDP Statistical Soft-
ware, 1995.
[17] Bercu, B. et Chafa, D. Modlisation stochastique et simulation - Cours et appli-
cations. Collection Sciences Sup - Mathmatiques appliques pour le Master, Socit
de Mathmatiques Appliques et Industrielles (SMAI), ditions Dunod, 2007.
[18] Beven, K. et Binley, A. The future of distributed models : Model calibration and
uncertainty prediction, 1992.
[19] Biernacki, C. et Govaert, G. Choosing models in model-based clustering and
discriminant analysis. 0 RR-3509, INRIA, 10 1998.
[20] Blasone, R.-S., Vrugt, J. A., Madsen, H., Rosbjerg, D., Robinson, B. A. et
Zyvoloski, G. A. Generalized likelihood uncertainty estimation (glue) using adaptive
Markov chain monte carlo sampling. Advances in Water Resources 31, 4 (2008), pages
630648.
[21] Bloch, I. Information combination operators for data fusion : a comparative review
with classification. IEEE Transactions on Systems, Man and Cybernetics, A-26(1)
(1996), pages 5267.
[22] Bloch, I. Fusion dinformations numriques : panorama mthodologique. Proceedings
of the Journes Nationales de la Recherche en Robotique (2005), pages 7988.
[23] Bocharova, I. E., Hug, F., Johannesson, R. et Kudryashov, B. D. A closed-
form expression for the exact bit error probability for viterbi decoding of convolutional
codes. IEEE Transactions on Information Theory 58, 7 (2012), pages 46354644.
[24] Bouchard, G. et Celeux, G. Model selection in supervised classification. Rapport
technique, INRIA, 2004.
[25] Bouquet, F. Mthodes et outils pour lintelligence artificielle. Cours de master
informatique MOIA (2003).
[26] Bourguignon, P. Y. et Robelin, D. Modles de Markov parcimonieux : slection
de modle et estimation. Statistique et Gnome (2004).
[27] Box, G. E. P. Science and statistics. J. Am. Stat. Assoc. 71, 1976.
[28] Bozdogan, H. Determining the number of clusters in the standart multivariate nor-
mal mixture model using model selection criteria. Rapport technique, Department of
Mathematics, University, of Illinois, Chicago (1983).
[29] Bozdogan, H. On the information-based measure of covariance complexity and its
application to the evaluation of multivariate linear models. Communications in Sta-
tistics, Theory and Methods, 19(1) (1983), pages 221278.
[30] Brisbois, J. tudes probabilistes de sret. B 3 831 (1995).
156
BIBLIOGRAPHIE
[31] Burnham, K. P. et Anderson, D. R. Model selection and multimodel inference :

a practical information-theoretic approach, 2nd dition. Springer, July 2002.
[32] Burnham, K. P. et Anderson, D. R. Multimodel inference, understanding AIC
and BIC in model selection. Sociological Methods and Research (2004), pages 261304.
[33] Cadini, F., Avram, D. et Zio, E. System State Estimation by Particle Filtering for
Fault Diagnosis and Prognosis. Proceedings of the Institution of Mechanical Engineers,
Part O : Journal of Risk and Reliability 224, 3 (2010), pages 149158.
[34] Campolongo, F., Cariboni, J. et Saltelli, A. An effective screening design for
sensitivity analysis of large models. Environ. Model. Softw. 22 (Octobre 2007), pages
15091518.
[35] Cao, D., Kang, J., Zhao, J. et Zhang, X. Fault diagnosis of gearbox based on
eemd and hmm. In Prognostics and System Health Management (PHM), 2012 IEEE
Conference on (may 2012), pages 19.
[36] Cappe, O. et Roueff, F. Evaluation numrique de linformation de fisher pour des
observations irrgulires de ltat dune file dattente. GRETSI, Groupe dEtudes du
Traitement du Signal et des Images (2003).
[37] Castanier, B. Modlisation stochastique et optimisation de la maintenance condi-
tionnelle des systmes dgradation graduelle. Thse de doctorat, Universit de Tech-
nologie de Troyes, 2002.
[38] Cavanaugh, J. E. Unifying the derivations for the akaike and corrected akaike infor-
mation criteria. Statistics & Probability Letters 33, 2 (1997), pages 201208.
[39] Cavanaugh, J. E. A large-sample model selection criterion based on kullbacks sym-
metric divergence. Statistics & Probability Letters 42, 4 (1999), pages 333343.
[40] Celeux, G. et Diebolt, J. The sem algorithm : A probabilistic teacher algorithm
derived from the em algorithm for the mixture problem. Comput. Statist. Quaterly, 2
(1986), pages 7382.
[41] Celeux, G. et Diebolt, J. The em and the sem algorithms for mixtures : statistical
and numerical aspects. Rapport de recherche, INRIA (1987).
[42] Celeux, G. et Govaert, G. A classification em algorithm for clustering and two
stochastic versions. Research Report RR-1364, INRIA, 1991. Projet CLOREC.
[43] Chandrasekaran, V., Johnson, J. K. et Willsky, A. S. Maximum entropy
relaxation for graphical model selection given inconsistent statistics. Laboratory for
Information and Decision Systems, Massachusetts Institute of Technology Cambridge,
MA 02139 (2007).
[44] Chauveau, D. Mthodes de Monte-Carlo par chanes de Markov et algorithmes de
restauration de donnes manquantes, 2001. Habilitation diriger des recherches, Uni-
versit de Marne la valle, France.
[45] Chen, S. S. et Gopalakrishnan, P. S. Speaker, environment and channel change
detection and clustering via the bayesian information criterion. In Proceedings of the
DARPA Broadcast News Transcription and Understanding Workshop (Lansdowne, Vir-
ginia, USA, February 1998).
157
BIBLIOGRAPHIE
[46] Claeskens, G., Croux, C. et Van Kerckhoven, J. An information criterion for

variable selection in support vector machines. J. Mach. Learn. Res. 9 (June 2008),
pages 541558.
[47] Claeskens, G. et Hjort, N. L. Model selection and model averaging. Cambridge
series in statistical and probabilistic mathematics. Cambridge University Press, Cam-
bridge, New York, 2008.
[48] Cover, T. M. et Thomas, J. A. Elements of information theory. Wiley-Interscience,
New York, NY, USA, 1991.
[49] Cramr, H. Mathematical Methods of Statistics. Princeton University Press, 1946.
[50] Davies, R. H., Twining, C. J., Cootes, T. F., Waterton, J. C. et Taylor,
C. J. A minimum description length approach to statistical shape modelling. IEEE
Transactions on Medical Imaging 21 (2001), pages 525537.
[51] Davis, R. I. A., Lovell, B. C. et Caelli, T. Improved estimation of hidden
Markov model parameters from multiple observation sequences. In ICPR (2) (2002),
pages 168171.
[52] De Rocquigny, E. La matrise des incertitudes dans un contexte industriel 1re
partie : Une approche mthodologique globale base sur des exemples. Journal de la
Socit franaise de statistique 147(3) (2006), pages 3371.
[53] De Rocquigny, E. La matrise des incertitudes dans un contexte industriel 2me
partie : Une approche mthodologique globale base sur des exemples. Journal de la
Socit franaise de statistique 147(3) (2006), pages 73106.
[54] de Waele, S. et Broersen, P. Order selection for vector autoregressive models.
Trans. Sig. Proc. 51, 2 (Feb. 2003), pages 427433.
[55] Dempster, A. P. Upper and lower probabilities induced by multivalued mapping.
Annals of Mathematical Statistics, AMS-38, 1967.
[56] Dempster, A. P., Laird, N. M. et Rubin, D. B. Maximum likelihood from
incomplete data via the em algorithm. Journal of the Royal Statistical Society. Series
B (Methodological) 39, 1 (1977), pages 138.
[57] Despujols, A. Approche Fonctionnelle de la Maintenance. Ed. Techniques Ingnieur,
2004.
[58] Despujols, A. Optimisation de la maintenance par la fiabilit (OMF). Ed. Techniques
Ingnieur, 2009.
[59] Dezert, J. et Smarandache, F. An introduction to dsmt. CoRR abs/0903.0279
(2009).
[60] Drezner, Z., Turel, O. et Zerom, D. A modified kolmogorov-smirnov test for
normality. Communications in Statistics - Simulation and Computation 39 (2010),
pages 693704.
[61] Dytham, C. Choosing and Using Statistics : A Biologists Guide. John Wiley & Sons,
2011.
[62] Easterling, R. G. et Berger, J. O. Statistical foundations for the validation of
computer models. Sandia National Laboratories (2003).
158
BIBLIOGRAPHIE
[63] Efron, B. et Tibshirani, R. J. An Introduction to the Bootstrap. Chapman &

Hall, New York, 1993.
[64] El Korso, M., Boyer, R., Renaux, A. et S., M. Expressions non-matricielles
des bornes de Cramr-Rao pour la localisation de source en champ proche. In Colloque
GRETSI 2009 (Dijon France, 2009). Ces travaux sont financs par la rgion le de
France et le groupe de recherche Digiteo.
[65] Fletcher, R. et Xu, C. Hybrid methods for nonlinear least squares. IMA Journal
of Numerical Analysis 7, 3 (1987), pages 371389.
[66] Foata, D. et Fuchs, A. Processus stochastiques : processus de Poisson, chanes de
Markov et martingales : cours et exercices corrigs. Sciences sup. Dunod, 2002.
[67] Fox, M., Ghallab, M., Infantes, G. et Long, D. Robot introspection through
learned hidden Markov models. Artif. Intell. 170, 2 (2006), pages 59113.
[68] Frechet, M. Sur lextension de certaines evaluations statistiques au cas de petits
echantillons. Review of the International Statistical Institute, Vol. 11, No. 3/4 (1943),
pages 182205.
[69] Fumagalli, L., Macchi, M. et Rapaccini, M. Computerized maintenance ma-
nagement systems in SMEs : A survey in Italy and some remarks for the implementa-
tion of Condition Based Maintenance. 13th IFAC Symposium on Information Control
Problems in Manufacturing, INCOM2009, Moscow 35 June 2009 ; 13 (2009), pages
16151619.
[70] Galindo, P. The competitive forward-backward algorithm (cfb). In Artificial Neural
Networks, 1995., Fourth International Conference on (jun 1995), pages 8285.
[71] Geist, M., Pietquin, O. et Fricout, G. Diffrences temporelles de kalman : le
cas stochastique. In Actes des Journes Francophones de Planification, Dcision et
Apprentissage pour la conduite de systmes JFPDA 2009 (Paris France, 06 2009).
[72] Gosavi, A. A risk-sensitive approach to total productive maintenance. Automatica
42, 8 (2006), pages 13211330.
[73] Goupy, J. et Creighton, L. Introduction aux plans dexpriences, 3e dition dition.
Dunod, Nov. 2006.
[74] Guedj, B. et Alquier, P. PAC-Bayesian Estimation and Prediction in Sparse
Additive Models. page 1, Aug. 2012.
[75] Hamilton, H. J. The iterated version space algorithm. In In Proc. of Ninth Florida
Arti cial IntelligenceResearch Symposium (FLAIRS-96 (1996), pages 209213.
[76] Hanebeck, U. D. et Horn, J. New estimators for mixed stochastic and set theo-
retic uncertainty models : The general case. In Proceedings of the European Control
Conference (ECC 2001) (Porto, Portugal, Sept. 2001).
[77] Hanna, M. S. A close look at the ifo data model. SIGMOD Rec. 24, 1 (Mar. 1995),
pages 2126.
[78] Hannan, E. J. et Quinn, B. G. The determination of the order of an autoregression.
Journal of the Royal Statistical Society. Series B (Methodological) 41, 2 (1979), pages
190195.
159
BIBLIOGRAPHIE
[79] Held, L., Rufibach, K. et Balabdaoui, F. A score regression approach to assess

calibration of continuous probabilistic predictions. Biometrics 66, 4 (2010), pages
12951305.
[80] Heng, S., Zhang, S., Tan, A. et Mathew, J. Rotating machinery prognostics.
state of the art, challenges and opportunities. Mechanical Systems and Signal Proces-
sing 23, 3 (2009), pages 724739.
[81] Hernando, D., Crespi, V. et Cybenko, G. Efficient computation of the hid-
den Markov model entropy for a given observation sequence. IEEE transactions on
information theory (2005), pages 26812685.
[82] Hijazi, H. et Ros, L. Borne de Cramr-Rao Baysienne associe lestimation
des gains complexes dun canal de Rayleigh avec spectre de Jakes pour les rcepteurs
OFDM grande mobilit. In Actes du 22me colloque GRETSI sur le Traitement du
Signal et des Images, GRETSI 2009 22me Colloque GRETSI Traitement du Signal &
des Images, GRETSI 2009 (Dijon France, 09 2009). Dpartement Images et Signal.
[83] Hocker, D., Xiaohu, L. et Iyengar, S. S. Shannon entropy based time-dependent
deterministic sampling for efficient on-the-fly quantum dynamics and electronic struc-
ture. J. Chem. Theory Comput. 1 (2011), pages 256268.
[84] Hong, T.-P. et Tsang, S.-S. A generalized version space learning algorithm for
noisy and uncertain data. Knowledge and Data Engineering, IEEE Transactions on 9,
2 (mar/apr 1997), pages 336340.
[85] Huda, S., Yearwood, J. et Togneri, R. A stochastic version of expectation maxi-
mization algorithm for better estimation of Hidden Markov Model. Pattern Recogn.
Lett. 30 (October 2009), pages 13011309.
[86] Hurvich, C. M. et Tsai, C. L. Regression and time series model selection in small
samples. Biometrika 76, 2 (1989), pages 297307.
[87] Hurvich, C. M. et Tsai, C. L. Model selection for extended quasi-likelihood models
in small samples. Biometrics 51 (1995), pages 10771084.
[88] Inoue, M. et Ueda, N. Exploitation of unlabeled sequences in Hidden Markov
Models. IEEE Trans. On Pattern Analysis and Machine Intelligence 25 (2003), pages
15701581.
[89] Iooss, B. Revue sur lanalyse de sensibilit globale de modles numriques. e-articles
server (based on gBUS) (2010).
[90] Iooss, B. et Ribatet, M. Global sensitivity analysis of computer models with
functional inputs. Reliability Engineering & System Safety 94, 7 (07 2009), pages
11941204.
[91] J., M. F. The kolmogorov-smirnov test for goodness of fit. Journal of the American
Statistical Association 46, 253 (1951), pages 6878.
[92] Jardine, A., Lin, D. et Banjevic, D. A review on machinery diagnostics and pro-
gnostics implementing condition-based maintenance. Mechanical Systems and Signal
Processing 20, 7 (Oct. 2006), pages 14831510.
[93] Jardine, A., Lin, D. et Banjevic, D. A review on machinery diagnostics and pro-
gnostics implementing condition-based maintenance. Mechanical Systems and Signal
Processing 20, 7 (Oct. 2006), pages 14831510.
160
BIBLIOGRAPHIE
[94] Jaynes, E. Information theory and statistical mechanics. Physical Review, vol. 16,
no. 4 (1957), pages 620630.
[95] Jin, F. et Ding, S. An improved pca algorithm based on wif. In IJCNN08 (2008),
pages 15761578.
[96] Joshi, A., James, S., Meckl, P., King, G. et Jennings, K. Information-theoretic
feature selection for classification. In American Control Conference, 2007. ACC 07
(2007), pages 20002005.
[97] Juang, B. H. et Rabiner, L. R. The segmental k-means algorithm for estimating
parameters of hidden Markov models. Acoustics, Speech and Signal Processing, IEEE
Transactions on 38, 9 (Sept. 1990), pages 16391641.
[98] Kadane, J. B. et Lazar, N. A. Methods and criteria for model selection. Journal
of the American Statistical Association 99 (2004), pages 279290.
[99] Kadota, K. et Takahashi, K. Detection of genes with tissue-specific patterns using
akaikes information criterion. Genome Informatics 14 (2003), pages 308309.
[100] Kalman, R. E. A new approach to linear filtering and prediction problems. ASME
Journal of Basic Engineering, Srie D, VOL. 82 (1960), pages 3445.
[101] Kans, M. An approach for determining the requirements of computerised maintenance
management systems. Comput. Ind. 59, 1 (Jan. 2008), pages 3240.
[102] Kapetanios, G. Information criteria, model selection uncertainty and the deter-
mination of cointegration rank. NIESR Discussion Papers 166, National Institute of
Economic and Social Research, 2000.
[103] Kleijnen, J. P. C. Verification and validation of simulation models. European Journal
of Operational Research 82 (1995), pages 145162.
[104] Kullback, S. et Leibler, R. A. On information and sufficiency. The Annals of
Mathematical Statistics 22, 1 (1951), pages 7986.
[105] Labadi, K., Chen, H. et Amodeo, L. Modeling and performance evaluation of
inventory systems using batch deterministic and stochastic petri nets. IEEE Transac-
tions on Systems, Man, and Cybernetics, Part C 37, 6 (2007), pages 12871302.
[106] Le Duy, T. D. Traitement des incertitudes dans les applications des tudes proba-
bilistes de sret nuclaire. Thse de doctorat, Universit de technologie (Troyes),
2011.
[107] Lebarbier, E. et Mary-Huard, T. Le critre BIC : fondements thoriques et
interprtation. Research Report RR-5315, INRIA, 2004.
[108] Lebold, M. et Thurston, M. Open standards for Condition-Based Maintenance
and Prognostic Systems. In 5th Annual Maintenance and Reliability Conference (2001).
[109] Li, F., Qi, F., Shi, G. et Zhang, L. Optimization-based particle filter for state and
parameter estimation. Journal of Systems Engineering and Electronics (2009), pages
479484.
[110] Linars, G., Lvy, C. et Plagniol, J.-C. Estimation rapide de modles semi-
continus discriminants. In Journes dtudes de la Parole, JEP (Dinard, France, 2006).
161
BIBLIOGRAPHIE
[111] Low-Kam, C., Laurent, A. et Teisseire, M. Dtection de squences atypiques

base sur un modle de Markov dordre variable. In EGC09 : Extraction et Gestion
de Connaissances (2009), page 12.
[112] Mallows, J. Some comments on cp. Echnometrics, 15 (1973), pages 661675.
[113] Marco, D. Markov random processes are neither bandlimited nor recoverable from
samples or after quantization. Information Theory, IEEE Transactions on 55, 2 (feb.
2009), pages 900905.
[114] McKay, M. D., Morrison, J. D. et C., U. S. Evaluating prediction uncertainty in
simulation models. Los Alamos National Laboratory Los Alamos,New Mexico 87545-
0600 USA (1998).
[115] Mcquarrie, A. The model selection criterion AICu. Statistics & Probability Letters
34, 3 (June 1997), pages 285292.
[116] Mitchell, T. M. Version spaces : a candidate elimination approach to rule learning.
In IJCAI77 : Proceedings of the 5th international joint conference on Artificial in-
telligence (San Francisco, CA, USA, 1977), Morgan Kaufmann Publishers Inc., pages
305310.
[117] Morris, M. D. Factorial sampling plans for preliminary computational experiments.
Technometrics 33 (April 1991), pages 161174.
[118] Muller, A., Suhner, M.-C. et Iung, B. Formalisation of a new prognosis model
for supporting proactive maintenance implementation on industrial system. Reliability
Engineering & System Safety 93, 2 (Feb. 2008), pages 234253.
[119] Neuman, S. P. Maximum likelihood bayesian averaging of uncertain model pre-
dictions. Stochastic Environmental Research and Risk Assessment 17 (2003), pages
291305. 10.1007/s00477-003-0151-7.
[120] Nilsson, J. Reliability and cost centered maintenance methods - nuclear power and
reliability centered maintenance (RCM), July 2007.
[121] Norme. Maintenance - terminologie de la maintenance. NF EN 13306 (indice de
classement : X60319) (2010).
[122] Olivier, C., Jouzel, F., El Matouat, A. et Courtellemont, P. Prediction
with vague prior knowledge. Communications in Statistics 25- Theory and Methods 1
(1996), pages 601608.
[123] Olivier, C., Jouzel, F., El Matouat, A. et Courtellemont, P. Un nouveau
critre pour la slection de lordre dun modle. Seizime colloque Gretsi (1997).
[124] Ould El Medhi, A., Leclercq, E. et Lefebvre Greah, D. Identification of sto-
chastic and deterministic stochastic petri net models for reliability analysis. Proceedings
of the Institution of Mechanical Engineers, Part O : Journal of Risk and Reliability
223, 1 (2009), pages 1326.
[125] Pakyari, R. et Balakrishnan, N. A general purpose approximate goodness-of-fit
test for progressively type-ii censored data. IEEE Transactions on Reliability 61, 1
(2012), pages 238244.
[126] Pardoux, E. Processus de Markov et applications. Dunod, 2006.
162
BIBLIOGRAPHIE
[127] Payar, M. et Palomar, D. P. Hessian and concavity of mutual information,

differential entropy, and entropy power in linear vector gaussian channels. IEEE Trans.
Inf. Theor. 55, 8 (2009), pages 36133628.
[128] Phua, C. W. et Fitch, R. Tracking value function dynamics to improve reinforce-
ment learning with piecewise linear function approximation. In Proceedings of the 24th
international conference on Machine learning (New York, NY, USA, 2007), ICML 07,
ACM, pages 751758.
[129] Pibouleau, L. Assimiler et utiliser les statistiques. Ellipses Marketing, technosup,
2010.
[130] Pigeau, A. Structuration go-temporelle de donnes multimdia personnelles en vue
de la navigation sur un appareil mobile. Thse de doctorat, Universit de Nantes, 12
2005.
[131] Posada, D. et Buckley, T. R. Model selection and model averaging in phylo-
genetics : Advantages of akaike information criterion and bayesian approaches over
likelihood ratio tests. Systematic Biology 53, 5 (2004), pages 793808.
[132] Powell, M. J. D. A hybrid method for non-linear equations. Numerical methods for
non-linear algebraic equations (1970).
[133] Przytula, K. et Thompson, D. Construction of bayesian networks for diagnostics.
In Aerospace Conference Proceedings, 2000 IEEE (2010), volume5, pages 193200 vol.5.
[134] Pujol, G., Le Riche, R., Bay, X. et Roustant, O. Minimisation de quantiles -
application en mcanique. In 9e colloque national en calcul des structures (May 2009).
[135] Quinlan, J. R. Discovering rules by induction from large collections of examples. In
D. Michie (Eds.), Expert Systems in the Micro-Electronic Age. Edinburgh : Edinburgh
University Press. (1979), pages 168201.
[136] Quinlan, J. R. C4.5 : Programs for Machine Learning (Morgan Kaufmann Series in
Machine Learning), 1 dition. Morgan Kaufmann, January 1993.
[137] Rabiner, L. R. A tutorial on hidden Markov models and selected applications in
speech recognition. Proceeding of the IEEE, 77(2) SIAM interdisciplinary journal 1
(1989), pages 257286.
[138] Ramasso, E. Contribution of belief functions to hidden Markov models with an
application to fault diagnosis. In Machine Learning for Signal Processing, 2009. MLSP
2009. IEEE International Workshop on (sept. 2009), pages 16.
[139] Ramasso, E., Rombaut, M. et Pellerin, D. Forward-Backward-Viterbi proce-
dures in the Transferable Belief Model for state sequence analysis using belief func-
tions. In Forward-Backward-Viterbi procedures in the Transferable Belief Model for
state sequence analysis using belief functions ECSQARU (Hammamet Tunisie, 2007).
Dpartement Images et Signal.
[140] Rissanen, J. Modelling by the shortest data description. Automatica 14 (1978), pages
465471.
[141] Ronchetti, E. Robust model selection in regression. Statis. Probab. Lett. 3 (1985),
pages 2123.
163
BIBLIOGRAPHIE
[142] Rosen, R. Life Itself : A Comprehensive Inquiry into the Nature, Origin, and Fabri-
cation of Life. Columbia University Press, 1991.
[143] Roucoules, L., Yannou, B. et Eynard, B. Ingnierie de la conception et cycle
de vie des produits. Trait IC2. Hermes science publ. Lavoisier, Paris, 2006.
[144] Rukhin, A., Soto, J., Nechvatal, J., Barker, E., Leigh, S., Levenson, M.,
Banks, D., Heckert, A., Dray, J., Vo, S., Rukhin, A., Soto, J., Smid, M.,
Leigh, S., Vangel, M., Heckert, A., Dray, J. et Iii, L. E. B. A statistical test
suite for random and pseudorandom number generators for cryptographic applications,
1 dition. Wiley, 2010.
[145] Saltelli, A., Chan, K. et Scott, E. M. Sensitivity Analysis, 1 dition. Wiley,
2000.
[146] Sargent, R. G. Verification and validation of simulation models. In Winter Simula-
tion Conference (2010), pages 166183.
[147] Scalas, E., Martin, E. et Germano, G. The ehrenfest urn revisited : Playing the
game on a realistic fluid model. Physical Review E - Statistical, Nonlinear and Soft
Matter Physics 76, 1 Pt 1 (2007).
[148] Schwarz, G. Estimating the dimension of a model. The Annals of Statistics 6 (1978),
pages 461464.
[149] Scilab Enterprises et Consortium Scilab. Scilab : Le logiciel open source
gratuit de calcul numrique. Scilab Enterprises et Consortium Scilab, Digiteo, Version
5.3.0, Paris, France, 2010.
[150] Sergent, M., Dupuy, D., Corre, B. et Claeys-Bruno, M. Comparaison de
mthode criblage pour la simulation numrique. In 41mes Journes de Statistique,
SFdS, Bordeaux (Bordeaux, France, 2009).
[151] Serir, L., Ramasso, E. et Zerhouni, N. Time-Sliced temporal evidential net-
works : the case of evidential HMM with application to dynamical system analysis. In
Prognostics and Health Management. (Denver - Colorado, tats-Unis, 2011), I. C. N. .
CPF11PHM-CDR, diteur, volumesur CD ROM, page 10.
[152] Shafer, G. A mathematical theory of evidence. Princeton university press, 1976.
[153] Shang, J. et Cavanaugh, J. E. Bootstrap variants of the akaike information crite-
rion for mixed model selection. Comput. Stat. Data Anal. 52 (2008), pages 20042021.
[154] Shannon, C. E. A mathematical theory of communication. Bell system technical
journal 27 (1948).
[155] Shi, P. et Tsai, C. L. A note on the unification of the akaike information criterion.
Statist. Soc. B 60 (1998), pages 551558.
[156] Shorack, G. R. et Wellner, J. A. Empirical Processes With Applications to
Statistics. Society for Industrial & Applied Mathematics, 2009.
[157] Smarandache, F. et Dezert, J. Advances and applications of DSmT for informa-
tion fusion (Collected works). Vol. 1-3, American Research Press, 2009.
[158] Smets, P. et Kennes, R. The transferable belief model. Artificial Intelligence 66(2)
(1994), pages 191234.
164
BIBLIOGRAPHIE
[159] Sobol, I. M. Sensitivity analysis for non linear mathematical models. Mathematical
Modeling and Computational Experiment, 1 (1993), pages 407414.
[160] Steinebach, J., Lehmann, E. L. et Romano, J. P. Testing statistical hypotheses.
Metrika 64 (2006), pages 255256.
[161] Stoica, P. et Arye, N. Music, maximum likelihood, and cramr-rao bound. IEEE
Transactions on Acoustics, Speech, and Signal Processing 37, 5 (Mai 1989), pages 720
741.
[162] Stoica, P. et Babu, P. On the proper forms of BIC for model order selection. IEEE
Transactions on Signal Processing 60, 9 (2012), pages 49564961.
[163] Sudret, B. Uncertainty propagation and sensitivity analysis in mechanical models
Contributions to structural reliability and stochastic spectral methods, 2007. Habilita-
tion diriger des recherches, Universit Blaise Pascal, Clermont-Ferrand, France.
[164] Sugiura, N. Further analysts of the data by akaike s information criterion and
the finite corrections further analysts of the data by akaike s. Communications in
Statistics - Theory and Methods 7, 1 (1978), pages 1326.
[165] Tacnet, J.-M., Batton-Hubert, M. et Dezert, J. A two-step fusion process for
multi-criteria decision applied to natural hazards in mountains. CoRR abs/1005.0896
(2010).
[166] Tarantola, S., Saltelli, A. et Annoni, P. Sensitivity analysis. A coming of age.
In 41mes Journes de Statistique, SFdS, Bordeaux (Bordeaux, France France, 2009).
[167] Tobon-Mejia, D., Medjaher, K., Zerhouni, N. et Tripot, G. Hidden Markov
models for failure diagnostic and prognostic. In Prognostics and System Health Ma-
nagement. (Shenzhen, Chine, 2011), IEEE Catalog Number : CFPII6IH-PRT, pages
18.
[168] Tobon-Mejia, D., Medjaher, K., Zerhouni, N. et Tripot, G. A data-driven
failure prognostics method based on mixture of gaussians Hidden Markov Models.
Reliability, IEEE Transactions on 61, 2 (june 2012), pages 491503.
[169] Turnyi, T. Sensitivity analysis of complex kinetic systems. tools and applications.
Journal of Mathematical Chemistry 5 (1990), pages 203248. 10.1007/BF01166355.
[170] Ueda, T. Simple method for the detection of outliers. Japanese J. Appl. Stat. (2009),
pages 6776.
[171] Vallisneri, M. A User Manual for the Fisher Information Matrix. Jet Propulsion
Laboratory, California Institute of Technology, Pasadena, CA 91109, 2007.
[172] Vandewalle, V. Slection prdictive dun modle gnratif par le critre AICp. In
41mes Journes de Statistique, SFdS, Bordeaux (Bordeaux, France, 2009).
[173] Venditti, V. Aspects du principe de maximum dentropie en modlisation statistique.
Thse de doctorat, Universit Joseph Fourier - Grenoble 1, 1998.
[174] Vidyasagar, M. Bounds on the kullback-leibler divergence rate between Hidden
Markov Models. Decision and Control, 2007 46th IEEE Conference on (2007), pages
61606165.
165
BIBLIOGRAPHIE
[175] Viterbi, A. Error bounds for convolutional codes and an asymptotically optimum
decoding algorithm. IEEE Transactions on Information Theory 13, 2 (Apr. 1967),
pages 260269.
[176] Vrignat, P. Modlisation des dysfonctionnements dun systme dans le cadre dac-
tivits de maintenance. Mmoire de D.E.A., Universit dOrlans - LVR, 2007.
[177] Vrignat, P. Gnration dindicateurs de maintenance par une approche semipara-
mtrique et par une approche Markovienne. Thse de doctorat, Universit dOrlans,
2010.
[178] Vrignat, P., Avila, M., Duculty, F. et Kratz, F. Modlisation des dysfonc-
tionnements dun systme dans le cadre dactivits de maintenance. 16me Congrs de
Matrise des Risques et de Sret de Fonctionnement, Avignon, Communication 4A-1
(2008).
[179] Vrignat, P., Avila, M., Duculty, F. et Kratz, F. Use of HMM for evaluation
of maintenance activities. IJAIS, International Journal of Adaptive and Innovative
Systems, Vol. 1, Nos. 3/4 1 (2010), pages 216232.
[180] Vrignat, P., Avila, M., Duculty, F., Robls, B. et Kratz, F. Utilisation des
chanes de Markov caches pour une valuation des activits de maintenance dans le
cadre dun processus industriel pour lagroalimentaire. CNRIUT (2009).
[181] Wang, J. et Schaalje, G. B. Model selection for linear mixed models using predic-
tive criteria. Communications in Statistics - Simulation and Computation 38 (2009),
pages 788801.
[182] Weber, M. D., Leemis, L. M. et Kincaid, R. K. Minimum kolmogorov-smirnov
test statistic parameter estimates. Journal of Statistical Computation and Simulation
76 (2006), pages 196206.
[183] Weber, P. et Jouffe, L. Complex system reliability modelling with dynamic object
oriented bayesian networks (doobn). Rel. Eng. Sys. Safety 91, 2 (2006), pages 149162.
[184] Welch, B. L. The generalization of students problem when several different popu-
lation varlances are involved. Biometrika 34, 1-2 (1947), pages 2835.
[185] Welch, B. L. Welchs k-sample test. Biometrika 38 (1951), pages 330336.
[186] Welch, T. A. A technique for high-performance data compression. Computer 17
(June 1984), pages 819.
[187] Wolsztynski, E., Thierry, E. et Pronzato, L. Minimum-entropy estimation in
semi-parametric models. Signal Process. 85 (May 2005), pages 937949.
[188] Woodroofe, M. On model selection and the arc sine laws. The Annals of Statistics
10 (1982), pages 11821194.
[189] Yang, Y. Can the strengths of AIC and BIC be shared ? BIOMETRICA 92 (2003),
pages 937950.
[190] Ying, J., Kirubarajan, T., Pattipati, K. R. et Patterson-Hine, A. A hidden
Markov model-based algorithm for fault diagnosis with partial and imperfect tests.
Trans. Sys. Man Cyber Part C 30, 4 (Nov. 2000), pages 463473.
[191] Yu, D. et Yau, K. K. W. Conditional akaike information criterion for generalized
linear mixed models. Comput. Stat. Data Anal. 56, 3 (Mar. 2012), pages 629644.
166
BIBLIOGRAPHIE
[192] Zhou, J. et Zhang, X.-P. Hidden Markov model framework using independent
component analysis mixture model. In Acoustics, Speech and Signal Processing, 2006.
ICASSP 2006 Proceedings. 2006 IEEE International Conference on (may 2006), vo-
lume5, page V.
[193] Zhou, Z.-J., Hu, C.-H., Xu, D.-L., Chen, M.-Y. et Zhou, D.-H. A model for real-
time failure prognosis based on hidden Markov model and belief rule base. European
Journal of Operational Research 207, 1 (2010), pages 269283.
[194] Zwingelstein, G. La maintenance base sur la fiabilit : guide pratique dapplica-
tion de la RCM. Collection Diagnostic et maintenance. Herms, Paris, 1996. RCM :
Reliability centered maintenance.
167
BIBLIOGRAPHIE
168
Communications
Robls, B., Avila, M., Duculty, F., Vrignat, P., Bgot, S. et Kratz, F.
HMM Framework, for Industrial Maintenance Activities, Proceedings of the Institution
of Mechanical Engineers, Part O : Journal of Risk and Reliability 2014.
Quantit minimale dobservations pour lestimation de Modles de Markov Cachs,
dans le cadre dune politique de maintenance prventive, 5mes Journes Doctorales /
Journes Nationales MACS, 1112 Juillet 2013 Strasbourg, (prsentation orale).
Robls, B., Avila, M., Duculty, F., Vrignat, P., Bgot, S. et Kratz, F. Eva-
luation of Minimal Data Size by Using Entropy, in a HMM Maintenance Manufacturing
Use, MIM2013 IFAC (International Federation of Automatic Control) Manufacturing
Modelling, Management and Control, 1921 Juin 2013 Saint Petersburg (Russie).
Mise jour dynamique de Modles de Markov Cachs : Application dans lAide
la Dcision pour une Maintenance Prventive Industrielle. CNRIUT 1214 Juin 2013
Cort, (prsentation orale).
HMM Framework, for Industrial Maintenance Activities, QUALITA2013 10me Congrs
International Pluridisciplinaire Qualit et Sret de Fonctionnement (Qualit, Suret
de Fonctionnement, Dveloppement Durable), 2022 Mars 2013 Compigne, page 43,
(prsentation orale en Anglais).
Vrignat, P., Duculty, F., Bgot, S., Millet, J.F., Robls, B., Avila, M.
Solution Bluetooth : utilisation dune architecture logicielle dans le cadre dune mise
en place dune solution multi-clients partir dun serveur OPC, CETSIS, 2022 Mars
2013 Caen.
Vrignat, P., Avila, M., Duculty, F., Robls, B., Bgot, S., Kratz, F. G-
nration dindicateurs dans le cadre dune politique de maintenance prventive condi-
tionnelle, , 18me Congrs de Matrise des Risques et de Sret de Fonctionnement,
1618 Octobre 2012 Tours.
Robls, B., Avila, M., Duculty. et Kratz, F. Study of the relevance of stochas-
169
BIBLIOGRAPHIE
tic parameters on Hidden Markov Model parametric and semi-parametric measures

of uncertainty, search for missing symbols in model development. Journe des Jeunes
Chercheurs du laboratoire Prisme 23 Juillet 2012 Roiff, (prsentation orale).
Incertitudes Stochastiques sur des Modles de Markov Cachs : Application dans lAide
la Dcision pour une Maintenance Prventive Industrielle. CNRIUT 68 Juin 2012
Tours, (prsentation orale).
Methods to choose the best Hidden Markov Model topology for improving maintenance
policy. MOSIM 2012, the 9th International Conference on Modeling, Optimization and
SIMulation (Bordeaux, France), 68 June 2012, (prsentation orale en Anglais).
Robls, B., Avila, M., Duculty, F., Vrignat, P. et Kratz, F. Statistical

evaluation of Hidden Markov Models topologies, based on industrial synthetic model.
14th IFAC (International Federation of Automatic Control) Symposium on Informa-
tion Control Problems in Manufacturing (INCOM), volume 14, 10291034. Elsevier
Ltd on IFAC-PapersOnLine.net doi :10.3182/20120523-3-RO-2023.00052 ISBN : 978-
3-902661-98-2 Bucharest, Romania, May 23-25 2012, (prsentation orale en An-
glais).
A obtenu le prix du meilleur article de la session Intelligent Integrated
Maintenance and Quality Strategies .
Mesures de pertinence par les critres du maximum de vraisemblance de BIC et
d AIC appliqus lvaluation des paramtres stochastiques de Modles de Markov
Cachs. Journal National de la Recherche en IUT N3 (2012).
Robls, B., Avila, M., Duculty, F., Vrignat, P. et Kratz, F. Evaluation of

relevance of stochastic parameters on hidden markov models. In Advances in Safety, Re-
liability and Risk Management, European Safety and Reliability Conference (ESREL),
ISBN : 978-0-415-68379-1 (Troyes, France, Sept. 2011), Taylor & Francis Group, page
71, (prsentation orale en Anglais).
Vrignat, P., Avila, M., Duculty, F., Robls, B. et Kratz, F. Decison sup-
port with a markovian approach for maintenance context activities. In Advances in
Safety, Reliability and Risk Management, European Safety and Reliability Conference
(ESREL), ISBN : 978-0-415-68379-1 (Troyes, France, Sept. 2011), Taylor & Francis
Group, page 66.
Robls, B., Avila, M., Duculty, F., Vrignat, P. et Kratz, F. Mesures de

pertinence par les critres du maximum de vraisemblance et de BIC appliqus
lvaluation des paramtres stochastiques de Modles de Markov Cachs. CNRIUT
810 Juin 2011 Cherbourg-Octeville, (prsentation orale).
170
BIBLIOGRAPHIE
Robls, B., Avila, M., Duculty, F., Vrignat, P. et Kratz, F. Evaluation de la

pertinence des paramtres stochastiques sur des Modles de Markov Cachs. CNRIUT
911 Juin 2010 Angers, (prsentation orale).
Vrignat, P., Avila, M., Duculty, F., Robls, B. et Kratz, F. Utilisation

des chanes de Markov caches pour une valuation des activits de maintenance dans
le cadre dun processus industriel pour lagroalimentaire. CNRIUT 810 Juin 2009
Villeneuve dAscq.
171
BIBLIOGRAPHIE
172
Liste des figures
1.1 Nombres daccidents mortels et de victimes lis un manque de suivi des

quipements, pour les principales activits concernes. . . . . . . . . . . . . . 8
1.2 Typologies des actions de maintenance (NF EN 13306 (indice de classement :
X60319)) [121]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Exemple doptimisation de la Maintenance Base sur la Fiabilit. . . . . . . 17
1.4 Exemple dOptimisation de la Maintenance par la Fiabilit. . . . . . . . . . . 19
1.5 Modle de Markov Cach deux tats. . . . . . . . . . . . . . . . . . . . . . 21
1.6 Diagnostic vs Pronostic de panne. . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1 tudes de pertinences de Modles de Markov Cachs. . . . . . . . . . . . . . 29

2.2 Principe danalyse de sensibilit dun modle [145]. . . . . . . . . . . . . . . 32
2.3 schma gnral danalyse de lincertitude probabiliste inspir de [163]. . . . . 36
2.4 Mthode du Bootstrap. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1 Exemple dun rseau de Petri 4 places, 2 transitions et 2 jetons. . . . . . . 64

3.2 Chane de Markov deux tats. . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.3 Chane de Markov : modle de diffusion dEhrenfest. . . . . . . . . . . . . . 67
3.4 Relations de dpendance entre les variables alatoires dun MMC. Pour chaque
tat qt un instant t, il y a mission dun symbole Vt pris dans lensemble V. 68
3.5 Modles de Markov Cachs, topologies 4 tats. Les k , k sont des aij illus-
trant les transitions Si vers Sj . Les k dtriorent ltat et les k amliorent
ltat. La matrice dinitialisation pointe obligatoirement sur ltat S4 puisque
nous supposons dmarrer toujours dans ltat optimal (S4 est ltat optimal,
S1 est ltat du processus arrt). . . . . . . . . . . . . . . . . . . . . . . . . 71
3.6 Modle de Markov Cach 4 tats, topologie 2, rfrence du modle de synthse. 73
3.7 Squences V des T observations du modle de synthse. La Figure 3.7(a) re-
prsente la distribution normale et la Figure 3.7(b) reprsente la distribution
uniforme. Sur labscisse, nous pouvons voir la liste des 11 squences dobser-
vations misent par le modle de synthse. Pour chaque squence, on trouve
les 10 symboles (DEP, RM, AU, OBS, TEP, SEC, RAN, NET, VEP et RAS).
Ces figures illustrent la distribution de chaque squence pour chaque symbole.
Nous remarquons que chaque squence se termine par le symbole darrt DEP. 75
173
LISTE DES FIGURES
3.8 Distribution des symboles par tat du modle de synthse. La Figure 3.8(a)
reprsente la distribution normale et la Figure 3.8(b) reprsente la distribution
uniforme. Sur labscisse, nous pouvons voir la liste des 10 symboles. Pour
chaque symbole, on trouve les 4 tats (S1, S2, S3 et S4). Ces figures illustrent
la distribution de chaque symbole pour chaque tat. Nous remarquons que le
premier symbole nest mis que par ltat S1 (symbole darrt pour ltat de
non fonctionnement). Nous remarquons aussi que ltat S1 nmet aucun des
9 autres symboles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.9 Dgradation dun processus. . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.10 tapes dvaluation de larchitecture des modles, laide dun modle de
synthse. Le modle de synthse utilise la topologie 2 pour gnrer des 2-uplet
(Symboles, Etats) en utilisant les distributions (uniforme et normale). Nous
injectons alors ces signatures dans les 3 topologies tudies. Nous utilisons
les 2 algorithmes dapprentissage et de dcodage pour obtenir de nouvelles
squences que nous analysons pour en valuer la pertinence. Nous essayons
ainsi de trouver la meilleure architecture des modles. . . . . . . . . . . . . . 79
3.11 Distribution des symboles par tat. La Figure 3.11(a) reprsente la distri-
bution normale des observations mises par le modle de synthse. La Fi-
gure 3.11(b) reprsente la distribution des observations aprs apprentissage
Baum-Welch et dcodage par Variables Forward. La Figure 3.11(c) reprsente
la distribution des observations aprs apprentissage Segmental K-means et
dcodage par Viterbi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.12 Production des symboles. Cela nous permet de tester diffrentes distributions
de symboles, diffrentes topologies et diffrents algorithmes dapprentissage
et de dcodage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.13 Modlisation Newton de la densit des tats. . . . . . . . . . . . . . . . . . . 85
4.1 Modle de Markov cach 4 tats, topologie 2, rfrence du modle de synthse. 89

4.2 Nombre minimal de donnes par entropie de Shannon. Les donnes sont issues
du modle de synthse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.3 valuation du nombre minimal de donnes. . . . . . . . . . . . . . . . . . . . 94
4.4 Nombre minimal de donnes par entropie de Shannon en utilisant les 2 algo-
rithmes dapprentissage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.5 valuation du nombre minimal de donnes pour une utilisation optimale des
algorithmes dapprentissage. . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.6 La fentre glissante en rouge contient un nombre minimal de symboles. Len-
tropie est maximale pour ce nombre de symboles. . . . . . . . . . . . . . . . 96
4.7 volution de lentropie value avec une fentre glissante norme (200 sym-
boles). Les donnes dapprentissage sont issues du modle de synthse en
utilisant la distribution normale. . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.8 Mesure de lentropie de Shannon des donnes issues du modle de synthse. Fi-
gure 4.8(a) pour la distribution uniforme et Figure 4.8(b) pour la distribution
normale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.9 Critre de log-vraisemblance. . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
174
LISTE DES FIGURES
4.10 Ces graphes nous montrent que la topologie 2 est la plus pertinente au vu du
critre dAIC et de BIC, pour les 2 algorithmes dapprentissage et pour les 2
distributions tudies. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.11 Nous testons les diffrentes architectures du modle de synthse laide de
tests statistiques dadquation : le test dAspin-Welch Figure 4.11(a) et celui
de Kolmogorov-Smirnov Figure 4.11(b). . . . . . . . . . . . . . . . . . . . . . 102
4.12 Le calcul de lincertitude sur la moyenne est reprsentatif de lerreur pist-
mique dans la phase de modlisation. . . . . . . . . . . . . . . . . . . . . . . 103
4.13 Modle de Markov Cach, topologie 1. . . . . . . . . . . . . . . . . . . . . . 104
4.14 Mesure de lentropie de Shannon avec la topologie 1 comme rfrence. . . . . 105
4.15 Modle de Markov Cach, topologie 3. . . . . . . . . . . . . . . . . . . . . . 105
4.16 Mesure de lentropie de Shannon avec la topologie 3 comme rfrence. . . . . 106
4.17 Modles de Markov Cachs, topologies 4 tats . . . . . . . . . . . . . . . . 109
4.18 Exemple de dgradation dun processus [178]. . . . . . . . . . . . . . . . . . 110
4.19 Entropies moyennes des modles . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.20 Mesures de la vraisemblance. . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
4.21 Nombre minimal de donnes par entropie de Shannon, donnes issues dune
GMAO industrielle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
4.22 volution de lentropie value avec une fentre glissante norme (200 sym-
boles). Les donnes dapprentissage sont issues dune GMAO industrielle. . . 123
4.23 Critres AIC, BIC et HQC. . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.24 Modles de synthse non ajusts. . . . . . . . . . . . . . . . . . . . . . . . . 127
4.25 Comparaison du modle de synthse ajust, avec les donnes de maintenance
provenant dune entreprise du secteur de lagro-alimentaire. . . . . . . . . . . 128
4.26 Comparaison des topologies aprs rajustement des symboles. . . . . . . . . 129
B.1 Loi Normale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

B.2 Loi Uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
B.3 Loi Exponentielle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
175
LISTE DES FIGURES
176
Liste des tableaux
1.1 volution des valeurs et des grands ratios de la maintenance. Source : lOb-
servatoire Rseau Maintenance 2012. . . . . . . . . . . . . . . . . . . . . . 10
1.2 Proportion dutilisation des logiciels de Gestion de la Maintenance Assiste
par Ordinateur , dans les diffrents secteurs conomiques. . . . . . . . . . . 16
1.3 Exemple dune base de donnes utilise dans une Gestion de la Maintenance
Assiste par Ordinateur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1 Caractre de sur-apprentissage de lAIC (distribution Arc Sinus [188]). . . . 56
3.1 Codification symbolique des interventions de maintenance. . . . . . . . . . . 70

3.2 Squence dun message issue des donnes de maintenance. . . . . . . . . . . 77
3.3 p-value des tats gnre par le modle de synthse. . . . . . . . . . . . . . . 78
4.1 Mesure de lentropie, donnes issues du modle de synthse, loi normale. . . 91

4.2 Mesure de lentropie, donnes issues du modle de synthse, loi uniforme. . . 91
4.3 Entropie moyenne pour les algorithmes dapprentissage et dcodage. . . . . . 98
4.4 Log-Vraisemblance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.5 Critre de BIC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.6 Rsultats des incertitudes pistmiques. . . . . . . . . . . . . . . . . . . . . . 104
4.7 Squence dun message issue des donnes de maintenance. . . . . . . . . . . 107
4.8 Exemple de consignation des vnements. . . . . . . . . . . . . . . . . . . . . 107
4.9 Codification symbolique des interventions de maintenance. . . . . . . . . . . 108
4.10 Squence de symboles / niveaux de dgradation. . . . . . . . . . . . . . . . . 109
4.11 Mesure de lentropie, donnes empiriques, valuation modle MMC 2 dcodage
Viterbi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.12 Entropie pour les chanes de Markov dordre 2, donnes empiriques, valuation
modle MMC 2 dcodage Viterbi. . . . . . . . . . . . . . . . . . . . . . . . . 111
4.15 Squences de symboles (ordre 4) ayant une entropie maximale, aprs passage
dans le filtre entropique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.16 Information mutuelle pour les chanes de Markov dordre 1, donnes empi-
riques, valuation modle MMC 2 dcodage Viterbi. . . . . . . . . . . . . . . 114
4.17 Information mutuelle pour les chanes de Markov dordre 1 - Modle MMC 2 115
177
LISTE DES TABLEAUX
4.18 Exemple darbre de dcision pour une chane de Markov dordre 1, 2 et 3 /

Corpus 20052006 Modle MMC 1. . . . . . . . . . . . . . . . . . . . . . . . 116
4.19 Exemple darbre de dcision pour une chane de Markov dordre 1, 2 et 3 /
Corpus 20052006 Modle MMC 2 . . . . . . . . . . . . . . . . . . . . . . . . 117
4.20 Exemple de construction dun graphe de gnralisation/spcialisation pour
une chane de Markov dordre 1. . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.21 Exemple de construction dun graphe de gnralisation/spcialisation sur les
tats (chane de Markov dordre 1). . . . . . . . . . . . . . . . . . . . . . . . 118
4.22 Entropie moyenne des modles de Markov sur les 2 types dchantillonnage. . 120
4.23 Rsultats de lentropie moyenne avec et sans filtre entropique. . . . . . . . . 120
4.24 Rsultats de vraisemblance. . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.25 Rsultats des diffrents critres. . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.26 Comparaison du modle de synthse, avec les donnes de maintenance prove-
nant dune GMAO dun sous-systme pour lagro-alimentaire (anne 2005-2006).126
4.27 Comparaison des topologies aprs rajustement des symboles. . . . . . . . . 129
4.28 Rsum des rsultats sur les diffrents critres de selection de modles. . . . 130
178
LISTE DES TABLEAUX
179
Bernard ROBLES
tude de la pertinence des paramtres stochastiques sur
des Modles de Markov Cachs.
Rsum :
Le point de dpart de ce travail est la thse ralise par Pascal Vrignat sur la modlisation de ni-
veaux de dgradation dun systme dynamique laide de Modles de Markov Cachs (MMC), pour une
application en maintenance industrielle. Quatre niveaux ont t dfinis : S1 pour un arrt de production
et S2 S4 pour des dgradations graduelles. Recueillant un certain nombre dobservations sur le terrain
dans divers entreprises de la rgion, nous avons ralis un modle de synthse base de MMC afin de
simuler les diffrents niveaux de dgradation dun systme rel. Dans un premier temps, nous identifions la
pertinence des diffrentes observations ou symboles utiliss dans la modlisation dun processus industriel.
Nous introduisons ainsi le filtre entropique.
Ensuite, dans un but damlioration du modle, nous essayons de rpondre aux questions : Quel est lchan-
tillonnage le plus pertinent et combien de symboles sont ils ncessaires pour valuer au mieux le modle ?
Nous tudions ensuite les caractristiques de plusieurs modlisations possibles dun processus industriel
afin den dduire la meilleure architecture. Nous utilisons des critres de test comme les critres de lentropie
de Shannon, dAkaike ainsi que des tests statistiques. Enfin, nous confrontons les rsultats issus du modle
de synthse avec ceux issus dapplications industrielles. Nous proposons un rajustement du modle pour
tre plus proche de la ralit de terrain.
Mots cls : Modles de Markov Cachs, slection de modles, test statistique, algorithmes dappren-
tissage et de dcodage, entropie de Shannon, incertitudes de modlisation, maintenance prdictive.
Study of the relevance of stochastic parameters on Hidden Markov Models.
Summary :
As part of preventive maintenance, many companies are trying to improve the decision support of their
experts. This thesis aims to assist our industrial partners in improving their maintenance operations (produc-
tion of pastries, aluminum smelter and glass manufacturing plant). To model industrial processes, different
topologies of Hidden Markov Models have been used, with a view to finding the best topology by studying
the relevance of the model outputs (also called signatures). This thesis should make it possible to select a
model framework (a framework includes : a topology, a learning & decoding algorithm and a distribution)
by assessing the signature given by different synthetic models. To evaluate this signature , the following
widely-used criteria have been applied : Shannon Entropy, Maximum likelihood, Akaike Information Criterion,
Bayesian Information Criterion and Statistical tests.
Keywords : Hidden Markov Models, model selection, statistical test, learning and decoding algorithms,
Shannon entropy, uncertainties, predictive maintenance.
Laboratoire PRISME, ENSI 88 boulevard Lahitolle 18020

Bourges Cedex

Bernard - Robles These

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Bernard - Robles These

Transféré par

Droits d'auteur :

Formats disponibles

Etude de la pertinence des parametres stochastiques sur

des modeles de Markov caches

To cite this version:

HAL Id: tel-01058784

HAL is a multi-disciplinary open access Larchive ouverte pluridisciplinaire HAL, est

COLE DOCTORALE Mathmatiques, Informatique,

THSE prsente par :

soutenue le : 18 dcembre 2013

tude de la pertinence des paramtres stochastiques

THSE dirige par :

M. Christian Olivier, M. Gilles Mourioux et M. Yann Chamaillard davoir accepts de

M. Manuel Avila, M. Florent Duculty, M. Pascal Vrignat et M. Stphane Bgot, pour

Merci M. Jean-Christophe Bardet, directeur de lIUT de lIndre et M. Grard Guillaume

1 Principes gnraux, objectifs et politique de maintenance industrielle 5

2 Approches classiques de mesures de pertinence dans la chane de modli-

3 valuation de modles par une approche markovienne 59

Conclusion gnrale et perspectives 131

B Principales lois de probabilits 149

C Notions de mathmatiques utilises 153

Liste des Figures 175

Liste des tableaux 178

Un but majeur de la science est la comprhension et pas seulement la prdiction.

La notion de modles de Markov cachs MMC 1 ou HMM 2 , apparat dans de nombreux

la pertinence des observations collectes (voire collecter) ;

les critres dchantillonnage de ces observations ;

le nombre dobservations ncessaire et suffisant pour dcrire le modle de manire op-

la topologie dun MMC ;

lusage dalgorithmes dapprentissage et de dcodage.

Principes gnraux, objectifs et politique

Afin de mieux apprhender les objectifs de la maintenance industrielle, il est important

Dans un premier temps, nous donnerons les dfinitions normatives de la maintenance.

Dans un second temps, nous aborderons la gestion de la maintenance informatise, im-

La littrature expose un nombre croissant de nouvelles stratgies de politiques de main-

sous estimation du risque industriel ;

insuffisance du dialogue entre les acteurs ;

des manques dtanchit des quipements ;

Une meilleure gestion de la maintenance aurait-elle pu viter de tels drames ?

Dans le mme ordre dide, Genevive Montaigu du journal Luxembourgeois Le Quo-

1.2 Prsentation de la maintenance dans le domaine in-

2005 2006 2007 2008 2009 2010 2011 2012 2013

1.2.1 Dfinitions normatives

1.2.2 Politique de maintenance

Il faut ensuite valuer les rpercussions dune panne sur le plan :

conomique et social : perte dexploitation, chmage technique, image de lentreprise ;

environnemental : traitement de la pollution, consquences nfastes sur lenvironne-

pour un risque inacceptable, il faut supprimer totalement les causes de panne ;

pour un risque tolrable, il faut choisir entre maintenance prventive systmatique et

et pour un risque acceptable, la maintenance prventive peut tre inutile.

LAFNOR distingue 5 niveaux de maintenance, suivant la complexit des oprations :

1er niveau : rglage simple prvu par le constructeur ou le service de maintenance, au

3me niveau : identification et diagnostic de panne suivis ventuellement dchange de

4me niveau : travaux importants de maintenance corrective ou prventive lexception

5me niveau : travaux de rnovation, de reconstruction ou de rparation importante

1.2.3 Objectifs dune politique de maintenance

Les principaux objectifs de la maintenance sont :

optimiser le temps de fonctionnement de lquipement : la planification des interven-

amliorer la fiabilit de lquipement : le contrle des rglages de la machine permet

1.2.4 Typologies des actions de maintenance

la maintenance prventive conditionnelle : Maintenance prventive base sur une

la maintenance prventive systmatique : Maintenance prventive excute des in-

la maintenance prventive programme : Maintenance prventive excute selon un

maintenance corrective immdiate, effectue tout de suite aprs la panne ;

maintenance corrective diffre, retarde en fonction de la politique de maintenance.