Vous êtes sur la page 1sur 85

‫الجمهورية الجزائرية الديمقراطية الشعبية‬

République Algérienne Démocratique et Populaire


‫وزارة التعليم العالي والبحث العلمي‬
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Réf . : DGM /……/…….

Université Larbi Ben Mhidi d’Oum El-Bouaghi

Faculté des Sciences et Sciences Appliquées


Département de Génie Mécanique
Filière : Génie Mécanique
Spécialité : Maintenance industrielle

Mémoire de fin d'études


en vue de l’obtention du diplôme de
MASTER
Thème
Machine learning pour
la maintenance prédictive
Présenté par :
Fatoumata Yalcoué
Amor Adnane

Proposé et dirigé par :


Ziane Ataoua

Soutenu le : 14 Juillet 2021

Année universitaire : 2020 / 2021


En tout premier lieu, nous disons Alhamdoulilah
en remerciant le bon dieu (Allah Azawajel) de nous avoir donné
la force de relever la tête haute toute les épreuves auxquels
nous avons eu à faire face jusqu’au jour où nous somme.

Nul remerciement ne pourra certes exprimer la gratitude que nous


avons à l’égard de nos chers parents mais cela ne vas pas nous
empêché de les remerciez pour tout ce qu’ils nous ont apporté dans
nos vie, pour tous leurs soutiens aussi bien morale que financière.

Merci à eux d’avoir sacrifier corps et âme pour nous mettre dans
toutes les bonnes conditions en nous offrant un milieu favorable pour
que nous ne manquions de rien et puissions étudier comme nous le
souhaitions, en croyant en nos capacités dès le tout début sans
oublier de nous encourager et de nous soutenir à tout moment.

Nous adressons nos sincères remerciements à notre encadreur


monsieur Ataoua Ziane qui à accepter de diriger ce travail en nous
assistant tout au long. Nous le remercions pour tous ses conseils, sa
patience, sa disponibilité ainsi que son orientation.

Nous adressons également nos remerciements au président et aux


membres du jury d’avoir accepté de juger notre travail.

Et pour finir nous remercions tous ceux qui ont contribué de


près ou de loin à la réalisation de ce projet de mémoire.
Résumé
A cause des conditions opérationnelles et environnementales, le processus de production dans les
entreprises est très sensible à la détérioration et aux défaillances. Donc, il est indispensable de définir
la stratégie de maintenance correcte afin de réduire au minimum les temps d'arrêt causés par les pannes
inattendues et de minimiser par conséquent les coûts très élevés de maintenance. Récemment, la
maintenance prédictive a profité du développement dans les domaines de la science de données et du
machine learning pour surpasser plusieurs limitations de la maintenance conventionnelle. Le but de
ce projet est d’exploiter une énorme quantité de données relatives au comportement des moteurs
d’avion simulés afin d’entraîner des modèles capables de prédire l’état de fonctionnement futur de ces
moteurs. Ainsi, nous avons créé des modèles prédictifs pour estimer la durée de vie restante d’un
moteur, trouver quels moteurs tomberont en panne dans une période donnée, ainsi pour prédire la
période pendant laquelle un moteur tombera en panne. Ces modèles sont générés par des algorithmes
selon trois catégories : la régression, la classification binaire et la classification multiple. Enfin, nous
avons vérifié l’efficacité de nos modèles à l’aide des métriques d’évaluation des performances
adéquates.
Mots clé : Maintenance prédictive, Machine learning, Régression, Classification.

Abstract
Due to operational and environmental conditions, the production process in companies is very
sensitive to deterioration and failure. Therefore, it is essential to define the correct maintenance
strategy in order to minimize the downtime caused by unexpected failures and therefore to minimize
the very high maintenance costs. Recently, predictive maintenance has taken advantage of
developments in data science and machine learning to overcome several limitations of conventional
maintenance. The aim of this project is to exploit a huge amount of data relating to the behavior of
simulated aircraft engines in order to train models capable of predicting the future operating state of
these engines. So, we created predictive models to estimate the remaining life of an engine, find which
engines will fail in a given time period, and thus predict the period in which an engine will fail. These
models are generated by algorithms according to three categories : regression, binary classification
and multiple classification. Finally, we verified the effectiveness of our models using appropriate
performance assessment metrics.
Keywords : Predictive maintenance, Machine learning, Regression, Classification.

‫ملخص‬
‫ من‬،‫ لذلك‬.‫ فإن عملية اإلنتاج في الشركات عرضة للغاية للتدهور والعطب‬،‫بسبب الظروف التشغيلية والبيئية‬
‫الضروري تحديد استراتيجية الصيانة الصحيحة لتقليل وقت التوقف عن العمل الناجم عن األعطال غير المتوقعة وبالتالي‬
‫ استفاتت الصيانة التنبيية من التطورات في علم البيانات والتعلم‬،،‫ في اآلونة األ يخير‬.‫تقليل تكاليف الصيانة المرتفعة للغاية‬
‫ الهدف من هذا المشروع هو استغالل كمية هائلة من البيانات المتعلقة‬.‫اآللي للتغلب على العديد من سلبيات الصيانة التقليدية‬
‫ على التنبي بحالة التشغيل المستقبلية لهذه‬،‫ لتدريب نماذج قاتر‬،‫ عن طريق المحاكا‬،‫بسلوك محركات الطائرات المولد‬
‫ زمنية‬،‫ وإيجات المحركات التي ستفشل في فتر‬،‫ قمنا بإنشاء نماذج تنبيية لتقدير العمر المتبقي للمحرك‬،‫ لذلك‬.‫المحركات‬
:‫ يتعلق األمر بنماذج تم إنشاؤها بواسطة يخوارزميات وفقًا لثالث فئات‬.‫ التي يفشل فيها المحرك‬،‫ وبالتالي توقع الفتر‬،‫معينة‬
.‫ قمنا بالتحقق من فعالية نماذجنا باستخدام مقاييس تقييم األتاء المناسبة‬،‫أيخيرا‬
ً .‫ التصنيف الثنائي والتصنيف المتعدت‬،‫االنحدار‬
.‫ التصنيف‬،‫ االنحدار‬،‫ التعلم اآللي‬،‫ الصيانة التنبيية‬: ‫الكلمات المفتاحية‬
i
Liste des tableaux

Tableau 3.1 Exemple de données d'entraînement. ..................................................................................34


Tableau 3.2 Matrice de confusion pour une classification binaire. ..........................................................42
Tableau 4.1 Caractéristiques de l’environnement matériel utilisé. ..........................................................47
Tableau 4.2 Evaluation de la régression linéaire. ...................................................................................50
Tableau 4.3 Evaluation de Lasso. ..........................................................................................................50
Tableau 4.4 Evaluation de Ridge. ..........................................................................................................51
Tableau 4.5 Evaluation de la régression polynomiale. ...........................................................................51
Tableau 4.6 Evaluation de l’arbre de décision. ......................................................................................51
Tableau 4.7 Evaluation de Random forest. ............................................................................................52
Tableau 4.8 Comparaison des performances des modèles. .....................................................................52
Tableau 4.9 Evaluation de la régression logistique. ...............................................................................54
Tableau 4.10 Evaluation de l’arbre de décision. ....................................................................................55
Tableau 4.11 Evaluation de Random forest. ..........................................................................................55
Tableau 4.12 Evaluation de SVC linear. ................................................................................................56
Tableau 4.13 Evaluation de K-Nearest Neighbors. ................................................................................56
Tableau 4.14 Evaluation de Naive Bayes...............................................................................................56
Tableau 4.15 Matrice de confusion Gaussian NB (d1). ..........................................................................57
Tableau 4.16 Rapport de classement Gaussian NB (d1). ........................................................................57
Tableau 4.17 Comparaison des performances des modèles. ...................................................................58
Tableau 4.18 Evaluation de l’Arbre de décision (d1) et (d2). .................................................................62
Tableau 4.19 Evaluation de SVC (d1) et (d2). .......................................................................................63
Tableau 4.20 Evaluation de SVC (d1) et (d2). .......................................................................................63
Tableau 4.21 Evaluation de Random forest (d1) et (d2). ........................................................................64
Tableau 4.22 Evaluation de KNN (d1) et (d2). ......................................................................................64
Tableau 4.23 Evaluation de Gaussian NB (d1) et (d2). ..........................................................................65
Tableau 4.24 Evaluation de MLP (d1) et (d2). .......................................................................................65
Tableau 4.25 Comparaison des performances des algorithmes utilisés. ..................................................66
Tableau 4.26 Matrice de confision de MLP (1). .....................................................................................66
Tableau 4.27 Rapport de classification de MLP (d1). ............................................................................66

ii
Liste des figures

Figure 1-1 Types de maintenance. .......................................................................................................... 7


Figure 2-1 Taxonomie des différentes techniques issues de l’apprentissage automatique. .......................14
Figure 2-2 Apprentissage automatique non supervisé. ...........................................................................15
Figure 2-3 Apprentissage automatique supervisé. ..................................................................................16
Figure 2-4 Un modèle de régression linéaire simple...............................................................................18
Figure 2-5 Exemple de l’arbre de décision. ............................................................................................21
Figure 2-6 Machines à vecteurs de support. ...........................................................................................23
Figure 2-7 Exemple de classification par l’algorithme KNN. .................................................................24
Figure 2-8 Exemple de régression polynomiale sur des données non-linéaires. ......................................25
Figure 2-9 Un réseau de neurones à trois couches. .................................................................................27
Figure 2-10 Fonctionnement d’un neurone artificiel. .............................................................................29
Figure 2-11 Structure d'un PMC composé de deux couches cachées. .....................................................30
Figure 3-1 Ecart type des caractéristiques. .............................................................................................36
Figure 3-2 Matrice de corrélation des caractéristiques (heatmap). ..........................................................37
Figure 3-3 Les étapes de création d’un modèle prédictif. .......................................................................39
Figure 4-1 Environnement Ananconda ..................................................................................................48
Figure 4-2 Graphe des résidus de Random forest. ..................................................................................53
Figure 4-3 Graphe de l’importance des caractéristiques. ........................................................................53
Figure 4-4 Les courbes AUC ROC et Precision-Recall de Gaussian NB (d1). ........................................57
Figure 4-5 Comparaison des courbes AUC ROC et Precision-Recall. ....................................................59
Figure 4-6 Bénéfice attendu. .................................................................................................................60
Figure 4-7 Courbes de MLP (d1). ..........................................................................................................67
Figure 4-8 Courbes de score des algorithmes utilisés. ............................................................................67

iii
Liste des abréviations

ANN Artificiel Neural Network


AUC Area Under Curve
BOB Break Out Board
CPU Central Processing Unit
DMP Data Management Platform
DT Decision Tree
FN Faux Négatifs
FNR False Negatif Rate
FP Faux Positifs
FPR False Positif Rate
GPU Graphic Processing Unit
IA Intelligence Artificielle
IoT Internet of Things
KNN K-Nearest Neighbors
MC Maintenance Corrective
MCN Maintenance Conditionnelle
MCO Maintien en Condition Opérationnelles
ML Machine Learning
MLP Multilayer Perceptron
MPV Maintenance Prédictive
MR Maintenance Réactive
MS Maintenance Systématique
MV Maintenance Préventive
NaN Not a Number
R² R squared error
RL Renforcement Learning
ROC Receiver Operating Characteristic
RUL Remaining Useful Life
SVC Support Vector machine for Classification
SVM Support Vector Machine
SVR Support Vector machine for Regression
TNR True Negatif Rate
TPR True Positif Rate
TTF Time To Failure
VN Vrais Négatif
VP Vrais Positifs

iv
Table des matières

Résumé ......................................................................................................... i

Liste des tableaux........................................................................................ ii

Liste des figures ......................................................................................... iii

Liste des abréviations ................................................................................ iv

Table des matières ...................................................................................... v

Introduction générale ................................................................................. 1

CHAPITRE 1 Maintenance prédictive ...................................................... 3


1.1 Introduction ........................................................................................................3
1.2 La maintenance industrielle ...............................................................................3
1.3 Les types de maintenance ...................................................................................4
1.3.1 Maintenance réactive .....................................................................................4
1.3.2 Maintenance corrective ..................................................................................4
1.3.2 Maintenance préventive .................................................................................5
1.3.3 Maintenance systématique .............................................................................6
1.3.4 Maintenance conditionnelle ...........................................................................6
1.3.5 La maintenance prédictive .............................................................................7

1.4 Maintenance prédictive et machine learning ....................................................8


1.4 Avantages et inconvénients de la maintenance prédictive ................................9
1.4.1 Les avantages ................................................................................................9
1.4.2 Les inconvénients ..........................................................................................9
1.5 Application de la maintenance prédictive dans l’industrie ............................. 10
1.5.1 La maintenance prédictive des automobiles ................................................. 10
1.5.2 La maintenance prédictive des ascenseurs.................................................... 10
1.6 Conclusion ........................................................................................................ 10
CHAPITRE 2 Machine learning .............................................................. 11
2.1 Introduction ...................................................................................................... 11
2.2 Naissance du machine learning ........................................................................ 11

v
TABLE DES MATIERES

2.2.1 Définition de l’intelligence artificielle ......................................................... 11


2.2.2 Définition du machine learning .................................................................... 12
2.2.3 Les applications du machine Learning ......................................................... 13
2.3 Approches du machine learning ...................................................................... 14
2.3.1 Apprentissage automatique non supervisés .................................................. 15
2.3.2 Apprentissage automatique supervisé .......................................................... 15
2.4 Algorithmes du machine learning .................................................................... 17
2.4.1 Régression linéaire ...................................................................................... 17
2.4.2 Algorithme Ridge ........................................................................................ 19
2.4.3 Algorithme Lasso ........................................................................................ 20
2.4.4 L’arbre de décision ...................................................................................... 20
2.4.5 Machine à vecteurs de support ..................................................................... 22
2.4.6 k-plus proche voisin (KNN) ......................................................................... 23
2.4.7 Régression logistique ................................................................................... 24
2.4.8 Régression polynomiale............................................................................... 24
2.4.9 Random forest ............................................................................................. 25
2.4.10 Naïve Bayes .............................................................................................. 26
2.4.11 Réseaux de neurones artificielles ............................................................... 26
2.4.12 Le perceptron multicouche ......................................................................... 29
2.5 Etat de l'art sur le ML pour la maintenance prédictive ................................. 30
2.6 Conclusion ........................................................................................................ 31
CHAPITRE 3 Ensemble de données et approche d’apprentissage ........ 32
3.1 Introduction ...................................................................................................... 32
3.2 Les défis spécifiques aux data-set .................................................................... 32
3.2.1 La distribution non équilibrée des classes .................................................... 32
3.2.2 Les valeurs aberrantes ................................................................................. 32
3.2.3 Les valeurs manquantes ............................................................................... 33
3.3 Description des données utilisées ..................................................................... 33
3.4 Prétraitement des données ............................................................................... 34
3.4.1 Collecter des données et créer des variables de sortie ................................... 35
3.4.2 Création des caractéristiques ........................................................................ 35
3.5 Approche proposée ........................................................................................... 38
3.5.1 Objectifs ...................................................................................................... 39
3.5.2 Choix des algorithmes d’apprentissage ........................................................ 39

3.6 Les métriques de mesure de la performance des modèles .............................. 40

vi
TABLE DES MATIERES

3.6.1 Métriques de régression ............................................................................... 41


3.6.2 Métriques de classification .......................................................................... 42
3.7 Problèmes d’une faible généralisation ............................................................. 44
3.7.1 Le sur-apprentissage et le sous-apprentissage .............................................. 44
3.7.2 Méthodes de validation ................................................................................ 45
3.8 Conclusion ........................................................................................................ 46
CHAPITRE 4 Implémentation et résultats ............................................. 47
4.1 Introduction ...................................................................................................... 47
4.2 Environnement de développement................................................................... 47
4.2.1 Environnement matériel............................................................................... 47
4.2.1 Environnement logiciel ................................................................................ 47
4.3 La régression .................................................................................................... 49
4.3.1 Résultats obtenus ......................................................................................... 50
4.3.2 Discussion ................................................................................................... 52
4.4 La classification binaire ................................................................................... 54
4.4.1 Résultats obtenus ......................................................................................... 54
4.4.2 Discussion ................................................................................................... 57
4.4.3 Bénéfice attendu .......................................................................................... 59

4.5 La classification multiclasses ........................................................................... 61


4.5.1 Procédure de la classification multiclasses ................................................... 61
4.5.2 Résultats obtenus ......................................................................................... 61
4.5.3 Discussion ................................................................................................... 65
4.6 Conclusion ........................................................................................................ 68
Conclusion générale .................................................................................. 69

Références bibliographiques .................................................................... 71

vii
Introduction générale

Les machines de fabrication d'aujourd'hui deviennent de plus en plus complexes et


spécialisées, ce qui entraîne à son tour des coûts d'investissement plus élevés et donc des coûts
d'heure machine plus élevés. Les systèmes de production sont affectés par la détérioration et les
défaillances causées par les conditions opérationnelles et environnementales. C'est donc une bonne
idée de réduire au minimum les temps d'arrêt de la machine causés par les intervalles de
maintenance et les pannes inattendues. Ainsi, il faut définir la stratégie de maintenance correcte
pour chaque exigence afin de réduire les coûts associés à la défaillance. Malheureusement, la
maintenance conventionnelle connaît de nombreux inconvénients dont l'arrêt indéfini de la
production et des coûts de maintenance très élevés. Les méthodes préventives présentes
l'inconvénient fondamental d'engendrer des coûts inutiles lors du remplacement de pièces dont
l'état peut être tout à fait satisfaisant. Avec le développement, il est devenu plus facile d'accéder
aux données des capteurs, ce qui représente une énorme quantité de données qui peuvent être
utilisées par la maintenance prédictive. Grâce à des outils de prévision basés sur des données
historiques, des facteurs de santé spécifiques à la demande, des méthodes d'inférence statistique et
des approches d'ingénierie, les systèmes de maintenance prédictive permettent une détection
avancée des défaillances en attente et permettent des interventions rapides avant défaillance.

Parmi les méthodes basées sur l'inférence statistique, celles basées sur l’intelligence artificielle
et surtout l’apprentissage automatique (Machine Learning) sont les mieux adaptées pour traiter
des problèmes modificatifs de grande dimension. L'intelligence artificielle (IA) est un domaine lié
au traitement de la connaissance et de la pensée, dans le but de permettre aux machines d'exécuter
des fonctions généralement associées à l'intelligence humaine. Le machine learning (ML) est une
forme d'intelligence artificielle qui fait référence à un ensemble d'algorithmes pour analyser et
traiter des données à des fins de classification et de prédiction. Les techniques de ML visent à
capturer les relations complexes dans les données qu'elles peuvent être difficiles à caractériser afin
de fournir des alertes plus précoces sur les défaillances entrantes et de déterminer une plus grande
précision dans les prédictions de la durée de vie utile restante des systèmes.

Ce projet de fin d’étude vise à construire des modèles d'apprentissage automatique permettant
de prévenir les pannes qui se produiront dans le futur et de prédire le temps de fonctionnement
avant défaillance de l’équipement. Ces informations sont très importantes pour améliorer la
planification de la maintenance.

1
INTRODUCTION GENERALE

Nous proposons, dans ce travail, une approche basée sur des techniques d'apprentissage
automatique. Cette approche fournira une solution efficace à la maintenance prédictive ainsi
qu'aux problèmes qui nécessitent généralement beaucoup de réglages manuels ou ne peuvent pas
être résolus du tout à l'aide de techniques traditionnelles. Cela réduit les coûts des dommages ainsi
que le nombre de procédures de maintenance inutiles. Ce travail décrit les principaux concepts
modernes de l'apprentissage automatique pour la maintenance prédictive des moteurs d'avion. Il
s’agit de deux axes de recherche : la détection de défauts par classification et l'estimation de la
durée de vie restante. Pour tester l'efficacité de cette solution, les performances des algorithmes
doivent être étudiées en termes de précision.

Ainsi, ce mémoire est organisé en quatre chapitres :

Le premier chapitre est consacré à la maintenance industrielle et en particulier à la


maintenance prédictive. Nous présentons les enjeux industriels de la maintenance qui ont évolué
au fil du temps, qui sont représentés dans les types de maintenance industrielle, en partant de la
maintenance traditionnelle vers la maintenance prédictive. Le concept de corrélation entre
maintenance prédictive et apprentissage automatique est également introduit.

Le deuxième chapitre est un aperçu sur l'intelligence artificielle en générale et l'apprentissage


automatique en particulier. Ce chapitre traite les techniques les plus couramment utilisées dans la
littérature récente, en définissant l'apprentissage automatique avec ses types représentés par la
régression et la classification et en mettant l'accent sur les algorithmes liés à la prédiction des
défaillances et à la maintenance. Le but ici est de dégager l’approche d’apprentissage automatique
qui va être modélisée et implémentée dans les chapitres suivants.

Dans le troisième chapitre, nous apporterons notre contribution dans le but de résoudre le
problème en question. Après la collecte et la description de l’ensemble de données utilisé (moteurs
d'avion), nous procédons à son prétraitement. Ces étapes sont très importantes pour choisir la
bonne approche d'apprentissage automatique d'un point de vue analytique. Ensuite, nous
présentons un certain nombre d’algorithmes adoptés pour modéliser l’objectif initial, ainsi que les
techniques permettant de mesurer les performances des modèles construits.

Le quatrième chapitre explique la mise en œuvre de notre approche, en commençant par une
vue d'ensemble des outils et de l'environnement de développement. Ensuite, nous présenterons
quelques interfaces illustrant les résultats obtenus en appliquant les algorithmes choisis sur
l’ensemble de données préparé dans le chapitre précédent. Nous validons enfin cette approche avec
des métriques de performance.

Dans une conclusion générale, nous réorganisons tous nos développements par rapport à
l'objectif initial de l'étude. Nous résumons les principaux résultats obtenus, les problèmes
rencontrés et les perspectives de ce travail.

2
CHAPITRE 1
Maintenance prédictive

1.1 Introduction

Dans un complexe industriel, la maintenance est une tâche très importante pour le bon
fonctionnement des différents équipements. Dans ce chapitre nous parlerons tout d’abord de ce
qu’est la maintenance industrielle au sens propre ainsi que les différents types de maintenance,
parmi lesquels figure la maintenance prédictive qui fera l’objet d’étude de notre chapitre tout en
précisant ses avantages, ses outils et sans oublier de donner quelques exemples de domaines
auxquelles elle s’applique.

1.2 La maintenance industrielle

La maintenance industrielle peut être définie comme « l'ensemble de toutes les actions
techniques, administratives et de management durant le cycle de vie d'un bien, destinées à le
maintenir ou à le rétablir dans un état dans lequel il peut accomplir la fonction requise » [1]. Elle
comprend ainsi un ensemble d'actions de dépannage, de réparation, de contrôle et de vérification
des équipements matériels, et doit contribuer à l'amélioration des processus industriels.

Dans la vision traditionnelle, la fonction maintenance permet de garantir les caractéristiques


de sûreté de fonctionnement des matériels, notamment la disponibilité. Elle vise donc globalement
à appréhendé des phénomènes de défaillance et à agir en conséquence, afin d'assurer que le
système (le bien) soit à même de remplir la fonction pour laquelle il a été conçu (Maintien en
Condition Opérationnelles, MCO). Mais, les missions de la fonction maintenance ne se limitent
plus à la mise en œuvre des moyens permettant d'assurer le « service des biens ». Des exigences
de qualité, de sécurité et de coût sont apparues, et les enjeux et prérogatives de la fonction
maintenance ont évolué ces vingt dernières années.

3
CHAPITRE 1 MAINTENANCE PREDICTIVE

1.3 Les types de maintenance

De nombreux types de maintenance coexistent afin de fournir aux industriels la possibilité


d’optimiser leurs chaînes de production. Par conséquent, chaque entreprise détermine ses besoins
industriels (en matière de maintenance industrielle) et met en œuvre une planification stratégique.
La maintenance est la combinaison de toutes les actions techniques et des actions administratives
correspondantes, y compris les opérations de surveillance et de contrôle qui vise à maintenir ou à
remettre une entité dans un état lui permettant d’accomplir une fonction requise. Nous allons dans
cette partie du mémoire présenter les principaux types de maintenance industrielle [2].

1.3.1 Maintenance réactive

La maintenance réactive (MR), parfois appelée maintenance en cas de panne, est une méthode
de maintenance continue. La maintenance pour réparer l'équipement n'est effectuée que lorsque
l'équipement tombe en panne ou a fonctionné au point de tomber en panne. Dans la pratique,
certaines usines ou entreprises utilisent une véritable philosophie de gestion de la maintenance en
cas de panne. Avec la RM, vous obtenez un rendement et une utilisation maximale de
l’équipement, car il est utilisé à ses limites.

Lorsqu'une entreprise opte pour la gestion de l'exécution en cas de panne, elle ne dépense pas
d'argent en maintenance jusqu'à ce qu'une machine ou un système ne fonctionne plus [3]. C’est
clairement l’approche la plus simple pour gérer la maintenance (et c’est pour cette raison qu’elle
est fréquemment adoptée), mais c’est aussi la moins efficace, car le coût des interventions et les
temps d’arrêt associés après une panne sont généralement beaucoup plus importants que ceux
associés avec des actions correctives planifiées prises à l'avance [4]. Cela peut entraîner des temps
d’arrêts importants de l’équipement et un risque élevé de défauts secondaires et ainsi créer un très
grand nombre de produits défectueux dans le processus de fabrication [5]. De plus, lorsque les
composants commencent à vibrer, à surchauffer et à se briser, des dommages supplémentaires à
l'équipement peuvent survenir, ce qui peut entraîner des réparations encore plus coûteuses. En
outre, une entreprise doit maintenir des vastes stocks de pièces de rechange étendus pour tous les
équipements et composants critiques pour pouvoir faire face à toutes les pannes possibles.
L’alternative consiste à s’appuyer sur des fournisseurs d’équipements capables de fournir
Immédiatement tous les équipements et composants de rechange nécessaires.

1.3.2 Maintenance corrective

Les opérations de la maintenance corrective (MC) ont lieu une fois la panne identifiée. Il s’agit
essentiellement d’un dépannage car la maintenance corrective est effectuée après la détection

4
CHAPITRE 1 MAINTENANCE PREDICTIVE

d’une panne et destinée à remettre un élément dans un état dans lequel il peut exécuter une fonction
requise.

Les étapes de MC sont qu’après l’apparition d’une panne, nous faisons le diagnostic, éliminons
la pièce à l’origine de la panne puis commandons le remplacement de la pièce, remplaçons la pièce
puis effectuons un test de fonctionnement (contrôle opérationnel) et enfin poursuivons l’utilisation
de la machine. La MC est utilisée après qu’un problème supplémentaire est détecté dans une
séquence de travail distincte. Par exemple, lors d’une des inspections de routine, Un technicien se
rend compte qu’il y a un problème qui doit être résolu avant que d’autres problèmes ne surviennent.
Nous avons réalisé que la MC est effectuée (juste à temps), ce qui permet à la machine de réduire
les commandes de maintenance d’urgence, favorisant l’augmentation de la sécurité des employés,
aide les équipes de maintenance à résoudre les problèmes avant que la production ne soit bloquée
ou que les services soient interrompus.

La MC aide une organisation à prolonger la durée de vie de ses équipements, à réduire les
blessures des employés et à optimiser la planification des ressources [3]. Deux formes de MC
peuvent être distinguées, une maintenance palliative lorsque l’intervention de maintenance est
temporaire, et une maintenance curative, si les travaux sont définitifs [6]. En dehors de ces cas, il
est apparu qu'il était possible de réduire de manière significative le coût de maintenance en
intervenant sur le système avant la panne, c’est-à-dire de manière préventive.

1.3.2 Maintenance préventive

La maintenance préventive (MV) vise à réduire les risques d’occurrence d’une défaillance. La
norme [7] la définit comme suit : « Maintenance exécutée à des intervalles prédéterminés ou selon
des critères prescrits et destinée à réduire la probabilité de défaillance ou la dégradation du
fonctionnement d’un bien ».

Plusieurs variantes existent, telles que des ajustements, des remplacements, des
renouvellements et des inspections, qui ont lieu selon un plan et un calendrier prédéterminés, cela
permet d'établir des plages horaires d'indisponibilité d'un actif (ou d'une partie de celui-ci), à
l'opposé de l'imprévisibilité, qui caractérisent les schémas de défaillance aléatoires en maintenance
corrective [8]. Ce type de maintenance est appliqué par les techniciens chargés de la maintenance
industrielle avant toute apparition de panne ou de dysfonctionnement. Elle affecte les pièces de
rechanges, les composants ainsi que les machines, les équipements afin de réduire le risque d’échec
ou de défaillance.

La numérisation des entreprises industrielles a apporté de nombreuses solutions


technologiques permettant aux techniciens d’effectuer, de surveiller et de planifier la MV

5
CHAPITRE 1 MAINTENANCE PREDICTIVE

efficacement [2]. La maintenance est exécutée même lorsque la machine est toujours en
fonctionnement normal afin d'éviter les pannes imprévues avec les temps d'arrêt et les coûts
associés. La MV peut réduire les coûts de réparation et les temps d'arrêt imprévus, mais peut
entraîner des réparations inutiles ou des pannes catastrophiques. La détermination du moment où
une pièce d'équipement entrera dans la phase d'usure est basée sur le taux de défaillance théorique
plutôt que sur des statistiques réelles sur l'état de l'équipement spécifique. Cela se traduit souvent
par une maintenance coûteuse et totalement inutile avant qu'il y ait un problème réel ou après le
début des dommages potentiellement catastrophiques [3].

1.3.3 Maintenance systématique

Lorsque l’intervention de maintenance est exécutée à intervalles fixes et prédéfinis, on parle


de la maintenance systématique (MS). Ce type de maintenance est déclenché selon un calendrier
(heures de travail, kilomètres effectués, etc.) et se traduit par le remplacement périodique de pièces,
sans contrôle préalable et quel que soit l’état de dégradation des équipements. La maintenance
préventive systématique peut conduire à du sur-entretien c’est à dire à un excès d’interventions
inutiles, et donc à des gaspillages financiers pour l’entreprise [6]. En suivant l'évolution de l'état
de l'équipement, on ne peut espérer réaliser les maintenances uniquement qu’avec sagesse (c’est
l'objet de la Maintenance Corrective (MC)).

1.3.4 Maintenance conditionnelle

La maintenance conditionnelle (MCN) peut être considérée comme la forme de maintenance


la plus compliquée à appliquer. Cela implique des contrôles réguliers et un plan pour éviter les
pannes. Il surveille l'état réel des équipements et détermine les opérations de maintenance
nécessaires en fonction de certains indicateurs: performances, pannes futures, etc. Les données
sont collectées automatiquement ou à distance via un réseau direct connecté à l'équipement, ce qui
permet à l'équipe de maintenance de décider s'il faut contrôler en permanence ou à intervalles
réguliers en comparant avec les valeurs moyennes et les performances. La maintenance est lancée
lorsque les indicateurs montrent que l'équipement se détériore et que la probabilité de défaillance
augmente.

Ce type de maintenance, à long terme, permet de réduire totalement les coûts associés à la
maintenance, minimisant ainsi l'apparition de pannes graves et optimisant les ressources
économiques disponibles [9]. Les actions de maintenance ne peuvent être effectuées que lorsque
les actions du processus sont exécutées après une ou plusieurs conditions de dégradation du
procédé. La MCN ne peut généralement pas être planifiée à l'avance [5].

6
CHAPITRE 1 MAINTENANCE PREDICTIVE

1.3.5 La maintenance prédictive

Les pronostics sont actuellement au cœur de la gestion de la santé des systèmes, l'objectif
ultime est de détecter les pannes avant qu'elles ne surviennent en surveillant l'état des équipements,
son principal obstacle est le temps de mise en œuvre plutôt que le coût de la technologie [3]. La
maintenance prédictive (MPV) vise à pallier le manque de connaissance de la MCN. Elle est
définie selon la norme [7] comme : « Une maintenance conditionnelle exécutée en suivant les
prévisions extrapolées de l’analyse et de l’évaluation de paramètres significatifs de la dégradation
du bien ».

Cette approche promet des économies de coûts par rapport à la MV traditionnelle ou basée sur
le temps, car les tâches de maintenance sont prévues avec une plus grande précision et les activités
de maintenance nécessaires ne sont effectuées que lorsque cela est justifié. Une bonne stratégie de
la maintenance prédictive permet une planification pratique de la maintenance corrective et évite
les pannes d'équipement imprévues [10]. La MPV permet aux organisations de réduire la fréquence
des maintenances réactives non planifiées et aide également à expulser les coûts associés aux
maintenances préventives car les pièces sont retirées trop tôt [3]. Bien qu'il existe des travaux qui
visent à réduire le nombre d'opérations de maintenance périodique, la maintenance prédictive est
la politique de maintenance la plus développée et évite le sur-entretien ou le sous-entretien [11].

Il est nécessaire que toute stratégie de maintenance minimise les taux de défaillance de
l'équipement, améliore l'état de l'équipement, prolonge la durée de vie de l'équipement et réduise
les coûts de maintenance. Un aperçu des classifications de maintenance est présenté à la figure 1.1
[3]. La MPV s'est avérée être l'une des stratégies les plus prometteuses parmi d'autres stratégies de
maintenance qui a la capacité d'atteindre ces caractéristiques [12]. D’ailleurs, la stratégie a été
appliquée récemment dans de nombreux domaines d'études.

<50%OEE 50%-70%OEE 75%-90% OEE <90% OEE


Reliability: OEE and uptime

Prédictive

Proactive Analyses avancées et


Planifié données de détection
Élimination des pour prédire la
Réactive défauts pour améliorer
Activités de fiabilité de la
Réparer en cas de maintenance les performances machine
panne programmées

Niveau 1 Niveau 2 Niveau 3 Niveau 4

Figure 1-1 Types de maintenance.


7
CHAPITRE 1 MAINTENANCE PREDICTIVE

1.4 Maintenance prédictive et machine learning

Grâce aux capteurs et à l'intelligence artificielle, la maintenance prédictive permet au


personnel de maintenance de connaitre en temps réel l'état de leurs équipements en leur fournissant
des informations détaillées sur les paramètres pouvant impacter ceux-ci. Grâce à l'apprentissage
automatique, ceux-ci pourront être averti en cas de défaillances imminentes ou en cas d'anomalies.
A partir de ces données structurées ou non (données historiques et facteurs de santé déterminés
selon les besoins), la MPV est capable de repérer en temps réel les schémas propices aux pannes
(ou même à des anomalies mineures) afin de déterminer les domaines les plus exposés au risque
et d’identifier la cause première du problème. Elle dirige alors pro-activement les ressources vers
ces domaines avant que le risque ne devienne une réalité.

Afin d’effectuer la maintenance dans une condition propice, il y a lieu de définir de nombreux
paramètres et il peut être difficile d’être pertinent sur tous les points pour un ou plusieurs êtres
humains car il faut analyser un très grand volume de données. Ainsi, de préférence il vaut mieux
laisser ce travail à une machine qui analyserait de très nombreux cas pour définir au mieux tous
ces paramètres. Elle pourra ainsi plus facilement définir les éléments à observer mais aussi détecter
elle-même de nouveaux éléments auxquels une personne n’aurait pas pensé afin de définir au
mieux l’état d’un élément et donc le moment optimal pour son remplacement. La maintenance
prédictive identifie les pièces de rechange nécessaires à ce planning de maintenance
incomparablement plus précis. Elle élimine la nécessité d’un stockage inutile (et coûteux) de
pièces en surnombre [13].

La MPV et le machine learning ont développé une connexion très forte. Cependant, il n'est pas
toujours facile ou directe de réaliser une maintenance prédictive efficace pour plusieurs raisons :

• Manque de puissance prédictive dans les données : Il est possible que les données disponibles
ne contiennent pas d'informations pertinentes ou adéquates sur le problème.
• Manque de données annotées : Malgré que de grands ensembles de données puissent être
disponibles pour l'analyse, lorsqu'il s'agit de tâches supervisées, il faut obtenir des données
annotées (ou étiquetées).
• D'énormes quantités de données : Dans de nombreux scénarios du monde réel, il faut traiter
de nombreux gigaoctets ou même téraoctets de données pour pouvoir extraire des
connaissances utiles sur le domaine. Ces problèmes peuvent être plus faciles ou plus difficiles
à résoudre en fonction de l'application et le domaine considéré. Leur manque peut être un
obstacle majeur et l'acquisition peut être très coûteuse, puisqu'il faut consommer plusieurs
heures, afin d'attribuer manuellement les étiquettes de vérité terrain. Enfin, les progrès récents

8
CHAPITRE 1 MAINTENANCE PREDICTIVE

du Big Data et des technologies associées ont permis d'analyser de très grands ensembles de
données dans des environnements distribués [14].

Il existe aujourd'hui une multitude d'outils au service de la maintenance prédictive. En premier


lieu : les capteurs Internet of Things (IoT) à installer sur les équipements concernés. Parmi ceux-
ci, les capteurs BoB mis au point par Cartesiam et Eolane ou les Brainium Edge AI d'Octonion,
qui mêlent IA (Intelligence Artificielle) et IoT pour surveiller des machines en continu [15]. La
plateforme IoT permet de collecter et stocker les données et les algorithmes de machine learning
sont par ailleurs mis au point pour assurer la maintenance prédictive des équipements.
Enfin, l'application pour prévenir le technicien en temps réel [16].

1.4 Avantages et inconvénients de la maintenance prédictive

1.4.1 Les avantages

• Par rapport à la maintenance préventive, la maintenance prédictive permet :


• D’allonger la durée de vie des équipements.
• D’améliorée la fiabilité des équipements permettant ainsi d’optimiser la production.
• De réduire les coûts liés à la maintenance.
• De diminuer le nombre d’interruptions des machines pour des opérations de maintenance.
• De diminuer le nombre de pannes.
• De mieux planifier les interventions.
• De mieux préparer les équipes d’intervention.
• De mieux échanger entre les professionnels de maintenance et les équipes de production.
• De mieux anticiper et gérer les besoins de pièces détachées des outils [17].

1.4.2 Les inconvénients

• Les données peuvent être mal interprétées, entraînant de fausses demandes de maintenance.
• Il est coûteux de mettre en place un système IoT complet.
• L'analyse prédictive peut ne pas prendre en compte les informations contextuelles, Comme
l'âge de l'équipement ou les conditions météorologiques.
• La maintenance prédictive peut décourager l'inspection physique proactive Et entretien des
équipements.
• Les activités de maintenance préventive peuvent être déclenchées par des échéanciers plutôt
Que l'état de la machine d'origine [3].

9
CHAPITRE 1 MAINTENANCE PREDICTIVE

1.5 Application de la maintenance prédictive dans l’industrie

1.5.1 La maintenance prédictive des automobiles

Avec l'essor des véhicules connectés, qui permettent de collecter de nombreuses informations,
la maintenance prédictive suscite l'intérêt du secteur automobile, désireux de connaître en temps
réel l'usure des pièces mécaniques des parcs automobiles. Par exemple, avec son offre Michelin
Tire Care, le fabricant français assure la maintenance prédictive de ses pneumatiques sous forme
de service à ses clients.

1.5.2 La maintenance prédictive des ascenseurs

Vous faites partie de celles et ceux qui ont la hantise de se retrouver bloqué dans un ascenseur?
Avec la maintenance prédictive et l’IoT, il devient possible de réparer une panne d’ascenseur avant
que celle-ci ne se produise. Les principaux acteurs du marché de l’ascenseur se sont ainsi lancés
dans une course aux services de maintenance prédictive pour leurs équipements, avec des
ascenseurs toujours plus connectés et reliés à l’intelligence artificielle. A la clé, une résolution des
problèmes avant qu’ils ne surviennent, et une sécurité optimale pour les usagers. La start-up
parisienne WeMaintain a observé une division par trois des pannes au bout de 6 mois de
maintenance prédictive. Plus de 10% du parc géré par l'ascensoriste finlandais Kone était connecté
en juin 2020. Le groupe prévoit de connecter l'ensemble de ses nouveaux appareils pour proposer
des services IoT d'ici 2022 [16].

1.6 Conclusion

Nous venons de présenter les concepts actuels attachés à la fonction maintenance et plus
précisément à la maintenance prédictive en précisant les principaux mots du vocabulaire associé.
Il est bien évident que nous n’avons pas eu la prétention de faire œuvre exhaustive. Toute l’activité
de maintenance ne se résume pas à ces quelques mots dont nous avons rappelé la définition. Que
ce soit dans le domaine de la documentation, dans celui des éléments constitutifs des biens (pièces
détachées, pièces de rechange, ...), ou dans le champ des relations contractuelles (externalisation),
il existe là aussi des textes officiels, normes ou autres documents, qui précisent pour les utilisateurs
le sens à retenir pour chacun des mots employés. On ne saurait trop conseiller au lecteur de s’y
reporter en cas de besoin. Au de la de toute ces dire on peut dire que la maintenance prédictive est
l’évolution de la maintenance et elle a encore de beau jours devant elle.

10
CHAPITRE 2
Machine learning

2.1 Introduction

Le Machine Learning de son nom apprentissage automatique en français, est une forme
d’intelligence artificielle permettant aux ordinateurs d’apprendre sans avoir été programmés de
façon explicite. Cette technologie permet de développer des programmes informatiques pouvant
changer en cas d’exposition à de nouvelles données. Dans ce chapitre nous exposons tout d’abord
une brève histoire de l’intelligence artificielle et du machine learning. Ensuite, nous présentons les
concepts et les techniques les plus importantes utilisées en machine learning. Enfin, nous
établirons un état de l’art sur l’application du machine learning à la maintenance prédictive.

2.2 Naissance du machine learning

2.2.1 Définition de l’intelligence artificielle

En 1956, un groupe d’informaticiens intéressés par l'étude de l'intelligence s’est réuni lors de
la conférence de Dartmouth Collège pour poser les fondements de l’intelligence artificielle (IA).
C'est lors de cette conférence que le terme « Intelligence Artificielle » a été choisi et que l'IA fut
considérée comme un domaine de recherche.

Etymologiquement, l’intelligence est la capacité de choisir entre plusieurs éléments et


implique la capacité de prendre des décisions. Par conséquent elle permet de choisir une action en
fonction de l’effet désiré. Dans les années 1980, les chercheurs en informatique ont commencé à
remettre en question cette intelligence : c’était les débuts de l’intelligence artificielle. Depuis sa
création, plusieurs auteurs ont tenté de définir l'intelligence artificielle [18] :

• « Automatiser des activités liées au raisonnement humain, telles que la prise de décision,
la résolution de problèmes, l'apprentissage,...».
• « L'étude des facultés mentales (psychiatries) à l'aide des modèles informatique».et
McDermott, 1985)

11
CHAPITRE 2 MACHINE LEARNING

• « Discipline qui étudie la possibilité de faire exécuter par l'ordinateur des tâches pour
lesquelles l'homme est aujourd'hui meilleur que la machine ».
• « L'étude des mécanismes permettant à un agent de percevoir, raisonner, et agir ».
• « L’étude des entités ayant un comportement intelligent ».
Cette discipline est difficile à définir car elle est récente et constamment en évolution. Une
définition actuelle pourrait être : Une discipline scientifique relative au traitement de
connaissances et au raisonnement, dans le but de permettre aux machines d’exécuter des fonctions
normalement associées à l’intelligence humaine. Le concept est de développer des programmes
informatiques capables d'accomplir des tâches effectuées par les humains qui nécessitent un
apprentissage, de l’organisation, de la mémoire et un raisonnement. Le but est d’introduire des
concepts de rationalité, des fonctions de raisonnements, de perception et des fonctions cognitives
pour commander un robot dans un environnement qui lui est inconnu [17]. De manière encore plus
simplifié on pourra également définir l’intelligence artificielle comme étant : « L’ensemble des
théories et des techniques mises en œuvre en vue de produire des machines capables de simuler
l'intelligence humaine ».

Avec l'intelligence artificielle, l'homme réalise l’un de ses rêves les plus ambitieux : fabriquer
des machines dotées d'un « esprit » semblable au sien. Malgré les arguments fondamentaux qu'elle
suscite, l'intelligence artificielle a produit beaucoup de réalisations spectaculaires, comme dans les
domaines de la reconnaissance des formes ou de la voix, de prise de décision ou de la robotique
[18]. Le terme intelligence artificiel est utilisé couramment de manière interchangeable avec les
domaines qui le composent tels que le machine Learning (apprentissage automatique) et le deep
Learning (apprentissage profond) qui font partie des sous-ensembles de celles-ci d’ailleurs ce
chapitre est en partie intégrante axé sur le machine learning.

2.2.2 Définition du machine learning

Le machine learning (ML) est une branche de l'intelligence artificielle qui permet aux
ordinateurs d'apprendre sans être explicitement programmés pour cela [3]. Le ML est constitué
d’un ensemble d'algorithmes avancés par lesquels les résultats peuvent être prédits sur la base d'un
modèle préparé et formé sur des données d'entrée historiques et son comportement de sortie [19].
Cependant, selon l'approche machine learning choisie, les performances et les avantages peuvent
varier. De nos jours, les techniques du ML sont appliquées dans plusieurs domaines de fabrication
tels que la maintenance, l'optimisation, le dépannage et le contrôle [5].

Durant ces dernières années, le machine learning est devenu de plus en plus important dans le
domaine informatique car les données peuvent être collectées et stockées beaucoup plus

12
CHAPITRE 2 MACHINE LEARNING

facilement. Les données collectées sont souvent si volumineuse qu'il n'est pas pratique de les
analyser manuellement. Dans un tel scénario, la technique de ML joue un rôle clé. Une autre raison
de la popularité croissante du ML est la réduction des coûts de calcul. Avec l'évolution du matériel
ces dernières années, l'utilisation d'approches du ML en maintenance industrielle est devenue
efficace en termes de temps et d'argent, notamment pour la détection des types de pannes et pour
la maintenance prédictive.

2.2.3 Les applications du machine Learning

De la détection de fraude à la reconnaissance vocale, en passant par la prévision des prix, les
applications du machine Learning sont nombreuses et peuvent améliorer considérablement divers
domaines. En fonction de la nature des données, de la masse à traiter et de l’utilisation des
informations obtenues, le choix d’appliquer un certain type d’algorithme peut varier. Quoi qu’il
en soit le ML dispose d’un réel potentiel et peut permettre d’améliorer de nombreux domaines
[19]. De même à partir de données, il permet de prédire, de diagnostiquer ou de recommander
automatiquement tout ce qui intéresse une entreprise. C’est donc une technique transversale, qui
s’applique à de très nombreux domaines, et dont tous les cas d’usage n’ont pas encore été trouvés,
loin de là. En un mot, le Machine Learning peut emmener l’entreprise qui l’adopte au plus haut
degré de l’analytique et remplir précisément les missions qui lui sont assignées. On présente ici
quelques cas d’application.

2.2.3.1 Finance - Assurance

• Modélisation d’indicateurs économiques,


• Personnalisation de l’expérience client,
• Evaluation de la solvabilité de l’emprunteur,
• Détection de fraudes,
• Analyse de marché et analyse comparative.
2.2.3.2 Marketing - digital

• Segmentation clients au sein de DMP (data management Platform),


• Analyse multicanal,
• Notation des prospects,
• Optimisation de stratégies SEA (Google AdWords).
2.2.3.3 E - commerce

• Analyse de paniers,

13
CHAPITRE 2 MACHINE LEARNING

• Personnalisation de recommandations produites,


• Analyse de sentiment sur les réseaux sociaux,
• Evaluation de la satisfaction client,
• Ventes additionnelles et ventes croisées.
2.2.3.3 Industrie

• Détermination et ajustement de prix,


• Prévision des stocks,
• Maintenance prédictive sur les données d’objets connectés (IoT) [20].

2.3 Approches du machine learning

Il existe deux grandes approches en apprentissage automatique : l’apprentissage non supervisé et


l’apprentissage supervisé chacun procédant par ces propres méthodes comme sur la figure 2.1.
L’apprentissage supervisé est ce qui nous intéresse pour la prédiction. Elle est constituée de
plusieurs algorithmes que ce soit pour la régression ou la classification. Pour bien choisir un
algorithme il faut comprendre les fondements des algorithmes existants et de ce qui permet de les
distinguer ce qui permet de créer les modèles qui traiteraient au mieux un problème particulier.

Machine Learning

Supervisé Non-supervisé Par renforcement

Classification Regression Claustering Simulated


Annealing

- SVR - Hierarchical Estimated Value


- SVM
- Neural Networks - K-medoids, Functions
- Naive Bayes
- Decision Tree K-Means,
- Nearest Neighbor
- Linear Regression Fuzzy C-Means
- Discriminant Analysis Genetic Algorithms
- GLM - Hidden Markov
- GPR - Gaussian Mixture
- Ensemble Methods - Neural Networks

Figure 2-1 Taxonomie des différentes techniques issues de l’apprentissage automatique.

14
CHAPITRE 2 MACHINE LEARNING

2.3.1 Apprentissage automatique non supervisés

Le ML non supervisé définit essentiellement toute méthode de ML qui tente d'apprendre la


structure en l'absence d'une sortie identifiée (comme le ML supervisé) ou de la rétroaction (comme
l'apprentissage par renforcement) [5]. Les tâches non supervisées les plus courantes sont le
clustering, dues au fait que les clusters (labels) ne sont pas connues à l'avance [15]. Les ordinateurs
apprennent à identifier par eux-mêmes les similitudes et les distinctions entre les données, et à
regrouper ceux qui partagent des caractéristiques communes sans aucune orientation humaine
stricte et rigoureuse [3] (voir figure 2.2).

Données Algorithme
historiques d'apprentissage
automatique

Données Modèle basé sur


actuelles Résultats
les données

Figure 2-2 Apprentissage automatique non supervisé.

L’apprentissage non supervisé est fréquemment appliqué dans l’analyse de grappes, à savoir
les systèmes de recommandation, le regroupement de clients et la réduction de la dimensionnalité
des facteurs [21]. L'apprentissage automatique non supervisé peut être comparé à un enfant qui
apprend à identifier le type de fruit en observant le motif et la couleur, au lieu de mémoriser les
noms avec l'aide d'une autre personne. Il recherche des similitudes entre les images, les séparant
ainsi en groupes, tout en attribuant à chaque groupe son propre label [3]. Pour les problèmes de
détection de type de défaillance et de maintenance prédictive, la technique d'apprentissage non
supervisé est une technique d'apprentissage inhabituelle, car le clustering et l'estimation de la
densité des données historiques ne sont pas efficaces pour la détection précise du type de
défaillance et la maintenance prédictive [19].

2.3.2 Apprentissage automatique supervisé

L’apprentissage supervisé est un type d’apprentissage automatique qui utilise un ensemble de


données connu pour effectuer des prédictions. L’ensemble de données d’apprentissage se compose
de données d’entrée et de valeurs de réponse. Les algorithmes d’apprentissage supervisé cherchent
à créer un modèle capable de prédire les valeurs de réponse d’un nouvel ensemble de données.

15
CHAPITRE 2 MACHINE LEARNING

L’utilisation d’ensemble de données d’apprentissage (ou donnée d’entraînement) plus volumineux


et l’optimisation des hyper paramètres du modèle peuvent souvent augmenter le pouvoir prédictif
du modèle et lui permettre de bien généraliser pour les nouveaux jeux de données (ensembles de
données). Un ensemble de données de test est souvent utilisé pour valider le modèle [1].

Dans le domaine de la détection des types de défaillance et de la maintenance prédictive, la


technique d'apprentissage supervisé est la technique d'apprentissage la plus couramment utilisée,
car le système réel est surveillé et les données historiques sont disponibles. De plus, les données
historiques peuvent être liées à l'état réel du système. Vu que tous les enregistrements de données
collectées ne peuvent pas être utilisés comme exemples d'apprentissage, les données doivent être
filtrées. Chaque enregistrement de données d'entraînement est étiqueté en fonction de son résultat
attendu. L'ensemble de données résultant est appelé données d'entraînement. Il est traité par une
technique d'apprentissage automatique qui examine la relation entre un enregistrement de données
et la sortie étiquetée, puis crée un modèle basé sur les données. Pour toute nouvelle donnée, ce
modèle essaie de donner le meilleur résultat basé sur les données apprises [19]. Les étapes
d’apprentissage supervisé peuvent être représentées par la figure 2.3.

Données
historiques
Algorithme
Learning d'apprentissage
Data automatique

Labels

Modèle basé
Données Résultats
sur les
actuelles
données

Figure 2-3 Apprentissage automatique supervisé.

Du point de vue du machine learning, en fonction de la sortie de l'ensemble de données, deux


classes de problèmes supervisés sont possibles : un problème de régression (si la sortie suppose
des valeurs continues) et problème de classification (si la sortie prend des valeurs catégorielles)
[22]. Ainsi, nous avons les algorithmes de classification et les algorithmes de régression.

16
CHAPITRE 2 MACHINE LEARNING

2.3.2.1 La régression

C’est la tâche d'apprentissage (fitting) d'un modèle dont les variables dépendantes (ou
variables de sortie) sont continues. C'est l'un des problèmes les plus étudiés avec des applications
dans presque tous les domaines et ainsi, de nombreux modèles de régression ont été proposés, tels
que la régression linéaire avec régularisation, la régression à vecteurs de support, la régression
polynomiale, …etc [15].

2.3.2.2 La Classification

Dans l’apprentissage automatique et les statistiques, la classification est le problème qui


consiste à identifier à quel groupe de catégories (sous-populations) une nouvelle observation
appartient, à partir d’un ensemble d’apprentissages contenant des données dont l’appartenance à
une catégorie est connue. Par exemple, attribuer un courrier électronique donné à la classe « spam »
ou « non-spam » et attribuer un diagnostic à un patient donné en fonction des caractéristiques
observées du patient (sexe, pression artérielle, présence ou non de certains symptômes, …etc.).

La classification est considérée comme un exemple d’apprentissage supervisé et de


reconnaissance de formes, c’est-à-dire un apprentissage dans lequel un ensemble de formations
d’observations correctement identifiées est disponible. La procédure non supervisée
correspondante est connue sous le nom de clustering. Elle consiste à regrouper des données en
catégories en fonction d’une mesure de la similarité inhérente ou de la distance [3].

Les modèles de classification sont utilisés pour affecter des éléments à un groupe ou une classe
discrète en fonction d’un ensemble spécifique de fonctionnalités. Chaque modèle a ses propres
forces et faiblesses dans un scénario donné. Le choix d’un modèle de classification des données
est étroitement lié à l’analyse de rentabilisation et à une solide compréhension de ce qu’on essaye
d’accomplir. Le choix de la bonne approche nécessite souvent des essais et des erreurs pour
atteindre le bon équilibre entre complexité, performances et précision. Les sections suivantes
décrivent certains des modèles courants qui sont utiles à connaître [1].

2.4 Algorithmes du machine learning

2.4.1 Régression linéaire

La régression linéaire est l'une des plus anciennes techniques de prédiction en statistique.
L'objectif de la régression linéaire est d'adapter un modèle linéaire entre la réponse et les variables
indépendantes, et de l'utiliser pour prédire le résultat compte tenu d'un ensemble de variables
indépendantes observées. Un modèle de régression linéaire simple utilise une formule de la forme :

17
CHAPITRE 2 MACHINE LEARNING

𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝛽4 𝑥4 + ⋯ + 𝜀

Où :

• Y est la variable de réponse (c'est-à-dire le résultat qu’on essaie de prédire).


• X1, X2, X3, etc. sont les variables indépendantes utilisées pour prédire le résultat.
• 0 est une constante qui est l'intersection de la droite de régression.
• 1, 2, 3, etc. sont les coefficients des variables indépendantes. Il s'agit des pentes partielles
de chaque variable.
•  est l'erreur ou le bruit associé à la variable de réponse qui ne peut pas être expliqué par les
variables indépendantes X1, X2, and X3.

Un modèle de régression linéaire a deux composantes : une partie déterministe (i.e. b1X1 +

b2X2 + ...) et une partie aléatoire (i.e. l'erreur, ). On peut considérer ces deux composants comme
le signal et le bruit dans le modèle. Si On n’a qu'une seule variable d'entrée X, le modèle de
régression est la meilleure ligne qui correspond aux données. La figure 2.4 montre un exemple de
modèle de régression linéaire simple. Avec deux variables d'entrée, la régression linéaire est le
meilleur plan qui s'adapte à un ensemble de points de données dans un espace 3D. Les coefficients
des variables (i.e. 1, 2, 3, etc.) sont les pentes partielles de chaque variable. Si on maintient
toutes les autres variables constantes, le résultat Y augmentera de 1 lorsque la variable X1
augmentera de 1. C'est pourquoi les économistes utilisent généralement l'expression « ceteris
paribus » ou « toutes choses étant égales par ailleurs » pour décrire l'effet d'une variable
indépendante sur un résultat donné.

Points de données
Variable Dépendent

Ligne de régression

Variable indépendante

Figure 2-4 Un modèle de régression linéaire simple.

18
CHAPITRE 2 MACHINE LEARNING

La régression linéaire utilise les méthodes des moindres carrés ou de descente de gradient pour
trouver les meilleurs coefficients de modèle pour un ensemble de données fournies. La méthode
des moindres carrés y parvient en minimisant la somme de l'erreur quadratique entre les valeurs
ajustées et réelles de chaque observation dans les données d'apprentissage. La descente de gradient
trouve les coefficients de modèle optimaux en mettant à jour les coefficients à chaque itération.
Les mises à jour vont dans le sens où la somme des erreurs entre le modèle ajusté et les valeurs
réelles des données d'apprentissage est réduite. Par plusieurs itérations, il trouve le minimum local
en se déplaçant dans le sens du gradient négatif [23].

2.4.2 Algorithme Ridge

La régression Ridge est une méthode de réglage de modèle qui est utilisée pour analyser toutes
les données qui souffrent de multicolinéarité. Cette méthode effectue la régularisation L2. Lorsque
le problème de la multicolinéarité se produit, que les moindres carrés ne sont pas biaisés et que les
variances sont importantes, les valeurs prédites sont donc éloignées des valeurs réelles.

La fonction de coût pour Ridge régression :

𝑀𝑖𝑛(||y − x(θ)||2 + λ||θ||2 )

Lambda est le terme de pénalité. λ donné ici est noté par un paramètre alpha dans la fonction
de Ridge. Ainsi, en changeant les valeurs d'alpha, nous contrôlons le terme de pénalité. Plus les
valeurs d'alpha sont élevées, plus la pénalité est grande et donc l'amplitude des coefficients est
réduite.

- Il réduit les paramètres. Par conséquent, il est utilisé pour empêcher la multicolinéarité.

- Il réduit la complexité du modèle par le retrait du coefficient.

Pour tout type de modèles d'apprentissage automatique de régression, l'équation de régression


habituelle constitue la base qui s'écrit comme suit :

Y=𝑋𝐵+𝑒

Où Y est la variable dépendante, X représente les variables indépendantes, B est les coefficients
de régression à estimer et e représente les erreurs sont des résidus.

Une fois que nous ajoutons la fonction lambda à cette équation, la variance qui n'est pas
évaluée par le modèle général est considérée [24].

19
CHAPITRE 2 MACHINE LEARNING

2.4.3 Algorithme Lasso

Contrairement aux méthodes de régression classiques, la régression LASSO (Least Absolute


Shrinkage and Selection Operator) introduit un terme de pénalisation (d’où l’appellation
régression pénalisée) dans la fonction objectif, et ce afin de favoriser la parcimonie du modèle
final. L’objectif principal de cette méthode est alors d’améliorer la robustesse du modèle sur un
échantillon indépendant de la base d’apprentissage. Cette amélioration réside dans le fait que, bien
que le modèle soit volontairement biaisé par le terme de pénalité, la variance du modèle est réduite.

E [Y/X] =𝑔−1 = (𝛽0 + 𝛽1 ∗ 𝑋1 + ⋯ + 𝛽𝑝 ∗ 𝑋𝑝 )

Où Y est la variable cible, X = (𝑋1 , … 𝑋𝑝 ) est la matrice design contenant les variables
explicatives, et 𝛽 = (𝛽0 , … , 𝛽𝑝 ) sont les p+1 coefficient à estimer. Ainsi, qu’il s’agisse d’une
minimisation de l’erreur quadratique dans le cadre d’une régression linéaire ou d’une
maximisation de la vraisemblance, la régression LASSO ajoute un terme de pénalité correspondant
à la norme L1 du vecteur 𝛽 [25].

2.4.4 L’arbre de décision

Un arbre de décision DT (Decision Tree) est un enchaînement hiérarchique de règles logiques


ou de production construite de manière automatique à partir d’un ensemble de données. La
construction de l’arbre de décision consiste à utiliser les descripteurs, pour subdiviser
progressivement l’ensemble en sous-ensembles de plus en plus fins. L’algorithme estime la
probabilité qu’une observation se trouve dans le nœud 𝑡 en utilisant la formule :

𝑃(𝑇) = ∑𝑗∈𝑇 𝑤𝑗

Où :

𝑤𝑗 : Poids des observations,

𝑇 : Ensemble de tous les indices d’observation du nœud 𝑡,

𝑛 : Égale au nombre d’observations.

20
CHAPITRE 2 MACHINE LEARNING

Les arbres de décision sont des algorithmes de classification de données reposant sur un
apprentissage supervisé. Comme son nom l’indique, la structure de ces algorithmes ressemble à
des arbres constitués de nœuds, de branches et de feuilles (voir figure 2.5). La construction de ces
arbres est réalisée à l’aide d’une base de données brute (vecteur des caractéristiques et classes) et
de lois qui permettent de déterminer les variables discriminantes pour la classification efficace des
futures données. Chacun des nœuds constituant l’arbre représente une règle de classification
préalablement déterminée de manière récursive.

X1>25
oui
Non

X2>3.8 switch(X3)
oui Non 10 23 else

0.8 0.6 0.5 0.3 0.1

Figure 2-5 Exemple de l’arbre de décision.

Dans les domaines de l’informatique décisionnelle et du forage de données, ce type


d’algorithmes est très utilisé, car ils permettent de construire automatiquement des classifications
et leur vitesse d’exécution surpasse tous les autres types des algorithmes. Cependant, ils ne
permettent pas d’obtenir de bons résultats quand les données sont complexes. Pour voir comment
un arbre de décision prédit une réponse, il faut suivre les décisions dans l’arbre du nœud racine
(début) jusqu’au nœud feuille qui contient la réponse. Les arbres de classification donnent des
réponses nominales, tel que vrai ou faux et les arbres de régression donnent des réponses
numériques. Les arbres de décision sont relativement rapides et faciles à suivre dans leur
résolution ; on peut voir une représentation complète du chemin parcouru de la racine à la feuille.
Cela est particulièrement utile si vous devez partager les résultats avec des personnes intéressées
par la manière dont une conclusion a été tirée [2]. La popularité des arbres de décision est justifiée
par les raisons suivantes :

• Ils sont faciles à comprendre.


• Ils peuvent être utiles avec ou sans données concrètes, et les données ne nécessitent pas
beaucoup de traitement.
• De nouvelles options peuvent être ajoutées aux arbres existants.
• Ils vous permettent de choisir l'option la plus appropriée parmi plusieurs.
• Il est facile de les combiner à d'autres outils de prise de décision.

21
CHAPITRE 2 MACHINE LEARNING

Les arbres de décision peuvent toutefois devenir extrêmement complexes. Dans ce cas, un
diagramme d'influence, plus compact, pourrait être une bonne alternative. Les diagrammes
d'influence se focalisent sur les décisions, données et objectifs critiques [26].

2.4.5 Machine à vecteurs de support

Support Vector Machine (SVM) ou la machine à vecteurs de support est une technique de
machine Learning bien connue qui est largement utilisée pour l'analyse de classification et de
régression, en raison de sa grande précision [5]. Les SVMs ont été développées à l’origine par
Vapnik et ses collègues en 1992 sur la base de la théorie de l’apprentissage statistique de Vapnik
& Chervonenkis dans les années 1960. Elles ont été appliquées avec succès dans de nombreuses
applications, notamment la reconnaissance manuscrite, la prédiction de séries chronologiques, la
reconnaissance vocale, le problème de séquence protéique, le diagnostic du cancer du sein et bien
d’autres [27].

Les machines à vecteurs de support sont utilisées lorsque les données ont exactement deux
classes. L’algorithme SVM classe les données en trouvant le meilleur hyperplan qui sépare tous
les points de données d’une classe de ceux de l’autre classe (le meilleur hyperplan pour un SVM
est celui avec la plus grande marge entre les deux classes) (voir figure 2.6). L’algorithme SVM
peut aussi être utilisé avec plus de deux classes, auquel le modèle créera un ensemble de sous-
ensembles de classification binaire [2]. Habituellement, la frontière entre deux classes est un
espace vectoriel d'entrée non linéaire. Dans cette situation, l'hyperplan multidimensionnel doit être
non linéaire. Créer une fonction multidimensionnelle non linéaire qui tente de maximiser la marge
(le rendement) entre les différentes classes est une tâche très difficile. Une machine à vecteurs de
support utilise une fonction noyau pour mapper (stocké une ressource pour y accéder plus
rapidement) le vecteur d'entrée sur un espace de dimension supérieure, là où un hyperplan linéaire
entre différentes classes est possible, avec une marge maximale entre les différentes classes pour
réduire les erreurs de classification. L'emplacement de la limite est déterminé par un sous-
ensemble de points de données historiques, appelés vecteurs de support. De la même manière
qu'avec la classification, il existe une motivation pour rechercher et optimiser les limites dans
l'espace dimensionnel supérieure donné pour la régression [28].

L’utilisation de l’algorithme SVM présente quelques avantages importants. Tout d’abord, il


est extrêmement précis et n’a pas besoin d’être équipé de trop de données. Deuxièmement, les
SVM linéaires sont relativement faciles à comprendre. Parce que les modèles SVM sont très
rapides, une fois que votre modèle a été formé, vous pouvez supprimer les données d’entraînement
si vous disposez une capacité de mémoire disponible limitée. Par contre, les algorithmes SVM ont

22
CHAPITRE 2 MACHINE LEARNING

besoin de formation et de réglage à l’avance, il est donc nécessaire d’investir du temps dans le
modèle avant de pouvoir commencer à l’utiliser. De plus, sa vitesse est fortement affectée si vous
utilisez le modèle avec plus de deux classes [2].

X Datasets (class 1)
Datasets (class 2)

Class 1 Class 2 Y

Figure 2-6 Machines à vecteurs de support.

La machine à vecteurs de support avec l’hyperplan à marge maximale se concentre sur un


compromis entre la précision du modèle et la capacité du modèle à prédire les valeurs futures [29].
Cette caractéristique tend à améliorer l’efficacité du SVM pour prévoir les futurs sortis, ce qui est
une exigence principale pour une approche de machine learning pour la détection des types de
défaillance et la maintenance prédictive [19].

2.4.6 k-plus proche voisin (KNN)

K-Nearest Neighbors (KNN), ou le k-plus proche voisin, est un algorithme simple


d'apprentissage automatique supervisé qui peut être utilisé pour résoudre des problèmes de
classification et de régression. Dans la classification, il est basé sur le vote majoritaire des voisins.
Un objet est classé par un vote majoritaire de ses voisins, l'objet étant attribué à la classe la plus
commune parmi ses k voisins les plus proches, où k est le numéro du voisin de l’objet. Le choix
du paramètre k est très crucial dans cet algorithme dont le meilleur choix dépend des données. En
général, des valeurs plus élevées de k réduisent l'influence du bruit sur la classification [2].

Dans la figure 2.7, si on choisit k = 3, l'algorithme cherche les trois plus proches voisins du
cercle rouge pour pouvoir le classé soit dans la classe des cercles, soit dans la classe des carrés.
Dans ce cas, les trois plus proches voisins du cercle rouge sont un carré et deux cercles. Par
conséquent, l'algorithme classera le cercle rouge dans la classe des cercles.

23
CHAPITRE 2 MACHINE LEARNING

Figure 2-7 Exemple de classification par l’algorithme KNN.

2.4.7 Régression logistique

L'algorithme de régression logistique est destiné aux tâches de classification. Nous utilisons
la régression logistique lorsque l'attribut immature est mentionné, et qu'il existe un ou plusieurs
attributs autonomes. Il est similaire à différentes régressions linéaires. L'objectif de la régression
logistique est de trouver le meilleur modèle approprié pour décrire les relations au sein de la
caractéristique dichotomique d'intérêt et d'un ensemble d'attributs autonomes.

Il existe différents types de régressions logistiques, telles que la régression logistique binaire,
multiple, ordonnée, mixte et conditionnelle. Dans la régression logistique binaire ou binomiale,
deux résultats possibles sont zéro ou un. Si un résultat de la variable dépendante est un résultat
remarquable, alors ce résultat est généralement codé comme « un » et l'autre résultat noté « zéro ».
La régression logistique binomiale utilisera les variables indépendantes pour prédire les
probabilités. La régression logistique multinomiale ou la logistique multinomiale peut gérer plus
de deux variables dépendantes pour représenter une dépendance catégorielle multiple. La
régression logistique ordonnée gère les variables dépendantes ordinales [30].

2.4.8 Régression polynomiale

Maintenant que nous avons vu comment fonctionne la régression linéaire, il est temps d'utiliser
des fonctions polynomiales plus complexes pour généraliser sur des données non linéaires (voir
figure 2.8). En réalité, le seul changement apporté est basé sur notre fonction d'hypothèse puisque
la fonction d'erreur et les deux algorithmes restent exactement les mêmes. Il suffit donc d'employer
une fonction d'hypothèse polynomiale :

ℎ𝜃 (𝑥) = 𝜃0 + 𝜃1 𝑥1 + 𝜃2 𝑥22 + ⋯ + 𝜃𝑛 𝑥𝑛𝑑

Dans cette expression, d représente le degré maximum de notre fonction.

24
CHAPITRE 2 MACHINE LEARNING

Dans le cas où l’on a peu d'attributs, et qu'on veut une fonction très complexe, il est
parfaitement possible d'utiliser plusieurs fois les mêmes attributs mais avec différents degrés, par
exemple :

ℎ𝜃 (𝑥) = 𝜃0 + 𝜃1 𝑥1 + 𝜃2 𝑥12 + 𝜃3 𝑥13

Il est également courant d'ajouter d'autres termes que de simples puissances, comme des
exponentiations, des logarithmes, des racines carrées, des fonctions trigonométriques, etc. dans le
but de modéliser des fonctions avec un aspect particulier pour bien coller à nos données.

Si possible, afficher les données sur un graphique est la meilleure chose à faire pour que nous
puissions voir les types d'attributs (propriétés) qu’il nous faut pour notre fonction d'hypothèse.
Sinon, il est toujours envisageable de tester plusieurs combinaisons pour voir laquelle est la
meilleure selon le résultat de la fonction d'erreur [31].

Figure 2-8 Exemple de régression polynomiale sur des données non-linéaires.

2.4.9 Random forest

Radom Forest (RF) est un algorithme d'apprentissage supervisé pour les tâches de
classification et de régression. Comme son nom l'indique (forêt aléatoire), un RF crée un ensemble
(une forêt) avec plusieurs arbres de décision aléatoires. Le RF entraîne le système plusieurs fois
avec un échantillon de jeu de données arbitraire pour fournir un modèle de prédiction
extraordinaire. Il donne une prédiction définitive en utilisant les résultats DT comme dans la
méthode d'apprentissage d'ensemble. S’il s'agit d'une prédiction qui se produit plusieurs fois dans
l'arbre de décision, il s'agit de la prédiction de haut niveau de la forêt aléatoire. La puissance

25
CHAPITRE 2 MACHINE LEARNING

centrale de l'algorithme de forêt aléatoire réside dans sa commodité pour résoudre à la fois la
classification et la régression qui permettent de bons calculs de celles-ci. Il gère les grands
ensembles de données très doucement sans perdre la dimensionnalité. Il fournit des méthodes
efficaces pour analyser les données manquantes [30]. Le but de la méthode RF est d'obtenir des
résultats plus efficaces avec plus d'un décideur comme dans d'autres méthodes. La différence de
cette méthode par rapport aux autres méthodes est que les variables sont sélectionnées au hasard
lorsque les branches se ramifient [32].

2.4.10 Naïve Bayes

Si les données ne sont pas complexes et que la tâche est relativement simple, les algorithmes
Naïve Bayes peuvent être utilisés. Il s’agit d’un classificateur qui présente des avantages par
rapport aux algorithmes de régression logistique et de l’algorithme k-plus proche voisin, lorsqu’il
travaille avec une quantité limitée de données disponibles pour former un modèle. L’algorithme
Naïve Bayes est également un bon choix lorsque les ressources CPU et mémoire sont un facteur
limitant. Parce qu’il est très simple, il n’a pas tendance à surcharger les données et peut être formé
très rapidement. Il fonctionne également bien avec les nouvelles données continues utilisées pour
mettre à jour le classificateur. Si la taille et la variance des données augmentent et que vous avez
besoin d’un modèle plus complexe, d’autres classificateurs fonctionneront probablement mieux.
De plus, sa simple analyse n’est pas une bonne base pour des hypothèses complexes. L’algorithme
Naïve Bayes est souvent le premier algorithme que les scientifiques essaient d’utiliser pour
analyser du texte. C’est un algorithme de classification qui applique une estimation de densité aux
données. L’algorithme exploite le théorème de Bayes et suppose que les données prédites sont
conditionnellement indépendantes. C’est un classificateur probabiliste, qui est basé sur le théorème
de Bayes [2] :

𝑃(𝐵 ⁄𝐴)×𝑃(𝐴)
𝑃(𝐴⁄𝐵) = 𝑃(𝐵)

2.4.11 Réseaux de neurones artificielles

Artificial Neural Networks (ANNs), ou les réseaux de neurones artificiels, sont des modèles
informatiques de traitement de l'information inspirés de la structure neuronale du cerveau. ANNs
se composent d'un certain nombre de nœuds de traitement interconnectés appelés neurones. Les
neurones sont généralement organisés en une séquence de couches, comprenant une couche
d'entrée, une seule ou un ensemble de couches intermédiaires et une couche de sortie. La couche
d'entrée reçoit les données d'entrée du réseau mais n'effectue aucun calcul. La couche de sortie
donne la réponse du réseau à l'entrée spécifiée. Les couches intermédiaires, également appelées

26
CHAPITRE 2 MACHINE LEARNING

couches cachées, sont généralement connectées aux couches d'entrée et de sortie. Chaque neurone
des couches cachées et de sortie reçoit les signaux de tous les neurones d'une couche au-dessus,
puis effectue une sommation pondérée et une fonction de transfert des entrées [33].

Les réseaux de neurones artificiels sont des modèles d'apprentissage supervisé, généralement
adoptés pour les problèmes de régression et de classification [21]. Il existe de nombreux
algorithmes de réseaux neuronaux différents, notamment les réseaux de backpropagation, les
réseaux de Hopfield, les réseaux de Kohonen (également appelés cartes auto-organisées) et les
réseaux de théorie de la résonance adaptative. Cependant, le plus courant est l'algorithme de rétro-
propagation, également connu sous le nom de perceptron multicouche. Le réseau de rétro-
propagation comporte plusieurs neurones disposés en couches. L'architecture la plus couramment
utilisée est le réseau à trois couches illustré à la Figure 2.9. Cette architecture a une couche d'entrée,
une couche cachée et une couche de sortie. Cependant, on peut également avoir deux ou plusieurs
couches cachées. Le nombre de nœuds d'entrée et de sortie est déterminé par l'ensemble de
données. Fondamentalement, le nombre de nœuds d'entrée est égal au nombre de variables
indépendantes que vous souhaitez utiliser pour prédire la sortie. Le nombre de nœuds de sortie est
le même que le nombre de variables de réponse. En revanche, le nombre de nœuds cachés est plus
flexible.

Figure 2-9 Un réseau de neurones à trois couches.

Le développement de modèles de réseaux de neurones se fait en deux étapes : apprentissage


et test. Pendant l'entraînement, vous montrez au réseau de neurones un ensemble d'exemples de
l'ensemble d'entraînement. Chaque exemple a des valeurs des variables indépendantes ainsi que

27
CHAPITRE 2 MACHINE LEARNING

des variables de réponse. Pendant la formation, vous montrez les exemples plusieurs fois au réseau
de neurones. A chaque itération, le réseau prédit la réponse. Dans la phase de propagation vers
l'avant de l'apprentissage, chaque nœud des couches cachées et de sortie calcule une somme
pondérée de ses entrées, puis utilise cette somme pour calculer sa sortie via une fonction
d'activation. La sortie de chaque neurone du réseau de neurones utilise généralement la fonction
d'activation sigmoïde suivante :

1
𝑓 (𝑥 ) =
1 + 𝑒 −𝑥

Il existe cependant d'autres fonctions d'activation qui peuvent être utilisées dans les réseaux
de neurones, telles que la gaussienne, la tangente hyperbolique, le seuil linéaire et même une
simple fonction linéaire. Supposons qu'il y a M nœuds d'entrée. Les poids de connexion entre les
nœuds d'entrée et la première couche cachée sont notés w1. À chaque nœud caché, la somme
pondérée est donnée par :

𝑠𝑗=∑𝑀−1(𝑎𝑖 𝑤1 )
𝑖=0 𝑖𝑗

Lorsque la somme pondérée est calculée, la fonction d'activation sigmoïde est calculée comme
suit :

1
𝑓(𝑠𝑗 ) =
1 + 𝑒 −𝑠𝑗

Une fois le niveau d'activation du nœud de sortie calculé, l'étape de propagation vers l'arrière
commence. Dans cette phase, l'algorithme calcule l'erreur de sa prédiction en fonction de la valeur
de réponse réelle. En utilisant la méthode de descente de gradient, il ajuste les poids de toutes les
connexions proportionnellement à l'erreur. Les poids sont ajustés de manière à réduire l'erreur la
prochaine fois. Après plusieurs itérations, le réseau de neurones converge vers une solution.
Pendant les tests, vous utilisez simplement le modèle entraîné pour noter les enregistrements. Pour
chaque enregistrement, le réseau de neurones prédit la valeur de la réponse pour un ensemble
donné de variables d'entrée.

Le taux d'apprentissage détermine le taux de convergence vers une solution. Si le taux


d'apprentissage est trop faible, l'algorithme aura besoin de plus d'itérations d'apprentissage (et donc
de plus de temps) pour converger vers le minimum. En revanche, si le taux d'apprentissage est trop
élevé, l'algorithme rebondit et peut ne jamais trouver le minimum local. Par conséquent, le réseau
de neurones sera un mauvais prédicteur. Un autre paramètre important est le nombre de nœuds
cachés. La précision du réseau de neurones peut augmenter avec le nombre de nœuds cachés.
Cependant, cela augmente le temps de traitement et peut conduire à un sur-ajustement. En général,

28
CHAPITRE 2 MACHINE LEARNING

l'augmentation du nombre de nœuds cachés ou de couches cachées peut facilement conduire à un


sur-paramétrage, ce qui augmentera le risque de sur-ajustement. Une règle empirique consiste à
commencer par le nombre de nœuds cachés égal à peu près à la racine carrée du nombre de nœuds
d'entrée. Une autre règle générale est que le nombre de neurones dans la couche cachée doit être
compris entre la taille de la couche d'entrée et la taille de la couche de sortie. Par exemple :

(Nombre de nœuds d'entrée + nombre de nœuds de sortie) × 2/3.

Ces règles empiriques ne sont que des points de départ, destinés à éviter le sur-ajustement; le
nombre optimal ne peut être trouvé que par l'expérimentation et la validation des performances sur
les données de test [23].

D'autres techniques basées sur l'ANN sont les techniques d'apprentissage en profondeur (deep
learning) ou ANN purement multicouches. Dans le deep learning, les données sont apprises à
différents niveaux de hiérarchie. Cette capacité d'apprentissage à différents niveaux d'abstraction
permet à un système d'apprendre des fonctions complexes qui peuvent mapper les données d'entrée
directement à la sortie [34].

2.4.12 Le perceptron multicouche

Multi Layer Perceptron (MLP), ou perceptron multicouches est un classificateur de type


réseaux de neurones qui est organisé en plusieurs couches, chaque couche étant formée d’un ou
plusieurs neurones formels. Utilisé dans un cas d’apprentissage supervisé, il utilise l’algorithme
de retro propagation de gradient.

Figure 2-10 Fonctionnement d’un neurone artificiel.

La figure juste au-dessus représente le fonctionnement d’un neurone formel. C’est un


composant calculatoire qui fait la somme pondérée des signaux reçus en entrée, puis on leur
applique une fonction d’activation afin d’obtenir Y.

Voici les caractéristiques du modèle :

• Il comporte une seule couche d’entrée et une seule couche de sortie.

29
CHAPITRE 2 MACHINE LEARNING

• Il peut comporter une ou plusieurs couches cachées.


• Chaque neurone est relié uniquement à tous les neurones de la couche suivante.
• Chaque lien de la couche i vers la couche suivante j sert à propager l’activation ai de i jusqu’à
j et qui possède un poids wij qui détermine l’intensité du signal de la connexion. Chaque unité
de la couche j calcul la somme pondéré de ses entrées :
𝑛
𝑖𝑛𝑗 = ∑ (𝑤𝑖𝑗 𝑎𝑖 )
𝑖=0

Puis leur applique une fonction d’activation :

𝑎𝑗 = 𝑔(𝑖𝑛𝑗 ) = 𝑔(∑𝑛𝑖=0 𝑤𝑖𝑗 𝑎𝑖 )

Figure 2-11 Structure d'un PMC composé de deux couches cachées.

L’algorithme d’apprentissage consiste à présenter au réseau des entrées et on lui demande de


modifier sa pondération de façon à retrouver la sortie correspondante. D’abord on propage vers
l’avant les entrées jusqu’à obtenir une sortie calculée par le réseau puis on compare cette sortie
avec la sortie désirée, enfin on modifie les poids de telle sorte qu’à la prochaine itération l’erreur
commise entre les sortie réelles et les sortie désirées soit minimisée. On répète ce processus jusqu’à
ce qu’on obtienne une erreur de sortie négligeable.

Il a la Capacité de découvrir les dépendances par lui-même, il est résistance aux bruits par contre
c’est un modèle boite noire qui n’explique pas ses décisions [35].

2.5 Etat de l'art sur le ML pour la maintenance prédictive

Récemment, les chercheurs ont lancé beaucoup de travaux de recherche afin d’appliquer les
techniques de l’apprentissage automatique à la maintenance industrielle. Par exemple, l’auteur de

30
CHAPITRE 2 MACHINE LEARNING

[6] a proposé une nouvelle approche de pronostic basé sur le modèle cloud computing et le principe
de multitenancy afin de présenter le pronostic en tant que service. Son approche fournit une
solution de pronostic efficace à la demande d’un client tout en assurant une meilleure qualité du
service. Il a implémenté et testé sur des données de moteurs d’avions de la NASA trois méthodes
de pronostic guidé par les données (réseau de neurones artificiels, système neuro-flou et réseau
bayésien) afin de tester l’efficacité de sa solution comparer les méthodes implémentées.

Dans [2], l’auteur a réalisé un système permettant d’assurer l’analyse des signaux vibratoires
d’une machine tournante dans le domaine temps/fréquence, qu’il a comparé avec un système
d’apprentissage automatique capable de détecter et classer les défauts grâce à des algorithmes
d’intelligence artificielle tels que DT, k-nn, SVM, Naives Bayes, ANN. L’application visant à
fournir un système de détection de défauts fiable afin de réduire les temps de dépannages et
favoriser un diagnostic rapide des pannes des systèmes industriels. Ainsi, en faisant l’extraction
des caractéristiques des signaux dans le domaine temporel et fréquentiel, il a obtenu une fiabilité
de 99.3% avec la méthode cross validation cependant grâce à la méthode hold out. Il a pu obtenir
un taux de classification de 100% pour les différents niveaux de défauts considérés en effectuant
plusieurs tests.

Le travail dans [36] est un état de l’art des méthodes de diagnostic et de pronostic de
défaillances basées sur les données collectées sur les équipements et dont les objectifs avaient pour
but d’éviter l’occurrence d’une défaillance. Selon lui les principales méthodes et outils utilisant
des données sont développés et concernent leurs sources et leurs traitements, la détection
d’anomalies, les principes du diagnostic et du pronostic, les techniques d’estimation du temps de
vie résiduelle (DEFAD) et les choix des prises de décision pour les stratégies de maintenance.
Trois exemples d’applications représentatives sont présentés dans son article. Il finit par conclure
sur les avantages et inconvénients de ces méthodes et outils.

2.6 Conclusion

Dans ce chapitre nous avons fait une description des algorithmes d'apprentissage automatique et
d'apprentissage en profondeur en particulier celles trouvées dans la littérature récente relative à la
maintenance prédictive. Ainsi par la suite nous avons donné les avantages et les inconvénients.
Cependant il n’y a pas une règle générale permettant de sélectionner la meilleure technique à
appliquer pour un problème donné et seules les expériences expérimentales constituent la base de
cette sélection.

31
CHAPITRE 3
Ensemble de données et approche d’apprentissage

3.1 Introduction

L'exploration de données est l'étape de base du processus de découverte des connaissances qui
vise à extraire des données des informations intéressantes et éventuellement utiles, ainsi que l'étape
de prétraitement des données qui est une étape essentielle avant de passer à la phase
d’apprentissage. Dans ce chapitre nous expliquons ces étapes, les algorithmes choisis pour
modéliser nos objectifs, ainsi que les différents outils permettant d'évaluer les performances des
modèles produits.

3.2 Les défis spécifiques aux data-set

Habituellement, il n'y a pas de données propres que nous utilisons directement dans la
modélisation et donc, beaucoup de défi rencontrés doivent être traités tels que : la non-stationnarité
des variables, le bruit dans les données collectées, la distribution non équilibrée, l’existence de
valeurs aberrantes et des valeurs manquantes. Dans cette section nous abordons ces problèmes en
essayant de fournir des méthodes qui aident à les résoudre.

3.2.1 La distribution non équilibrée des classes

Il est plus fréquent d’avoir une distribution non équilibrée des classes de sorties, avec plus
d'instances d'une classe particulière que d’autres. Généralement, lors de l'apprentissage avec ces
données, il existe un biais clair de la part du modèle prédictif, une préférence pour la catégorie
majoritaire et une mauvaise classification des cas pour les groupes minoritaires. Lors de la
prévision du temps de fonctionnement avant panne ttf (time to failure), on s’intéresse à cette
répartition.

3.2.2 Les valeurs aberrantes

Les données contiennent souvent des valeurs aberrantes, ce qui est un problème qui doit être
résolu car cela a un impact négatif sur les performances des modèles de prédiction. Une valeur

32
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

aberrante est une valeur qui s'écarte considérablement des autres valeurs d'observation et peut être
le résultat d'une forte réaction à une nouvelle inattendue ou à un événement extrême. Des mesures
doivent être prises pour réduire son impact sur les performances de prévision. Cela peut être fait
par :

• La détection des valeurs aberrantes en identifiant les points de données au-dessus ou en


dessous de [moyenne ± n . écart type], où n peut prendre la valeur 2 ou 3 en supposant une
distribution normale.
• Des méthodes de filtrage pourraient alors être utilisées pour supprimer/remplacer les valeurs
aberrantes.

3.2.3 Les valeurs manquantes

L’existence de valeurs manquantes dans les données est un problème très courant dans les
applications du monde réel et ne doit jamais être négligé, car ceci pourra impacter négativement
la performance d'un modèle prédictif. Après avoir vérifié les valeurs nulles NaN (Not a Number)
en affichant le total des valeurs manquantes pour chaque colonne de données, ce problème peut
être résolu de trois manières :

• Remplacer les valeurs manquantes par une mesure statistique comme la moyenne, la médiane,
le mode ou une valeur interpolée basée sur la connaissance du domaine.
• Imputer les données manquantes en utilisant des modèles d’apprentissage automatique pour
prédire la valeur des données manquantes et remplacer leur valeur par la valeur prédite.
• Ou tout simplement, supprimer les instances qui contiennent des données manquantes en
éliminant les colonnes des données ayant un nombre élevé de valeurs manquantes.

3.3 Description des données utilisées

Vu le manque de personnel de maintenance ou le non-respect des normes et des conditions du


travail dans les services de maintenance, la plupart des entreprises industrielles ne disposent pas
des historiques des interventions. Même parmi les entreprises qui en disposent, la majorité
considère ces données comme confidentiel et refuse catégoriquement l’accès à ces données. Pour
cette raison, nous avons opté pour un dataset (ensemble de données) simulé. Il s’agit d’un scénario
de maintenance prédictive fourni par Microsoft Cortana Intelligence, dans laquelle une compagnie
aérienne fictive souhaite prédire les pannes de moteurs à l'avance pour améliorer les opérations et
réduire les retards de vols. L'observation de la santé et de l'état du moteur à l'aide de capteurs et de

33
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

données de télémétrie est supposée faciliter ce type de maintenance en prédisant le temps de


défaillance du moteur ou la durée de vie utile restante de l'équipement en service.

Les fichiers du dataset contiennent des simulations des événements run-to-failure


(fonctionnement jusqu'à la défaillance) de moteurs d'avion, des paramètres opérationnels et des
mesures de 21 capteurs.

• Le fichier des données d’entraînement (Train Data) contient les données run-to-failure des
moteurs d'avion (Plus de 20 000 enregistrements de cycles pour 100 moteurs).
• Le fichier des données de test (Test Data) contient les données de fonctionnement des moteurs
d'avion sans événements de défaillance enregistrés.
• Les véritables cycles restants pour chaque moteur dans les données de test sont fournis dans un
fichier séparé (Ground Truth Data).

La table ci-dessous illustre un sous ensemble des données d’entraînement dont les colonnes
représentent les paramètres suivants :

• id : est l'identificateur (numéro) du moteur, de 1 à 100.


• cycle : par séquence moteur, commence de 1 au numéro de cycle où la panne s'est produite.
• setting1, setting2, setting3 : paramètres de fonctionnement du moteur.
• S1… S21 : mesures des capteurs.

Tableau 3.1 Exemple de données d'entraînement [37].

id cycle setting1 setting2 setting3 s1 s2 s3 s4 s5 s6 s7 s8 … s17 s18 s19 s20 s21


1 1 -0.0007 -0.0004 100 518.67 641.82 1589.7 1400.6 14.62 21.61 554.36 2388.06 392 2388 100 39.06 23.419
1 2 0.0019 -0.0003 100 518.67 642.15 1591.82 1403.14 14.62 21.61 553.75 2388.04 392 2388 100 39 23.4236
1 3 -0.0043 0.0003 100 518.67 642.35 1587.99 1404.2 14.62 21.61 554.26 2388.08 390 2388 100 38.95 23.3442
100 198 0.0004 0 100 518.67 643.42 1602.46 1428.18 14.62 21.61 550.94 2388.24 398 2388 100 38.44 22.9333
100 199 -0.0011 0.0003 100 518.67 643.23 1605.26 1426.53 14.62 21.61 550.68 2388.25 395 2388 100 38.29 23.064
100 200 -0.0032 -0.0005 100 518.67 643.85 1600.38 1432.14 14.62 21.61 550.79 2388.26 396 2388 100 38.37 23.0522

3.4 Prétraitement des données

Dans cette étape, on a utilisé les données collectées et placées dans notre base de données pour
traitement. On a aussi nettoyé les données et on les a validés pour s’assurer qu’il n’y a pas de
données manquantes ou de valeurs aberrantes.

34
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

3.4.1 Collecter des données et créer des variables de sortie

3.4.1.1 Collecte des données

On peut joindre ou fusionner des dataframes en fonction de l'index ou de la clé commune. Par
exemple, les étiquettes des données de test se trouvaient dans un fichier de données source distinct.
Cela pourrait être fait en utilisant des fonctions de jointure et de fusionnement (concat et merge).

3.4.1.2 Etiquetage des labels

Les étiquettes de régression et de classification pour les données d'entraînement ont été créées
comme suit :

• Régression : Time-To-Failure (TTF), ou le nombre de cycles restants avant panne, pour


chaque cycle/engin est le nombre de cycles entre ce cycle et le dernier cycle du même moteur.
• Classification binaire : Si le nombre de cycles restants est inférieur au nombre spécifique de
cycles (par exemple, période = 30), le moteur tombera en panne pendant cette période, sinon
le moteur va bien.
• Classification multi-classes : en segmentant le TTF en bandes de cycle (par exemple,
périodes : 0-15, 16-30, 30+), nous pourrions identifier dans quelle période le moteur tombera
en panne.

Pour les données de test, TTF est fourni dans un fichier de données séparé. Ces deux fichiers
ont été fusionnés, puis des étiquettes de classification pour les données de test ont été créées de la
même manière que celle décrite ci-dessus.

Nous avons équilibré les données d’entraînement pour avoir des données où la distribution est
assez similaire pour les trois classes.

3.4.2 Création des caractéristiques

3.4.2.1 Sélection des caractéristiques

Dans cette étape nous avons commencé par générer des caractéristiques (features) qui peuvent
être utilisés pour la prédiction des sorties. Ces caractéristiques peuvent être des données
fondamentales, des indicateurs techniques, des nouvelles caractéristiques susceptibles d’améliorer
la capacité prédictive de nos modèles. Ainsi, la sélection de caractéristiques est appliquée aux
données d'apprentissage et de test en introduisant deux colonnes supplémentaires pour chacune
des 21 colonnes de capteurs : la moyenne mobile et l'écart type. Les autres indicateurs comme
settings, cycles, sont directement intégrés dans notre dataset.

35
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

3.4.2.2 Analyse de multicolinéarité

En statistique, la multicolinéarité est un terme qui fait référence à l'utilisation du même type
d'information plus d'une fois. En général, ce phénomène est présent quand les caractéristiques sont
très corrélées entre elles. C’est un problème commun dans l'analyse technique. Alors il ne faut pas
utiliser les caractéristiques qui reflètent la même information.

A partir de la figure ci-dessous, on prend les caractéristiques à forte variabilité pour vérifier
leur corrélation avec les autres caractéristiques.

Figure 3-1 Ecart type des caractéristiques.

Nous pouvons afficher le heatmap (matrice de corrélation) pour voir la corrélation entre
certaines caractéristiques (figure ci-dessous).

36
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

Figure 3-2 Matrice de corrélation des caractéristiques (heatmap).

On remarque qu’il existe une très forte corrélation (> 0,8) entre certaines caractéristiques: (s14,
s9), (s11, s4), (s11, s7), (s11, s12), (s4, s12), (s8, s13), (s7, s12). Dans ce cas, le fait d’utiliser ces
caractéristiques en même temps, va juste ajouter du bruit à nos modèles. Ainsi, cela peut nuire aux
performances de certains algorithmes de machine learning. Alors certaines caractéristiques ci-
dessus seront ciblées pour la suppression dans la phase « sélection des caractéristiques ». Une seule
de ces caractéristiques doit être utilisée, et c'est elle qui donne le plus d'informations.

La matrice de corrélation précédente montre comment les caractéristiques ['s9', 's14', 's4', 's3',
's17', 's7', 's12', 's2', 's11', 's20', 's21', 's13', 's8', 's15', 's6'] sont corrélées avec l’étiquette de
régression ttf. Ces caractéristiques pourraient être la cible de sélection pendant la modélisation car
leur corrélation avec ttf est plus élevée que ['setting3', 's1', 's10', 's18','s19','s16','s5', 'setting2',
'setting1'] qui ont peu ou pas de corrélation avec l’étiquette de régression ttf.

3.4.2.3 Mesure de l’importance des variables explicatives

L’importance d’une variable se mesure en fonction de la contribution de cette dernière dans


l’amélioration de la performance du modèle. Il existe plusieurs techniques pour faire la sélection
des variables, notamment les méthodes de filtrage qui utilisent des mesures statistiques pour
assigner un score à chaque caractéristique. On peut par la suite, ordonner nos caractéristiques en
utilisant ce score et déterminer un seuil pour exclure les caractéristiques avec un faible score.

37
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

3.4.2.4 Entraînement et paramétrage des modèles

Tout d’abord, nous expliquons comment générer l’ensemble de données nécessaire pour
l’entraînement des modèles prédictifs et l’ensemble de données à utiliser pour l’évaluation de la
qualité des prédictions générées par ces modèles. Ensuite, nous discutons la façon dont nous avons
choisi les paramètres optimaux pour nos modèles.

a) Sélection des données d’entraînement et de test

On divise les données en deux ensembles :

• Ensemble d’entraînement (Training data) : Il représente les (20631) premiers cas de


l’ensemble des données qui seront utilisées pour entraîner les modèles.
• Ensemble de test (Test data) : Il est constitué des 100 cas des données restants, destiné à
l'évaluation de la performance prédictive des modèles.
b) Paramétrage des modèles

Afin d’obtenir un modèle avec haute performances, on doit choisir les meilleurs paramètres
nécessaires de l’algorithme qui génère ce modèle. On peut faire ça à l'aide de deux méthodes ;
dans la régression ces paramètres seront choisis manuellement alors que dans la classification ils
seront calculés automatiquement en utilisant la méthode de grid search. Cette dernière recherche
de manière exhaustive dans un sous-ensemble spécifié manuellement de l'espace hyperparamètre
de l'algorithme ciblé. Après l’apprentissage, les performances du modèle seront calculées et enfin,
les paramètres qui donnent les meilleures performances seront déterminés. Ces paramètres
optimaux doivent être utilisés dans toutes les données d’entraînement et de test.

3.5 Approche proposée

Dans cette section, nous citons brièvement les différents algorithmes proposés pour modéliser
certains objectifs de la maintenance prédictive sur l’ensemble de données préparé plus haut (voir
figure 3.3).

38
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

Dataset original

Données d’entraînement Données de validation Données de test

Entraînement

Objectif Algorithme
machine learning
Réglage des
Choix de paramètres
l’algorithme

Estimation des performances


Modèle prédictif

Figure 3-3 Les étapes de création d’un modèle prédictif.

3.5.1 Objectifs

Les trois objectifs de la maintenance prédictive traités dans ce projet sont :

a) Régression : Prédire le temps de fonctionnement avant panne (TTF) d’un moteur.


b) Classification binaire : Déterminer si un moteur tombera en panne pendant une période ou
non.
c) Classification multi-classes : Identifier dans quelle période un moteur tombera en panne.

3.5.2 Choix des algorithmes d’apprentissage

En fonction de nos trois objectifs principaux, nous proposons ici plusieurs algorithmes
classiques pour les problèmes de classification et de régression, dont les principes de base ont été
expliqués dans le chapitre précédent. L’implémentation de ces algorithmes ainsi que l’évaluation
des performances de leurs résultats obtenus feront l’objet du chapitre suivant.

3.5.2.1 Modèles de régression

Les modèles de régression en maintenance prédictive sont utilisés pour calculer la durée de
vie utile restante d'un actif, définie comme la durée pendant laquelle l'actif reste opérationnel avant
la prochaine panne. Comme dans la classification binaire, chaque exemple est un enregistrement
qui appartient à l'unité de temps d'un actif. Dans le contexte de la régression, cependant, l'objectif
est de trouver un modèle qui calcule la durée de vie utile restante de chaque nouvel exemple sous

39
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

la forme d'un nombre continu. Cette période de temps est définie comme un multiple de l'unité de
temps.

Algorithmes : Linear regression, lasso, ridge regression, polynomial regression, decision


trees, random forest.

3.5.2.2 Classification binaire

La classification binaire est utilisée de manière viable pour la maintenance prédictive, étant
capable d'estimer la probabilité que l'équipement tombe en panne sur une période future. La
période est déterminée et basée sur des règles métier et des données disponibles. Certaines périodes
de temps courantes sont le temps d'arrêt minimum ou le temps requis pour effectuer les routines
de maintenance nécessaires pour résoudre le problème qui pourrait survenir au cours de cette
période. Pour utiliser la classification binaire, il est nécessaire d'identifier deux types d'exemples,
que l'on appelle positifs et négatifs. Chaque exemple est un enregistrement d'une unité de temps
pour un actif qui décrit de manière conceptuelle les conditions de fonctionnement en concevant
les fonctions à l'aide de sources de données historiques et autres. Dans le contexte de la
classification binaire pour la maintenance prédictive, les types positifs désignent les erreurs, et les
négatifs les opérations normales. L'objectif est de trouver un modèle qui identifie la probabilité
que chaque nouvel exemple puisse échouer ou fonctionner normalement dans l'unité de temps
suivante.

Algorithmes : Logistic regression, support vector machine, knn, gaussian naive bayes.

3.5.2.3 La classification multiclasse

La classification multiclasse pour la maintenance prédictive peut être utilisée pour estimer
deux résultats futurs. La première consiste à affecter un actif à l'une des différentes périodes de
temps afin d'attribuer un intervalle de temps à la défaillance de chaque actif. La seconde consiste
à identifier la probabilité de défaillance dans une période future due à l'une des multiples causes
racines. Cela permet au personnel de maintenance de traiter le problème à l'avance [22].

Algorithmes : Logistic regression, decision trees, support vector machine, knn, gaussian naive
bayes, random forest.

3.6 Les métriques de mesure de la performance des modèles

L’évaluation des performances des modèles est une tâche critique et complexe à la fois. Par
conséquent, cela doit être fait avec soin afin que les résultats rapportés soient fiables. Cette section
explique comment nous pouvons évaluer les résultats de notre modèle, ce qui rend un modèle

40
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

meilleur qu'un autre. Plusieurs métriques ont été proposées pour évaluer la performance prédictive
des problèmes de régression et de classification.

3.6.1 Métriques de régression

Pour évaluer les modèles de régression et de les comparer, on peut calculer la distance entre
valeurs prédites et vraies valeurs. Cela nous donne plusieurs critères :

3.6.1.1 L’erreur quadratique moyenne

L’erreur quadratique moyenne RMSE (Root mean squared error) est une formule populaire
pour mesurer le taux d'erreur d'un modèle de régression. Cependant, il ne peut être comparé
qu'entre des modèles dont les erreurs sont mesurées dans les mêmes unités.

∑𝑛𝑖=1(𝑝𝑖 − 𝑎𝑖 )2
𝑅𝑀𝑆𝐸 = √
𝑛

𝑎 = Cible réelle.

𝑝 = Cible prévue.

3.6.1.2 L’erreur absolue moyenne

L’erreur absolue moyenne MAE (Mean Absolut error) a la même unité que les données
d'origine et ne peut être comparé qu'entre des modèles dont les erreurs sont mesurées dans les
mêmes unités. Son ampleur est généralement similaire à celle du RMSE, mais légèrement plus
petite. 𝑎 et p sont défini dans l’erreur quadratique moyenne.

∑𝑛𝑖=1 ⎸𝑝𝑖 − 𝑎𝑖 ⎸
𝑀𝐴𝐸 =
𝑛

3.6.1.3 Le coefficient de détermination R2

Le coefficient de détermination R2(R squared error), résume le pouvoir explicatif du modèle


de régression. R2 est calculé à partir des termes des sommes des carrés :

𝑆𝑆𝐸
𝑅2 = 1 −
𝑆𝑆𝑇

SSE = erreur sur la somme des carrés

SST = somme des carrés total

R2 décrit la proportion de variance de la variable dépendante expliquée par le modèle de


régression. Si le modèle de régression est « parfait », SSE vaut zéro et R2 vaut 1, Si c’est un échec
total, SSE vaut SST, aucune variance n'est expliquée par la régression et R2 vaut zéro [38].

41
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

3.6.1.4 La variance

La variance de la série statistique se note 𝛿𝑥2 (ou encore V(x)) et se définit comme suit :

1 𝑛
𝑉 (𝑥 ) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑛 𝑖=1

Elle correspond à la moyenne des carrés des différences entre les observations et leur moyenne
, dans le cas de n observations ordonnées dans un tableau statistique , présentant r
modalités. C’est la moyenne arithmétique des carrées des écarts à la moyenne.

3.6.2 Métriques de classification

3.6.2.1 La matrice de confusion

Il s’agit d’un tableau de taille n × n pour visualiser les résultats des modèles prédictifs dans les
problèmes de classification, où n est le nombre de classes dans l’ensemble de données (voir tableau
ci-dessous). Dans cette matrice on croise les classes cibles réelles avec les classes prédites
obtenues. Ceci nous donne le nombre d’instances correctement classées et mal classées.

Tableau 3.2 Matrice de confusion pour une classification binaire.

Classes actuels
Positive Négative
Classes Positive VP FP
prédites Négative FN VN

• VP : vrais positifs est le nombre d’instances positives correctement classifiées.


• FP : faux positifs est le nombre d’instances négatives et qui sont prédites comme positives.
• FN : faux négatifs est le nombre d’instances positives classifiées comme négatives.
• VN : vrais négatifs est le nombre d’instances négatives correctement classifiées.
À partir de la matrice de confusion on peut calculer plusieurs métriques qu’on va expliquer
dans les sections suivantes.

3.6.2.2 Le taux de succès

Le taux de succès (Accuracy) est la proportion des instances qui sont correctement classifiées.
L'inconvénient de la mesure de taux de succès est lorsque les données ont plus de deux classes.
Avec trois classes ou plus, on peut obtenir un taux de succès de classification d'un certain
pourcentage, mais on ne sait pas si toutes les classes sont prédites de la même manière ou si une
ou deux classes sont négligées par le modèle.

Accuracy = (VP+VN)/ (VP+VN+FP+FN)


42
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

3.6.2.3 Sensitivité

La sensitivité ou le rappel (recall) est le pourcentage des instances positives correctement


identifiées [39].

recall =VP/ (VP+FN)

3.6.2.4 Précision

La précision (precision) est le pourcentage de prédictions positives qui sont correctes.

precision =VP/ (VP+FP)

Spécificité

La spécificité (specificity) est le pourcentage de cas négatifs qui ont été prédits comme négatifs.

Specificity = VN/ (VN+FP)

3.6.2.6 Le score F1

Le score F1 (F1 score) peut être interprété comme une moyenne pondérée de la précision et
la sensitivité, où un score F1 atteint sa meilleure valeur à 1 et son pire score à 0. Par conséquent,
ce score prend en compte à la fois les cas faux positifs et les cas faux négatifs. Intuitivement, ce
n'est pas aussi facile à comprendre que le taux de succès, mais F1 est généralement plus utile que
le taux de succès, surtout si nous avons une distribution de classe inégale. Le taux de succès
fonctionne mieux si les cas faux positifs et les cas faux négatifs ont une valeur similaire. Si la
valeur des cas faux positifs et des cas faux négatifs est très différente, il est préférable d'examiner
à la fois la précision et la sensitivité.

Le score F1 est une métrique unique qui combine la sensitivité et la précisions en utilisant la
moyenne harmonique [40].

F1 Score = 2 × (Recall × Precision) / (Recall + Precision)

3.6.2.7 Courbe précision-rappel

On appelle courbe précision-rappel (Precision-Recall Curve) la courbe décrivant l’évolution


de la précision en fonction du rappel, lorsque le seuil de décision change. Pour synthétiser cette
courbe, on peut utiliser l’aire sous celle-ci, souvent abrégée AUPR (Area Under the Precision-
Recall Curve). Pour le seuil le plus élevé, aucun exemple n’est étiqueté positif, et la précision n’est
donc pas définie. Par convention, on utilise généralement une précision de 1 si la première
observation à considérer est positive, et une précision de 0 sinon [41].

43
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

3.6.2.8 La courbe ROC

La courbe ROC (Receiver Operating Characteristic) a été utilisé dans le traitement de signal
pour faire la distinction entre le signal et le bruit. Elle est très utilisée en ML pour évaluer la
performance des classificateurs. Il s’agit d’une courbe où on croise le taux des vrais positifs TVP
avec celui des faux négatifs TFN pour tous les seuils de classification. On utilise un classificateur
aléatoire comme une ligne de base. Si on classe aléatoirement nos instances, on est censé avoir
cette ligne.

Un modèle avec une discrimination parfaite (sans chevauchement entre les classes) passe par
le coin supérieur gauche. Plus que la courbe ROC est proche du coin supérieur, meilleure est la
performance de la classification.

3.6.2.9 L’aire sous la courbe ROC

L’aire sous la courbe AUC (Area Under Curve) représente une mesure qui permet de quantifier
numériquement la performance de nos classificateurs :

• Si AUC = 1, Il s’agit d’un modèle qui fait une séparation parfaite entre nos classes. Il permet de
classer toutes les instances positives correctement et fait la même chose avec les autres
instances.
• Si AUC = 0.5, la classification n’est pas meilleure que celle qui serait obtenue si nous générons
aléatoirement nos instances. Le modèle dans ce cas, ne fait aucune distinction entre nos
classes. Chaque instance a une probabilité de 1/n d’être bien classée en utilisant ce modèle.
Où n est le nombre de classes.
• Si AUC < 0.5, notre modèle fait pire qu’une classification aléatoire. Il vaut mieux deviner
aléatoirement, qu’utiliser ce modèle.

3.7 Problèmes d’une faible généralisation

L'un des problèmes de l'apprentissage automatique est que nous voulons que notre modèle
fonctionne bien avec les données d'entraînement ainsi que les nouvelles données de test. C'est ce
qu'on appelle la généralisation. Le but de cette section est de voir comment éviter les problèmes
qui conduisent à une faible généralisation d’un modèle.

3.7.1 Le sur-apprentissage et le sous-apprentissage

Les causes principales de la faible performance des modèles d’apprentissage automatiques


sont le sur-apprentissage ou le sous-apprentissage.

44
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

3.7.1.1 Le sur-apprentissage

Un sur-apprentissage (overfitting) survient lorsqu'un modèle apprend les détails et le bruit dans
les données d'apprentissage de telle sorte que ça impacte de façon négative les performances du
modèle pour de nouvelles données. Cela signifie que les variations aléatoires dans les données
d'apprentissage sont capturées et apprises en tant que concepts par le modèle. Le problème est que
ces concepts ne s'appliquent pas aux nouvelles données et dégradent la capacité du modèle à
généraliser correctement. Dans le cas d’une présence de sur-apprentissage, le modèle prédictif
pourra générer de très bons résultats sur les données d’entraînement, mais à l’opposé, les
prédictions qui sont générées sur des données qu’il n’a pas encore vues, ne seront pas de bonne
qualité. Dans ce cas, on dit que le modèle souffre de sur-apprentissage.

3.7.1.2 Le sous-apprentissage

On parle de sous-apprentissage (underfitting) quand un modèle ne peut ni modéliser les


données d'apprentissage ni se généraliser à de nouvelles données. Dans ce genre de cas, les erreurs
de prédiction vont être importantes. Contrairement au sur-apprentissage, Il est plus facile de
détecter le sous-apprentissage. Il suffit d’observer la performance du modèle sur différents
ensembles d’entraînement et de validation. Une faible performance sur les données d’entraînement
est un signal fort que le modèle souffre de ce biais. Pour faire face à un tel évènement, il faut tester
d’autres algorithmes, modifier les paramètres du modèle, augmenter la taille des données
d’entraînement ou ajouter plus attributs à la liste des variables d’entrée, jusqu’à l’obtention d’une
performance suffisante, qui est évaluée par une bonne métrique de performance.

Il est essentiel de s’assurer que les modèles prédictifs que nous désirons déployer ne souffrent
ni de sur-apprentissage ni de sous-apprentissage. Le modèle à privilégier est celui qui n’a pas une
grande variance, et ne souffre pas d’un grand biais [38].

3.7.2 Méthodes de validation

La validation du modèle est une étape très importante dans le processus de modélisation qui
améliore sa robustesse afin d’éviter le problème de faible généralisation. En outre elle améliore
les performances sur les observations invisibles dans les environnements limités en donnée. Elle
peut s’effectuer aussi bien manuellement que automatiquement. On distingue deux méthodes de
validation : la méthode de validation hold out et la méthode de validation croisée (k-fold).

3.7.2.1 Méthode de validation holdout

Le holdout sert à diviser l’ensemble de données en un ensemble « train » et « test ».


L’ensemble d’apprentissages est ceux sur quoi le modèle est formé, et l’ensemble de tests est

45
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE

utilisé pour voir dans quelle mesure ce modèle fonctionne sur les données. Une division commune
lors de l’utilisation de la méthode de holdout consiste à utiliser 80% des données pour la formation
et les 20% restants des données pour les tests. Le principe de cette méthode est de partitionner les
données en exactement deux sous-ensembles d’un rapport spécifié pour la formation et la
validation. Nous n’avons pas eu à effectuer cette division car notre data était déjà divisé en
train_set a part (20631*71) et en test_set (100*71) donc nous les avons juste chargé afin de
travaillé avec celle-ci.

3.7.2.2 Méthode de validation croisée (k-fold)

Une méthode d’évaluation des performances d’un algorithme d’apprentissage automatique est
la validation croisée (Cross Validation). Cette technique permet à l’algorithme de faire des
prédictions en utilisant des données non utilisées pendant la phase de formation. La validation
croisée partitionne un ensemble de données et utilise un sous-ensemble pour entraîner l’algorithme
et les données restantes à tester. Étant donné que la validation croisée n’utilise pas toutes les
données pour créer un modèle, il s’agit d’une méthode couramment utilisée pour éviter le sur
apprentissage pendant la formation.

Le principe de cette méthode de validation consiste à partitionner les données en k sous-


ensembles (ou plis) choisis au hasard de taille à peu près égale. Un sous-ensemble est utilisé pour
valider le modèle formé à l’aide des sous-ensembles restants. Ce processus est répété k fois, de
sorte que chaque sous-ensemble soit utilisé exactement une fois pour la validation. L’ensemble de
formation est ensuite utilisé pour former un algorithme d’apprentissage supervisé, et l’ensemble
de tests est utilisé pour évaluer ses performances. Ce processus est répété plusieurs fois et l’erreur
de validation croisée moyenne est utilisée comme indicateur de performance [2].

3.8 Conclusion

Dans ce chapitre, nous avons décrit l’ensemble de données (dataset) qui va être utilisé pour
créer, tester et évaluer notre approche de maintenance prédictive. Ensuite, nous avons vu les
opérations de prétraitement effectuées sur l'ensemble de données pour le préparer à la phase
apprentissage. Enfin, une approche d’apprentissage automatique basé sur la régression et la
classification a été discutée brièvement ainsi que les différentes métriques qui peuvent être utilisées
pour évaluer nos modèles d'apprentissage. Le chapitre suivant sera consacré à la création de ces
modèles à travers l’implémentation de quelques algorithmes d’apprentissage et l’évaluation de
leur performance en utilisant les métriques adéquates.

46
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

CHAPITRE 4
Implémentation et résultats

4.1 Introduction

Dans ce chapitre nous exposons les résultats obtenus à travers l’implémentation des différents
algorithmes suivant trois axes d’apprentissage (régression, classification binaires et classification
multi classe). Nous effectuons également une comparaison entre les performances des modèles
générés. La première section de ce chapitre présente l’environnement de développement utilisé
dans la phase implémentation. Le reste du chapitre consiste à tester la capacité prédictive de nos
modèles sur nos jeux de données en utilisant les métriques adéquates dont nous avons parlé dans
le chapitre précédent et nous comparons nos résultats. Enfin, la rentabilité obtenue est évaluée à
l'aide des modèles sélectionnés.

4.2 Environnement de développement

4.2.1 Environnement matériel

Nos expériences ont été réalisées sur un ordinateur portable dont les caractéristiques de
l’environnement matériel sont rapportées dans le tableau 4.1.

Tableau 4.1 Caractéristiques de l’environnement matériel utilisé.

Caractéristiques
CPU Intel® Core™ i5-5300U CPU 2.30 GHz
RAM 8.00 Go
SSD 256 Go

4.2.1 Environnement logiciel

De nombreux outils logiciels sont en développement depuis 25 ans dont l’objectif commun est
de faciliter le processus complexe d'analyse des données et de proposer des environnements
intégrés en plus des langages de programmation standard. Un certain nombre d'entre eux sont
orientés vers le traitement rapide et le streaming de données à grande échelle, tandis que d'autres

47
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

sont spécialisés dans l’implémentation des algorithmes de ML. Les différents outils logiciels
utilisés durant ce projet sont fournis par Anaconda (voir figure 4.1). Il s’agit d’un environnement
logiciel open source de développement d’application dédié à la science des données et à
l’apprentissage automatique (Langages Python et R, outils PyCharm et Spyder et Jupyter,
Bibliothèque de ML, …etc.).

Figure 4-1 Environnement Ananconda

4.2.1.1 Python

Le langage de programmation le plus utilisé et le plus célèbre en science des données est un
langage de programmation de haut niveau, et sa philosophie de conception de base repose sur la
lisibilité du code et une syntaxe qui permet aux programmeurs d'exprimer des concepts en quelques
lignes de code. Python est une licence open source, ce qui le rend librement utilisable et
distribuable, même pour un usage commercial. Il est utilisé avec succès dans des milliers
d'applications commerciales réelles à travers le monde, y compris de nombreux systèmes
importants et critiques. La version python utilisée dans ce travail est la 3.6 [42].

4.2.1.2 Pandas

Lorsque vous travaillez avec des données tabulaires, telles que des feuilles de calcul ou des
bases de données stockées, pandas est le bon outil pour cela. Panda aidera à explorer, nettoyer et
traiter les données. Dans les pandas, une feuille de calcul s'appelle un DataFrame [43].

48
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

4.2.1.3 NumPy

Est le package fondamental pour le calcul scientifique avec Python. Outre ses utilisations
scientifiques évidentes, NumPy peut également être utilisé comme un conteneur
multidimensionnel efficace de données génériques [44].

4.2.1.4 Matplotlib

Matplotlib est une bibliothèque de traçage python 2D qui produit des chiffres de qualité de
publication dans une variété de formats papier et d'environnements interactifs sur toutes les
plateformes. Matplotlib essaie de rendre les choses faciles et les choses difficiles possibles. Vous
pouvez générer des graphiques, des histogrammes, des spectres de puissance, des diagrammes à
barres, des diagrammes d'erreurs, des nuages de points, etc., avec seulement quelques lignes de
code [45].

4.2.1.5 Scikit-Learn

Scikit-Learn est largement connu comme un outil Python open source populaire qui contient
une bibliothèque complète d'algorithmes data mining et Machine learning. Il étend les
fonctionnalités des packages NumPy et SciPy avec de nombreux algorithmes data mining et
fournit des fonctions pour effectuer la classification, la régression, le clustering, la réduction de la
dimensionnalité, la sélection de modèles et le prétraitement.

4.2.1.6 Jupyter Notebook

Jupyter Notebook est un outil open source permettant d’écrire du code informatique (en
Python, R ou Julia, ...) et de le partager pour collaborer. Grâce à ses nombreux avantages, cet outil
est devenu une référence incontournable pour les Data Scientists. Il s’agit d’une application web
basée client permettant de créer et de partager du code, des équations, des visualisations ou du
texte.

4.3 La régression

Dans cette partie, des modèles de régression linéaire et non linéaire ont été créés pour prédire
la durée de vie restante d’un moteur d'avion. Les algorithmes d'apprentissage automatique
proposés ont été essayées et leurs mesures de performance ont été calculées et évaluées. Nous
avons estimé le RUL pour 100 moteurs. Pour valider nos modèles, nous avons comparé les
performances des métriques de la régression des différents modèles en utilisant l’ensemble de
caractéristiques originales. Les principales mesures d'évaluation de la régression calculées pour

49
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

chaque modèle étaient l'erreur quadratique moyenne (RMSE), le R au carré (R 2), l'erreur absolue
moyenne (MAE) et la variance expliquée.

4.3.1 Résultats obtenus

4.3.1.1 Régression linéaire

Notre modèle de régression linéaire a estimé la relation entre les variables indépendantes et la
variable dépendante (RUL). Cela réduit la somme des carrés de la différence entre les valeurs
réelles et attendues de la variable dépendante. Les résultats finaux des métriques sont présentés
dans le tableau 4.2.

Tableau 4.2 Evaluation de la régression linéaire.


Régression linéaire
Root Mean squared Error 32.04
Mean Absolute Error 25.59
R2 (Test) 0.40
R2 (Entrainment) 0.58
Explained Variance 0.66

4.3.1.2 Lasso

La régression au Lasso étant une technique de modélisation pour effectuer la régularisation,


elle est livrée avec un paramètre alpha. Plus l'alpha est élevé, plus les coefficients de
caractéristiques sont nuls, lorsqu’elle est égal à 0 la régression Lasso produit les mêmes
coefficients qu'une régression linéaire et lorsqu’elle est très grande, tous les coefficients sont nuls.
Pour notre problème nous avons choisis alpha = 0,001. L’évaluation du modèle obtenu est illustré
dans le tableau 4.3.

Tableau 4.3 Evaluation de Lasso.


LASSO
Root Mean Squared Error 31.96
Mean Absolute Error 25.55
R2 (Test) 0.41
R2 (Entrainment) 0.58
Explained Variance 0.67

4.3.1.3 Ridge

Notre modèle de régression Ridge est construit dans lequel cette technique analyse les données
de régression multiple qui souffrent de multicolinéarité. En ajoutant un degré de biais aux
estimations de régression, le pic de la régression réduit les erreurs types, et l'hyperparamètre utilisé
ici est alpha = 0,01. Le tableau 4.4 présente les résultats des métriques obtenus.

50
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

Tableau 4.4 Evaluation de Ridge.

Ridge Régression
Root Mean Squared Error 31.96
Mean Absolute Error 25.54
R2 (Test) 0.41
R2 (Entrainment) 0.58
Explained Variance 0.67

4.3.1.4 Régression polynomiale

Ici, notre modèle de régression polynomiale construit définit la relation entre la variable
indépendante x et la variable dépendante y comme un polynôme de degré n en x. l'hyper paramètre
utilisé ici est dégrée = 2. Le tableau 4.5 montre les résultats de performances de notre modèle.

Tableau 4.5 Evaluation de la régression polynomiale.

Régression polynomiale
Root Mean Squared Error 31.57
Mean Absolute Error 24.09
R2 (Test) 0.42
R2 (Entrainment) 0.63
Explained Variance 0.64

4.3.1.5 Arbre de décision

Les hyperparamètres du modèle de l’arbre construit ici sont max_depth = 7 qui est défini
comme le chemin le plus long entre le nœud racine et le nœud feuille, et max_features = 6 qui
représente le nombre maximal de caractéristiques à essayer dans chaque nœud de l’arbre. Les
résultats des métriques utilisées sont illustrés dans le tableau 4.6.

Tableau 4.6 Evaluation de l’arbre de décision.

Arbre de décision
Root Mean Squared Error 32.07
Mean Absolute Error 24.40
R2 (Test) 0.40
R2 (Entrainment) 0.61
Explained Variance 0.60

4.3.1.6 Random forest

Le modèle Random forest construit en utilisant les hyperparamètres max_depth=4 qui contrôle
la profondeur maximale des arbres à créer et le max_features= 3 qui représente le nombre maximal
de caractéristiques que Random Forest est autorisé à essayer dans un arbre individuel. Les résultats
des métriques sont illustrés dans le tableau 4.7.
51
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

Tableau 4.7 Evaluation de Random forest.

Random forest
Root Mean Squared Error 28.63
Mean Absolute Error 23.17
R2 (Test) 0.53
R2 (Entrainment) 0.59
Explained Variance 0.77

4.3.2 Discussion

Afin de comparer les performances des modèles construits, le tableau 4.8 récapitule tous les
résultats obtenus.

Tableau 4.8 Comparaison des performances des modèles.


Linear Lasso Ridge Decision Tree Polynomial Random Forests
Root Mean Squared Error 32.04 31.96 31.96 32.07 31.57 28.63
Mean Absolute Error 25.59 25.55 25.54 24.40 24.09 23.17
R-Squared (R2 test) 0.40 0.41 0.41 0.40 0.42 0.53
R-Squared (R2 entrainment) 0.58 0.58 0.58 0.61 0.63 0.59
Explained Variance 0.66 0.67 0.67 0.60 0.64 0.77

Conformément à notre analyse dans la phase d'exploration des données dans le chapitre 3, les
modèles de régression non linéaire tels que la régression polynomiale et Random Forest ont donné
de meilleurs résultats que les modèles linéaires tels que la régression linéaire, Lasso et Ridge. Plus
l’erreur est petite, meilleur sera le résultat et plus la valeur de R2 est proche de 1 plus le résultat de
la prédiction est bon. De plus, nous avons remarqué qu’il n’a pas une grande différence entre les
R2 entraînement et les R2 test dans le tableau de métriques de chacun de nos modèles ce qui signifie
que nous n’avons pas rencontré de problème de sur-apprentissage.

On constate que le modèle Random Forest a clairement surpassé les autres modèles avec une
plus grande valeur pour R2 et la plus petite valeur d'erreur de RMSE (=28,6). Autrement dit, le
modèle prédit le TTF dans une plage d'erreur moyenne de ± 28,63 cycles.

Le réglage des hyperparamètres pour les modèles Random Forest, Lasso et Ridge ont été
effectué manuellement ce qui nous a fourni de très bonne résultats. D'autre part, il était possible
d'utiliser la technique de recherche aléatoire avec validation croisée (grid search) afin de choisir
les meilleurs hyperparamètres possibles pour nos modèles ce qui permet d’améliorer nos résultats.

La figure 4.2 illustre le graphe de résidus de notre meilleur modèle de régression qui est
Random forest. Selon à ce graphe, nous remarquons que les résidus n'étaient pas répartis au hasard
sur la valeur moyenne des résidus. Cela pourrait être amélioré par de nombreuses méthodes,

52
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

notamment la correction des données via le filtrage des valeurs aberrantes qui consiste soit à les
supprimer ou à les remplacer.

Figure 4-2 Graphe des résidus de Random forest.

L'importance d’une variable est mesurée à travers sa contribution à l'amélioration des


performances du modèle, comme indiqué au chapitre 3. Le graphe de la figure 4.3 montre
l'importance des indicateurs pour la prédiction de la sortie, en utilisant le modèle Random forest
qui a surpassé les autres.

Figure 4-3 Graphe de l’importance des caractéristiques.

53
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

4.4 La classification binaire

Dans cette partie, des modèles de classification binaire ont été essayés pour déterminer les
moteurs qui tomberont en panne pendant la période actuelle. Plusieurs algorithmes de
classification binaire ont été utilisés pour atteindre cet objectif, c’est-à-dire déterminer les cycles
restants ou (TTF) dans la plage 0-30 cycles.

Au lieu d'une sélection aléatoire des valeurs des paramètres, une meilleure approche serait de
développer un algorithme qui trouve automatiquement les meilleurs paramètres pour nos modèles.
Cet algorithme en question est Grid search elle va nous aider à choisir les meilleurs hyper-
paramètres pour chacune de nos modèles. Chaque modèle a été appliqué aux données originales
(d1) et aux données originales + extraites (d2). Dans chaque cas nous retrouvons deux graphes, le
premier représente la courbe du (roc_auc) en fonction du FPR (taux de faux positif) et TPR (taux
de vrais positif), et le second représentr la courbe du precision et recall. Nous avons évalué les
performances de nos modèles par les métriques de classification dont nous avons parlé dans le
chapitre 3. Pour chaque algorithme nous allons comparer l'AUC (aire sous la courbe) qui est l'air
sous la courbe roc_auc, avant et après extraction puis interpréter les résultats obtenus.

Pour chaque modèle, plusieurs schémas d'évaluation ont été élaborés, ainsi que des matrices
de confusion pour voir ces valeurs et des rapports de classement qui nous permet de connaître les
métriques pour chaque classe (0 et 1). Afin de ne pas tous les citer, nous avons décidé de citer le
plus important, qui est celui de l'algorithme qui a surpassé les autres algorithmes (Gaussian NB
(d1)).

4.4.1 Résultats obtenus

4.4.1.1 Régression logistique

Les meilleurs hyperparamètres pour (d1) et (d2) sont (C=0.01, solver='liblinear'). Nous allons
à présent comparer les métriques obtenues avec les données originales et extraites.

Tableau 4.9 Evaluation de la régression logistique.

Logistic Regression (d1) Logistic Regression (d2)


Accuracy 0.880000 0.900000
Precision 0.933333 0.941176
Recall 0.560000 0.640000
F1 Score 0.700000 0.761905
ROC AUC 0.976533 0.980267

54
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

Nous voyons clairement que même si l’AUC n’a pas vraiment changé pour ce modèle,
l’extraction de données à améliorer les performances du modèle vu que tous les scores de (d2) sont
meilleurs que ceux de (d1).

4.4.1.2 Arbres de décision

Les meilleurs hyper paramètres pour (d1) sont (criterion='entropy', max_depth=5), et ceux de
(d2) sont (criterion='entropy', max_depth=4). Nous allons à présent comparer les métriques
obtenues avec les données originales et extraites.

Tableau 4.10 Evaluation de l’arbre de décision.


Decision tree (d1) Decision tree (d2)
Accuracy 0.880000 0.920000
Precision 0.933333 0.947368
Recall 0.560000 0.720000
F1 Score 0.700000 0.818182
ROC AUC 0.945067 0.962933

Pour ce modèle de Decision Trees, l’extraction de donnée à améliorer les scores de nos
différentes métriques.

4.4.1.3 Random Forest

Les meilleurs hyper paramètres pour (d1) est (criterion='entropy', max_depth=8,


n_estimators=50), et ceux de (d2) sont (criterion='entropy', max_depth=6, n_estimators=50). Nous
allons à présent comparer les métriques obtenues avec les données originales et extraites.

Tableau 4.11 Evaluation de Random forest.

Random Forest (d1) Random Forest (d2)


Accuracy 0.910000 0.910000
Precision 0.944444 0.944444
Recall 0.680000 0.680000
F1 Score 0.790698 0.790698
ROC AUC 0.980267 0.982400

Pour le modèle random forest l’extraction de donnée n’à améliorer ni son AUC ni ses scores
donc pour ce modèle on peut tout simplement se contenter d’utiliser les données originales car elle
donne déjà de meilleures scores.

4.4.1.4 SVC linear

La meilleurs hyperparamètre pour (d1) et (d2) est (C=0.001). Nous allons à présent comparer
les métriques obtenues avec les données originales et extraites.

55
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

Tableau 4.12 Evaluation de SVC linear.

Support Vector Machines (d1) Support Vector Machines (d2)

Accuracy 0.770000 0.920000


Precision 1.000000 0.947386
Recall 0.080000 0.720000
F1 Score 0.148148 0.818182
ROC AUC 0.971733 0.979733

Pour ce modèle de SVC linear l’extraction de donnée à améliorer les performances du modèle
sauf la précision qui diminue de 1 jusqu’au 0.94%.

4.4.1.5 K Nearest Neighbors

Les meilleurs hyper paramètres pour (d1) et (d2) sont (n_jobs=-1, n_neighbors=13). Nous
allons à présent comparer les métriques obtenues avec les données originales et extraites.

Tableau 4.13 Evaluation de K-Nearest Neighbors.


K Nearest Neighbors (d1) K Nearest Neighbors (d2)
Accuracy 0.910000 0.920000
Precision 0.944444 0.947368
Recall 0.680000 0.720000
F1 Score 0.790698 0.818182
ROC AUC 0.935200 0.963467

Pour ce modèle de KNN l’extraction de donnée à améliorer tous les scores du modèle. Donc
le model obtient un bien meilleure score lorsqu’on procède à l’extraction.

4.4.1.6 Naive Bayes

Pour le modèle Naïve bayes l’extraction de donnée n’à améliorer ni son AUC ni ses scores.
Donc, pour ce modèle on peut tout simplement se contenter d’utiliser les données originales car
elle donne déjà de meilleurs scores (voir tableau 4.14). Les tableaux 4.15 et 4.16 illustrent,
respectivement, la matrice de confusion et le rapport de classement de ce modèle.

Tableau 4.14 Evaluation de Naive Bayes.

Naive Bayes (d1) Naive Bayes (d2)


Accuracy 0.940000 0.940000
Precision 0.827586 0.827586
Recall 0.960000 0.960000
F1 Score 0.888889 0.888889
ROC AUC 0.987733 0.980533

56
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

Tableau 4.15 Matrice de confusion Gaussian NB (d1).

70 5

1 24

Tableau 4.16 Rapport de classement Gaussian NB (d1).

precision recall f1-score support


0 0.99 0.93 0.96 75
1 0.83 0.96 0.89 25

La figure 4.4 illustre les courbes de l'algorithme Gaussian NB (d1), qui a surpassé les autres
algorithmes avec la valeur la plus élevée de (AUC). Engines représentent la file d'attente ou le
nombre de moteurs à maintenir par période, c'est-à-dire la capacité de maintenance. Avec la
possibilité de seuillage à différents niveaux, un gain commercial maximal pourrait être atteint en
fonction des objectifs de capacité commerciale, de rappel et de précision.

Figure 4-4 Les courbes AUC ROC et Precision-Recall de Gaussian NB (d1).

4.4.2 Discussion

Nous allons à présent comparer les scores de tous nos model pour sélectionnées les meilleures
modèles. Dans le tableau 4.17, nous remarquons que Naïve Bayes (d1) et Random Forest (d2) ont
57
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

fourni des meilleurs scores AUC ROC plus que les autres. Ce qui fait d’eux les meilleures modèles
pour effectuer notre prédiction avec les datasets dont nous disposons.

Tableau 4.17 Comparaison des performances des modèles.

Logistic Logistic Decision Decision Random Random Linear Linear Gaussian Gaussian
KNN (d1) KNN (d2)
Reg. (d1) Reg. (d2) Tree (d1) Tree (d2) For. (d1) For.(d2) SVC (d1) SVC (d2) NB (d1) NB (d2)
Accuracy 0.88000 0.90000 0.88000 0.92000 0.91000 0.91000 0.77000 0.92000 0.91000 0.92000 0.94000 0.94000
Precision 0.93333 0.94117 0.93333 0.94736 0.94444 0.94444 1.00000 0.94738 0.94444 0.94736 0.82758 0.82758
Recall 0.56000 0.64000 0.56000 0.72000 0.68000 0.68000 0.08000 0.72000 0.68000 0.72000 0.96000 0.96000
F1 Score 0.70000 0.76190 0.70000 0.81818 0.79069 0.79069 0.14815 0.81818 0.79069 0.81818 0.88888 0.88888
AUC ROC 0.97653 0.98026 0.94506 0.96293 0.98026 0.98240 0.97173 0.97973 0.93520 0.96346 0.98773 0.980533

• On remarque que l'extraction de caractéristiques a amélioré les mesures de performance de la


plupart des modèles.
• Lors du test de nos algorithmes, Random Forest et Naïve Bayes ont montré presque les mêmes
performances avant et après l'extraction des caractéristiques.
• Naïve Bayes a obtenu de meilleurs résultats que les autres classificateurs en rappel (recall),
Linear SVC a également obtenu le meilleur résultat en précision que les autres.

Nous allons comparer les courbes AUC ROC et Precision-Recall. Les six courbes représentent
les meilleurs modèles parmi les modèles présentés dans le tableau (voir figure 4.5).

• Sur la courbe ROC, nous avons le taux de vrais positifs (sensibilité) par rapport au taux de
faux positifs (spécificité). Le taux de vrais positifs (TPR) ou sensibilité, mesure la proportion
de positifs réels qui sont correctement identifiés. La spécificité mesure la proportion de
négatifs qui sont prédit comme étant positif d’où le nom taux de faux positif (FPR)
• La ligne diagonale en trait discontinu au milieu représente les résultats d'une classification
aléatoire. Lorsque l’AUC = 0,5 cela signifie qu’elle est au même niveau que cette frontière.
Dans de tels contextes nous disons que le score du classificateur ne donne aucune indication
sur la qualité de la réponse.
• Sur nos graphes les résultats des six modèles sont largement au-dessus de la ligne représentant
la classification aléatoire. Ce qui fait de nos modèles de très bonnes prédicteurs car la plupart
des AUC de ses modèles sont supérieur à 80%.
• Les graphiques pour TPR, FPR et les moteurs doivent être liés à la matrice des coûts de (TP,
FP, TN, FN) pour calculer la valeur attendue à différents points de fonctionnement (seuils)
pour aider à optimiser les décisions commerciale.

58
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

Figure 4-5 Comparaison des courbes AUC ROC et Precision-Recall.

Il est important de mentionner qu'en termes de modèles de rentabilité qui catégorisent mieux,
les deux catégories généreront plus de profits. Ce qui n'est pas le cas pour la catégorie neutre. La
décision à prendre en cas de tendance neutre serait de ne rien faire. Plus nos modèles sont précis
pour les deux catégories, plus la rentabilité qui en résulte est élevée. Dans la section suivante, nous
évaluerons la performance financière (rentabilité) de notre modèle, en utilisant les mêmes données
d'évaluation utilisées pour l'évaluation statistique.

4.4.3 Bénéfice attendu

Différents modèles de classification pourraient être comparés à l'aide du calcul de la valeur


attendue. Ceci est réalisé en construisant une matrice coûts-avantages conforme à la matrice de
confusion du modèle, puis en convertissant les performances du modèle en une valeur monétaire
unique en multipliant la matrice de confusion dans la matrice coûts-avantages à l'aide de la
formule : [46]

Expected Profit = Probability (+ve) x [TPR x benefit (TP) + FNR x cost (FN)] + Probability (-ve)
x [TNR x benefit (TN) + FPR x cost (FP)]
La matrice coûts-avantages doit être fournie par des experts du domaine commercial. Pour ce
projet, les valeurs suivantes ont été supposées :

• True Positive (TP) : les moteurs ont besoin d'entretien et sont sélectionnés par le modèle de
prédiction, avec un bénéfice de 300K $.

59
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

• True Negative (TN) : les moteurs qui sont bien et qui ne sont pas sélectionnés par le modèle,
ont un bénéfice de 0 K$.
• False Positive (FP) : les moteurs qui sont bons mais sélectionnés par le modèle, ont un coût
de -100K $.
• False Negative (FN) : les moteurs ont besoin d'entretien mais ne sont pas sélectionnés par le
modèle de prédiction, elles ont un coût de -200 000 $. Nombre d'instances de classe positives
dans les données de test = 25, Nombre d'instances de classe négatives dans les données de test
= 75

Les calculs de profit/moteur les plus élevés pour tous les modèles ont été classés comme
indiqué ci-dessous :

Figure 4-6 Bénéfice attendu.

Exp. Profit Model Engines Threshold TP FP TN FN TPR FPR TNR FNR


0 19.000000 Gaussian NB (d1) 0.31 0.090529 25 0 69 6 1.00 0.080000 0.920000 1.000000
1 18.694444 Gaussian NB (d2) 0.28 0.969744 24 1 71 4 0.96 0.053333 0.946667 0.986111
2 17.351351 Random Forest (d2) 0.26 0.179746 23 2 72 3 0.92 0.040000 0.960000 0.972973
3 17.351351 SVC Linear (d2) 0.26 0.110409 23 2 72 3 0.92 0.040000 0.960000 0.972973
4 17.000000 Random Forest (d1) 0.33 0.112147 25 0 67 8 1.00 0.106667 0.893333 1.000000
5 16.714286 Logistic Regression (d2) 0.30 0.086408 24 1 69 6 0.96 0.080000 0.920000 0.985714
6 15.973684 Logistic Regression (d1) 0.24 0.234804 22 3 73 2 0.88 0.026667 0.973333 0.960526
7 15.724638 KNN (d2) 0.31 0.076923 24 1 68 7 0.96 0.093333 0.906667 0.985507
8 13.054795 SVC Linear (d1) 0.27 -1.132503 22 3 70 5 0.88 0.066667 0.933333 0.958904
9 10.702703 KNN (d1) 0.26 0.307692 21 4 70 5 0.84 0.066667 0.933333 0.945946
10 10.142857 Decision Tree (d2) 0.30 0.180978 22 3 67 8 0.88 0.106667 0.893333 0.957143
11 7.816901 Decision Tree (d1) 0.29 0.082857 21 4 67 8 0.84 0.106667 0.893333 0.943662

Gaussian Naieve Bayes a le meilleur profit par moteur (19K USD par moteur) si l'entreprise
a la capacité de maintenir 31 % des moteurs par période (File d'attente).

La même méthode pourrait être appliquée pour sélectionner le modèle qui donne le meilleur
profit attendu à un niveau de capacité de maintenance spécifique pour les opérations contraintes,
et donc :

• Fonctionnant à une capacité de 26% : Le meilleur profit par moteur est de 17,35 USD
(Random Forest (d2) ou SVC Linear (d2)).
• Fonctionnant à une capacité de 28% : Le meilleur profit par moteur est de 18,69 USD
(gaussienne NB (d2)).

Grâce à l'utilisation de la méthode de la valeur attendue pour calculer le gain commercial en


unités monétaires, nous avons pu comparer différents modèles de classification et soutenir la prise
de décision dans différentes conditions d'exploitation.

60
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

4.5 La classification multiclasses

Nous avons segmentés les cycles restants des moteurs (TTF) en trois périodes : la période 0 :
de 0 à 15 cycles, la période 1 : de 16 à 30 cycles et la période 2 : plus de 30 cycles. Ces trois
périodes correspondent à nos trois classes. Des algorithmes de classification multiclasses vont être
utilisés pour prédire la période (la classe) pendant laquelle un moteur tombera en panne.

4.5.1 Procédure de la classification multiclasses

La classification multiclasse est une tâche d’apprentissage automatique supervisé qui est
utilisé pour prédire la classe (catégorie) d’une instance de donnée. L’entrée d’un algorithme de
classification multiclasse est un ensemble des instances étiquetées et la sortie est un classificateur
que nous pouvons utiliser pour prédire la classe des nouvelles instances non étiquetées.

Tout comme dans la classification binaire, les algorithmes de classification multiclasse sont
appliqués sur deux ensembles :

- l’ensemble de caractéristiques d'origine avant l'extraction de caractéristiques (d1),

- l'ensemble de caractéristiques d'origine + extraction de caractéristiques (d2).

Pour l'évaluation des modèles, les moyennes micros et macro de l'AUC ROC, du rappel, de la
précision et de la F1 sont calculées en plus de la justesse (accuracy). Dans le cas (d2), on joute la
moyenne mobile (Rolling average) et l’écart type mobile (rolling standard deviation) afin
d’améliorer les résultats.

4.5.2 Résultats obtenus

Contrairement au processus pour les problèmes de classification binaires, nous n’avons pas
forcément besoin de choisir un score seuil pour effectuer nos prédictions. La réponse prédite est
la classe avec le score prédit le plus élevé.

Les métriques standard utilisé en mode multiclasse sont les mêmes que celles utilisées dans le
cas d’une classification binaire. La métrique est calculée pour chaque classe en la traitant comme
un problème de classification binaire après avoir regroupé toute les autres classes dans la seconde
classe. Ensuite la métrique binaire est moyennée sur toutes les classes pour fournir une métrique
moyennée par macro ou une métrique de moyenne pondérée (pondérée par la fréquence des
classes). Ainsi, pour l'évaluation des modèles, nous avons calculé en plus de l’Accuracy (justesse)
les moyennes micros et macros de l'AUC ROC, du rappel, de la précision et de la F1 (F1 macro
est utilisé pour évaluer le succès prédictif du modèle).

61
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

Une macro-moyenne calcule la métrique indépendamment pour chaque classe puis prend la
moyenne (donc toutes les classes sont traitées de manière égale). Tandis qu’une micro-moyenne
agrégera les contributions de toutes les classes pour calculer la métrique moyenne. Cependant, afin
d’éviter le problème de déséquilibre entre les classes (c’est-à-dire avoir beaucoup plus d’exemple
dans une classe que dans d’autres), nous avons privilégié le calcul de la moyenne-micro pour nos
trois classes et tracer sa courbe pour nous faire une idée sur sa trajectoire.

Pour chaque algorithme nous allons donc donner ses meilleurs hyperparamètres, sa matrice
de confusion et de comparer les résultats de ses métriques avant et après extraction et l’interpréter.
Chaque algorithme dispose de deux graphes dans chacun des cas (d1) et (d2), dont le premier
graphe représente le graphe du taux de vrai positif (TPR) par rapport au taux de faut positif (FPR)
et la seconde représentant le graphe du taux de rappel et précision (precision-recall).

Cependant pour ne pas encombrer le chapitre avec trop de graphe, nous allons tout simplement
représenter les graphes de nos deux meilleures modèles, leurs matrices de confusion et le graphe
contenant les courbes des meilleures scores de tous nos modèles. L’explication des courbes figure
dans les légendes.

4.5.2.1 Arbre de décision

Les meilleures hyper paramètres Decision Tree (d1) sont : (criterion = 'entropy', max_depth
= 5) et ceux de Decision Tree (d2) sont : (criterion='entropy', max_depth=4).

Tableau 4.18 Evaluation de l’Arbre de décision (d1) et (d2).

Decision Tree (d1) Decision Tree (d2)


Accuracy 0.830000 0.840000
macro F1 0.640008 0.607906
micro F1 0.851282 0.857143
macro Precision 0.765058 0.852146
micro Precision 0.873684 0.875000
macro Recall 0.635556 0.651111
micro Recall 0.830000 0.840000
macro ROC AUC 0.922880 0.949857
micro ROC AUC 0.962650 0.973550

A partir du tableau 4.18, on constate que l’extraction des données à améliorer la plupart des
scores.

62
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

4.5.2.2 Support Vector Machine

Le meilleures hyper paramètres de SVC (d1) est : estimator = LinearSVC (C=0.01) et celui de
SVC (d2) sont : estimator = LinearSVC (C=0.001)

Tableau 4.19 Evaluation de SVC (d1) et (d2).


SVC Linear (d1) SVC Linear (d2)
Accuracy 0.010000 0.740000
macro F1 0.567765 0.314225
micro F1 0.637288 0.813187
macro Precision 0.594444 0.300813
micro Precision 0.482051 0.902439
macro Recall 0.800000 0.328889
micro Recall 0.940000 0.740000
macro ROC AUC 0.934652 0.943027
micro ROC AUC 0.909600 0.959000

L’extraction de donnée améliore plus ou moins les scores pour le modèle linear SVC (voir
tableau 4.19).

4.5.2.3 Régression logistique

Les meilleurs hyperparamètres de Logistic regression est : estimator = LogisticRegression (C


= 0.1) et celui de Logistic regression est : estimator = LogisticRegression(C=0.001). Avec
l’extraction de données, certaines métriques ont diminué et d’autres ont augmenté mais il n’y a
pas une grande différence pour ce qui est d’appliquer ce modèle sur les données originales ou
extraites car les résultats sont presque semblable (voir tableau 4.20).

Tableau 4.20 Evaluation de SVC (d1) et (d2).

Logistic regression (d1) Logistic regression (d2)


Accuracy 0.820000 0.800000
macro F1 0.575000 0.547530
micro F1 0.841026 0.842105
macro Precision 0.556863 0.582903
micro Precision 0.863158 0.888889
macro Recall 0.595556 0.528889
micro Recall 0.820000 0.800000
macro ROC AUC 0.943569 0.942812
micro ROC AUC 0.968900 0.968900

4.5.2.4 Random forest

Les meilleures hyper paramètres de Random forest (d1) sont : (criterion='entropy',


max_depth=8, n_estimators=50), et ceux de Random forest (d2) sont : (criterion='entropy',

63
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

max_depth=7, n_estimators=50). Concernant le model random forest nous remarquons que les
scores après l’extraction de donnée sont bien meilleures que les scores obtenu lorsque nous avons
utilisé les données originales. Donc l’extraction de données a amélioré les performances de ce
modèle (voir tableau 4.21).

Tableau 4.21 Evaluation de Random forest (d1) et (d2).


Random forest (d1) Random forest (d2)
Accuracy 0.820000 0.850000
macro F1 0.612536 0.705759
micro F1 0.854167 0.867347
macro Precision 0.776749 0.800813
micro Precision 0.891304 0.885417
macro Recall 0.573333 0.662222
micro Recall 0.820000 0.850000
macro ROC AUC 0.964340 0.967744
micro ROC AUC 0.978550 0.980600

4.5.2.5 K-Plus proches voisins

Le meilleures hyper paramètres de KNN (d1) est : n_neighbors=14, KNN A(d2) a également
le même. L’extraction de données a plus ou moins amélioré les performances de ce modèle (voir
tableau 4.22).

Tableau 4.22 Evaluation de KNN (d1) et (d2).

KNN (d1) KNN (d2)


Accuracy 0.830000 0.850000
macro F1 0.647558 0.688169
micro F1 0.860104 0.871795
macro Precision 0.884146 0.821193
micro Precision 0.891304 0.894737
macro Recall 0.595556 0.662222
micro Recall 0.830000 0.850000
macro ROC AUC 0.904137 0.950250
micro ROC AUC 0.954675 0.974025

4.5.2.6 Naïve bayes (Gaussian NB)

Dans le model naïves bayes nous ne fournissons aucune valeur à ses hypperparametres à plus
forte raison attendre que grid search sélectionne ses meilleurs paramètres automatiquement. Dans
le tableau 4.23, on voit que l’extraction de donnée n’a pas vraiment apporté un changement
significatif car elle a fait baisser plus de score qu’elle n’en a augmenté.

64
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

Tableau 4.23 Evaluation de Gaussian NB (d1) et (d2).

Gaussian NB (d1) Gaussian NB (d2)


Accuracy 0.740000 0.740000
macro F1 0.757853 0.754954
micro F1 0.852018 0.849315
macro Precision 0.655592 0.664502
micro Precision 0.772358 0.781513
macro Recall 0.977778 0.933333
micro Recall 0.950000 0.930000
macro ROC AUC 0.950334 0.944823
micro ROC AUC 0.962650 0.942850

4.5.2.7 Multi Layer Perceptron

Les meilleures hyperparamètres de MLP (d1) et MLP (d2) sont : (alpha=1.0,


hidden_layer_sizes= (105, 105). Nous remarquons qu’avec la procédure d’extraction de données,
les scores de notre modèle ont un peu augmenté (voir tableau 4.24).

Tableau 4.24 Evaluation de MLP (d1) et (d2).

MLP (d1) MLP (d2)


Accuracy 0.840000 0.860000
macro F1 0.671369 0.739520
micro F1 0.865979 0.882051
macro Precision 0.926818 0.860082
micro Precision 0.893617 0.905263
macro Recall 0.640000 0.684444
micro Recall 0.840000 0.860000
macro ROC AUC 0.969409 0.973846
micro ROC AUC 0.981150 0.983800

4.5.3 Discussion

Les performances de chaque modèle entraîné ont été évaluées sur l'ensemble de données de
test, donné n’ayant pas été exposé au modèle pendant le processus d'entraînement. Cela fournira
un moyen impartial de mesurer les performances de chaque modèle parmi les autres modèles
concurrents. Les résultats ci-dessous (voir tableau 4.25) résument dans le tableau les performances
de chacune des modèles avant et après extraction de données par rapport à ceux des autres modèles
dans les mêmes conditions.

65
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

Tableau 4.25 Comparaison des performances des algorithmes utilisés.

Accuracy Macro F1 Micro Macro Micro Macro Micro Macro Micro ROC
F1 précision précision recall recall ROC AUC AUC
Rég. Logistique (d1) 0.82 0.575 0.841 0.556 0.863 0.595 0.82 0.943 0.969
Rég. Logistique (d2) 0.80 0.547 0.842 0.582 0.889 0.528 0.80 0.942 0969
Decision tree (d1) 0.83 0.640 0.851 0.765 0.874 0.635 0.83 0.922 0.962
Decision tree (d2) 0.84 0.607 0.857 0.852 0.875 0.651 0.84 0.949 0.973
Random Forest (d1) 0.82 0.612 0.854 0.776 0.891 0.573 0.82 0.964 0.978
Random Forest (d2) 0.85 0.706 0.867 0.801 0.885 0.662 0.85 0.967 0.980
SVC linear (d1) 0.01 0.567 0.637 0.594 0.482 0.800 0.94 0.934 0.909
SVC linear (d2) 0.74 0.314 0.813 0.301 0.902 0.328 0.74 0.943 0.959
KNN (d1) 0.83 0.647 0.860 0.884 0.892 0.595 0.83 0.904 0.954
KNN (d2) 0.85 0.688 0.871 0.821 0.895 0.662 0.85 0.950 0.974
Gaussian NB (d1) 0.74 0.757 0.852 0.655 0.772 0.978 0.95 0.950 0.962
Gaussian NB (d2) 0.74 0.754 0.849 0.664 0.781 0.933 0.93 0.945 0.942
MLP (d1) 0.84 0.671 0.865 0.927 0.893 0.640 0.84 0.969 0.981
MLP (d2) 0.86 0.739 0.882 0.860 0.905 0.684 0.86 0.974 0.983

Après un bon processus de prétraitement, l’extraction de données peut nous aider à améliorer
les performances de nos modèles comme nous le voyons dans le tableau de comparaison.
Cependant elle peut ne pas être obligatoire car il y a des cas où, elle n’apporter pas vraiment de
modification au score du model en question. Le meilleure modèle à sélectionner pour notre
prédiction est le MLP parce qu’il a clairement surpassé tous les autres modèles dans presque toutes
les métriques et en plus de cela il possède le meilleure score AUC 98% comparer aux autres
modèles. Ainsi, Random forest occupe la 2 ème place dans le tableau.

La matrice de confusion et le rapport de classification relatifs au meilleur modèle sont données


respectivement par les tableaux 4.26 et 4.27.

Tableau 4.26 Matrice de confision de MLP (1).

75 0 0

12 2 1

2 0 8

Tableau 4.27 Rapport de classification de MLP (d1).

precision recall f1-score support


0 0.84 1.00 0.91 75
1 1.00 0.13 0.24 15
3 0.89 0.80 0.84 10

66
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

Tous les courbes de notre modèle sont au-dessus de la frontière faite par le classificateur et
possède toutes de très grande AUC ce qui signifie que nous avons obtenue de très bonne
indications sur les prédictions (voir figure 4.7).

Figure 4-7 Courbes de MLP (d1).

Sur les deux graphes de la figure 4.8, les légendes nous permettent de voir les scores de
chacune de nos algorithmes. Ainsi, nous voyons clairement que MLP possède le meilleur score
comme nous l’avions dit. Etant donné que le but de cette prédiction était de déterminer la période
à laquelle les moteurs tomberont en panne, nous pouvons dire que la ou les période(s)
correspondant à la classe ayant le plus grand AUC et le plus grand taux de rappel de précision
correspond à la période à laquelle nos moteurs tomberont en panne.

Figure 4-8 Courbes de score des algorithmes utilisés.

67
CHAPITRE 4 IMPLEMENTATION ET RESULTATS

4.6 Conclusion

Dans ce chapitre nous avons effectué notre travail suivant trois axes basés sur l’étude des
données, à savoir la régression, la classification binaire et la classification multiple. Pour chaque
méthode des modèles ont été proposée afin d'estimer la durée de vie restante, prédire les moteurs
qui tomberont en panne dans la période actuelle ainsi que de prédire la période pendant laquelle le
moteur tombera en panne. Ceci est fait sur un ensemble de moteurs d'avion. Afin d'évaluer les
performances de notre système, une étude comparative a été menée entre modèles en calculant des
mesures d'évaluation pour les trois méthodes mentionnées ci-dessus. A travers les résultats, nous
pouvons enfin choisir le meilleur modèle qui nous permet d'atteindre nos objectifs.

68
Conclusion générale

Le présent travail a porté sur la maintenance prédictive dans le cadre l’intelligence artificielle.
Il s’agit de la prédiction de la durée de vie des moteurs des avions, de la prédiction du moteur
susceptible d’être défectueux durant une période donnée, ainsi que la prédiction de la période à
laquelle les pannes de celles-ci se manifesteront (reconnaître les périodes pendant lesquels les
opérations de maintenance devrons avoir lieu) grâce à l’apprentissage automatique. Ainsi, une
étude a été menée dans un premier temps sur la maintenance et cela nous a permis d’identifier les
différentes techniques de maintenance ainsi que leurs avantages et inconvénients d’application.
Ensuite, un état de l’art a été établi sur les notions de machine learning et les techniques
d’apprentissage afin de dégager les algorithmes adéquats pour modéliser notre problématique ainsi
que les outils permettant de tester l’efficacité des solutions obtenues.

Le projet présenté dans ce mémoire propose une solution permettant d’établir le potentiel des
modèles d’intelligence artificielle pour l’amélioration du processus de maintenance dans
l’industrie par la reconnaissance des défauts des machines à l’avance. Pour cela, nous avons
montré l’importance de disposer d’un programme de maintenance prédictive efficace. En effet, les
arrêts non planifiés des chaînes de production pour divers cause et les retards de productions sont
des sources de perte financières et de perte de temps affectant directement la santé budgétaire et la
compétitivité des entreprises. Néanmoins afin d’avoir un très bon résultat ou une bonne prédiction
il est nécessaire d’avoir à sa disposition une large base de données pouvant contenir de nombreux
données brutes collectées sur les équipements. Parce que plus un modèle dispose de donnée
d’entraînement, plus il peut correctement prédire les observations. Les données à leurs tours
doivent être cohérentes et de meilleures qualités. Nous pouvons nous permettre de dire que la
réalisation de la prédiction avec un datasets simulé est en grande partie possible de nos jours grâce
au développement et au partage open source des données de plateforme comme Microsoft Cortana.
Cependant, nous n’allons pas oublier de mentionner également que le développement de nouvelle
bibliothèque sous Python tel que Scikit-learn a grandement facilité l’application de l’intelligence
artificielle dans le domaine de la maintenance en particulier, surtout pour les non-spécialistes.

En conclusion, les informations qui sont obtenues grâce à l’apprentissage automatique peuvent
aider les responsables de la maintenance à la compréhension, à l’amélioration et à préparer les
ressources matérielles et humaines nécessaires avant que survienne une défaillance. Ainsi, les
stratégies de maintenance traditionnelles impliquant une maintenance corrective et préventive
69
CONCLUSION GENERALE

peuvent être remplacées par une maintenance prédictive basée sur des modèles prédictifs.
L’évaluation des performances des modèles obtenus démontre que l’utilisation de l’intelligence
artificielle dans le domaine industriel est plus que bénéfique pour l’entreprise qui l’applique afin
d’augmenter la rentabilité de leurs équipements de production et par la même occasion accroître
les bénéfices de l’entreprise

Plusieurs problèmes ont été rencontrés lors de la conception et la réalisation de notre projet
dont la résolution a été très bénéfique. D’une part, nous avons dû acquérir beaucoup de
connaissances dans de nouveaux domaines notamment la science des données et le machine
learning. D’autre part, l’implémentation de notre solution, nous a permet de découvrir et de
maîtriser de nouveaux outils de programmation tels que le magnifique langage de Python, les outils
Jupiter notebook, pycharm et spider, ainsi que les différentes librairies permettant de traiter les
données, d’implémenter les algorithmes d’apprentissage automatique et de visualiser les résultats
(Numpy, Pandas, Matplotlib, Scikit-learn, ...etc.). Cette expérience nous a également donné la
possibilité d’améliorer nos compétences en méthodologie de recherche, en communication et en
rédaction.

D’un point de vue personnel, le travail que nous avons mené offre de nombreuses perspectives
d’améliorations. Durant ce projet nous avons travaillé sur des données simulées et non sur des
données obtenues à partir des machines en pleine utilisation. Donc, il s’avère très important de
procéder par une phase d’acquisition et de collecte des données en situation réelle avant de se
lancer dans l’implémentation du système dans un milieu industriel. Vu l’insuffisance et les
limitations des techniques du machine learning dans certaines situations, nous proposons
d’employer des techniques d’apprentissage plus avancées pour mieux modéliser les tâches de
maintenance. Il s’agit des techniques d’apprentissage approfondi ou deep learning. Pour finir, nous
envisageons de continuer notre travail sur l’application du machine learning à la maintenance
industrielle afin d’approfondir nos connaissances dans ce merveilleux domaine avec pour objectif
de contribuer aux avancées scientifiques à travers la recherche dans le cadre du doctorat.

70
Références bibliographiques

[1] NF EN 13306, Norme européenne, Éditée et diffusée par l’Association Française de


Normalisation (AFNOR), Juin 2001.
[2] Wendbenedo Arnaud, « Application des algorithmes d’apprentissage automatique pour la
détection de défauts de roulements sur les machines tournantes dans le cadre de l’industrie
4.0 », thèse du grade de maître ès sciences appliquée en ingénierie, profil recherche,
université du Québec à Chicoutimi, 2020, 69p.
[3] Innocent Mateyaunga, « Prédictive Maintenance Using Machine Learning », la thèse de
master, sous la direction de Hadj Abdelkader, Faculté de technologie de l'université de
Tlemcen, 2020, 61p.
[4] Gian Antonio Susto, Andrea Schirru, Simone Pampuri, Sean McLoone Senior Member,
Alessandro Beghi, « Machine Learning for Predictive Maintenance: a Multiple Classifier
Approach », IEEE Transactions on Industrial Informatics, pages (1-9), 2014 IEEE.
[5] Zeki Murat Çınar, Abubakar Abdussalam Nuhu, Qasim Zeeshan, Orhan Korhan,
Mohammed Asmael and Babak Safaei, « Machine Learning in Predictive Maintenance
towards Sustainable Smart Manufacturing in Industry 4.0 » Sustainability, October 2020.
[6] Zohra Bouzidi, « Pronostic des systèmes industriels basé sur l’intelligence artificielle
Maintenance prédictive », Thèse de doctorat LMD en Informatique, sous la direction de
Okba Kazar, Université Mohamed Khider – Biskra, 2019, 153p.
[7] Norme x60-319/nf en 13306 terminologies de la maintenance, 2001. 6, 9, 10, 11.
[8] Andrea Coraddu, Luca Oneto, Aessandro Ghio, Stefano Savio, Davide Anguita and
Massimo Figari, « Machine learning approaches for improving condition-based maintenance
of naval propulsion plants », Proceedings of the Institution of Mechanical Engineers, Part
M: Journal of Engineering for the Maritime Environment, 25 July 2014.
[9] David Kimera, Fillemon Nduvu Nangolo, « Predictive maintenance for ballast pumps on
ship repair yards via machine learning », Elsevier journal: Transportation Engineering 2,
2020.
[10] Sujata Butte, Prashanth AR, Sainath Patil, « Machine learning based predictive maintenance
strategy: a super learning approach with deep neural networks », IEEE, 2018.
[11] Sule Selcuk, « Predictive maintenance, its implementation and latest trends », journal of
engineering manufacture, on January 19, 2016.

71
REFERENCES BIBLIOGRAPHIQUES

[12] Jezzini, A. Ayache, M. Elkhansa, L. Makki, B. Zein, M. « E_ects of predictive maintenance


(PdM), Proactive maintenance (PoM) & Preventive maintenance (PM) on minimizing the
faults in medical instruments ». In Proceedings of the 2013 2nd International Conference on
Advances in Biomedical Engineering, Tripoli, Lebanon, 11–13 September 2013, pp. 53–56.
[13] Carvalho, T.P. Soares, F.A. Vita, R. Francisco, R.D. Basto, J.P. Alcalá, S.G. « A systematic
literature review of machine learning methods applied to predictive maintenance »,
Computers & Industrial Engineering, 2019, 137, 106024.
[14] Bakdi Malika, Nasri Somia, « Big Data : maintenance prédictive au service de l’industrie
Cas du génie de la maintenance prédictive "Monixo" », 11 Avril 2017.
[15] Panagiotis Korvesis, « Apprentissage Automatique pour la Maintenance Predictive dans le
Domaine de l’Aviation », Thèse de doctorat, sous la direction de Michalis Vazirgiannis,
Paris, de l’Université Paris-Saclay préparée à l’école Polytechnique, le 21 novembre 2017,
139p.
[16] Celia garcia-montero, « Maintenance prédictive : définition et intérêt dans l'industrie »,
URL : https://www.journaldunet.fr/web-tech/dictionnaire-de-l-iot/1489507-maintenance-
predictive-definition-et-interet-dans-l-industrie/, 28/04/2021.
[17] Maëlys De Santis, « Qu’est-ce que la maintenance prédictive », URL :
https://www.appvizer.fr/magazine/operations/gmao/maintenance-predictive-definition,
20/04/2021.
[18] Pierre Jacquet-Droz, « Définition et histoire de l’intelligence artificielle», URL :
http://intelligence-artificielle-tpe.e-monsite.com/pages/presentation/histoire-de-l
ia.html#:~:text=Naissance%20de%20l%27IA%20%281956%29%20Durant%20l%27ann
%C3%A9e%201956%2C%20un,l%27IA%20fut%20consid%C3%A9r%C3%A9e%20com
me%20un%20domaine%20de%20recherche, 20/05/2021.
[19] Patrick Jahnke, «Machine Learning Approaches for Failure Type Detection and Predictive
Maintenance», June 19, 2015.
[20] Axel de Goursac, «Le machine learning envol vers le prédictif», Miriad, 2016.
[21] Shili Zhao, Song Zhang, Jincun Liu, He Wang, Jia Zhu, Daoliang Li, Ran Zhao « Application
of machine learning in intelligent fish aquaculture: A review », Elsevier, 2021.
[22] Marina Paolanti, Luca Romeo, Andrea Felicetti, Adriano Mancini, Emanuele Frontoni,
«Machine Learning approach for Predictive Maintenance in Industry 4.0», IEEE/ASME
International Conference on Mechatronic and Embedded Systems and Applications
(MESA), 2018.
[23] Roger Bagra, Valentine Fontana, Wee-hyong Tok, « Predictive analytics with Microsoft
azure machine learning», edition 1, 2014, 188p.

72
REFERENCES BIBLIOGRAPHIQUES

[24] Prashanth Ashok, «What is Ridge Regression»,


https://www.mygreatlearning.com/blog/what-is-ridge-regression/, 25/05/21.
[25] Syphax Oould Rabah, «Modélisation de la prime pure de la garantie Vol/Incendie d’un
contrat d’assurance automobile», thèse de master, sous la direction de Elodie Delle-Case,
université paris dauphine, 133p.
[26] « Qu'est-ce qu'un arbre de décision », URL : https://www.lucidchart.com/pages/fr/arbre-de-
decision#:~:text=Un%20arbre%20de%20d%C3%A9cision%20est%20un%20sch%C3%A
9ma%20repr%C3%A9sentant,de%20leur%20co%C3%BBt%2C%20leur%20probabilit%C
3%A9%20et%20leurs%20b%C3%A9n%C3%A9fices, 25/05/2021.
[27] B. E. Boser, I. M. Guyon, et V. N. Vapnik, «A training algorithm for optimal margin
classifiers» Dans Proceedings of the 5th Annual ACM Workshop on Computational
Learning Theory, pp. 144-152.
[28] Alexander J. Smola and Bernhard Schölkopf. «A tutorial on support vector regression»,
Statistics and Computing, 14(3):199–222, 2004.
[29] Márcio das Chagas Moura, Enrico Zio, Isis Didier Lins, and Enrique Droguett, « Failure and
reliability prediction by support vector machines regression of time series data», Reliability
Engineering & System Safety, 96(11):1527–1534, 2011.
[30] Balaji T.K, Chandra Sekhara Rao Annavarapu , Annushree Bablani , « Machine learning
algorithms for social media analysis: A survey », Elsevier journal, 2021,31p.
[31] Thibault Allançon, « Régression linéaire et polynomiale », URL:
https://haltode.fr/algo/ia/apprentissage_artificiel/regression_lin_poly.html, 31/05/2021.
[32] Mustafa Cakir, Mehmet Ali Guvenc, Selcuk Mistikoglu, « The experimental application of
popular machine learning algorithms on predictive maintenance and the design of IIoT based
condition monitoring system », Elsevier journal, Computers & Industrial Engineering, 2021,
14p.
[33] Guennineche Amel, « Prédiction des propriétés des matériaux par apprentissage
automatique », la thèse de master, sous la direction de Mr Abdelkrim MERAD, Faculté Des
Sciences de l'université de Tlemcen, 2019, 54p.
[34] Thyago. Carvalhoa, Fabrízzio , Soaresa, Roberto Vitac, Roberto da, Franciscob, João Bastoc,
Symone G. S. Alcaláb, «A systematic literature review of machine learning methods applied
to predictive maintenance », Elsevier journal, Computers & Industrial Engineering, 2019,
10p.
[35] Moualek Djaloul Youcef, «Deep learning pour la classification des images», Thèse de
master LMD en Informatique, sous la direction de Benazzouz Mourtada, Universite Abou
bakr Belkaid-Tlemcen, Faculté des sciences, 2017,78p.

73
REFERENCES BIBLIOGRAPHIQUES

[36] Gilles Zwingelstein, Méthodes de diagnostic et de pronostic de défaillances basées sur les
données- état de l’art, 10/08/2020.
[37] URL: http://azuremlsamples.azureml.net/templatedata/PM_train.txt.
[38] Saed Sayad, «Model Evaluation- Regression»,
URL: https://www.saedsayad.com/model_evaluation_r.htm, 28/06/2021.
[39] Rachid Mifdal, « Application des techniques d’apprentissage automatique pour la prédiction
de la tendance des titres financiers », L’obtention De La Maitrise, Sous la direction de M.
Edmond Miresco, École De Technologie Supérieure Université Du Québec, 2019, p 176.
[40] Berrimi Mohamed, « Deep Learning for Detecting and Identifying Blinding Retinal Diseases
Problematic», Thèse de master LMD en Informatique, sous la direction de Abdelouahab
Moussaoui, Université Ferhat Abbas Sétif 1, 2019, 78p.
[41] Chloé-Agathe Azencott, «Introduction au Machine Learning», edition 1, 2015, 180 p.
[42] Lukasz langa, « Python core team : Python 3.6 », URL : https://www.python.org/.
[43] Wes McKinney and the Pandas Development Team, « Pandas: powerful Python data
analysis toolkit », Apr 12, 2021.
[44] Giang Nguyen, Stefan Dlugolinsky, Martin Bobák,Viet Tran, Álvaro López García, Ignacio
Heredia, Peter Malík, Ladislav Hluchý, «Machine Learning and Deep Learning frameworks
and libraries for large-scale data mining: a survey », Springer Nature journal,19 January
2019, 124p.
[45] Using matplotlib in pythonista,, URL : https://omzsoftware.com/pythonista/matplotlib/,
01/06/2021.
[46] Tom Fawcett, «Data science for bissenis », Amazon Warehouse, Dec 15, 2021.

74
Résumé
A cause des conditions opérationnelles et environnementales, le processus de production dans les
entreprises est très sensible à la détérioration et aux défaillances. Donc, il est indispensable de définir
la stratégie de maintenance correcte afin de réduire au minimum les temps d'arrêt causés par les pannes
inattendues et de minimiser par conséquent les coûts très élevés de maintenance. Récemment, la
maintenance prédictive a profité du développement dans les domaines de la science de données et du
machine learning pour surpasser plusieurs limitations de la maintenance conventionnelle. Le but de
ce projet est d’exploiter une énorme quantité de données relatives au comportement des moteurs
d’avion simulés afin d’entraîner des modèles capables de prédire l’état de fonctionnement futur de ces
moteurs. Ainsi, nous avons créé des modèles prédictifs pour estimer la durée de vie restante d’un
moteur, trouver quels moteurs tomberont en panne dans une période donnée, ainsi pour prédire la
période pendant laquelle un moteur tombera en panne. Ces modèles sont générés par des algorithmes
selon trois catégories : la régression, la classification binaire et la classification multiple. Enfin, nous
avons vérifié l’efficacité de nos modèles à l’aide des métriques d’évaluation des performances
adéquates.
Mots clé : Maintenance prédictive, Machine learning, Régression, Classification.

Abstract
Due to operational and environmental conditions, the production process in companies is very
sensitive to deterioration and failure. Therefore, it is essential to define the correct maintenance
strategy in order to minimize the downtime caused by unexpected failures and therefore to minimize
the very high maintenance costs. Recently, predictive maintenance has taken advantage of
developments in data science and machine learning to overcome several limitations of conventional
maintenance. The aim of this project is to exploit a huge amount of data relating to the behavior of
simulated aircraft engines in order to train models capable of predicting the future operating state of
these engines. So, we created predictive models to estimate the remaining life of an engine, find which
engines will fail in a given time period, and thus predict the period in which an engine will fail. These
models are generated by algorithms according to three categories : regression, binary classification
and multiple classification. Finally, we verified the effectiveness of our models using appropriate
performance assessment metrics.
Keywords : Predictive maintenance, Machine learning, Regression, Classification.

‫ملخص‬
‫ من‬،‫ لذلك‬.‫ فإن عملية اإلنتاج في الشركات عرضة للغاية للتدهور والعطب‬،‫بسبب الظروف التشغيلية والبيئية‬
‫الضروري تحديد استراتيجية الصيانة الصحيحة لتقليل وقت التوقف عن العمل الناجم عن األعطال غير المتوقعة وبالتالي‬
‫ استفاتت الصيانة التنبيية من التطورات في علم البيانات والتعلم‬،،‫ في اآلونة األيخير‬.‫تقليل تكاليف الصيانة المرتفعة للغاية‬
‫ الهدف من هذا المشروع هو استغالل كمية هائلة من البيانات المتعلقة‬.‫اآللي للتغلب على العديد من سلبيات الصيانة التقليدية‬
‫ على التنبي بحالة التشغيل المستقبلية لهذه‬،‫ لتدريب نماذج قاتر‬،‫ عن طريق المحاكا‬،‫بسلوك محركات الطائرات المولد‬
‫ زمنية‬،‫ وإيجات المحركات التي ستفشل في فتر‬،‫ قمنا بإنشاء نم اذج تنبيية لتقدير العمر المتبقي للمحرك‬،‫ لذلك‬.‫المحركات‬
:‫ يتعلق األمر بنماذج تم إنشاؤها بواسطة يخوارزميات وفقًا لثالث فئات‬.‫ التي يفشل فيها المحرك‬،‫ وبالتالي توقع الفتر‬،‫معينة‬
.‫ قمنا بالتحقق من فعالية نماذجنا باستخدام مقاييس تقييم األتاء المناسبة‬،‫أيخيرا‬
ً .‫ التصنيف الثنائي والتصنيف المتعدت‬،‫االنحدار‬
.‫ التصنيف‬،‫ االنحدار‬،‫ التعلم اآللي‬،‫ الصيانة التنبيية‬: ‫الكلمات المفتاحية‬

Vous aimerez peut-être aussi