Académique Documents
Professionnel Documents
Culture Documents
Merci à eux d’avoir sacrifier corps et âme pour nous mettre dans
toutes les bonnes conditions en nous offrant un milieu favorable pour
que nous ne manquions de rien et puissions étudier comme nous le
souhaitions, en croyant en nos capacités dès le tout début sans
oublier de nous encourager et de nous soutenir à tout moment.
Abstract
Due to operational and environmental conditions, the production process in companies is very
sensitive to deterioration and failure. Therefore, it is essential to define the correct maintenance
strategy in order to minimize the downtime caused by unexpected failures and therefore to minimize
the very high maintenance costs. Recently, predictive maintenance has taken advantage of
developments in data science and machine learning to overcome several limitations of conventional
maintenance. The aim of this project is to exploit a huge amount of data relating to the behavior of
simulated aircraft engines in order to train models capable of predicting the future operating state of
these engines. So, we created predictive models to estimate the remaining life of an engine, find which
engines will fail in a given time period, and thus predict the period in which an engine will fail. These
models are generated by algorithms according to three categories : regression, binary classification
and multiple classification. Finally, we verified the effectiveness of our models using appropriate
performance assessment metrics.
Keywords : Predictive maintenance, Machine learning, Regression, Classification.
ملخص
من، لذلك. فإن عملية اإلنتاج في الشركات عرضة للغاية للتدهور والعطب،بسبب الظروف التشغيلية والبيئية
الضروري تحديد استراتيجية الصيانة الصحيحة لتقليل وقت التوقف عن العمل الناجم عن األعطال غير المتوقعة وبالتالي
استفاتت الصيانة التنبيية من التطورات في علم البيانات والتعلم،، في اآلونة األ يخير.تقليل تكاليف الصيانة المرتفعة للغاية
الهدف من هذا المشروع هو استغالل كمية هائلة من البيانات المتعلقة.اآللي للتغلب على العديد من سلبيات الصيانة التقليدية
على التنبي بحالة التشغيل المستقبلية لهذه، لتدريب نماذج قاتر، عن طريق المحاكا،بسلوك محركات الطائرات المولد
زمنية، وإيجات المحركات التي ستفشل في فتر، قمنا بإنشاء نماذج تنبيية لتقدير العمر المتبقي للمحرك، لذلك.المحركات
: يتعلق األمر بنماذج تم إنشاؤها بواسطة يخوارزميات وفقًا لثالث فئات. التي يفشل فيها المحرك، وبالتالي توقع الفتر،معينة
. قمنا بالتحقق من فعالية نماذجنا باستخدام مقاييس تقييم األتاء المناسبة،أيخيرا
ً . التصنيف الثنائي والتصنيف المتعدت،االنحدار
. التصنيف، االنحدار، التعلم اآللي، الصيانة التنبيية: الكلمات المفتاحية
i
Liste des tableaux
ii
Liste des figures
iii
Liste des abréviations
iv
Table des matières
Résumé ......................................................................................................... i
v
TABLE DES MATIERES
vi
TABLE DES MATIERES
vii
Introduction générale
Parmi les méthodes basées sur l'inférence statistique, celles basées sur l’intelligence artificielle
et surtout l’apprentissage automatique (Machine Learning) sont les mieux adaptées pour traiter
des problèmes modificatifs de grande dimension. L'intelligence artificielle (IA) est un domaine lié
au traitement de la connaissance et de la pensée, dans le but de permettre aux machines d'exécuter
des fonctions généralement associées à l'intelligence humaine. Le machine learning (ML) est une
forme d'intelligence artificielle qui fait référence à un ensemble d'algorithmes pour analyser et
traiter des données à des fins de classification et de prédiction. Les techniques de ML visent à
capturer les relations complexes dans les données qu'elles peuvent être difficiles à caractériser afin
de fournir des alertes plus précoces sur les défaillances entrantes et de déterminer une plus grande
précision dans les prédictions de la durée de vie utile restante des systèmes.
Ce projet de fin d’étude vise à construire des modèles d'apprentissage automatique permettant
de prévenir les pannes qui se produiront dans le futur et de prédire le temps de fonctionnement
avant défaillance de l’équipement. Ces informations sont très importantes pour améliorer la
planification de la maintenance.
1
INTRODUCTION GENERALE
Nous proposons, dans ce travail, une approche basée sur des techniques d'apprentissage
automatique. Cette approche fournira une solution efficace à la maintenance prédictive ainsi
qu'aux problèmes qui nécessitent généralement beaucoup de réglages manuels ou ne peuvent pas
être résolus du tout à l'aide de techniques traditionnelles. Cela réduit les coûts des dommages ainsi
que le nombre de procédures de maintenance inutiles. Ce travail décrit les principaux concepts
modernes de l'apprentissage automatique pour la maintenance prédictive des moteurs d'avion. Il
s’agit de deux axes de recherche : la détection de défauts par classification et l'estimation de la
durée de vie restante. Pour tester l'efficacité de cette solution, les performances des algorithmes
doivent être étudiées en termes de précision.
Dans le troisième chapitre, nous apporterons notre contribution dans le but de résoudre le
problème en question. Après la collecte et la description de l’ensemble de données utilisé (moteurs
d'avion), nous procédons à son prétraitement. Ces étapes sont très importantes pour choisir la
bonne approche d'apprentissage automatique d'un point de vue analytique. Ensuite, nous
présentons un certain nombre d’algorithmes adoptés pour modéliser l’objectif initial, ainsi que les
techniques permettant de mesurer les performances des modèles construits.
Le quatrième chapitre explique la mise en œuvre de notre approche, en commençant par une
vue d'ensemble des outils et de l'environnement de développement. Ensuite, nous présenterons
quelques interfaces illustrant les résultats obtenus en appliquant les algorithmes choisis sur
l’ensemble de données préparé dans le chapitre précédent. Nous validons enfin cette approche avec
des métriques de performance.
Dans une conclusion générale, nous réorganisons tous nos développements par rapport à
l'objectif initial de l'étude. Nous résumons les principaux résultats obtenus, les problèmes
rencontrés et les perspectives de ce travail.
2
CHAPITRE 1
Maintenance prédictive
1.1 Introduction
Dans un complexe industriel, la maintenance est une tâche très importante pour le bon
fonctionnement des différents équipements. Dans ce chapitre nous parlerons tout d’abord de ce
qu’est la maintenance industrielle au sens propre ainsi que les différents types de maintenance,
parmi lesquels figure la maintenance prédictive qui fera l’objet d’étude de notre chapitre tout en
précisant ses avantages, ses outils et sans oublier de donner quelques exemples de domaines
auxquelles elle s’applique.
La maintenance industrielle peut être définie comme « l'ensemble de toutes les actions
techniques, administratives et de management durant le cycle de vie d'un bien, destinées à le
maintenir ou à le rétablir dans un état dans lequel il peut accomplir la fonction requise » [1]. Elle
comprend ainsi un ensemble d'actions de dépannage, de réparation, de contrôle et de vérification
des équipements matériels, et doit contribuer à l'amélioration des processus industriels.
3
CHAPITRE 1 MAINTENANCE PREDICTIVE
La maintenance réactive (MR), parfois appelée maintenance en cas de panne, est une méthode
de maintenance continue. La maintenance pour réparer l'équipement n'est effectuée que lorsque
l'équipement tombe en panne ou a fonctionné au point de tomber en panne. Dans la pratique,
certaines usines ou entreprises utilisent une véritable philosophie de gestion de la maintenance en
cas de panne. Avec la RM, vous obtenez un rendement et une utilisation maximale de
l’équipement, car il est utilisé à ses limites.
Lorsqu'une entreprise opte pour la gestion de l'exécution en cas de panne, elle ne dépense pas
d'argent en maintenance jusqu'à ce qu'une machine ou un système ne fonctionne plus [3]. C’est
clairement l’approche la plus simple pour gérer la maintenance (et c’est pour cette raison qu’elle
est fréquemment adoptée), mais c’est aussi la moins efficace, car le coût des interventions et les
temps d’arrêt associés après une panne sont généralement beaucoup plus importants que ceux
associés avec des actions correctives planifiées prises à l'avance [4]. Cela peut entraîner des temps
d’arrêts importants de l’équipement et un risque élevé de défauts secondaires et ainsi créer un très
grand nombre de produits défectueux dans le processus de fabrication [5]. De plus, lorsque les
composants commencent à vibrer, à surchauffer et à se briser, des dommages supplémentaires à
l'équipement peuvent survenir, ce qui peut entraîner des réparations encore plus coûteuses. En
outre, une entreprise doit maintenir des vastes stocks de pièces de rechange étendus pour tous les
équipements et composants critiques pour pouvoir faire face à toutes les pannes possibles.
L’alternative consiste à s’appuyer sur des fournisseurs d’équipements capables de fournir
Immédiatement tous les équipements et composants de rechange nécessaires.
Les opérations de la maintenance corrective (MC) ont lieu une fois la panne identifiée. Il s’agit
essentiellement d’un dépannage car la maintenance corrective est effectuée après la détection
4
CHAPITRE 1 MAINTENANCE PREDICTIVE
d’une panne et destinée à remettre un élément dans un état dans lequel il peut exécuter une fonction
requise.
Les étapes de MC sont qu’après l’apparition d’une panne, nous faisons le diagnostic, éliminons
la pièce à l’origine de la panne puis commandons le remplacement de la pièce, remplaçons la pièce
puis effectuons un test de fonctionnement (contrôle opérationnel) et enfin poursuivons l’utilisation
de la machine. La MC est utilisée après qu’un problème supplémentaire est détecté dans une
séquence de travail distincte. Par exemple, lors d’une des inspections de routine, Un technicien se
rend compte qu’il y a un problème qui doit être résolu avant que d’autres problèmes ne surviennent.
Nous avons réalisé que la MC est effectuée (juste à temps), ce qui permet à la machine de réduire
les commandes de maintenance d’urgence, favorisant l’augmentation de la sécurité des employés,
aide les équipes de maintenance à résoudre les problèmes avant que la production ne soit bloquée
ou que les services soient interrompus.
La MC aide une organisation à prolonger la durée de vie de ses équipements, à réduire les
blessures des employés et à optimiser la planification des ressources [3]. Deux formes de MC
peuvent être distinguées, une maintenance palliative lorsque l’intervention de maintenance est
temporaire, et une maintenance curative, si les travaux sont définitifs [6]. En dehors de ces cas, il
est apparu qu'il était possible de réduire de manière significative le coût de maintenance en
intervenant sur le système avant la panne, c’est-à-dire de manière préventive.
La maintenance préventive (MV) vise à réduire les risques d’occurrence d’une défaillance. La
norme [7] la définit comme suit : « Maintenance exécutée à des intervalles prédéterminés ou selon
des critères prescrits et destinée à réduire la probabilité de défaillance ou la dégradation du
fonctionnement d’un bien ».
Plusieurs variantes existent, telles que des ajustements, des remplacements, des
renouvellements et des inspections, qui ont lieu selon un plan et un calendrier prédéterminés, cela
permet d'établir des plages horaires d'indisponibilité d'un actif (ou d'une partie de celui-ci), à
l'opposé de l'imprévisibilité, qui caractérisent les schémas de défaillance aléatoires en maintenance
corrective [8]. Ce type de maintenance est appliqué par les techniciens chargés de la maintenance
industrielle avant toute apparition de panne ou de dysfonctionnement. Elle affecte les pièces de
rechanges, les composants ainsi que les machines, les équipements afin de réduire le risque d’échec
ou de défaillance.
5
CHAPITRE 1 MAINTENANCE PREDICTIVE
efficacement [2]. La maintenance est exécutée même lorsque la machine est toujours en
fonctionnement normal afin d'éviter les pannes imprévues avec les temps d'arrêt et les coûts
associés. La MV peut réduire les coûts de réparation et les temps d'arrêt imprévus, mais peut
entraîner des réparations inutiles ou des pannes catastrophiques. La détermination du moment où
une pièce d'équipement entrera dans la phase d'usure est basée sur le taux de défaillance théorique
plutôt que sur des statistiques réelles sur l'état de l'équipement spécifique. Cela se traduit souvent
par une maintenance coûteuse et totalement inutile avant qu'il y ait un problème réel ou après le
début des dommages potentiellement catastrophiques [3].
Ce type de maintenance, à long terme, permet de réduire totalement les coûts associés à la
maintenance, minimisant ainsi l'apparition de pannes graves et optimisant les ressources
économiques disponibles [9]. Les actions de maintenance ne peuvent être effectuées que lorsque
les actions du processus sont exécutées après une ou plusieurs conditions de dégradation du
procédé. La MCN ne peut généralement pas être planifiée à l'avance [5].
6
CHAPITRE 1 MAINTENANCE PREDICTIVE
Les pronostics sont actuellement au cœur de la gestion de la santé des systèmes, l'objectif
ultime est de détecter les pannes avant qu'elles ne surviennent en surveillant l'état des équipements,
son principal obstacle est le temps de mise en œuvre plutôt que le coût de la technologie [3]. La
maintenance prédictive (MPV) vise à pallier le manque de connaissance de la MCN. Elle est
définie selon la norme [7] comme : « Une maintenance conditionnelle exécutée en suivant les
prévisions extrapolées de l’analyse et de l’évaluation de paramètres significatifs de la dégradation
du bien ».
Cette approche promet des économies de coûts par rapport à la MV traditionnelle ou basée sur
le temps, car les tâches de maintenance sont prévues avec une plus grande précision et les activités
de maintenance nécessaires ne sont effectuées que lorsque cela est justifié. Une bonne stratégie de
la maintenance prédictive permet une planification pratique de la maintenance corrective et évite
les pannes d'équipement imprévues [10]. La MPV permet aux organisations de réduire la fréquence
des maintenances réactives non planifiées et aide également à expulser les coûts associés aux
maintenances préventives car les pièces sont retirées trop tôt [3]. Bien qu'il existe des travaux qui
visent à réduire le nombre d'opérations de maintenance périodique, la maintenance prédictive est
la politique de maintenance la plus développée et évite le sur-entretien ou le sous-entretien [11].
Il est nécessaire que toute stratégie de maintenance minimise les taux de défaillance de
l'équipement, améliore l'état de l'équipement, prolonge la durée de vie de l'équipement et réduise
les coûts de maintenance. Un aperçu des classifications de maintenance est présenté à la figure 1.1
[3]. La MPV s'est avérée être l'une des stratégies les plus prometteuses parmi d'autres stratégies de
maintenance qui a la capacité d'atteindre ces caractéristiques [12]. D’ailleurs, la stratégie a été
appliquée récemment dans de nombreux domaines d'études.
Prédictive
Afin d’effectuer la maintenance dans une condition propice, il y a lieu de définir de nombreux
paramètres et il peut être difficile d’être pertinent sur tous les points pour un ou plusieurs êtres
humains car il faut analyser un très grand volume de données. Ainsi, de préférence il vaut mieux
laisser ce travail à une machine qui analyserait de très nombreux cas pour définir au mieux tous
ces paramètres. Elle pourra ainsi plus facilement définir les éléments à observer mais aussi détecter
elle-même de nouveaux éléments auxquels une personne n’aurait pas pensé afin de définir au
mieux l’état d’un élément et donc le moment optimal pour son remplacement. La maintenance
prédictive identifie les pièces de rechange nécessaires à ce planning de maintenance
incomparablement plus précis. Elle élimine la nécessité d’un stockage inutile (et coûteux) de
pièces en surnombre [13].
La MPV et le machine learning ont développé une connexion très forte. Cependant, il n'est pas
toujours facile ou directe de réaliser une maintenance prédictive efficace pour plusieurs raisons :
• Manque de puissance prédictive dans les données : Il est possible que les données disponibles
ne contiennent pas d'informations pertinentes ou adéquates sur le problème.
• Manque de données annotées : Malgré que de grands ensembles de données puissent être
disponibles pour l'analyse, lorsqu'il s'agit de tâches supervisées, il faut obtenir des données
annotées (ou étiquetées).
• D'énormes quantités de données : Dans de nombreux scénarios du monde réel, il faut traiter
de nombreux gigaoctets ou même téraoctets de données pour pouvoir extraire des
connaissances utiles sur le domaine. Ces problèmes peuvent être plus faciles ou plus difficiles
à résoudre en fonction de l'application et le domaine considéré. Leur manque peut être un
obstacle majeur et l'acquisition peut être très coûteuse, puisqu'il faut consommer plusieurs
heures, afin d'attribuer manuellement les étiquettes de vérité terrain. Enfin, les progrès récents
8
CHAPITRE 1 MAINTENANCE PREDICTIVE
du Big Data et des technologies associées ont permis d'analyser de très grands ensembles de
données dans des environnements distribués [14].
• Les données peuvent être mal interprétées, entraînant de fausses demandes de maintenance.
• Il est coûteux de mettre en place un système IoT complet.
• L'analyse prédictive peut ne pas prendre en compte les informations contextuelles, Comme
l'âge de l'équipement ou les conditions météorologiques.
• La maintenance prédictive peut décourager l'inspection physique proactive Et entretien des
équipements.
• Les activités de maintenance préventive peuvent être déclenchées par des échéanciers plutôt
Que l'état de la machine d'origine [3].
9
CHAPITRE 1 MAINTENANCE PREDICTIVE
Avec l'essor des véhicules connectés, qui permettent de collecter de nombreuses informations,
la maintenance prédictive suscite l'intérêt du secteur automobile, désireux de connaître en temps
réel l'usure des pièces mécaniques des parcs automobiles. Par exemple, avec son offre Michelin
Tire Care, le fabricant français assure la maintenance prédictive de ses pneumatiques sous forme
de service à ses clients.
Vous faites partie de celles et ceux qui ont la hantise de se retrouver bloqué dans un ascenseur?
Avec la maintenance prédictive et l’IoT, il devient possible de réparer une panne d’ascenseur avant
que celle-ci ne se produise. Les principaux acteurs du marché de l’ascenseur se sont ainsi lancés
dans une course aux services de maintenance prédictive pour leurs équipements, avec des
ascenseurs toujours plus connectés et reliés à l’intelligence artificielle. A la clé, une résolution des
problèmes avant qu’ils ne surviennent, et une sécurité optimale pour les usagers. La start-up
parisienne WeMaintain a observé une division par trois des pannes au bout de 6 mois de
maintenance prédictive. Plus de 10% du parc géré par l'ascensoriste finlandais Kone était connecté
en juin 2020. Le groupe prévoit de connecter l'ensemble de ses nouveaux appareils pour proposer
des services IoT d'ici 2022 [16].
1.6 Conclusion
Nous venons de présenter les concepts actuels attachés à la fonction maintenance et plus
précisément à la maintenance prédictive en précisant les principaux mots du vocabulaire associé.
Il est bien évident que nous n’avons pas eu la prétention de faire œuvre exhaustive. Toute l’activité
de maintenance ne se résume pas à ces quelques mots dont nous avons rappelé la définition. Que
ce soit dans le domaine de la documentation, dans celui des éléments constitutifs des biens (pièces
détachées, pièces de rechange, ...), ou dans le champ des relations contractuelles (externalisation),
il existe là aussi des textes officiels, normes ou autres documents, qui précisent pour les utilisateurs
le sens à retenir pour chacun des mots employés. On ne saurait trop conseiller au lecteur de s’y
reporter en cas de besoin. Au de la de toute ces dire on peut dire que la maintenance prédictive est
l’évolution de la maintenance et elle a encore de beau jours devant elle.
10
CHAPITRE 2
Machine learning
2.1 Introduction
Le Machine Learning de son nom apprentissage automatique en français, est une forme
d’intelligence artificielle permettant aux ordinateurs d’apprendre sans avoir été programmés de
façon explicite. Cette technologie permet de développer des programmes informatiques pouvant
changer en cas d’exposition à de nouvelles données. Dans ce chapitre nous exposons tout d’abord
une brève histoire de l’intelligence artificielle et du machine learning. Ensuite, nous présentons les
concepts et les techniques les plus importantes utilisées en machine learning. Enfin, nous
établirons un état de l’art sur l’application du machine learning à la maintenance prédictive.
En 1956, un groupe d’informaticiens intéressés par l'étude de l'intelligence s’est réuni lors de
la conférence de Dartmouth Collège pour poser les fondements de l’intelligence artificielle (IA).
C'est lors de cette conférence que le terme « Intelligence Artificielle » a été choisi et que l'IA fut
considérée comme un domaine de recherche.
• « Automatiser des activités liées au raisonnement humain, telles que la prise de décision,
la résolution de problèmes, l'apprentissage,...».
• « L'étude des facultés mentales (psychiatries) à l'aide des modèles informatique».et
McDermott, 1985)
11
CHAPITRE 2 MACHINE LEARNING
• « Discipline qui étudie la possibilité de faire exécuter par l'ordinateur des tâches pour
lesquelles l'homme est aujourd'hui meilleur que la machine ».
• « L'étude des mécanismes permettant à un agent de percevoir, raisonner, et agir ».
• « L’étude des entités ayant un comportement intelligent ».
Cette discipline est difficile à définir car elle est récente et constamment en évolution. Une
définition actuelle pourrait être : Une discipline scientifique relative au traitement de
connaissances et au raisonnement, dans le but de permettre aux machines d’exécuter des fonctions
normalement associées à l’intelligence humaine. Le concept est de développer des programmes
informatiques capables d'accomplir des tâches effectuées par les humains qui nécessitent un
apprentissage, de l’organisation, de la mémoire et un raisonnement. Le but est d’introduire des
concepts de rationalité, des fonctions de raisonnements, de perception et des fonctions cognitives
pour commander un robot dans un environnement qui lui est inconnu [17]. De manière encore plus
simplifié on pourra également définir l’intelligence artificielle comme étant : « L’ensemble des
théories et des techniques mises en œuvre en vue de produire des machines capables de simuler
l'intelligence humaine ».
Avec l'intelligence artificielle, l'homme réalise l’un de ses rêves les plus ambitieux : fabriquer
des machines dotées d'un « esprit » semblable au sien. Malgré les arguments fondamentaux qu'elle
suscite, l'intelligence artificielle a produit beaucoup de réalisations spectaculaires, comme dans les
domaines de la reconnaissance des formes ou de la voix, de prise de décision ou de la robotique
[18]. Le terme intelligence artificiel est utilisé couramment de manière interchangeable avec les
domaines qui le composent tels que le machine Learning (apprentissage automatique) et le deep
Learning (apprentissage profond) qui font partie des sous-ensembles de celles-ci d’ailleurs ce
chapitre est en partie intégrante axé sur le machine learning.
Le machine learning (ML) est une branche de l'intelligence artificielle qui permet aux
ordinateurs d'apprendre sans être explicitement programmés pour cela [3]. Le ML est constitué
d’un ensemble d'algorithmes avancés par lesquels les résultats peuvent être prédits sur la base d'un
modèle préparé et formé sur des données d'entrée historiques et son comportement de sortie [19].
Cependant, selon l'approche machine learning choisie, les performances et les avantages peuvent
varier. De nos jours, les techniques du ML sont appliquées dans plusieurs domaines de fabrication
tels que la maintenance, l'optimisation, le dépannage et le contrôle [5].
Durant ces dernières années, le machine learning est devenu de plus en plus important dans le
domaine informatique car les données peuvent être collectées et stockées beaucoup plus
12
CHAPITRE 2 MACHINE LEARNING
facilement. Les données collectées sont souvent si volumineuse qu'il n'est pas pratique de les
analyser manuellement. Dans un tel scénario, la technique de ML joue un rôle clé. Une autre raison
de la popularité croissante du ML est la réduction des coûts de calcul. Avec l'évolution du matériel
ces dernières années, l'utilisation d'approches du ML en maintenance industrielle est devenue
efficace en termes de temps et d'argent, notamment pour la détection des types de pannes et pour
la maintenance prédictive.
De la détection de fraude à la reconnaissance vocale, en passant par la prévision des prix, les
applications du machine Learning sont nombreuses et peuvent améliorer considérablement divers
domaines. En fonction de la nature des données, de la masse à traiter et de l’utilisation des
informations obtenues, le choix d’appliquer un certain type d’algorithme peut varier. Quoi qu’il
en soit le ML dispose d’un réel potentiel et peut permettre d’améliorer de nombreux domaines
[19]. De même à partir de données, il permet de prédire, de diagnostiquer ou de recommander
automatiquement tout ce qui intéresse une entreprise. C’est donc une technique transversale, qui
s’applique à de très nombreux domaines, et dont tous les cas d’usage n’ont pas encore été trouvés,
loin de là. En un mot, le Machine Learning peut emmener l’entreprise qui l’adopte au plus haut
degré de l’analytique et remplir précisément les missions qui lui sont assignées. On présente ici
quelques cas d’application.
• Analyse de paniers,
13
CHAPITRE 2 MACHINE LEARNING
Machine Learning
14
CHAPITRE 2 MACHINE LEARNING
Données Algorithme
historiques d'apprentissage
automatique
L’apprentissage non supervisé est fréquemment appliqué dans l’analyse de grappes, à savoir
les systèmes de recommandation, le regroupement de clients et la réduction de la dimensionnalité
des facteurs [21]. L'apprentissage automatique non supervisé peut être comparé à un enfant qui
apprend à identifier le type de fruit en observant le motif et la couleur, au lieu de mémoriser les
noms avec l'aide d'une autre personne. Il recherche des similitudes entre les images, les séparant
ainsi en groupes, tout en attribuant à chaque groupe son propre label [3]. Pour les problèmes de
détection de type de défaillance et de maintenance prédictive, la technique d'apprentissage non
supervisé est une technique d'apprentissage inhabituelle, car le clustering et l'estimation de la
densité des données historiques ne sont pas efficaces pour la détection précise du type de
défaillance et la maintenance prédictive [19].
15
CHAPITRE 2 MACHINE LEARNING
Données
historiques
Algorithme
Learning d'apprentissage
Data automatique
Labels
Modèle basé
Données Résultats
sur les
actuelles
données
16
CHAPITRE 2 MACHINE LEARNING
2.3.2.1 La régression
C’est la tâche d'apprentissage (fitting) d'un modèle dont les variables dépendantes (ou
variables de sortie) sont continues. C'est l'un des problèmes les plus étudiés avec des applications
dans presque tous les domaines et ainsi, de nombreux modèles de régression ont été proposés, tels
que la régression linéaire avec régularisation, la régression à vecteurs de support, la régression
polynomiale, …etc [15].
2.3.2.2 La Classification
Les modèles de classification sont utilisés pour affecter des éléments à un groupe ou une classe
discrète en fonction d’un ensemble spécifique de fonctionnalités. Chaque modèle a ses propres
forces et faiblesses dans un scénario donné. Le choix d’un modèle de classification des données
est étroitement lié à l’analyse de rentabilisation et à une solide compréhension de ce qu’on essaye
d’accomplir. Le choix de la bonne approche nécessite souvent des essais et des erreurs pour
atteindre le bon équilibre entre complexité, performances et précision. Les sections suivantes
décrivent certains des modèles courants qui sont utiles à connaître [1].
La régression linéaire est l'une des plus anciennes techniques de prédiction en statistique.
L'objectif de la régression linéaire est d'adapter un modèle linéaire entre la réponse et les variables
indépendantes, et de l'utiliser pour prédire le résultat compte tenu d'un ensemble de variables
indépendantes observées. Un modèle de régression linéaire simple utilise une formule de la forme :
17
CHAPITRE 2 MACHINE LEARNING
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝛽4 𝑥4 + ⋯ + 𝜀
Où :
Un modèle de régression linéaire a deux composantes : une partie déterministe (i.e. b1X1 +
b2X2 + ...) et une partie aléatoire (i.e. l'erreur, ). On peut considérer ces deux composants comme
le signal et le bruit dans le modèle. Si On n’a qu'une seule variable d'entrée X, le modèle de
régression est la meilleure ligne qui correspond aux données. La figure 2.4 montre un exemple de
modèle de régression linéaire simple. Avec deux variables d'entrée, la régression linéaire est le
meilleur plan qui s'adapte à un ensemble de points de données dans un espace 3D. Les coefficients
des variables (i.e. 1, 2, 3, etc.) sont les pentes partielles de chaque variable. Si on maintient
toutes les autres variables constantes, le résultat Y augmentera de 1 lorsque la variable X1
augmentera de 1. C'est pourquoi les économistes utilisent généralement l'expression « ceteris
paribus » ou « toutes choses étant égales par ailleurs » pour décrire l'effet d'une variable
indépendante sur un résultat donné.
Points de données
Variable Dépendent
Ligne de régression
Variable indépendante
18
CHAPITRE 2 MACHINE LEARNING
La régression linéaire utilise les méthodes des moindres carrés ou de descente de gradient pour
trouver les meilleurs coefficients de modèle pour un ensemble de données fournies. La méthode
des moindres carrés y parvient en minimisant la somme de l'erreur quadratique entre les valeurs
ajustées et réelles de chaque observation dans les données d'apprentissage. La descente de gradient
trouve les coefficients de modèle optimaux en mettant à jour les coefficients à chaque itération.
Les mises à jour vont dans le sens où la somme des erreurs entre le modèle ajusté et les valeurs
réelles des données d'apprentissage est réduite. Par plusieurs itérations, il trouve le minimum local
en se déplaçant dans le sens du gradient négatif [23].
La régression Ridge est une méthode de réglage de modèle qui est utilisée pour analyser toutes
les données qui souffrent de multicolinéarité. Cette méthode effectue la régularisation L2. Lorsque
le problème de la multicolinéarité se produit, que les moindres carrés ne sont pas biaisés et que les
variances sont importantes, les valeurs prédites sont donc éloignées des valeurs réelles.
Lambda est le terme de pénalité. λ donné ici est noté par un paramètre alpha dans la fonction
de Ridge. Ainsi, en changeant les valeurs d'alpha, nous contrôlons le terme de pénalité. Plus les
valeurs d'alpha sont élevées, plus la pénalité est grande et donc l'amplitude des coefficients est
réduite.
- Il réduit les paramètres. Par conséquent, il est utilisé pour empêcher la multicolinéarité.
Y=𝑋𝐵+𝑒
Où Y est la variable dépendante, X représente les variables indépendantes, B est les coefficients
de régression à estimer et e représente les erreurs sont des résidus.
Une fois que nous ajoutons la fonction lambda à cette équation, la variance qui n'est pas
évaluée par le modèle général est considérée [24].
19
CHAPITRE 2 MACHINE LEARNING
Où Y est la variable cible, X = (𝑋1 , … 𝑋𝑝 ) est la matrice design contenant les variables
explicatives, et 𝛽 = (𝛽0 , … , 𝛽𝑝 ) sont les p+1 coefficient à estimer. Ainsi, qu’il s’agisse d’une
minimisation de l’erreur quadratique dans le cadre d’une régression linéaire ou d’une
maximisation de la vraisemblance, la régression LASSO ajoute un terme de pénalité correspondant
à la norme L1 du vecteur 𝛽 [25].
𝑃(𝑇) = ∑𝑗∈𝑇 𝑤𝑗
Où :
20
CHAPITRE 2 MACHINE LEARNING
Les arbres de décision sont des algorithmes de classification de données reposant sur un
apprentissage supervisé. Comme son nom l’indique, la structure de ces algorithmes ressemble à
des arbres constitués de nœuds, de branches et de feuilles (voir figure 2.5). La construction de ces
arbres est réalisée à l’aide d’une base de données brute (vecteur des caractéristiques et classes) et
de lois qui permettent de déterminer les variables discriminantes pour la classification efficace des
futures données. Chacun des nœuds constituant l’arbre représente une règle de classification
préalablement déterminée de manière récursive.
X1>25
oui
Non
X2>3.8 switch(X3)
oui Non 10 23 else
21
CHAPITRE 2 MACHINE LEARNING
Les arbres de décision peuvent toutefois devenir extrêmement complexes. Dans ce cas, un
diagramme d'influence, plus compact, pourrait être une bonne alternative. Les diagrammes
d'influence se focalisent sur les décisions, données et objectifs critiques [26].
Support Vector Machine (SVM) ou la machine à vecteurs de support est une technique de
machine Learning bien connue qui est largement utilisée pour l'analyse de classification et de
régression, en raison de sa grande précision [5]. Les SVMs ont été développées à l’origine par
Vapnik et ses collègues en 1992 sur la base de la théorie de l’apprentissage statistique de Vapnik
& Chervonenkis dans les années 1960. Elles ont été appliquées avec succès dans de nombreuses
applications, notamment la reconnaissance manuscrite, la prédiction de séries chronologiques, la
reconnaissance vocale, le problème de séquence protéique, le diagnostic du cancer du sein et bien
d’autres [27].
Les machines à vecteurs de support sont utilisées lorsque les données ont exactement deux
classes. L’algorithme SVM classe les données en trouvant le meilleur hyperplan qui sépare tous
les points de données d’une classe de ceux de l’autre classe (le meilleur hyperplan pour un SVM
est celui avec la plus grande marge entre les deux classes) (voir figure 2.6). L’algorithme SVM
peut aussi être utilisé avec plus de deux classes, auquel le modèle créera un ensemble de sous-
ensembles de classification binaire [2]. Habituellement, la frontière entre deux classes est un
espace vectoriel d'entrée non linéaire. Dans cette situation, l'hyperplan multidimensionnel doit être
non linéaire. Créer une fonction multidimensionnelle non linéaire qui tente de maximiser la marge
(le rendement) entre les différentes classes est une tâche très difficile. Une machine à vecteurs de
support utilise une fonction noyau pour mapper (stocké une ressource pour y accéder plus
rapidement) le vecteur d'entrée sur un espace de dimension supérieure, là où un hyperplan linéaire
entre différentes classes est possible, avec une marge maximale entre les différentes classes pour
réduire les erreurs de classification. L'emplacement de la limite est déterminé par un sous-
ensemble de points de données historiques, appelés vecteurs de support. De la même manière
qu'avec la classification, il existe une motivation pour rechercher et optimiser les limites dans
l'espace dimensionnel supérieure donné pour la régression [28].
22
CHAPITRE 2 MACHINE LEARNING
besoin de formation et de réglage à l’avance, il est donc nécessaire d’investir du temps dans le
modèle avant de pouvoir commencer à l’utiliser. De plus, sa vitesse est fortement affectée si vous
utilisez le modèle avec plus de deux classes [2].
X Datasets (class 1)
Datasets (class 2)
Class 1 Class 2 Y
Dans la figure 2.7, si on choisit k = 3, l'algorithme cherche les trois plus proches voisins du
cercle rouge pour pouvoir le classé soit dans la classe des cercles, soit dans la classe des carrés.
Dans ce cas, les trois plus proches voisins du cercle rouge sont un carré et deux cercles. Par
conséquent, l'algorithme classera le cercle rouge dans la classe des cercles.
23
CHAPITRE 2 MACHINE LEARNING
L'algorithme de régression logistique est destiné aux tâches de classification. Nous utilisons
la régression logistique lorsque l'attribut immature est mentionné, et qu'il existe un ou plusieurs
attributs autonomes. Il est similaire à différentes régressions linéaires. L'objectif de la régression
logistique est de trouver le meilleur modèle approprié pour décrire les relations au sein de la
caractéristique dichotomique d'intérêt et d'un ensemble d'attributs autonomes.
Il existe différents types de régressions logistiques, telles que la régression logistique binaire,
multiple, ordonnée, mixte et conditionnelle. Dans la régression logistique binaire ou binomiale,
deux résultats possibles sont zéro ou un. Si un résultat de la variable dépendante est un résultat
remarquable, alors ce résultat est généralement codé comme « un » et l'autre résultat noté « zéro ».
La régression logistique binomiale utilisera les variables indépendantes pour prédire les
probabilités. La régression logistique multinomiale ou la logistique multinomiale peut gérer plus
de deux variables dépendantes pour représenter une dépendance catégorielle multiple. La
régression logistique ordonnée gère les variables dépendantes ordinales [30].
Maintenant que nous avons vu comment fonctionne la régression linéaire, il est temps d'utiliser
des fonctions polynomiales plus complexes pour généraliser sur des données non linéaires (voir
figure 2.8). En réalité, le seul changement apporté est basé sur notre fonction d'hypothèse puisque
la fonction d'erreur et les deux algorithmes restent exactement les mêmes. Il suffit donc d'employer
une fonction d'hypothèse polynomiale :
24
CHAPITRE 2 MACHINE LEARNING
Dans le cas où l’on a peu d'attributs, et qu'on veut une fonction très complexe, il est
parfaitement possible d'utiliser plusieurs fois les mêmes attributs mais avec différents degrés, par
exemple :
Il est également courant d'ajouter d'autres termes que de simples puissances, comme des
exponentiations, des logarithmes, des racines carrées, des fonctions trigonométriques, etc. dans le
but de modéliser des fonctions avec un aspect particulier pour bien coller à nos données.
Si possible, afficher les données sur un graphique est la meilleure chose à faire pour que nous
puissions voir les types d'attributs (propriétés) qu’il nous faut pour notre fonction d'hypothèse.
Sinon, il est toujours envisageable de tester plusieurs combinaisons pour voir laquelle est la
meilleure selon le résultat de la fonction d'erreur [31].
Radom Forest (RF) est un algorithme d'apprentissage supervisé pour les tâches de
classification et de régression. Comme son nom l'indique (forêt aléatoire), un RF crée un ensemble
(une forêt) avec plusieurs arbres de décision aléatoires. Le RF entraîne le système plusieurs fois
avec un échantillon de jeu de données arbitraire pour fournir un modèle de prédiction
extraordinaire. Il donne une prédiction définitive en utilisant les résultats DT comme dans la
méthode d'apprentissage d'ensemble. S’il s'agit d'une prédiction qui se produit plusieurs fois dans
l'arbre de décision, il s'agit de la prédiction de haut niveau de la forêt aléatoire. La puissance
25
CHAPITRE 2 MACHINE LEARNING
centrale de l'algorithme de forêt aléatoire réside dans sa commodité pour résoudre à la fois la
classification et la régression qui permettent de bons calculs de celles-ci. Il gère les grands
ensembles de données très doucement sans perdre la dimensionnalité. Il fournit des méthodes
efficaces pour analyser les données manquantes [30]. Le but de la méthode RF est d'obtenir des
résultats plus efficaces avec plus d'un décideur comme dans d'autres méthodes. La différence de
cette méthode par rapport aux autres méthodes est que les variables sont sélectionnées au hasard
lorsque les branches se ramifient [32].
Si les données ne sont pas complexes et que la tâche est relativement simple, les algorithmes
Naïve Bayes peuvent être utilisés. Il s’agit d’un classificateur qui présente des avantages par
rapport aux algorithmes de régression logistique et de l’algorithme k-plus proche voisin, lorsqu’il
travaille avec une quantité limitée de données disponibles pour former un modèle. L’algorithme
Naïve Bayes est également un bon choix lorsque les ressources CPU et mémoire sont un facteur
limitant. Parce qu’il est très simple, il n’a pas tendance à surcharger les données et peut être formé
très rapidement. Il fonctionne également bien avec les nouvelles données continues utilisées pour
mettre à jour le classificateur. Si la taille et la variance des données augmentent et que vous avez
besoin d’un modèle plus complexe, d’autres classificateurs fonctionneront probablement mieux.
De plus, sa simple analyse n’est pas une bonne base pour des hypothèses complexes. L’algorithme
Naïve Bayes est souvent le premier algorithme que les scientifiques essaient d’utiliser pour
analyser du texte. C’est un algorithme de classification qui applique une estimation de densité aux
données. L’algorithme exploite le théorème de Bayes et suppose que les données prédites sont
conditionnellement indépendantes. C’est un classificateur probabiliste, qui est basé sur le théorème
de Bayes [2] :
𝑃(𝐵 ⁄𝐴)×𝑃(𝐴)
𝑃(𝐴⁄𝐵) = 𝑃(𝐵)
Artificial Neural Networks (ANNs), ou les réseaux de neurones artificiels, sont des modèles
informatiques de traitement de l'information inspirés de la structure neuronale du cerveau. ANNs
se composent d'un certain nombre de nœuds de traitement interconnectés appelés neurones. Les
neurones sont généralement organisés en une séquence de couches, comprenant une couche
d'entrée, une seule ou un ensemble de couches intermédiaires et une couche de sortie. La couche
d'entrée reçoit les données d'entrée du réseau mais n'effectue aucun calcul. La couche de sortie
donne la réponse du réseau à l'entrée spécifiée. Les couches intermédiaires, également appelées
26
CHAPITRE 2 MACHINE LEARNING
couches cachées, sont généralement connectées aux couches d'entrée et de sortie. Chaque neurone
des couches cachées et de sortie reçoit les signaux de tous les neurones d'une couche au-dessus,
puis effectue une sommation pondérée et une fonction de transfert des entrées [33].
Les réseaux de neurones artificiels sont des modèles d'apprentissage supervisé, généralement
adoptés pour les problèmes de régression et de classification [21]. Il existe de nombreux
algorithmes de réseaux neuronaux différents, notamment les réseaux de backpropagation, les
réseaux de Hopfield, les réseaux de Kohonen (également appelés cartes auto-organisées) et les
réseaux de théorie de la résonance adaptative. Cependant, le plus courant est l'algorithme de rétro-
propagation, également connu sous le nom de perceptron multicouche. Le réseau de rétro-
propagation comporte plusieurs neurones disposés en couches. L'architecture la plus couramment
utilisée est le réseau à trois couches illustré à la Figure 2.9. Cette architecture a une couche d'entrée,
une couche cachée et une couche de sortie. Cependant, on peut également avoir deux ou plusieurs
couches cachées. Le nombre de nœuds d'entrée et de sortie est déterminé par l'ensemble de
données. Fondamentalement, le nombre de nœuds d'entrée est égal au nombre de variables
indépendantes que vous souhaitez utiliser pour prédire la sortie. Le nombre de nœuds de sortie est
le même que le nombre de variables de réponse. En revanche, le nombre de nœuds cachés est plus
flexible.
27
CHAPITRE 2 MACHINE LEARNING
des variables de réponse. Pendant la formation, vous montrez les exemples plusieurs fois au réseau
de neurones. A chaque itération, le réseau prédit la réponse. Dans la phase de propagation vers
l'avant de l'apprentissage, chaque nœud des couches cachées et de sortie calcule une somme
pondérée de ses entrées, puis utilise cette somme pour calculer sa sortie via une fonction
d'activation. La sortie de chaque neurone du réseau de neurones utilise généralement la fonction
d'activation sigmoïde suivante :
1
𝑓 (𝑥 ) =
1 + 𝑒 −𝑥
Il existe cependant d'autres fonctions d'activation qui peuvent être utilisées dans les réseaux
de neurones, telles que la gaussienne, la tangente hyperbolique, le seuil linéaire et même une
simple fonction linéaire. Supposons qu'il y a M nœuds d'entrée. Les poids de connexion entre les
nœuds d'entrée et la première couche cachée sont notés w1. À chaque nœud caché, la somme
pondérée est donnée par :
𝑠𝑗=∑𝑀−1(𝑎𝑖 𝑤1 )
𝑖=0 𝑖𝑗
Lorsque la somme pondérée est calculée, la fonction d'activation sigmoïde est calculée comme
suit :
1
𝑓(𝑠𝑗 ) =
1 + 𝑒 −𝑠𝑗
Une fois le niveau d'activation du nœud de sortie calculé, l'étape de propagation vers l'arrière
commence. Dans cette phase, l'algorithme calcule l'erreur de sa prédiction en fonction de la valeur
de réponse réelle. En utilisant la méthode de descente de gradient, il ajuste les poids de toutes les
connexions proportionnellement à l'erreur. Les poids sont ajustés de manière à réduire l'erreur la
prochaine fois. Après plusieurs itérations, le réseau de neurones converge vers une solution.
Pendant les tests, vous utilisez simplement le modèle entraîné pour noter les enregistrements. Pour
chaque enregistrement, le réseau de neurones prédit la valeur de la réponse pour un ensemble
donné de variables d'entrée.
28
CHAPITRE 2 MACHINE LEARNING
Ces règles empiriques ne sont que des points de départ, destinés à éviter le sur-ajustement; le
nombre optimal ne peut être trouvé que par l'expérimentation et la validation des performances sur
les données de test [23].
D'autres techniques basées sur l'ANN sont les techniques d'apprentissage en profondeur (deep
learning) ou ANN purement multicouches. Dans le deep learning, les données sont apprises à
différents niveaux de hiérarchie. Cette capacité d'apprentissage à différents niveaux d'abstraction
permet à un système d'apprendre des fonctions complexes qui peuvent mapper les données d'entrée
directement à la sortie [34].
29
CHAPITRE 2 MACHINE LEARNING
Il a la Capacité de découvrir les dépendances par lui-même, il est résistance aux bruits par contre
c’est un modèle boite noire qui n’explique pas ses décisions [35].
Récemment, les chercheurs ont lancé beaucoup de travaux de recherche afin d’appliquer les
techniques de l’apprentissage automatique à la maintenance industrielle. Par exemple, l’auteur de
30
CHAPITRE 2 MACHINE LEARNING
[6] a proposé une nouvelle approche de pronostic basé sur le modèle cloud computing et le principe
de multitenancy afin de présenter le pronostic en tant que service. Son approche fournit une
solution de pronostic efficace à la demande d’un client tout en assurant une meilleure qualité du
service. Il a implémenté et testé sur des données de moteurs d’avions de la NASA trois méthodes
de pronostic guidé par les données (réseau de neurones artificiels, système neuro-flou et réseau
bayésien) afin de tester l’efficacité de sa solution comparer les méthodes implémentées.
Dans [2], l’auteur a réalisé un système permettant d’assurer l’analyse des signaux vibratoires
d’une machine tournante dans le domaine temps/fréquence, qu’il a comparé avec un système
d’apprentissage automatique capable de détecter et classer les défauts grâce à des algorithmes
d’intelligence artificielle tels que DT, k-nn, SVM, Naives Bayes, ANN. L’application visant à
fournir un système de détection de défauts fiable afin de réduire les temps de dépannages et
favoriser un diagnostic rapide des pannes des systèmes industriels. Ainsi, en faisant l’extraction
des caractéristiques des signaux dans le domaine temporel et fréquentiel, il a obtenu une fiabilité
de 99.3% avec la méthode cross validation cependant grâce à la méthode hold out. Il a pu obtenir
un taux de classification de 100% pour les différents niveaux de défauts considérés en effectuant
plusieurs tests.
Le travail dans [36] est un état de l’art des méthodes de diagnostic et de pronostic de
défaillances basées sur les données collectées sur les équipements et dont les objectifs avaient pour
but d’éviter l’occurrence d’une défaillance. Selon lui les principales méthodes et outils utilisant
des données sont développés et concernent leurs sources et leurs traitements, la détection
d’anomalies, les principes du diagnostic et du pronostic, les techniques d’estimation du temps de
vie résiduelle (DEFAD) et les choix des prises de décision pour les stratégies de maintenance.
Trois exemples d’applications représentatives sont présentés dans son article. Il finit par conclure
sur les avantages et inconvénients de ces méthodes et outils.
2.6 Conclusion
Dans ce chapitre nous avons fait une description des algorithmes d'apprentissage automatique et
d'apprentissage en profondeur en particulier celles trouvées dans la littérature récente relative à la
maintenance prédictive. Ainsi par la suite nous avons donné les avantages et les inconvénients.
Cependant il n’y a pas une règle générale permettant de sélectionner la meilleure technique à
appliquer pour un problème donné et seules les expériences expérimentales constituent la base de
cette sélection.
31
CHAPITRE 3
Ensemble de données et approche d’apprentissage
3.1 Introduction
L'exploration de données est l'étape de base du processus de découverte des connaissances qui
vise à extraire des données des informations intéressantes et éventuellement utiles, ainsi que l'étape
de prétraitement des données qui est une étape essentielle avant de passer à la phase
d’apprentissage. Dans ce chapitre nous expliquons ces étapes, les algorithmes choisis pour
modéliser nos objectifs, ainsi que les différents outils permettant d'évaluer les performances des
modèles produits.
Habituellement, il n'y a pas de données propres que nous utilisons directement dans la
modélisation et donc, beaucoup de défi rencontrés doivent être traités tels que : la non-stationnarité
des variables, le bruit dans les données collectées, la distribution non équilibrée, l’existence de
valeurs aberrantes et des valeurs manquantes. Dans cette section nous abordons ces problèmes en
essayant de fournir des méthodes qui aident à les résoudre.
Il est plus fréquent d’avoir une distribution non équilibrée des classes de sorties, avec plus
d'instances d'une classe particulière que d’autres. Généralement, lors de l'apprentissage avec ces
données, il existe un biais clair de la part du modèle prédictif, une préférence pour la catégorie
majoritaire et une mauvaise classification des cas pour les groupes minoritaires. Lors de la
prévision du temps de fonctionnement avant panne ttf (time to failure), on s’intéresse à cette
répartition.
Les données contiennent souvent des valeurs aberrantes, ce qui est un problème qui doit être
résolu car cela a un impact négatif sur les performances des modèles de prédiction. Une valeur
32
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE
aberrante est une valeur qui s'écarte considérablement des autres valeurs d'observation et peut être
le résultat d'une forte réaction à une nouvelle inattendue ou à un événement extrême. Des mesures
doivent être prises pour réduire son impact sur les performances de prévision. Cela peut être fait
par :
L’existence de valeurs manquantes dans les données est un problème très courant dans les
applications du monde réel et ne doit jamais être négligé, car ceci pourra impacter négativement
la performance d'un modèle prédictif. Après avoir vérifié les valeurs nulles NaN (Not a Number)
en affichant le total des valeurs manquantes pour chaque colonne de données, ce problème peut
être résolu de trois manières :
• Remplacer les valeurs manquantes par une mesure statistique comme la moyenne, la médiane,
le mode ou une valeur interpolée basée sur la connaissance du domaine.
• Imputer les données manquantes en utilisant des modèles d’apprentissage automatique pour
prédire la valeur des données manquantes et remplacer leur valeur par la valeur prédite.
• Ou tout simplement, supprimer les instances qui contiennent des données manquantes en
éliminant les colonnes des données ayant un nombre élevé de valeurs manquantes.
33
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE
• Le fichier des données d’entraînement (Train Data) contient les données run-to-failure des
moteurs d'avion (Plus de 20 000 enregistrements de cycles pour 100 moteurs).
• Le fichier des données de test (Test Data) contient les données de fonctionnement des moteurs
d'avion sans événements de défaillance enregistrés.
• Les véritables cycles restants pour chaque moteur dans les données de test sont fournis dans un
fichier séparé (Ground Truth Data).
La table ci-dessous illustre un sous ensemble des données d’entraînement dont les colonnes
représentent les paramètres suivants :
Dans cette étape, on a utilisé les données collectées et placées dans notre base de données pour
traitement. On a aussi nettoyé les données et on les a validés pour s’assurer qu’il n’y a pas de
données manquantes ou de valeurs aberrantes.
34
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE
On peut joindre ou fusionner des dataframes en fonction de l'index ou de la clé commune. Par
exemple, les étiquettes des données de test se trouvaient dans un fichier de données source distinct.
Cela pourrait être fait en utilisant des fonctions de jointure et de fusionnement (concat et merge).
Les étiquettes de régression et de classification pour les données d'entraînement ont été créées
comme suit :
Pour les données de test, TTF est fourni dans un fichier de données séparé. Ces deux fichiers
ont été fusionnés, puis des étiquettes de classification pour les données de test ont été créées de la
même manière que celle décrite ci-dessus.
Nous avons équilibré les données d’entraînement pour avoir des données où la distribution est
assez similaire pour les trois classes.
Dans cette étape nous avons commencé par générer des caractéristiques (features) qui peuvent
être utilisés pour la prédiction des sorties. Ces caractéristiques peuvent être des données
fondamentales, des indicateurs techniques, des nouvelles caractéristiques susceptibles d’améliorer
la capacité prédictive de nos modèles. Ainsi, la sélection de caractéristiques est appliquée aux
données d'apprentissage et de test en introduisant deux colonnes supplémentaires pour chacune
des 21 colonnes de capteurs : la moyenne mobile et l'écart type. Les autres indicateurs comme
settings, cycles, sont directement intégrés dans notre dataset.
35
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE
En statistique, la multicolinéarité est un terme qui fait référence à l'utilisation du même type
d'information plus d'une fois. En général, ce phénomène est présent quand les caractéristiques sont
très corrélées entre elles. C’est un problème commun dans l'analyse technique. Alors il ne faut pas
utiliser les caractéristiques qui reflètent la même information.
A partir de la figure ci-dessous, on prend les caractéristiques à forte variabilité pour vérifier
leur corrélation avec les autres caractéristiques.
Nous pouvons afficher le heatmap (matrice de corrélation) pour voir la corrélation entre
certaines caractéristiques (figure ci-dessous).
36
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE
On remarque qu’il existe une très forte corrélation (> 0,8) entre certaines caractéristiques: (s14,
s9), (s11, s4), (s11, s7), (s11, s12), (s4, s12), (s8, s13), (s7, s12). Dans ce cas, le fait d’utiliser ces
caractéristiques en même temps, va juste ajouter du bruit à nos modèles. Ainsi, cela peut nuire aux
performances de certains algorithmes de machine learning. Alors certaines caractéristiques ci-
dessus seront ciblées pour la suppression dans la phase « sélection des caractéristiques ». Une seule
de ces caractéristiques doit être utilisée, et c'est elle qui donne le plus d'informations.
La matrice de corrélation précédente montre comment les caractéristiques ['s9', 's14', 's4', 's3',
's17', 's7', 's12', 's2', 's11', 's20', 's21', 's13', 's8', 's15', 's6'] sont corrélées avec l’étiquette de
régression ttf. Ces caractéristiques pourraient être la cible de sélection pendant la modélisation car
leur corrélation avec ttf est plus élevée que ['setting3', 's1', 's10', 's18','s19','s16','s5', 'setting2',
'setting1'] qui ont peu ou pas de corrélation avec l’étiquette de régression ttf.
37
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE
Tout d’abord, nous expliquons comment générer l’ensemble de données nécessaire pour
l’entraînement des modèles prédictifs et l’ensemble de données à utiliser pour l’évaluation de la
qualité des prédictions générées par ces modèles. Ensuite, nous discutons la façon dont nous avons
choisi les paramètres optimaux pour nos modèles.
Afin d’obtenir un modèle avec haute performances, on doit choisir les meilleurs paramètres
nécessaires de l’algorithme qui génère ce modèle. On peut faire ça à l'aide de deux méthodes ;
dans la régression ces paramètres seront choisis manuellement alors que dans la classification ils
seront calculés automatiquement en utilisant la méthode de grid search. Cette dernière recherche
de manière exhaustive dans un sous-ensemble spécifié manuellement de l'espace hyperparamètre
de l'algorithme ciblé. Après l’apprentissage, les performances du modèle seront calculées et enfin,
les paramètres qui donnent les meilleures performances seront déterminés. Ces paramètres
optimaux doivent être utilisés dans toutes les données d’entraînement et de test.
Dans cette section, nous citons brièvement les différents algorithmes proposés pour modéliser
certains objectifs de la maintenance prédictive sur l’ensemble de données préparé plus haut (voir
figure 3.3).
38
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE
Dataset original
Entraînement
Objectif Algorithme
machine learning
Réglage des
Choix de paramètres
l’algorithme
3.5.1 Objectifs
En fonction de nos trois objectifs principaux, nous proposons ici plusieurs algorithmes
classiques pour les problèmes de classification et de régression, dont les principes de base ont été
expliqués dans le chapitre précédent. L’implémentation de ces algorithmes ainsi que l’évaluation
des performances de leurs résultats obtenus feront l’objet du chapitre suivant.
Les modèles de régression en maintenance prédictive sont utilisés pour calculer la durée de
vie utile restante d'un actif, définie comme la durée pendant laquelle l'actif reste opérationnel avant
la prochaine panne. Comme dans la classification binaire, chaque exemple est un enregistrement
qui appartient à l'unité de temps d'un actif. Dans le contexte de la régression, cependant, l'objectif
est de trouver un modèle qui calcule la durée de vie utile restante de chaque nouvel exemple sous
39
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE
la forme d'un nombre continu. Cette période de temps est définie comme un multiple de l'unité de
temps.
La classification binaire est utilisée de manière viable pour la maintenance prédictive, étant
capable d'estimer la probabilité que l'équipement tombe en panne sur une période future. La
période est déterminée et basée sur des règles métier et des données disponibles. Certaines périodes
de temps courantes sont le temps d'arrêt minimum ou le temps requis pour effectuer les routines
de maintenance nécessaires pour résoudre le problème qui pourrait survenir au cours de cette
période. Pour utiliser la classification binaire, il est nécessaire d'identifier deux types d'exemples,
que l'on appelle positifs et négatifs. Chaque exemple est un enregistrement d'une unité de temps
pour un actif qui décrit de manière conceptuelle les conditions de fonctionnement en concevant
les fonctions à l'aide de sources de données historiques et autres. Dans le contexte de la
classification binaire pour la maintenance prédictive, les types positifs désignent les erreurs, et les
négatifs les opérations normales. L'objectif est de trouver un modèle qui identifie la probabilité
que chaque nouvel exemple puisse échouer ou fonctionner normalement dans l'unité de temps
suivante.
Algorithmes : Logistic regression, support vector machine, knn, gaussian naive bayes.
La classification multiclasse pour la maintenance prédictive peut être utilisée pour estimer
deux résultats futurs. La première consiste à affecter un actif à l'une des différentes périodes de
temps afin d'attribuer un intervalle de temps à la défaillance de chaque actif. La seconde consiste
à identifier la probabilité de défaillance dans une période future due à l'une des multiples causes
racines. Cela permet au personnel de maintenance de traiter le problème à l'avance [22].
Algorithmes : Logistic regression, decision trees, support vector machine, knn, gaussian naive
bayes, random forest.
L’évaluation des performances des modèles est une tâche critique et complexe à la fois. Par
conséquent, cela doit être fait avec soin afin que les résultats rapportés soient fiables. Cette section
explique comment nous pouvons évaluer les résultats de notre modèle, ce qui rend un modèle
40
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE
meilleur qu'un autre. Plusieurs métriques ont été proposées pour évaluer la performance prédictive
des problèmes de régression et de classification.
Pour évaluer les modèles de régression et de les comparer, on peut calculer la distance entre
valeurs prédites et vraies valeurs. Cela nous donne plusieurs critères :
L’erreur quadratique moyenne RMSE (Root mean squared error) est une formule populaire
pour mesurer le taux d'erreur d'un modèle de régression. Cependant, il ne peut être comparé
qu'entre des modèles dont les erreurs sont mesurées dans les mêmes unités.
∑𝑛𝑖=1(𝑝𝑖 − 𝑎𝑖 )2
𝑅𝑀𝑆𝐸 = √
𝑛
𝑎 = Cible réelle.
𝑝 = Cible prévue.
L’erreur absolue moyenne MAE (Mean Absolut error) a la même unité que les données
d'origine et ne peut être comparé qu'entre des modèles dont les erreurs sont mesurées dans les
mêmes unités. Son ampleur est généralement similaire à celle du RMSE, mais légèrement plus
petite. 𝑎 et p sont défini dans l’erreur quadratique moyenne.
∑𝑛𝑖=1 ⎸𝑝𝑖 − 𝑎𝑖 ⎸
𝑀𝐴𝐸 =
𝑛
𝑆𝑆𝐸
𝑅2 = 1 −
𝑆𝑆𝑇
41
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE
3.6.1.4 La variance
La variance de la série statistique se note 𝛿𝑥2 (ou encore V(x)) et se définit comme suit :
1 𝑛
𝑉 (𝑥 ) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑛 𝑖=1
Elle correspond à la moyenne des carrés des différences entre les observations et leur moyenne
, dans le cas de n observations ordonnées dans un tableau statistique , présentant r
modalités. C’est la moyenne arithmétique des carrées des écarts à la moyenne.
Il s’agit d’un tableau de taille n × n pour visualiser les résultats des modèles prédictifs dans les
problèmes de classification, où n est le nombre de classes dans l’ensemble de données (voir tableau
ci-dessous). Dans cette matrice on croise les classes cibles réelles avec les classes prédites
obtenues. Ceci nous donne le nombre d’instances correctement classées et mal classées.
Classes actuels
Positive Négative
Classes Positive VP FP
prédites Négative FN VN
Le taux de succès (Accuracy) est la proportion des instances qui sont correctement classifiées.
L'inconvénient de la mesure de taux de succès est lorsque les données ont plus de deux classes.
Avec trois classes ou plus, on peut obtenir un taux de succès de classification d'un certain
pourcentage, mais on ne sait pas si toutes les classes sont prédites de la même manière ou si une
ou deux classes sont négligées par le modèle.
3.6.2.3 Sensitivité
3.6.2.4 Précision
Spécificité
La spécificité (specificity) est le pourcentage de cas négatifs qui ont été prédits comme négatifs.
3.6.2.6 Le score F1
Le score F1 (F1 score) peut être interprété comme une moyenne pondérée de la précision et
la sensitivité, où un score F1 atteint sa meilleure valeur à 1 et son pire score à 0. Par conséquent,
ce score prend en compte à la fois les cas faux positifs et les cas faux négatifs. Intuitivement, ce
n'est pas aussi facile à comprendre que le taux de succès, mais F1 est généralement plus utile que
le taux de succès, surtout si nous avons une distribution de classe inégale. Le taux de succès
fonctionne mieux si les cas faux positifs et les cas faux négatifs ont une valeur similaire. Si la
valeur des cas faux positifs et des cas faux négatifs est très différente, il est préférable d'examiner
à la fois la précision et la sensitivité.
Le score F1 est une métrique unique qui combine la sensitivité et la précisions en utilisant la
moyenne harmonique [40].
43
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE
La courbe ROC (Receiver Operating Characteristic) a été utilisé dans le traitement de signal
pour faire la distinction entre le signal et le bruit. Elle est très utilisée en ML pour évaluer la
performance des classificateurs. Il s’agit d’une courbe où on croise le taux des vrais positifs TVP
avec celui des faux négatifs TFN pour tous les seuils de classification. On utilise un classificateur
aléatoire comme une ligne de base. Si on classe aléatoirement nos instances, on est censé avoir
cette ligne.
Un modèle avec une discrimination parfaite (sans chevauchement entre les classes) passe par
le coin supérieur gauche. Plus que la courbe ROC est proche du coin supérieur, meilleure est la
performance de la classification.
L’aire sous la courbe AUC (Area Under Curve) représente une mesure qui permet de quantifier
numériquement la performance de nos classificateurs :
• Si AUC = 1, Il s’agit d’un modèle qui fait une séparation parfaite entre nos classes. Il permet de
classer toutes les instances positives correctement et fait la même chose avec les autres
instances.
• Si AUC = 0.5, la classification n’est pas meilleure que celle qui serait obtenue si nous générons
aléatoirement nos instances. Le modèle dans ce cas, ne fait aucune distinction entre nos
classes. Chaque instance a une probabilité de 1/n d’être bien classée en utilisant ce modèle.
Où n est le nombre de classes.
• Si AUC < 0.5, notre modèle fait pire qu’une classification aléatoire. Il vaut mieux deviner
aléatoirement, qu’utiliser ce modèle.
L'un des problèmes de l'apprentissage automatique est que nous voulons que notre modèle
fonctionne bien avec les données d'entraînement ainsi que les nouvelles données de test. C'est ce
qu'on appelle la généralisation. Le but de cette section est de voir comment éviter les problèmes
qui conduisent à une faible généralisation d’un modèle.
44
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE
3.7.1.1 Le sur-apprentissage
Un sur-apprentissage (overfitting) survient lorsqu'un modèle apprend les détails et le bruit dans
les données d'apprentissage de telle sorte que ça impacte de façon négative les performances du
modèle pour de nouvelles données. Cela signifie que les variations aléatoires dans les données
d'apprentissage sont capturées et apprises en tant que concepts par le modèle. Le problème est que
ces concepts ne s'appliquent pas aux nouvelles données et dégradent la capacité du modèle à
généraliser correctement. Dans le cas d’une présence de sur-apprentissage, le modèle prédictif
pourra générer de très bons résultats sur les données d’entraînement, mais à l’opposé, les
prédictions qui sont générées sur des données qu’il n’a pas encore vues, ne seront pas de bonne
qualité. Dans ce cas, on dit que le modèle souffre de sur-apprentissage.
3.7.1.2 Le sous-apprentissage
Il est essentiel de s’assurer que les modèles prédictifs que nous désirons déployer ne souffrent
ni de sur-apprentissage ni de sous-apprentissage. Le modèle à privilégier est celui qui n’a pas une
grande variance, et ne souffre pas d’un grand biais [38].
La validation du modèle est une étape très importante dans le processus de modélisation qui
améliore sa robustesse afin d’éviter le problème de faible généralisation. En outre elle améliore
les performances sur les observations invisibles dans les environnements limités en donnée. Elle
peut s’effectuer aussi bien manuellement que automatiquement. On distingue deux méthodes de
validation : la méthode de validation hold out et la méthode de validation croisée (k-fold).
45
CHAPITRE 3 ENSEMBLE DE DONNEES ET APPROCHE D’APPRENTISSAGE
utilisé pour voir dans quelle mesure ce modèle fonctionne sur les données. Une division commune
lors de l’utilisation de la méthode de holdout consiste à utiliser 80% des données pour la formation
et les 20% restants des données pour les tests. Le principe de cette méthode est de partitionner les
données en exactement deux sous-ensembles d’un rapport spécifié pour la formation et la
validation. Nous n’avons pas eu à effectuer cette division car notre data était déjà divisé en
train_set a part (20631*71) et en test_set (100*71) donc nous les avons juste chargé afin de
travaillé avec celle-ci.
Une méthode d’évaluation des performances d’un algorithme d’apprentissage automatique est
la validation croisée (Cross Validation). Cette technique permet à l’algorithme de faire des
prédictions en utilisant des données non utilisées pendant la phase de formation. La validation
croisée partitionne un ensemble de données et utilise un sous-ensemble pour entraîner l’algorithme
et les données restantes à tester. Étant donné que la validation croisée n’utilise pas toutes les
données pour créer un modèle, il s’agit d’une méthode couramment utilisée pour éviter le sur
apprentissage pendant la formation.
3.8 Conclusion
Dans ce chapitre, nous avons décrit l’ensemble de données (dataset) qui va être utilisé pour
créer, tester et évaluer notre approche de maintenance prédictive. Ensuite, nous avons vu les
opérations de prétraitement effectuées sur l'ensemble de données pour le préparer à la phase
apprentissage. Enfin, une approche d’apprentissage automatique basé sur la régression et la
classification a été discutée brièvement ainsi que les différentes métriques qui peuvent être utilisées
pour évaluer nos modèles d'apprentissage. Le chapitre suivant sera consacré à la création de ces
modèles à travers l’implémentation de quelques algorithmes d’apprentissage et l’évaluation de
leur performance en utilisant les métriques adéquates.
46
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
CHAPITRE 4
Implémentation et résultats
4.1 Introduction
Dans ce chapitre nous exposons les résultats obtenus à travers l’implémentation des différents
algorithmes suivant trois axes d’apprentissage (régression, classification binaires et classification
multi classe). Nous effectuons également une comparaison entre les performances des modèles
générés. La première section de ce chapitre présente l’environnement de développement utilisé
dans la phase implémentation. Le reste du chapitre consiste à tester la capacité prédictive de nos
modèles sur nos jeux de données en utilisant les métriques adéquates dont nous avons parlé dans
le chapitre précédent et nous comparons nos résultats. Enfin, la rentabilité obtenue est évaluée à
l'aide des modèles sélectionnés.
Nos expériences ont été réalisées sur un ordinateur portable dont les caractéristiques de
l’environnement matériel sont rapportées dans le tableau 4.1.
Caractéristiques
CPU Intel® Core™ i5-5300U CPU 2.30 GHz
RAM 8.00 Go
SSD 256 Go
De nombreux outils logiciels sont en développement depuis 25 ans dont l’objectif commun est
de faciliter le processus complexe d'analyse des données et de proposer des environnements
intégrés en plus des langages de programmation standard. Un certain nombre d'entre eux sont
orientés vers le traitement rapide et le streaming de données à grande échelle, tandis que d'autres
47
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
sont spécialisés dans l’implémentation des algorithmes de ML. Les différents outils logiciels
utilisés durant ce projet sont fournis par Anaconda (voir figure 4.1). Il s’agit d’un environnement
logiciel open source de développement d’application dédié à la science des données et à
l’apprentissage automatique (Langages Python et R, outils PyCharm et Spyder et Jupyter,
Bibliothèque de ML, …etc.).
4.2.1.1 Python
Le langage de programmation le plus utilisé et le plus célèbre en science des données est un
langage de programmation de haut niveau, et sa philosophie de conception de base repose sur la
lisibilité du code et une syntaxe qui permet aux programmeurs d'exprimer des concepts en quelques
lignes de code. Python est une licence open source, ce qui le rend librement utilisable et
distribuable, même pour un usage commercial. Il est utilisé avec succès dans des milliers
d'applications commerciales réelles à travers le monde, y compris de nombreux systèmes
importants et critiques. La version python utilisée dans ce travail est la 3.6 [42].
4.2.1.2 Pandas
Lorsque vous travaillez avec des données tabulaires, telles que des feuilles de calcul ou des
bases de données stockées, pandas est le bon outil pour cela. Panda aidera à explorer, nettoyer et
traiter les données. Dans les pandas, une feuille de calcul s'appelle un DataFrame [43].
48
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
4.2.1.3 NumPy
Est le package fondamental pour le calcul scientifique avec Python. Outre ses utilisations
scientifiques évidentes, NumPy peut également être utilisé comme un conteneur
multidimensionnel efficace de données génériques [44].
4.2.1.4 Matplotlib
Matplotlib est une bibliothèque de traçage python 2D qui produit des chiffres de qualité de
publication dans une variété de formats papier et d'environnements interactifs sur toutes les
plateformes. Matplotlib essaie de rendre les choses faciles et les choses difficiles possibles. Vous
pouvez générer des graphiques, des histogrammes, des spectres de puissance, des diagrammes à
barres, des diagrammes d'erreurs, des nuages de points, etc., avec seulement quelques lignes de
code [45].
4.2.1.5 Scikit-Learn
Scikit-Learn est largement connu comme un outil Python open source populaire qui contient
une bibliothèque complète d'algorithmes data mining et Machine learning. Il étend les
fonctionnalités des packages NumPy et SciPy avec de nombreux algorithmes data mining et
fournit des fonctions pour effectuer la classification, la régression, le clustering, la réduction de la
dimensionnalité, la sélection de modèles et le prétraitement.
Jupyter Notebook est un outil open source permettant d’écrire du code informatique (en
Python, R ou Julia, ...) et de le partager pour collaborer. Grâce à ses nombreux avantages, cet outil
est devenu une référence incontournable pour les Data Scientists. Il s’agit d’une application web
basée client permettant de créer et de partager du code, des équations, des visualisations ou du
texte.
4.3 La régression
Dans cette partie, des modèles de régression linéaire et non linéaire ont été créés pour prédire
la durée de vie restante d’un moteur d'avion. Les algorithmes d'apprentissage automatique
proposés ont été essayées et leurs mesures de performance ont été calculées et évaluées. Nous
avons estimé le RUL pour 100 moteurs. Pour valider nos modèles, nous avons comparé les
performances des métriques de la régression des différents modèles en utilisant l’ensemble de
caractéristiques originales. Les principales mesures d'évaluation de la régression calculées pour
49
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
chaque modèle étaient l'erreur quadratique moyenne (RMSE), le R au carré (R 2), l'erreur absolue
moyenne (MAE) et la variance expliquée.
Notre modèle de régression linéaire a estimé la relation entre les variables indépendantes et la
variable dépendante (RUL). Cela réduit la somme des carrés de la différence entre les valeurs
réelles et attendues de la variable dépendante. Les résultats finaux des métriques sont présentés
dans le tableau 4.2.
4.3.1.2 Lasso
4.3.1.3 Ridge
Notre modèle de régression Ridge est construit dans lequel cette technique analyse les données
de régression multiple qui souffrent de multicolinéarité. En ajoutant un degré de biais aux
estimations de régression, le pic de la régression réduit les erreurs types, et l'hyperparamètre utilisé
ici est alpha = 0,01. Le tableau 4.4 présente les résultats des métriques obtenus.
50
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
Ridge Régression
Root Mean Squared Error 31.96
Mean Absolute Error 25.54
R2 (Test) 0.41
R2 (Entrainment) 0.58
Explained Variance 0.67
Ici, notre modèle de régression polynomiale construit définit la relation entre la variable
indépendante x et la variable dépendante y comme un polynôme de degré n en x. l'hyper paramètre
utilisé ici est dégrée = 2. Le tableau 4.5 montre les résultats de performances de notre modèle.
Régression polynomiale
Root Mean Squared Error 31.57
Mean Absolute Error 24.09
R2 (Test) 0.42
R2 (Entrainment) 0.63
Explained Variance 0.64
Les hyperparamètres du modèle de l’arbre construit ici sont max_depth = 7 qui est défini
comme le chemin le plus long entre le nœud racine et le nœud feuille, et max_features = 6 qui
représente le nombre maximal de caractéristiques à essayer dans chaque nœud de l’arbre. Les
résultats des métriques utilisées sont illustrés dans le tableau 4.6.
Arbre de décision
Root Mean Squared Error 32.07
Mean Absolute Error 24.40
R2 (Test) 0.40
R2 (Entrainment) 0.61
Explained Variance 0.60
Le modèle Random forest construit en utilisant les hyperparamètres max_depth=4 qui contrôle
la profondeur maximale des arbres à créer et le max_features= 3 qui représente le nombre maximal
de caractéristiques que Random Forest est autorisé à essayer dans un arbre individuel. Les résultats
des métriques sont illustrés dans le tableau 4.7.
51
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
Random forest
Root Mean Squared Error 28.63
Mean Absolute Error 23.17
R2 (Test) 0.53
R2 (Entrainment) 0.59
Explained Variance 0.77
4.3.2 Discussion
Afin de comparer les performances des modèles construits, le tableau 4.8 récapitule tous les
résultats obtenus.
Conformément à notre analyse dans la phase d'exploration des données dans le chapitre 3, les
modèles de régression non linéaire tels que la régression polynomiale et Random Forest ont donné
de meilleurs résultats que les modèles linéaires tels que la régression linéaire, Lasso et Ridge. Plus
l’erreur est petite, meilleur sera le résultat et plus la valeur de R2 est proche de 1 plus le résultat de
la prédiction est bon. De plus, nous avons remarqué qu’il n’a pas une grande différence entre les
R2 entraînement et les R2 test dans le tableau de métriques de chacun de nos modèles ce qui signifie
que nous n’avons pas rencontré de problème de sur-apprentissage.
On constate que le modèle Random Forest a clairement surpassé les autres modèles avec une
plus grande valeur pour R2 et la plus petite valeur d'erreur de RMSE (=28,6). Autrement dit, le
modèle prédit le TTF dans une plage d'erreur moyenne de ± 28,63 cycles.
Le réglage des hyperparamètres pour les modèles Random Forest, Lasso et Ridge ont été
effectué manuellement ce qui nous a fourni de très bonne résultats. D'autre part, il était possible
d'utiliser la technique de recherche aléatoire avec validation croisée (grid search) afin de choisir
les meilleurs hyperparamètres possibles pour nos modèles ce qui permet d’améliorer nos résultats.
La figure 4.2 illustre le graphe de résidus de notre meilleur modèle de régression qui est
Random forest. Selon à ce graphe, nous remarquons que les résidus n'étaient pas répartis au hasard
sur la valeur moyenne des résidus. Cela pourrait être amélioré par de nombreuses méthodes,
52
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
notamment la correction des données via le filtrage des valeurs aberrantes qui consiste soit à les
supprimer ou à les remplacer.
53
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
Dans cette partie, des modèles de classification binaire ont été essayés pour déterminer les
moteurs qui tomberont en panne pendant la période actuelle. Plusieurs algorithmes de
classification binaire ont été utilisés pour atteindre cet objectif, c’est-à-dire déterminer les cycles
restants ou (TTF) dans la plage 0-30 cycles.
Au lieu d'une sélection aléatoire des valeurs des paramètres, une meilleure approche serait de
développer un algorithme qui trouve automatiquement les meilleurs paramètres pour nos modèles.
Cet algorithme en question est Grid search elle va nous aider à choisir les meilleurs hyper-
paramètres pour chacune de nos modèles. Chaque modèle a été appliqué aux données originales
(d1) et aux données originales + extraites (d2). Dans chaque cas nous retrouvons deux graphes, le
premier représente la courbe du (roc_auc) en fonction du FPR (taux de faux positif) et TPR (taux
de vrais positif), et le second représentr la courbe du precision et recall. Nous avons évalué les
performances de nos modèles par les métriques de classification dont nous avons parlé dans le
chapitre 3. Pour chaque algorithme nous allons comparer l'AUC (aire sous la courbe) qui est l'air
sous la courbe roc_auc, avant et après extraction puis interpréter les résultats obtenus.
Pour chaque modèle, plusieurs schémas d'évaluation ont été élaborés, ainsi que des matrices
de confusion pour voir ces valeurs et des rapports de classement qui nous permet de connaître les
métriques pour chaque classe (0 et 1). Afin de ne pas tous les citer, nous avons décidé de citer le
plus important, qui est celui de l'algorithme qui a surpassé les autres algorithmes (Gaussian NB
(d1)).
Les meilleurs hyperparamètres pour (d1) et (d2) sont (C=0.01, solver='liblinear'). Nous allons
à présent comparer les métriques obtenues avec les données originales et extraites.
54
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
Nous voyons clairement que même si l’AUC n’a pas vraiment changé pour ce modèle,
l’extraction de données à améliorer les performances du modèle vu que tous les scores de (d2) sont
meilleurs que ceux de (d1).
Les meilleurs hyper paramètres pour (d1) sont (criterion='entropy', max_depth=5), et ceux de
(d2) sont (criterion='entropy', max_depth=4). Nous allons à présent comparer les métriques
obtenues avec les données originales et extraites.
Pour ce modèle de Decision Trees, l’extraction de donnée à améliorer les scores de nos
différentes métriques.
Pour le modèle random forest l’extraction de donnée n’à améliorer ni son AUC ni ses scores
donc pour ce modèle on peut tout simplement se contenter d’utiliser les données originales car elle
donne déjà de meilleures scores.
La meilleurs hyperparamètre pour (d1) et (d2) est (C=0.001). Nous allons à présent comparer
les métriques obtenues avec les données originales et extraites.
55
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
Pour ce modèle de SVC linear l’extraction de donnée à améliorer les performances du modèle
sauf la précision qui diminue de 1 jusqu’au 0.94%.
Les meilleurs hyper paramètres pour (d1) et (d2) sont (n_jobs=-1, n_neighbors=13). Nous
allons à présent comparer les métriques obtenues avec les données originales et extraites.
Pour ce modèle de KNN l’extraction de donnée à améliorer tous les scores du modèle. Donc
le model obtient un bien meilleure score lorsqu’on procède à l’extraction.
Pour le modèle Naïve bayes l’extraction de donnée n’à améliorer ni son AUC ni ses scores.
Donc, pour ce modèle on peut tout simplement se contenter d’utiliser les données originales car
elle donne déjà de meilleurs scores (voir tableau 4.14). Les tableaux 4.15 et 4.16 illustrent,
respectivement, la matrice de confusion et le rapport de classement de ce modèle.
56
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
70 5
1 24
La figure 4.4 illustre les courbes de l'algorithme Gaussian NB (d1), qui a surpassé les autres
algorithmes avec la valeur la plus élevée de (AUC). Engines représentent la file d'attente ou le
nombre de moteurs à maintenir par période, c'est-à-dire la capacité de maintenance. Avec la
possibilité de seuillage à différents niveaux, un gain commercial maximal pourrait être atteint en
fonction des objectifs de capacité commerciale, de rappel et de précision.
4.4.2 Discussion
Nous allons à présent comparer les scores de tous nos model pour sélectionnées les meilleures
modèles. Dans le tableau 4.17, nous remarquons que Naïve Bayes (d1) et Random Forest (d2) ont
57
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
fourni des meilleurs scores AUC ROC plus que les autres. Ce qui fait d’eux les meilleures modèles
pour effectuer notre prédiction avec les datasets dont nous disposons.
Logistic Logistic Decision Decision Random Random Linear Linear Gaussian Gaussian
KNN (d1) KNN (d2)
Reg. (d1) Reg. (d2) Tree (d1) Tree (d2) For. (d1) For.(d2) SVC (d1) SVC (d2) NB (d1) NB (d2)
Accuracy 0.88000 0.90000 0.88000 0.92000 0.91000 0.91000 0.77000 0.92000 0.91000 0.92000 0.94000 0.94000
Precision 0.93333 0.94117 0.93333 0.94736 0.94444 0.94444 1.00000 0.94738 0.94444 0.94736 0.82758 0.82758
Recall 0.56000 0.64000 0.56000 0.72000 0.68000 0.68000 0.08000 0.72000 0.68000 0.72000 0.96000 0.96000
F1 Score 0.70000 0.76190 0.70000 0.81818 0.79069 0.79069 0.14815 0.81818 0.79069 0.81818 0.88888 0.88888
AUC ROC 0.97653 0.98026 0.94506 0.96293 0.98026 0.98240 0.97173 0.97973 0.93520 0.96346 0.98773 0.980533
Nous allons comparer les courbes AUC ROC et Precision-Recall. Les six courbes représentent
les meilleurs modèles parmi les modèles présentés dans le tableau (voir figure 4.5).
• Sur la courbe ROC, nous avons le taux de vrais positifs (sensibilité) par rapport au taux de
faux positifs (spécificité). Le taux de vrais positifs (TPR) ou sensibilité, mesure la proportion
de positifs réels qui sont correctement identifiés. La spécificité mesure la proportion de
négatifs qui sont prédit comme étant positif d’où le nom taux de faux positif (FPR)
• La ligne diagonale en trait discontinu au milieu représente les résultats d'une classification
aléatoire. Lorsque l’AUC = 0,5 cela signifie qu’elle est au même niveau que cette frontière.
Dans de tels contextes nous disons que le score du classificateur ne donne aucune indication
sur la qualité de la réponse.
• Sur nos graphes les résultats des six modèles sont largement au-dessus de la ligne représentant
la classification aléatoire. Ce qui fait de nos modèles de très bonnes prédicteurs car la plupart
des AUC de ses modèles sont supérieur à 80%.
• Les graphiques pour TPR, FPR et les moteurs doivent être liés à la matrice des coûts de (TP,
FP, TN, FN) pour calculer la valeur attendue à différents points de fonctionnement (seuils)
pour aider à optimiser les décisions commerciale.
58
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
Il est important de mentionner qu'en termes de modèles de rentabilité qui catégorisent mieux,
les deux catégories généreront plus de profits. Ce qui n'est pas le cas pour la catégorie neutre. La
décision à prendre en cas de tendance neutre serait de ne rien faire. Plus nos modèles sont précis
pour les deux catégories, plus la rentabilité qui en résulte est élevée. Dans la section suivante, nous
évaluerons la performance financière (rentabilité) de notre modèle, en utilisant les mêmes données
d'évaluation utilisées pour l'évaluation statistique.
Expected Profit = Probability (+ve) x [TPR x benefit (TP) + FNR x cost (FN)] + Probability (-ve)
x [TNR x benefit (TN) + FPR x cost (FP)]
La matrice coûts-avantages doit être fournie par des experts du domaine commercial. Pour ce
projet, les valeurs suivantes ont été supposées :
• True Positive (TP) : les moteurs ont besoin d'entretien et sont sélectionnés par le modèle de
prédiction, avec un bénéfice de 300K $.
59
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
• True Negative (TN) : les moteurs qui sont bien et qui ne sont pas sélectionnés par le modèle,
ont un bénéfice de 0 K$.
• False Positive (FP) : les moteurs qui sont bons mais sélectionnés par le modèle, ont un coût
de -100K $.
• False Negative (FN) : les moteurs ont besoin d'entretien mais ne sont pas sélectionnés par le
modèle de prédiction, elles ont un coût de -200 000 $. Nombre d'instances de classe positives
dans les données de test = 25, Nombre d'instances de classe négatives dans les données de test
= 75
Les calculs de profit/moteur les plus élevés pour tous les modèles ont été classés comme
indiqué ci-dessous :
Gaussian Naieve Bayes a le meilleur profit par moteur (19K USD par moteur) si l'entreprise
a la capacité de maintenir 31 % des moteurs par période (File d'attente).
La même méthode pourrait être appliquée pour sélectionner le modèle qui donne le meilleur
profit attendu à un niveau de capacité de maintenance spécifique pour les opérations contraintes,
et donc :
• Fonctionnant à une capacité de 26% : Le meilleur profit par moteur est de 17,35 USD
(Random Forest (d2) ou SVC Linear (d2)).
• Fonctionnant à une capacité de 28% : Le meilleur profit par moteur est de 18,69 USD
(gaussienne NB (d2)).
60
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
Nous avons segmentés les cycles restants des moteurs (TTF) en trois périodes : la période 0 :
de 0 à 15 cycles, la période 1 : de 16 à 30 cycles et la période 2 : plus de 30 cycles. Ces trois
périodes correspondent à nos trois classes. Des algorithmes de classification multiclasses vont être
utilisés pour prédire la période (la classe) pendant laquelle un moteur tombera en panne.
La classification multiclasse est une tâche d’apprentissage automatique supervisé qui est
utilisé pour prédire la classe (catégorie) d’une instance de donnée. L’entrée d’un algorithme de
classification multiclasse est un ensemble des instances étiquetées et la sortie est un classificateur
que nous pouvons utiliser pour prédire la classe des nouvelles instances non étiquetées.
Tout comme dans la classification binaire, les algorithmes de classification multiclasse sont
appliqués sur deux ensembles :
Pour l'évaluation des modèles, les moyennes micros et macro de l'AUC ROC, du rappel, de la
précision et de la F1 sont calculées en plus de la justesse (accuracy). Dans le cas (d2), on joute la
moyenne mobile (Rolling average) et l’écart type mobile (rolling standard deviation) afin
d’améliorer les résultats.
Contrairement au processus pour les problèmes de classification binaires, nous n’avons pas
forcément besoin de choisir un score seuil pour effectuer nos prédictions. La réponse prédite est
la classe avec le score prédit le plus élevé.
Les métriques standard utilisé en mode multiclasse sont les mêmes que celles utilisées dans le
cas d’une classification binaire. La métrique est calculée pour chaque classe en la traitant comme
un problème de classification binaire après avoir regroupé toute les autres classes dans la seconde
classe. Ensuite la métrique binaire est moyennée sur toutes les classes pour fournir une métrique
moyennée par macro ou une métrique de moyenne pondérée (pondérée par la fréquence des
classes). Ainsi, pour l'évaluation des modèles, nous avons calculé en plus de l’Accuracy (justesse)
les moyennes micros et macros de l'AUC ROC, du rappel, de la précision et de la F1 (F1 macro
est utilisé pour évaluer le succès prédictif du modèle).
61
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
Une macro-moyenne calcule la métrique indépendamment pour chaque classe puis prend la
moyenne (donc toutes les classes sont traitées de manière égale). Tandis qu’une micro-moyenne
agrégera les contributions de toutes les classes pour calculer la métrique moyenne. Cependant, afin
d’éviter le problème de déséquilibre entre les classes (c’est-à-dire avoir beaucoup plus d’exemple
dans une classe que dans d’autres), nous avons privilégié le calcul de la moyenne-micro pour nos
trois classes et tracer sa courbe pour nous faire une idée sur sa trajectoire.
Pour chaque algorithme nous allons donc donner ses meilleurs hyperparamètres, sa matrice
de confusion et de comparer les résultats de ses métriques avant et après extraction et l’interpréter.
Chaque algorithme dispose de deux graphes dans chacun des cas (d1) et (d2), dont le premier
graphe représente le graphe du taux de vrai positif (TPR) par rapport au taux de faut positif (FPR)
et la seconde représentant le graphe du taux de rappel et précision (precision-recall).
Cependant pour ne pas encombrer le chapitre avec trop de graphe, nous allons tout simplement
représenter les graphes de nos deux meilleures modèles, leurs matrices de confusion et le graphe
contenant les courbes des meilleures scores de tous nos modèles. L’explication des courbes figure
dans les légendes.
Les meilleures hyper paramètres Decision Tree (d1) sont : (criterion = 'entropy', max_depth
= 5) et ceux de Decision Tree (d2) sont : (criterion='entropy', max_depth=4).
A partir du tableau 4.18, on constate que l’extraction des données à améliorer la plupart des
scores.
62
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
Le meilleures hyper paramètres de SVC (d1) est : estimator = LinearSVC (C=0.01) et celui de
SVC (d2) sont : estimator = LinearSVC (C=0.001)
L’extraction de donnée améliore plus ou moins les scores pour le modèle linear SVC (voir
tableau 4.19).
63
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
max_depth=7, n_estimators=50). Concernant le model random forest nous remarquons que les
scores après l’extraction de donnée sont bien meilleures que les scores obtenu lorsque nous avons
utilisé les données originales. Donc l’extraction de données a amélioré les performances de ce
modèle (voir tableau 4.21).
Le meilleures hyper paramètres de KNN (d1) est : n_neighbors=14, KNN A(d2) a également
le même. L’extraction de données a plus ou moins amélioré les performances de ce modèle (voir
tableau 4.22).
Dans le model naïves bayes nous ne fournissons aucune valeur à ses hypperparametres à plus
forte raison attendre que grid search sélectionne ses meilleurs paramètres automatiquement. Dans
le tableau 4.23, on voit que l’extraction de donnée n’a pas vraiment apporté un changement
significatif car elle a fait baisser plus de score qu’elle n’en a augmenté.
64
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
4.5.3 Discussion
Les performances de chaque modèle entraîné ont été évaluées sur l'ensemble de données de
test, donné n’ayant pas été exposé au modèle pendant le processus d'entraînement. Cela fournira
un moyen impartial de mesurer les performances de chaque modèle parmi les autres modèles
concurrents. Les résultats ci-dessous (voir tableau 4.25) résument dans le tableau les performances
de chacune des modèles avant et après extraction de données par rapport à ceux des autres modèles
dans les mêmes conditions.
65
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
Accuracy Macro F1 Micro Macro Micro Macro Micro Macro Micro ROC
F1 précision précision recall recall ROC AUC AUC
Rég. Logistique (d1) 0.82 0.575 0.841 0.556 0.863 0.595 0.82 0.943 0.969
Rég. Logistique (d2) 0.80 0.547 0.842 0.582 0.889 0.528 0.80 0.942 0969
Decision tree (d1) 0.83 0.640 0.851 0.765 0.874 0.635 0.83 0.922 0.962
Decision tree (d2) 0.84 0.607 0.857 0.852 0.875 0.651 0.84 0.949 0.973
Random Forest (d1) 0.82 0.612 0.854 0.776 0.891 0.573 0.82 0.964 0.978
Random Forest (d2) 0.85 0.706 0.867 0.801 0.885 0.662 0.85 0.967 0.980
SVC linear (d1) 0.01 0.567 0.637 0.594 0.482 0.800 0.94 0.934 0.909
SVC linear (d2) 0.74 0.314 0.813 0.301 0.902 0.328 0.74 0.943 0.959
KNN (d1) 0.83 0.647 0.860 0.884 0.892 0.595 0.83 0.904 0.954
KNN (d2) 0.85 0.688 0.871 0.821 0.895 0.662 0.85 0.950 0.974
Gaussian NB (d1) 0.74 0.757 0.852 0.655 0.772 0.978 0.95 0.950 0.962
Gaussian NB (d2) 0.74 0.754 0.849 0.664 0.781 0.933 0.93 0.945 0.942
MLP (d1) 0.84 0.671 0.865 0.927 0.893 0.640 0.84 0.969 0.981
MLP (d2) 0.86 0.739 0.882 0.860 0.905 0.684 0.86 0.974 0.983
Après un bon processus de prétraitement, l’extraction de données peut nous aider à améliorer
les performances de nos modèles comme nous le voyons dans le tableau de comparaison.
Cependant elle peut ne pas être obligatoire car il y a des cas où, elle n’apporter pas vraiment de
modification au score du model en question. Le meilleure modèle à sélectionner pour notre
prédiction est le MLP parce qu’il a clairement surpassé tous les autres modèles dans presque toutes
les métriques et en plus de cela il possède le meilleure score AUC 98% comparer aux autres
modèles. Ainsi, Random forest occupe la 2 ème place dans le tableau.
75 0 0
12 2 1
2 0 8
66
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
Tous les courbes de notre modèle sont au-dessus de la frontière faite par le classificateur et
possède toutes de très grande AUC ce qui signifie que nous avons obtenue de très bonne
indications sur les prédictions (voir figure 4.7).
Sur les deux graphes de la figure 4.8, les légendes nous permettent de voir les scores de
chacune de nos algorithmes. Ainsi, nous voyons clairement que MLP possède le meilleur score
comme nous l’avions dit. Etant donné que le but de cette prédiction était de déterminer la période
à laquelle les moteurs tomberont en panne, nous pouvons dire que la ou les période(s)
correspondant à la classe ayant le plus grand AUC et le plus grand taux de rappel de précision
correspond à la période à laquelle nos moteurs tomberont en panne.
67
CHAPITRE 4 IMPLEMENTATION ET RESULTATS
4.6 Conclusion
Dans ce chapitre nous avons effectué notre travail suivant trois axes basés sur l’étude des
données, à savoir la régression, la classification binaire et la classification multiple. Pour chaque
méthode des modèles ont été proposée afin d'estimer la durée de vie restante, prédire les moteurs
qui tomberont en panne dans la période actuelle ainsi que de prédire la période pendant laquelle le
moteur tombera en panne. Ceci est fait sur un ensemble de moteurs d'avion. Afin d'évaluer les
performances de notre système, une étude comparative a été menée entre modèles en calculant des
mesures d'évaluation pour les trois méthodes mentionnées ci-dessus. A travers les résultats, nous
pouvons enfin choisir le meilleur modèle qui nous permet d'atteindre nos objectifs.
68
Conclusion générale
Le présent travail a porté sur la maintenance prédictive dans le cadre l’intelligence artificielle.
Il s’agit de la prédiction de la durée de vie des moteurs des avions, de la prédiction du moteur
susceptible d’être défectueux durant une période donnée, ainsi que la prédiction de la période à
laquelle les pannes de celles-ci se manifesteront (reconnaître les périodes pendant lesquels les
opérations de maintenance devrons avoir lieu) grâce à l’apprentissage automatique. Ainsi, une
étude a été menée dans un premier temps sur la maintenance et cela nous a permis d’identifier les
différentes techniques de maintenance ainsi que leurs avantages et inconvénients d’application.
Ensuite, un état de l’art a été établi sur les notions de machine learning et les techniques
d’apprentissage afin de dégager les algorithmes adéquats pour modéliser notre problématique ainsi
que les outils permettant de tester l’efficacité des solutions obtenues.
Le projet présenté dans ce mémoire propose une solution permettant d’établir le potentiel des
modèles d’intelligence artificielle pour l’amélioration du processus de maintenance dans
l’industrie par la reconnaissance des défauts des machines à l’avance. Pour cela, nous avons
montré l’importance de disposer d’un programme de maintenance prédictive efficace. En effet, les
arrêts non planifiés des chaînes de production pour divers cause et les retards de productions sont
des sources de perte financières et de perte de temps affectant directement la santé budgétaire et la
compétitivité des entreprises. Néanmoins afin d’avoir un très bon résultat ou une bonne prédiction
il est nécessaire d’avoir à sa disposition une large base de données pouvant contenir de nombreux
données brutes collectées sur les équipements. Parce que plus un modèle dispose de donnée
d’entraînement, plus il peut correctement prédire les observations. Les données à leurs tours
doivent être cohérentes et de meilleures qualités. Nous pouvons nous permettre de dire que la
réalisation de la prédiction avec un datasets simulé est en grande partie possible de nos jours grâce
au développement et au partage open source des données de plateforme comme Microsoft Cortana.
Cependant, nous n’allons pas oublier de mentionner également que le développement de nouvelle
bibliothèque sous Python tel que Scikit-learn a grandement facilité l’application de l’intelligence
artificielle dans le domaine de la maintenance en particulier, surtout pour les non-spécialistes.
En conclusion, les informations qui sont obtenues grâce à l’apprentissage automatique peuvent
aider les responsables de la maintenance à la compréhension, à l’amélioration et à préparer les
ressources matérielles et humaines nécessaires avant que survienne une défaillance. Ainsi, les
stratégies de maintenance traditionnelles impliquant une maintenance corrective et préventive
69
CONCLUSION GENERALE
peuvent être remplacées par une maintenance prédictive basée sur des modèles prédictifs.
L’évaluation des performances des modèles obtenus démontre que l’utilisation de l’intelligence
artificielle dans le domaine industriel est plus que bénéfique pour l’entreprise qui l’applique afin
d’augmenter la rentabilité de leurs équipements de production et par la même occasion accroître
les bénéfices de l’entreprise
Plusieurs problèmes ont été rencontrés lors de la conception et la réalisation de notre projet
dont la résolution a été très bénéfique. D’une part, nous avons dû acquérir beaucoup de
connaissances dans de nouveaux domaines notamment la science des données et le machine
learning. D’autre part, l’implémentation de notre solution, nous a permet de découvrir et de
maîtriser de nouveaux outils de programmation tels que le magnifique langage de Python, les outils
Jupiter notebook, pycharm et spider, ainsi que les différentes librairies permettant de traiter les
données, d’implémenter les algorithmes d’apprentissage automatique et de visualiser les résultats
(Numpy, Pandas, Matplotlib, Scikit-learn, ...etc.). Cette expérience nous a également donné la
possibilité d’améliorer nos compétences en méthodologie de recherche, en communication et en
rédaction.
D’un point de vue personnel, le travail que nous avons mené offre de nombreuses perspectives
d’améliorations. Durant ce projet nous avons travaillé sur des données simulées et non sur des
données obtenues à partir des machines en pleine utilisation. Donc, il s’avère très important de
procéder par une phase d’acquisition et de collecte des données en situation réelle avant de se
lancer dans l’implémentation du système dans un milieu industriel. Vu l’insuffisance et les
limitations des techniques du machine learning dans certaines situations, nous proposons
d’employer des techniques d’apprentissage plus avancées pour mieux modéliser les tâches de
maintenance. Il s’agit des techniques d’apprentissage approfondi ou deep learning. Pour finir, nous
envisageons de continuer notre travail sur l’application du machine learning à la maintenance
industrielle afin d’approfondir nos connaissances dans ce merveilleux domaine avec pour objectif
de contribuer aux avancées scientifiques à travers la recherche dans le cadre du doctorat.
70
Références bibliographiques
71
REFERENCES BIBLIOGRAPHIQUES
72
REFERENCES BIBLIOGRAPHIQUES
73
REFERENCES BIBLIOGRAPHIQUES
[36] Gilles Zwingelstein, Méthodes de diagnostic et de pronostic de défaillances basées sur les
données- état de l’art, 10/08/2020.
[37] URL: http://azuremlsamples.azureml.net/templatedata/PM_train.txt.
[38] Saed Sayad, «Model Evaluation- Regression»,
URL: https://www.saedsayad.com/model_evaluation_r.htm, 28/06/2021.
[39] Rachid Mifdal, « Application des techniques d’apprentissage automatique pour la prédiction
de la tendance des titres financiers », L’obtention De La Maitrise, Sous la direction de M.
Edmond Miresco, École De Technologie Supérieure Université Du Québec, 2019, p 176.
[40] Berrimi Mohamed, « Deep Learning for Detecting and Identifying Blinding Retinal Diseases
Problematic», Thèse de master LMD en Informatique, sous la direction de Abdelouahab
Moussaoui, Université Ferhat Abbas Sétif 1, 2019, 78p.
[41] Chloé-Agathe Azencott, «Introduction au Machine Learning», edition 1, 2015, 180 p.
[42] Lukasz langa, « Python core team : Python 3.6 », URL : https://www.python.org/.
[43] Wes McKinney and the Pandas Development Team, « Pandas: powerful Python data
analysis toolkit », Apr 12, 2021.
[44] Giang Nguyen, Stefan Dlugolinsky, Martin Bobák,Viet Tran, Álvaro López García, Ignacio
Heredia, Peter Malík, Ladislav Hluchý, «Machine Learning and Deep Learning frameworks
and libraries for large-scale data mining: a survey », Springer Nature journal,19 January
2019, 124p.
[45] Using matplotlib in pythonista,, URL : https://omzsoftware.com/pythonista/matplotlib/,
01/06/2021.
[46] Tom Fawcett, «Data science for bissenis », Amazon Warehouse, Dec 15, 2021.
74
Résumé
A cause des conditions opérationnelles et environnementales, le processus de production dans les
entreprises est très sensible à la détérioration et aux défaillances. Donc, il est indispensable de définir
la stratégie de maintenance correcte afin de réduire au minimum les temps d'arrêt causés par les pannes
inattendues et de minimiser par conséquent les coûts très élevés de maintenance. Récemment, la
maintenance prédictive a profité du développement dans les domaines de la science de données et du
machine learning pour surpasser plusieurs limitations de la maintenance conventionnelle. Le but de
ce projet est d’exploiter une énorme quantité de données relatives au comportement des moteurs
d’avion simulés afin d’entraîner des modèles capables de prédire l’état de fonctionnement futur de ces
moteurs. Ainsi, nous avons créé des modèles prédictifs pour estimer la durée de vie restante d’un
moteur, trouver quels moteurs tomberont en panne dans une période donnée, ainsi pour prédire la
période pendant laquelle un moteur tombera en panne. Ces modèles sont générés par des algorithmes
selon trois catégories : la régression, la classification binaire et la classification multiple. Enfin, nous
avons vérifié l’efficacité de nos modèles à l’aide des métriques d’évaluation des performances
adéquates.
Mots clé : Maintenance prédictive, Machine learning, Régression, Classification.
Abstract
Due to operational and environmental conditions, the production process in companies is very
sensitive to deterioration and failure. Therefore, it is essential to define the correct maintenance
strategy in order to minimize the downtime caused by unexpected failures and therefore to minimize
the very high maintenance costs. Recently, predictive maintenance has taken advantage of
developments in data science and machine learning to overcome several limitations of conventional
maintenance. The aim of this project is to exploit a huge amount of data relating to the behavior of
simulated aircraft engines in order to train models capable of predicting the future operating state of
these engines. So, we created predictive models to estimate the remaining life of an engine, find which
engines will fail in a given time period, and thus predict the period in which an engine will fail. These
models are generated by algorithms according to three categories : regression, binary classification
and multiple classification. Finally, we verified the effectiveness of our models using appropriate
performance assessment metrics.
Keywords : Predictive maintenance, Machine learning, Regression, Classification.
ملخص
من، لذلك. فإن عملية اإلنتاج في الشركات عرضة للغاية للتدهور والعطب،بسبب الظروف التشغيلية والبيئية
الضروري تحديد استراتيجية الصيانة الصحيحة لتقليل وقت التوقف عن العمل الناجم عن األعطال غير المتوقعة وبالتالي
استفاتت الصيانة التنبيية من التطورات في علم البيانات والتعلم،، في اآلونة األيخير.تقليل تكاليف الصيانة المرتفعة للغاية
الهدف من هذا المشروع هو استغالل كمية هائلة من البيانات المتعلقة.اآللي للتغلب على العديد من سلبيات الصيانة التقليدية
على التنبي بحالة التشغيل المستقبلية لهذه، لتدريب نماذج قاتر، عن طريق المحاكا،بسلوك محركات الطائرات المولد
زمنية، وإيجات المحركات التي ستفشل في فتر، قمنا بإنشاء نم اذج تنبيية لتقدير العمر المتبقي للمحرك، لذلك.المحركات
: يتعلق األمر بنماذج تم إنشاؤها بواسطة يخوارزميات وفقًا لثالث فئات. التي يفشل فيها المحرك، وبالتالي توقع الفتر،معينة
. قمنا بالتحقق من فعالية نماذجنا باستخدام مقاييس تقييم األتاء المناسبة،أيخيرا
ً . التصنيف الثنائي والتصنيف المتعدت،االنحدار
. التصنيف، االنحدار، التعلم اآللي، الصيانة التنبيية: الكلمات المفتاحية