Vous êtes sur la page 1sur 52

MLOps

UN REGARD
VERS LE FUTUR
DE L'IA
Introduction
Dans ses prédictions Data pour 2019, le cabinet Gartner prédisait que, d’ici 2022,
seuls 15 % des cas d'utilisation tirant parti des techniques d’intelligence artificielle,
notamment le Machine Learning et les Réseaux de neurones profonds, et impliquant
des environnements Edge et IoT réussiraient à passer en production. Soit un taux
d’échec de 85 % i ! Une proportion qui peut étonner au regard de la maturité
grandissante des technologies d’IA et surtout de la valeur que l’exploitation des
données avec l’IA permettra de générer.

« ​​Gartner estime que l’exploitation des données avec l’IA va représenter un marché de
2,9 mille milliards de dollars dans les années à venir. Accenture indique que les entreprises
pourraient voir leur rentabilité augmenter de 38 % grâce à l’IA… Et face à cela, seulement
32 % des données sont exploitées par les entreprises selon IDC », rappelle Mick Levy,
directeur de l’innovation chez Business & Decision et auteur de l’ouvrage Sortez vos
données du frigo (Éditions Dunod, février 2021).

Ces chiffres ont de quoi surprendre. Parmi quelques raisons de ces écarts :
la trop faible fiabilité des données, des algorithmes trop gourmands en ressources,
le manque d’acculturation des équipes, le défaut d’approche pluridisciplinaire,
et, surtout, l’organisation en silo des équipes et des données. Par conséquent,
les entreprises peinent à dépasser le stade de l’idéation, puis à passer
de l’étape du simple Proof of Value (PoV) à la phase d’industrialisation.
Sans déploiement à l’échelle d'une organisation , imp ossible p our
elles de véritablement tirer parti des gisements de création de valeur
générés par l’IA.

En quelques années, la situation a beaucoup changé, évoluant de « l’hiver de l’IA »


à celle des big data et autres plateformes cloud ultra puissantes. Désormais,
la question n’est plus de savoir « comment faire », mais « comment faire pour
être efficace, industriel, évolutif, reproductible et standardisé en production »,
interpelle Françoise Soulié-Fogelman, Scientific Advisor chez Hub FranceIA.
L’heure est à l’industrialisation.

C’est là que le Machine Learning Operations (MLOps) apporte une réponse pertinente
en associant, au sein d’une même démarche, une suite de bonnes pratiques, de
processus, de méthodes et d’outils, à une approche à la fois organisationnelle,
humaine et technique. On vous explique tout !

Didier Gaultier,
Directeur AI & Data Science de Business & Decision
1 C’est quoi le MLOps ?
Une définition du MLOps

Les objectifs et les avantages


P. 5

P.7

2
Les rôles clés du MLOps P.11

Construire une IA Factory


Le CI/CD, fonction clé du MLOps P. 15

Les quinze fonctions qui régissent MLOps P. 20

3
Quelles étapes pour un fonctionnement sans couture ? P. 21

Le MLOps dans les entreprises


aujourd’hui et demain
Quelle culture MLOps adopter ? P. 29

La méthodologie MLOps développée par Business & Decision P. 33

La boîte à outils du MLOps P. 38

Le FinOps associé au MLOps P. 42

De la sobriété en MLOps  P. 43
SOMMAIRE

>>
1
-
C’est quoi le
MLOps ?

4
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
C’est quoi le MLOps ?
Après le DevOps, le DataOps, le FinOps… place au MLOps !
En quoi le MLOps est-il un prérequis à l’industrialisation de l’IA ? Quels sont
les freins qui limitent encore le passage à l’échelle ? À quels enjeux répond-il ? Le MLOps,
Quelle organisation mettre en place autour du MLOps ? Autant de questions un prérequis à
auxquelles les entreprises doivent répondre si elles veulent dépasser le stade l'industrialisation
du pilote et du test (PoV) et franchir un cap dans leur stratégie IA. Demain, de l'IA
il sera probablement trop tard.

Une définition du MLOps


Concrètement, c’est quoi le MLOps ? ML pour Machine Learning, et Ops pour Opérations. Inspiré de DevOps
(ensemble de pratiques pour écrire, déployer et maintenir de manière efficace les applications d’entreprise),
le MLOps combine la gestion des données (datasets), le développement logiciel, l’entraînement des IA et les
opérations IT associées, avec des workflows centrés sur les processus spécifiques du Machine Learning.

Selon Mckinsey Le MLOps selon Business & Decision


De façon élémentaire, il est tout à fait possible de se Difficile de donner des définitions plus détaillées
référer aux définitions déjà existantes telles que celle que celles mentionnées précédemment. Toutefois,
donnée par McKinsey : voici comment, chez Business & Decision, nous
« Le MLOps fait référence au DevOps tel qu'il est appliqué appréhendons le sujet et le présentons à nos clients :
à l'apprentissage automatique et à l'intelligence artificielle. Le MLOps est un ensemble de bonnes pratiques,
Il vise à raccourcir le cycle de vie du développement de méthodes, de ressources et de technologies
analytique et à augmenter la stabilité des modèles en combinant le Machine Learning, le DevOps, la
automatisant des étapes reproductibles dans les flux Data Science et le Data Engineering. La démarche
de travail des développeurs de logiciels. Bien que les vise à concevoir, à développer, à tester, à déployer
pratiques MLOps varient considérablement, elles impliquent et à maintenir les systèmes de Machine Learning
généralement l'automatisation de l'intégration […] en production de manière fiable et efficace avec
et du déploiement. » une finalité : industrialiser l'IA et la maintenir en
fonctionnement à l'échelle de l'entreprise. À la clé,
Selon Wikipédia la capacité d'assurer le déploiement, la surveillance
« MLOps est un ensemble de pratiques qui visent (ou monitoring), la gestion et la gouvernance de ces
à déployer et à maintenir des modèles de machine modèles.
learning en production de manière fiable et efficace.
Ce terme est composé de machine learning et de la pratique « Le MLOps, c’est d’abord une approche et un ensemble de
de développement continu de DevOps dans le domaine pratiques d’ingénierie en Machine Learning qui permettent
des logiciels. […] Semblable aux approches DevOps ou d’unifier les activités de développement de modèles et leur
DataOps 1, MLOps cherche à accroître l'automatisation déploiement. On ne peut pas réussir une transformation
et à améliorer la qualité des modèles IA en production, vers des pratiques MLOps sans transformer les équipes et
tout en se concentrant sur les exigences commerciales leurs méthodes de travail », résume Philippe Ensarguet,
et réglementaires. » CTO d’Orange Business Services.

1
Attention : le terme IAOps qui s’intéresse à l’utilisation de l’IA pour automatiser et optimiser les opérations IT
(de quelques natures qu’elles soient) est un faux ami !

5
GLOSSAIRE & SOURCES P.P.48-50
>>
SOMMAIRE

>>
Le coin des
Data Scientists
Pierre-Henri Mas,
Lead Data Scientist chez Business & Decision

Le principe du MLOps consiste à assurer et à garantir la bonne production


et le développement continu des traitements ML. Avant d’être un outil,
c’est à la fois une réflexion et des bonnes pratiques. Lorsque l’on
développe un algorithme, on ne sait pas toujours s’il peut répondre
au besoin. Au final, de nombreux projets finissent à la poubelle.
Le MLOps apporte ce balancier entre gagner du temps pour
faire de la R&D rapidement et bien produire grâce
à l’application de bonnes pratiques.

Voilà comment les entreprises peuvent lever les freins au passage


à l’échelle de l’IA : en donnant aux Data Scientists et aux Data Engineers
les bonnes feuilles de route.

Toutefois, elles doivent remplir une condition : mettre en place le MLOps


dès la conception d'un projet. S’il n’intervient que sur le déploiement
et la maintenance, alors il sera inefficace.
Or c’est tout l’enjeu du MLOps !

6
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Les objectifs et les avantages
Le principal objectif, et par conséquent avantage, du MLOps est de réussir à faire travailler ensemble les
Data Scientists, les Data Engineers et les métiers. Pourquoi ? Parce-que ces équipes ont des méthodes, des outils,
des processus, une culture et un vocabulaire différents.

Si les Data Scientists ont une connaissance pointue des données et des algorithmes, ils doivent avant tout être
capables de concevoir des modèles sur la base de données métiers qu’ils ne maîtrisent pas nécessairement à 100 %.
Il importe donc de faire très attention au contresens que peuvent engendrer ces données et à l’interprétation des
résultats obtenus. Voilà pourquoi il est essentiel de partager le même vocabulaire et de bien comprendre le métier.
Si la liste est loin d’être exhaustive, huit principaux objectifs peuvent être associés au MLOps :

Pour tout savoir de l’éthique de l’IA, consultez nos livres blancs :


1. Data Éthique / IA Éthique : les 2 visages d’un futur responsable I 2. Intelligence Artificielle : restez maître de votre futur !

ÉTHIQUE

PRÉCISION
EFFICACITÉ
& ROBUSTESSE

PRODUCTIVITÉ
8 CONTINUITÉ
OBJECTIFS
PRINCIPAUX

TRAÇABILITÉ,
COLLABORATION FIABILITÉ,
ABSENCE DE
BIAIS
REPRODUCTIBILITÉ

7
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
L’avis de l’expert
Didier Gaultier,
Directeur Data Science & AI de Business & Decision

Le MLOps a vocation à dépasser les barrières culturelles entre les différentes


fonctions de l’entreprise. Le Data Scientist, comme son nom l’indique, est
un scientifique, là où un Data Engineer, avec une culture plus orientée
développement et architecture, sera formé plutôt en technique IT et en
infrastructure Big Data. Pour un Data Scientist, la statistique représente
la grammaire de l’IA. On voit immédiatement à la fois le gap culturel et
la nécessité d’une communication étroite entre le Data Scientist et le
Data Engineer pour fonctionner.

Par conséquent, il est essentiel d’éviter à tout prix la situation dans laquelle
le Data Scientist et le Data Engineer travaillent avec des outils et des
plateformes différentes, car cela entraîne le redéveloppement par les
Data Engineers des modèles qui ont été conçus par les Data Scientists.
La pratique montre que cette situation conduit systématiquement à des
biais, des dysfonctionnements et des erreurs qui au mieux, vont faire perdre
un temps considérable, et au pire, vont compromettre la fiabilité du modèle.

Autre exemple : un modèle d’IA peut être précis dans 95 % des cas. Mais il
se peut que pour le client, l’important soit justement les 5 % de cas rares et
atypiques qui peuvent avoir un impact du point de vue de son entreprise.
La communication entre les Data Scientists et les métiers est donc vitale.
En conséquence, on ne compte plus les exemples de projets d’IA dans
lesquels le Data Scientist a l’impression d’avoir effectué un travail
scientifiquement irréprochable, mais qui, au final, provoque une réelle
insatisfaction chez le client. Pourquoi ? Parce que les cas particuliers
importants pour le client tombent souvent dans les 5 % qui ne sont pas
correctement traités par l’algorithme. Le MLOps a aussi pour vocation de
remédier à ces situations fâcheuses.

8
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Un avantage clé du MLOps, lorsque le projet est en phase d’industrialisation, est incontestablement le suivi en
continu, permettant une amélioration permanente du modèle à chaque itération. Et ce, sans perte de service. Autre
apport non négligeable : l’accélération des processus. Que ce soit au niveau du passage à l’échelle, du déploiement
des modèles ou de la production, le MLOps facilite et accélère l’ensemble des étapes.

De la même manière que pour les objectifs, la liste des bénéfices du MLOps est loin d’être figée. Néanmoins,
les douze bénéfices suivants témoignent de l’atout concurrentiel que représente le MLOps pour les entreprises
qui l’ont mis en place :

CORRECTIONS
EN CONTINU COLLABORATION
& DÉSILOTAGE
INTÉGRATION &
DÉVELOPPEMENT
CONTINUS
FIABILITÉ
DES MODÈLES

SOBRIÉTÉ
12
AVANTAGES DISPONIBILITÉ
MAJEURS
DU MLOps
OPTIMISATION
FINANCIÈRE

CADRE DE TRAVAIL
AGILE, RÉACTIF
& PRÉCIS
EFFICACITÉ

PRODUCTIVITÉ
REPRODUCTIBILITÉ
TRAÇABILITÉ

9
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
L’avis de l’expert
Philippe Ensarguet,
CTO d’Orange Business Services

Le MLOps est structurant pour deux raisons. Tout d'abord, quand on entend parler
d’IA ou de Machine Learning, souvent l’expression qui suit est : « Ça marche, mais on
ne sait pas vraiment pourquoi. » Il est très difficile d’expliquer le mécanisme de « boîte
noire » et de reproduire l’apprentissage créé pour détecter un facteur particulier. La
première question à laquelle le MLOps permet de répondre est donc : « Comment
sortir la boîte noire et entrer dans une démarche d’industrialisation ? » Il faut industrialiser
les processus, disposer d'outils qui permettent de gagner en confiance et en qualité,
pouvoir tracer l’historique du code, et obtenir l’exhaustivité dans les tests. Tout ce
qui a été appris ces 25 dernières années est applicable à ce nouvel écosystème de
Machine Learning qui tend à s’industrialiser et à se professionnaliser.

Ensuite, en discutant avec des acteurs plus avancés, on réalise que beaucoup de
modèles sont créés, mais très peu sont déployés. Ce qui signifie qu’aujourd’hui,
lorsqu’on travaille dans le domaine du logiciel, on a tout l’outillage pour faire
l’automatisation du déploiement en ligne de commande via des outils comme GIT.

Pourtant, plus des deux tiers des modèles n’arrivent jamais en production.
Et quand ils y parviennent, le niveau d’automatisation est tellement faible en termes de
déploiement que les données qui ont servi à entraîner le modèle mettront en évidence
que la valeur du modèle sur le long-terme n’est pas assez précise pour effectuer
un diagnostic. Il est plus que nécessaire d’expliquer le processus de fabrication du
modèle, et d’avoir la capacité à automatiser et à accélérer les déploiements.

10
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Les rôles clés du MLOps
Pour bénéficier des nombreux avantages du MLOps, intégrer les bons profils est nécessaire.
À l’image du DevOps, trois rôles clés sont incontournables.

1 I Les Data ou ML Engineers 3 I Les équipes Ops


Avec le MLOps, un rôle central émerge directement Le rôle des équipes Ops est de surveiller les évènements
dans les entreprises les plus importantes, c’est le relatifs à l’infrastructure lors de la mise en production,
ML Engineer. Dans les entreprises de taille plus puis tout au long de l’exploitation, et d’assurer le
modeste, ce rôle de professionnel du MLOps est le maintien en conditions opérationnelles.
plus souvent tenu par le Data Engineer.

Sa mission : responsable de la mise en production et du


passage à l’échelle des modèles, il fait le pont entre les
Data Scientists et les Ops. Il maîtrise la plateforme et
par conséquent l’industrialisation des processus.

Les équipes Data


& les équipes Ops,
2 I Les équipes Data sont des rôles clés
Elles reposent principalement sur le tandem
Data Scientist – Data Engineer, véritable pierre incontournables
angulaire du MLOps en entreprise, mais intègrent
également des profils métier, des Citizen Data Scientists,
des Data Analystes, et des Data Architects.

Au Data Engineer, le rôle d’orchestrateur : sa mission


est de mettre en place les outils ainsi que les pipelines
de données, et de garantir le bon déploiement de
tout ce qui se passe ; et au Data Scientist, celui de la Le rôle des métiers
production de valeur. Bien entendu, pas de MLOps sans l’implication, dès la
phase amont du projet et jusqu’à la sortie du produit
« Aujourd’hui, un Data Scientist se doit d’être sensible à une ou du service, des équipes métiers. À ces dernières,
bonne qualité et à un développement continu de ce qu’il s’ajoute un Product ou un Business Owner, garant de la
produit, à travers une ouverture d’esprit et une discussion finalité du modèle à développer et capable d’apporter
constante avec les Data Engineers travaillant sur le projet. une vue rationnelle au projet. Un rôle clé qui permet
L’entreprise doit a minima disposer d’un Data Scientist aux équipes Data de maintenir le cap et de comprendre
suffisamment appétent sur la partie MLOps pour poser quels modèles créer et comment les faire évoluer.
les fondamentaux. Mais ce qui manque le plus souvent Au Product Owner également de faire accepter aux
aux entreprises est de savoir quelles bonnes pratiques métiers que les premiers modèles qui sortiront ne
adopter et qui sont les bons acteurs à engager dans le correspondront pas 100 % à leurs attentes.
projet de MLOps », explique Pierre-Henri Mas, Lead
Data Scientist chez Business & Decision.

11
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>

Le coin des
Data Scientists
Erwan Josse,
Lead Data Scientist chez Business & Decision

Le MLOps est un ensemble de processus et de méthodologies permettant de réaliser les


projets en SPRINTS. Les équipes Data vont alors pouvoir profiter de ce très court laps de temps
pour expliquer au métier ce qu’elles font. L’idée est d’itérer le plus possible pour les embarquer
et qu’ils comprennent ce que l’on fait. Cela nous permet de tester notre code et de nous assurer
que tout est industrialisable.

Auparavant, le Data Scientist devait maîtriser toute la partie ingestion, mise en forme, publication
et automatisation des données, ainsi que les API. Mais ces dernières années, les métiers de Data
Engineer, Data Analyst et Data Scientist se sont bien différenciés. En parallèle, on voit aussi
apparaître des métiers comme les ML ingénieurs ou les Ops car on ne peut pas demander à une
seule personne d’être le meilleur sur toute la chaîne. En revanche, cette diversité soulève
une question : comment les faire parler entre eux et faire en sorte qu’ils se comprennent ?
C’est pourquoi les profils doivent chacun être sensibilisés aux
problématiques des autres.

12
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Le grand témoin
Françoise Soulié-Fogelman
Scientific Advisor chez Hub France IA

Concernant les points de blocage en entreprise, la liste critiques soient mis en place. Voici alors les questions
est infinie ! Déjà, les Hommes n’ont ni l’éducation, ni la à se poser en amont :
formation. Quand on décide d’avoir de l’IA partout, cela
va avoir des impacts assez massifs sur les processus • Est-ce que c’est faisable ?
et l’organisation même des entreprises, et donc sur • Et si oui, en combien de temps ?
les rôles des Hommes. Résultat, certains freinent • Est-ce que j’ai les données ?
car ils craignent que l’intelligence artificielle ne les • Est-ce que je vais pouvoir l’industrialiser ?
remplace. De plus, former l’ensemble des collaborateurs • Est-ce que je vais pouvoir le mettre en production,
à travailler avec de l’IA est un chantier massif. et dans quelle application ?
Or aujourd’hui, les formations nécessaires ne sont pas
en place. L’entreprise doit se réinventer. Tant qu’elle n’y La mise en production d’un modèle et son maintien
sera pas parvenue, il est impossible de déployer l’IA de sont les clés de sa performance. Plus le modèle est
façon industrielle et massive. simple, plus il est facile à mettre en production et
à maintenir. Mais on n’y parvient pas toujours. Ce
Pour éviter que 80 à 90 % des PoV finissent dans un que va apporter le MLOps, c’est d’abord l’idée que le
tiroir, il faut agir. Tout le monde doit partager cette point le plus important est d’industrialiser, de passer
compréhension qu’un PoV n’est pas un but final. La en production et de faire vivre un modèle. Le MLOps
problématique n°1 dans la production d’intelligences aujourd’hui, c’est un ensemble de bonnes pratiques, mais
artificielles, c’est qu’un modèle doit être conçu pour c’est surtout tout du bon sens : quand on fait un modèle,
être mis en production et non pour être simplement on a pour but de le déployer et de le maintenir au cours du
testé. […] Et cette étape doit se faire sans couture : du temps en identifiant les déviations. L’IA nécessite d’une
moment où on le conçoit à celui où le modèle vit sa vie, il manière ou d’une autre la mise en œuvre de processus
ne faut pas un seul point de rupture, ce qui implique des pour faire en sorte que la qualité soit respectée tout
outils qui permettent d’appréhender le problème depuis au long du projet.
le début. Malheureusement aujourd’hui, on lance très
souvent des projets qui ne sont pas réalisables. Il faut Le MLOps au final, c’est une méthodologie et des
par conséquent dès la phase d’idéation établir une bonnes pratiques qui ne sont pas encore outillées
organisation structurée de façon que tous les éléments comme il faut, mais vers lesquelles il faut tendre.

13
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>

2
-
Construire une
IA Factory

14
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Construire une IA Factory
Si la question de savoir « pourquoi passer l’IA à l’échelle » ne se pose aujourd’hui
plus, celle du « comment » reste en revanche problématique pour nombre
d’organisations. Seules 12 % des entreprises utilisent actuellement l’IA
à un niveau de maturité leur octroyant un avantage concurrentiel
significatif ii. Ainsi, plus de 60 % des grandes entreprises ne
font encore qu’expérimenter l’intelligence artificielle.
Comment alors dépasser ce stade ?
Suivez le guide.

CI & CD :
Continuous
Integration &
Continuous
Delivery

Le CI/CD, fonction clé du MLOps


L’intégration, la distribution ou le déploiement continue (CI/CD pour Continuous Integration / Continuous
Delivery sont au cœur du principe. Semblable aux approches DevOps ou DataOps, MLOps cherche à accroître
l'automatisation et à améliorer la qualité des modèles de production, tout en se concentrant également sur les
exigences métier et réglementaires.
Grâce au MLOps, les cycles de vie de développement et d’opération de systèmes complexes de Machine Learning
sont réduits, dans une certaine mesure, automatisés sans couture depuis la phase d’intégration et de test, jusqu’au
déploiement. Il devient alors possible de mieux se concentrer sur les phases d’entraînement et d’évaluation, et
de livrer en continu des modèles de Machine Learning de grande qualité. C’est ce qu’on appelle l’approche CI/
CD ou le « pipeline CI/CD ». En ce sens, le MLOps est complémentaire d’une approche Agile du Machine Learning
reposant sur une collaboration étroite entre les équipes de développement et d'exploitation.

15
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Le pipeline CI/CD

INTÉGRATION
CONTINUE
CONCEPTION CONSTRUCTION TEST

LIVRAISON
CONTINUE
VERIFICATION INTEGRATION

SYSTÈME DE
GESTION DE
MODÈLES

DÉPLOIEMENT
DÉPLOIEMENT
EN CONTINU

MONITORING

16
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Les différents niveaux de maturité du MLOps
Toutefois, la mise en œuvre de ce pipeline CI/CD dépend du niveau de maturité de l’entreprise. Pour rappel,
seules les plus matures d’entre elles, les « champions de l’IA », bénéficieront du plein potentiel de l’IA, affichant
une croissance de leur chiffre d’affaires plus élevée que celle de leurs pairs iii.

Niveau de maturité bas


Le processus pour préparer, construire, entraîner, Au final, il devient difficile d’adapter les modèles au
tester et déployer les modèles est ici entièrement changement de données et d’environnement. De même,
manuel, c’est-à-dire que chaque transition d’une étape les cas particuliers demandés par les métiers ne sont
à une autre est gérée manuellement. En parallèle, Data pas traités. Les notions de Data Drift (dérive des features
Scientists et Data Engineers travaillent chacun en silos, d’entrée des modèles) et de Concept Drift (dérive des
avec des plateformes et, parfois, des langages différents besoins métier sur l’exploitation des modèles) ne peuvent
(par exemple R pour les Data Scientists, Python ou Scala pas être prises en compte. Enfin, le réentraînement des
pour les Data Engineers). modèles étant particulièrement long, manuel, coûteux
et laborieux, les modèles n’arrivent en production
Conséquence immédiate : une faible fréquence de qu’avec un long retard et, généralement, sont déjà
livraison et d’intégration des nouvelles versions des obsolètes.
modèles qui nécessitent un recodage manuel à chaque
étape, accompagnée d’un risque élevé d’observer des
écarts significatifs entre les modèles entraînés et ceux
mis en production, voire des non-conformités et des
biais. À ce niveau, les environnements de développement
et de production ne sont généralement que vaguement
compatibles. Le potentiel de l'IA,
directement
proportionnel avec la
maturité de l'entreprise

17
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Niveau de maturité moyen Concept Drift n'étant, quant à elle, pas ou peu prise en
Le processus de livraison fonctionne de manière compte, certaines spécificités des demandes métiers
relativement cohérente, favorisant la livraison en sont donc partiellement ignorées.
continu, et de manière récurrente des modèles entraînés
aux services de déploiement. Le développement et la Niveau de maturité élevé
production sont opérés sur une plateforme identique Dans un cas de maturité MLOps élevée, un système
sur l’ensemble des environnements : il devient alors plus complet, cohérent et automatisé est mis en œuvre.
facile d’expérimenter. Les modèles peuvent être Les nouvelles idées de feature engineering et
mis à jour et réentraînés plus fréquemment, d’hyperparamètres peuvent désormais être
en phase avec des données fraîches. construites, testées et déployées sans
La raison : les modèles et les jeux de couture dans les environnements
données sont organisés au sein de la cibles. L’automatisation et le
plateforme en composants tracés, Un niveau de monitoring sont alors mise en
documentés, et réutilisables, place de manière réactive à
maturité élevé facilite
favorisant ainsi leur maintenance toutes les étapes du pipeline de
et leur évolution. l'implémentation du Machine Learning, depuis les
Machine Learning étapes de conception jusqu’aux
Il est maintenant possible de phases d’intégration, de test et
reproduire les mêmes résultats de déploiement.
entre différents environnements:
développement, test et production. Ici, les équipes communiquent de
Les cycles des sprints sont alors plus courts manière fluide à l’intérieur d’un environnement
et plus efficaces. De la même manière, les équipes comportant un langage et une plateforme unifiés. Les
communiquent et les échanges entre Data Scientists notions de Data Drift et de Concept Drift sont intégrées
et Data Engineers sont plus fluides. Néanmoins, il dès la phase de conception. Les demandes métiers (y
peut arriver que les modèles ne soient pas monitorés compris les évolutions) sont bien prises en compte et
entièrement ou que la notion de Data Drift ne soit intégrées dans les modèles rapidement.
traitée que partiellement. En parallèle, la notion de

18
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>

L’avis de l’expert
Mick Levy,
Directeur de l'Innovation Business chez Business & Decision

La démarche MLOps doit s’appliquer tout au long du cycle de vie d’un algorithme
lors du passage à l’échelle. En amont tout d’abord, c’est-à-dire pour favoriser le
développement continu ; pendant la mise en production et durant toute la durée
de l’exploitation ensuite, le MLOps va faire en sorte que les processus fonctionnent
pour tout le monde ; et, en aval lors de la phase d’observabilité, à travers la capacité
à observer l’algorithme, à s’assurer que son niveau de maintenabilité est toujours
bon et à mettre en place une boucle d’apprentissage continu.

Pour un bon fonctionnement du MLOps, pour assurer une amélioration continue,


il est indispensable de monitorer le système déployé.

19
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Les quinze fonctions qui régissent le MLOps
Comme l’explique Pierre-Henri Mas, Lead Data Scientist Business & Decision, une première erreur
dans une démarche MLOps est de ne pas mettre en place un outil de versioning de code ou des modèles
à même de sauvegarder dans une archive toutes les versions créées. Ensuite, il est indispensable de connecter
la plateforme IA à l’écosystème en place pour faciliter la communication entre les équipes. Sinon, un retour aux
processus manuels est inévitable.

Autre erreur à éviter pour accélérer l’industrialisation des modèles : s’arrêter après la publication du modèle.
Sans suivi de l’évolution du modèle dans le temps ou de la manière dont les nouvelles données réagissent au
modèle, il est quasi impossible de passer à l’échelle !

ÉCOUTE DES BESOINS & FEATURE STORE &


DES CAS PARTICULIERS FEATURE ENGINEERING
DES MÉTIERS (DATA AUGMENTATION)

PIPELINE DE COLLECTE
DE DONNÉES EN STREAM
CI /CD

LABELLISATION DES DONNÉES


D’APPRENTISSAGE
BUILD ET TEST DES MODÈLES

RÉFÉRENTIEL DES COMPOSANTS


& BIBLIOTHÈQUES

VERSIONNING
V1 GESTION DE L'EXPLOITABILITÉ,
TRANSPARENCE & ABSENCE DE BIAIS

HISTORISATION DES EXPÉRIENCES GESTION DE L'INTÉGRATION,


PRODUCTION, DÉPLOIEMENT

SURVEILLANCE DU DATA DRIFT &


FEEDBACK LOOP ET MONITORING DU CONCEPT DRIFT

GESTION DE LA CORRECTION, DE
L'AJUSTEMENT, DU RÉENTRAINEMENT
& DU PERFECTIONNEMENT SOBRIÉTÉ, RESPONSABILITÉ
& ÉTHIQUE DES MODÈLES

20
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Quelles étapes pour un
fonctionnement sans couture
Les prérequis à la mise en place du MLOps
Cette question, critique, détermine in fine la performance des équipes et
par conséquent celle des algorithmes développés. Le MLOps est un
savant mélange d’organisation, de méthodologie et de technologie.
Or, peu d’entreprises parviennent aujourd’hui à combiner ces
trois composantes.

Pour lancer un tel projet, il est nécessaire de


disposer, a minima, d’une infrastructure
IA‑ready capable de prendre en compte les
quatre points suivants et de favoriser
une mise en œuvre efficace du
MLOps.

1 I Proposer une plateforme IA commune à adopter plusieurs petites briques open source – comme
aux Data Scientists et aux Data Engineers GitHub, GitLab, un serveur MLFlow… – pour constituer
Comme noté précédemment, Data Scientists et Data soi-même la plateforme avec un environnement de
Engineers doivent communiquer et parler le même développement basé sur Python par exemple. Les deux
langage pour se comprendre et avancer dans le même ont des avantages et des inconvénients.
sens. Si chaque partie travaille sur une plateforme
isolée, c’est un point véritablement bloquant en termes Dans le premier cas, le service acquis facilite grandement la
de développement continu. vie (on parle d’une division par deux à quatre des charges
sur un projet IA), mais rendant plus ou moins dépendant
Concernant les outils à intégrer à cette plateforme, de l’éditeur. Avec la 2e option, les équipes Data choisissent
deux écoles s’opposent, comme l’explique Erwan Josse, les outils qu’elles connaissent… mais doivent déployer
Lead Data Scientist chez Business & Decision : une palette de compétences plus large pour maîtriser à
« La première École préconise de faire appel à des la fois GitLab, GitHub, MLflow, Docker, etc., les montées
éditeurs capables d’intégrer l’ensemble de la chaîne de en compétence et les charges projets peuvent s’en trouver
fonctionnalités MLOps à leurs outils, comme Dataiku, plus lourdes. »
KNIME, Alteryx ou DataBricks. La deuxième école appelle

21
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
2 I Séparer les environnements de
développement et de production enrichies par des données externes, des recodages et
des croisements informatiques constituent autant de
Un prérequis de base consiste à séparer environne- données augmentées transformées en information.
ments de développement et de production, tout en Ces features mieux travaillées vont permettre d’entraîner et
maintenant une compatibilité totale entre les deux. d’obtenir des algorithmes plus simples, plus sobres, moins
Séparer les environnements permet ainsi d’éviter de ré- coûteux, plus précis et plus robustes. Un feature store
percuter une erreur de développement en production bien organisé permet aussi de limiter la redondance et les
et par conséquent, un résultat faussé. Les dupliquer pertes de temps inutiles car toute donnée est stockée et
permet aussi de disposer d’un back-up et de ne pas documentée une seule fois. Dans le MLOps, il est important
perdre les données ! de disposer de features qui couvrent la totalité du sujet
qui sera traité, sans exception. Avec un feature store, les
En revanche, ces environ- Data Scientists ont l’assurance
nements doivent être stric- de travailler avec la meilleure
tement identiques : même qualité de données à jour et
infrastructure, mêmes outils, donc de meilleures chances de
même structure, même lan- développer un modèle pertinent
gage, mêmes spécificités… au regard du projet concerné
On peut, en poussant la lo- qui passera rapidement en
gique jusqu’au bout, y ajouter production sans couture »,
un 3e environnement, celui de explique Didier Gaultier,
la préproduction. Tous sont directeur Data Science & AI
ainsi des miroirs les uns des de Business & Decision.
autres.
4 I Mettre en place
3 I Déployer un un component store
feature store Le component store est une
De quoi s’agit-il ? Le feature bibliothèque partagée de
store est une plateforme cen- modèles et d’algorithmes
tralisée, à l’image d’un data qui ont déjà été testés,
hub, dans laquelle stocker packagés, documentés et
en permanence tous ses va- sont prêts à fonctionner
riables et indicateurs à jour avec les données du feature
pour les utiliser ensuite dans store. Il est Indispensable
les projets de Data Science. aux Data Scientists, aux
En effet, les Data Scientists consacrent aujourd’hui Data Engineers et aux opérations. Les composants
un temps incompressible à préparer les données, peuvent être intégrés tels quels dans des modèles et
améliorer leur qualité, les enrichir, les augmenter, les des applications plus complexes.
recoder… chacun de leur côté. Avec un feature store
collaboratif, les données sont transformées une fois Généralement, ces modèles sont associés étroitement
pour toutes et accessibles auprès des Data Scientists à des features, et on voit immédiatement le parallèle qui
et des Data Engineers pour l’ensemble de leurs projets. se crée entre le feature store et le component store : le
Ces données transformées vont servir à alimenter les component store contient le code et le feature store les
modèles et sont alors appelées des features. data. Le component store est généralement commun
et partageable au sein non seulement de l’équipe, mais
« Un feature store est absolument incontournable dans plus généralement de toute l’organisation, avec une
une mise en place MLOps. Les données travaillées et gestion des droits d’accès.

22
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Le coin des
Data Scientists
Romain Bernard,
Lead Data Scientist & Senior Manager chez Business & Decision

La première question à se poser avec le MLOps est : ‘‘Est-il opportun de le faire ?’’ Le MLOps est un
terme à la mode, mais toutes les entreprises n’ont pas nécessairement vocation à y avoir recours.
Le premier prérequis au MLOps, c’est d’avoir déjà implémenté au moins un modèle d’IA et d’avoir
conscience que l’on va en faire plusieurs autres pour évoluer à un niveau industriel. Le MLOps n’est utile
que pour les entreprises qui ont l’intention de généraliser l’IA à tous leurs métiers.

Les sociétés rencontrent parfois une certaine réticence car le MLOps implique une expertise IA encore
insuffisamment développée dans la culture d’entreprise. Ce n’est pas le MLOps en lui-même qui est en
cause, mais l’image de l’IA qu’il véhicule. C’est pourquoi un travail d’acculturation important auprès d’un
public assez large est souvent nécessaire au préalable.

Enfin, il faut aussi se poser la question de la responsabilité et de l’éthique. Si vous changez une façon
de travailler par une automatisation, il faut vous y préparer en amont. On en revient à cette notion
d’accompagnement humain culturel. C’est pourquoi le MLOps sera d’autant plus simple à mettre
en place que les équipes seront déjà accoutumées au DevOps ou au DataOps. La culture Ops
ne s’apprend pas du jour au lendemain. Naturellement, un Data Scientist ne pense pas
en mode ‘‘Ops’’. Son état d’esprit est orienté pour développer de beaux modèles
mesurables et reproductibles qui répondent aux problèmes des métiers.
Le MLOps lui apporte les processus permettant à chaque maillon de
la chaîne de s’emboîter.

23
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Les 16 étapes clés du MLOps

Une fois que tous les prérequis au MLOps sont en place, quelles sont alors les étapes pour favoriser le bon
fonctionnement des modèles ? Nous en avons listé seize qui permettent ainsi de couvrir tout le cycle de vie
du modèle.

1
ANALYSE DES
2
ANALYSE DES
3
ANALYSE
4
MISE EN PLACE
BESOINS, DES DONNÉES EXPLORATOIRE, DES PIPELINES
OBJECTIFS & DES MÉTIER MISE EN QUALITÉ DES DONNÉES EN
CONTRAINTES INTERNES & & RECODAGE DES MODE STREAM
MÉTIER EXTERNES DONNÉES

5
FEATURE
6
ANNOTATION
7
SÉLECTION
8
CONSTRUCTION
ENGINEERING (PRÉPARATION DES DONNÉES DES RÉFÉRENTIELS,
(AUGMENTATION DES DONNÉES D’ENTRAÎNEMENT DES COMPOSANTS
& PRÉPARATION D’ENTRAÎNEMENT & STRATÉGIE ASSEMBLAGE
DES DONNÉES AUX DES ALGORITHMES) D’ÉCHANTILLONNAGE DES MODÈLES &
ALGORITHMES) ENTRAÎNEMENT

9
ÉVALUATION
10
VÉRIFICATION DE
11
CADRAGE,
12
BUILD,
& TEST DES L’EXPLICABILITÉ, SPÉCIFICATIONS GESTION DES
MODÈLES, TRANSPARENCE, D’INTÉGRATION, CONTAINERS, API
FEEDBACK ÉTHIQUE, ABSENCE DOCUMENTATION MANAGEMENT,
MÉTIER DE BIAIS, CRÉATION & TRANSMISSIBILITÉ PRÉPRODUCTION
DES KPIS À MONITORER, DES MODÈLES
FEEDBACK MÉTIER

13
INTÉGRATION,
14
MISE EN
15
TESTS &
16
TRANSFERT
TESTS & PRODUCTION, RECETTE MÉTIER, EN CONTINU
RECETTE DÉPLOIEMENT CORRECTION AUX MÉTIERS,
TECHNIQUE EN CONTINU & EN CONTINU, FORMATION &
MISE EN PLACE DU AJUSTEMENT, FEEDBACK
MONITORING RÉENTRAÎNEMENT & MÉTIER
PERFECTIONNEMENT

24
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Conseils & Recommandations
Voici nos cinq (premiers) conseils et recommandations :

1. Prenez le temps d’analyser vos données en entrée,


et ne négligez ni le feature engineering, ni la phase
d'annotation : certains sont tentés d’aller de plus
en plus vite vers la modélisation en se basant sur
des modèles d’algorithmes trouvés sur le net, et
d’oublier que sans les bons indicateurs en entrée,
le meilleur modèle risque devenir au mieux une
« usine à gaz ». Un modèle simple et robuste
avec un très bon feature engineering
en amont sortira toujours gagnant
face à un modèle sophistiqué avec
des données moins préparées et
moins riches.

Ne
brûlez pas
les étapes &
évitez les
2. Ne négligez pas le monitoring dès la phase de conception du modèle. En effet,
mauvaises l’entreprise comme ses clients évoluent. Si vous avez créé votre modèle il y a un an,
surprises il y a fort à parier qu’il n’est plus adapté à la situation. Souvent, les données qui ont
permis d’entraîner le modèle ne sont plus autant d’actualité et il est nécessaire de
permettre au modèle de réapprendre sur la base de données nouvelles ou mises
à jour. C’est pourquoi il est important de monitorer en continu les modèles
une fois en production.

3. Soyez transparent dans les résultats du modèle tout au long


du processus, notamment auprès des métiers. En retour,
exigez la transparence des métiers sur la façon dont ils
évaluent les modèles : on ne compte plus les modèles
scientifiquement irréprochables qui sont considérés
par les métiers comme non pertinents à cause
de leur comportement sur un ou deux cas
particuliers critiques qui n’ont pas été
anticipés.

25
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
4. Choisissez soigneusement une plateforme de Data
Science cohérente pour tous vos environnements,
en particulier développement et production. N’en
changez pas fréquemment une fois celle-ci adoptée par
l’entreprise. Pensez aussi à définir vos bonnes pratiques,
normes et ressources de développement (comme
votre référentiel de composants et votre feature
store sur votre plateforme) à l’avance pour les mettre
en œuvre sur chaque modèle, et capitaliser. Lorsque
vos programmes sont en production, si l’un d’eux est
défaillant, vous gagnerez un temps précieux pour
identifier la source du problème et pour éviter que
celui-ci se reproduise pour d’autres use case similaires.

5. Automatisez quand cela est possible, imposez


des tests sur les scripts et suivez les normes de
développement pour passer plus facilement et plus
rapidement en production. Dès lors, le MLOps ne
sera plus perçu comme une contrainte mais comme
un ensemble de bonnes pratiques à suivre, voire comme
un ensemble d’outils et de ressources qui facilitent
le travail.

Gagner en
temps &
efficacité

26
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Le grand témoin
Yann Golhen,
Lead Data Scientist à la MAIF

« Comme nombre d’entreprises, nous avons amorcé d’accélérer et de faciliter la mise en production de nos
un virage : celui d’une IA qui passe à l’échelle, qui modèles, et d’améliorer le time to market. Nous visons
sert nos métiers et qui s’intègre dans notre système aussi à optimiser la performance de nos applications
d’information. Nous avons été convaincus assez tôt et le temps de réponse de nos API. Enfin, le MLOps
que la plupart des offres IA proposées par des sociétés doit renforcer la sécurisation de la production de nos
externes n’étaient pas complètement adaptées à notre modèles grâce à ses procédures de versioning des
métier. Le corpus assuranciel ne correspond pas au modèles ou des pipelines de réentraînement…
langage quotidien des startups. C’est pourquoi nous
avons décidé de développer nos propres solutions d’IA Pour le bon fonctionnement de nos modèles, nous
avec l’aide de consultants et de briques open source. avons mis en place des dispositifs, notamment un
monitoring technique systématique pour savoir
Nous avons donc repensé notre organisation autour comment un modèle est utilisé. Nous essayons de
de trois tribus regroupées au sein d’une Data nous structurer dans ce chantier MLOps sur la façon
Factory : Analytics, SoDa (Socle Data) et YoDa pour de suivre dans le temps la dérive de la data et des
la data opérationnelle. Elle-même divisée en quatre modèles avec notre librairie open source Eurybia 3.
squads et un collectif transverse, garant de la qualité Finalement, le MLOps s’impose à nous pour nous
des développements, de l’administration et de la structurer et nous faire gagner en productivité à terme. »
maintenance des projets, et moteur pour acculturer
les squads aux bonnes pratiques MLOps.

Une centaine de modèles sont actuellement en


production. Autour du NLP notamment, avec Mélusine 2
2
Logiciel qui facilite le routage des courriels vers le bon interlocuteur

que l’on a ‘‘open sourcée’’ et qui nous aide à lire de façon 3


Librairie Python qui sert à garantir la qualité des modèles de machine
learning en production
automatique tous les courriels de nos clients sociétaires
pour les dispatcher auprès de la bonne compétence.
Nous faisons également du computer vision, toujours
dans l’optique de traiter plus rapidement les demandes
des sociétaires, du scoring... Tous nos Data Scientists
sont formés au CI/CD et nos ML Engineers jouent
le rôle d’administration centrale des pieplines. Ils
s’assurent de la bonne prise en main des templates et
de la qualité de ce qui part en production. A terme, les
Data Scientists seront plus autonomes.

Le MLOps est encore récent, mais il devient un sujet à


part entière pour lequel nous disposons d’un budget
dédié. Tel qu’on le voit, le MLOps regroupe des pratiques
et des outils pour permettre de mieux gérer le cycle de
vie des modèles et des pipelines d’industrialisation de
nos projets de Data Science. Notre premier objectif est

27
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
3
-
Implémenter
le MLOps dans
les entreprises
aujourd’hui
& demain

28
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Implémenter le MLOps dans les
entreprises aujourd'hui & demain
Pour atteindre ses objectifs, à savoir faciliter le passage de l’IA à l’échelle, un projet MLOps doit intégrer
cinq dimensions clés : la culture des équipes embarquées ; la méthodologie associée ; les technologies et
architectures ; le FinOps ; et enfin, l’éthique, la responsabilité et la sobriété. Sur la base des retours d’expériences
de plusieurs experts, voici notre guide pratique du MLOps.

Quelle culture MLOps adopter ?


Quelle culture associer au MLOps ? La méthode « Je considère que le MLOps intègre des objectifs
CRISP (initialement connue comme CRISP-DM), métiers, la gouvernance des données, la modélisation, la
développée par IBM dans les années 60 pour réaliser maintenance, et enfin le transfert en production. Il s’avère
les projets Datamining, a fait ses preuves dans les ainsi plus complet que CRISP. Tout au long de toutes ces
projets Data Science. Mais avec l’évolution des phases se posent les questions de sécurité et de protection
pratiques, l’intégration continue et le développement des données, de RGPD et de cybersécurité. Les plus beaux
continu (CI/CD) ont peu à peu remplacé le CRISP et projets en IA sont ceux réalisés avec le système de feature
trouvent désormais une place « naturelle » dans les engineering le plus développé, et non avec le modèle le
projets, comme ils l’ont prouvé avec le DevOps et le plus développé », précise Françoise Soulié-Fogelman,
DataOps. Bonne nouvelle, les meilleures pratiques Scientific Advisor chez Hub FranceIA.
MLOps incluent désormais la méthode CRISP.

La méthode
CRISP,
peu à peu
remplacée par
le CI/CD

29
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
La culture Agile adossée au MLOps

Tout dépend bien entendu de ce que l’on met derrière robuste à chaque itération que les métiers se seront
le mot Agile. Un des principaux problèmes que appropriés. Pourquoi a-t-on alors besoin de démarches
rencontrent les entreprises ces dernières années itératives ? Comme le rappelle Philippe Ensarguet, CTO
dans l’industrialisation des projets d’IA et de Data d’Orange Business Services, la phase d’observation
Science réside dans leur manque d’anticipation. Dans est ici très importante. « On commence par une phase
certains cas, les projets Data Science sont encore d’observation où l’on va essayer de circonscrire le type de
menés de façon isolée, sans choisir d’architecture réponses que l’on va être capable d’approcher avec des
technique ni de plateforme au préalable, sans même outils de haut niveau. Et ensuite, d’après notre expérience,
se poser la question de savoir si ce qui est fait est on développe le plus souvent en Python. À partir du moment
industrialisable. En conséquence, après plusieurs où l’on a stabilisé le type de modèle, on entre dans la
mois de développement, les projets s’avèrent souvent phase d’industrialisation, durant laquelle des outils de
inexploitables ou doivent être redéveloppés. haut niveau peuvent générer le code qui pourra faire
tourner et exporter le modèle. Mais dans certains cas,
Une autre cause d’échec réside dans le manque de des contraintes matérielles ou physiques apportent une
transparence et l’effet tunnel des projets d’IA. C’est là dimension limitative, poussant ainsi les équipes à décider
que le caractère itératif inhérent à la culture Agile va de le réimplémenter. C’est pourquoi je préfère parler de
permettre non seulement d’expliquer aux métiers ce qui caractère itératif dans lequel on a véritablement cette
est fait à chaque étape du processus, corriger le tir si phase d’exploration. » Le plus important alors dans cette
nécessaire à chaque itération, mais aussi de développer itération est d’en conserver la traçabilité.
un produit ou un service efficient plus rapidement.
À la clé : la capacité à déployer rapidement une IA plus

30
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>

L’avis de l’expert
Michel Lutz,
Chief Data Officer et Head of Data Digital au sein
de la Digital Factory de TotalEnergies

Il n’existe pas une approche unique du MLOps. Tout dépend du produit et des enjeux.
L’idée est de s’assurer que l’on déploie les bonnes mécaniques qui permettront d’avoir
confiance dans ce que développent les Data Scientists.

Dès qu’un produit intègre une dimension Data, nous nous posons la question de savoir
quels sont les enjeux du MLOps, quels sont les risques potentiels et leurs impacts,
et nous choisissons les bonnes mesures à mettre en œuvre pour les encadrer. Il n’y
a donc pas une réponse unique, mais un questionnement systématique.

31
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Ce défi culturel est clé car de cette organisation MLOps découlera le

processus de travail qui rendra possible le delivery continu, et permettra

d’aboutir à une IA maîtrisée et par conséquent industrialisable.

Voici un point de vue d'expert sur la culture MLOps :

Le coin des
Data Scientists
Erwan Josse,
Lead Data Scientist chez Business & Decision

Le degré de maturité de l’entreprise est un facteur clé de réussite. Une entreprise plus avancée dans
l’intelligence artificielle possèdera déjà les bases de la culture MLOps et gagnera ainsi énormément de temps
sur la mise en production et l’industrialisation. Pour d’autres, le changement culturel induit par le MLOps dans
la façon de travailler sera plus difficile. En 2015, les premiers projets Data Science étaient le plus souvent en cycle
en V. Dans cette approche, il n’y a qu’une mise en production à faire et des milliers d’indicateurs à créer, alors que le
MLOps force à itérer et à avancer pas à pas dans un projet.

On présentait alors la Data Science sous forme de pyramide : d’abord, la préparation des données, puis successivement,
l’analyse statistique, le croisement des variables, l’analyse inférentielle, la partie prédiction… Tout fonctionnait par palier
avec parfois des centaines d’indicateurs pour répondre à une problématique.

Aujourd’hui, le système itératif permet de ne conserver qu’une vingtaine d’indicateurs pour réaliser un premier
modèle que l’on pourra présenter et expliquer au métier. Ce principe itératif va aussi nous permettre de dire quand
cesser d’essayer d’améliorer notre modèle et le passer en production pour le tester en conditions réelles. C’est
cette transformation culturelle qui est à opérer quand on arrive dans des entreprises qui souhaitent passer à
des chaînes MLOps. Il reste encore la dimension technique à challenger. Si les Data Scientists ont l’habitude
de travailler avec SAS depuis 20 ans et qu’on leur demande de maîtriser Python, KNIME, Dataiku, VS
Code, MLFlow… un accompagnement sera nécessaire.

On ne peut pas prendre la méthode Agile telle quelle, car certaines contraintes sont
spécifiquement liées à un projet Data Science et pas à un autre. Mais certains de
ses aspects vont nous permettre d’optimiser le temps de développement
de notre algorithme.

32
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
La méthodologie MLOps développée
par Business & Decision
Business & Decision, grâce à des dizaines de projets d’IA passés en production dans différents secteurs d’activité
(distribution, banque, assurance, télécoms, industrie, secteur public…) et en s’appuyant sur ses meilleurs experts,
a développé et mis au point sa propre méthode MLOps.

1 I La collecte des besoins métiers et


l’identification des sources de données Cette partie de la méthode va généralement donner
lieu à un ou plusieurs sprints (suivant la taille du projet),
La première phase est clé puisqu’elle va conditionner mais l’idée générale est plutôt d’essayer d’aboutir une
toute la suite du déroulement de la méthode. première fois et d’y revenir par itérations, au fur et à
mesure de l’avancement du projet, quitte à rajouter des
attentes ou des contraintes qui n’avaient pas forcément
Elle comprend : été captées lors de la première itération en phase 1.

• Les ateliers d’idéation et les interview métiers ; En effet, le fait de poursuivre avec les phases 2 et 3
• La phase de spécification, aussi bien sur les attendus permet d’apporter des réponses pertinentes à la phase
métiers que sur les contraintes IT, incluant bien 1 qu’il aurait été impossibles d’établir autrement.
entendu l’évaluation des risques, et des problèmes On est donc dans une méthode réellement agile, qui
éthiques et règlementaires qui peuvent se poser ; fonctionne par sprints et avec la nécessité de devoir
• La phase de planification ; revenir au fur et à mesure des itérations sur des phases
• L’organisation projet ; déjà partiellement couvertes.
• La comitologie ;
• Les interview IT et les spécifications de Il s’agit néanmoins de se fixer pour règle de terminer
l’architecture technique ; une phase avec ses quatre étapes successives avant
• La liste des données qui sont pressenties comme de décider si on passe à la suivante, ou si l’on doit de
sources du modèle aussi bien internes qu’externes. nouveau couvrir la même phase pour l’approfondir.

SPÉCIFICATION INTERVIEW I.T LISTING DES


IDÉATION PLANIFICATION ORGANITATION
& SPECIFICATIONS DONNÉS

33
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
2 I Le Data Engineering comprenant, le feature engineering et l'annotation des données

La deuxième phase est probablement la plus critique et aussi la plus longue puisqu’elle concerne à la fois le Data
Engineering et le traitement mathématique des données. Elle comprend :

• La sélection des sources (parmi celles qui ont été identifiées en phase 1), puis la mise en qualité des données ;
• L’analyse exploratoire qui reste indispensable à chaque fois qu’un nouveau jeu de données est introduit ;
• Le feature engineering qui est ici présenté de manière plus générique comme la « data augmentation » ;
• L'annotation des données, dans le cas où l’IA utilise des algorithmes avec un mode d’apprentissage supervisé
ou renforcé 4.

Cette phase va générer de l’information et des indicateurs qui seront synthétiquement construits afin de
littéralement « mâcher » le travail aux algorithmes en aval. C’est ici que se jouent à la fois le talent des Data
Scientists et des Data Engineers, mais aussi la communication entre les différents départements. Il n’est d’ailleurs
pas exclu d’utiliser des algorithmes dès cette phase, par exemple de l’analyse non supervisée, afin de générer de
nouveaux indicateurs. Les features devront généralement être croisées entre elles, recodées et transformées
mathématiquement.

Cette phase doit être menée le plus à fond possible à chaque itération avec chaque nouveau jeu de données qui
vient enrichir le feature store et qu’on décide d’utiliser. Minimiser cette étape n’est jamais une très bonne idée.
Cependant, si le temps vient à manquer, il est recommandé de boucler cette phase 2 de façon provisoire, sans
inclure toutes les données à disposition au départ (mais en faisant le travail à fond avec les données essentielles
et minimales retenues). C’est d’ailleurs de cette façon que l’on pourra rester agile et procéder par itération par la
suite, la philosophie de la méthode restant la même dans toutes les phases 1 à 4.

En effet, certaines réponses manquantes dans une phase donnée pourront parfois être apportées par les phases
suivantes. Il vaut donc mieux chercher à équilibrer autant que possible le temps passé sur chaque phase à chaque
itération. Ainsi, si votre projet doit se faire en huit semaines, on pourra par exemple passer une semaine sur
chaque phase une première fois, puis repasser deux semaines sur la phase 2 en ajoutant de nouvelles données au
deuxième passage, ensuite une semaine à nouveau sur la phase 3 avec un modèle plus abouti, puis la phase 4, etc.
En cela, cette méthode permet beaucoup d’agilité. Elle reste compatible avec la philosophie CRISP, tout en
l’enrichissant significativement sur la partie ML Ops.

4
Pour en savoir plus sur ces modes d'apprentissage, consultez notre précédent livre blanc :
Intelligence Artificielle, restez maître de votre futur !

SELECTION DES SOURCES ANALYSE EXPLORATOIRE FEATURE ENGINEERING ANNOTATION DES DONNÉES

34
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
3 I Le développement, l’entraînement et le test des modèles

La troisième phase est probablement la plus connue et la mieux maîtrisée par les Data Scientists. Elle consiste
dans un premier temps à procéder au choix judicieux des algorithmes à adopter et à tester, puis à optimiser leur
paramétrage (souvent effectué par un système de grid search) et à tester les résultats. En cela, elle ne diffère pas
ici fondamentalement de ce qui était fait par le passé avec CRISP.

Nous n’insisterons jamais assez sur l’importance d’inclure tous les cas transmis par les métiers ou détectés lors de
la phase d’analyse des besoins, sous peine de devoir refaire le travail plusieurs fois. Il faut ainsi tester :

• La précision ;
• La robustesse ;
• Tout indicateur métier qui s’avère pertinent au regard du projet concerné ;
• La vérification de l’explicabilité ;
• La transparence ;
• Les indicateurs statistiques comme l'homogénéité de la variance des résidus ;
• L’éthique et l’absence de biais.

S’ensuit alors une phase de validation qui doit nécessairement faire intervenir un dialogue avec les métiers.
Il ne faut pas hésiter dans cette phase à itérer :

• À l’intérieur de la phase 3 pour affiner le modèle ;


• Revenir à la phase 2 si on a épuisé toutes les possibilités immédiatement disponibles sans succès ;
• Revenir jusqu’à la phase 1 si on s’aperçoit dans les dialogues avec les métiers que l’on a ignoré un élément
important.

Enfin, si tout le déroulement est satisfaisant, on attaque le cadrage d’intégration, dans lequel il importe notamment
de prévoir et de spécifier les indicateurs à monitorer. Ces derniers nous permettent de quantifier le Data Drift et
la performance en continu du modèle, de documenter et de transmettre aux Ops. Cette phase charnière doit faire
intervenir des Data Engineers ou des ML Engineers, et même dans certains cas des Data Architects.

ÉTHIQUE &
ROBUSTESSE EXPLICABILITÉ ABSENCE DE BIAIS

INDICATEURS MÉTIER
PRÉCISION TRANSPARENCE
PERTINENTS

35
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
4 I La mise en production et la maintenance

La quatrième phase repose sur la mise en production proprement dite, réalisée principalement par les ML Engineers
et les Ops sous les yeux attentifs des Data Scientists. Elle inclut la validation IT de l’ensemble du package reçu depuis
les étapes précédentes, comprenant des tests avec des données réelles sur un environnement de préproduction
ou sur un environnement de développement.

Il s’agit ici d’une phase d’intégration en continu avec sauvegarde de toutes les étapes intermédiaires, qu’elles
concernent le code, les paramètres, les indicateurs ou les jeux de données du modèle. Cette phase gagne à être
automatisée, du moins partiellement, ce qui sera grandement facilité si les indicateurs à surveiller (par le monitoring)
ont soigneusement été définis et spécifiés en amont par les Data Scientists.

Si les tests de recette sont positifs, on peut alors passer à la phase de déploiement sur l’environnement de production
afin de passer complètement le modèle dans les « mains » des Ops. Inutile de dire que le monitoring doit fonctionner
suivant les « specs » prévues et que toute dérive doit être surveillée avec attention. Les Data Scientists doivent
rester dans la boucle, notamment lorsqu’on va mettre le modèle dans les mains des métiers. Étape qui ne manquera
pas de susciter des retours et qui donnera souvent lieu à une nouvelle itération pour que le livrable soit au plus
près des attentes métier. Si tous les feux sont au vert, et que le modèle donne pleine satisfaction aux métiers, alors
les équipe Data Science peuvent s’engager sur un autre modèle.

Dans les cas avancés, et si cela a bien été prévu au départ par les Data Scientists, la procédure de réentraînement du
modèle pourra être gérée en autonomie par les ML Engineers, voire de manière automatique ou semi-automatique
par les Ops. Dans ce dernier cas, le monitoring du modèle doit être suffisamment bien conçu au départ pour ne
pas prendre de risques inutiles. En cas de dérive des indicateurs après réentraînement, il faudra de toute façon
itérer avec des Data Scientists en phase 3, 2 ou même 1 en Concept Drift (typiquement, un schéma de fraude
totalement nouveau et détecté par les métiers à ajouter au modèle implique une nouvelle itération en phase 1).

36
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Une des particularités de cette méthode est son fonctionne dans les deux sens : il est possible à tout moment
de revenir à une étape antérieure si nécessaire. Une autre particularité est qu’elle prend en compte la conduite
du changement, la gestion de l’éthique et les risques tout au long du processus. Cette méthode se décompose
en quatre phases principales, lesquelles se décomposent chacune en quatre étapes.

BUSINESS
UNDERSTANDING
1
SPECIFICATION

2
ORGANIZATION

ARCHITECTURE AI STRATEGY
THINKING DATA CLEANING

DATA
EXPLORATION

3
DATA DATA
ENGINEERING AUGMENTATION

DATA
LABELLING
MODELLING

TRAIN & TEST DEVELOPMENT


& TEST

VALIDATION

INDUSTRALIZATION
FRAMING
4
INTEGRATE
INDUSTRIALISATION & TEST

DEPLOY
CI/CD
OPERATE
MONITORING

CONDUITE DU CHANGEMENT

ÉTHIQUE & RISQUES

37
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
La boîte à outils du MLOps
On le rappelle, le MLOps implique le plus souvent une plateforme
partagée entre Data Scientists et Data Engineers. Deux profils
différents, deux cultures différentes et par conséquent des
solutions elles aussi spécifiques. Chacune des deux parties
entend généralement travailler en priorité avec les outils
qu’elle maîtrise. Un outillage qui, aujourd’hui, tend à
progresser vers une plateforme unique complète
incluant des fonctionnalités d’industrialisation
et pas uniquement de développement
d’un modèle.

Des savoir-faire
spécifiques qui
convergent

« Choisir une plateforme d’IA pour une entreprise peut s’avérer une

expérience longue et douloureuse mais nécessaire. Maîtriser parfaitement

un langage associé à une plateforme d’IA prend des mois, voire des années.
Une fois qu’on en maîtrise une, on a tendance à ne plus vouloir en changer.

En parallèle, nous avons également vu les plateformes

se multiplier sur le marché.

Il y a moins de dix ans, SAS était encore totalement incontournable.

Aujourd’hui, on compte plus d’une quinzaine de plateformes. En cas de

difficulté à harmoniser les outils et les plateformes entre les différentes

parties prenantes, il ne faut pas hésiter à se faire accompagner »

Didier Gaultier, directeur Data Science & AI de Business & Decision.

38
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Les catégories d'outils MLOps
Les plateformes MLOps peuvent être réparties en quatre catégories principales :

Les outils « open source » ;


Les plateformes de type studio d’IA ;
Les plateformes propriétaires des hyperscalers ;
Les outils multicloud portables.

Une fois n’est pas coutume, il est impossible, et hors de propos, de dresser une liste exhaustive des outils
disponibles. Voici néanmoins quelques exemples ci-dessous.

PLATEFORMES PLATEFORMES PLATEFORMES


OPEN SOURCE IA DE TYPE STUDIO HYPERSCALERS MULTICLOUD
PORTABLES

Airflow Kubernetes Alteryx Amazon SageMaker (AWS) Databricks

Anaconda Les IDE Python Dataiku Google Vertex.ai (GCP) Snowflake.

CML MetaFlow DataRobot Microsoft Azure ML (Azure) HPE Ezmeral

Docker MLFlow KNIME Flexible Engine 5

GitHub MLReef SAS

GitLab MLRun

Kedro VS Code

Kubeflow ZenML

5
Plateforme cloud opérée par Orange Business Services

39
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Traditionnellement, seuls les Data Scientists produisaient les modèles et jouaient avec les données. Mais avec le
MLOps, tous les profils collaborent et doivent comprendre ce qui est fait et pourquoi. D’où l’intérêt de travailler
sur une plateforme commune, comme le souligne Pierre-Henri Mas, Lead Data Scientist Business & Decision :

« Aujourd’hui, il est possible de bâtir manuellement une plateforme


d’intelligence artificielle avec une machine virtuelle, un langage python
de bas niveau, et de mettre en œuvre une stratégie et des modèles « faits
à la main » avec un GitLab à côté. Cela suffit à produire une plateforme
IA intégrant les bonnes pratiques du MLOps.

Mais est-ce que c’est plus facile lorsqu’on est accompagné par des
plateformes IA avec des outils intégrés ? La réponse est oui car les
plateformes IA du marché peuvent tout faire, du développement, du
versioning de projet, de la mise
à disposition de modèles... Elles nous donnent les moyens de publier
facilement nos modèles et de suivre leur évolution »

Pierre-Henri Mas, Lead Data Scientist chez Orange Business Services.

40
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>

L'exemple du groupe MAIF


Yann Golhen,
Lead Data Scientist du groupe MAIF

« Nous laissons beaucoup de liberté à chacun. veillons à être le plus frugal possible en déployant le
En conséquence, nos squads évoluent avec des juste nécessaire.
fonctionnements différents, des exigences différentes, Il est à noter que les équipes ne sont pas unanimes sur
des cas d’usages et des outils différents… Nous un IDE qui conviendrait à tous. Donc nous avons choisi
essayons néanmoins de les fédérer pour obtenir une de ne rien imposer. Néanmoins, VS Code contente
maintenance simplifiée. Nous cherchons à trouver des la majorité des Data Scientists, donc nous veillons à
solutions qui répondent à 80 % des cas d’usages, mais faire en sorte que les plus avancés documentent bien
nos Data Scientists peuvent choisir les outils les plus cette partie. En revanche, notre feature store reste
adaptés. En termes de langage, Python s’est imposé à une notion encore assez floue. Certaines équipes
tous, et la DSI a retenu GitHub pour versionner nos l’utilisent pour essayer de versionner les datasets
codes. Pour nos pipelines d’entraînement de modèles, d’entraînement et de livrer un modèle associé à son
il y a un standard qui semble se dégager et satisfaire le contexte. Les équipes faisant du scoring l’utilisent pour
plus grand nombre : Kedro. Une de nos squads utilise faire en sorte que les informations sociétaires soient
également PySpark parce qu’elle manipule des données stockées au même endroit. Le feature store va donc
tabulaires et qu’elle a besoin de cette distribution. contenir les résultats du feature engineering, avec des
Parallèlement, nous avons des serveurs Python avec features brutes, évoluées ou labélisées. C’est un des
une distribution Anaconda. Une fois à l’échelle, nous composants clés du MLOps. »

41
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Le FinOps associé au MLOps
On part du principe que la plupart des projets MLOps seront opérés dans le cloud. Il est ici question de prendre
en compte le coût de du MLOps et de l’exploitation des modèles d’IA. Une mauvaise pratique, nous l'avons déjà
évoqué, consiste à négliger le feature engineering. Il en résulte alors un modèle lourd, complexe à entraîner,
qui implique une phase d'annotation et d’entraînement plus longue, et, par conséquent plus consommatrice
de ressources.

De même, qui dit modèle plus complexe, dit la profondeur des hyperparamètres des modèles ?
nécessairement modèle plus coûteux puisque, dans la Peut-on utiliser un algorithme plus simple et se passer
plupart des cas, le cloud est payé à l’usage. Une évaluation des réseaux de neurones ? Autant de questions qui ont
des coûts du modèle s’impose. Cette évaluation doit se bien entendu un impact direct sur le coût du modèle
faire à plusieurs niveaux, correspondant à plusieurs dans le cloud.
grandes étapes :
On gagnera alors à faire différentes hypothèses de
• La première, lors de l’élaboration du feature store : complexité et à les chiffrer pour les grandes phases
on doit se poser la question de savoir si cela vaut la citées plus haut. Ensuite, la décision sera prise en
peine de maintenir une feature. Ici, un monitoring fonction des moyens et des ressources accordés et du
des features réellement utilisées dans l’ensemble niveau de performances attendu.
des modèles peut prendre tout son sens. Il faut rappeler que la notion de sobriété ne s’applique
• La deuxième, lors de la conception, de la mise au pas qu’aux modèles mais aussi aux features. Quel
point et de l’entraînement du modèle jusqu’à coût représente la conservation d’une feature en
l’obtention d’un modèle qui fonctionne en production. streaming dans un pipeline et pour quel bénéfice ?
• La troisième, lors de la maintenance du modèle et Si la feature en question n’est finalement utilisée par
de ses différents réentrainements. aucun des modèles, il faut alors se poser la question de
la conserver ou pas.
Lors de la phase de modélisation, les principaux points
de vigilance portent sur :

• Le volume des features ;


• La complexité des modèles ;
• Le grid search sur les hyperparamètres ;
• Les ressources nécessaires en calcul pour
l’entraînement du modèle ;
• Et le nombre de cycles d’itération complets
comprenant un réentraînement du modèle.

Par exemple, est-il pertinent d’entraîner le modèle à


l’aide de tensors et/ou de GPU plutôt que d’utiliser
du CPU ? Ici, la complexité du modèle va jouer bien
évidemment un grand rôle.
De quelle profondeur de réseau de neurones a-t-on
réellement besoin ? Peut-on utiliser intelligemment
le transfert learning ? Comment limiter le nombre et

42
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
De la sobriété en MLOps
Le concept de sobriété a été lancé en 2019 à travers le plaidoyer de chercheurs de l’Allen Institute for AI en faveur
d’une IA « sobre » (ou green AI), c’est-à-dire une IA plus efficace, moins gourmande en données et en énergie, liée à
la puissance de calcul. Or, en favorisant l’industrialisation des IA, le MLOps participe à augmenter leur empreinte
carbone. C’est pourquoi les entreprises doivent dès aujourd’hui intégrer les principes de sobriété dans leurs
processus et déployer une IA vertueuse.

« L’IA implique d’énormes volumes de données. Or plus s’intéresse traditionnellement à la performance technique.
il y a de données, plus la complexité et la consommation Il doit dorénavant intégrer dans les critères de sélection la
énergétique sont importantes. C’est pourquoi il faut impé- performance métier, le temps de calcul, la consommation
rativement réussir à réaliser des modèles nécessitant moins d’énergie et le coût de revient du modèle par rapport aux
de données, rappelle Françoise Soulié-Fogelman, variables choisies. L’idée est de privilégier un modèle
Scientific Advisor chez Hub FranceIA : Dans avec des variables à faible coût ou avec moins
la sélection du modèle, le Data Scientist de variables. »
Intégrer le
Green AI
pour baisser
l'empreinte carbone
du MLOps

43
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Stop à l’utilisation systématique des réseaux de neurones

Voilà pourquoi développer une intelligence artificielle du deep learning car la donnée y est déjà extrêmement
verte est aujourd’hui la première préoccupation de Luc complexe et non structurée par nature. C’est le cas de
Julia, cocréateur de Siri, Chief Scientific Officer chez la reconnaissance d’images (computer vision), et parfois
Renault et auteur de « L’intelligence artificielle de la reconnaissance de la voix ou du langage
n’existe pas » (First Éditions, 2019). dit naturel.

Selon lui, la multiplication de Les réseaux


l’utilisation du deep learning, avec À l’inverse, la tendance à utiliser
toujours plus de CPU, de GPU et
de neurones, des réseaux de neurones partout,
de ressources, serait de nature à un recours trop sans se poser de questions et
« faire exploser la planète à long systématique & pas sans le moindre recul, pour des
terme ». La faute à un recours trop données beaucoup plus simples et
toujours efficace
systématique au deep learning dans essentiellement structurées, ce qui
les cas d’usage, là où des algorithmes représente la majorité des cas d’usage
plus simples seraient à la fois plus efficaces, en entreprise, est totalement injustifiée.
moins gourmands, plus explicables et aussi plus
traçables. Il est parfois plus rapide pour un Data Scientist de ne
pas traiter les données en amont (absence de recodage
Le deep learning est devenu selon lui une facilité de données et de feature engineering) et d’utiliser
trop utilisée par les Data Scientists, alors même qu’il ensuite un algorithme de type réseaux de neurones,
s’avère souvent un gouffre énergétique, peu efficace moins exigeant sur la qualité des données, que de
mathématiquement, lent et nécessitant des quantités recourir à des algorithmes plus simples. Une mauvaise
astronomiques de données pour être entraîné. pratique qui introduit de nombreuses complexités et
Certains cas d’usage justifient réellement l’utilisation des surcouts au-delà de son impact environnemental
négatif.

L’avis de l’expert
Michel Lutz,
Chief Data Officer et Head of Data Digital au sein
de la Digital Factory de TotalEnergies

Nos use cases visent majoritairement à diminuer les émissions CO2 de TotalEnergies
et à accompagner le développement de nos nouvelles activités dans le cadre
de la transition de la Compagnie vers l’électricité et les énergies renouvelables.
En complément des cas d’usage, on se pose également la question de la consommation
énergétique des applications que l’on développe.

44
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Comment développer une IA sobre et verte ?

1 I Recoder et travailler le plus possible les données en amont afin de les mettre en qualité, de les « augmenter »,
de les transformer en information, et ainsi de les préparer au mieux à leur exploitation par les algorithmes. Cela
vaut d’ailleurs aussi bien pour les données tabulaires que pour les données non structurées. Cela permet ensuite
d’utiliser des algorithmes plus simples, plus explicables, avec un bénéfice supplémentaire : les biais seront plus
facilement détectables et corrigeables.

2 I Éviter de centraliser à tout prix toutes les données, et promouvoir le plus possible le « Edge Computing », à savoir
hiérarchiser le traitement de l’information par couche : les équipements en local (IoT) peuvent déjà transformer
à leur niveau la donnée en information, et n’envoyer en central que de l’information déjà traitée. Nous seulement
cela limite la quantité de données transmises, mais aussi la quantité de traitements dans les datacenters. Un autre
bénéfice de cette décentralisation est qu’elle permet de distribuer les données et les traitements, réduisant ainsi
les risques de piratage. Mais il est à noter que ce mode n’est pas compatible avec tous les algorithmes, en particulier
les modes non supervisés (ACP, ACM, Clustering hiérarchique). De manière plus générale, la mise en place d’une
stratégie Data Mesh est également une très bonne piste à considérer.

3 I Enfin, lorsqu’on travaille on premise, faire la chasse aux processeurs trop énergivores. Apple a ouvert la voie
avec ses processeurs ARM (de la famille M1 et M2) qui, à puissance équivalente, consomment jusqu’à cinq fois
moins que leur équivalent chez Intel, soit jusqu’à 400 Watts de moins par PC. Rapporté au nombre d’ordinateurs
en service sur la planète, très supérieur à deux milliards, on obtient une économie théorique possible de l’ordre
du terra-Watt, soit l’équivalent, en ordre de grandeur, de mille réacteurs nucléaires. Au moment où vous lirez ces
lignes, Microsoft aura elle aussi d’ailleurs commencé à lancer des machines ARM similaires à Apple avec l’aide de
Qualcomm. L’optimisation des logiciels est également une piste importante, et ce sujet n’est pas sans lien avec le
DevOps et le MLOps.

Certaines entreprises ont déjà pris conscience de cette nécessité de penser en mode IA sobre, à l’image du groupe
MAIF qui a fait du « Green & Sustaianable AI » un de ses axes de progrès en 2022. Parmi les points identifiés pour
y parvenir : la partie inférence très émettrice de CO2.
Il s’agit de déployer un serveur d’inférence dédié avec une architecture Triton6, en vue de disposer d’une inférence
à la fois plus performante et plus sobre en termes de ressources. À noter que MAIF est la 2e entreprise à avoir
obtenu une reconnaissance officielle dans ce domaine.

6
Inference Server, est un logiciel de service d'inférence open source édité par NVIDIA qui aide à standardiser le déploiement et l'exécution des
modèles, et fournit une IA rapide et évolutive en production.

45
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Le grand témoin
Michel Lutz,
Chief Data Officer et Head of Data au sein de la Digital Factory

Nous avons lancé la Digital Factory en 2020 avec pour et des modèles de façon industrielle. Notre mission
objectif d’accélérer la transformation de la Compagnie consiste à délivrer un MVP 7 avec un niveau de maturité
et de mutualiser les moyens. Aujourd’hui, elle réunit 300 suffisant pour apporter de la valeur aux utilisateurs.
collaborateurs dont une quarantaine au sein de l’équipe Ensuite, une autre équipe prend la main pour ajouter
Data, experts Data Science, ML Engineering et Data de nouvelles fonctionnalités et le développer.
Management confondus. Le cœur de la Digital Factory
repose sur la polyvalence des profils scientifiques et Au-delà de la technique, l’un des principaux avantages
techniques. de cette démarche repose sur la confiance qu’elle
apporte dans l’adoption des modèles. C’est tout l’enjeu
Les experts de l’équipe Data ne se contentent pas de du MLOps : développer des modèles qui resteront
faire de la Data Science, ils emploient d’autres méthodes robustes dans le temps, c’est-à-dire compatibles avec
comme la recherche opérationnelle, maîtrisent les le monde réel et ses aléas. En ce sens, la démarche
bonnes pratiques de développement et travaillent avec MLOps est inhérente à la démarche IA de confiance
les autres métiers du développement logiciel : les Data que nous avons engagée à la Factory. Toujours dans
Engineers, les développeurs, les Product Owners… ce souci de développer des solutions pertinentes pour
dans la même squad. La Digital Factory n’est pas la seule nos utilisateurs, nous travaillons aussi avec les UX
équipe qui fait de la Data Science, mais notre valeur Designers en amont. Nous avons ainsi un studio de
ajoutée réside dans l’orientation développement de design intégré à notre Digital Factory. Le principal défi
logiciels et la mise en production. est alors de bien comprendre les besoins utilisateurs,
et de trouver une définition partagée et objective de
Le déploiement continu est la règle avec un objectif ce qu’est un modèle fonctionnel et facile à imbriquer
commun : passer en production sans couture. Pour dans le quotidien des utilisateurs.
y parvenir, nous nous appuyons sur les plateformes
technologiques mises à disposition par la DSI de Avec du recul, on se rend compte à quel point MLOps,
la Compagnie pour développer directement nos IA de confiance et consommation responsable des
applications. Disposer d’une plateforme technologique capacités de stockage et de calcul sont liés. Plus nous
performante commune est clé pour déployer auprès gagnons en maturité dans le domaine, plus nous
des utilisateurs, collecter leur feedback partout dans réalisons à quel point ces sujets convergent en vue de
la Compagnie, et industrialiser rapidement. Nous avons créer des solutions robustes au service des humains. »
ainsi déjà déployé plus de 300 modèles en production
depuis le lancement de la Digital Factory. 6
MVP : Minimum Valuable Product

En ce sens, notre 2 e cœur de compétences est


directement rattaché au MLOps : nos équipes sont
résolument orientées sur les bonnes pratiques de code,
mais aussi sur l’intégration des techniques de gestion
du cycle de vie des modèles et des mécanismes de
réentraînement, afin de développer des applications
fonctionnelles en production, et déployer des pipelines

46
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Conclusion
Comme aime à le rappeler Françoise Soulié-Fogelman : « Nous passons de l’ère de l’IA Far West, à une ère de
maturité. C’est ça, le MLOps. » Partant de ce constat, on peut affirmer sans trop de risques que le MLOps est
bien plus qu’une simple tendance. C’est la démarche qui permettra aux entreprises de franchir un cap et de
sortir de l’ère des PoC pour passer à la révolution que va générer l’industrialisation de l’intelligence artificielle.

Les décideurs en ont pleinement conscience : 90 % pensent ainsi que les technologies émergentes telles
que l’IA auront un impact dans les trois années à venir sur la transformation de leur entreprise iv. En France,
l’intelligence artificielle est même devenue une priorité pour le gouvernement avec un plan de 2,2 milliards
d’euros d’investissement pour faire de la France une championne de l’IA et booster la compétitivité des
entreprises. À l’échelle mondiale, le marché des solutions d’IA auprès des entreprises devrait ainsi franchir
v
la barre des 500 milliards de dollars en 2024 , avec une croissance annuelle de 15,2 % en 2021 et de 18,8 %
en 2022.

Toutefois, l’IA reste encore un monde opaque pour nombre d’entreprises, à commencer par les PME et les ETI,
faute de données, de moyens, de temps, de ressources humaines, d’outils, d’organisation, de bonnes pratiques
et surtout d’accompagnement. Car la mise à l’échelle de l’IA induit un changement culturel profond que seules
les entreprises les plus avancées ont déjà amorcé. Résultat, nombre de projets échouent avant même leur
mise en production.

C’est là que le MLOps change la donne, en guidant à travers toutes les étapes de la chaîne IA, tant au niveau
des processus de travail que de la gouvernance des projets… à condition d’embarquer toutes les équipes et
d’adopter les bons réflexes en amont. Une transformation qui implique une certaine prise de hauteur et peut
donc s’avérer difficile à réaliser en interne. L’accompagnement d’un expert permettra alors non seulement
d’apporter ce recul nécessaire au MLOps, mais aussi d’adapter la culture MLOps à celle l’entreprise. Une étape
complexe mais néanmoins indispensable pour favoriser le passage à une IA qui crée réellement de la valeur
pour toutes les parties prenantes.

47
GLOSSAIRE & SOURCES P.48-50
>>
SOMMAIRE

>>
Glossaire IA et MLOps
Agent : en intelligence artificielle, un agent intelligent (AI) est une entité, premiers ordinateurs. Un processeur construit en un seul circuit intégré est un
matérielle et/ou logicielle, avec un certain degré d’autonomie, capable de microprocesseur (extrait de Wikipédia).
percevoir son environnement (grâce à des capteurs) et aussi d'agir sur celui-
CRISP : initialement appelée CRISP-DM (Cross Reference Industry Standard
ci (via des actionneurs) afin de réaliser des objectifs. (Wikipédia).
Process for Data Mining) CRISP est une méthode initialement mise au point
Annotation ou étiquetage des données : en Anglais Data Labelling, la phase par IBM qui décrit une approche communément utilisée pour modéliser des
d’annotation ou d’étiquetage des données consiste à préparer les données problèmes métier grâce à la statistique, le machine learning et la science des
d’entraînement pour l’apprentissage supervisé. Cette phase essentiellement données. En pratique, la méthode CRISP est aujourd’hui souvent remplacée
manuelle, consiste à associer la réponse attendue de l’IA aux données par des méthodes de type MLOps, mais son principe de base reste valable.
d’entrées qui servent de jeu d’apprentissage. L’IA se base sur ces données
Data Analyst : ou analyste des données, est chargé de l’exploitation
pour apprendre, il est donc essentiel que cela soit fait avec soin et cohérence.
des informations recueillies par le biais de différents canaux (y compris
C’est une phase souvent couteuse et longue qui fait partie du Data
l’intelligence artificielle) afin de faciliter les prises de décision du
Engineering au même titre que le Feature Engineering.
management. Le Data Analyst est souvent un expert de la connaissance
Apprentissage profond : en Anglais deep learning, ensemble de méthodes des données métier. Il est fréquemment l’interlocuteur privilégié des Data
d'apprentissage automatiques tentant de modéliser avec un haut niveau Scientists pour le recueil des besoins et la compréhension fine des données.
d’abstraction des données non structurées grâce à des architectures Outre atlantique, il est parfois appelé « Citizen Data Scientist » (terme
articulées de transformations non linéaires (comme les réseaux de neurones difficile à traduire en Français). Il est amené à concevoir des tableaux de
artificiels ndlr). Ces techniques ont permis des progrès importants et rapides bord qui peuvent comprendre des traitements statistiques, mais pas de
dans les domaines de l'analyse du signal sonore ou visuel et notamment concevoir ou d'industrialiser des modèles d’IA ou de machine learning.
de la vision par ordinateur, de la reconnaissance vocale et du traitement
Data Architect : un architecte de données est un expert de l'architecture
automatisé du langage.
des données, une discipline de gestion des données qui englobe la
Apprentissage supervisé : en Anglais, supervised learning est une tâche conception, la création, le déploiement et la gestion de l'architecture
d'apprentissage automatique consistant à apprendre une fonction de des données d'une organisation. Les architectes de données définissent
prédiction à partir d'exemples annotés (Wikipédia). la manière dont les données seront stockées, consommées, intégrées et
gérées par différentes entités et systèmes informatiques, ainsi que toutes
Big Data : des données généralement non structurées de types Variés (vidéo,
les applications utilisant ou traitant ces données d'une manière ou d'une
audio, voix, texte libre), arrivant dans des Volumes importants et à une
autre. Beaucoup de Data Engineers experts deviennent ensuite des Data
Vitesse élevée, (comme un flux vidéo numérisé). C’est ce que l’on appelle la
Architects dans une évolution naturelle.
règle des trois « V ». Le Big Data est souvent utilisé pour alimenter des IA.
Data Drift : dans l'analyse prédictive et l'apprentissage automatique, « data
ChatBot : un ChatBot (aussi nommé agent conversationnel), est un agent
drift » indique que les propriétés statistiques d’un ou plusieurs prédicteurs,
logiciel qui dialogue avec un utilisateur. L’utilisateur est invité à formuler
c’est-à-dire les variables que le modèle utilise en entrée, changent au fil du
sa demande en langage naturel elle est affinée par un échange, basé
temps de manière imprévue. Cela pose des problèmes car les prédictions
principalement sur des questions et des réponses préprogrammées dans une
deviennent moins précises au fil du temps.
base de connaissance. Si l’échange est oral et non écrit, on parle alors aussi
de VoiceBot. Data Engineer : métier dédié à la construction et la maintenance
des pipelines de données pour alimenter les modèles d’IA, ainsi que
CD : la livraison continue, en Anglais Continuous Delivery ou CD, est une
l’industrialisation de ces mêmes pipelines et modèles. Cette discipline
approche d’ingénierie logicielle dans laquelle les équipes produisent des
englobe les technologies propres au Big Data, le DataOps et le MLOps. Le
logiciels en cycles courts. Le but est de construire, tester et diffuser un logiciel
Data engineer s’occupe de tout ce qui est en amont et en aval des modèles,
plus rapidement. La livraison continue est un des fondements de l’approche
depuis leur alimentation jusqu’à leur industrialisation.
MLOps. Il s’agit adopter une approche plus incrémentielle des modifications
en production. À terme, l'objectif est une réduction des coûts. Data Engineering : discipline consacrée à la construction et la
maintenance des systèmes de pipeline de données de l'organisation
CI/CD : en génie logiciel, CI/CD, en Anglais Continuous Integration /
(O’Reilly). Cette discipline englobe les technologies propres au Big Data,
Continuous Delivery parfois écrit CICD, est la combinaison des pratiques
le DataOps et le MLOps.
d'intégration continue et de livraison ou de déploiement continus. Le CI/
CD comble le fossé entre les activités et les équipes de développement et Dataiku : Dataiku, partenaire de Business & Decision, est une société
d'exploitation en imposant des normes d'automatisation de la création, d'origine française spécialisée dans la science des données. Son siège est
des tests et du déploiement des applications. Les pratiques modernes à New York et elle possède des bureaux à Paris, Londres, Amsterdam,
impliquent le développement continu, le test continu, l'intégration continue, Francfort, Sydney, Singapour, Denver et Los Angeles. Dataiku développe
le déploiement continu et la surveillance continue des applications logicielles une plateforme pour analyser la donnée et développer des méthodes
tout au long de leur cycle de vie. prédictives en environnement Big Data (Dataiku).
Citizen Data Scientist : voir Data Analyst. Plus généralement tout utilisateur Data Lake : un lac de données est une méthode de stockage de données
avancé des modèles d’IA et de machine learning conçus par les Data Scientists. massives utilisée par le big data (mégadonnées en Français). Ces données
sont gardées dans leurs formats originaux, peu transformées. Le lac
Concept Drift : sans l'analyse prédictive et l'apprentissage automatique, ce
de données donne la priorité au stockage rapide et volumineux de
terme indique que les propriétés statistiques de la variable cible, c’est-à-dire
données hétérogènes en adoptant une architecture en cluster. Il n'est
la variable métier que le modèle tente de prédire, changent au fil du temps de
généralement pas optimisé pour les requêtes SQL comme les SGBD
manière imprévue. Cela pose des problèmes car les prédictions deviennent
relationnels classiques contrairement au DataHub, ou les données sont
moins précises au fil du temps (Wikipédia). Un cas typique se produit dans
transformées, mises en qualité, vérifiées, triées et optimisées pour une
une application de détection de fraudes. Les fraudeurs potentiels s’adaptent
exploitation par les Data Scientists et les métiers.
et changent leur schéma de fraude régulièrement. Les caractéristiques de la
fraude changent, et l’IA nécessite alors à minima un réentraînement, et souvent DataOps : méthodologie orientée processus, utilisée par les équipes de
une nouvelle modélisation. DataEngineering, pour améliorer la qualité et réduire le temps de cycle
de l'analyse des données. Alors que DataOps a commencé comme un
CPU : un CPU, en Anglais Central Processing Unit, est un composant présent
ensemble de bonnes pratiques, c'est maintenant devenu une approche
notamment dans les ordinateurs et dans de nombreux dispositifs électroniques
nouvelle de DataEngineering.
qui exécute les instructions machine des programmes informatiques. Avec
la mémoire, c'est notamment l'une des fonctions qui existent depuis les

48
SOMMAIRE

>>
Data Science : la science des données est la discipline au sens large qui bogues, les demandes de fonctionnalités logicielles, la gestion des tâches,
permet l'extraction de connaissances à partir d’un ensemble de données l'intégration continue et les wikis pour chaque projet. Basée en Californie, Git
(Wikipédia). Elle est composée de plusieurs disciplines, qui sont : le Data Inc. est une filiale de Microsoft depuis 2018. (Wikipédia).
Engineering, la connaissance métier, la statistique, le machine learning et
GitLab : GitLab est une plate-forme de développement logiciel en source
l’intelligence artificielle (Business & Decision 2020).
ouverte de bout en bout basé sur Git (et concurrent de GitHub) avec contrôle
Data Scientist : métier qui consiste à comprendre les besoins métier et de version intégré, suivi des problèmes, révision du code, l’intégration
à trouver les solutions adaptées grâce à la conception et la réalisation de continue et la livraison continue.
modèles basés sur les statistiques, les mathématiques, le machine learning et
GPU : de l'Anglais Graphics Processing Unit, ou processeur graphique, est
l’intelligence artificielle.
une unité de calcul, pouvant être présent sous forme de circuit intégré (ou
DevOps : pratique technique visant à l'unification du développement logiciel puce) sur une carte graphique, sur une carte mère, ou encore intégré au
(Dev) et de l'administration des infrastructures informatiques (Ops), qui même circuit intégré que le microprocesseur qui assure les fonctions de
se caractérise principalement par la promotion de l'automation et du suivi calcul d'image et de vidéo. Un processeur graphique a généralement une
de toutes les étapes de la création d'un logiciel, depuis le développement, structure hautement parallèle qui le rend efficace pour une large palette de
l'intégration, les tests, la livraison jusqu'au déploiement, l'exploitation et la tâches graphiques comme le rendu 3D, la gestion de la mémoire vidéo, le
maintenance des infrastructures. traitement du signal vidéo, mais également le calcul matriciel et notamment
l’entraînement des réseaux de neurones artificiels (extrait de Wikipédia).
Les principes DevOps soutiennent des cycles de développement courts, une
augmentation de la fréquence des déploiements et des livraisons continues, IA : Intelligence Artificielle ou Intelligence Augmentée est la discipline
pour une meilleure atteinte des objectifs économiques de l'entreprise consacrée à la construction d’agents autonomes qui peuvent analyser et
(Wikipédia). prendre des décisions (Peter Norvig 2010). Branche de la Data Science
consacrée à la construction d’agents qui interagissent avec l’environnement,
Docker : outil en source ouverte qui peut empaqueter une application et ses
peuvent apprendre à partir de données initiales fournies et/ou de
dépendances dans un conteneur isolé, qui pourra être exécuté sur n'importe
données collectées lors des interactions pour réaliser des fonctions (y compris
quel serveur.
l’aide à la décision) dans un environnement déterminé, avec un certain degré
Il ne s'agit pas de virtualisation, mais de conteneurisation, une forme plus d’autonomie (Business & Decision 2020).
légère qui s'appuie sur certaines parties de la machine hôte pour son
IA factory : un département souvent transverse d’une organisation dont le
fonctionnement. Cette approche permet d'accroître la flexibilité et la
but est de concevoir, créer et maintenir les applications de l’IA à l’échelle pour
portabilité d’exécution d'une application, laquelle va pouvoir tourner de façon
cette organisation. Elle est généralement organisée autour d’une plateforme
fiable et prévisible sur une grande variété de machines hôtes, que ce soit sur la
technologique commune ainsi qu’une méthodologie MLOps et regroupe à
machine locale, un cloud privé ou public (Wikipédia).
minima plusieurs corps de compétences comme des représentants métier, des
Feature Engineering : dans le domaine de l’IA, le Feature Engineering consiste Data Architects, des Data Engineers, des Data Scientists, des ML Engineers,
à traiter des données brutes en vue de les utiliser comme données d'entrées et des Ops. Elle est parfois spécialisée en « tribus » par domaines métier ou
du machine learning. Elles doivent en effet présenter des caractéristiques spécialités.
compatibles aux types d’algorithmes utilisés dans les modèles d’IA. Cela
IAOps : terme dont la définition a évolué vers l’intelligence artificielle dédiée
concerne autant les données structurées que les données non structurées, et
aux opérations informatiques à ne pas confondre avec MLOps. C’est un « faux
autant les données d’entrées que les données d’entraînement des modèles.
ami » qui fait plutôt référence à l'utilisation d'outils analytiques, du Big Data, de
Le Feature Engineering consiste essentiellement en une transformation de
l'apprentissage automatique et d'autres technologies d'intelligence artificielle
la données en information exploitable par les algorithmes. Il comprend de
pour automatiser l'identification et la résolution de problèmes informatiques
nombreuses étapes comme la mise en qualité des données, leur recodage,
courants.
leur croisement, leur traitement par des algorithmes spécialisés comme des
typologies. Il consiste également à produire de la donnée augmentée qui KNIME : partenaire de Business & Decision, KNIME est une plateforme en
sera plus simple et plus efficace à exploiter par les algorithmes. De la même source ouverte d'analyse de données, de machine learning et d’intelligence
manière que les modèles, le Feature Engineering doit être industrialisé sous artificielle utilisant une interface graphique de haut niveau. Ce logiciel permet
forme de pipeline de données par le MLOps. Le FeatureEngineering alimente l'intégration « sans couture » de divers langages de programmation comme
en continu les données qui sont dans le Feature Store Python, R et java et leurs bibliothèques respectives. KNIME comprend
un ensemble d'outils pour l'apprentissage automatique et l'exploration de
Feature Store : précédemment appelé DataHub, il sert à gérer le
données par le biais d'une interface de workflow modulaire. Une interface
référencement, le stockage, la mise à jour et le partage des données utilisées
utilisateur graphique permet la construction de workflow par l'assemblage
par les modèles de machine learning et d’IA. Il est alimenté en continu par des
bout à bout de composants chacun réalisant une opération spécifique telle
pipeline de données. Les données y sont référencées, traitées et augmentées
que le formatage des données, la fonction ETL (Extraction, Transformation,
en continu par le des traitements mis au point lors du Feature Engineering.
Chargement), leur modélisation, l’analyse et la visualisation des résultats au
Le Feature Store centralise les variables et données appelées « features » et
sein de la même interface. KNIME est une plateforme modulaire et extensible,
permet de les partager aisément au service de plusieurs modèles de machine
ainsi un certain nombre de composants en source ouverte supplémentaires
learning.
sont mis à disposition par la communauté.
Git : logiciel de gestion de versions qui suit l'évolution des fichiers sources
Kubernetes : système en source ouverte qui vise à fournir une plate-forme
et garde les anciennes versions de chacun d'eux sans rien écraser. C’est le
permettant d'automatiser le déploiement, la montée en charge et la mise en
système de contrôle de version le plus largement utilisé aujourd'hui. Il s’agit
œuvre de conteneurs d'application sur des clusters de serveurs. Il fonctionne
d’un projet source ouverte activement maintenu. À l'origine, il a été développé
avec toute une série de technologies de conteneurisation, et est souvent
en 2005 par Linus Torvalds, le créateur du noyau du système d'exploitation
utilisé avec Docker. Il a été conçu à l'origine par Google (Wikipédia).
Linux. De plus en plus de projets logiciels reposent sur Git pour le contrôle de
version, y compris des projets commerciaux et en source ouverte.

GitHub : est une société de service d'hébergement internet pour le


développement de logiciels et le contrôle de version à l'aide de Git. Il fournit
le contrôle de version distribué de Git plus le contrôle d'accès, le suivi des

49
SOMMAIRE

>>
Machine learning : apprentissage automatique, apprentissage artificiel Scrum : méthode agile de gestion de projets informatiques privilégiant la
ou apprentissage statistique est un champ d'étude de la Data Science qui communication et facilitant les réorientations opportunes. C'est désormais
se fonde sur des approches mathématiques et statistiques pour donner la méthode privilégiée pour les démarches dites "agiles" de développement
aux ordinateurs la capacité d’apprendre à partir de données en utilisant logiciel.
des algorithmes. (Wikipédia).
Sprint : méthode agile de gestion de projets informatiques privilégiant la
ML Engineer : c’est un Data Engineer spécialisé dans l’industrialisation communication et facilitant les réorientations opportunes. C'est désormais
des modèles d’IA. Cette discipline est spécialisée dans des technologies la méthode privilégiée pour les démarches dites "agiles" de développement
propres au DataOps et MLOps. logiciel.
Le ML engineer s’occupe de tout ce qui est en aval des modèles.
Système Expert : outil tentant de reproduire les mécanismes cognitifs d'un
ML Flow : ML Flow est une bibliothèque en source ouverte qui gère le cycle de expert, dans un domaine particulier. Il s'agit de l'une des voies pour aboutir à
vie d'un projet d'IA, de l'expérimentation au déploiement. Son développement l’intelligence artificielle. Plus précisément, un système expert est un logiciel
a été Initié par Databricks, et soutenu par Microsoft. capable de répondre à des questions, en effectuant un calcul à partir de faits
et de règles connus. Il peut servir notamment comme outil d’aide à la décision
MLOps : un ensemble de bonnes pratiques, de méthodes, de ressources et
(Wikipédia).
de technologies combinant le machine learning, le DevOps, la Data Science
et le Data Engineering. La démarche vise à concevoir, à développer, à tester, TPU : de l’Anglais Tensor Processing Unit, ou unité de traitement de tenseur,
à déployer et à maintenir les systèmes de machine learning en production de est un circuit intégré spécialisé dans le calcul matriciel, appartenant à la
manière fiable et efficace avec une finalité : industrialiser l'IA et la maintenir en famille des GPU, pour une application développée spécifiquement par Google
fonctionnement à l'échelle de l'entreprise. pour accélérer les systèmes d'intelligence artificielle utilisant des réseaux de
neurones.
NLP (ou NLU) : Natural Language Processing (parfois Text Mining et à
tort Natural Language Understanding) est un domaine multidisciplinaire Transfert d’apprentissage : en Anglais Transfert Learning, est une
impliquant la linguistique, l'informatique et l'intelligence artificielle, qui technique qui permet d’utiliser une IA qui a été pré-entrainée dans un
vise à créer des outils de traitement de la langue naturelle pour diverses environnement voisin mais légèrement différent de celui de son utilisation
applications, notamment les ChatBots (Wikipédia). finale. L’apprentissage doit alors malgré tout être complété et terminé
dans l’environnement précis où l’IA va devoir opérer, mais cette phase est
Ops : le terme Ops désigne les Opérations dans le monde informatique. C'est-
néanmoins beaucoup moins longue et consommatrice d’énergie que la phase
à-dire la gestion de l'ensemble des processus et des services d'exploitation
d’entraînement initiale.
administrés par un service informatique au sein d'une organisation. Celles-
ci fonctionnent souvent comme un groupe de travail distinct au sein du Statistique : discipline scientifique qui étudie des phénomènes à travers
département informatique. la collecte de données, leur traitement, leur analyse, l'interprétation des
résultats et leur présentation afin de rendre ces données compréhensibles par
PoC : Proof of Concept une démonstration de faisabilité, ou une réalisation
tous. (Wikipédia). Branche de la Data Science, la statistique est généralement
ayant pour vocation de montrer la faisabilité d'un procédé ou d'une
considérée comme une base incontournable qui constitue, avec le machine
innovation.
learning, la « grammaire de l’IA ».
PoV : Proof of Value vise à vérifier que vos objectifs de création de valeur sont
atteignables (notamment grâce à l’IA) face à une problématique.

PuC : Proof of Use Case est un PoV qui vise à vérifier qu’un cas d’usage
particulier de l’IA est à la fois faisable dans un contexte métier et que ses
objectifs de création de valeur pour l’organisation sont atteignables.

Réseaux convolutifs : en apprentissage profond, un réseau de neurones


convolutifs ou réseau de neurones à convolution (en Anglais CNN pour
Convolutional Neural Networks) est un type de réseau de neurones artificiels
dans lequel le motif de connexion entre les neurones est inspiré par le cortex
visuel des animaux, et qui sert de base au deep learning.

Sources
I. Our Top Data and Analytics Predicts for 2019, Gartner, 2019
II. Selon le rapport de recherche ‘‘The Art of AI Maturity: Advancing from Practice to Performance’’, Accenture, 2022
III. Selon le rapport de recherche ‘‘The Art of AI Maturity: Advancing from Practice to Performance’’, Accenture, 2022
IV. Selon une étude de Teradata, 2022
V. D’après IDC, 2021

50
SOMMAIRE

>>
Remerciements
Ce livre blanc est réalisé sous la direction de Didier Gaultier,
Directeur Data Science & AI, avec :

Mickaël Allain, Expert Conseil – BU Conseil & Expertise

Safa Baghai, Communication Manager

Romain Bernard, Lead Data Scientist et Senior Manager Data Science

Michael Deheneffe, Directeur de la stratégie et de l’innovation

Aurélie Goncalves, Manager innovation & stratégie

Erwan Josse, Lead Data Scientist Business & Decision

Sandrine Le Seac’h, Directrice marketing

Mick Levy, Directeur de l’Innovation Business

Pierre-Henri Mas, Lead Data Scientist Business & Decision

Avec la participation de la Direction Générale de Business & Decision France

Nos remerciements particuliers pour leurs précieux témoignages et participations :

Philippe Ensarguet, CTO – Orange Business Services

Yann Golhen, Responsable de l’équipage Data Scientist – MAIF


Business & Decision - RCS B 384 518 114 - Crédits photos : Shutterstock

Luc Julia, Auteur de « L’intelligence artificielle n’existe pas » (First Éditions, 2019),
cocréateur de Siri, et Chief Scientific Officer – Renault

Michel Lutz, Chief Data Officer et Head of Data Digital au sein de la Digital Factory – TotalEnergies

Françoise Soulié-Fogelman, Scientific Advisor – Hub FranceIA

En collaboration avec :

L’agence Bespoke et Violaine Cherrier

Business & Decision


Cœur Défense A , 110 Esplanade Général de Gaulle, 92931 Paris La Défense Cedex
www.businessdecision.com
blog.businessdecision.com

51

Vous aimerez peut-être aussi