Vous êtes sur la page 1sur 61

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.

Visitez www.DeepL.com/pro pour en savoir plus.

Module 2 : Organiser
les projets de
ML
87%
des projets de ML
échouent*
*VentureBeat, 2019
Objectifs du module 2 :
À l'issue de ce module, vous devriez être
en mesure de.. :

1) Organiser des projets en utilisant le


processus de science des données CRISP-
DM
2) Structurer une équipe de projet de ML et
définir les rôles
3) Organiser le travail de l'équipe de
projet en utilisant les meilleures
pratiques et suivre les progrès.
Projets ML vs. projets
logiciels
ML vs. projets logiciels
• Par rapport aux projets logiciels
normaux, les projets de ML :
– Nécessité d'un ensemble plus large de compétences / d'une équipe
– présentent un risque technique plus élevé
– sont plus difficiles à planifier et à estimer
– sont plus difficiles à faire progresser
– Nécessité d'un soutien continu plus important
Défis des projets de ML
• Probabiliste plutôt que déterministe
– Comment définir l'expression "suffisamment bon" ?
– L'art de la maquette
– Variance des résultats du modèle

• Risque technique plus élevé


– Besoins en données et qualité des données
– Limites du modèle
Défis des projets de ML
• Beaucoup plus de travail en amont
– Corriger les problèmes de données
– Identifier les caractéristiques

• Nécessite souvent une gestion du changement


– Ce n'est pas un simple outil - il modifie le
flux de travail de l'utilisateur
– Instaurer la confiance dans le modèle
Processus de science
des données
CRISP-DM
Pourquoi un processus ?
• Prévenir la tendance à passer
directement aux solutions / à la
modélisation

• Éviter de perdre du temps et de l'argent en


travaillant sur un problème mal défini

• Assurer la discipline en faisant les bonnes


choses, afin de

• Organiser le travail et les


responsabilités de l'équipe
CRISP-DM
• Développé en 1996 par un
consortium européen
d'entreprises

• Développé comme une approche flexible


et indépendante de l'industrie pour les
projets d'exploration de données

• Il s'agit toujours de la méthodologie la


plus utilisée pour les projets de
science des données.
• Parmi les grandes entreprises championnes, citons IBM
Processus CRISP-DM
1) Compréh 2) Compré
ension des hension des
Comment affaires données
aires des
clients

3) Prépar
6)
ation des
Déploiement
données

5) Évaluation4 ) Modélisation
1) Compréhension des affaires
1.1 Définir le problème 1.2 Définir la réussite 1.3 Identifier les facteurs

• Utilisateur cible • Quantifier l'impact • Rassembler


• Rédiger l'énoncé commercial attendu l'expertise du
du problème • Identifier les contraintes domaine

• Pourquoi c'est important • Traduire l'impact en • Identifier les


mesures - mesures facteurs
• Comment le problème potentiellement
est-il résolu aujourd'hui ? des résultats et des
extrants pertinents
• Lacunes dans l'état
actuel • Définir des objectifs
de réussite pour les
mesures
2) Compréhension des données
2.1 Collecte de 2.2 Valider les données 2.3 Explorer les
données données
• Identifier les sources • Données relatives au • Analyse statistique et
de données pour contrôle de la qualité visualisation
chaque facteur • Résoudre les • Réduction de
• Données d'étiquetage problèmes de la
• Créer des données - dimensionnalit
fonctionnalités manquantes, é
erronées, aberrantes • Identifier les
relations et les
modèles
3) Préparation des données
3.1 Données 3.2 3.3 Préparer la
fractionnées Déterminer modélisation
l'ensemble
des
caractéristiqu
es
• Séparer les • Ingénierie • Encodage des
données pour la des caractéristiques
formation et le fonctionnali catégorielles
test tés • Mise à
• Sélection des l'échelle/standardisation
caractéristiques des données
• Résoudre le déséquilibre
des classes
4) Modélisation
4.1 Sélection du modèle 4.2 Mise au point du modèle

• Évaluer les algorithmes par • Optimisation des


validation croisée hyperparamètres
• Documentation et • Documentation et
versionnement versionnement
• Réentraînement du modèle
5) L'évaluation
5.1 Évaluer les résultats 5.2 Solution d'essai

• Notation du modèle sur • Tests d'unité et d'intégration du


l'ensemble de test logiciel
• Interprétation des • Tests de modèles - tests
résultats et des unitaires, attentes
performances du modèle directionnelles
• Tests utilisateurs
6) Déploiement
6.1 Déploiement 6.2 Contrôle

• Cadre de l'API • Contrôle des


• Intégration des produits performances du
modèle
• Mise à l'échelle de
l'infrastructure • Recyclage du modèle

• Sécurité
• Processus de
déploiement des
logiciels
CRISP-DM : réflexions finales
• Le travail en science des données est itératif et non linéaire

• Chaque étape est itérative, tout


comme l'ensemble du processus.

• Vous pouvez adapter les étapes en


fonction de votre projet.

• Sauter une étape peut être très dangereux !


Étude de cas CRISP-DM
OUTIL DE PRÉVISION
DES PANNES DE
COURANT POUR LES
COMPAGNIES
D'ÉLECTRICITÉ
Processus CRISP-DM
1) 2)
Compréhensio Compréhensio
Comment n du monde n des données
aires des
clients
des affaires

3)
6)
Préparation
Déploiement
des
données

5) 4)
Évaluation Modélisatio
n
1) Compréhension du monde
des affaires
Définir le problème

Utilisa Service public d'électricité Directeur


teur des opérations
cible
Nécessité de décider 2 à 3 jours à
Problèm l'avance du nombre d'équipes à appeler
e pour réparer les dégâts prévus par la
tempête

Pourq S'ils en appellent trop, ils gaspillent


uoi beaucoup d'argent. S'ils en appellent trop
peu, les clients sont mécontents
c'est
import
État Ils s'appuient sur les prévisions
ant
actuel météorologiques et sur leur propre
1) Compréhension du monde
intuition pour faire des estimations

des affaires
éclairées.
1) Compréhension du monde
des affaires
Définir la réussite

Impact Améliorer les délais de restauration


attendu et minimiser les coûts inutiles

Résultat : Réduction du temps moyen de


Métriq restauration
ues Résultat : EQM des prédictions globales

Résultat : Réduction du temps moyen de


Objectifs restauration de X minutes
Sortie : MSE < XX

Les prévisions doivent être fournies >48 heures à l'avance.


Contraintes avant le début de la
tempête
1) Compréhension du monde
des affaires
Identifier les facteurs

• Météo
– Vent, rafales, précipitations, glace, etc.

• Densité
– Localisation/concentration des actifs
• Arbres
– Proximité de lignes électriques
– Saisonnalité
2) Compréhension des
données
Données de source

• Sources :
– Météo : Fournisseurs de services météorologiques
– Arbres : Vendeurs d'images satellite
– Densité : Clients des services publics
– Historique des pannes (objectif) : Clients des services publics
• Considérations :
– Combien de données ?
– Sensibilité
– Coût
2) Compréhension des
données
Valider les données

• Données manquantes significatives


• Cartographier des sources
disparates à une résolution
géospatiale commune
• Tempêtes exceptionnelles - pannes majeures
3) Préparation des données
Définir les caractéristiques

• Nombreuses caractéristiques possibles


– Paramètres météorologiques, échelles de temps

• Interactions entre les caractéristiques


• Caractéristiques manquantes éventuelles
4) Modélisation
Sélection du modèle

• Équilibre entre performance et interprétabilité


• Modèle unique ou modèles sur mesure
5) L'évaluation
Évaluer les résultats / les essais

• Performance sur le(s) jeu(x) de tests


• Tests auprès des clients - données réelles
• Débogage - problèmes de données
6) Déploiement
Déployer

• Visualisation de l'intégration des produits


• Gestion du changement pour les clients
Moniteur

• Performances et résultats du modèle


• Plan de reconversion
Organisation de l'équipe
Équipe de projet
• Il n'y a pas de "bonne" ou de
"mauvaise" façon de structurer une
équipe.
– Certaines équipes sont plus
grandes, d'autres plus petites
– Certains sont directement alignés,
d'autres sont matriciels
– Les titres varient d'une organisation
à l'autre
• L'important est de définir les
responsabilités
Rôles typiques de l'équipe
Certains rôles peuvent avoir plus d'une personne, ou certaines personnes peuvent avoir plus d'un
rôle.

Vente

Chef de projet Équipe de Soutien


projet
au

marketing

Produit Science des Ingénierie QA


données
DevOps
Proprié Chef de Scienti Ingéni Ingénieu ML
taire produit fique eur de r logiciel Ingénieur
de des données
produit donnée
s
Data Scientist vs. ML Engineer
Scientifique des données

• Formation en statistique /
science des données, plus des
compétences en
programmation et une
expertise dans le domaine.
• Recueillir, traiter et tirer
des enseignements des
données
• Détermination de l'approche ML
Data Scientist vs. ML Engineer
et prototypage
Data Scientist vs. ML Engineer
Ingénieur ML / MLOps

• Formation en informatique ou en
ingénierie et formation en ML
• Développer des pipelines
de données de
production et des
systèmes de ML
• Travailler avec l'ingénierie
logicielle et DevOps sur
l'intégration et le déploiement
Data Scientist vs. ML Engineer
des modèles.
Implication dans le cycle du
projet
Cycle de vie du projet
Initiation Prototypage Déploiement

Product Owner, Product Manager

Ingénieur de données

Scientifique des données


Ingénieur ML, Ingénieur logiciel
Sponsor du projet
• La présence d'un champion de
l'entreprise est un facteur clé de
succès pour les projets d'IA
• Le champion de l'entreprise s'assure
des ressources et de l'alignement du
projet sur la stratégie de l'entreprise.
• Particulièrement important en
raison de l'incertitude et du risque
technique plus élevés - protège
l'équipe des pressions
commerciales
Organiser le projet
Approche agile du
ML
• Séquence d'expériences itératives
– Explorer une hypothèse
– Le construire en utilisant chaque fois plus de CRISP-DM
– Observez-la en action, obtenez un retour d'information
– Analyser les résultats et répéter
Approche agile du
ML
Itération Ce qu'il faut faire Les étapes du CRISP-DM

1 Maquette de la solution Compréhension des affaires


potentielle
Approche agile du
ML
Itération Ce qu'il faut faire Les étapes du CRISP-DM

1 Maquette de la solution Compréhension des affaires


potentielle
2 Petit sous-ensemble de Compréhension des affaires,
données historiques et modèle Compréhension des données
fictif
Approche agile du
ML
Itération Ce qu'il faut faire Les étapes du CRISP-DM

1 Maquette de la solution Compréhension des affaires


potentielle
2 Petit sous-ensemble de Compréhension des affaires,
données historiques et modèle Compréhension des données
fictif
3 Données réelles, heuristique Compréhension des affaires,
comme modèle Compréhension des données,
Traitement des données
Approche agile du
ML
Itération Ce qu'il faut faire Les étapes du CRISP-DM

1 Maquette de la solution Compréhension des affaires


potentielle
2 Petit sous-ensemble de Compréhension des affaires,
données historiques et modèle Compréhension des données
fictif
3 Données réelles, heuristique Compréhension des affaires,
comme modèle Compréhension des données,
Traitement des données
4 Données réelles, modèle ML Compréhension des affaires,
simple Compréhension des données,
Traitement des données,
Modélisation
Approche agile du
ML
... ... ...
Collaboration - cadence
• Séances mensuelles/trimestrielles sur la feuille de route
– S'aligner sur les priorités

• Planification et revues de sprint


– Planification bihebdomadaire du travail

• Stand-up quotidiens
– Pas seulement pour les développeurs de logiciels - DoD, NWS

• Séances de démonstration régulières


– Visualiser les progrès, obtenir des commentaires
Collaboration - outils
• Feuille de route et exigences
– Confluence, Google Docs

• Suivi des projets


– Histoires d'utilisateurs, planification des sprints, suivi
– Jira, Trello

• Collaboration / contrôle des versions


– Git/GitHub

Atlassian, 2019. https://www.atlassian.com/software/jira


Mesurer la performance
Métriqu
es Mesures des résultats
• Se réfère à l'impact commercial
souhaité sur votre organisation
ou pour votre client.
• Exprimé en termes d'impact
attendu (qui est souvent de
l'ordre de $)
• Ne contient PAS
d'indicateurs de performance
du modèle ou d'autres
indicateurs techniques.
Métriqu
es Paramètres de sortie
• Se réfère à la sortie
souhaitée du modèle
• Mesuré en termes de
performance du modèle
• Généralement non
communiqué au client
• Fixer ce point APRÈS
avoir défini le résultat
souhaité
Suivi des progrès réalisés en
matière d'indicateurs
• Validation et test du
Param modèle
ètres • Peut nécessiter des
de données d'entrée de
sortie la part du client

• Test de scénario rétrospectif


Mesures
• Tests A/B
des
résultat • Bêta-test
Considérations relatives à
l'inexécution
• Explicabilité / interprétabilité
– Il est plus facile de déboguer les problèmes et d'identifier les biais.
– Tolérance aux pannes ou intolérance aux pannes

• Données et coûts de calcul


– Coût de l'approvisionnement et du stockage des données
– Calculer les besoins pour l'entraînement et l'inférence
Synthèse
Synthèse
• Les projets de ML diffèrent
considérablement des projets de
logiciels
• Le processus est essentiel pour
s'assurer que les bonnes choses
sont faites dans le bon ordre.
• Le processus n'implique PAS un travail
linéaire - le ML est hautement itératif.

Vous aimerez peut-être aussi