Chapitre 4 5 6 - Data Management Avec Un Data Lab Amener Les Travaux Du Data Lab en Production (1)

4 Data Management avec un Data Lab
4.1 Problèmes de gestion des données
Les problèmes les plus courants rencontrés par les entreprises concernant la gestion des Big data
comprennent:
le manque d'investissements informatiques tels que l'achat d'outils analytiques modernes pour gérer
des données et des analyses plus volumineuses avec une meilleure efficacité.
incapable d'analyser les big data en raison de sa complexité qui amène les entreprises à plus de
confusion
le manque d'analystes de données et d'autres professionnels de l'informatique pour aider à
interpréter les données
incapable d' intégrer les big data dans les analyses et de les appliquer pour une meilleure
optimisation des stratégies de l'entreprise
4.2 Qu’est-ce qu’un Data Lab ?
Comme son nom l’indique, le Data Lab est un véritable laboratoire de la donnée. Pourquoi ? Car c’est un
espace exclusivement dédié à l’expérimentation et à la qualification « fonctionnelle » des différentes
données de l’entreprise. En effet, il permet d’explorer ses jeux de données, de les traiter, mais aussi de
mettre à l’épreuve des algorithmes de Machine Learning.
Pour l’imaginer, le Data Lab est semblable à une startup, agile et en constante évolution, mais qui prendrait
place au sein même de l’entreprise. Il permet ainsi de devenir davantage data centric, sans pour autant
chambouler toute l’organisation d’une entreprise.
4.3 Les enjeux d’un Data Lab
Pour mettre en production un projet de Data Science ou d’intelligence artificielle, l’ingrédient clé est une
vision stratégique claire, partagée et soutenue par l’ensemble de l’entreprise. Si cela paraît évident c’est
pourtant, ce qui fait défaut dans la majorité des cas. Voilà pour la théorie mais dans la pratique, de quoi a-
t-on besoin ? D’un Data Lab.
Sa création est essentielle à la réussite d’un tel projet. L’enjeu même d’une telle structure est de tirer profit
de ses données, de les transformer en valeur ajoutée. Pour cela, le Data Lab permet de définir les cas
d’usage les plus adaptés à l’entreprise, qu’il s’agisse de réduction de taux d’attrition ou de détection de
fraudes.
4.4 Comment mettre en place un Data Lab ?

Pour mettre en place un Data Lab, il faut tout d’abord avoir défini ses objectifs au préalable. En effet, sans
alignement de l’ensemble de l’entreprise, le projet aura moins de chance d’atteindre la mise en production.
Après avoir identifié les ressources nécessaires, la mise en place d’une équipe est ensuite primordiale, et ce
n’est pas une mince affaire. Il faudra alors privilégier les profils techniques experts dans leur domaine
(l’administrateur système, le Data Architect, le Data Scientist, le Data Engineer et le Data Analyst) auquel
s’ajoutent le Product Owner qui apportera la vision sur le produit et les profils métiers qui apporteront leur
connaissance sur les problématiques business.
L'Administrateur Système, qui permettra la mise en place de l'infrastructure IT.
Le Data Architect qui met en place les choix d’architecture du Data Lab.
Le Data Scientist qui va être en charge de la conception des algorithmes et modèles analytiques et
prédictifs.
Le Data Engineer qui assure la mise en place des différentes séquences de traitement de la donnée
(on parlera de pipeline de données) jusqu'à leur mise en production.
Les Experts Métiers qui auront un oeil avisé sur les données dont ils auront besoin avec une
connaissance des problématiques business, ils doivent être impliqués dès le début du projet et être
des sponsors de ce dernier et de votre Data Lab !
Le Product Owner qui aidera les Experts Métier à formaliser leurs besoins et supervisera le
développement du produit (ou de la solution) intégrant les modèles analytiques.

Le Business / Data Analyst qui permettra de mettre sous forme de tableaux de bord et graphiques les
résultats concluant des POCs et des projets en production.
4.5 Différents typologies en fonction du pourcentage des rôles
4.5.1 IT-centrique
Parfois, l'embauche de scientifiques des données n'est pas une option, et vous devez tirer parti des talents
qui sont déjà en interne. Le principal rôle de l'analytique et du leadership serait un «traducteur
commercial», généralement appelé chef de l'analyse (CAO) ou chef des données (CDO). Ce dernier terme
devient progressivement redondant à mesure que la plupart des processus de données sont remodelés
vers l'analyse prédictive. Cette personne doit être capable de diriger l'initiative. Nous examinerons plus en
détail la position ci-dessous.
Tout le reste - préparation des données, modèles de formation, création d'interfaces utilisateur et
déploiement de modèles au sein d'une infrastructure informatique d'entreprise - peut être largement géré
par le service informatique (si votre organisation dispose déjà d'un service informatique interne
pleinement fonctionnel). Cette approche est assez limitée, mais elle peut être réalisée en utilisant des
solutions MLaaS(Machine learning as a Service). Des environnements comme Azure Machine Learning ou
Amazon Machine Learning sont déjà équipés d'interfaces utilisateur accessibles pour nettoyer les
ensembles de données, former des modèles, les évaluer et déployer.
Azure Machine Learning, par exemple, prend en charge ses utilisateurs avec une documentation détaillée
pour un seuil d'entrée bas. Cela permet une formation rapide et un déploiement précoce des modèles
même sans un expert en données à bord.
En revanche, les solutions MLaaS présentent leurs limites en termes de méthodes d'apprentissage machine
et de coût. Toutes les opérations, du nettoyage des données à l'évaluation du modèle, ont leurs prix
distincts. Et étant donné que le nombre d'itérations pour former un modèle efficace ne peut pas être
estimé à l'avance, travailler avec les plateformes MLaaS entraîne une certaine incertitude budgétaire.
Avantage du IT-centrique:
L'infrastructure informatique est fournie et maintenue par un service externe - data analytiques plate-
forme externe comme AWS
Des spécialistes internes peuvent être formés pour exploiter davantage le potentiel d'analyse
prédictive
La gestion inter-silos est réduite car toutes les opérations se déroulent au sein du service
informatique
Moins de temps de mise sur le marché pour des tâches d'apprentissage automatique relativement
simples nécessitant seulement un ou plusieurs modèles
Inconvénient du IT-centrique:
Méthodes d'apprentissage machine et procédures de nettoyage des données sont limitées par la
capacité fournie.
Le model training, les tests et la prédiction doivent être payés par nombres d'utilisation et la quantité
de données. Cela entraîne une incertitude quant au coût éventuel par prévision, car le nombre
d'itérations nécessaires ne peut pas être estimé à l'avance.
4.5.2 Structure intégrée
Grâce à la structure intégrée, une équipe de science des données se concentre sur la préparation des
ensembles de données et la formation sur les modèles, tandis que les spécialistes informatiques prennent
en charge les interfaces et l'infrastructure permettant aux data scientists de déployer les modèles.
Combiner l'expertise de l'apprentissage automatique avec les ressources informatiques est l'option la plus
viable pour des opérations d'apprentissage automatique constantes et évolutives.
Contrairement à l'approche IT-centrique, la méthode intégrée nécessite d'avoir un data scientist

expérimenté dans une équipe et un effort de recrutement élaboré au préalable. Cela garantit une
meilleure flexibilité opérationnelle en termes de techniques disponibles. Outre des services de bout en
bout et pourtant limités, vous pouvez tirer parti d'outils et de bibliothèques d'apprentissage machine plus
approfondis - comme Tensor Flow ou Theano - qui sont conçus pour les chercheurs et les experts ayant
une formation en science des données. Avec cette répartition des efforts, vous pouvez résoudre des
problèmes commerciaux très spécifiques et choisir entre des solutions ML en tant que service et
personnalisées.
Avantage du modèle structure intégrée:
Les scientifiques des données se concentrent sur l'innovation
Exploiter pleinement le potentiel des applications ML en tant que service et personnalisées
Commencez avec un ou deux spécialistes des données, puis formez et embarquez plus d'experts
locaux
Utilisation de combinaisons de modèles personnalisés (modèles d'ensemble) qui produisent de
meilleures prévisions
Inconvénient du modèle structure intégrée:
Une infrastructure informatique est requise en cas d'utilisation de ML personnalisé
La gestion de silos croisés demande des efforts considérables
Investissements importants dans l'acquisition de talents en data science
Défis de l'engagement et de la rétention des talents en data science
4.5.3 Département spécialisé en Data science
Pour réduire les efforts de gestion et créer un cadre de machine learning complet, vous pouvez exécuter
l'intégralité du flux de travail de machine learning au sein d'un service indépendant de data science. Cette
approche entraîne le coût le plus élevé. Toutes les opérations, du nettoyage des données et de la formation
des modèles à la création d'interfaces frontales, sont réalisées par une équipe dédiée de science des
données. Cela ne signifie pas nécessairement que tous les membres de l'équipe doivent avoir une
formation en science des données, mais ils doivent acquérir des compétences en infrastructure
technologique et en gestion de services.
Un modèle spécialisé aide à traiter des tâches complexes de science des données qui incluent la recherche,
l'utilisation de plusieurs modèles de ML adaptés à divers aspects de la prise de décision ou de multiples
services soutenus par le ML. Dans le cas des grandes organisations, des équipes spécialisées en data
science peuvent compléter différentes unités commerciales et opérer dans leurs domaines spécifiques
d'intérêt analytique.
La plupart des entreprises innovantes axées sur l'IA ont des équipes spécialisées en science des données.
De toute évidence, étant conçus sur mesure et câblés pour des tâches spécifiques, ils sont tous très
différents. La structure de l'équipe d'Airbnb Data Science est l'une des plus intéressantes.
“
Ressources de lecture:
https://www.youtube.com/watch?v=6QVXPNrSbLU
https://medium.com/airbnb-engineering/at-airbnb-data-science-belongs-everywhere-917250c6beba
Expérience. Trouvez des moyens d'intégrer des données dans de nouveaux projets en utilisant un
processus d'apprentissage-planification-test-mesure établi.
Démocratisez les données. Adaptez votre équipe de science des données à l'ensemble de l'entreprise
et même aux clients.
Mesurez l'impact. Évaluez la part des équipes DS dans votre processus décisionnel et donnez-leur du
crédit.
Avantage du modèle spécialisé:
Gestion centralisée de la science des données et capacités accrues de résolution de problèmes
Réaliserle plein potentiel des applications ML en tant que service et personnalisées
Résoudre des problèmes de prédiction complexes qui nécessitent une recherche approfondie ou la
construction d'usines de modèles segmentés (qui fonctionnent automatiquement sur différents
segments et unités commerciales)
Mise en place d'un terrain de jeu de science des données complet pour favoriser l'innovation
Meilleure scalabilité
Inconvénient du modèle spécialisé:
Construire et maintenir une infrastructure informatique complexe
Investissements importants dans l'acquisition de talents en science des données
Défis de l'engagement et de la rétention des talents en science des données

Quelle que soit la structure que vous choisissez pour commencer à constituer des équipes de science des
données, il est essentiel d'avoir le bon talent.
4.5.4 Compétence requise par rôle:
1. Data scientist:
Les scientifiques des données sont des personnes possédant une combinaison de compétences en codage
et en statistiques qui travaillent à rendre les données utiles de diverses manières. Il y a principalement
deux types de data scientists:
Data scientist du type A:
Ce type vise principalement à donner un sens aux données ou à les utiliser d'une manière assez statique.
Un Data Scientist du type A est très similaire à un statisticien (et peut en être un) mais connaît tous les
détails pratiques du travail avec des données qui ne sont pas enseignées dans le programme de
statistiques: nettoyage des données, méthodes pour traiter des ensembles de données très volumineux,
visualisation, profonde connaissance d'un domaine particulier, bonne rédaction des données, etc.
Data scientist du type B:

Le scientifique des données de type B s'intéresse principalement à l'utilisation des données "en
production". Ils construisent des modèles qui interagissent avec les utilisateurs, servant souvent des
recommandations (produits, personnes que vous connaissez peut-être, annonces, films, résultats de
recherche). Ces gens utilisent des données dans la production.
En résumé, un data scientist est une personne qui résout les tâches métier à l'aide des techniques
d'apprentissage automatique et d'exploration de données. Si cela est trop flou, le rôle peut être limité à la
préparation et au nettoyage des données avec une formation et une évaluation plus poussées du modèle.
Compétences préférées: R, SAS, Python, Matlab, SQL, noSQL, Hive, Pig, Hadoop, Spark
2. Chief Analytics Officer/Chief Data Officer
CAO, un «traducteur commercial», comble le fossé entre la science des données et l'expertise du domaine
agissant à la fois comme un visionnaire et un responsable technique.
Compétences préférées: Data science et analytiques, compétences en programmation, expertise dans le

domaine, leadership et capacités visionnaires
3. Data analyst
Le rôle d'analyste de données implique des activités appropriées de collecte et d'interprétation des
données. Un analyste s'assure que les données collectées sont pertinentes et exhaustives tout en
interprétant également les résultats de l'analyse. Certaines entreprises, comme IBM ou HP, exigent
également que les analystes de données possèdent des compétences en visualisation pour convertir des
nombres aliénants en informations tangibles par le biais de graphiques.
Compétences préférées: R, Python, JavaScript, C/C++, SQL
4. Business analyst
Un business analyst réalise essentiellement les fonctions d'un CAO mais au niveau opérationnel. Cela
implique de convertir les attentes des entreprises en analyse de données. Si votre spécialiste des données
de base manque d'expertise dans le domaine, un analyste d'entreprise comble ce gouffre.
Compétences préférées: data visualization, business intelligence, SQL
5. Data architect
Ce rôle est essentiel pour travailler avec de grandes quantités de données (vous l'avez deviné, Big Data).
Cependant, si vous ne comptez pas uniquement sur les plates-formes cloud MLaaS, ce rôle est essentiel
pour stocker les données, définir l'architecture de la base de données, centraliser les données et garantir
l'intégrité entre les différentes sources. Pour les grands systèmes distribués et les grands ensembles de
données, l'architecte est également en charge des performances.
Compétences préférées: SQL, noSQL, XML, Hive, Pig, Hadoop, Spark
6. Data engineer
Les ingénieurs mettent en œuvre, testent et entretiennent les composants d'infrastructure conçus par les
architectes de données. De façon réaliste, le rôle d'un ingénieur et le rôle d'un architecte peuvent être
combinés en une seule personne. L'ensemble des compétences est très proche.
Compétences préférées: SQL, noSQL, Hive, Pig, Matlab, SAS, Python, Java, Ruby, C++, Perl
7. Application/data visualization engineer
Fondamentalement, ce rôle n'est nécessaire que pour un modèle spécialisé de science des données. Dans
d'autres cas, les ingénieurs logiciels proviennent d'unités informatiques pour fournir des résultats de
science des données aux applications auxquelles les utilisateurs finaux sont confrontés. Et il est très
probable qu'un ingénieur d'application ou d'autres développeurs d'unités frontales supervisent la
visualisation des données de l'utilisateur final.
Compétences préférées: programming, JavaScript (for visualization), SQL, noSQL
4.6 Comment outiller le Data Lab ?
Une fois que l'équipe soit construite, il est indispensable de construire l'infrastructure des données en
choisissant attentivement la technologie associée.
Certaines questions sont à poser avant de faire le choix:
D’où viennent vos sources de données ?
Comment les regrouper ?
Quelles sont les difficultés liées à leur utilisation ?
Structurées ou non?
Sont-elles conformes aux réglementations en vigueur?
Source classique:
Les différentes données de votre SI constituent la principale (et la plus évidente) source à exploiter.
Les logs que les utilisateurs laissent lors de l’utilisation de vos applications, de vos logiciels ou
lorsqu'ils naviguent sur votre site internet sont également une importante source de données
utilisable pour optimiser votre produit, vos ventes…
les mesures de divers capteurs (IoT)
Certaines entreprises spécialisées dans la revente de données peuvent aussi constituer une source de
données intéressantes avec des informations telles que : données géographiques, socio-
professionnelles, habitudes de consommation…
4.7 Centraliser les données disponibles
“
Un des prérequis nécessaire est de faciliter l'accès aux données pour les data scientists
4.7.1 mettre en place un Data Lake

Le principe du Data Lake (ou lac de données) est assez simple, toutes vos données sont regroupées et
accessibles en un seul et même endroit. L'avantage considérable d'un lac de données, comparativement à
un Data Warehouse (ou entrepôt de données), réside d'une part dans sa capacité à croiser et enrichir des
données beaucoup plus simplement, tout au long du projet, et à en accroître leur disponibilité (même en
cas de panne) grâce à un mécanisme de réplication.
4.7.2 L'exploitation d'un Data Lake par le Data Lab implique l'utilisation d'un certain
nombre de technologies :
ETL (Extract - Transform - Load) par batch (lot) ou streaming (continu, temps réel)
SQOOP
Spark
Kafka Stream
Talend
Statistiques et modélisation
Spark
Java
Python
Format de stockage des fichiers
Avro
Parquet
ORC
Technologies liées au stockage de données
Stockage distribué (files system): Hadoop et son système de fichier HDFS
Stockage avec une base de données (SQL, NoSQL) :
Cassandra
Mongo DB
Elasticsearch
PostgreSQL
Les technologies de Data Science
Langages de programmation
Python
Scala
Deep Learning
Tenso Flow
Keras
Pytorch
Environnement de développement (IDE)
R Studio
Jupyter Lab
PyCharm
Comme vous pouvez le constater, la réalisation d’un projet Big Data / IA va impliquer grand nombre
technologies disparates et peu intégrées. Leur utilisation va varier en fonction de la composition de votre
Data Lab, ce qui va complexifier la chose.
En revanche, il existe des solutions intégrées sur le marché(en Cloud ou pas). En proposant un
environnement unique où ces différentes technologies vont être pré-assemblées et orchestrées les unes
avec les autres tout en étant maintenues à jour, ce qui va grandement simplifier leur mise à disposition
pour l’ensemble du Data Lab.
4.8 Méthode CRISP : mode d’emploi
La méthode CRISP (initialement connue comme CRISP-DM) a été au départ développée par IBM dans les
années 60 pour réaliser les projets Datamining. Elle reste aujourd’hui la seule méthode utilisable
efficacement pour tous les projets Data Science.
La méthode CRISP se décompose en 6 étapes allant de la compréhension du problème métier au

déploiement et la mise en production.
1. La compréhension du problème métier

La première étape consiste à bien comprendre les éléments métiers et problématiques que la Data
Science vise à résoudre ou à améliorer.
2. La compréhension des données

Cette phase vise à déterminer précisément les données à analyser, à identifier la qualité des
données disponibles et à faire le lien entre les données et leur signification d’un point de vue
métier. La Data Science étant basée sur les données seules, les problèmes métiers relatifs à des
données existantes, qu’elles soient internes ou externes, peuvent ainsi être résolus par la Data
Science.
3. La construction du Data Hub

Cette phase de préparation des données regroupe les activités liées à la construction de l’ensemble
précis des données à analyser, faite à partir des données brutes. Elle inclut ainsi le classement des
données en fonction de critères choisis, le nettoyage des données, et surtout leur recodage pour les
rendre compatibles avec les algorithmes qui seront utilisés.
La paramétricité des données numériques et leur recodage en données catégorielles sont

extrêmement importantes et à réaliser avec soin afin d’éviter que les algorithmes utilisés donnent
des résultats faux dans la phase suivante. Toutes ces données doivent en effet être centralisées dans
une base de données structurée et qui porte le nom de Data Hub.
4. La modélisation
C’est la phase de Data Science proprement dite. La modélisation comprend le choix, le paramétrage
et le test de différents algorithmes ainsi que leur enchaînement, qui constitue un modèle. Ce
processus est d’abord descriptif pour générer de la connaissance, en expliquant pourquoi les choses
se sont passées. Il devient ensuite prédictif en expliquant ce qu’il va se passer, puis prescriptif en
permettant d’optimiser une situation future.
5. L’évaluation
L’évaluation vise à vérifier le(s) modèle(s) ou les connaissances obtenues afin de s’assurer qu’ils
répondent aux objectifs formulés au début du processus. Elle contribue aussi à la décision de
déploiement du modèle ou, si besoin est, à son amélioration. A ce stade, on teste notamment la
robustesse et la précision des modèles obtenus.
6. Le déploiement
Il s’agit de l’étape finale du processus. Elle consiste en une mise en production pour les utilisateurs
finaux des modèles obtenus. Son objectif : mettre la connaissance obtenue par la modélisation,
dans une forme adaptée, et l’intégrer au processus de prise de décision.
Le déploiement peut ainsi aller, selon les objectifs, de la simple génération d’un rapport décrivant
les connaissances obtenues jusqu’à la mise en place d’une application, permettant l’utilisation du
modèle obtenu, pour la prédiction de valeurs inconnues d’un élément d’intérêt.
4.9 L’Expérimentation des données
Il est important d’échanger avec les métiers et d’identifier des "quick wins" simples à transformer. Les
initiatives autour de l’IA et du Big Data doivent être guidées par un besoin métier et répondre à une
problématique de l’entreprise, sans quoi les projets risquent de ne pas de produire l’effet escompté. Il est
important de créer une relation forte entre les métiers et le Data Lab car la finalité du projet sera d’autant
plus pertinente et apportera plus rapidement des résultats.
4.9.1 Paradigme
1. Imaginer 2. Bâtir 3. Exploiter
Faire émerger des cas d'usage Monter une équipe, une architecture et POC Tableaux de bord
et définir des KPIs collecter des données (valeur métiers)
En résumé, un projet Big data / IA, c’est : 90% de design thinking* pour faire émerger vos cas d'usage
*Le Design Thinking une approche consistant à appliquer les méthodes et la philosophie utilisées par les
designers pour résoudre certains problèmes. Il s'appuie en grande partie sur un processus de co-créativité
impliquant des retours de l'utilisateur final.
4.9.2 Comment choisir le cas d'usage
La sélection des cas d'usage va se dérouler de la manière suivante :
Divergence: Faire émerger le plus grand nombre de cas d'usage
Convergence: Identifier les cas d'usage pertinents Identifier les cas d'usage réalisables
Quelques questions sont à considérer pour sélectionner les cas d'usage : Le cas d'usage produit-il une
valeur ajoutée métier ? Des KPIs peuvent-ils être définis pour mesurer la valeur métier créée ? Le POC
(Proof Of Concept) que je vais réaliser pourra-t-il intégrer des processus métiers opérationnels ?
Autre point à considérer : plutôt que d’adresser une multitude de cas d'usage en même temps, il est
préférable de se focaliser sur un ou deux cas d'usage, afin de démontrer rapidement de la valeur et se
familiariser avec les nouvelles approches qui seront mises en place.
4.9.3 Le déroulement des POCs
Compréhension Il est indispensable de travailler avec les Experts Métiers pour comprendre les
données vraiment utiles, et déterminer si l'on a besoin d'utiliser des données externes à l'entreprise
(par exemple l'Open Data)
Exploration Cette étape va permettre de déterminer si les données sont intéressantes et fiables. Elle
va mettre en évidence les données manquantes (anomalies, champs vides) et décrire les variables
(avec des indicateurs tels que la moyenne, variance, quartile, classe, saisonnalité) nécessaires à
l'élaboration de KPIs
une collaboration étroite entre le Data Scientist et le Data Engineer est essentielle et celle-ci se déroule en
deux phases :
Préparation. Le pré-traitement (ou preprocessing), qui consiste dans le nettoyage, l’exploration et
surtout la compréhension des données de l’entreprise. Cette partie est souvent assez longue mais
essentielle pour que les Data Scientists puissent travailler la donnée.
Apprentissage. L'algorithmique qui passe par la construction de modèles descriptif ou prédictifs
visant à apporter de la valeur ajoutée.

“
Pour le bon déroulement du projet, une démarche agile (par exemple Scrum ou Kanban), consistant
en échanges réguliers et confrontation des résultats avec les équipes métier (expert métier & Product
Owner) est conseillée. Cela créera une dynamique itérative permettant de faire rapidement
progresser le projet (amélioration continue).
5 Amener les travaux du data lab en production
5.1 Ce qui empêche les projets du Data Lab de passer en production
5.1.1 L’approche Shadow IT
De nombreuses initiatives Big Data sont mises en place sans que les équipes IT soient informées ou
impliquées. C’est ce que l’on appelle l’approche “shadow IT”. Malheureusement, lorsqu’il faut basculer les
travaux en production, cela est très difficile car les solutions choisies bien souvent ne répondent pas aux
critères du département IT qui refuse alors de déployer ces travaux.
5.1.2 Vouloir concevoir sa propre plateforme Big Data pour gérer de bout en bout ses
projets
Cette approche rencontre de nombreuses difficultés techniques : elle implique d'assembler et d'intégrer de
nombreuses technologies disparates, et d'être en capacité de les maintenir à jour de manière très régulière.
Cela complexifie grandement la conception de cette plateforme, et bien souvent le ROI n'apparaît que très
tardivement. A titre d’exemple, Uber a mis environ 18 mois pour développer sa plateforme Big data. Cela
vous donne une idée de l’ampleur du chantier, sachant que Uber fait partie des entreprises les plus
innovantes de la Silicon Valley*.
5.1.3 Des approches artisanales
Il y a une grosse différence d’outillage entre les technologies dites de Data Science et les technologies plus
fréquemment utilisées dans le développement et pour la mise en production. Par exemple, en langage
Python, il existe des librairies de modélisation avancées (Scikit-Learn) que l’on ne retrouve pas dans une
technologie comme Java. Ce qui rend difficile • le déploiement des travaux à une plus grande échelle • la
reproductibilité de ces travaux pour le reste de l'entreprise Et cela peut amener dans certains cas des
développeurs à réécrire complètement le code des data scientists entraînant une énorme perte de temps et
une diminution de la productivité.
5.1.4 La bunkerisation du Data Lak
A vouloir trop sécuriser l’accès du Data Lake, on peut se retrouver dans une situation assez ubuesque où
• aucune donnée n’entre
• aucune donnée ne sort
• aucun cas d'usage n'est adressé !
5.2 Du data lab centralisé vers d'autres structures organisationnelles

Lorsque la taille d'une entreprise augmente et que ses business devient complexes, nous avons donc
besoin d'avoir une autre façon d'organiser l'équipe data pour mieux rendre service aux métiers. Certaines
façons de constitution de l'équipe impliquent plus de ressources que les autres. Un potentiel changement
organisationnel suggère qu'un nouveau groupe devrait avoir établi des rôles et des responsabilités - tous
en relation avec d'autres projets et installations Alors, comment intégrer une équipe de science des
données dans votre entreprise?
Selon la classification d'Accenture, il existe six options pour organiser un groupe de science des données:
1. Décentralisé
Ressources allouées uniquement aux projets dans leurs silos sans aucune vue des activités
d'analyse ou des priorités en dehors de leur fonction ou unité commerciale.
Les analyses sont dispersées à travers l'organisation différentes fonctions et unités d'affaires.
Il s’agit de l’option la moins coordonnée où les efforts d’analyse sont utilisés sporadiquement dans
l’organisation et où les ressources sont allouées au sein de la fonction de chaque groupe. Cela se
produit souvent dans les entreprises lorsque l'expertise en science des données est apparue de
manière organique, ce qui conduit souvent à des silos, à un manque de standardisation de l'analyse
et - vous l'avez deviné - à des rapports décentralisés
2. Fonctionnel
Allocation des ressources motivée par un programme fonctionnel plutôt que par un programme
d'entreprise
Ici, la plupart des spécialistes de l'analyse travaillent dans un département où l'analyse est la plus
pertinente: c'est souvent le marketing ou la chaîne d'approvisionnement. Mais ils peuvent aussi
fournir des services au reste de la société.
Cette option implique également peu ou pas de coordination et l'expertise n'est pas utilisée
stratégiquement à l'échelle de l'entreprise.
3. Consultant
Ressources allouées en fonction de la disponibilité par le principe "premier arrivé premier servi"
sans nécessairement alignement sur l'entreprise objectifs.
Dans cette structure, les personnes analytiques travaillent ensemble comme un seul groupe mais
leur rôle au sein d'une organisation est le conseil, ce qui signifie que différents départements
peuvent les «embaucher» pour des tâches spécifiques. Cela signifie, bien sûr, qu'il n'y a presque pas
d'allocation de ressources - que des spécialistes soient disponibles ou non.
4. Centralisé
Renforcement de l'appropriation et de la gestion de l'allocation des ressources et du projet

priorisation dans un
bassin centrale.
Cette structure vous permet enfin d'utiliser l'analytique dans des tâches stratégiques - une équipe
de science des données sert l'ensemble de l'organisation dans une variété de projets. Non
seulement il fournit à une équipe DS un financement à long terme et une meilleure gestion des
ressources, mais il encourage également la croissance de carrière. Le seul écueil ici est le danger de
transformer une fonction d'analyse en fonction de support.
5. Centre d'excellence
Meilleur alignement des initiatives d'analyse et de l'allocation des ressources sur les priorités de
l'entreprise sans implication opérationnelle.
Si vous choisissez cette option, vous conserverez toujours l'approche centralisée avec un seul centre
d'entreprise, mais les scientifiques des données seront affectés à différentes unités de
l'organisation. Il s'agit de la structure la plus équilibrée - les activités d'analyse sont hautement
coordonnées, mais les experts ne seront pas retirés des unités commerciales.
6. Fédéré
Ce modèle est pertinent en cas de forte demande de talents en analyse dans toute l'entreprise. Ici,
vous employez une équipe SWAT de toutes sortes - un groupe d'analyse qui fonctionne à partir d'un
point central et traite des tâches inter-fonctionnelles complexes. Le reste des scientifiques de
données est distribué comme dans le modèle du Centre d'excellence
N'oubliez pas que votre modèle peut changer et évoluer en fonction des besoins de votre entreprise: alors
qu'aujourd'hui vous pouvez vous contenter de data scientistes résidant dans leurs unités fonctionnelles,
demain un Centre d'Excellence peut devenir une nécessité.
5.3 Amener les pratiques DevOps dans la Data Science
Dans cette partie, nous allons vous expliquer comment les pratiques DevOps peuvent faciliter la mise en
production des initiatives Big Data et IA et apporter de la valeur à l’entreprise.
Cette méthode est agile et itérative, c’est-à-dire que chaque itération apporte de la connaissance métier
supplémentaire qui permet de mieux aborder l’itération suivante. C’est d’ailleurs pour cette raison que,
même si nous la vendons comme un projet, la Data Science est plus une démarche globale qu’un simple
projet.
Qu’est-ce que l’approche DevOps
Basée sur les principes Lean et Agile, l'approche DevOps rassemble responsables opérationnels et
développeurs. On parle de "dev" pour tout ce qui se rattache au développement d'un logiciel, d'"ops" pour
l'exploitation et l'administration de son infrastructure. Les pratiques DevOps visent à unifier l'ensemble. En
pratique, il s'agit de l'automatisation et du suivi de chacune des étapes de la création d'un logiciel, de son
développement à son déploiement, mais aussi de son exploitation dans la durée.
On associe couramment DevOps à agilité qui favorise les cycles courts, l'itération ou encore des
déploiements plus fréquents. L'objectif de cette démarche est de délivrer un logiciel en continu et donc
modifiable, qui permet à la fois de prendre en compte les retours clients, mais aussi de saisir plus
d'opportunités commerciales. Les principaux avantages de ces pratiques sont aussi la collaboration de
différentes équipes qui amène à un déploiement accéléré et donc à des coûts réduits.
Le modèle CRISP est-il encore d’actualité?
Ce modèle était jusqu’à présent celui qui a prédominé au niveau des équipes Data Science. Cependant,
avec l’arrivée des modèles de déploiement continu (Continuous Delivery) et d'innovation continue (Lean
Startup), est-ce que cette manière de travailler entre les équipes de Data Science et les équipes IT doit
perdurer ? En effet, les désavantages liés à ce modèle sont principalement une certaine longueur au niveau
des feedbacks, entraînant un manque de réactivité quant à l’amélioration des travaux et réduisant même
leur efficacité.
5.3.1 Les principaux étapes dans l'opération
5.3.1.1 Étapes Release & Deploy
la “release” est la sortie d'une première version stable d’un “package” (ensemble de fichiers informatiques
nécessaires à l’exécution d’un logiciel, intégrant par exemple du code et des configurations). Le “deploy”
concerne son déploiement dans un environnement spécifique (développement, recette, pré-production,
production).
On aimerait pouvoir donc
automatiser le déploiement d’un package
exécuter les applications avec des environnements préconfigurés
historiser les différentes versions des packages déployés et des exécutions des applications
Cela permet aux équipes Data Lab de pouvoir développer, avec des critères de production, leurs packages
et cas d’usage, et les répéter quel que soit l’environnement.
5.3.1.2 Étape Operate
L’étape “Operate” de la boucle DevOps va consister à “opérer” les développements précédemment

déployés (les traitements). Et cette étape va se décomposer de la manière suivante :
1. Ordonnancer/Orchestrer les traitements (dans le domaine de la data, il y a beaucoup de traitements

par "lots", notamment dans le cas d'un apprentissage de modèle de Data Science).
2. Superviser l’état de l’ensemble des traitements
3. Diagnostiquer les problèmes de production (erreur de traitement, lenteur de traitement).
4. Contrôler l’état et les versions des différents frameworks/technologies utilisés et des traitements
déployés.
5.3.1.3 Étape Monitor
Il s'agit d'un travail de surveillance et de veille continue. Dans le monde de la donnée, cela consiste à
mesurer les effets du traitement et de ses versions ultérieures sur le cas d'usage. Pour résumer, est-ce que
les améliorations apportées sur mon cas d’usage / traitement ont eu un impact sur mon business ? (par
exemple est-ce que suite à une mise à jour de mon modèle de churn, j'ai eu une augmentation de mes faux
positifs ?)
6 Les problèmes et les cas d'usages courants dans de différents
secteurs
Valorisation des données (création de modèles et analyse de résultats) Les algorithmes de Machine
Learning (apprentissage automatique) tels que les méthodes régression, de regroupement ou encore de
classification vont permettre d'adresser différents cas métiers et générer ainsi de la valeur;
La prédiction (ou régression), à partir des historiques il est possible de prédire les futurs ventes ou stocks,
et d'optimiser la gestion de l'offre et de la demande. D'autres données externes et libres d'usage (les
données Open Data notamment) peuvent aussi être utiles comme par exemple la météo qui peut avoir un
impact dans certains secteurs (comme l'agriculture), ou par exemple le trafic routier, les périodes de
vacances, etc.
Les anomalies, il s’agit ici de détecter les données qui ne sont pas cohérentes avec l’ensemble d’un jeu de
données. Il s’agit ensuite de déterminer si l’anomalie est avérée ou aberrante. La recherche d'anomalies est
particulièrement utilisée dans les cas de détection de fraude.
La segmentation (ou clustering), ici on va séparer et regrouper des données parcellaires mais avec des
caractéristiques identiques. Par exemple identifier pour des régions spécifiques des clients ayant un salaire
inférieur à 30 000€ par an pour promouvoir certaines offres. Il est souvent nécessaire de transformer ces
données vers des formats optimisés pour la création d’algorithmes, tel que le framework Spark qui utilise
la mémoire vive des clusters Hadoop ; il est aussi possible d’utiliser un moteur de requête tel que Impala
ou Drill. D’autres frameworks, comme Spark Streaming, vous permettent une gestion complètement
dynamique afin de préparer et traiter les données en temps réel dès leur arrivée dans le Data Lake.
Voici quelques exemples concrèts:
6.1 Détectez et prévenez les pannes avec la maintenance prédictive
La maintenance prédictive permet de réduire les coûts de maintenance et d’augmenter la durée de vie des
actifs ou des machines/équipements. En analysant l’historique des défaillances des machines et en
utilisant les données de capteurs IoT, il est possible de prédire quand une panne est supposée se produire.
Il devient ainsi plus facile de planifier les opérations de maintenance et d’augmenter le temps de
disponibilité des machines.
6.2 Pilotez l’activité commerciale avec la prévision des ventes
Les prévisions offrent aux entreprises la possibilité d’anticiper leur activité dans un futur proche. Cela
nécessite, par exemple, d’analyser les historiques des stocks et des ventes et de générer différentes
hypothèses pour ajuster l’offre et la demande. En conséquence, la chaîne d’approvisionnement sera
optimisée, les coûts de stockage seront réduits et la performance globale des entreprises sera améliorée.
6.3 Rétention de vos clients

Le coût d’acquisition d’un client est 5 à 10 fois plus élevé que celui de rétention. Le taux d’attrition est donc
un indicateur pertinent pour mesurer la satisfaction client vis-à-vis d’une offre et devrait être le plus proche
de 0 possible. Grâce au machine learning, analysez l’historique de vos clients et prédisez à quel moment ils
seront le plus enclins à vous quitter.
6.4 Détectez et prévenez la fraude
Les fraudes numériques ont explosé ces 10 dernières années, amenant les organisations à travailler sur des
solutions innovantes et évolutives pour protéger leurs actifs. L’analyse des données et l’apprentissage
automatique (Machine Learning) sont des moyens de lutter contre ce type de criminalité en détectant des
schémas et comportements potentiellement anormaux, ce qui facilite le travail des équipes en charge de
lutter contre la fraude.
6.5 Analysez les comportements de vos clients avec la vision client 360
La Connaissance Client permet de mieux comprendre les comportements des clients et leurs motivations,
et de mieux les profiler. L’enrichissement de cette connaissance nécessite de collecter des données à partir
d’une multitude de sources comme les appareils mobiles, les réseaux sociaux, des capteurs de type IoT ou
les logiciels propres à l’entreprise. Ensuite, les différents domaines liés au client pourront être renforcés :
segmentation, vue à 360° pour le service client.
6.6 Simplifiez la mise en conformité avec la gouvernance
Assurer la sécurité des données personnelles et des données clients est devenu un enjeu critique pour les
organisations, et plus particulièrement depuis la mise en place du RGPD(Règlement général sur la
protection des données). La mise en place d’une gouvernance des données appropriée peut garantir que
seules les données ayant un consentement utilisateur seront exploitées. Cela permet aussi d’améliorer la
qualité des données, leur niveau de confiance et surveiller leur accès, limitant ainsi de potentielles failles.
6.7 Améliorez l’efficacité opérationnelle avec l’automatisation de processus
L’automatisation des processus offre aux entreprises la possibilité de transformer radicalement leur
activité. Cela nécessite d’analyser une quantité considérable de données (appels téléphoniques, courriers
électroniques, documents, etc.) et d’appliquer des techniques d’apprentissage automatique spécifiques
(Machine Learning), notamment la reconnaissance vocale ou la reconnaissance automatique de caractères.
Ces techniques sont ensuite intégrées dans plusieurs applications métiers intelligentes (chatbots,
analyseurs d’emails, reconnaissance automatique de factures), ce qui contribue à améliorer l’efficacité ou la
satisfaction client.
6.8 Prenez les bonnes décisions grâce à la BI

Les rapports avancés sont un moyen de fournir des informations plus détaillées aux métiers. Ceci est
réalisable en collectant des données structurées et non structurées à partir de sources disparates (internes,
telles que les ERP, analyses Web, etc., et externes, telles que les réseaux sociaux, l’open data, etc.), en les
nettoyant pour en garantir la qualité et en définissant les KPIs appropriés qui seront évalués. Ensuite,
certains outils de visualisation de données peuvent être implémentés pour apporter une meilleure
compréhension. La conception de rapports avancés est la première étape pour que les organisations
deviennent entièrement « data-driven ».

Chapitre 4 5 6 - Data Management Avec Un Data Lab Amener Les Travaux Du Data Lab en Production (1)

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 4 5 6 - Data Management Avec Un Data Lab Amener Les Travaux Du Data Lab en Production (1)

Transféré par

Droits d'auteur :

Formats disponibles

4 Data Management avec un Data Lab

4.1 Problèmes de gestion des données

le manque d'analystes de données et d'autres professionnels de l'informatique pour aider à

interpréter les données

optimisation des stratégies de l'entreprise

4.2 Qu’est-ce qu’un Data Lab ?

4.3 Les enjeux d’un Data Lab

4.4 Comment mettre en place un Data Lab ?

L'Administrateur Système, qui permettra la mise en place de l'infrastructure IT.

(on parlera de pipeline de données) jusqu'à leur mise en production.

des sponsors de ce dernier et de votre Data Lab !

développement du produit (ou de la solution) intégrant les modèles analytiques.

4.5 Différents typologies en fonction du pourcentage des rôles

forme externe comme AWS

simples nécessitant seulement un ou plusieurs modèles

d'itérations nécessaires ne peut pas être estimé à l'avance.

4.5.2 Structure intégrée

Contrairement à l'approche IT-centrique, la méthode intégrée nécessite d'avoir un data scientist

Avantage du modèle structure intégrée:

Les scientifiques des données se concentrent sur l'innovation

Exploiter pleinement le potentiel des applications ML en tant que service et personnalisées

Utilisation de combinaisons de modèles personnalisés (modèles d'ensemble) qui produisent de

Inconvénient du modèle structure intégrée:

Une infrastructure informatique est requise en cas d'utilisation de ML personnalisé

La gestion de silos croisés demande des efforts considérables

Investissements importants dans l'acquisition de talents en data science

Défis de l'engagement et de la rétention des talents en data science

4.5.3 Département spécialisé en Data science

Avantage du modèle spécialisé:

Gestion centralisée de la science des données et capacités accrues de résolution de problèmes

Réaliserle plein potentiel des applications ML en tant que service et personnalisées

construction d'usines de modèles segmentés (qui fonctionnent automatiquement sur différents

segments et unités commerciales)

Inconvénient du modèle spécialisé:

Construire et maintenir une infrastructure informatique complexe

Investissements importants dans l'acquisition de talents en science des données

Défis de l'engagement et de la rétention des talents en science des données

4.5.4 Compétence requise par rôle:

Data scientist du type A:

Data scientist du type B:

2. Chief Analytics Officer/Chief Data Officer

Compétences préférées: Data science et analytiques, compétences en programmation, expertise dans le

Compétences préférées: R, Python, JavaScript, C/C++, SQL

Compétences préférées: data visualization, business intelligence, SQL

Compétences préférées: SQL, noSQL, XML, Hive, Pig, Hadoop, Spark

7. Application/data visualization engineer

Compétences préférées: programming, JavaScript (for visualization), SQL, noSQL

4.6 Comment outiller le Data Lab ?

Certaines questions sont à poser avant de faire le choix:

D’où viennent vos sources de données ?

Comment les regrouper ?

Quelles sont les difficultés liées à leur utilisation ?

Sont-elles conformes aux réglementations en vigueur?

utilisable pour optimiser votre produit, vos ventes…

les mesures de divers capteurs (IoT)

professionnelles, habitudes de consommation…

4.7 Centraliser les données disponibles

4.7.1 mettre en place un Data Lake

Format de stockage des fichiers

Technologies liées au stockage de données

Stockage distribué (files system): Hadoop et son système de fichier HDFS

Stockage avec une base de données (SQL, NoSQL) :

Les technologies de Data Science

Environnement de développement (IDE)