Académique Documents
Professionnel Documents
Culture Documents
Chapitre 4 5 6 - Data Management Avec Un Data Lab Amener Les Travaux Du Data Lab en Production (1)
Chapitre 4 5 6 - Data Management Avec Un Data Lab Amener Les Travaux Du Data Lab en Production (1)
Les problèmes les plus courants rencontrés par les entreprises concernant la gestion des Big data
comprennent:
le manque d'investissements informatiques tels que l'achat d'outils analytiques modernes pour gérer
des données et des analyses plus volumineuses avec une meilleure efficacité.
incapable d'analyser les big data en raison de sa complexité qui amène les entreprises à plus de
confusion
incapable d' intégrer les big data dans les analyses et de les appliquer pour une meilleure
Comme son nom l’indique, le Data Lab est un véritable laboratoire de la donnée. Pourquoi ? Car c’est un
espace exclusivement dédié à l’expérimentation et à la qualification « fonctionnelle » des différentes
données de l’entreprise. En effet, il permet d’explorer ses jeux de données, de les traiter, mais aussi de
mettre à l’épreuve des algorithmes de Machine Learning.
Pour l’imaginer, le Data Lab est semblable à une startup, agile et en constante évolution, mais qui prendrait
place au sein même de l’entreprise. Il permet ainsi de devenir davantage data centric, sans pour autant
chambouler toute l’organisation d’une entreprise.
Pour mettre en production un projet de Data Science ou d’intelligence artificielle, l’ingrédient clé est une
vision stratégique claire, partagée et soutenue par l’ensemble de l’entreprise. Si cela paraît évident c’est
pourtant, ce qui fait défaut dans la majorité des cas. Voilà pour la théorie mais dans la pratique, de quoi a-
t-on besoin ? D’un Data Lab.
Sa création est essentielle à la réussite d’un tel projet. L’enjeu même d’une telle structure est de tirer profit
de ses données, de les transformer en valeur ajoutée. Pour cela, le Data Lab permet de définir les cas
d’usage les plus adaptés à l’entreprise, qu’il s’agisse de réduction de taux d’attrition ou de détection de
fraudes.
Après avoir identifié les ressources nécessaires, la mise en place d’une équipe est ensuite primordiale, et ce
n’est pas une mince affaire. Il faudra alors privilégier les profils techniques experts dans leur domaine
(l’administrateur système, le Data Architect, le Data Scientist, le Data Engineer et le Data Analyst) auquel
s’ajoutent le Product Owner qui apportera la vision sur le produit et les profils métiers qui apporteront leur
connaissance sur les problématiques business.
Le Data Architect qui met en place les choix d’architecture du Data Lab.
Le Data Scientist qui va être en charge de la conception des algorithmes et modèles analytiques et
prédictifs.
Le Data Engineer qui assure la mise en place des différentes séquences de traitement de la donnée
Les Experts Métiers qui auront un oeil avisé sur les données dont ils auront besoin avec une
connaissance des problématiques business, ils doivent être impliqués dès le début du projet et être
Le Product Owner qui aidera les Experts Métier à formaliser leurs besoins et supervisera le
4.5.1 IT-centrique
Parfois, l'embauche de scientifiques des données n'est pas une option, et vous devez tirer parti des talents
qui sont déjà en interne. Le principal rôle de l'analytique et du leadership serait un «traducteur
commercial», généralement appelé chef de l'analyse (CAO) ou chef des données (CDO). Ce dernier terme
devient progressivement redondant à mesure que la plupart des processus de données sont remodelés
vers l'analyse prédictive. Cette personne doit être capable de diriger l'initiative. Nous examinerons plus en
détail la position ci-dessous.
Tout le reste - préparation des données, modèles de formation, création d'interfaces utilisateur et
déploiement de modèles au sein d'une infrastructure informatique d'entreprise - peut être largement géré
par le service informatique (si votre organisation dispose déjà d'un service informatique interne
pleinement fonctionnel). Cette approche est assez limitée, mais elle peut être réalisée en utilisant des
solutions MLaaS(Machine learning as a Service). Des environnements comme Azure Machine Learning ou
Amazon Machine Learning sont déjà équipés d'interfaces utilisateur accessibles pour nettoyer les
ensembles de données, former des modèles, les évaluer et déployer.
Azure Machine Learning, par exemple, prend en charge ses utilisateurs avec une documentation détaillée
pour un seuil d'entrée bas. Cela permet une formation rapide et un déploiement précoce des modèles
même sans un expert en données à bord.
En revanche, les solutions MLaaS présentent leurs limites en termes de méthodes d'apprentissage machine
et de coût. Toutes les opérations, du nettoyage des données à l'évaluation du modèle, ont leurs prix
distincts. Et étant donné que le nombre d'itérations pour former un modèle efficace ne peut pas être
estimé à l'avance, travailler avec les plateformes MLaaS entraîne une certaine incertitude budgétaire.
Avantage du IT-centrique:
L'infrastructure informatique est fournie et maintenue par un service externe - data analytiques plate-
Des spécialistes internes peuvent être formés pour exploiter davantage le potentiel d'analyse
prédictive
La gestion inter-silos est réduite car toutes les opérations se déroulent au sein du service
informatique
Moins de temps de mise sur le marché pour des tâches d'apprentissage automatique relativement
Inconvénient du IT-centrique:
Méthodes d'apprentissage machine et procédures de nettoyage des données sont limitées par la
capacité fournie.
Le model training, les tests et la prédiction doivent être payés par nombres d'utilisation et la quantité
de données. Cela entraîne une incertitude quant au coût éventuel par prévision, car le nombre
Grâce à la structure intégrée, une équipe de science des données se concentre sur la préparation des
ensembles de données et la formation sur les modèles, tandis que les spécialistes informatiques prennent
en charge les interfaces et l'infrastructure permettant aux data scientists de déployer les modèles.
Combiner l'expertise de l'apprentissage automatique avec les ressources informatiques est l'option la plus
viable pour des opérations d'apprentissage automatique constantes et évolutives.
Commencez avec un ou deux spécialistes des données, puis formez et embarquez plus d'experts
locaux
meilleures prévisions
Pour réduire les efforts de gestion et créer un cadre de machine learning complet, vous pouvez exécuter
l'intégralité du flux de travail de machine learning au sein d'un service indépendant de data science. Cette
approche entraîne le coût le plus élevé. Toutes les opérations, du nettoyage des données et de la formation
des modèles à la création d'interfaces frontales, sont réalisées par une équipe dédiée de science des
données. Cela ne signifie pas nécessairement que tous les membres de l'équipe doivent avoir une
formation en science des données, mais ils doivent acquérir des compétences en infrastructure
technologique et en gestion de services.
Un modèle spécialisé aide à traiter des tâches complexes de science des données qui incluent la recherche,
l'utilisation de plusieurs modèles de ML adaptés à divers aspects de la prise de décision ou de multiples
services soutenus par le ML. Dans le cas des grandes organisations, des équipes spécialisées en data
science peuvent compléter différentes unités commerciales et opérer dans leurs domaines spécifiques
d'intérêt analytique.
La plupart des entreprises innovantes axées sur l'IA ont des équipes spécialisées en science des données.
De toute évidence, étant conçus sur mesure et câblés pour des tâches spécifiques, ils sont tous très
différents. La structure de l'équipe d'Airbnb Data Science est l'une des plus intéressantes.
“
Ressources de lecture:
https://www.youtube.com/watch?v=6QVXPNrSbLU
https://medium.com/airbnb-engineering/at-airbnb-data-science-belongs-everywhere-917250c6beba
Expérience. Trouvez des moyens d'intégrer des données dans de nouveaux projets en utilisant un
processus d'apprentissage-planification-test-mesure établi.
Démocratisez les données. Adaptez votre équipe de science des données à l'ensemble de l'entreprise
et même aux clients.
Mesurez l'impact. Évaluez la part des équipes DS dans votre processus décisionnel et donnez-leur du
crédit.
Résoudre des problèmes de prédiction complexes qui nécessitent une recherche approfondie ou la
Mise en place d'un terrain de jeu de science des données complet pour favoriser l'innovation
Meilleure scalabilité
1. Data scientist:
Les scientifiques des données sont des personnes possédant une combinaison de compétences en codage
et en statistiques qui travaillent à rendre les données utiles de diverses manières. Il y a principalement
deux types de data scientists:
Ce type vise principalement à donner un sens aux données ou à les utiliser d'une manière assez statique.
Un Data Scientist du type A est très similaire à un statisticien (et peut en être un) mais connaît tous les
détails pratiques du travail avec des données qui ne sont pas enseignées dans le programme de
statistiques: nettoyage des données, méthodes pour traiter des ensembles de données très volumineux,
visualisation, profonde connaissance d'un domaine particulier, bonne rédaction des données, etc.
En résumé, un data scientist est une personne qui résout les tâches métier à l'aide des techniques
d'apprentissage automatique et d'exploration de données. Si cela est trop flou, le rôle peut être limité à la
préparation et au nettoyage des données avec une formation et une évaluation plus poussées du modèle.
Compétences préférées: R, SAS, Python, Matlab, SQL, noSQL, Hive, Pig, Hadoop, Spark
CAO, un «traducteur commercial», comble le fossé entre la science des données et l'expertise du domaine
agissant à la fois comme un visionnaire et un responsable technique.
3. Data analyst
Le rôle d'analyste de données implique des activités appropriées de collecte et d'interprétation des
données. Un analyste s'assure que les données collectées sont pertinentes et exhaustives tout en
interprétant également les résultats de l'analyse. Certaines entreprises, comme IBM ou HP, exigent
également que les analystes de données possèdent des compétences en visualisation pour convertir des
nombres aliénants en informations tangibles par le biais de graphiques.
4. Business analyst
Un business analyst réalise essentiellement les fonctions d'un CAO mais au niveau opérationnel. Cela
implique de convertir les attentes des entreprises en analyse de données. Si votre spécialiste des données
de base manque d'expertise dans le domaine, un analyste d'entreprise comble ce gouffre.
5. Data architect
Ce rôle est essentiel pour travailler avec de grandes quantités de données (vous l'avez deviné, Big Data).
Cependant, si vous ne comptez pas uniquement sur les plates-formes cloud MLaaS, ce rôle est essentiel
pour stocker les données, définir l'architecture de la base de données, centraliser les données et garantir
l'intégrité entre les différentes sources. Pour les grands systèmes distribués et les grands ensembles de
données, l'architecte est également en charge des performances.
6. Data engineer
Les ingénieurs mettent en œuvre, testent et entretiennent les composants d'infrastructure conçus par les
architectes de données. De façon réaliste, le rôle d'un ingénieur et le rôle d'un architecte peuvent être
combinés en une seule personne. L'ensemble des compétences est très proche.
Compétences préférées: SQL, noSQL, Hive, Pig, Matlab, SAS, Python, Java, Ruby, C++, Perl
Fondamentalement, ce rôle n'est nécessaire que pour un modèle spécialisé de science des données. Dans
d'autres cas, les ingénieurs logiciels proviennent d'unités informatiques pour fournir des résultats de
science des données aux applications auxquelles les utilisateurs finaux sont confrontés. Et il est très
probable qu'un ingénieur d'application ou d'autres développeurs d'unités frontales supervisent la
visualisation des données de l'utilisateur final.
Une fois que l'équipe soit construite, il est indispensable de construire l'infrastructure des données en
choisissant attentivement la technologie associée.
Structurées ou non?
Source classique:
Les différentes données de votre SI constituent la principale (et la plus évidente) source à exploiter.
Les logs que les utilisateurs laissent lors de l’utilisation de vos applications, de vos logiciels ou
lorsqu'ils naviguent sur votre site internet sont également une importante source de données
Certaines entreprises spécialisées dans la revente de données peuvent aussi constituer une source de
données intéressantes avec des informations telles que : données géographiques, socio-
“
Un des prérequis nécessaire est de faciliter l'accès aux données pour les data scientists
4.7.2 L'exploitation d'un Data Lake par le Data Lab implique l'utilisation d'un certain
nombre de technologies :
ETL (Extract - Transform - Load) par batch (lot) ou streaming (continu, temps réel)
SQOOP
Spark
Kafka Stream
Talend
Statistiques et modélisation
Spark
Java
Python
Avro
Parquet
ORC
Cassandra
Mongo DB
Elasticsearch
PostgreSQL
Langages de programmation
Python
Scala
Deep Learning
Tenso Flow
Keras
Pytorch
R Studio
Jupyter Lab
PyCharm
Comme vous pouvez le constater, la réalisation d’un projet Big Data / IA va impliquer grand nombre
technologies disparates et peu intégrées. Leur utilisation va varier en fonction de la composition de votre
Data Lab, ce qui va complexifier la chose.
En revanche, il existe des solutions intégrées sur le marché(en Cloud ou pas). En proposant un
environnement unique où ces différentes technologies vont être pré-assemblées et orchestrées les unes
avec les autres tout en étant maintenues à jour, ce qui va grandement simplifier leur mise à disposition
pour l’ensemble du Data Lab.
La méthode CRISP (initialement connue comme CRISP-DM) a été au départ développée par IBM dans les
années 60 pour réaliser les projets Datamining. Elle reste aujourd’hui la seule méthode utilisable
efficacement pour tous les projets Data Science.
5. L’évaluation
L’évaluation vise à vérifier le(s) modèle(s) ou les connaissances obtenues afin de s’assurer qu’ils
répondent aux objectifs formulés au début du processus. Elle contribue aussi à la décision de
déploiement du modèle ou, si besoin est, à son amélioration. A ce stade, on teste notamment la
robustesse et la précision des modèles obtenus.
6. Le déploiement
Il s’agit de l’étape finale du processus. Elle consiste en une mise en production pour les utilisateurs
finaux des modèles obtenus. Son objectif : mettre la connaissance obtenue par la modélisation,
dans une forme adaptée, et l’intégrer au processus de prise de décision.
Le déploiement peut ainsi aller, selon les objectifs, de la simple génération d’un rapport décrivant
les connaissances obtenues jusqu’à la mise en place d’une application, permettant l’utilisation du
modèle obtenu, pour la prédiction de valeurs inconnues d’un élément d’intérêt.
Il est important d’échanger avec les métiers et d’identifier des "quick wins" simples à transformer. Les
initiatives autour de l’IA et du Big Data doivent être guidées par un besoin métier et répondre à une
problématique de l’entreprise, sans quoi les projets risquent de ne pas de produire l’effet escompté. Il est
important de créer une relation forte entre les métiers et le Data Lab car la finalité du projet sera d’autant
plus pertinente et apportera plus rapidement des résultats.
4.9.1 Paradigme
Faire émerger des cas d'usage Monter une équipe, une architecture et POC Tableaux de bord
et définir des KPIs collecter des données (valeur métiers)
En résumé, un projet Big data / IA, c’est : 90% de design thinking* pour faire émerger vos cas d'usage
*Le Design Thinking une approche consistant à appliquer les méthodes et la philosophie utilisées par les
designers pour résoudre certains problèmes. Il s'appuie en grande partie sur un processus de co-créativité
impliquant des retours de l'utilisateur final.
4.9.2 Comment choisir le cas d'usage
Convergence: Identifier les cas d'usage pertinents Identifier les cas d'usage réalisables
Quelques questions sont à considérer pour sélectionner les cas d'usage : Le cas d'usage produit-il une
valeur ajoutée métier ? Des KPIs peuvent-ils être définis pour mesurer la valeur métier créée ? Le POC
(Proof Of Concept) que je vais réaliser pourra-t-il intégrer des processus métiers opérationnels ?
Autre point à considérer : plutôt que d’adresser une multitude de cas d'usage en même temps, il est
préférable de se focaliser sur un ou deux cas d'usage, afin de démontrer rapidement de la valeur et se
familiariser avec les nouvelles approches qui seront mises en place.
Compréhension Il est indispensable de travailler avec les Experts Métiers pour comprendre les
données vraiment utiles, et déterminer si l'on a besoin d'utiliser des données externes à l'entreprise
Exploration Cette étape va permettre de déterminer si les données sont intéressantes et fiables. Elle
va mettre en évidence les données manquantes (anomalies, champs vides) et décrire les variables
(avec des indicateurs tels que la moyenne, variance, quartile, classe, saisonnalité) nécessaires à
l'élaboration de KPIs
une collaboration étroite entre le Data Scientist et le Data Engineer est essentielle et celle-ci se déroule en
deux phases :
surtout la compréhension des données de l’entreprise. Cette partie est souvent assez longue mais
De nombreuses initiatives Big Data sont mises en place sans que les équipes IT soient informées ou
impliquées. C’est ce que l’on appelle l’approche “shadow IT”. Malheureusement, lorsqu’il faut basculer les
travaux en production, cela est très difficile car les solutions choisies bien souvent ne répondent pas aux
critères du département IT qui refuse alors de déployer ces travaux.
5.1.2 Vouloir concevoir sa propre plateforme Big Data pour gérer de bout en bout ses
projets
Cette approche rencontre de nombreuses difficultés techniques : elle implique d'assembler et d'intégrer de
nombreuses technologies disparates, et d'être en capacité de les maintenir à jour de manière très régulière.
Cela complexifie grandement la conception de cette plateforme, et bien souvent le ROI n'apparaît que très
tardivement. A titre d’exemple, Uber a mis environ 18 mois pour développer sa plateforme Big data. Cela
vous donne une idée de l’ampleur du chantier, sachant que Uber fait partie des entreprises les plus
innovantes de la Silicon Valley*.
Il y a une grosse différence d’outillage entre les technologies dites de Data Science et les technologies plus
fréquemment utilisées dans le développement et pour la mise en production. Par exemple, en langage
Python, il existe des librairies de modélisation avancées (Scikit-Learn) que l’on ne retrouve pas dans une
technologie comme Java. Ce qui rend difficile • le déploiement des travaux à une plus grande échelle • la
reproductibilité de ces travaux pour le reste de l'entreprise Et cela peut amener dans certains cas des
développeurs à réécrire complètement le code des data scientists entraînant une énorme perte de temps et
une diminution de la productivité.
A vouloir trop sécuriser l’accès du Data Lake, on peut se retrouver dans une situation assez ubuesque où
Selon la classification d'Accenture, il existe six options pour organiser un groupe de science des données:
1. Décentralisé
Ressources allouées uniquement aux projets dans leurs silos sans aucune vue des activités
d'analyse ou des priorités en dehors de leur fonction ou unité commerciale.
Les analyses sont dispersées à travers l'organisation différentes fonctions et unités d'affaires.
Il s’agit de l’option la moins coordonnée où les efforts d’analyse sont utilisés sporadiquement dans
l’organisation et où les ressources sont allouées au sein de la fonction de chaque groupe. Cela se
produit souvent dans les entreprises lorsque l'expertise en science des données est apparue de
manière organique, ce qui conduit souvent à des silos, à un manque de standardisation de l'analyse
et - vous l'avez deviné - à des rapports décentralisés
2. Fonctionnel
Allocation des ressources motivée par un programme fonctionnel plutôt que par un programme
d'entreprise
Ici, la plupart des spécialistes de l'analyse travaillent dans un département où l'analyse est la plus
pertinente: c'est souvent le marketing ou la chaîne d'approvisionnement. Mais ils peuvent aussi
fournir des services au reste de la société.
Cette option implique également peu ou pas de coordination et l'expertise n'est pas utilisée
stratégiquement à l'échelle de l'entreprise.
3. Consultant
Ressources allouées en fonction de la disponibilité par le principe "premier arrivé premier servi"
sans nécessairement alignement sur l'entreprise objectifs.
Dans cette structure, les personnes analytiques travaillent ensemble comme un seul groupe mais
leur rôle au sein d'une organisation est le conseil, ce qui signifie que différents départements
peuvent les «embaucher» pour des tâches spécifiques. Cela signifie, bien sûr, qu'il n'y a presque pas
d'allocation de ressources - que des spécialistes soient disponibles ou non.
4. Centralisé
Cette structure vous permet enfin d'utiliser l'analytique dans des tâches stratégiques - une équipe
de science des données sert l'ensemble de l'organisation dans une variété de projets. Non
seulement il fournit à une équipe DS un financement à long terme et une meilleure gestion des
ressources, mais il encourage également la croissance de carrière. Le seul écueil ici est le danger de
transformer une fonction d'analyse en fonction de support.
5. Centre d'excellence
Meilleur alignement des initiatives d'analyse et de l'allocation des ressources sur les priorités de
l'entreprise sans implication opérationnelle.
Si vous choisissez cette option, vous conserverez toujours l'approche centralisée avec un seul centre
d'entreprise, mais les scientifiques des données seront affectés à différentes unités de
l'organisation. Il s'agit de la structure la plus équilibrée - les activités d'analyse sont hautement
coordonnées, mais les experts ne seront pas retirés des unités commerciales.
6. Fédéré
Ce modèle est pertinent en cas de forte demande de talents en analyse dans toute l'entreprise. Ici,
vous employez une équipe SWAT de toutes sortes - un groupe d'analyse qui fonctionne à partir d'un
point central et traite des tâches inter-fonctionnelles complexes. Le reste des scientifiques de
données est distribué comme dans le modèle du Centre d'excellence
N'oubliez pas que votre modèle peut changer et évoluer en fonction des besoins de votre entreprise: alors
qu'aujourd'hui vous pouvez vous contenter de data scientistes résidant dans leurs unités fonctionnelles,
demain un Centre d'Excellence peut devenir une nécessité.
Dans cette partie, nous allons vous expliquer comment les pratiques DevOps peuvent faciliter la mise en
production des initiatives Big Data et IA et apporter de la valeur à l’entreprise.
Cette méthode est agile et itérative, c’est-à-dire que chaque itération apporte de la connaissance métier
supplémentaire qui permet de mieux aborder l’itération suivante. C’est d’ailleurs pour cette raison que,
même si nous la vendons comme un projet, la Data Science est plus une démarche globale qu’un simple
projet.
Basée sur les principes Lean et Agile, l'approche DevOps rassemble responsables opérationnels et
développeurs. On parle de "dev" pour tout ce qui se rattache au développement d'un logiciel, d'"ops" pour
l'exploitation et l'administration de son infrastructure. Les pratiques DevOps visent à unifier l'ensemble. En
pratique, il s'agit de l'automatisation et du suivi de chacune des étapes de la création d'un logiciel, de son
développement à son déploiement, mais aussi de son exploitation dans la durée.
On associe couramment DevOps à agilité qui favorise les cycles courts, l'itération ou encore des
déploiements plus fréquents. L'objectif de cette démarche est de délivrer un logiciel en continu et donc
modifiable, qui permet à la fois de prendre en compte les retours clients, mais aussi de saisir plus
d'opportunités commerciales. Les principaux avantages de ces pratiques sont aussi la collaboration de
différentes équipes qui amène à un déploiement accéléré et donc à des coûts réduits.
Ce modèle était jusqu’à présent celui qui a prédominé au niveau des équipes Data Science. Cependant,
avec l’arrivée des modèles de déploiement continu (Continuous Delivery) et d'innovation continue (Lean
Startup), est-ce que cette manière de travailler entre les équipes de Data Science et les équipes IT doit
perdurer ? En effet, les désavantages liés à ce modèle sont principalement une certaine longueur au niveau
des feedbacks, entraînant un manque de réactivité quant à l’amélioration des travaux et réduisant même
leur efficacité.
la “release” est la sortie d'une première version stable d’un “package” (ensemble de fichiers informatiques
nécessaires à l’exécution d’un logiciel, intégrant par exemple du code et des configurations). Le “deploy”
concerne son déploiement dans un environnement spécifique (développement, recette, pré-production,
production).
On aimerait pouvoir donc
historiser les différentes versions des packages déployés et des exécutions des applications
Cela permet aux équipes Data Lab de pouvoir développer, avec des critères de production, leurs packages
et cas d’usage, et les répéter quel que soit l’environnement.
Il s'agit d'un travail de surveillance et de veille continue. Dans le monde de la donnée, cela consiste à
mesurer les effets du traitement et de ses versions ultérieures sur le cas d'usage. Pour résumer, est-ce que
les améliorations apportées sur mon cas d’usage / traitement ont eu un impact sur mon business ? (par
exemple est-ce que suite à une mise à jour de mon modèle de churn, j'ai eu une augmentation de mes faux
positifs ?)
6 Les problèmes et les cas d'usages courants dans de différents
secteurs
Valorisation des données (création de modèles et analyse de résultats) Les algorithmes de Machine
Learning (apprentissage automatique) tels que les méthodes régression, de regroupement ou encore de
classification vont permettre d'adresser différents cas métiers et générer ainsi de la valeur;
La prédiction (ou régression), à partir des historiques il est possible de prédire les futurs ventes ou stocks,
et d'optimiser la gestion de l'offre et de la demande. D'autres données externes et libres d'usage (les
données Open Data notamment) peuvent aussi être utiles comme par exemple la météo qui peut avoir un
impact dans certains secteurs (comme l'agriculture), ou par exemple le trafic routier, les périodes de
vacances, etc.
Les anomalies, il s’agit ici de détecter les données qui ne sont pas cohérentes avec l’ensemble d’un jeu de
données. Il s’agit ensuite de déterminer si l’anomalie est avérée ou aberrante. La recherche d'anomalies est
particulièrement utilisée dans les cas de détection de fraude.
La segmentation (ou clustering), ici on va séparer et regrouper des données parcellaires mais avec des
caractéristiques identiques. Par exemple identifier pour des régions spécifiques des clients ayant un salaire
inférieur à 30 000€ par an pour promouvoir certaines offres. Il est souvent nécessaire de transformer ces
données vers des formats optimisés pour la création d’algorithmes, tel que le framework Spark qui utilise
la mémoire vive des clusters Hadoop ; il est aussi possible d’utiliser un moteur de requête tel que Impala
ou Drill. D’autres frameworks, comme Spark Streaming, vous permettent une gestion complètement
dynamique afin de préparer et traiter les données en temps réel dès leur arrivée dans le Data Lake.
La maintenance prédictive permet de réduire les coûts de maintenance et d’augmenter la durée de vie des
actifs ou des machines/équipements. En analysant l’historique des défaillances des machines et en
utilisant les données de capteurs IoT, il est possible de prédire quand une panne est supposée se produire.
Il devient ainsi plus facile de planifier les opérations de maintenance et d’augmenter le temps de
disponibilité des machines.
Les prévisions offrent aux entreprises la possibilité d’anticiper leur activité dans un futur proche. Cela
nécessite, par exemple, d’analyser les historiques des stocks et des ventes et de générer différentes
hypothèses pour ajuster l’offre et la demande. En conséquence, la chaîne d’approvisionnement sera
optimisée, les coûts de stockage seront réduits et la performance globale des entreprises sera améliorée.
Les fraudes numériques ont explosé ces 10 dernières années, amenant les organisations à travailler sur des
solutions innovantes et évolutives pour protéger leurs actifs. L’analyse des données et l’apprentissage
automatique (Machine Learning) sont des moyens de lutter contre ce type de criminalité en détectant des
schémas et comportements potentiellement anormaux, ce qui facilite le travail des équipes en charge de
lutter contre la fraude.
6.5 Analysez les comportements de vos clients avec la vision client 360
La Connaissance Client permet de mieux comprendre les comportements des clients et leurs motivations,
et de mieux les profiler. L’enrichissement de cette connaissance nécessite de collecter des données à partir
d’une multitude de sources comme les appareils mobiles, les réseaux sociaux, des capteurs de type IoT ou
les logiciels propres à l’entreprise. Ensuite, les différents domaines liés au client pourront être renforcés :
segmentation, vue à 360° pour le service client.
Assurer la sécurité des données personnelles et des données clients est devenu un enjeu critique pour les
organisations, et plus particulièrement depuis la mise en place du RGPD(Règlement général sur la
protection des données). La mise en place d’une gouvernance des données appropriée peut garantir que
seules les données ayant un consentement utilisateur seront exploitées. Cela permet aussi d’améliorer la
qualité des données, leur niveau de confiance et surveiller leur accès, limitant ainsi de potentielles failles.
L’automatisation des processus offre aux entreprises la possibilité de transformer radicalement leur
activité. Cela nécessite d’analyser une quantité considérable de données (appels téléphoniques, courriers
électroniques, documents, etc.) et d’appliquer des techniques d’apprentissage automatique spécifiques
(Machine Learning), notamment la reconnaissance vocale ou la reconnaissance automatique de caractères.
Ces techniques sont ensuite intégrées dans plusieurs applications métiers intelligentes (chatbots,
analyseurs d’emails, reconnaissance automatique de factures), ce qui contribue à améliorer l’efficacité ou la
satisfaction client.