Vous êtes sur la page 1sur 22

Neuf étapes applicables à toute

problématique de data science


Faciliter l’accès aux données, comprendre
leur structure en s’appuyant sur des
outils de data visualisation, préparer les
données, identifier les facteurs influents
afin de mettre en œuvre des algorithmes...
L’exploitation des environnements big
data implique un certain nombre d’étapes
qui conduisent à la prise de décision. Bien
identifier ces étapes est un préalable à la
réussite de tout projet de data science.
Découvrez en neuf points une synthèse
des processus qui permettront à votre
organisation de créer de la valeur à partir
de ses données.
Décloisonner les
données pour Analyser et Préparer les
1 élargir le champ 2 découvrir les
données
3 données
d’analyse

1 2
Identifier le Mettre en œuvre Identifier les
meilleur modèle 6 des algorithmes 5 facteurs influents 4

Exporter ce
Evaluer la valeur Automatiser les
7 modèle dans un
format adapté
8 des données 9 actions
1
Décloisonner les données pour
élargir le champ d’analyse
Face à la prolifération de données issues de multiples
sources dans des formats hétérogènes, il est souvent
compliqué, voire illusoire de s’appuyer sur des outils
d’ETL afin d’alimenter un datawarehouse unique servant
l’ensemble des besoins analytiques de la société.

La première étape d’un projet de data science doit


permettre de fédérer les données en brisant les silos
existants et en créant des vues abstraites et virtualisées
de ces données. L’objectif est de mettre en place un
référentiel centralisé, sans avoir à déplacer les données,
afin de faciliter l’accès à l’information et gagner en
agilité, en masquant la complexité des architectures
sous-jacentes. Les utilisateurs métiers peuvent ainsi
réaliser des requêtes sur toutes les données, quelle
que soit leur localisation sur le réseau ou dans le cloud,
comme si elles se trouvaient dans un lieu unique.
Analyser et découvrir les
données
La compréhension des données passe par leur
visualisation, l’analyse empirique de la distribution des
variables, leur dispersion, la répartition des valeurs
manquantes, etc. Les logiciels analytiques permettent
d’écarter les variables sans intérêt (les variables
« invariantes » ou redondantes, par exemple).

Cette phase exploratoire de compréhension des


données et de leur structure est un préalable
indispensable à la préparation de la donnée.
3
Préparer les données
Comprendre et préparer les données est un processus
itératif qui permet de détecter et éliminer tous les
facteurs susceptibles de nuire à l’analyse. Ce processus
conduit notamment au remplacement des valeurs
manquantes et à l’élimination des variables inutiles à
l’analyse. Les logiciels de la plate-forme TIBCO Systems
of Insight proposent une large palette d’outils pour
préparer les données.

Cette phase nécessite un important travail


d’interprétation au cours duquel il est nécessaire
d’impliquer les métiers. Leur connaissance des
processus permet de comprendre le contexte, expliquer
les données, confirmer des hypothèses, etc.
Identifier les facteurs
influents
Cette étape intervient dans le cadre des
problématiques « d’apprentissage supervisé », lorsqu’il
s’agit de prédire une variable (identifier une appétence
client sur un produit, un risque dans l’attribution d’un
crédit, une probabilité de panne…) ou « d’apprentissage
non supervisé », lorsque l’on cherche à créer des
typologies, c’est-à-dire des groupes homogènes
possédant des caractéristiques spécifiques similaires.
L’objectif consiste à identifier les variables qui capturent
l’essentiel de l’information, tout en éliminant les
variables redondantes.

On s’attachera à analyser l’articulation entre les


différentes variables afin de comprendre comment elles
expliquent le phénomène étudié. D’une multitude de
variables au départ, on cherche à simplifier autant que
possible le problème afin d’expliquer le plus facilement
possible le phénomène.
5 Mettre en oeuvre des
algorithmes
A ce stade, on recherche l’algorithme prédictif le mieux
adapté à la problématique identifiée. Les données
initiales sont généralement séparées en deux sous-
ensembles : un échantillon d’apprentissage et un
échantillon de test.

L’échantillon d’apprentissage (70 à 80% des données)


est soumis à différents algorithmes (forêts aléatoires,
boosting, deep learning, réseaux de neurones,
régression logistique…) pour apprendre à partir des
données. L’échantillon de test permet ensuite de
valider le pouvoir prédictif du modèle sur des données
n’ayant pas servi à construire ce modèle.
Identifier le meilleur modèle
L’échantillon de test est soumis aux mêmes algorithmes
que l’échantillon d’apprentissage : un processus itératif
permet de trouver le meilleur modèle. Ce modèle est
généralement défini à partir de l’erreur de prédiction sur
les données de l’échantillon de test ou d’autres critères
de qualité d’ajustement du modèle.

Les outils disponibles dans TIBCO Systems of Insight


(notamment TIBCO Spotfire, TIBCO Statistica ou
TIBCO Spotfire Data Science) permettent de choisir et
de valider le meilleur modèle. TIBCO Spotfire repose
essentiellement sur du code (bibliothèques de code
R essentiellement), alors que TIBCO Statistica et
TIBCO Spotfire Data Science proposent surtout des
algorithmes pré-intégrés, disponibles via des icônes
dans l’interface. Les algorithmes peuvent donc être
comparés entre eux et mis en œuvre sans connaissance
en programmation.
Exporter ce modèle dans un
format adapté
Le code de déploiement d’un modèle est une sorte
d’équation plus ou moins complexe qui permet de
calculer un score avec des données « fraîches ». TIBCO
Statistica permet d’exporter ce code de déploiement
dans différents formats (Code C, C#, C++, Java, PMML,
Teradata…) en fonction de la problématique et de la
stratégie de scoring.

Exemples : Sur un projet Hadoop, on pourra exporter


du code Java pour Map Reduce. Sur les déploiements
IoT, TIBCO Statistica exportera le code de déploiement
du modèle en langage C, lui-même embarqué par
Project Flogo pour l’acheminer au plus proche de la
donnée (au niveau des capteurs IoT par exemple).
Evaluer la valeur des
données
Selon la stratégie et la problématique, le modèle de
scoring peut ensuite être déployé sur un serveur de
calcul pour des traitements par batch, sur un serveur
web en temps réel ou sur des équipements ou capteurs
dotés de processeurs. Les variables (à savoir les
facteurs influents identifiés précédemment) sont
proposées au moteur de scoring.

Par exemple, pour l’analyse des risques liés à une


demande de crédit, les données sont recueillies via un
formulaire web : âge, situation, ancienneté employeur,
salaire… Ces données sont envoyées au serveur web qui
exécute le modèle de scoring et donne une réponse.
Ce processus permet aux banques en ligne de donner
immédiatement une note à un dossier de crédit.
Automatiser les actions
La réponse est alors renvoyée à l’application : une
action est déclenchée. Le calcul est généralement
réalisé entre 50 et 200 millisecondes, au niveau du
serveur, selon la complexité du modèle.

Dans certains contextes, comme les véhicules


autonomes, cette rapidité de calcul est primordiale.
Le délai de réponse doit être quasiment instantané
pour interpréter un panneau, reconnaître un piéton,
etc. L’action est déclenchée à l’instant même où la
donnée est disponible. Cela explique tout l’intérêt
d’une exportation du code de déploiement via Project
Flogo pour des problématiques d’intelligence artificielle
embarquée dans des véhicules.
TIBCO Software renforce l’entreprise digitale en optimisant et accélérant les
prises de décisions et actions avec TIBCO Connected Intelligence Cloud. Les
technologies TIBCO interconnectent individus, systèmes, équipements et API,
capturent les données en temps réel et augmentent l’intelligence des entreprises
avec l’analytique. Des milliers d’entreprises à travers le monde font confiance à
TIBCO pour offrir des expériences convaincantes à leurs clients, dynamiser leurs
opérations et stimuler l’innovation. Pour découvrir comment TIBCO développe
l’intelligence numérique, rendez-vous sur www.tibco.com.

TIBCO Software France © 2018, TIBCO Software Inc. Tous droits réservés. TIBCO, le logo TIBCO, TIBCO Software et TIBCO Systems
25 rue Balzac of Insight sont des marques commerciales ou des marques déposées de TIBCO Software Inc. ou de ses
75008 Paris filiales aux Etats-Unis et/ou dans d’autres pays. Tous les autres noms de produits, d’entreprises et de
+33 1 44 51 45 88 marques figurant dans ce document appartiennent à leur propriétaire respectif et ne sont mentionnés qu’à
www.TIBCO.com des fins d’identification. 03/2018

Vous aimerez peut-être aussi