1. Definition
Avec l’essor du Big Data, les entreprises disposent aujourd’hui d’un immense volume de
données structurées, semi-structurées ou non
structurées,. Afin de les analyser, de leur donner du sens
et d’en dégager des informations exploitables, elles font
appel aux scientifiques des données. La science des
d o n n é e s v i s e à a m é l i o re r l e s p ro c e s s u s d e
développement de produits, les processus de prise de
décision, les processus d'analyse des tendances et les
processus de prévision en tirant parti des différents
domaines de l'analyse de données, tels que les
statistiques, la classification, le clustering,
l'apprentissage automatique, l'exploration de données
et l'analyse prédictive. Elle est une combinaison des
disciplines telles que les statistiques, l’algorithmique, le
génie logiciel, etc…
Un Data Scientist est un expert en analyse de données, capable de résoudre des
problèmes complexes grâce à sa curiosité et ses compétences techniques. Son rôle est
de révéler la véritable valeur des données.
1 sur 9
2. Un peu d’histoire de DS
L’histoire de la Data Science est celle d’une ascension fulgurante. En un peu plus de 10
ans, cette science pourtant mal aimée à ses débuts a su gagner en popularité de façon
exponentielle jusqu’à devenir l’un des domaines les plus prisés des jeunes diplômés des
plus grandes écoles d’ingénieurs. L’histoire de la data science peut être résumée par 5
dates clés.
-1962 : Dans The future of Data Analysis, John W. Tukey, statisticien de renom dit préférer
le terme de « data analysis » à celui de statistique. Pour lui cette façon de « tirer » d’un
grand nombre de donnés des tendances relevait plus d’une science empirique que des
mathématiques pures, d’où cette différenciation qu’il va être le premier à suggérer.
-1974: La data science est mise en avant au sein d’œuvres universitaires. On découvre
progressivement les quantités astronomiques d’informations dont disposent les
entreprises et les différents moyens par lesquels elles doivent essayer de les utiliser afin
de créer des parcours clients plus adaptés.
-2002-2003: Lancement en avril 2002 du Data Science Journal puis en janvier 2003 du
Journal of Data Science . La data science émerge comme une véritable sujet de recherche
tout grâce à ces revues, déjà plateformes d’échange d’idées.
D’un secteur niche de recherche, les data sciences sont sans aucun doute aujourd’hui un
pilier de la croissance mondiale. Elles sont devenues actuellement incontournables dans
tous les milieux professionnels; leur maîtrise peut « make or break » n’importe quelle
entreprise actuelle.
2 sur 9
• La capacité du projet à casser les silos organisationnels (la donnée est partout et
“détenue” par des services qui n’ont pas pour habitude de communiquer) ;
• Un volume de données disponibles pour répondre aux cas d’usages envisagés ;
• Le maintien de la qualité de la donnée dans le temps ;
• La capacité des algorithmes à produire les résultats attendus ;
Face à un tel océan d’incertitude, la seule réponse est d’adopter une démarche itérative
et agile qui minimise les risques d’échec et de gouffre financier.
3.1 -Comprendre & définir
Il s’agit de l’étape la plus importante du projet. Négligez-la et vous pouvez être sûr que
vous aurez jeté l’argent par la fenêtre. Cela peut paraître tellement évident, mais un
projet de Data Science doit être là pour régler un problème ! Il est donc fondamental de
passer du temps dans l’organisation, de comprendre ses enjeux business, d’identifier les
douleurs des équipes et de recenser les données existantes. Cette phase de découverte
permettra ainsi de définir les cas d’usages marketing prioritaires.
A)Analyse du contexte et définition des objectifs
Un projet Data Science doit être aligné avec les enjeux business d’une
organisation. C’est à dire doit répondre à un ou plusieurs objectifs stratégiques :
• Optimisation de la performance : augmentation du chiffre d’affaires, réduction
des coûts d’acquisition…
• Amélioration de l’expérience client : amélioration de l’indicateur de satisfaction,
le NPS (Net Promoter Score), baisse du taux d’attrition (départ client)…
• Gain de temps : rapidité de lancement d’une campagne, économie de temps pour
réaliser une action précise…
• Aide à l’analyse et à la décision : vitesse de détection et de résolution d’un
problème, fiabilité des prédictions de performance vs les résultats réels…
Cet objectif doit évidemment être SMART (Spécifique – Mesurable – Atteignable –
Réaliste – Temporel) afin que le Retour sur Investissement (ROI) puisse être facilement
mesuré à la fin de la boucle projet.
B) Analyse des données existantes
On pourrait dans l’absolu commencer à faire un peu de science-fiction et rêver de cas
d’usages qui révolutionneraient votre quotidien. Mais il nous semble plus prudent de
faire un point sur les données existantes. Le recensement des données permettra en
effet de définir et prioriser des cas d’usages réalistes. Les données à disposition des
entreprises sont classées en 3 catégories :
• Données First party : il s’agit des données clients/prospects collectées par
l’entreprise (analytics, CRM…).
• Données Second party : il s’agit des données 1st party qu’un partenaire (media
par exemple) partage.
• Données Third Party : ce sont des données achetées auprès de brokers
spécialisés
3 sur 9
Ces données fournissent de multiples informations sur le profil des internautes
(catégorie socio-démographique, géolocalisation, centre d’intérêts…) et leurs
comportements en ligne (préférences d’achats, sites consultés…).
4 sur 9
le travail de récupération des données sera plus long, car impliquant de nombreuses
étapes intermédiaires pour regrouper des données disparates.
De la même façon, si vous avez l’habitude de stocker vos données internes dans des
tableurs dispersés aux quatre coins de votre entreprise, attendez-vous à entendre votre
data scientist hurler à la mort.
Un process sera nécessaire pour centraliser les modifications de données et s’assurer de
leur intégrité puis automatiser leur stockage. On passera par l’utilisation d’outils et
services dédiées [Spark, Hadoop, Dataflow, BigQuery, EMR…], ou par des
développements maison.
Très fréquemment, les données “externes”, provenant d’outils que vous utilisez ou de
sources tierces que vous souhaitez interroger (météo, news…) sont accessibles via des
API : en clair des points de connexion aux données, mis en place par les développeurs,
vous permettant d’accéder programmatiquement à des données constamment mises à
jour.
3.3 Stockage des données
Data lake, data hub, data warehouse, data mart, data-store… Difficile de s’y retrouver
dans les subtilités en terme de stockage des données. L’idée sous-jacente restera toujours
la centralisation de données disparates pour optimiser l’analyse des données et la prise
de décision.
Un data-store va par exemple aller plus loin que la simple base de données et stocker
des fichiers, des mails, etc. La data-warehouse va se focaliser sur la centralisation en un
seul endroit l’intégralité des données…
4. Big Data
Le Big Data va au-delà du volume, de la variété et de la vélocité, les fameux 3v. Nous
vous proposons aujourd’hui 10 caractéristiques et propriétés du Big Data pour vous
préparer aux défis et aux avantages des initiatives Big Data. 10 caractéristiques
commençant par V . Le terme big data apparaît avec parcimonie au début des années 90
et son importance a augmenté de façon exponentielle au fil des années. Actuellement, le
big data fait partie intégrante de la stratégie de l’entreprise en matière de données.
5 sur 9
Les mégadonnées ont des caractéristiques et des propriétés spécifiques qui peuvent vous
aider à comprendre à la fois les défis et les avantages du Big Data. Les 10 Vs du Bg data/
1: volume
Le volume est la composante la plus évidente du big data. Ce n’est pas surprenant, si l’on
considère que plus de 95% de toutes les données actuelles ont été créées ces cinq
dernières années. La masse actuelle de données peut être réellement stupéfiante.
2: Vitesse
Par Vitesse on désigne ici la vitesse à laquelle les données sont générées, produites,
créées ou actualisées.
Certes, il semble impressionnant que l’entrepôt de données de Facebook stocke plus de
300 pétaoctets de données. Mais la vitesse à laquelle les nouvelles données sont créées
doit être prise en compte. Facebook réclame 600 téraoctets de données entrantes par
jour.
3: Variété
Quand on évoque le Big Data, on évoque une immense variété de données. Il nous faut
non seulement gérer des données structurées, mais également des données semi-
structurées et surtout non structurées. Comme vous pouvez le déduire des exemples ci-
dessus. La plupart des données volumineuses semblent non structurées. Mais outre les
fichiers audio, images, fichiers vidéo, mises à jour des médias sociaux et autres formats de
texte, il existe également des fichiers journaux etc.
4: Variabilité
La variabilité quand on parle de Big Data fait référence à plusieurs choses. Tout d’abord
c’est le nombre d’incohérences dans les données. Celles-ci doivent être détectées par
des techniques de détection d’anomalies et de valeurs aberrantes pour faciliter la
creation d’analyse significative.
Les mégadonnées sont également variables en raison de la diversité de dimensions
résultant de multiples types et sources de données. La variabilité peut également faire
référence à la vitesse incohérente à laquelle les données volumineuses sont chargées
dans votre base de données.
5: Véracité
Quand l’une ou toutes les propriétés ci-dessus augmentent, la véracité , c’est a dire la
confiance en ces données, diminue. La véracité fait référence à la provenance ou à la
fiabilité de la source de données, à son contexte et à son importance pour l’analyse qui
en découle.
Des réponses à ces questions sont nécessaires pour déterminer la véracité de ces
informations. La connaissance de la véracité des données nous aide à mieux comprendre
les risques associés aux analyses et aux décisions commerciales basées sur cet ensemble
de données particulier.
6: Validité
6 sur 9
Similaire à la véracité, la validité fait référence à la précision et à la correction des
données pour l’usage auquel elles sont destinées. Selon Forbes, environ 60% du temps
d’un scientifique est consacré au nettoyage de ses données avant de pouvoir effectuer
une analyse. L’avantage de l’analyse des données massives est aussi primordiale que celui
des données sous-jacentes. Vous devez donc avoir de bonnes pratiques. De gouvernance
des données pour garantir une qualité des données cohérente, des définitions communes
et des métadonnées.
7: Vulnérabilité
Le Big Data apporte de nouveaux problèmes de sécurité. Après tout, une violation de
données avec Big Data est une grande violation. Est-ce que quelqu’un se souvient de
l’infâme AshleyMadison en 2015?
Malheureusement, il y a quotidiennement des violations de données massives. Un
exemple, rapporté par CRN: en mai 2016, “un pirate informatique appelé Peace a posté
des données sur le web sombre pour les vendre, qui auraient inclus des informations sur
167 millions de comptes LinkedIn et … 360 millions d’e-mails et de mots de passe pour
les utilisateurs de MySpace”.
8: Volatilité
Quel âge doivent avoir vos données pour qu’elles soient considérées comme non
pertinentes, historiques ou obsolete? Combien de temps faut-il conserver les données?
Avant l’ere big data, en general on stockait les données indéfiniment. Quelques
téraoctets de données ne pouvaient pas engendrer de dépenses de stockage élevées.
En raison de la vitesse et du volume de ces données massives, leur volatilité doit être
soigneusement prise en compte. Il est maintenant fondamental d’établir des règles pour
la disponibilité et à la mise à jour des données afin de garantir une récupération rapide
des informations en cas de besoin.
9: Visualisation
Une autre caractéristique du Big Data est la difficulté à les visualiser.
Les logiciels de visualisation de données volumineuses actuels sont confrontés à des
problèmes techniques en raison des limitations de la technologie en mémoire, de leur
faible évolutivité, de leur fonctionnalité et de leur temps de réponse. Il est impossible de
vous fier aux graphiques traditionnels lorsque vous essayez de tracer un milliard de points
de données. Il est donc nécessaire d’avoir différentes manières de représenter des
données. Telles que la mise en cluster de données ou l’utilisation de cartes d’arbres, de
sunbursts, de coordonnées parallèles, de diagrammes de réseau circulaires ou de cônes.
Si on associe cela avec la multitude de composante résultant de la variété et de la
vélocité des données massives et des relations complexes qui les lient, il est possible de
voir qu’il n’est pas si simple de créer une visualisation significative.
10: valeur
Dernier point, mais pas des moindre, est bien évidemment la Valeur. Les autres
caractéristiques du Big Data n’ont pas de sens si vous ne tirez pas de valeur commerciale
de ces données.
7 sur 9
Les Données massives offrent une valeur substantielle: comprendre mieux vos clients. Les
cibler en conséquence, optimiser les processus et améliorer les performances de la
machine ou de l’entreprise. Avant de vous lancer dans une stratégie Big Data, vous devez
comprendre le potentiel et les caractéristiques les plus difficiles.
8 sur 9
5.3 : techniques de data mining
Le data mining met en oeuvre un ensemble de technique issues des statistiques, de
l'analyse de données et de l'informatique pour explorer les données.Il permet
d'accomplir des analyses qui peuvent être regroupées en deux catégories :
I. Les techniques descriptives : consiste à trouver les caractéristiques générales
relatives aux données fouillées . Classification, Association
II. Les techniques prédictives : Consiste à utiliser certaines variables pour prédire les
valeurs futures inconnues de la même variable ou d'autres variables: Estimation ,
Clustering, Prévision
9 sur 9