SEQ0-Intoduction Data Sceinces

Chapitre 0 : Introduction aux sciences des données
1. Definition
Avec l’essor du Big Data, les entreprises disposent aujourd’hui d’un immense volume de
données structurées, semi-structurées ou non
structurées,. Afin de les analyser, de leur donner du sens
et d’en dégager des informations exploitables, elles font
appel aux scientifiques des données. La science des
d o n n é e s v i s e à a m é l i o re r l e s p ro c e s s u s d e
développement de produits, les processus de prise de
décision, les processus d'analyse des tendances et les
processus de prévision en tirant parti des différents
domaines de l'analyse de données, tels que les
statistiques, la classification, le clustering,
l'apprentissage automatique, l'exploration de données
et l'analyse prédictive. Elle est une combinaison des
disciplines telles que les statistiques, l’algorithmique, le
génie logiciel, etc…
Un Data Scientist est un expert en analyse de données, capable de résoudre des
problèmes complexes grâce à sa curiosité et ses compétences techniques. Son rôle est
de révéler la véritable valeur des données.
1 sur 9
2. Un peu d’histoire de DS
L’histoire de la Data Science est celle d’une ascension fulgurante. En un peu plus de 10
ans, cette science pourtant mal aimée à ses débuts a su gagner en popularité de façon
exponentielle jusqu’à devenir l’un des domaines les plus prisés des jeunes diplômés des
plus grandes écoles d’ingénieurs. L’histoire de la data science peut être résumée par 5
dates clés.
-1962 : Dans The future of Data Analysis, John W. Tukey, statisticien de renom dit préférer
le terme de « data analysis » à celui de statistique. Pour lui cette façon de « tirer » d’un
grand nombre de donnés des tendances relevait plus d’une science empirique que des
mathématiques pures, d’où cette différenciation qu’il va être le premier à suggérer.
-1974: La data science est mise en avant au sein d’œuvres universitaires. On découvre
progressivement les quantités astronomiques d’informations dont disposent les
entreprises et les différents moyens par lesquels elles doivent essayer de les utiliser afin
de créer des parcours clients plus adaptés.
-2002-2003: Lancement en avril 2002 du Data Science Journal puis en janvier 2003 du
Journal of Data Science . La data science émerge comme une véritable sujet de recherche
tout grâce à ces revues, déjà plateformes d’échange d’idées.
-2009:L’explosion du terme data science est amorcée.

En janvier de cette année, dans une interview pour de Hal Varian, l’économiste en chef de
Google déclare que les statisticiens auront le job le plus « sexy » des 10 prochaines
années. Il note que la capacité à extraire des informations pertinentes à partir de données
brutes sera l’un des métiers les plus importants des années à venir.
-2011: L’engouement pour la data science se développe extrêmement rapidement: sur

l’année 2012 les offres d’emploi pour le poste de data scientist ont augmenté de plus de
15 000% selon la revue ValueWalk …
D’un secteur niche de recherche, les data sciences sont sans aucun doute aujourd’hui un
pilier de la croissance mondiale. Elles sont devenues actuellement incontournables dans
tous les milieux professionnels; leur maîtrise peut « make or break » n’importe quelle
entreprise actuelle.
3. Cycle de vie d’un projet Data Science

Les projets de Data Science sont en effet extrêmement risqués et complexes, car leur
réussite dépend de nombreux facteurs incertains :
• La véracité des hypothèses de départ ;
2 sur 9
• La capacité du projet à casser les silos organisationnels (la donnée est partout et
“détenue” par des services qui n’ont pas pour habitude de communiquer) ;
• Un volume de données disponibles pour répondre aux cas d’usages envisagés ;
• Le maintien de la qualité de la donnée dans le temps ;
• La capacité des algorithmes à produire les résultats attendus ;
Face à un tel océan d’incertitude, la seule réponse est d’adopter une démarche itérative
et agile qui minimise les risques d’échec et de gouffre financier.
3.1 -Comprendre & définir
Il s’agit de l’étape la plus importante du projet. Négligez-la et vous pouvez être sûr que
vous aurez jeté l’argent par la fenêtre. Cela peut paraître tellement évident, mais un
projet de Data Science doit être là pour régler un problème ! Il est donc fondamental de
passer du temps dans l’organisation, de comprendre ses enjeux business, d’identifier les
douleurs des équipes et de recenser les données existantes. Cette phase de découverte
permettra ainsi de définir les cas d’usages marketing prioritaires.
A)Analyse du contexte et définition des objectifs
Un projet Data Science doit être aligné avec les enjeux business d’une
organisation. C’est à dire doit répondre à un ou plusieurs objectifs stratégiques :
• Optimisation de la performance : augmentation du chiffre d’affaires, réduction
des coûts d’acquisition…
• Amélioration de l’expérience client : amélioration de l’indicateur de satisfaction,
le NPS (Net Promoter Score), baisse du taux d’attrition (départ client)…
• Gain de temps : rapidité de lancement d’une campagne, économie de temps pour
réaliser une action précise…
• Aide à l’analyse et à la décision : vitesse de détection et de résolution d’un
problème, fiabilité des prédictions de performance vs les résultats réels…
Cet objectif doit évidemment être SMART (Spécifique – Mesurable – Atteignable –
Réaliste – Temporel) afin que le Retour sur Investissement (ROI) puisse être facilement
mesuré à la fin de la boucle projet.
B) Analyse des données existantes
On pourrait dans l’absolu commencer à faire un peu de science-fiction et rêver de cas
d’usages qui révolutionneraient votre quotidien. Mais il nous semble plus prudent de
faire un point sur les données existantes. Le recensement des données permettra en
effet de définir et prioriser des cas d’usages réalistes. Les données à disposition des
entreprises sont classées en 3 catégories :
• Données First party : il s’agit des données clients/prospects collectées par
l’entreprise (analytics, CRM…).
• Données Second party : il s’agit des données 1st party qu’un partenaire (media
par exemple) partage.
• Données Third Party : ce sont des données achetées auprès de brokers
spécialisés
3 sur 9
Ces données fournissent de multiples informations sur le profil des internautes
(catégorie socio-démographique, géolocalisation, centre d’intérêts…) et leurs
comportements en ligne (préférences d’achats, sites consultés…).
C) Définition des cas d’usages

Une bonne connaissance des données à disposition permettra ensuite de pouvoir
imaginer des premiers cas d’usages d’application. Pour ce faire, des séances de
brainstorming peuvent être organisées entre les équipes métier et le data scientist afin de
:
1. Définir les familles de cas d’usages pertinents par rapport à l’objectif
stratégique. Par exemple, si l’objectif stratégique est d’améliorer la rentabilité des
investissements digitaux, les familles de cas d’usages peuvent être la réduction des
CPA des campagnes payantes ou l’amélioration du taux de conversion.
2. Réfléchir aux cas d’usages concrets par famille. La personnalisation des
messages publicitaires ou d’une landing page selon le profil et le comportement
d’un internaute sont des exemples de cas d’usages adaptés aux objectifs
stratégiques.
3. Évaluer chaque cas d’usage selon son impact potentiel sur l’objectif stratégique,
la difficulté de mise en oeuvre (qualité des données, complexité des algorithmes,
coûts…) et le délai d’obtention des résultats.
Les résultats peuvent enfin restitués sur une matrice de cette forme :
3.2. Collecter & centraliser

Dès lors que les données nécessaires à la réalisation du projet ont été définies lors de
l’étape de compréhension, il faut rechercher les sources de données, les modalités
d’accès et définir leur mode de stockage pour une utilisation optimale.
Les sources de données vont être le plus souvent dispersées, silotées, structurées ou
non, de qualité variable et utilisant des nomenclatures sans rapport entre elles. Pire, les
données nécessaires peuvent ne pas encore avoir été collectées ! De plus, l’accès aux
données peut prendre des formes très diverses : accès programmatique (APIs,
connecteurs spécifiques), bases de données, tableur, exports de fichiers exotiques en tout
genre….
2.1 Mise en place des connecteurs

Cette étape va donc être très technique, aussi bien lors de la mise en place des
connecteurs pour la récolte que pour le choix des infrastructures de stockage. Il va
donc falloir en premier lieu identifier où et comment récupérer les données voulues. On
peut distinguer les données internes et externes.
La présence de base de données existantes en interne peut être un avantage et un gain
de temps, mais vous ne couperez pas à un long travail d’analyse de l’existant pour
s’assurer que les données soient exploitables. Et dans le cas de données peu structurées,
4 sur 9
le travail de récupération des données sera plus long, car impliquant de nombreuses
étapes intermédiaires pour regrouper des données disparates.
De la même façon, si vous avez l’habitude de stocker vos données internes dans des
tableurs dispersés aux quatre coins de votre entreprise, attendez-vous à entendre votre
data scientist hurler à la mort.
Un process sera nécessaire pour centraliser les modifications de données et s’assurer de
leur intégrité puis automatiser leur stockage. On passera par l’utilisation d’outils et
services dédiées [Spark, Hadoop, Dataflow, BigQuery, EMR…], ou par des
développements maison.
Très fréquemment, les données “externes”, provenant d’outils que vous utilisez ou de
sources tierces que vous souhaitez interroger (météo, news…) sont accessibles via des
API : en clair des points de connexion aux données, mis en place par les développeurs,
vous permettant d’accéder programmatiquement à des données constamment mises à
jour.
3.3 Stockage des données
Data lake, data hub, data warehouse, data mart, data-store… Difficile de s’y retrouver
dans les subtilités en terme de stockage des données. L’idée sous-jacente restera toujours
la centralisation de données disparates pour optimiser l’analyse des données et la prise
de décision.
Un data-store va par exemple aller plus loin que la simple base de données et stocker
des fichiers, des mails, etc. La data-warehouse va se focaliser sur la centralisation en un
seul endroit l’intégralité des données…
Au-delà de ces considérations, il va falloir choisir une infrastructure, un hébergement

pour ces données. De nombreux paramètres vont entrer en ligne de compte (sécurité,
confidentialité, coût, performance…) Les acteurs sont nombreux sur le marché, et les
approches tout intégrées se multiplient chez les mastodontes de la discipline. Google
(Cloud), Amazon (AWS), Microsoft (Azure) proposent en effet des plateformes offrant des
services allant du data-store à la base de données massive, couplées à des possibilités
d’automatisation et d’industrialisation des connecteurs de données et permettant
l’accès facile à des solutions de Machine Learning (librairies standardisées, utilisation de
machines dites “virtuelles” pour exécuter les algorithmes à distance).
4. Big Data
Le Big Data va au-delà du volume, de la variété et de la vélocité, les fameux 3v. Nous
vous proposons aujourd’hui 10 caractéristiques et propriétés du Big Data pour vous
préparer aux défis et aux avantages des initiatives Big Data. 10 caractéristiques
commençant par V . Le terme big data apparaît avec parcimonie au début des années 90
et son importance a augmenté de façon exponentielle au fil des années. Actuellement, le
big data fait partie intégrante de la stratégie de l’entreprise en matière de données.
5 sur 9
Les mégadonnées ont des caractéristiques et des propriétés spécifiques qui peuvent vous
aider à comprendre à la fois les défis et les avantages du Big Data. Les 10 Vs du Bg data/
1: volume
Le volume est la composante la plus évidente du big data. Ce n’est pas surprenant, si l’on
considère que plus de 95% de toutes les données actuelles ont été créées ces cinq
dernières années. La masse actuelle de données peut être réellement stupéfiante.
2: Vitesse
Par Vitesse on désigne ici la vitesse à laquelle les données sont générées, produites,
créées ou actualisées.
Certes, il semble impressionnant que l’entrepôt de données de Facebook stocke plus de
300 pétaoctets de données. Mais la vitesse à laquelle les nouvelles données sont créées
doit être prise en compte. Facebook réclame 600 téraoctets de données entrantes par
jour.
3: Variété
Quand on évoque le Big Data, on évoque une immense variété de données. Il nous faut
non seulement gérer des données structurées, mais également des données semi-
structurées et surtout non structurées. Comme vous pouvez le déduire des exemples ci-
dessus. La plupart des données volumineuses semblent non structurées. Mais outre les
fichiers audio, images, fichiers vidéo, mises à jour des médias sociaux et autres formats de
texte, il existe également des fichiers journaux etc.
4: Variabilité
La variabilité quand on parle de Big Data fait référence à plusieurs choses. Tout d’abord
c’est le nombre d’incohérences dans les données. Celles-ci doivent être détectées par
des techniques de détection d’anomalies et de valeurs aberrantes pour faciliter la
creation d’analyse significative.
Les mégadonnées sont également variables en raison de la diversité de dimensions
résultant de multiples types et sources de données. La variabilité peut également faire
référence à la vitesse incohérente à laquelle les données volumineuses sont chargées
dans votre base de données.
5: Véracité
Quand l’une ou toutes les propriétés ci-dessus augmentent, la véracité , c’est a dire la
confiance en ces données, diminue. La véracité fait référence à la provenance ou à la
fiabilité de la source de données, à son contexte et à son importance pour l’analyse qui
en découle.
Des réponses à ces questions sont nécessaires pour déterminer la véracité de ces
informations. La connaissance de la véracité des données nous aide à mieux comprendre
les risques associés aux analyses et aux décisions commerciales basées sur cet ensemble
de données particulier.
6: Validité
6 sur 9
Similaire à la véracité, la validité fait référence à la précision et à la correction des
données pour l’usage auquel elles sont destinées. Selon Forbes, environ 60% du temps
d’un scientifique est consacré au nettoyage de ses données avant de pouvoir effectuer
une analyse. L’avantage de l’analyse des données massives est aussi primordiale que celui
des données sous-jacentes. Vous devez donc avoir de bonnes pratiques. De gouvernance
des données pour garantir une qualité des données cohérente, des définitions communes
et des métadonnées.
7: Vulnérabilité
Le Big Data apporte de nouveaux problèmes de sécurité. Après tout, une violation de
données avec Big Data est une grande violation. Est-ce que quelqu’un se souvient de
l’infâme AshleyMadison en 2015?
Malheureusement, il y a quotidiennement des violations de données massives. Un
exemple, rapporté par CRN: en mai 2016, “un pirate informatique appelé Peace a posté
des données sur le web sombre pour les vendre, qui auraient inclus des informations sur
167 millions de comptes LinkedIn et … 360 millions d’e-mails et de mots de passe pour
les utilisateurs de MySpace”.
8: Volatilité
Quel âge doivent avoir vos données pour qu’elles soient considérées comme non
pertinentes, historiques ou obsolete? Combien de temps faut-il conserver les données?
Avant l’ere big data, en general on stockait les données indéfiniment. Quelques
téraoctets de données ne pouvaient pas engendrer de dépenses de stockage élevées.
En raison de la vitesse et du volume de ces données massives, leur volatilité doit être
soigneusement prise en compte. Il est maintenant fondamental d’établir des règles pour
la disponibilité et à la mise à jour des données afin de garantir une récupération rapide
des informations en cas de besoin.
9: Visualisation
Une autre caractéristique du Big Data est la difficulté à les visualiser.
Les logiciels de visualisation de données volumineuses actuels sont confrontés à des
problèmes techniques en raison des limitations de la technologie en mémoire, de leur
faible évolutivité, de leur fonctionnalité et de leur temps de réponse. Il est impossible de
vous fier aux graphiques traditionnels lorsque vous essayez de tracer un milliard de points
de données. Il est donc nécessaire d’avoir différentes manières de représenter des
données. Telles que la mise en cluster de données ou l’utilisation de cartes d’arbres, de
sunbursts, de coordonnées parallèles, de diagrammes de réseau circulaires ou de cônes.
Si on associe cela avec la multitude de composante résultant de la variété et de la
vélocité des données massives et des relations complexes qui les lient, il est possible de
voir qu’il n’est pas si simple de créer une visualisation significative.
10: valeur
Dernier point, mais pas des moindre, est bien évidemment la Valeur. Les autres
caractéristiques du Big Data n’ont pas de sens si vous ne tirez pas de valeur commerciale
de ces données.
7 sur 9
Les Données massives offrent une valeur substantielle: comprendre mieux vos clients. Les
cibler en conséquence, optimiser les processus et améliorer les performances de la
machine ou de l’entreprise. Avant de vous lancer dans une stratégie Big Data, vous devez
comprendre le potentiel et les caractéristiques les plus difficiles.
5. La fouille des données (Data mining)

Le data mining est l’Extraction d'informations intéressantes (non triviales, implicites,
probablement inconnues, et potentiellement utiles) à partir d'une grande bases des
données. En d’autres termes on peut dire que c’est un processus non élémentaire de
recherche des relations, corrélations, dépendances, associations, modèles, tendances,...
lesquelles sont obtenues de grande quantité des données généralement en utilisant des
méthodes mathématiques, statistiques et algorithmiques.
5.1 Quelques raisons d'être du data mining sont :

- L'explosion des données : Les outils de collecte automatique des données et les
bases de données conduisent à d'énormes masses de données stockées dans des
entrepôts
- Submergés par les données, manque de connaissance ! :
- Données en trop grandes quantités pour être traitées manuellement ou par des
algorithmes classiques : Nombre d'enregistrements en million ou milliard, Donnée de
grande dimension (trop de champs/attributs/caractéristiques), Sources de données
hétérogènes
- Nécessité économique : e-commerce, Haut degré de concurrence, personnalisation,
︎délisation de la clientèle, market segmentation
5.2 Les types de données exploitées en data mining sont :

- Transactions : Tickets de caisse (liste d’articles, prix, quantité, etc). Factures ( produit,
client, jour). Communications téléphoniques : (interlocuteurs, durée, lieux.)
Connexions informatiques : fi︎chier "log"
- Bases de données des entreprises: Factures, Commandes. Suivi.
- Données du Web : Contenu des pages, Liens entre les pages, Historique des
connexions (︎fichiers log).
- Données textuelles : Pages Web. fi︎chiers word, pdf . . . Dépêches d'agence.
Digitalisation de bibliothèques
- Téléphone portable : Obligation légale de conservation des données. Durée des
communications, Numéros appelés (type, localisation). Abonnement, changements.
Mobilité.Utilisation des services annexes.
8 sur 9
5.3 : techniques de data mining
Le data mining met en oeuvre un ensemble de technique issues des statistiques, de
l'analyse de données et de l'informatique pour explorer les données.Il permet
d'accomplir des analyses qui peuvent être regroupées en deux catégories :
I. Les techniques descriptives : consiste à trouver les caractéristiques générales
relatives aux données fouillées . Classification, Association
II. Les techniques prédictives : Consiste à utiliser certaines variables pour prédire les
valeurs futures inconnues de la même variable ou d'autres variables: Estimation ,
Clustering, Prévision 
9 sur 9

SEQ0-Intoduction Data Sceinces

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

SEQ0-Intoduction Data Sceinces

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 0 : Introduction aux sciences des données

-2009:L’explosion du terme data science est amorcée.

-2011: L’engouement pour la data science se développe extrêmement rapidement: sur

3. Cycle de vie d’un projet Data Science

C) Définition des cas d’usages

3.2. Collecter & centraliser

2.1 Mise en place des connecteurs

Au-delà de ces considérations, il va falloir choisir une infrastructure, un hébergement

5. La fouille des données (Data mining)

5.1 Quelques raisons d'être du data mining sont :

5.2 Les types de données exploitées en data mining sont :

Vous aimerez peut-être aussi