Vous êtes sur la page 1sur 42

1) Retour sur le cours 2 (Why)

2) Big Data / IA / Data mining /… BI : Quoi (What) Retour sur le cours 2 : les points importants :
https://le-datascientist.fr/le-vocabulaire-de-la-data-science-les-mots-a-connaitre ACID/BASE : local-transaction
Le data workflow
NoSQL : BDOG, BDOC, ECV, BDOD
3) Profils des postes (Who, How et Where) CAP : global
exemples d’entreprises/projets avec du Big Data Scale-up/Scale out
4) Quelques offres d’emploi récentes
relier les concepts à ceux vus en classe
identifier lequels des 7 éléments du data workflow se retrouvent dans l’offre d’emploi.

5) Varia:
Le TP

Au fait, la variété des données OK, mais le volume et la vitesse, qu’ont-ils entraîné ?
QQOQCCP

https://i0.wp.com/blog.zenika.com/wp-
content/uploads/2019/06/QQOQCP-
1024x729-1.jpg?ssl=1

WWWWWH
Volume Vitesse Variété

CAP ou pas CAP Données


SGBDR
ACID structurées
Systèmes distribués Données semi
structurées
NOSQL
Systèmes en mode Données non BASE
« service » structurées

Framework Hadoop

https://medium.com/faun/scalability-248019b918ed
Blockchain et théorème CAP : AP
https://paulkernfeld.com/2016/01/15/bitcoin-cap-theorem.html

NoSQL
https://www.freecodecamp.org/news/nosql-databases-5f6639ed9574/

Cohérence (ACID) et intégrité référentielle / intégrité


https://www.sqa.org.uk/e-learning/MDBS01CD/page_37.htm

ACID et NoSQL : référence plus technique mais intéressant sur les tendances NoSQL
https://blog.yugabyte.com/nosql-databases-becoming-transactional-mongodb-dynamodb-faunadb-cosmosdb/

BigData – Data Science – Machine Learning – IA - … BI


voir la suite
https://medium.com/@hellomeets/what-is-data-science-and-why-it-is-the-future-a069670704ca
https://medium.com/@hellomeets/what-is-data-science-and-why-it-is-the-future-a069670704ca

Data mining : c’est un processus de mise en application d’algorithmes spécifiques afin d’extraire des
patterns/motifs/modèles/tendances dans les données. Pattern : structurer le non structuré

Big Data : comment répondre aux 3 V et en extraire de la valeur

IA : Artificial intelligence (AI) vise à créer des machines intelligentes qui travaillent et réagissent comme des êtres
humains.
Machine Learning : se concentre sur la question de construire des programmes informatiques qui
s’améliorent d’eux-mêmes de par leur expérience/leur apprentissage
Deep learning. est le processus qui consiste à appliquer les technologies/algorithmes du deep
learning (apprentissage profond – supervisé – par couches de neurones) afin de résoudre des problèmes.

Data science – Science des données : un mélange interdisciplinaire de développement d’algorithmes, de technologies et
d’inférences sur les données afin de résoudre des problèmes complexes.
Les 4 aires de compétences techniques du data scientist

outils processus

https://medium.com/@hellomeets/what-is-data-science-and-why-it-is-the-future-a069670704ca
https://www.slideshare.
net/DeZyre/how-big-
data-is-transforming-bi
https://tdwi.org/articles/2017/12/05/bi-all-understanding-differences-data-science-and-bi.aspx
BI-Databases versus Data Science
Cours Amor
Amami / ML
BI-Databases versus Data Science

https://blog.revolutiona
nalytics.com/2013/05/
statistics-vs-data-
science-vs-bi.html
https://www.linkedin.com/pulse/data-science-business-intelligence-whats-difference-david-rostcheck/
BI-Databases versus Data Science

https://infocus.delltechnologies.com/william_schmarzo/dynamic-duo-analytic-power-business-intelligence-analyst-
plus-data-scientist/
https://data-flair.training/blogs/business-intelligence-vs-data-science/
BI Science de données

Intelligence artificielle Single version of truth


Que s’est-il passé

Apprentissage machine
Données non structurées Enrichissement de données

Forecast Entrepôt de données Analyse de texte CAP


Modèle d’apprentissage Modélisation des données
Hadoop Exploration des données
ACID
Que se serait-il passé si ?
Tableau de bord des résultats financiers
NoSQL
Méthodes statistiques
1) Imaginer un produit / une solution Comprendre le besoin d’affaires

2)
3)
Collecter les données
Préparer les données Travailler avec
4) Concevoir un modèle
5)
6)
Visualiser les résultats
Optimiser le modèle
les données
7) Déployer et industrialiser Communiquer les résultats
CRISP-DM : Cross Industry Standard Process for Data Mining

https://medium.com/analytics-vidhya/learn-data-science-using-crisp-dm-framework-
473960b2da90
https://data-flair.training/blogs/wp-
content/uploads/sites/2/2019/04/data-science-steps.jpg
Comprendre le
besoin d’affaires :
20% du temps

Travailler avec les données : 60 % du temps


ML : 5% du temps

15% du temps

Datalab
https://www.linkedin.com/pulse/data-science-workflow-matt-dancho/
Une organisation qui a un chiffre d’affaires de $50M, mais qui a un taux de désintérêt de 10% perd 5M$/année.
Si la science de données me permet de prédire ceux qui vont quitter, et de mettre en place des stratégies de rétention
ciblées, qui seraient efficaces à 20%, cela permettrait de sauver $1M/année.

Nous voulons mettre en place une solution en 7 phases. Nous allons voir les deux premières.

La première étant de comprendre le besoin d’affaires/imaginer une solution.


- Besoin d’affaires : diminuer le churn de 20%
- Solution : concevoir un modèle qui permettra de prédire quels clients se désintéressent de nos produits

La deuxième étant la collecte de données : quelles seront les données que vous allez collecter ?
- Que remarquez vous : il faut une bonne connaissance du métier pour effectuer les bons choix : comment
mesurer “objectivement” le désintérêt ?
Dans le volume des données

Dans la nature, des données (variété)

Dans la vitesse, le traitement des données

Dans le cas du désintérêt du client (churn), quels seraient les données de type Big Data qui pourraient être utiles ?
Soyez créatifs !
Why How

Pression 3V Big Data


Where Who
When
Besoins d’affaires NoSQL
HDFS Quels projets, Métiers du Big
Quand FAUT-il MapReduce entreprises… Data
utiliser le Big
Data IA
ML

What
https://www.geek
ering.com/?p=10
30
Communication/Visualisation
Statistiques/Mathématiques
Programmation et base de données
Business

https://www.semanticscholar.org/paper/Data-Scientist%3A-The-Engineer-of-the-Future-Aalst/4470e53d2d28f93382de82f8f4365f7514b9f4cf/figure/7
https://www.slideshare.net/productschool/exploring-what-a-
typical-data-science-project-looks-like
https://www.kdnuggets.com/2020/0
3/nine-lessons-first-year-data-
scientist.html
https://data-flair.training/blogs/big-data-vs-data-science/
•The roles of Data Scientist and Big Data specialist also differ.

•A Data Scientist is required to analyze, draw insights from the data, visualize the data and communicate the
results through robust storytelling.

•A Big Data Specialist, on the other hand, develops, maintains and administers Big Data clusters that hold the
voluminous amount of data.

•Recently, the line between Big Data and Data Science has been becoming lesser. This is because recent Big Data
platforms like Spark and Flink have data analytical engine as part of their framework. Even the older platform like
Hadoop has released Mahout, which is the data analytical engine comprising of machine learning algorithms. This
makes the Big Data platform comprehensive and inclusive of all the data science tools.

https://data-flair.training/blogs/big-data-vs-data-science/
https://www.whizlabs.com/blog/data-science-vs-big-data-vs-data-analytics/
https://searchdatamanagement.
techtarget.com/feature/Data-
management-roles-Data-
architect-vs-data-engineer-
others

https://data-flair.training/blogs/data-scientist-vs-
data-engineer-vs-data-analyst/
Développe les solutions Big data établies par l’architecte à l’aide des
outils mis en place par l’admin.
Extrait, transforme, manipule, maintient et teste les données.

Programmation informatique (ex.: Java, Python, R, Scala, SQL, etc.)


•Data warehousing et NoSQL
•Grandes capacités analytiques (comparables aux data scientists)
•Grande connaissance des systèmes distribués
Obtient et organise le Big Data.
Aide ses partenaires d’affaires à interpréter et à comprendre les
données.

•Mathématiques, statistiques et programmation informatique


•Logiciels BI (Tableau, MicroStrategy, SAP, PowerBI, etc.)
•Aptitudes analytiques
•Capacité de communication (data story telling)
Expert en analyse de données ayant de très grandes aptitudes
techniques en modélisation de données pour solutionner les problèmes
le plus complexes d’une organisation à l’aide des données et ayant aussi
la curiosité nécessaire pour explorer les problèmes sur lesquels
l’organisation devrait se pencher.

•Mathématiques, statistiques et de niveau académique (M.Sc. Ou PhD)


•Connaissances en programmation informatique de niveau «hacker»
•Créativité analytique accrue
•Capacité de communication (data story telling)
https://www.kdnuggets.com/2017/02/analytics-grease-
monkeys.html

Vous aimerez peut-être aussi