2) Big Data / IA / Data mining /… BI : Quoi (What) Retour sur le cours 2 : les points importants :
https://le-datascientist.fr/le-vocabulaire-de-la-data-science-les-mots-a-connaitre ACID/BASE : local-transaction
Le data workflow
NoSQL : BDOG, BDOC, ECV, BDOD
3) Profils des postes (Who, How et Where) CAP : global
exemples d’entreprises/projets avec du Big Data Scale-up/Scale out
4) Quelques offres d’emploi récentes
relier les concepts à ceux vus en classe
identifier lequels des 7 éléments du data workflow se retrouvent dans l’offre d’emploi.
5) Varia:
Le TP
Au fait, la variété des données OK, mais le volume et la vitesse, qu’ont-ils entraîné ?
QQOQCCP
https://i0.wp.com/blog.zenika.com/wp-
content/uploads/2019/06/QQOQCP-
1024x729-1.jpg?ssl=1
WWWWWH
Volume Vitesse Variété
Framework Hadoop
https://medium.com/faun/scalability-248019b918ed
Blockchain et théorème CAP : AP
https://paulkernfeld.com/2016/01/15/bitcoin-cap-theorem.html
NoSQL
https://www.freecodecamp.org/news/nosql-databases-5f6639ed9574/
ACID et NoSQL : référence plus technique mais intéressant sur les tendances NoSQL
https://blog.yugabyte.com/nosql-databases-becoming-transactional-mongodb-dynamodb-faunadb-cosmosdb/
Data mining : c’est un processus de mise en application d’algorithmes spécifiques afin d’extraire des
patterns/motifs/modèles/tendances dans les données. Pattern : structurer le non structuré
IA : Artificial intelligence (AI) vise à créer des machines intelligentes qui travaillent et réagissent comme des êtres
humains.
Machine Learning : se concentre sur la question de construire des programmes informatiques qui
s’améliorent d’eux-mêmes de par leur expérience/leur apprentissage
Deep learning. est le processus qui consiste à appliquer les technologies/algorithmes du deep
learning (apprentissage profond – supervisé – par couches de neurones) afin de résoudre des problèmes.
Data science – Science des données : un mélange interdisciplinaire de développement d’algorithmes, de technologies et
d’inférences sur les données afin de résoudre des problèmes complexes.
Les 4 aires de compétences techniques du data scientist
outils processus
https://medium.com/@hellomeets/what-is-data-science-and-why-it-is-the-future-a069670704ca
https://www.slideshare.
net/DeZyre/how-big-
data-is-transforming-bi
https://tdwi.org/articles/2017/12/05/bi-all-understanding-differences-data-science-and-bi.aspx
BI-Databases versus Data Science
Cours Amor
Amami / ML
BI-Databases versus Data Science
https://blog.revolutiona
nalytics.com/2013/05/
statistics-vs-data-
science-vs-bi.html
https://www.linkedin.com/pulse/data-science-business-intelligence-whats-difference-david-rostcheck/
BI-Databases versus Data Science
https://infocus.delltechnologies.com/william_schmarzo/dynamic-duo-analytic-power-business-intelligence-analyst-
plus-data-scientist/
https://data-flair.training/blogs/business-intelligence-vs-data-science/
BI Science de données
Apprentissage machine
Données non structurées Enrichissement de données
2)
3)
Collecter les données
Préparer les données Travailler avec
4) Concevoir un modèle
5)
6)
Visualiser les résultats
Optimiser le modèle
les données
7) Déployer et industrialiser Communiquer les résultats
CRISP-DM : Cross Industry Standard Process for Data Mining
https://medium.com/analytics-vidhya/learn-data-science-using-crisp-dm-framework-
473960b2da90
https://data-flair.training/blogs/wp-
content/uploads/sites/2/2019/04/data-science-steps.jpg
Comprendre le
besoin d’affaires :
20% du temps
15% du temps
Datalab
https://www.linkedin.com/pulse/data-science-workflow-matt-dancho/
Une organisation qui a un chiffre d’affaires de $50M, mais qui a un taux de désintérêt de 10% perd 5M$/année.
Si la science de données me permet de prédire ceux qui vont quitter, et de mettre en place des stratégies de rétention
ciblées, qui seraient efficaces à 20%, cela permettrait de sauver $1M/année.
Nous voulons mettre en place une solution en 7 phases. Nous allons voir les deux premières.
La deuxième étant la collecte de données : quelles seront les données que vous allez collecter ?
- Que remarquez vous : il faut une bonne connaissance du métier pour effectuer les bons choix : comment
mesurer “objectivement” le désintérêt ?
Dans le volume des données
Dans le cas du désintérêt du client (churn), quels seraient les données de type Big Data qui pourraient être utiles ?
Soyez créatifs !
Why How
What
https://www.geek
ering.com/?p=10
30
Communication/Visualisation
Statistiques/Mathématiques
Programmation et base de données
Business
https://www.semanticscholar.org/paper/Data-Scientist%3A-The-Engineer-of-the-Future-Aalst/4470e53d2d28f93382de82f8f4365f7514b9f4cf/figure/7
https://www.slideshare.net/productschool/exploring-what-a-
typical-data-science-project-looks-like
https://www.kdnuggets.com/2020/0
3/nine-lessons-first-year-data-
scientist.html
https://data-flair.training/blogs/big-data-vs-data-science/
•The roles of Data Scientist and Big Data specialist also differ.
•A Data Scientist is required to analyze, draw insights from the data, visualize the data and communicate the
results through robust storytelling.
•A Big Data Specialist, on the other hand, develops, maintains and administers Big Data clusters that hold the
voluminous amount of data.
•Recently, the line between Big Data and Data Science has been becoming lesser. This is because recent Big Data
platforms like Spark and Flink have data analytical engine as part of their framework. Even the older platform like
Hadoop has released Mahout, which is the data analytical engine comprising of machine learning algorithms. This
makes the Big Data platform comprehensive and inclusive of all the data science tools.
https://data-flair.training/blogs/big-data-vs-data-science/
https://www.whizlabs.com/blog/data-science-vs-big-data-vs-data-analytics/
https://searchdatamanagement.
techtarget.com/feature/Data-
management-roles-Data-
architect-vs-data-engineer-
others
https://data-flair.training/blogs/data-scientist-vs-
data-engineer-vs-data-analyst/
Développe les solutions Big data établies par l’architecte à l’aide des
outils mis en place par l’admin.
Extrait, transforme, manipule, maintient et teste les données.