Vous êtes sur la page 1sur 33

DATA FROM SCRATCH

Travailler dans le
monde de la data
Tout savoir sur les métiers de Data Engineer, Data Scientist et Data
Analyst

Data From Scratch - Willis Willis Nana Blog - Data From Scratch Willis Nana Willis Nana
Data Engineer vs Data Scientist vs Data
Analyst : quelle est la différence ?
Data Engineer Data Scientist Data Analyst

Un Data Engineer est responsable de mettre en Un Data Scientist extrait de la valeur à partir des La mission d'un Data Analyst est de découvrir
place et maintenir l'infrastructure permettant de données grâce à des algorithmes. Le but est de comment les données peuvent être utilisées pour
transformer des données en informations résoudre des problèmes complexes afin répondre à des questions et résoudre des
pertinentes. Il peut également accompagner les d’impacter positivement le business. Rôle clé dans problèmes. Dans une équipe de data science, Il est
data scientists et les data analysts dans l'utilisation une équipe de data science, il apporte une vision en première ligne pour répondre aux questions
des données. Il joue un rôle essentiel dans une stratégique à une entreprise désirant valoriser ces concernant les données dans une entreprise via des
équipe de data science en permettant d'avoir des données. dashboards et analyses ad-hocs*.
données de qualité. *L'analyse ad-hoc est un processus analytics pensé pour répondre à une question métier spécifique et
précise.
Data Engineer vs Data Scientist vs Data
Analyst : les prérequis de diplôme
Data Engineer Data Scientist Data Analyst

France : Bac+3 à bac +5 en statistique, en


France : Bac+5 à doctorat en statistique, en informatique, France : Bac+3 à bac 5 en statistique, en informatique,
informatique, en mathématique ou bac +5 dans une
en mathématique ou bac +5 une école d'ingénieur en mathématique ou bac +5 dans une école d'ingénieur
école d'ingénieur
Canada : Master or Ph.D. en Technology, Computer Canada : Bachelor of Science en Technology,
Canada : Bachelor of Science en Technology,
Science, Engineering ou Mathematics (STEM) Computer Science, Engineering ou Mathematics (STEM)
Engineering, Computer Science ou Mathematics (STEM)
USA : Master or Ph.D. en Technology, Computer Science, USA : Bachelor of Science en Science, Computer
USA : Bachelor of Science en Technology, Engineering,
Engineering ou Mathematics (STEM) Science, Engineering ou Mathematics (STEM)
Computer Science ou Mathematics (STEM)
Data Engineer : son rôle en détail
Un Data Engineer crée des pipelines de données robustes et tolérants aux pannes pour
nettoyer, transformer et stocker des données dans des bases de données.

Il prépare le terrain afin que les data analysts et les data scientists puissent travailler plus
facilement avec les données.

Être Data Engineer peut être différent suivant, l'entreprise, l'équipe et le niveau
d'expérience.
Il peut être dédié, par exemple, à la création de data pipeline ainsi qu'à la gestion d'un
datawarehouse. Il peut également être amené à gérer l'administration d'une infrastructure
cloud permettant la mise en place des pipelines de données. Travailler dans de plus
petites entreprises signifie souvent endosser une plus grande variété de tâches.
Le Data Engineering est l'art de récupérer, transformer et stocker la donnée. Un data
engineer doit être à l'affut des dernières technologies. Cela est nécessaire pour
transformer les données de la manière la plus efficace possible.
Comment devenir Data Engineer ? (1/4)
1 - SQL : Il s'agit d'un langage informatique permettant d'exploiter les bases de données relationnelles. C'est une compétence indispensable pour un data
engineer.

Liens utiles :
SQL Tutorial - Full Database Course for Beginners par freeCodeCamp.org : https://youtu.be/HXV3zeQKqGY
SQL #1 - introduction par FormationVidéo : https://youtu.be/3KwmNNucIjA
Apprendre le SQL : https://sql.sh
SQL Facile ! : https://www.sqlfacile.com

2 - Python, Java ou/et Scala et solide base en software engineering : Un data engineer doit maitriser les principes de la programmation/conception logicielle (software
engineering en anglais) ainsi que l'un de ces trois langages de programmation (Python, Java ou Scala). Il est important de connaitre, la programmation orientée objet et
fonctionnelle, les instructions de contrôle de flux, la syntaxe et les fonctions de base.

Liens utiles :
Introduction à la programmation et à l'informatique – Cours complet par freeCodeCamp.org (en anglais) : https://youtu.be/zOjov-2OZ0E
APPRENDRE PYTHON: FORMATION COMPLÈTE GRATUITE [2021] par Docstring : https://www.youtube.com/watch?v=LamjAFnybo0
Scala Tutorial for Beginners par ProgrammingKnowledge (en anglais) : https://youtu.be/OfngvXKNkpM

3 - ETL/Data Pipeline : Le cœur du métier de data engineer est de créer des data pipelines afin de transformer la donnée en information.

Liens utiles :
Airflow tutorial 1: Introduction to Apache Airflow par Tuan Vu (en anglais) : https://youtu.be/AHMm1wfGuHE
Building Robust ETL Pipelines with Apache Spark - Xiao Li par Databricks (en anglais) : https://youtu.be/exWGf0aXJF4
Comment devenir Data Engineer ? (2/4)
4 - Datawarehouse/Datalake et modélisation de données : Le data engineer a sous sa responsabilité d'organiser les données (alias la modélisation de
données) dans un entrepôt de données (datawarehouse en anglais) ou un lac de données (datalake en anglais).

Liens utiles :
Data Warehouse Tutorial for Beginners: Learn in 7 Days (en anglais) : https://www.guru99.com/data-warehousing-tutorial.html
Data Lake vs Data Warehouse: What’s the Difference? (en anglais): https://www.guru99.com/data-lake-vs-data-warehouse.html

5 - Système distribué ou/et technologies cloud : La transformation des données est réalisée soit, sur des serveurs physiques (appelé "On-Premise"), soit dans le cloud.
La connaissance d'un des deux environnements est primordiale !

Liens utiles :
Hadoop : un système distribué : http://rtsomar.unblog.fr/hadoop-un-systeme-distribue/
AWS (Amazon Web Services) Tutorial: Basics for Beginners (en anglais) : https://www.guru99.com/aws-tutorial.html

6 - Commande Bash : Afin d'avoir le plus de flexibilité possible dans l'administration des différents services permettant de traiter les données, un data engineer
doit connaitre les bases des commandes Bash.

Liens utiles :
Linux Command Line Full course: Beginners to Experts par Geek's Lesson (en anglais) : https://youtu.be/2PGnYjbYuUo
Les commandes de base en console linux : https://doc.ubuntu-fr.org/tutoriel/console_commandes_de_base
Comment devenir Data Engineer ? (3/4)
7 - Source control – Git : Afin de travailler confortablement en équipe, un data engineer doit savoir utiliser un source control comme git. Cet outil permet le
suivi et le versioning de code.

Lien utile :
LES BASES DE GIT (tuto débutant) par Graven - Développement : https://youtu.be/gp_k0UVOYMw

8 - Création de reporting/Tableau de bord et définition de KPI* : Le but final de la donnée est d'être utilisé pour prendre des décisions. Pour cela, un data
engineer doit être capable d'analyser et tirer des conclusions analytiques à partir de données grâce à des outils.

Liens utiles :
#8 - Apprendre à coder en Python pour l'Intelligence Artificielle - Data Visualisation par Defend Intelligence : https://youtu.be/KNToNvz3BJY
Power BI Tutorial: What is Power BI? Why Use? (en anglais) : https://www.guru99.com/power-bi-tutorial.html
Tableau for Data Science and Data Visualization - Crash Course Tutorial par freeCodeCamp.org (en anglais): https://youtu.be/TPMlZxRRaBQ
Jupyter Notebook Tutorial par Project Data Science (en anglais) : https://youtu.be/DKiI6NfSIe8

*Un KPI est une mesure numérique permettant à l'entreprise de prendre des décisions business éclairées.
Comment devenir Data Engineer ? (4/4)
Bonus 1 - NoSQL : La quantité de données étant de plus en plus colossale, ce type de base de données permet de résoudre les problèmes de "scalabilité"
(= capacité d'une infrastructure à s'adapter, maintenir ses fonctionnalités ainsi que ses performances en cas de forte demande). Un data engineer peut être
amené à utiliser cette catégorie de base de données.

Liens utiles :
Cassandra Tutorial for Beginners: Learn in 3 Days (en anglais) : https://www.guru99.com/cassandra-tutorial.html
MongoDB Tutorial for Beginners: Learn Basics in 7 Days (en anglais) : https://www.guru99.com/mongodb-tutorials.html

Bonus 2 - DevOps : Il s'agit d'un ensemble de pratiques visant à l'unification du développement logiciel et administration des infrastructures
informatiques, notamment l'administration système, dans le but d'automatiser l'administration de serveur. Un data engineer peut être exposé ce type
pratique.

Liens utiles :
Le DevOps expliqué en émojis par Cookie connecté : https://youtu.be/M6F6GWcGxLQ
Docker : comprendre l'essentiel en 7 minutes par Cookie connecté : https://youtu.be/caXHwYC3tq8
Kubernetes : l'essentiel en 7 minutes par Cookie connecté : https://youtu.be/NChhdOZV4sY
Bonus 3 - Déploiement de modèle de Machine Learning : Un data engineer peut être amené à déployer des modèles de machine learning dans un
environnement de production. Cependant, cette tache est de plus en plus sous la responsabilité de profil type "Machine Learning Engineer".

Liens utiles :
Guide en 4 étapes pour le déploiement de modèles de machine learning : https://cynoteck.com/fr/blog-post/model-deployment-guide/
Déployer Un Modèle De Machine Learning Avec Flask : https://ledatascientist.com/deployer-un-modele-de-machine-learning-avec-flask/
Data Engineer : les softs skills à avoir
COMMUNICATION RÉSOLUTION DE PROBLÈME

Vous aurez besoin d'échanger avec les Voir les problèmes à résoudre comme des
membres de votre équipe ou d'autres challenges et non comme des difficultés
personnes de l'entreprise afin de sera important pour vous épanouir et
comprendre leurs besoins. L'intelligence évoluer en tant que data engineer.
collective vous permettra d'avoir différents
points de vue concernant les données à
transformer ou l'architecture à mettre en
place.

SENS "PRODUIT" CURIOSITÉ


INTELLECTUELLE

Il est très important de ne pas oublier que


l'ensemble des données transformées ont Le data engineering est une discipline en
pour but d'aider à la décision. Il est donc constante évolution. Il est essentiel d'être
important de comprendre le contexte curieux sur les nouveautés à venir, de faire
business et d'avoir une bonne de la veille ainsi que de se former
connaissance du produit sur lequel vous régulièrement à de nouveaux outils.
travaillez.
Data Engineer : salaires dans quelques pays
Il est toujours difficile de déterminer le salaire "idéal" pour un data engineer. Cela dépend de
votre diplôme, du lieu géographique, et surtout de vos compétences techniques et de vos
expériences. D'autres critères comme le budget de recrutement de l'entreprise ou le bassin
de candidats peut jouer sur votre salaire.
Cependant, j'ai fait des recherches pour trouver, les fourchettes de salaires en fonction du
niveau d'expérience, et ça, dans quelques pays.

FRANCE UK CANADA ÉTATS-UNIS


- Junior : €31K - €40K - Junior : £30K - £35K - Junior : CA$65K - CA$75K - Junior : $65K - $75K

- Confirmé : €40K - €55K - Confirmé : £45K - £75K - Confirmé : CA$75K - CA$95K - Confirmé : $69K - $150K

- Expérimenté : €55K - €90K - Expérimenté : £75K - £120K - Expérimenté : CA$95K - CA$140K - Expérimenté : $150K - $500K

Sources :
- France : https://www.linkedin.com/salary/search?countryCode=fr&geoId=105015875&keywords=data%20engineer
- France : https://fr.glassdoor.ca/Salaires/france-data-engineer-salaire-SRCH_IL.0,6_IN86_KO7,20.htm
- UK : https://www.linkedin.com/salary/search/company?countryCode=gb&geoId=101165590&keywords=data%2Bengineer&start=0
- UK : https://fr.glassdoor.ca/Salaires/angleterre-data-engineer-salaire-SRCH_IL.0,10_IS7287_KO11,24.htm
- Canada : https://fr.glassdoor.ca/Salaires/canada-data-engineer-salaire-SRCH_IL.0,6_IN3_KO7,20.htm
- Canada : https://www.linkedin.com/salary/search?countryCode=ca&geoId=101174742&keywords=data%20engineer
- USA : https://fr.glassdoor.ca/Salaires/%C3%A9tats-unis-data-engineer-salaire-SRCH_IL.0,10_IN1_KO11,24.htm
- USA : https://www.linkedin.com/salary/search?countryCode=xx&geoId=103644278&keywords=data%20engineer
Data Engineer : des idées pour ton 1ᵉʳ
project en Data Engineering (1/2)
Idéalement, voici les 5 étapes qui doivent être présentes pour un projet de data engineering réussi :

1. Source des données : Dans un monde où, il y a une infinité de sources de données, un data engineer doit démontrer les capacités de travailler
avec différentes sources comme un fichier CSV, une base de données ou une API.

2. Ingestion, nettoyage et transformation des données : Il s'agit du cœur du métier de data engineer. Ingérer, nettoyer et transformer des données
de manière efficace en batch ou en streaming.

3. Stockage de données : Après l'ingestion et la transformation, il est maintenant temps de stocker et d'organiser les données de façon
appropriée.

4. Visualisation de données : Une fois les données stockées, il est important d'afficher les données de manière visuellement pertinente.

5. Analyse de données : Il est à présent temps de tirer des conclusions analytiques sur les données transformées.

PS : En entreprise, les points 4 et 5 sont réalisés en collaboration avec les data analysts et les data scientists
Data Engineer : des idées pour ton 1ᵉʳ
project en Data Engineering (2/2)
La meilleure façon d'apprendre est de passer à l'action ! Voici 5 projets en Data Engineering pour passer à la pratique :

1 - Data Engineering Project for Beginners - Batch edition (en anglais) : https://www.startdataengineering.com/post/data-engineering-project-for-
beginners-batch-edition/

2 - HashtagCashtag par Shafi Bashar (en anglais) : https://github.com/shafiab/HashtagCashtag

3 - Building a Data Engineering Project in 20 Minutes (en anglais) : https://www.sspaeti.com/blog/data-engineering-project-in-twenty-minutes/

4 - Meetup.com Data Engineering Project (en anglais) : https://josephwibowo.github.io/Meetup_Analytics/

5 - Mon blog - http://datafromscratch.blog/ : je vous en prépare en français pour très bientôt!

Data Pipeline

Le Data Engineering est l'art de récupérer,


transformer et stocker les données, comme
pourrait le faire une station d'épuration avec de données
l'eau !
Data Scientist : son rôle en détail
Le rôle d'un data scientist combine l'informatique, les statistiques et les mathématiques. Il analyse,
traite et modélise les données, puis il interprète les résultats à l'aide de statistiques avancées.

Un data scientist travaille en étroite collaboration avec différents départements d'une entreprise afin
de comprendre leurs objectifs. Il cherche comment les données peuvent être utilisées afin
d'atteindre un objectif. Ils utilisent la connaissance d'une industrie, la compréhension contextuelle
pour découvrir des solutions à des défis business.

Il utilise des algorithmes et des modèles prédictifs pour extraire de la valeur à l’aide des données. Le
but est d’aider une entreprise à prendre des décisions stratégiques.

On peut considérer le rôle de data scientist comme "généraliste", car il existe plusieurs types de data
scientist. La spécialisation d'un data scientist est de plus en plus importante pour travailler sur un
projet de data science.
Par exemple, Machine Learning Engineer est un data scientist spécialisé dans la mise en place et
l'industrialisation de modèles de machine learning, ou encore, un data scientist peut-être spécialisé
dans la "Computer Vision". Il sera donc spécialisé dans le traitement d'images par ordinateur dans le
but (par exemple) de créer des algorithmes de reconnaissance d'objet.
Comment devenir Data Scientist ? (1/4)
1 - Statistiques et mathématiques : Un data scientist disposera d'une solide maîtrise à la fois des mathématiques et des statistiques.

Liens utiles :
Les 10 notions mathématiques à connaitre en tant que Data Scientist : https://youtu.be/AycMp7X9Z20
Statistics - A Full University Course on Data Science Basics par freecodecamp.org (en anglais) : https://www.youtube.com/watch?v=xxpc-HPKN28

2 - Python, R et base en software engineering : Pour passer de la théorie (mathématique) à la pratiques, un data scientist a besoin de solides bases en
programmation (appelé aussi software engineering). Il est important de connaitre la programmation orientée objet, les instructions de contrôle de flux, la
syntaxe et les fonctions de base.

Liens utiles :
APPRENDRE PYTHON: FORMATION COMPLÈTE GRATUITE [2021] par Docstring : https://youtu.be/LamjAFnybo0
#6 - Apprendre à coder en Python pour l'Intelligence Artificielle - Numpy et Pandas par Defend Intelligence : https://youtu.be/qMGjh6rKIgw
Python for Data Science - Course for Beginners (Learn Python, Pandas, NumPy, Matplotlib) par freecodecamp.org (en anglais) : https://youtu.be/LHBE6Q9XlzI
R Pour La Data Science par Zak ISMAILI : https://youtu.be/erXQPvUEoE4
Comment devenir Data Scientist ? (2/4)
3 - SQL et Analytics : Les données sont le carburant de la data science. C'est pourquoi un data scientist devra avoir des compétences élevées en SQL et en analytics. Le
langage SQL permet d'analyser et de manipuler des données. L'analytics est le processus de découverte et d'analyse de patterns dans les données.

Liens utiles :
SQL Tutorial - Full Database Course for Beginners par freeCodeCamp.org : https://youtu.be/HXV3zeQKqGY
SQL #1 - introduction par FormationVidéo : https://youtu.be/3KwmNNucIjA
Apprendre le SQL : https://sql.sh
SQL Facile ! : https://www.sqlfacile.com
Intro to Data Science - Crash Course for Beginners par freecodecamp.org (en anglais) : https://youtu.be/N6BghzuFLIg

4 - Machine Learning (voir Deep Learning): Le Machine Learning (apprentissage automatique en français) est une branche de l'intelligence artificielle qui se concentre dans
l'utilisation et le développement de systèmes informatiques capables d'apprendre et de s'adapter sans suivre des instructions explicites. Pour cela, ces systèmes utilisent
des algorithmes et des modèles statistiques afin analyser et tirer des conclusions de données.

Le Deep Learning (apprentissage profond) est un type de Machine Learning qui imite la façon dont le cerveau humain apprend certains types de connaissances. Utilisant
des réseaux de neurones artificiels pour traiter l'information, le Deep Learning facilite, par exemple, la classification des images, la traduction des langues et la
reconnaissance vocale.

Bien qu'il ne soit pas toujours nécessaire d'avoir des connaissances de niveau expert dans ces domaine, un niveau de familiarité sera attendu.

Liens utiles :
FORMATION MACHINE LEARNING (2019) par Machine Learnia : https://youtu.be/EUD07IiviJg
Machine Learning Course for Beginners par https://freecodecamp.org/ (en anglais): https://youtu.be/NWONeJKn6kc
FORMATION DEEP LEARNING COMPLETE (2021) par Machine Learnia : https://youtu.be/XUFLq6dKQok
PYTHON SKLEARN: KNN, LinearRegression et SUPERVISED LEARNING par Machine Learnia : https://youtu.be/P6kSc3qVph0
Introduction à Machine Learning par TensorFlow (Google) : https://youtu.be/sdIINp0-CAA
Comment devenir Data Scientist ? (3/4)
5 - Data visualisation et définition de KPI* : La visualisation des données est un section clé, car un data scientist doit être capable de communiquer
efficacement les résultats clés et rassembler autour d'une solution proposée. Comprendre comment décomposer des données complexes en morceaux plus
petits et digestes ainsi qu'utiliser une variété de représentations visuelles (tableaux, graphiques, etc.) est une compétence qui vous permettra d'expliquer vos
conclusions trouvées.

Liens utiles :
#8 - Apprendre à coder en Python pour l'Intelligence Artificielle - Data Visualisation par Defend Intelligence : https://youtu.be/KNToNvz3BJY
Power BI : https://www.guru99.com/power-bi-tutorial.html
Tableau Dashboard : https://youtu.be/TPMlZxRRaBQ
*Un KPI est une mesure numérique permettant à l'entreprise de prendre des décisions business éclairées.

6 - Source control – Git : Afin de travailler confortablement en equipe, un data scientist doit savoir utiliser un source control comme git. Cet outil permet le
suivi et le versioning du code.

Liens utiles :
LES BASES DE GIT (tuto débutant) par Graven - Développement : https://youtu.be/gp_k0UVOYMw
Comment devenir Data Scientist ? (4/4)
Bonus - "Data Intuition" : C'est la capacité d'avoir un sens critique sur les données en tant que data scientist

Comment développer sa "data intuition" 2 points :

1) Connaissance du domaine business : La maîtrise d'outils techniques ne suffit pas. Il est essentiel de comprendre comment les données sont collectées et
comment les gens les perçoivent. La connaissance des outils sans connaissance du domaine est comme un marathon sans direction.

2) Communication et leadership : Lorsque vous travaillez au sein d'une équipe, l'intelligence collective vous permettra d'avoir différents points de vue concernant la
donnée. Cela comblera parfois certains trous auxquels vous n'auriez pas pensé par vous-même.

Être capable de communiquer avec des personnes, des experts de l'industrie aux novices, vous aidera à comprendre comment les données sont perçues par les
gens.

Enfin, les données sont utilisées pour aider les gens à prendre de meilleures décisions. Pour voir "l'avenir", il faut que les gens aient la même vision, travaille vers le
même objectif. Si vous pouvez sentir que les gens sont d'accord sur les données et sont prêts à travailler vers un même objectif, vous pouvez prédire l'avenir, et
cela démontrera votre leadership.
Data Scientist : les softs skills à avoir
COMMUNICATION ESPRIT CRITIQUE

Communiquer avec des publics variés à Appliquer une analyse objective des faits
tous les niveaux d'une organisation. avant de tirer une conclusion.

CURIOSITÉ
INTUITION "BUSINESS"
INTELLECTUELLE

Collaborez avec les parties prenantes


Examiner au-delà de ce qui est à la pour avoir une compréhension complète
surface des données pour découvrir des des problèmes qu'elles cherchent à
modèles et des solutions appropriées résoudre. Trouvez des solutions
pour résoudre des problèmes business analytiques à des problèmes business.
Data Scientist : salaires dans quelques pays
Il est toujours difficile de déterminer le salaire "idéal" pour un Data Scientist. Cela est très
variable de votre diplôme, du lieu géographique, mais surtout de vos compétences
techniques, de votre domaine business et de vos expériences. D'autres critères comme le
budget de recrutement de l'entreprise ou le bassin de candidats peut jouer sur votre salaire.
Cependant, j'ai fait des recherches pour trouver, les fourchettes de salaires en fonction du
niveau d'expérience, et ça, dans quelques pays.

FRANCE UK CANADA ÉTATS-UNIS


- Junior : €30K - €45K - Junior : £23K - £55K - Junior : CA$50K - CA$90K - Junior : $61K - $156K

- Confirmé : €40k - €60k - Confirmé : £40K - £75K - Confirmé : CA$65K - CA$125K - Confirmé : $75K - $175K

- Expérimenté : €55K - €90k - Expérimenté : £60K - £100K - Expérimenté : CA$65K - CA$140K - Expérimenté : $93K - $256K

Sources :
- France : https://www.linkedin.com/salary/search?countryCode=fr&geoId=105015875&keywords=data%20scientist
- France : https://fr.glassdoor.ca/Salaires/france-data-scientist-salaire-SRCH_IL.0,6_IN86_KO7,21.htm
- UK : https://www.linkedin.com/salary/search?countryCode=gb&geoId=101165590&keywords=data%20scientist
- UK : https://fr.glassdoor.ca/Salaires/royaume-uni-data-scientist-salaire-SRCH_IL.0,11_IN2_KO12,26.htm
- Canada : https://fr.glassdoor.ca/Salaires/canada-data-scientist-salaire-SRCH_IL.0,6_IN3_KO7,21.htm
- Canada : https://www.linkedin.com/salary/search?countryCode=ca&geoId=101174742&keywords=data%20scientist
- USA : https://fr.glassdoor.ca/Salaires/%C3%A9tats-unis-data-scientist-salaire-SRCH_IL.0,10_IN1_KO11,25.htm?clickSource=searchBtn
- USA : https://www.linkedin.com/salary/search?countryCode=xx&geoId=103644278&keywords=data%20scientist
Data Scientist : des idées pour ton 1ᵉʳ projet
en Data Science et Machine Learning (1/2)
Idéalement, voici les 6 étapes qui doivent être présentes pour un projet de data science réussi :

1. Définir les exigence business : La data science, c'est d'abord résoudre un problème business. À ce stade, vous devez être capable de définir un objectif clair pour votre projet.

2. Collecte de données : Vous devez acquérir toutes les données nécessaires pour résoudre le problème. Vous pouvez faire des recherches et récupérez des données sur
Internet, via des sources open data par exemple.

3. Nettoyage des données : Le nettoyage des données consiste à supprimer les données redondantes, manquantes, en doublons et inutiles. Cette étape est considérée comme
l'une des plus chronophages de la science des données.

4. Exploration et analyse des données : Cette phase a pour but de détecter des patterns et des tendances dans les données. C'est là que vous récupérez les données utiles et
étudiez le comportement des données. À la fin de cette étape, vous devez commencer à formuler des hypothèses via vos données afin d'avoir quelques pistes de solutions
concernant le problème que vous abordez.

5. Modélisation des données : Dans ce cadre, modéliser les données signifie que vous tentez de représenter le comportement d'un phénomène l'aide des données, pour
résoudre au mieux votre problème.

6. Déploiement et optimisation : Il s'agit de la dernière étape du cycle de vie d'un projet en science des données. À ce stade, vous devez essayer d'améliorer l'efficacité du
modèle de données, afin qu'il puisse faire des prédictions plus précises. L'objectif final est de déployer le modèle dans un environnement de production ou de type "production"
pour l'acceptation finale par l'utilisateur. Les utilisateurs doivent valider les performances du modèles et s'il y a des problèmes avec le modèle, ils doivent être résolus à cette
étape.

PS : En entreprise, les points 2, 3 sont réalisés en collaborations avec les data engineers
Data Scientist : des idées pour ton 1ᵉʳ projet
en Data Science et Machine Learning (2/2)
La meilleure façon d'apprendre est de passer à l'action ! Voici 4 projets en Data Data Science/Machine Learning pour passer à la pratique :

1 - 16 Data Science Projects with Source Code to Strengthen your Resume (en anglais) : https://data-flair.training/blogs/data-science-project-ideas/

2 - Top 47 Machine Learning Projects for 2021 [Source Code Included] (en anglais) : https://data-flair.training/blogs/machine-learning-project-ideas/

4 - 255+ Machine Learning Projects with Python (en anglais) : https://medium.com/coders-camp/230-machine-learning-projects-with-python-5d0c7abf8265

La Data Science permet de valoriser la donnée Intelligence


artificielle
et le Machine Learning permet de mettre en
action cette valorisation
données
Data Analyst : son rôle en détail
Le Data Analyst travaille en étroite collaboration avec differents départements d'une entreprise afin
de faciliter la prise de décision business à partir des données. Il amène des éléments concrets aux
décideurs d'une entreprise afin de les aider à affiner leurs tactiques business.

C'est un rôle est clé, car il permet une valorisation rapide les données collectées par une entreprise.
À l'aide de son aisance relationnelle, il interagira avec les métiers dans le but de les accompagner
dans la compréhension de la donnée. Ainsi, il aide à l'établissement d'une vision cohérente de
l'utilisation des données
Avec ces compétences en statistiques et sa maîtrise des chiffres, ce rôle consiste à trouver de
nouvelles façons de comprendre la donnée avec l'appui de nombreux outils. Il a sous sa
responsabilité, par exemple, la création de dashboard analytique, leur diffusion ainsi que leur bonne
interprétation.

Le rôle d'un data analyst est très large et varie en fonction du type d'organisation, ainsi que suivant le
degré de maturité d'utilisation des données et des outils business intelligence qu'une entreprise. Une
connaissance métier, par exemple, en marketing ou en finance, peut-être demandé. Elle facilitera la
mise en relation entre le data analyst et les départements métiers d'une entreprise. Il peut être
également amené à concevoir et maintenir des systèmes de données en collaboration avec le data
engineer.
Comment devenir Data Analyst ? (1/5)
1 - Statistiques : Un data analyst aura besoin de solide base en statistiques afin de valoriser la données

Liens utiles :
Statistics - A Full University Course on Data Science Basics par freecodecamp.org (en anglais) : https://www.youtube.com/watch?v=xxpc-HPKN28

2 - Outils analytiques : En plus des connaissance théorique en statistique, un data analyst devra avoir de l'expérience en outils statistiques pour l'analyse de
données. Il devra egalement avoir de solides compétences analytiques avec la capacité de collecter, d'organiser, d'analyser et de diffuser des quantités
importantes d'informations avec une attention aux détails et à l'exactitude.

Liens utiles :
Excel par Hassan EL BAHI : https://youtube.com/playlist?list=PLZpzLuUp9qXwd57G7QyBl4_2EfMW1sNq3
SPSS Tutorial for data analysis | SPSS for Beginners par Academic Lesson : https://youtu.be/Bku1p481z80
Logiciel SAS par Gère ton éco : https://youtube.com/playlist?list=PLZXRh2PdMioG2y4XTxynEtcMmyeDF77Ow
Jupyter Notebook Tutorial par Project Data Science (en anglais) : https://youtu.be/DKiI6NfSIe8
Comment devenir Data Analyst ? (2/5)
3 - SQL : Les données sont le carburant de la data science. C'est pourquoi un data analyst devra avoir des compétences élevées en SQL. Le langage SQL permet
d'analyser et de manipuler des données.

Liens utiles :
SQL Tutorial - Full Database Course for Beginners par freeCodeCamp.org : https://youtu.be/HXV3zeQKqGY
SQL #1 - introduction par FormationVidéo : https://youtu.be/3KwmNNucIjA
Apprendre le SQL : https://sql.sh
SQL Facile ! : https://www.sqlfacile.com

4 - Python ou R : Pour passer de la théorie (mathématique) à la pratiques, un data analyst a besoin de bonnes bases en programmation

Liens utiles :
APPRENDRE PYTHON: FORMATION COMPLÈTE GRATUITE [2021] par Docstring : https://youtu.be/LamjAFnybo0
#6 - Apprendre à coder en Python pour l'Intelligence Artificielle - Numpy et Pandas par Defend Intelligence : https://youtu.be/qMGjh6rKIgw
Python for Data Science - Course for Beginners (Learn Python, Pandas, NumPy, Matplotlib) par freecodecamp.org (en anglais) : https://youtu.be/LHBE6Q9XlzI
R Pour La Data Science par Zak ISMAILI : https://youtu.be/erXQPvUEoE4
Comment devenir Data Analyst ? (3/5)
5 - Datawarehouse/Datalake et modélisation de données : Le data analyst travaille en collaboration avec le data engineer afin d'organiser les données (alias la
modélisation de données) dans un entrepôt de données (Datawarehouse en anglais) ou un lac de données (Datalake en anglais).

Liens utiles :
Data Warehouse Tutorial for Beginners: Learn in 7 Days (en anglais) : https://www.guru99.com/data-warehousing-tutorial.html
Data Lake vs Data Warehouse: What’s the Difference? (en anglais): https://www.guru99.com/data-lake-vs-data-warehouse.html

6 - Outils BI (Business Intelligence) et définition de KPI* : Le but final de la donnée est son utilisation afin de prendre des décisions. Pour cela, un data
analyst doit être capable d'analyser et de tirer des conclusions analytics à partir de données grâce à des outils Business Intelligence.

Liens utiles :
#8 - Apprendre à coder en Python pour l'Intelligence Artificielle - Data Visualisation par Defend Intelligence : https://youtu.be/KNToNvz3BJY
Power BI Tutorial: What is Power BI? Why Use? (en anglais) : https://www.guru99.com/power-bi-tutorial.html
Tableau for Data Science and Data Visualization - Crash Course Tutorial par freeCodeCamp.org (en anglais): https://youtu.be/TPMlZxRRaBQ
*Un KPI est une mesure numérique permettant à l'entreprise de prendre des décisions business éclairées.
Comment devenir Data Analyst ? (4/5)
7 - Source control – Git : Afin de travailler confortablement en équipe, un data analyst doit savoir utiliser un source control comme git. Cet outil permet le
suivi et le versioning du code.

Liens utiles :
LES BASES DE GIT (tuto débutant) par Graven - Développement : https://youtu.be/gp_k0UVOYMw
Comment devenir Data Analyst ? (5/5)
Bonus - "Data Intuition" : C'est la capacité d'avoir un sens critique sur les données en tant que data analyst

Comment développer sa "data intuition" 2 points :

1) Connaissance du domaine business : La maîtrise d'outils techniques ne suffit pas. Il est essentiel de comprendre comment les données sont collectées et
comment les gens les perçoivent. La connaissance des outils sans connaissance du domaine est comme un marathon sans direction.

2) Communication et leadership : Lorsque vous travaillez au sein d'une équipe, l'intelligence collective vous permettra d'avoir différents points de vue concernant la
donnée. Cela comblera parfois certains trous auxquels vous n'auriez pas pensé par vous-même.

Être capable de communiquer avec des personnes, des experts de l'industrie aux novices, vous aidera à comprendre comment les données sont perçues par les
gens.

Finalement, les données sont utilisées pour aider les gens à prendre de meilleures décisions. En vous basant sur vos analyses de données, vous pourrez guider une
entreprise à avoir une vision claire. Il sera important de fédérer les gens avec vos analyses afin à travailler vers un même objectif et cela démontrera votre
leadership.
Data Analyst : les softs skills à avoir
COMMUNICATION
ESPRIT CRITIQUE

Pour que les clients comprennent vos


données et vos découvertes, vous Appliquer une analyse objective des faits
devez présenter vos résultats dans un avant de tirer une conclusion.
format narratif avec des valeurs
concrètes. Cela permet à vos
interlocuteurs de comprendre vos
analyses.
ÊTRE À L'ÉCOUTE DES
ESPRIT DE SYNTHÉSE INTERLOCUTEURS MÉTIER

À l'aide d'outils analytiques, être capable


Recueillir les besoins pour étudier les
de construire des dashboards pour
données pour produire des analyses
différentes équipes afin d’avoir une
métiers et des recommandations.
vision synthétique et cohérente sur les
résultats de l'activité de l'entreprise.
Data Analyst : salaires dans quelques pays
Il est toujours difficile de déterminer le salaire "idéal" pour un Data Analyst. Cela est très
variable de votre diplôme, du lieu géographique, mais surtout de vos compétences
techniques, de votre domaine business et de vos expériences professionnelles. D'autres
critères comme le budget de recrutement de l'entreprise ou le bassin de candidats peut
jouer sur votre salaire.
Cependant, j'ai fait des recherches pour trouver, les fourchettes de salaires en fonction du
niveau d'expérience, et ça, dans quelques pays.

FRANCE UK CANADA ÉTATS-UNIS


- Junior : €31K - €44K - Junior : £22K - £43K - Junior : CA$37K - CA$78K - Junior : $37K - $84K

- Confirmé : €38K - €50K - Confirmé : £25K - £58K - Confirmé : CA$42K - CA$85K - Confirmé : $42K - $95K

- Expérimenté : €55K - €80K - Expérimenté : £65K - £85K - Expérimenté : CA$80K - CA$105K - Expérimenté : $50K - $250K

Sources :
- France : https://www.linkedin.com/salary/search?countryCode=fr&geoId=105015875&keywords=data%20analyst
- France : https://fr.glassdoor.ca/Salaires/france-data-analyst-salaire-SRCH_IL.0,6_IN86_KO7,19.htm
- UK : https://www.linkedin.com/salary/search?countryCode=gb&geoId=101165590&keywords=data%20analyst
- UK : https://fr.glassdoor.ca/Salaires/royaume-uni-data-analyst-salaire-SRCH_IL.0,11_IN2_KO12,24.htm
- Canada : https://fr.glassdoor.ca/Salaires/canada-data-analyst-salaire-SRCH_IL.0,6_IN3_KO7,19.htm
- Canada : https://www.linkedin.com/salary/search?countryCode=ca&geoId=101174742&keywords=data%20analyst
- USA : https://fr.glassdoor.ca/Salaires/%C3%A9tats-unis-data-analyst-salaire-SRCH_IL.0,10_IN1_KO11,23.htm
- USA : https://www.linkedin.com/salary/search?countryCode=xx&geoId=103644278&keywords=data%20analyst
Data Analyst : des idées pour ton 1ᵉʳ projet
en Data Analytics et Data Science (1/2)
Idéalement, voici les 6 étapes qui doivent être présentes pour un projet de data analytics/data science réussi :

1. Définir les exigence business : La data science, c'est d'abord résoudre un problème business. À ce stade, vous devez être capable de définir une problématique claire pour
votre projet.

2. Collecte de données : Vous devez trouver les données nécessaires pour résoudre le problème. Vous pouvez faire des recherches et collectez les données ou les récupérer
sur Internet, via des sources open data par exemple.

3. Nettoyage des données : Le nettoyage des données consiste à supprimer les données redondantes, manquantes, en doublons et inutiles. Cette étape est considérée comme
l'une des étapes les plus chronophages en data analytics et en science des données.

4. Exploration et analyse des données : Cette étape a pour but de détecter des patterns et des tendances dans les données. C'est là que vous récupérez des informations utiles
et étudiez le comportement des données. À la fin de cette étape, vous devez commencer à formuler des hypothèses via vos données afin d'avoir quelques pistes de solutions
concernant le problème à résoudre.

5. Data visualisation : La visualisation des données vous représenter les données afin de présenter au mieux vos découvertes à vos clients. Visualiser vos résultats à l'aide de
graphiques, de tableaux, de cartes et d'autres visualisations.

6. Questions, réponses et conclusion sur l'analyse réalisée : Vous devez être capable d'articuler votre pensée, d'avoir un esprit critique sur vos recherches et vos dashboards
afin en tirer des conclusions.

PS : En entreprise, les points 2, 3 sont réalisés en collaborations avec les data engineers et les points 4, 5, 6 sont réalisées en collaboration avec les data scientists
Data Analyst : des idées pour ton 1ᵉʳ projet
en Data Analytics et Data Science (2/2)
La meilleure façon d'apprendre est de passer à l'action ! Voici 3 projets de Data Analytics/Data Science pour passer à la pratique :

1 - Data Analyst Portfolio Projects par Alex The Analyst : https://www.youtube.com/watch?v=qfyynHBFOsM&list=PLUaB-1hjhk8H48Pj32z4GZgGWyylqv85f

2 - Top 10 Data Analytics Projects : https://www.jigsawacademy.com/blogs/business-analytics/data-analytics-project/#Easy-or-Beginner-level-projects

3 - 5 Data Science Projects That Will Get You Hired in 2020 : https://www.dataoptimal.com/data-science-projects-2018/

La data analytics est là pour valoriser les


données du passé pour prendre des décisions
futures !

données Valorisation rapide des


données
Data Engineer vs Data Scientist vs Data
Analyst, en résumé ...

Bien que les compétences soient similaires, il y a bien des


différences
source : https://www.efinancialcareers.co.uk/news/2019/07/data-science-careers-finance
Data from Scratch
Data From Scratch - Willis

Willis Nana

Blog - Data From Scratch

Willis Nana

Willis Nana

Vous aimerez peut-être aussi