Vous êtes sur la page 1sur 5

data science et le machine learning (ou apprentissage automatique) sont deux mots très en vogue

lorsque l'on parle de la révolution Big Data, de prédiction des comportements ou tout simplement de la
transformation numérique des entreprises. Et comme pour tous les domaines innovants, il est parfois difficile de
s'y repérer.

Le besoin d'un data scientist est apparu pour trois raisons principales :

 l'explosion de la quantité de données produites et collectées par les humains ;


 l'amélioration et l'accessibilité plus grande des algorithmes de traitement des données ;
 l'augmentation exponentielle des capacités de calcul des ordinateurs.

1)Récupérez les données : d'explorer toutes les pistes possibles pour récupérer

2)Nettoyer les données : c'est s'assurer qu'elles sont consistantes, sans valeurs aberrantes ni manquantes.
Signifie donc qu’elles sont toutes sous le même format, accessibles au même endroit et au bon moment.

3)Explorez les données : Les meilleurs data scientistes ne sont pas ceux qui connaissent les algorithmes les
plus complexes, mais ceux qui ont une très bonne connaissance des données et ont préparé le terrain
avec soin en amont.

4)Modélisez les données à l'aide du machine learning : consiste à trouver le bon modèle statistique (ici
la droite et son intervalle de confiance) qui colle le mieux aux données d'exemple. Le machine learning en
particulier intervient pour trouver ce modèle de manière automatisée.

5)Évaluation du Modèle : Une fois le modèle entraîné, il est évalué sur un ensemble de test indépendant
pour mesurer ses performances. Cela permet de déterminer si le modèle est capable de généraliser ses
prédictions à de nouvelles données.

6)Mise en Production : Si le modèle est satisfaisant, il peut être déployé en production pour être utilisé
dans le contexte réel de l'entreprise.

7)Communication des Résultats : Les résultats et les insights obtenus tout au long du processus sont
communiqués aux parties prenantes de manière claire et compréhensible
1. Apprentissage Supervisé :
 Description : Dans l'apprentissage supervisé, le modèle est formé sur un ensemble de données
étiqueté, où chaque exemple d'entrée est associé à une sortie désirée.
 Objectif : L'objectif est d'apprendre une relation entre les entrées et les sorties afin de faire des
prédictions sur de nouvelles données non étiquetées.
 Exemples : Classification (prédiction de classes), Régression (prédiction de valeurs numériques).
2. Apprentissage Non Supervisé :
 Description : L'apprentissage non supervisé se fait sur des ensembles de données non étiquetés,
où le modèle doit découvrir des structures ou des motifs intéressants.
 Objectif : L'objectif est souvent de regrouper les données similaires ou de réduire la
dimensionnalité pour en extraire des caractéristiques significatives.
 Exemples : Clustering (regrouper les données similaires), Réduction de dimensionnalité.
Data Scientist : Une personne qui est meilleure en stat qu'un développeur, et meilleure en programmation qu'un
statisticien.

En Python, l’écosystème Scipy est universellement utilisé avec ses librairies :

 pandas pour créer des tableaux (ou "Dataframe") à partir de vos données brutes ;
 numpy pour gérer des matrices ;
 matplotlib pour générer des graphiques ;
 iPython pour les feuilles de calculs…
Bien sûr, il en existe encore d'autres !

Vous aimerez peut-être aussi