Vous êtes sur la page 1sur 5

Introduction à la science des données et la prise de décision

Nous vivons à l'ère des données. Non seulement la quantité de données dont nous disposons
actuellement est gigantesque, mais le rythme de la génération de données s'accélère également
de jour en jour. Il y a plus de 4,5 milliards d'internautes actifs au moment de la rédaction de ce
livre, juillet 2020, ce qui représente environ 60 % de la population mondiale. Ces internautes
créent de gros volumes de données en utilisant les médias sociaux tels que Facebook, Twitter,
Instagram et Youtube.
La quantité de données mobiles explose également. De plus, les données en temps réel
produites par les appareils de l'Internet des objets (IoT) connaissent un taux de croissance sans
précédent. Ces statistiques ahurissantes croissent à un rythme exponentiel en raison de la
digitalisation du monde.

Figure 1 : Tendance de la croissance mondiale du volume de données, 2006-2020.

La figure 1 montre la tendance de croissance mondiale du volume de données de 2006 à 2020


selon « The digital universe in 2020: big data, bigger digital shadows, and biggest growth in
the far east ». Le graphique est mesuré en zettaoctets (ZB) ou 1021octets – 1. ZB représente 1
000 milliards de gigaoctets (Go). Il s'agit d'une énorme quantité de données. La valeur associée
à ces données diminue car les données ne sont pas traitées et analysées au même rythme. Ainsi,
il est de la plus haute importance d'extraire des connaissances des données.
La science des données applique des principes, des méthodes, des algorithmes et des processus
scientifiques pour extraire des connaissances , des informations et des idées en collectant,
traitant et analysant des données structurées et non structurées où le premier type de données
est obtenu à partir d'un système de gestion de base de données tel que MySQL, Oracle,
MongoDB et le dernier type de données comprend du texte, audio, vidéo et des documents.
La science des données est un domaine multidisciplinaire lié aux mathématiques, aux
statistiques, à la programmation, exploration de données, apprentissage automatique,
l'apprentissage en profondeur, et Big Data. La science des données utilise des algorithmes
d'apprentissage automatique (ML) et des méthodes statistiques pour entraîner l'ordinateur à
0faire des prédictions à partir de là.
1. Applications de la science des données

La science des données a de nombreuses applications dans un ensemble diversifié d'industries,


y compris, mais sans s'y limiter aux secteurs d'activité suivants.

• Les sociétés financières utilisent des données collectées auprès de leurs clients pour la
détection des fraudes et des risques.

• Le secteur de santé reçoit un grand bénéfice de la science des données en analysant des
images médicales pour détecter les tumeurs, les tensions artérielles et la délinéation des
organes.

• Les moteurs de recherche utilisent des algorithmes de science des données afin de fournir le
meilleur résultat à notre requête.
• Les stratégies de marketing numérique reposent sur des algorithmes de la science des
données pour mettre en exergue les préférences et les besoins des clients. Savoir la façon de
dépenser des gens peut aider à l’identification des clients de base d’une entreprise.

• Les géants de l'Internet tels que Amazon, LinkedIn, Twitter, Google, Netflix et IMDb
utilisent des systèmes de recommandation pour proposer des produits pertinents à leurs
utilisateurs en fonction de leurs recherches précédentes, et améliorer ainsi l’expérience
utilisateur.

• Les sites de médias sociaux utilisent une reconnaissance faciale pour suggérer des tags à nos
images téléchargés.
• Des produits de Reconnaissance vocale tels que Google Voice, Siri, Cortana etc.
convertissent des discours en texte et commandes.
• Les compagnies aériennes emploient la science des données pour identifier les champs
d'amélioration stratégique tels que la prédiction de durée de vol, la planification des routes et
la décision d'acheter les types d’avions à acheter pour une opération de vol.

• Les Jeux Vidéo utilisent la science des données et les algorithmes d'apprentissage
automatique pour analyser les mouvements précédents des joueurs et de faire progresser le jeu
conformément à cela. Sony, Nintendo et EA Sports ont changé l’expérience de jeu en utilisant
la science des données.

2. Python et science des données


On pense généralement qu'il faut être un génie de l'informatique et un expert en programmation
pour effectuer des tâches complexes liées à la science des données, mais c'est loin d'être la
réalité. Python est un langage de programmation open source, polyvalent et flexible avec une
syntaxe simple qui facilite les tâches de science des données. Python propose de nombreuses
bibliothèques utiles qui effectuent toutes les tâches fastidieuses pour vous en arrière-plan.
Python propose des bibliothèques pour le traitement, l'analyse, la modélisation et la
visualisation de données qui incluent :
• Numpy,
• Pandas,
• Scikit-Learn,
• Matplotlib.
NumPy ('Numeric Python’) est une bibliothèque python pour un calcul mathématique rapide
sur des tableaux et des matrices. Pandas est l'une des bibliothèques Python les plus utilisées en
science des données. Il fournit des structures et des outils d'analyse de données performants et
faciles à utiliser. Contrairement à la bibliothèque NumPy, qui fournit des objets pour les
tableaux multidimensionnels,
Pandas fournit un objet bidimensionnel appelé DataFrame. C'est comme une feuille de calcul
avec des noms de colonnes et des étiquettes de lignes qui facilite l'analyse des données.
La bibliothèque Matplotlib est utilisée pour tracer les données issues des expériences. Des
problèmes pratiques tels que la reconnaissance faciale, qui sont considérés comme des
problèmes très difficiles par la plupart des débutants, peuvent être résolus assez facilement à
l'aide d'outils disponibles dans la bibliothèque Python Scikit-Learn.
Il est recommandé d'utiliser des bons outils pour démarrer avec la science des données. Cela
commence par Anaconda, une plate-forme gratuite et open source pour Python. Anaconda
accompagne plusieurs packages et utilitaires qui nous aident à travailler avec la science des
données, l'apprentissage automatique et le traitement et l'analyse de données à grande échelle.
La distribution Anaconda comprend des packages de science des données adaptés à Windows,
Linux et MacOS.
Jupyter Notebook, qui fait partie de l'installation d'Anaconda est un environnement entièrement
interactif où nous pouvons mélanger des éléments de présentation tels que des commentaires
pour une meilleure lisibilité du code, la préparation de documents LaTeX et même du code
HTML dans un seul bloc-notes.

Le pipeline de science des données


Le processus global étape par étape pour collecter, stocker, nettoyer, prétraiter, analyser,
modéliser, interpréter et visualiser les données est connu sous le nom de pipeline de science
des données. Les processus du pipeline sont suivis dans un ordre particulier pour que les choses
fonctionnent. Les principales étapes de ce pipeline sont les suivantes :
• Acquisition des données,
• Préparation des données,
• Analyse exploratoire des données,
• Modélisation des données et évaluation,
• Interprétation et communication (reporting) des résultats.

Figure 2 : Le pipeline de la science des données


Comprendre et suivre ce pipeline nous permet de :
 reconnaître les patrons (patterns) dans les données considérées ;
 extraire des informations utiles à partir des données ;
 déterminer les modèles utilisables pour décrire les données ;
 décider des meilleurs algorithmes à appliquer aux données ;
 prendre des décisions appropriées aux différents niveaux d’un projet de science des
données
L'acquisition des données
Nous ne pouvons effectuer aucune tâche scientifique sans avoir de données. La première étape
consiste à obtenir des données à partir d'une base de données ou d'Internet. Ces données doivent
être disponibles dans un format utilisable, par exemple, des valeurs séparées par des virgules
(CSV) et des valeurs séparées par des tabulations (TSV).
Les données peuvent être structurées comme obtenues à partir d'un système de gestion de base
de données : MySQL, Oracle et MongoDB. Alternativement, elles peuvent être non structurées,
par exemple, du texte, de l'audio, de la vidéo et des documents.

Préparation/nettoyage des données


Les données acquises auprès de différentes sources sont sous une forme brute, qui n'est
généralement pas utilisée directement. Les données doivent être nettoyées et préparées pour les
étapes ultérieures du pipeline de science des données. Les résultats des projets de science des
données et d'apprentissage automatique dépendent grandement de la contribution que nous leur
donnons, essentiellement en considérant le principe ‘ordures dedans, ordures dehors’ (garbage
in garbage out). Par conséquent, le nettoyage des données acquises doit être effectué pour
modifier ou supprimer les données incorrectes, incomplètes, mal formatées ou dupliquées.
Les données propres sont parfois transformées et mappées dans un format plus adapté à un
traitement ultérieur que les données d'origine. Ce processus s'appelle Data wrangling
(rangement ou alignement des données) ou Data munging.
L'analyse exploratoire des données
Dans cette phase, nous appliquons différents outils statistiques pour réaliser la plage de valeurs,
les variables et caractéristiques importantes et les tendances des données. Nous extrayons
également des caractéristiques significatives des données en analysant les données nettoyées.

Modélisation et évaluation des données à l'aide d’apprentissage automatique


Un modèle ou un modèle d'apprentissage automatique est un ensemble d'hypothèses sur les
données sous-jacentes. Par exemple, pour augmenter ses ventes, une entreprise dépense de
l'argent pour faire la publicité de ses produits. L'entreprise tient un registre des dollars dépensés
en publicité dans chacun de ses magasins et des ventes en dollars du même magasin. Il découvre
que la relation entre les variables susmentionnées est presque linéaire, comme le montre la
figure 1.3. Par conséquent, un modèle pour cette situation peut être une relation linéaire ou une
ligne entre la publicité et les ventes. Un bon modèle, qui fait des hypothèses précises sur les
données, est nécessaire pour que l’algorithme d’apprentissage automatique puisse donner des
bons résultats.
Figure 3 : Relation entre les dollars dépensés en publicité et les ventes en dollars. Chaque point du
graphique montre les données de un magasin. La ligne capture la tendance globale des données.

Les algorithmes d'apprentissage automatique construisent généralement un modèle


mathématique basé sur les données fournies, également appelées données d'apprentissage. Une
fois qu'un modèle est généré, il est utilisé pour faire des prédictions ou des décisions sur les
futures données de test. Souvent, lorsque le modèle n'explique pas les données sous-jacentes,
nous revisitons/ mettons à jour notre modèle. Ainsi, il s'agit d'un processus continu de création
d'un modèle, d'évaluation de ses performances et de mise à jour du modèle si nécessaire, jusqu'à
ce qu'un modèle de performances raisonnables soit obtenu.
Walmart est un exemple concret de prédiction de la vente future de produits à l'aide de modèles
d'apprentissage automatique. La société enregistre chaque achat par le client pour une analyse
future. L'analyse des données par Walmart a remarqué une augmentation des ventes de
pâtisseries pour grille-pain, à savoir les Pop-Tarts, chaque fois que le National Weather Service
(NWS) a averti d'un ouragan. Ainsi, les gérants de magasins ont reçu pour instruction de placer
des Pop-Tarts près des entrées des magasins pendant la saison des ouragans. Cette décision de
l'entreprise a entraîné une augmentation de la vente de Pop-Tarts. Cette histoire met en
évidence l'importance des modèles d'apprentissage automatique et de leurs pouvoirs prédictifs.

Interprétation et rapport des résultats


La prochaine étape du pipeline de science des données consiste à interpréter et expliquer nos
découvertes aux autres par la communication. Cela peut être réalisé en se connectant avec et
en persuadant les gens grâce à une visualisation interactive et à des rapports pour résumer les
résultats du projet de science des données.

Vous aimerez peut-être aussi