Vous êtes sur la page 1sur 13

La data science (ou science des données en français) et le machine

learning (ou apprentissage automatique) sont deux mots très en


vogue lorsque l'on parle de la révolution Big Data, de prédiction des
comportements ou tout simplement de la transformation numérique
des entreprises. Et comme pour tous les domaines innovants, il est
parfois difficile de s'y repérer.

C'est pourquoi, avant de rentrer dans le vif du sujet, je vous propose


de faire un tour rapide du domaine de la science des données et en
quoi elle est devenue une source de valeur ajoutée pour les
entreprises.

Qu’est-ce que la data science ?

Pour démarrer, voici une première définition de la data science :

Le premier objectif du data scientist est de produire des méthodes


(automatisées, autant que possible) de tri et d'analyse de données,
afin d'en extraire des informations utiles.

Le besoin d'un data scientist est apparu pour


trois raisons principales :
 l'explosion de la quantité de données produites et
collectées par les humains ;
 l'amélioration et l'accessibilité plus grande des
algorithmes de traitement des données ;
 l'augmentation exponentielle des capacités de
calcul des ordinateurs
Pour reformuler, l’objectif est de récupérer des données de plusieurs
sources différentes et d’en extraire des informations qui vont servir
l’entreprise, notamment l’aide à la décision (“data-driven decision”).
Une entreprise qui a bien intégré la data science sera capable de
pondérer les intuitions humaines à l’aide des nouvelles informations
suggérées par les données qu’elle possède

Mais attention à ne pas tomber dans le fantasme ! Deux


composantes sont nécessaires avant de se demander si la data
science peut, oui ou non, apporter de la valeur et aider à la résolution
d'un problème : des données et une problématique bien définie.

Tout commence par des données

Cela paraît évident, les données constituent la ressource principale


pour qu'un data scientist puisse effectuer son travail correctement.
Après tout, c'est tout de même le “data” de "data science".

Donc, si dès le départ vous ne voyez aucune manière de récupérer


des données liées au problème que vous cherchez à résoudre,
considérez que vous ne pourrez n’être d’aucune aide sur ce
problème, en tant que data scientist.

Un autre frein est que les données ne sont pas toujours utilisables
d’un point de vue éthique ou pour des raisons de sécurité. Pensez à
vous assurer que vous pouvez bien exploiter les données pour votre
travail.
La valeur d'un data scientist réside aussi dans sa capacité à trouver
des manières innovantes de récupérer des données auxquelles on ne
penserait pas au premier abord. Faites appel à votre esprit de hacker
et essayez de bien réfléchir à la façon de récupérer des données
utiles, même s'il ne semble pas y en avoir à première vue.

Une problématique bien définie

Il existe un spectre assez large de problématiques que l'on peut


résoudre en data science. Mais vous pouvez aussi facilement en
exclure un certain nombre, surtout si vous vous trouvez dans un
milieu d'entreprise, avec des contraintes de temps fortes pour
produire des résultats.

Estimer la faisabilité d'un projet est toujours compliqué en data


science, et il est normal que cela vous paraisse flou si vous débutez !
Ce n'est qu'en pratiquant, en développant votre propre expérience
dans le domaine, que vous arriverez à affiner votre jugement et à
redéfinir précisément des problématiques mal définies ou irréalistes,
rentables ou non. À la fin de ce cours, vous aurez déjà acquis
quelques réflexes à ce sujet !

Une manière de préciser cette problématique en milieu


professionnel, c’est de passer par une phase de prototypage qui
permet de tester la viabilité et la solidité du projet. Créer un
prototype permet rapidement de détecter s’il y a une opportunité car
les plus gros obstacles sont écartés : la récupération des données, la
formulation du problème à résoudre, une estimation des coûts
nécessaires, les difficultés d’implémentation hardware ou software,
etc.
Bien sûr ! Voici quelques exemples que l'on peut estimer réalistes :
 Prédire les ventes d'une campagne marketing.
 Identifier si une image est déjà présente dans une banque
d'image existante.
 Segmenter les utilisateurs d'un site en plusieurs groupes en
fonction de leur comportement sur le site.

Data Science et analyse de données


En quoi la data science se distingue-t-elle de l’analyse de
données classique ? A-t-on vraiment besoin de ce nouveau
domaine ?
Le machine learning se distingue dans un premier temps par
l’approche utilisée pour résoudre la problématique - la notion
d’apprentissage - que l'on va étudier dans la suite de ce cours.
L’analyse de données (“data analysis”), elle, utilise des
méthodes issues des statistiques classiques comme les
estimateurs, les analyses de corrélations ou encore la
régression linéaire.
Pour le data scientist, l’objectif est d’aller plus loin dans les
algorithmes d’analyse afin d'obtenir un degré supérieur
d'information, notamment grâce au machine learning.
Le machine learning ne désigne en réalité qu’une partie du
travail d’un data scientist. C'est pourquoi avant de rentrer dans
le vif du sujet et de ne parler que de la partie machine learning,
je vous propose de faire un tour rapide du métier de data
scientist, afin de se situer.
Dans ce chapitre, nous allons prendre un peu de hauteur et
observer en quoi consiste le cycle habituel de travail des data
scientists, pour comprendre à quelle étape intervient le
machine learning. C’est parti !
Appréhendez le cycle de travail du data scientist
Le cycle de travail du data scientist peut se résumer par le
schéma ci-dessous. Pour faire simple, on part de la réalité, on
récupère les données, on les nettoie, on les explore, puis on
utilise nos algorithmes pour créer de l’intelligence (artificielle)
qui aide à la décision. Dans la suite, nous allons détailler ces
différentes étapes et voir quels sont les différents métiers sur la
chaîne de traitement de la donnée.
Cycle de travail du data scientist
Récupérez les données
Une fois que vous êtes décidé à attaquer un problème, la
première chose à faire est d'explorer toutes les pistes possibles
pour récupérer les données. En effet, les données constituent
l'expérience, les exemples que vous allez fournir à votre
algorithme de machine learning, afin qu'il puisse apprendre et
devenir plus performant.
Tout doit passer au crible ! Les bases de données existantes,
des données brutes alternatives (image, son, etc.), et même la
création de nouveaux canaux d'acquisition de données. Essayez
de trouver l'ensemble des variables qui impactent de près ou de
loin le phénomène qui vous intéresse.
Vous trouverez ci-dessous quelques exemples, où les data
scientists ont redoublé d'ingéniosité pour récupérer et utiliser
leurs données de manière originale.
Les images satellites pour évaluer le niveau de pauvreté
Des chercheurs ont utilisé le machine learning pour pouvoir
cartographier les zones de pauvreté de manière automatique,
simplement à partir d'images satellites !

Une cartographie de l'estimation de la consommation moyenne quotidienne (crédits : Neal Jean et


al.)

Les CAPTCHAs pour la digitalisation automatique de


livres

Luis von Ahn, entrepreneur et chercheur, a créé un célèbre système


de reCAPTCHA qui permettait à la fois aux sites web de valider que
les formulaires étaient bien remplis par des humains, et qui
alimentait en même temps la base de données d'un algorithme de
digitalisation de livres. Grâce aux nombreux exemples renseignés
directement par des humains, l'algorithme a fini par
avoir suffisamment de données d'exemples pour réussir ensuite seul
à retranscrire en texte des images scannées de livres, avec un taux
d'erreur très faible.
Exemple de reCAPTCHA

Détectez l'illettrisme par l'utilisation du


smartphone

Un chercheur norvégien a utilisé plusieurs types de données mobiles


(tels que les SMS, le nombre de contacts, etc.) pour détecter les
personnes illettrées dans les pays en voie de développement.

Croisez les différentes sources


de données
Dans beaucoup de cas, l’innovation en data science dans une
entreprise vient de l’originalité de l’utilisation des données et
du croisement de différentes sources de données. Pour cela, il faut
dans l’idéal posséder une politique de gestion des données dans son
entreprise la plus transparente possible. Pour les données, c’est
comme pour les ressources humaines : les différents départements
organisés en silos communiquent moins et innovent moins par
rapport à un environnement ou la transversalité est favorisée. Alors
essayez d'éviter les data-silos !

Nettoyez les données


Une fois les données trouvées, il faut passer à l'étape de nettoyage.
Pour ne rien vous cacher, ce n'est pas l'étape la plus agréable du
travail, mais ça ne la rend pas moins indispensable.
Nettoyer les données, c'est s'assurer qu'elles sont consistantes,
sans valeurs aberrantes ni manquantes.
Une autre étape nécessaire, en général, est l’aggrégation de ces
données dans un data lake. Nettoyer les données signifie donc
qu’elles sont toutes sous le même format, accessibles au même
endroit et au bon moment.
Lorsque ces questions deviennent complexes, il faut faire appel
au data architect qui, lui, possède une maîtrise technique pour
réaliser ces différentes tâches. Ces ingénieurs des Big Datas sont
responsables de la création et de l'administration de tous les
systèmes techniques qui vont permettre la bonne exploitation des
données

Explorez les données


Les données bien propres peuvent maintenant commencer à être
explorées. Cette étape vous permet de mieux comprendre les
différents comportements et de bien saisir le phénomène sous-
jacent.
C'est vraiment une étape à ne pas négliger. Les meilleurs data
scientists ne sont pas ceux qui connaissent les algorithmes les plus
complexes, mais ceux qui ont une très bonne connaissance des
données et ont préparé le terrain avec soin en amont.
À la fin de l’exploration, vous devrez être en mesure de :
 Proposer plusieurs hypothèses sur les causes sous-jacentes à la
génération du dataset : "suite à l'exploration, il y a clairement
une relation entre X et Y".
 Proposer plusieurs pistes de modélisation statistique des
données, qui vont permettre de résoudre la problématique de
départ considérée.
 Proposer si nécessaire de nouvelles sources de données qui
aideraient à mieux comprendre le phénomène.

Modélisez les données à l'aide


du machine learning
Nous pouvons enfin rentrer dans la partie la plus intéressante du
métier, c’est-à-dire la création du modèle statistique associé aux
données qui nous intéressent ! C'est ce qu'on appelle le machine
learning (ou apprentissage automatique).
Mais ça veut dire quoi “modélisation statistique des données” ?
En machine learning, et en data science plus généralement, l'objectif
est de trouver un modèle (stochastique ou déterministe) du
phénomène à l'origine des données. C'est-à-dire qu'on considère
que chaque donnée observée est l'expression d'une variable
aléatoire générée par une distribution de probabilité.

Évaluez et interprétez les


résultats
Une fois un premier travail de modélisation effectué, la suite de
l’étude s’effectue par l’évaluation de la qualité de notre modèle,
c’est-à-dire sa capacité à représenter avec exactitude notre
phénomène, ou a minima sa capacité à résoudre notre
problématique.
Une représentation connue qui souligne la nécessité de l'évaluation
est le quartet d'Anscombe. Il permet de montrer visuellement que
pour 4 jeux de données très différents, on obtient la même droite de
régression.

Le quartet d'Anscombe illustre bien le fait que si l'on n'examine pas assez les données, et qu'on ne
mesure pas de la bonne manière l'erreur de son modèle, on peut facilement arriver à des aberrations
de modélisation.

Il y a parfois clairement un problème dans notre modèle, qui ne


capture pas l'essence du phénomène. Pour nous aider à évaluer les
résultats, mesurer l’erreur de notre modélisation vis-à-vis de nos
données d’exemple constitue un premier indicateur de qualité. Dans
les cas ci-dessus, il faudrait clairement changer le modèle d’une
droite que nous avions décidé au départ !
C’est donc un jeu d’allers-retours entre modélisation et évaluation
qui s’effectue pour obtenir les performances les plus satisfaisantes
possibles. Il est même possible, dans certains cas, de remettre en
question certaines hypothèses de départ et de repartir dans une
phase d’exploration pour mieux comprendre les données.
Déployez le modèle en
production
Une fois qu’on est satisfait de la qualité des performances de notre
modèle, on va pouvoir passer à l’étape suivante, qui est le rendu de
nos résultats et le potentiel déploiement du modèle en production.
Imaginez que vous trouvez que votre modèle d’évaluation des loyers
est très performant et mériterait d’être partagé à plus de monde.
Vous décidez donc de le déployer sur un serveur où tout le monde
pourra obtenir une estimation de son loyer selon votre modèle, et
ainsi déterminer s'il paie plus ou moins que les prix du marché ! Cela
l'aidera sûrement dans sa décision de déménager. 😬
Comment cela fonctionne-t-il en pratique ? C’est assez simple, il vous
suffit de récupérer les paramètres de votre modèle et de faire passer
la surface de l'appartement en entrée du modèle, afin d’obtenir le
loyer associé en sortie, en suivant la droite.

Imaginez qu'un appartement a une surface de 30 mètres carrés (point en rouge), une estimation
légitime du loyer se situerait aux alentours de 1300 euros selon notre modèle.
Pour des modèles plus complexes, le fonctionnement reste le même.
Si vous voulez appliquer votre travail à de nouvelles données, il vous
suffit de passer les nouvelles entrées dans votre modèle (qui est en
principe un ensemble de transformation des valeurs d’entrées) afin
d’obtenir une sortie

Vous aimerez peut-être aussi