Vous êtes sur la page 1sur 78

PANORAMA

DE LA
DATA SCIENCE

Robert Alaux, novembre 2021


IA

https://www.usinenouvelle.com/editorial/quand-une-intelligence-artificielle-devient-l-inventrice-d-un-brevet.N1132204
la data science c’est quoi?

Le Data Scientist mélange trois domaines :

- l’expertise mathématique
- la technologie
- le business
Mise en œuvre d’un projet data science
Etapes

1- Savoir ce que l’on cherche (cadrage)


2- Collecter les données
3- Nettoyer les données (sans perdre leur portée signifiante)
4- Stocker les données (Cloud, Datawarehouse / Datalake…)
5- Explorer les données
6- Traitement algorithmique des données pour découvrir des insights / patterns
7- Les résultats aident l’entreprise à prendre des décisions, à voir des tendances, à
créer un Data Product
Mise en œuvre d’un projet data science

Exemples de Data Product:

- moteur de recommandation pour Amazon ou Netflix


- filtre anti-spam pour Gmail
- vision par ordinateur pour voiture autonome
CHINE et Asie: BATX
GOOGLE  BAIDU
AMAZON  ALIBABA
FACEBOOK  TENCENT / WECHAT
APPLE  XIAOMI
Une masse de données
• 90% des données mondiales ont été créées au cours des deux dernières années

Chaque SECONDE :
• 70 000GB de traffic Internet
• 85 000 recherches
• 80 000 vidéos YouTube vues
• 3 000 000 Emails envoyés

• L’accès à ces informations


n’existait pas auparavant
L’ensemble du process big data - intelligence artificielle

Big Data Machine Learning


https://www.lebigdata.fr/data-engineer-tout-savoir
Objets connectés IoT
Ils sont une source de plus en plus importante de données pour le Big Data*
Enjeux:
• Le type de communication (courte ou longue portée)
• La couverture du réseau
• La consommation énergétique de l’objet
• Le volume de données transmises
• La fréquence de captation
• La fréquence de transmission
• Le prix des capteurs/émetteurs.

Points sensibles:
données à caractère personnel et l’anonymisation
Actuellement près de 30 milliards d’objets connectés
Que faire avec les données?
Traiter les données avec un logiciel ETL (extract, Transform, Load)
qui permet au data scientist de:
Extraire
Transformer au bon format
puis charger les datas
dans un Data Warehouse

Actuellement le Data Wrangling remplace l’ETL, il est utilisable par des non
scientifiques
DataViz
Pour comprendre des données et les transmettre:

La visualisation des données


• Répondre à un objectif précis dans un contexte précis
• Hiérarchiser les enjeux
• Mise en forme graphique sert l’analyse et le message
• Fournir une nouvelle perspective
• Aide à la décision
• Outil de communication
• BtoC et DataJournalisme
• Visualisation interactive ou participative
Corrélation
• Avec les statistiques et le big data c’est un nouveau mode d’appréhension du
monde qui s’ouvre

• On fait émerger une connaissance à partir des corrélations significatives sans


hypothèse de départ

• On peut voir émerger des réalités /corrélations contre-intuitives

• Data Mining: fouiller dans une grande masse de données pour y découvrir des
corrélations, des patterns, des schémas…
Data Mining
Data Mining: exploration massives de données sur internet par des algorithmes
(statistiques, machine learning, réseaux neuronaux) complexes afin d’en extraire des
connaissances, des relations, des corrélations: associations, analyses de séquences,
classifications, clustering, prédictions
Très utilisé en e-commerce, finance, communication, marketing pour trouver des
patterns, faire de la segmentation, du profilage etc.
Outils: Orange, Weka, RapidMiner , Tanagra,
Licences: SPSS (IBM), Entreprise Miner (SAS), Microsoft Analysis Services
Par exemple on ‘aspire’ TOUS les comptes et posts facebook, instagram, twitter …
pour en tirer des profils individuels.
https://www.lebigdata.fr/data-mining-definition-exemples
https://www.lebigdata.fr/comment-le-big-data-revolutionne-shopping
Fausses Corrélations
Il est beaucoup moins couteux de chercher des corrélations que des
causalités… mais

Difficulté: grand risque d’établir des fausses corrélations


Corrélation ≠ causalité

« Quand on est malade, il ne faut surtout pas aller à l'hôpital : la probabilité de mourir dans
un lit d'hôpital est 10 fois plus grande que dans son lit à la maison ».
Les trois V
Trois grands paramètres à gérer dans le Big Data:

VOLUME de données gigantesque


Trafic des centres de données en cloud dans le monde :
12 zettaoctets (12x 10 21 octets) en 2019 *
Capacités de stockage

Mais 1,8×1022 bits (2,25 zettaoctets) = Évaluation de la quantité d'information qui peut être stockée dans un 1 gramme d'ADN
(notre ADN, 10-12 gramme, contient tout ce qu’il faut pour produire un être humain), c’est devenu une réalité:
https://www.franceculture.fr/sciences/stocker-pour-50-000-ans-des-textes-historiques-sur-ADN-entrent-aux-archives-nationales
* https://fr.statista.com/statistiques/729476/centres-de-donnees-cloud-trafic-volume-monde/
Les trois V
Trois grands paramètres à gérer:

VITESSE
Production permanente de données
Obligation d’analyse en temps réel

Puissance de calcul
Les trois V
VARIÉTÉ des données:
Diversité de contenus
• Données structurées (Bases de données relationnelles):
liste de coordonnées, relevé de températures,
astrophysique, météo…

• Données non structurées*:


textes, images, flux vidéos, tweets…
Les trois V
VARIÉTÉ des données:
Diversité de sources
• Données internes de l’entreprise (CRM, tracking site web, navigation…)
• Données externes (OpenData, Météo, indicateurs économiques…)
• Données comportementales clients (achats, géolocalisation, réseaux sociaux, wearables…)
• Données déclaratives clients (nom, âge, …)
• Données Machine-To-Machine
Les trois V
Avec 4 points spatio-temporels répétitifs, on identifie 95% de la population*

• Où nous dormons (domicile)

• Où nous passons nos journées (travail)

• Où nous nous arrêtons le matin


(école pour enfants)

• Autre arrêt régulier (club de sport…)

* Étude du MIT, 2013


https://www.nytimes.com/interactive/2019/12/19/opinion/location-tracking-cell-phone.html
Hadoop Map-Reduce
Durant la phase d’acquisition des données, de nettoyage et d’exploration
(avant tout véritable travail d’intelligence artificielle), des systèmes logiciels
comme Tableau sont très utilisés. Il font beaucoup appel à la
Data-visualisation et permettent une première analyse des données.

https://www.tableau.com/fr-fr/products/desktop#video
Hadoop Map-Reduce
Apache Hadoop: structure logicielle (framework) open source (Apache Software Foundation)
Au départ, deux modules principaux:
HDFS : Hadoop Distributed File System
Traitement parallèle des données sur plusieurs machines constituant un cluster (grappe)
et Map-Reduce (algorithme développé initialement par Google en 2004)

Yahoo possède un grand nombre de machines Hadoop avec 42000 nœuds


Facebook et Amazon utilisent aussi Hadoop

MapReduce reste une référence même s’il est souvent remplacé par d’autres algorithmes plus
rapides comme Apache Spark car Hadoop est peu adapté au temps réel.
https://www.lebigdata.fr/hadoop
Big Data as a Service: AWS Amazon

https://aws.amazon.com/fr/big-data/datalakes-and-analytics/
Améliorer la rapidité: Spark
Apache Spark, qui était un composant de l'écosystème Hadoop, devient une plate-
forme Big Data appréciée des entreprises; elles préfèrent souvent Spark à MapReduce, qui
repose sur un traitement par lots et ne se prête pas aux applications interactives ni au
traitement en temps réel des flux.
Il est donc jusqu'à dix fois plus rapide que MapReduce pour le traitement des données et jusqu'à
cent fois plus rapide pour effectuer l'analyse.

Spark travaille en TEMPS RÉEL.


Il reste souvent utilisé avec Hadoop.
Les technologies évoluent très rapidement,
il est risqué d’investir lourdement dans du
matériel, d’où le succès de cloud computing.
Statistiques mathématiques
Statistiques et probabilités sont au cœur du traitement des
Datas afin de pouvoir faire des prévisions
Probabilités et monde réel
Il faut disposer de beaucoup de données et appliquer un modèle de prévision probabiliste

• Plus les données sont subjectives, plus les risques d’erreurs


sont importants

• Gros enjeux financiers souvent sur des domaines peu


rationnels: sport, politique…

• Les prévisions sportives sont très risquées car


trop de paramètres subjectifs

https://www.latribune.fr/technos-medias/coupe-du-monde-le-big-data-s-est-encore-spectaculairement-rate-dans-ses-previsions-785165.html
Autres domaines des mathématiques
En plus des statistiques et probabilités, plusieurs autres parties des mathématiques
sont utilisées en data science
Algèbre linéaire
Régression linéaire
Calcul matriciel
Calcul matriciel

Une matrice est un


tableau de nombre

Exemple: une matrice 1920x1080


pour une image vidéo HD N&B
Théorie des graphes
Transport aérien aux USA

Métro

New York

Los Angeles

Miami
Qu'est-ce que l'intelligence artificielle ?
L’IA se distingue donc en deux catégorie: symbolique et connexionniste

• IA Symbolique: Basée sur la modélisation et la formalisation du raisonnement humain logique,


sur la représentation et la manipulation de la connaissance par des symboles formels.
En mathématique on utilise la LOGIQUE (= non continu) et les opérateurs booléens
Exemple: appartient à ; “si X et Y sont vrais, alors Z est vrai” ou “X entraine Y”
Gros développements des années 1970 à 2000.
Application:
systèmes experts
avec moteurs de règles
de fonctionnement

analyse financière
et scientifique.

visuel: Olivier Ezratty


Qu'est-ce que l'intelligence artificielle ?
• IA Probabiliste:/ connexionniste: Vise l’émergence de phénomènes relevant de
l’intelligence, à partir d’un agencement de mécanismes élémentaires (réaction
simple à une perception) inspirés du vivant: réseaux de neurones… Un des
fondateurs: Marvin Minsky
Contient des aspects empiriques
En mathématique on utilise l’ALGEBRE (= continu)* et les probabilités /
statistiques

Application: Machine Learning et Deep learning utilisé dans la vision artificielle ou


la reconnaissance de la parole.

Depuis 10 ans les avancées sont dans ce secteur de l’IA connexionniste (réseaux de
neurones)

* L’algèbre (continu) permet de faire beaucoup plus de choses que la logique (discrète)
Parallèle avec l'intelligence humaine

• IA Symbolique: les règles et connaissances antérieures que


l’on transmet à ses enfants

• IA Probabiliste/ connexionniste : ce que l’on apprend en


expérimentant soi-même

• L’intelligence humaine est un mélange des deux


Parallèle avec l'intelligence humaine
*

(intelligence artificielle générale = humaine)

* ontologie: mode de représentation partagée http://www.journaldunet.com/developpeur/tutoriel/theo/070403-ontologie.shtml


Machine learning
(En français: ‘apprentissage automatique’)

C’est apprendre en assimilant des exemples (et sans être


explicitement programmée)
Le Machine Learning permet d’extraire des patterns dans les données massives et
variées (‘Big Data’) sans avoir besoin de compter sur un humain; il permet de faire des
prédictions, de la classification et de la segmentation automatiques en exploitant des
données multidimentionnelles, comme une base de données clients.
Le Machine Learning relève d’une approche probabiliste / connexionniste.

Le Machine Learning est devenu possible grâce à:

• l'explosion de la quantité de données collectées (en particulier grâce à internet)


• l'amélioration des algorithmes
• l'augmentation rapide des capacités de calcul des ordinateurs
Machine Learning
Par exemple, le fil d'actualité de Facebook change en fonction des interactions
personnelles de l'utilisateur avec ses homologues.
Si un utilisateur identifie fréquemment un ami dans des photos, écrit sur son mur ou
« aime » ses liens, le fil d'actualité montrera un plus grand nombre d'activités de cet
ami, car il supposera qu'il s'agit d'un ami proche de l'utilisateur.
Machine learning: apprentissage
En machine learning c’est l’ordinateur qui va trouver lui-même la forme de la courbe (ou le motif)
représentant le mieux le comportement des données.
Pour cela il faut lui fournir beaucoup de données d’entrainement: c’est le TRAINING SET.
Machine learning: apprentissage
Et on garde environ 20% des données (TESTING SET) pour tester la qualité de l’apprentissage et
mesurer la performance.
Quand l’algorithme donne des réponses satisfaisantes avec les données du testing set, il est
considéré comme performant et opérationnel pour prédire à partir de nouvelles données

(DATASET)

(TRAINING SET)

Si les réponses des


données test ne sont
pas correctes, on
(TESTING SET) poursuit
l’apprentissage
Machine learning: algorithmes
Difficultés:

Avoir une base de données non biaisée

Souvent la base de données est non étiquetée:


on fait alors de l’apprentissage non supervisé: c’est plus difficile
Machine learning: algorithmes
Régression ou Classification?
Quel type de sortie attend t-on de notre programme ?
Est-ce une valeur continue (un nombre) ou bien une valeur discrète (une catégorie) ?
Le premier cas est appelé une régression (exemple: prévoir montant d’un loyer)
Le second une classification (exemple: sur la photo est-ce un chien ou un chat?)

http://searchengineland.com/experiment-trying-predict-google-rankings-253621
Machine learning: algorithmes
LES DIVERS TYPES D’ALGORITHMES:

• Régression linéaire
• K-NN /Les k plus proches voisins
• La classification naïve bayésienne
• Les Support Vector Machine (SVM) /Les machines à vecteurs de support
• Les arbres de décision
• Les random forests / forêts aléatoires
• L’algorithme des k moyennes
• La régression logistique
• Les algorithmes de Monte-Carlo*
• Les réseaux de neurones (deep learning)

• Les méthodes d’apprentissage par renforcement*


• Etc.

* Utilisés pour AlphaGo qui a vaincu le champion du monde de Go en 2017


Machine learning:
K-NN /Les k plus proches voisins
algorithmes Algorithme de classification supervisé
la distance qui sépare les données d’entraînement(les points rouges et bleus) des nouvelles données est évaluée
pour catégoriser les nouvelles données

k=1 k=3

k=5 k=7

Inconvénient:
l'algorithme k-NN doit conserver toutes les données d'entraînement en mémoire et donc convient aux problèmes d'assez petite taille
NON UTILISABLE QUAND IL Y A BEAUCOUP DE VARIABLES / FEATURES
https://www.analyticsvidhya.com/blog/2014/10/introduction-k-neighbours-algorithm-clustering/
Deep Learning
Le Deep Learning est basé sur des réseaux de neurones artificiels.
Il a permis depuis 10 ans de très gros progrès dans les domaines visuels et
sonores:

Reconnaissance d’images
Reconnaissance de la parole
traduction automatique

La machine ‘comprend’ désormais ce qu’elle voit et entend.


Deep Learning
Pour simplifier les réseaux de neurones artificiels sont de deux types:
RNN réseaux de neurones récurrents qui contienne une mémoire interne
et peuvent comprendre des séquence temporelles (texte oral ou écrit,
vidéo, traduction…)
CNN réseaux de neurones convolutifs qui sont efficaces pour reconnaitre
un objet dans une image
Machine Learning
Cas basique: prévoir le prix de vente d’un appartement
Trop proche du RER : nuisance
Trop loin de RER: difficultés de transport

Risques:
Sous-apprentissage: modèle trop simple
Surapprentissage: modèle colle trop aux données

Un modèle de prévision est en évolution constante


par intégration de nouvelles données
code
Principaux langages:
Python, SQL, R, SAS. En périphérie, Java, Scala, Julia, Javascript, C++…

Python
Photo Analyse
Reconnaissance d’images, reconnaissance faciale
Facebook, Alphabet, Microsoft, Apple investissent dans les domaines de la reconnaissance
d’expression, d’humeur et des sentiments sur les visages.

Depuis 2016 Facebook est capable de reconnaitre


visuellement tous ses clients
(sauf en Europe où c’est interdit)
Reconnaissance faciale
Aujourd’hui la reconnaissance faciale est acquise (deep learning) et on en
est à la reconnaissance d’émotion

http://www.vocativ.com/432779/facial-recognition-cameras-watching-emotions/
https://www.newscientist.com/article/dn27761-facebook-can-recognise-you-in-photos-even-if-youre-not-looking/
IA partout…

http://www.leparisien.fr/societe/sante/cancer-quand-l-intelligence-artificielle-predit-l-efficacite-d-un-traitement-27-08-2018-7865820.php
IA partout…

https://www.sciencesetavenir.fr/sante/grippe-un-vaccin-genere-par-une-intelligence-artificielle-australienne_135881
https://www.lemonde.fr/pixels/article/2019/12/09/google-modifie-l-algorithme-de-son-moteur-de-recherche-en-francais_6022176_4408996.html
IA partout…

https://weekend.lesechos.fr/business-story/innovation/0600802801462-la-traduction-automatique-fait-des-pas-de-geant-2248830.php#
IA partout…

http://lavdn.lavoixdunord.fr/504267/article/2018-12-10/le-nouvel-algorithme-de-facebook-favorise-t-il-les-gilets-jaunes
IA partout…
IA partout…

http://www.lefigaro.fr/flash-eco/2018/07/06/97002-20180706FILWWW00235-les-aeroports-de-paris-passent-a-la-reconnaissance-faciale.php
Marketing SEO: clustering

• https://www.journaldunet.com/solutions/seo-referencement/1209049-l-intelligence-artificielle-fait-entrer-le-seo-dans-la-matrice/
Robot journaliste

http://www.numerama.com/tech/289831-robot-journaliste-en-un-an-une-ia-creee-par-le-washington-post-a-publie-850-articles.html

Une étude américaine montre que les lecteurs font plus confiance à des articles produits par des
robots que par des journalistes; les articles produits par les robots journalistes ne font le plus
souvent que transformer des données chiffrées en phrases et ne véhiculent donc pas d’opinion ou
de jugement de valeur.
http://neilthurman.com/files/downloads/cardiff-19-May-2016.pdf
Robot journaliste

https://www.quareto.com/machine-learning/
IA et émotions: CHATBOT
Le terrain d’expérimentation des émotions dans l’IA c’est les CHATBOTS

http://www.lepoint.fr/high-tech-internet/google-duplex-humain-trop-humain-10-05-2018-2217316_47.php
ART et IA

https://culturebox.francetvinfo.fr/arts/numerique/un-tableau-produit-par-intelligence-artificielle-en-vente-chez-christie-s-281039
https://www.contrepoints.org/2019/01/23/335364-quand-lintelligence-artificielle-affole-le-marche-de-lart
Robots
Robots

Rapport SENAT 2019- robotisation et emplois de service https://www.senat.fr/rap/r19-162/r19-1621.pdf


Robots

https://www.futura-sciences.com/tech/actualites/cyberguerre-scientifique-iranien-ete-assassine-aide-intelligence-artificielle-93647/
Robots
drones militaires et IA sans contrôle humain
Voir Vidéo: Slaughterbots.mp4

https://www.youtube.com/watch?time_continue=2&v=9CO6M2HsoIA
DATA: de moins en moins Big ?
Analyse prédictive: Netflix
Plateforme de streaming - plus de 100 millions d'abonnés
Un client du service de streaming abandonne si la recherche d’un film prend plus de 90 sec.

Objectif de Netflix: Réduire les désabonnement en devançant les envies du spectateur pour le
pousser à la consommation.

Plus de 80% de toutes les émissions


Sont découvertes grâce aux
recommandations Netflix.
Analyse prédictive: Netflix
Principe d’un algorithme de recommandations de films:

Historique des données utilisateurs (complétées par l’algorithme)


ET
Décomposition en genres du catalogue

POUR
Prédire la note que mettrait un utilisateur à chaque film
ET
Recommander le film qui obtiendrait la meilleure note
Analyse prédictive: Netflix
…Et par cet algorithme Netflix prévoit aussi
le film / la série que les spectateurs
aimeraient voir…

et Netflix la conçoit et la produit


Analyse prédictive: Netflix
Mécanisme de l’algorithme de recommandations de films

1- Établir une matrice de valeurs


Films / genres

Ex:
-amour
-action
-comique
Analyse prédictive: Netflix
Mécanisme de l’algorithme de recommandations de films
2- Établir des valeurs décrivant les goûts du client (Xavier) (par son historique de
films et les notes qu’il a donné)

3- Calculer la note d’un film


pour ce client
Analyse prédictive: Netflix
Mécanisme de l’algorithme de recommandations de films
4- L’algorithme complète lui-même les valeurs manquantes (cf données manquantes)

L’algorithme affine ce calcul


avec le temps et
le nombre de données dont il dispose
Analyse prédictive: Netflix
2017: nouvelle série estampillée Marvel, The Defenders.

Chaque programme est différent et se révèle plus ou moins


performant dans la pertinence des choix proposés.

Tactique de Netflix:
Faire passer les spectateurs d’une série à l’autre
et d’un genre à l’autre pour l’amener où on veut

© NETFLIX

https://media.netflix.com/en/press-releases/decoding-the-defenders-netflix-unveils-the-gateway-shows-that-lead-to-a-heroic-binge
Analyse prédictive et marketing
Courtiers en données (Data Brockers):
Constitution et vente de profils de consommateurs à partir de leurs traces sur internet

• Weborama (français) 500.106 profils en Europe


• Médiaprisme (La Poste)
• Experian (Irlandais)
• Acxiom (USA)
• Epsilon(USA)
• Datalogics
• Cambridge Analytica (voir scandale facebook et campagne Donald Trump)
• Exelate, CoreLogic, eBureau, ID Analytics, Intelius, PeekYou, Rapleaf, Recorded Future…
Analyse prédictive et marketing
L’entreprise optimise la valeur de chaque client par une analyse poussée des
comportements des consommateurs.
• On affecte un score à un client : probabilité qu’un individu réponde à une sollicitation
marketing ou appartienne à la cible recherchée pour l’offre potentielle.
• Tout y est utilisé: données socio-démo, achats récents, pages web visités (cookies)…
• Le scoring concentre les envois sur les individus ayant une forte probabilité de réponse ou
appétence pour le produit, les individus pour lesquels l’espérance mathématique de gain
est supérieure au coût contact.

Buts:
• Personnaliser les offres, recommandation, stratégie de prix,
aide à la recherche (par images etc.)
• Choix du moment opportun pour toucher chacun
Real Time Bidding
RTB

DURÉE TOTALE < 0,1sec


IA as a Service
Microsoft, IBM, Google, Amazon etc. proposent de l’Intelligence Artificielle
en ligne: on n’a plus besoin de Data Scientist dans les petites entreprises.
TRAVAUX PRATIQUES
Exercice 1 de création d’une IA grâce à
MICROSOFT AZURE MACHINE LEARNING STUDIO
https://studio.azureml.net
VOIR VIDEO: _DEMO-Microsoft Azure Machine Learning Studio - OK-ok
Puis le refaire soi-même
TRAVAUX PRATIQUES
Deep learning / Réseaux neuronaux
Exemple de simulation sur http://playground.tensorflow.org
On peut régler le nombre de couches cachées, le nombre de neurones par couche etc.
Exemples de paramètres: ratio 50%; noise 0; learning rate 0.03; fonction d’activation Tanh, problème de
classification; Features X1, X2 ; couches de neurones: 2; 4; 2 neurones. La fonction test loss (perte) doit se
minimiser.
*

* ’Regularization’: algorithmes de réduction d’erreur’


Merci

Robert Alaux, novembre 2021

Vous aimerez peut-être aussi