Vous êtes sur la page 1sur 51

Machine learning et Data Mining

Introduction

Jamal Atif
jamal.atif@dauphine.fr

Certificat Data Science

Université Paris-Dauphine

1 / 42 Jamal Atif CDS-Dauphine


Introduction

Plan

1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraites


Exemples de données disponibles exploitées
Types de connaissances extraites

3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé

2 / 42 Jamal Atif CDS-Dauphine


Introduction ADM, c’est quoi ?

Plan

1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraites


Exemples de données disponibles exploitées
Types de connaissances extraites

3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé

3 / 42 Jamal Atif CDS-Dauphine


Introduction ADM, c’est quoi ?

Le Machine Learning et Data


Mining, qu’est-ce que c’est ?

4 / 42 Jamal Atif CDS-Dauphine


Introduction ADM, c’est quoi ?

Question de vocabulaire... (1)

Attention :
I historiquement : plusieurs «
points de départ »
I domaine récent dont le
vocabulaire n’est pas fixé
I évolution rapide
I domaine applicatif versus
domaine de recherche

5 / 42 Jamal Atif CDS-Dauphine


Introduction ADM, c’est quoi ?

Question de vocabulaire... (2)

I reconnaissance des formes (pattern I fouille de données (data mining)


recognition) I intelligence artificielle
I analyse de données
I statistique
I apprentissage automatique (machine
I ...
learning)

⇒ domaines différents avec des intersections plus ou moins grandes

Data Sciences

6 / 42 Jamal Atif CDS-Dauphine


Introduction ADM, c’est quoi ?

Dans ce cours

Définition
Ensemble de techniques permettant l’extraction de connaissances sous la
forme de modèles à partir de grandes masses de données

Ces modèles peuvent être de nature


I descriptive : permettant d’expliquer le comportement actuel des données
I prédictive : comportement futur des données.

7 / 42 Jamal Atif CDS-Dauphine


Introduction L’ADM, pourquoi ?

Plan

1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraites


Exemples de données disponibles exploitées
Types de connaissances extraites

3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé

8 / 42 Jamal Atif CDS-Dauphine


Introduction L’ADM, pourquoi ?

Pourquoi l’ADM ?
Dans l’industrie

Carte de crédit
I tous les achats sont enregistrés
I détection des fraudes/comportement à
risque
I ciblage
I accord de prêt
I ...

Navigation Web
I historique de la navigation
I ciblage/marketing
I optimisation des sites / du traffic
I ...

9 / 42 Jamal Atif CDS-Dauphine


Introduction L’ADM, pourquoi ?

Pourquoi l’ADM ?
Pour la science

fMRI
I functional Magnetic Resonance Imaging
I variation de pression sanguine en réponse à des
stimuli
I brain computer interface

Big Science
I détecteur ATLAS du CERN
I 40M événements par secondes, 25Mo par événement
I 1Po de données générées par secondes à analyser
I même situation en biologie, astronomie, ...

10 / 42 Jamal Atif CDS-Dauphine


Introduction L’ADM, pourquoi ?

Pourquoi l’ADM ?
Pour la société

I tous les textes et discussion du


parlement européen sont
disponibles...
I ...avec leur
traduction/interprétation
I corpus parallèle : les phrases sont
alignés
I utilisable pour apprendre :
I des dictionnaires
I des systèmes de traduction
automatique
I des mémoires de traduction
I ⊕ analyse « politique » des
données

11 / 42 Jamal Atif CDS-Dauphine


Introduction L’ADM, pourquoi ?

Et encore

I Smart Cities
I Analyse de traffic : RFF/SNCF place des capteurs tout les 100m sur les
rails souhaitant suivre en temps réel l’état de son réseau...
I Analyse de qualité de partenariat : cadres, signature d’un contrat avec un
prestataire, pour une qualité de service et de respect de normes
nationales ou supra-nationales. =⇒ étude des publications, presse,
dépêches, tweets + information interne pour quantifier les cas de non
respect ou de respect des engagements.
I Historique des passages de frontières, etc.

12 / 42 Jamal Atif CDS-Dauphine


Introduction L’ADM, pourquoi ?

Pourquoi l’ADM ?

Une grosse quantité de données qui n’est jamais analysée


⇒ mettre en place des mécanismes d’analyse automatique.

Big Data
13 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?

ADM : composants de base

Grande quantité de données + algorithmes efficaces


Un domaine qui s’appuie sur :
I La disponibilité de grandes quantités de données
I Si ensemble trop petit, les structures peuvent ne résulter que du hasard.
I On peut espérer qu’un gros volume de données représente bien l’univers
(échantillon).
I Des algorithmes sûrs et efficaces
I Algorithmes sûrs : fondés théoriquement, corrects.
I Efficaces en temps et en espace.
I Résultats interprétables.
I Paramètres ajustables facilement et rapidement.

14 / 42 Jamal Atif CDS-Dauphine


Types de données Exemples de données disponibles

Plan

1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraites


Exemples de données disponibles exploitées
Types de connaissances extraites

3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé

15 / 42 Jamal Atif CDS-Dauphine


Types de données Exemples de données disponibles

Les données ?
Les données peuvent être vues comme une collection d’objets
(enregistrements) et leurs attributs.
I Un attribut est une propriété et ou une caractéristique de l’objet.
I Un ensemble d’attributs décrit un objet.

16 / 42 Jamal Atif CDS-Dauphine


Types de données Exemples de données disponibles

Attribut - valeur

I La valeur d’un attribut est un nombre ou un symbole.


I Ne pas confondre attribut et valeur

Types
I Quantitative (numérique, exprime une quantité)
I Discrète (ex : nombre d’étudiants dans un cours) ou continue (ex : longueur)
I Echelle proportionnelle (chiffre d’affaires, taille), ou échelle d’intervalle (température,
QI)
I Qualititative
I Variable ordinale (classement à un concours, échelle de satisfaction client)
I Variable nominale (couleur de yeux, diplôme obtenu, CSP, sexe)
I Les modalités d’une variable sont l’ensemble des valeurs qu’elle prend dans les données
ex : les modalités de notes sont {0, 1, 2, · · · , 20} les modalités de couleur sont
{bleu,vert,noir,...}

17 / 42 Jamal Atif CDS-Dauphine


Types de données Exemples de données disponibles

Exemple de données disponibles

I Transactions.
I Bases de données des entreprises.
I Téléphone portable.
I Satellites : espace et la terre.
I Données temporelles : cours de la bourse, météo.
I Génomique.
I Données du web.
I Données textuelles.
I ...

18 / 42 Jamal Atif CDS-Dauphine


Types de données Types de connaissances extraites

Plan

1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraites


Exemples de données disponibles exploitées
Types de connaissances extraites

3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé

19 / 42 Jamal Atif CDS-Dauphine


Types de données Types de connaissances extraites

Types de connaissances extraites

Connaissances sous la forme de modèles de permettant de


I décrire le comportement actuel des données et/ou
I prédire le comportement futur des données.
I Analyses
I e.g. distribution du trafic routier en fonction de l’heure
I Règles
I e.g. si un client a acheté un produit alors il sera intéressé par un autre.
I Attribution de scores de qualité
I e.g. score de fidélité au client
I Classification d’entités
I e.g. mauvais payeurs.

20 / 42 Jamal Atif CDS-Dauphine


Familles d’approches

Plan

1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraites


Exemples de données disponibles exploitées
Types de connaissances extraites

3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé

21 / 42 Jamal Atif CDS-Dauphine


Familles d’approches

Typologie des méthodes de fouilles de données

Typologie selon l’objectif


I Classification : examiner les caractéristiques d’un objet et lui attribuer
une classe.
e.g. diagnostic ou décision d’attribution de prêt à un client.
I Prédiction : prédire la valeur future d’un attribut en fonction d’autres
attributs.
e.g. prédire la qualité d’un client .
I Association : déterminer les attributs qui sont corrélés.
e.g. analyse du panier de la ménagère
I Segmentation : former des groupes homogènes à l’intérieur d’une
population.

22 / 42 Jamal Atif CDS-Dauphine


Familles d’approches

Typologie des méthodes de fouilles de données

Typologie selon le type de modèle obtenu


I Modèles prédictifs.
I Utilisent les données existantes et des résultats connus sur ces données pour
développer des modèles capables de prédire les valeurs d’autres données.
e.g. Prédire les clients qui ne rembourseront pas leur crédit.
I Utilisés principalement en classification et prédiction.
I Modèles descriptifs.
I Proposent des descriptions de données pour aider à la prise de décision.
I Souvent en amont de la construction de modèles prédictifs.
I Utilisés principalement en segmentation et association.

23 / 42 Jamal Atif CDS-Dauphine


Familles d’approches

Typologie des méthodes de fouilles de données

Typologie selon le type d’apprentissage utilisé


I Apprentissage supervisé : fouille supervisée
I Processus qui prend en entrée des exemples d’apprentissage contenant à la
fois des données d’entrée et de sortie.
I Les exemples d’apprentissage sont fournis avec leur classe.
I But : classer correctement un nouvel exemple.
I Utilisés principalement en classification et prédiction.
I Apprentissage non supervisé : fouille non supervisée
I Processus qui prend en entrée des exemples d’apprentissage contenant que
des données d’entrée
I Pas de notion de classe
I But : regrouper les exemples en paquets (clusters) d’exemples similaires.
I Utilisés principalement en segmentation et association.

24 / 42 Jamal Atif CDS-Dauphine


Familles d’approches

Dans ce cours, nous adoptons la typologie selon le type d’apprentissage


utilisé.

25 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage supervisée

Plan

1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraites


Exemples de données disponibles exploitées
Types de connaissances extraites

3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé

26 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage supervisée

Apprentissage supervisé

Principe : étant donné un ensemble de données étiquetées


S = {hxi , yi i, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f ∈F
X 3 x −→ y ∈ Y

I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires

27 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage supervisée

Apprentissage supervisé

Principe : étant donné un ensemble de données étiquetées


S = {hxi , yi i, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f ∈F
X 3 x −→ y ∈ Y

I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires

27 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage supervisée

Apprentissage supervisé

Principe : étant donné un ensemble de données étiquetées


S = {hxi , yi i, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f ∈F
X 3 x −→ y ∈ Y

I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires

27 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage supervisée

Apprentissage supervisé

Principe : étant donné un ensemble de données étiquetées


S = {hxi , yi i, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f ∈F
X 3 x −→ y ∈ Y

I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires

27 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage supervisée

Apprentissage supervisé

Principe : étant donné un ensemble de données étiquetées


S = {hxi , yi i, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f ∈F
X 3 x −→ y ∈ Y

I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires

27 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage supervisée

Apprentissage supervisé
Classification

Examiner les caractéristiques d’un objet et lui attribuer une classe (un champ
particulier à valeurs discrètes).
I Etant donnée une collection d’enregistrements (ensemble
d’apprentissage).
I Chaque enregistrement contient un ensemble d’attributs et un de ces
attributs est sa classe.
I Trouver un modèle pour l’attribut classe comme une fonction de la
valeurs des autres attributs
I But : permettre d’assigner une classe à des enregistrements inconnus de
manière aussi précise que possible.
I Un ensemble de test est utilisé pour déterminer la précision du modèle.

28 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage supervisée

Classification : exemple

29 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage supervisée

Classification : exemples d’applications

Marketing direct
I But : réduire le coût du mailing en ciblant un ensemble de
consommateurs qui achèteront vraisemblablement un nouveau
téléphone portable.
I Approche :
I Utiliser des données pour un produit similaire.
I On sait quels consommateurs ont acheté. La décision (Achat - Pas achat) est
l’attribut classe.
I Collecter diverses informations sur ce type de consommateurs.
I Cette information représente les entrées du classifier.

30 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage supervisée

Classification : exemples d’applications

I Détection de fraudes à la carte bancaire à l’aide des transactions et


d’informations sur le porteur du compte.
I Détection de désabonnement à l’aide des données sur d’autres
consommateurs présents ou passés.
I Catalogage du ciel : classification des objets du ciel à l’aide d’images.

31 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Plan

1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?

2 Types de données exploitées et de connaissances extraites


Exemples de données disponibles exploitées
Types de connaissances extraites

3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé

32 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Apprentissage non-supervisé

Principe
Etant donné un ensemble non étiqueté S = {xi , i = 1 . . . N} : modélisation de
X

33 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Figures de l’apprentissage non-supervisé

Partitionnement / clustering
Former des groupes homogènes à l’intérieur d’une population
I méthodes hiérarchiques
I méthodes agglomératives
I méthodes spectrales
I méthodes probabilistes

34 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Figures de l’apprentissage non-supervisé

Estimation de densité
I Méthodes paramétriques
I Méthodes non paramétriques
F PDF Contour
4

-1

-2
-2 -1 0 1 2 3 4

34 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Figures de l’apprentissage non-supervisé

Sélection / recodage de variables


I réduction de dimension, étude des corrélations (PCA, ICA, KPCA, etc)
I identification des variables pertinentes

−5 0 5

Mississippi
North Carolina
0.3

South Carolina

5
0.2

West Virginia Vermont


Georgia
Alabama Arkansas
Alaska
Kentucky
Murder Louisiana
Tennessee South Dakota
0.1

North Dakota
Montana
Maryland
Assault Maine
Comp.2

Wyoming
Virginia Idaho
New Mexico
Florida
0.0

0
New Hampshire
Michigan Iowa
Indiana Nebraska
Missouri OklahomaKansas
Rape Delaware
Texas
Oregon Pennsylvania
Wisconsin
Minnesota
−0.1

Illinois
Nevada Arizona Ohio
New York
Colorado Washington
Connecticut
−0.2

New Jersey

−5
Utah
Massachusetts
Rhode Island
California Hawaii

UrbanPop

−0.2 −0.1 0.0 0.1 0.2 0.3

Comp.1

34 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Figures de l’apprentissage non-supervisé

Analyse des corrélations


I numériques : étude des corrélations, de l’information mutuelle : A et B
sont liés
I symbolique : extraction de règles d’association : A → B

34 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Figures de l’apprentissage non-supervisé

Visualisation et exploration des données


I projections optimales dans Rp , p petit
I constructions de hiérarchies
I extraction des exemples / dimensions typiques

34 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Figures de l’apprentissage non-supervisé

Combinaisons
I estimation paramétrique + partitionnement

I réduction dimension + partitionnement


I réduction dimension + visualisation
I ...

34 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Partitionnement : exemples d’applications

I Segmentation de marchés .
I Segmentation de documents.
I ...

35 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Association : exemples d’applications


Entrée : Un ensemble de tickets de caisse
I Une observation = un caddie, un ticket de caisse.
I Non prise en compte de la fréquence des produits.
I Un grand nombre de produits, un grand nombre de caddies (petit sous ensemble de
l’ensemble de produits).

Sortie : Des règles

36 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Association : exemples d’application

I Marketing et promotions sur des produits.


I Gestion du supermarchés : rayonnage.
I Inventaire.
I ...

37 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Organisation de la session

Partie 1 : Approches non-supervisées


1. Introduction générale
2. Réduction de dimensionalité
I Analyse par Composantes Principales
I Décomposition en Valeurs Singulières : application à l’analyse sémantique
latente et à la recommandation
3. Partitionnement/Clustering
I Algorithme K-Moyennes
I Clustering hiérarchique
4. Règles d’association
5. Travaux Pratiques sous R : Text Mining

38 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Organisation de la session

Partie 2 : Approches supervisées


I Arbres de décision
I knn, Bayes naïf
I Techniques de validation et d’échantillonage
I Deep learning

39 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Résumé

I connaissances
masse de don- I informations
nées (corpus)
I prédictions
40 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé

Logiciels d’ADM

Logiciels commerciaux
I Suites logicielles SAS
(http://www.sas.com/offices/europe/france/)
I SPSS d’IBM
(http://www-01.ibm.com/software/fr/analytics/spss/)
I Solution Analytics de SAP
(http://www.sap.com/pc/analytics/strategy.html), KXEN
I ...

41 / 42 Jamal Atif CDS-Dauphine


Familles d’approches Apprentissage non-supervisé

Logiciels de data mining

Logiciels gratuits
I

I Weka : http://www.cs.waikato.ac.nz/ml/weka/
I Ensemble de classes et d’algorithmes JAVA developpés par l’Université de
Waikato en Nouvelle Zelande.
I Principaux algorithmes de data mining.
I Utilisable en ligne de commande, à l’aide d’une interface utilisateur, par
l’API.
I ScikitLearn
I

I ...

42 / 42 Jamal Atif CDS-Dauphine

Vous aimerez peut-être aussi