Cours Classification M-Learning Intro 16

Machine learning et Data Mining
Introduction
Jamal Atif
jamal.atif@dauphine.fr
Certificat Data Science
Université Paris-Dauphine
1 / 42 Jamal Atif CDS-Dauphine

Introduction
Plan
1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraites

Exemples de données disponibles exploitées
Types de connaissances extraites
3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé

Introduction ADM, c’est quoi ?
Plan
1 Introduction
L’ADM, pourquoi ?


Le Machine Learning et Data

Mining, qu’est-ce que c’est ?

Question de vocabulaire... (1)
Attention :
I historiquement : plusieurs «
points de départ »
I domaine récent dont le
vocabulaire n’est pas fixé
I évolution rapide
I domaine applicatif versus
domaine de recherche

Question de vocabulaire... (2)
I reconnaissance des formes (pattern I fouille de données (data mining)

recognition) I intelligence artificielle
I analyse de données
I statistique
I apprentissage automatique (machine
I ...
learning)
⇒ domaines différents avec des intersections plus ou moins grandes
Data Sciences

Dans ce cours
Définition
Ensemble de techniques permettant l’extraction de connaissances sous la
forme de modèles à partir de grandes masses de données
Ces modèles peuvent être de nature

I descriptive : permettant d’expliquer le comportement actuel des données
I prédictive : comportement futur des données.

Introduction L’ADM, pourquoi ?
Plan
1 Introduction
L’ADM, pourquoi ?


Pourquoi l’ADM ?
Dans l’industrie
Carte de crédit
I tous les achats sont enregistrés
I détection des fraudes/comportement à
risque
I ciblage
I accord de prêt
I ...
Navigation Web
I historique de la navigation
I ciblage/marketing
I optimisation des sites / du traffic
I ...

Pourquoi l’ADM ?
Pour la science
fMRI
I functional Magnetic Resonance Imaging
I variation de pression sanguine en réponse à des
stimuli
I brain computer interface
Big Science
I détecteur ATLAS du CERN
I 40M événements par secondes, 25Mo par événement
I 1Po de données générées par secondes à analyser
I même situation en biologie, astronomie, ...

Pourquoi l’ADM ?
Pour la société
I tous les textes et discussion du

parlement européen sont
disponibles...
I ...avec leur
traduction/interprétation
I corpus parallèle : les phrases sont
alignés
I utilisable pour apprendre :
I des dictionnaires
I des systèmes de traduction
automatique
I des mémoires de traduction
I ⊕ analyse « politique » des
données

Et encore
I Smart Cities
I Analyse de traffic : RFF/SNCF place des capteurs tout les 100m sur les
rails souhaitant suivre en temps réel l’état de son réseau...
I Analyse de qualité de partenariat : cadres, signature d’un contrat avec un
prestataire, pour une qualité de service et de respect de normes
nationales ou supra-nationales. =⇒ étude des publications, presse,
dépêches, tweets + information interne pour quantifier les cas de non
respect ou de respect des engagements.
I Historique des passages de frontières, etc.

Pourquoi l’ADM ?
Une grosse quantité de données qui n’est jamais analysée

⇒ mettre en place des mécanismes d’analyse automatique.
Big Data
ADM : composants de base
Grande quantité de données + algorithmes efficaces

Un domaine qui s’appuie sur :
I La disponibilité de grandes quantités de données
I Si ensemble trop petit, les structures peuvent ne résulter que du hasard.
I On peut espérer qu’un gros volume de données représente bien l’univers
(échantillon).
I Des algorithmes sûrs et efficaces
I Algorithmes sûrs : fondés théoriquement, corrects.
I Efficaces en temps et en espace.
I Résultats interprétables.
I Paramètres ajustables facilement et rapidement.

Types de données Exemples de données disponibles
Plan
1 Introduction
L’ADM, pourquoi ?


Les données ?
Les données peuvent être vues comme une collection d’objets
(enregistrements) et leurs attributs.
I Un attribut est une propriété et ou une caractéristique de l’objet.
I Un ensemble d’attributs décrit un objet.

Attribut - valeur
I La valeur d’un attribut est un nombre ou un symbole.

I Ne pas confondre attribut et valeur
Types
I Quantitative (numérique, exprime une quantité)
I Discrète (ex : nombre d’étudiants dans un cours) ou continue (ex : longueur)
I Echelle proportionnelle (chiffre d’affaires, taille), ou échelle d’intervalle (température,
QI)
I Qualititative
I Variable ordinale (classement à un concours, échelle de satisfaction client)
I Variable nominale (couleur de yeux, diplôme obtenu, CSP, sexe)
I Les modalités d’une variable sont l’ensemble des valeurs qu’elle prend dans les données
ex : les modalités de notes sont {0, 1, 2, · · · , 20} les modalités de couleur sont
{bleu,vert,noir,...}

Exemple de données disponibles
I Transactions.
I Bases de données des entreprises.
I Téléphone portable.
I Satellites : espace et la terre.
I Données temporelles : cours de la bourse, météo.
I Génomique.
I Données du web.
I Données textuelles.
I ...

Types de données Types de connaissances extraites
Plan
1 Introduction
L’ADM, pourquoi ?


Types de données Types de connaissances extraites
Connaissances sous la forme de modèles de permettant de

I décrire le comportement actuel des données et/ou
I prédire le comportement futur des données.
I Analyses
I e.g. distribution du trafic routier en fonction de l’heure
I Règles
I e.g. si un client a acheté un produit alors il sera intéressé par un autre.
I Attribution de scores de qualité
I e.g. score de fidélité au client
I Classification d’entités
I e.g. mauvais payeurs.

Familles d’approches
Plan
1 Introduction
L’ADM, pourquoi ?


Typologie des méthodes de fouilles de données
Typologie selon l’objectif

I Classification : examiner les caractéristiques d’un objet et lui attribuer
une classe.
e.g. diagnostic ou décision d’attribution de prêt à un client.
I Prédiction : prédire la valeur future d’un attribut en fonction d’autres
attributs.
e.g. prédire la qualité d’un client .
I Association : déterminer les attributs qui sont corrélés.
e.g. analyse du panier de la ménagère
I Segmentation : former des groupes homogènes à l’intérieur d’une
population.

Typologie selon le type de modèle obtenu

I Modèles prédictifs.
I Utilisent les données existantes et des résultats connus sur ces données pour
développer des modèles capables de prédire les valeurs d’autres données.
e.g. Prédire les clients qui ne rembourseront pas leur crédit.
I Utilisés principalement en classification et prédiction.
I Modèles descriptifs.
I Proposent des descriptions de données pour aider à la prise de décision.
I Souvent en amont de la construction de modèles prédictifs.
I Utilisés principalement en segmentation et association.

Typologie selon le type d’apprentissage utilisé

I Apprentissage supervisé : fouille supervisée
I Processus qui prend en entrée des exemples d’apprentissage contenant à la
fois des données d’entrée et de sortie.
I Les exemples d’apprentissage sont fournis avec leur classe.
I But : classer correctement un nouvel exemple.
I Utilisés principalement en classification et prédiction.
I Apprentissage non supervisé : fouille non supervisée
I Processus qui prend en entrée des exemples d’apprentissage contenant que
des données d’entrée
I Pas de notion de classe
I But : regrouper les exemples en paquets (clusters) d’exemples similaires.
I Utilisés principalement en segmentation et association.

Dans ce cours, nous adoptons la typologie selon le type d’apprentissage

utilisé.

Familles d’approches Apprentissage supervisée
Plan
1 Introduction
L’ADM, pourquoi ?


Principe : étant donné un ensemble de données étiquetées

S = {hxi , yi i, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f ∈F
X 3 x −→ y ∈ Y
I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires


étiquettes :
f ∈F
X 3 x −→ y ∈ Y


étiquettes :
f ∈F
X 3 x −→ y ∈ Y


étiquettes :
f ∈F
X 3 x −→ y ∈ Y


étiquettes :
f ∈F
X 3 x −→ y ∈ Y

Classification
Examiner les caractéristiques d’un objet et lui attribuer une classe (un champ
particulier à valeurs discrètes).
I Etant donnée une collection d’enregistrements (ensemble
d’apprentissage).
I Chaque enregistrement contient un ensemble d’attributs et un de ces
attributs est sa classe.
I Trouver un modèle pour l’attribut classe comme une fonction de la
valeurs des autres attributs
I But : permettre d’assigner une classe à des enregistrements inconnus de
manière aussi précise que possible.
I Un ensemble de test est utilisé pour déterminer la précision du modèle.

Classification : exemple

Classification : exemples d’applications
Marketing direct
I But : réduire le coût du mailing en ciblant un ensemble de
consommateurs qui achèteront vraisemblablement un nouveau
téléphone portable.
I Approche :
I Utiliser des données pour un produit similaire.
I On sait quels consommateurs ont acheté. La décision (Achat - Pas achat) est
l’attribut classe.
I Collecter diverses informations sur ce type de consommateurs.
I Cette information représente les entrées du classifier.

Classification : exemples d’applications
I Détection de fraudes à la carte bancaire à l’aide des transactions et

d’informations sur le porteur du compte.
I Détection de désabonnement à l’aide des données sur d’autres
consommateurs présents ou passés.
I Catalogage du ciel : classification des objets du ciel à l’aide d’images.

Familles d’approches Apprentissage non-supervisé
Plan
1 Introduction
L’ADM, pourquoi ?


Principe
Etant donné un ensemble non étiqueté S = {xi , i = 1 . . . N} : modélisation de
X

Figures de l’apprentissage non-supervisé
Partitionnement / clustering
Former des groupes homogènes à l’intérieur d’une population
I méthodes hiérarchiques
I méthodes agglomératives
I méthodes spectrales
I méthodes probabilistes

Estimation de densité
I Méthodes paramétriques
I Méthodes non paramétriques
F PDF Contour
4
-1
-2
-2 -1 0 1 2 3 4

Sélection / recodage de variables

I réduction de dimension, étude des corrélations (PCA, ICA, KPCA, etc)
I identification des variables pertinentes
−5 0 5
Mississippi
North Carolina
0.3
South Carolina
5
0.2
West Virginia Vermont

Georgia
Alabama Arkansas
Alaska
Kentucky
Murder Louisiana
Tennessee South Dakota
0.1
North Dakota
Montana
Maryland
Assault Maine
Comp.2
Wyoming
Virginia Idaho
New Mexico
Florida
0.0
0
New Hampshire
Michigan Iowa
Indiana Nebraska
Missouri OklahomaKansas
Rape Delaware
Texas
Oregon Pennsylvania
Wisconsin
Minnesota
−0.1
Illinois
Nevada Arizona Ohio
New York
Colorado Washington
Connecticut
−0.2
New Jersey
−5
Utah
Massachusetts
Rhode Island
California Hawaii
UrbanPop
−0.2 −0.1 0.0 0.1 0.2 0.3
Comp.1

Analyse des corrélations

I numériques : étude des corrélations, de l’information mutuelle : A et B
sont liés
I symbolique : extraction de règles d’association : A → B

Visualisation et exploration des données

I projections optimales dans Rp , p petit
I constructions de hiérarchies
I extraction des exemples / dimensions typiques

Combinaisons
I estimation paramétrique + partitionnement
I réduction dimension + partitionnement

I réduction dimension + visualisation
I ...

Partitionnement : exemples d’applications
I Segmentation de marchés .
I Segmentation de documents.
I ...

Association : exemples d’applications

Entrée : Un ensemble de tickets de caisse
I Une observation = un caddie, un ticket de caisse.
I Non prise en compte de la fréquence des produits.
I Un grand nombre de produits, un grand nombre de caddies (petit sous ensemble de
l’ensemble de produits).
Sortie : Des règles

Association : exemples d’application
I Marketing et promotions sur des produits.

I Gestion du supermarchés : rayonnage.
I Inventaire.
I ...

Organisation de la session
Partie 1 : Approches non-supervisées

1. Introduction générale
2. Réduction de dimensionalité
I Analyse par Composantes Principales
I Décomposition en Valeurs Singulières : application à l’analyse sémantique
latente et à la recommandation
3. Partitionnement/Clustering
I Algorithme K-Moyennes
I Clustering hiérarchique
4. Règles d’association
5. Travaux Pratiques sous R : Text Mining

Organisation de la session
Partie 2 : Approches supervisées

I Arbres de décision
I knn, Bayes naïf
I Techniques de validation et d’échantillonage
I Deep learning

Résumé
I connaissances
masse de don- I informations
nées (corpus)
I prédictions
Logiciels d’ADM
Logiciels commerciaux
I Suites logicielles SAS
(http://www.sas.com/offices/europe/france/)
I SPSS d’IBM
(http://www-01.ibm.com/software/fr/analytics/spss/)
I Solution Analytics de SAP
(http://www.sap.com/pc/analytics/strategy.html), KXEN
I ...

Logiciels de data mining
Logiciels gratuits
I
I Weka : http://www.cs.waikato.ac.nz/ml/weka/
I Ensemble de classes et d’algorithmes JAVA developpés par l’Université de
Waikato en Nouvelle Zelande.
I Principaux algorithmes de data mining.
I Utilisable en ligne de commande, à l’aide d’une interface utilisateur, par
l’API.
I ScikitLearn
I
I ...

Cours Classification M-Learning Intro 16

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Classification M-Learning Intro 16

Transféré par

Droits d'auteur :

Formats disponibles

Machine learning et Data Mining

Certificat Data Science

1 / 42 Jamal Atif CDS-Dauphine

2 Types de données exploitées et de connaissances extraites

2 / 42 Jamal Atif CDS-Dauphine

2 Types de données exploitées et de connaissances extraites

3 / 42 Jamal Atif CDS-Dauphine

Le Machine Learning et Data

4 / 42 Jamal Atif CDS-Dauphine

Question de vocabulaire... (1)

5 / 42 Jamal Atif CDS-Dauphine

Question de vocabulaire... (2)

I reconnaissance des formes (pattern I fouille de données (data mining)

⇒ domaines différents avec des intersections plus ou moins grandes

6 / 42 Jamal Atif CDS-Dauphine

Ces modèles peuvent être de nature

7 / 42 Jamal Atif CDS-Dauphine

2 Types de données exploitées et de connaissances extraites

8 / 42 Jamal Atif CDS-Dauphine

9 / 42 Jamal Atif CDS-Dauphine

10 / 42 Jamal Atif CDS-Dauphine

I tous les textes et discussion du

11 / 42 Jamal Atif CDS-Dauphine

12 / 42 Jamal Atif CDS-Dauphine

Une grosse quantité de données qui n’est jamais analysée

ADM : composants de base

Grande quantité de données + algorithmes efficaces

14 / 42 Jamal Atif CDS-Dauphine

2 Types de données exploitées et de connaissances extraites

15 / 42 Jamal Atif CDS-Dauphine

16 / 42 Jamal Atif CDS-Dauphine

I La valeur d’un attribut est un nombre ou un symbole.

17 / 42 Jamal Atif CDS-Dauphine

Exemple de données disponibles

18 / 42 Jamal Atif CDS-Dauphine

2 Types de données exploitées et de connaissances extraites

19 / 42 Jamal Atif CDS-Dauphine

Types de connaissances extraites

Connaissances sous la forme de modèles de permettant de

20 / 42 Jamal Atif CDS-Dauphine

2 Types de données exploitées et de connaissances extraites

21 / 42 Jamal Atif CDS-Dauphine

Typologie des méthodes de fouilles de données

Typologie selon l’objectif

22 / 42 Jamal Atif CDS-Dauphine

Typologie des méthodes de fouilles de données

Typologie selon le type de modèle obtenu

23 / 42 Jamal Atif CDS-Dauphine

Typologie des méthodes de fouilles de données

Typologie selon le type d’apprentissage utilisé

24 / 42 Jamal Atif CDS-Dauphine

Dans ce cours, nous adoptons la typologie selon le type d’apprentissage

25 / 42 Jamal Atif CDS-Dauphine

2 Types de données exploitées et de connaissances extraites

26 / 42 Jamal Atif CDS-Dauphine

Principe : étant donné un ensemble de données étiquetées

27 / 42 Jamal Atif CDS-Dauphine

Principe : étant donné un ensemble de données étiquetées

27 / 42 Jamal Atif CDS-Dauphine

Principe : étant donné un ensemble de données étiquetées

27 / 42 Jamal Atif CDS-Dauphine

Principe : étant donné un ensemble de données étiquetées

27 / 42 Jamal Atif CDS-Dauphine