Vous êtes sur la page 1sur 37

Mastre Professionnel : Business Intelligence

Apprentissage automatique

Gnralits

Hind Elouedi

Semestre 2 - 2016
Objectifs

Dfinir la notion dapprentissage automatique


(Machine Learning).
Enumrer les diffrents domaines dapplication.
Connatre les diffrents types dapprentissage
automatique.
Comprendre la notion de classification.
Comprendre la notion dvaluation

2
Points abords

Introduction

Dfinitions

Domaines dapplication
Types dapprentissage

Classification

Evaluation

3
Introduction
Sources de donnes :
Donnes financires : Bourse, Banque, etc.
Donnes scientifiques : donnes gologiques,
biologiques, images satellite, etc.
Business transactions : code barre, e-commerce, etc.
Donnes personnelles / statistiques : recensement,
dossier mdical, profil client, donnes
dmographiques, etc.
World Wide Web et rpertoires Online : BD Online,
emails, news, images, vidos, Web documents,
librairies digitales, user registrations, etc.

4
Introduction (2)
Donnes coteuses en stockage et inexplores

5
Introduction (3)
Diffrentes sources
re du Big Data
de donnes

Ncessit de mthodes
automatises danalyse
et de traitements
des donnes

Apprentissage Automatique
(Machine Learning)
6
Dfinitions

Informatique dcisionnelle

Apprentissage

Apprentissage automatique

7
Dfinitions (2)
Objectifs : Utilisation efficace des donnes (souvent
htrognes) en un temps raisonnable pour des prises
de dcision comptitives.

Objectifs

Analytiques Exploratoires
(on sait ce quon cherche) = un (on ne sait pas exactement ce
questionnement particulier quon cherche) = on recherche
de nouveaux liens cachs
= nouvelles connaissances

8
Dfinitions (3)
Informatique dcisionnelle

= Business intelligence

Exploitation des donnes dans le but de faciliter


la prise de dcision par les dcideurs, c'est--dire
la comprhension du fonctionnement actuel
et l'anticipation des actions pour un pilotage clair.

9
Dfinitions (4)
Apprentissage
Acqurir de nouvelles connaissances.
Contracter de nouvelles habitudes.
Avoir une connaissance extraite partir dun
ensemble dexemples ou dexpriences antrieures.

Cest la capacit damliorer


laccomplissement dune tche en
interagissant avec un environnement.

10
Dfinitions (5)
Apprentissage automatique
Simuler la cognition humaine.
Doter la machine dun mcanisme dapprentissage.
Machine learning = Intersection de linformatique,
statistiques et domaines particuliers.

Statistiques Informatique

Domaine
dapplication
11
Domaines dapplication

Data mining : Fouille de donnes


Exploitation des donnes historiques pour amliorer
les dcisions.
Ensemble de techniques d'exploration de donnes
afin d'en tirer des connaissances (la signification
profonde).
Domaine des banques: Attribution de crdit
Utiliser un historique de crdits accords et non
accords avec la situation personnelle du client.

12
Domaines dapplication (2)
Domaine de la mdecine: Aide au diagnostic
Caractriser les symptmes des anciens patients et de
leurs maladies.
Marketing: laboration dun profil client
Faire une segmentation automatique des clients.
Analyse financire: Prvision dvolution des
marchs.
Assurance: Analyse des risques.
Tlcoms: Dtection des fraudes.
Scurit: Dtection des intrusions.
13
Types dapprentissage

Apprentissage supervis

Apprentissage non supervis

Apprentissage semi-supervis

Apprentissage par renforcement

14
Types dapprentissage (2)
Apprentissage supervis
Cest une technique d'apprentissage automatique o l'on cherche
produire automatiquement des rgles partir d'une base de
donnes d'apprentissage contenant des exemples .
On dispose dun ensemble de paires dE/S de la forme: (xi, yi)
xi : entre(s) possible(s) Descriptions ou situations
yi : sortie(s) associe(s) xi Actions ou predictions
Les paires dE/S sont appeles les exemples qui proviennent dune
fonction inconnue.
Il sagit de trouver une bonne approximation dune fonction f dont on
ne connat le rsultat que pour un certain nombre dexemples.

On demande au systme de gnraliser

15
Apprentissage supervis (2)
Exemples
Une fonction h aussi proche que possible de f o f(xi) = yi

0 0
1 1
4 64
h(x) = x3
5 125

Une distribution de probabilit P(xi, yi)


Quelle est la probabilit quun client achte un tel produit?
Dans un jeu de carte:
Les cartes gagnantes sont: 9, Roi et 7.
Les cartes perdantes sont: 3, 4 et 6.
Les cartes rouges sont gagantes et les cartes noires numriques
sont perdantes. 16
Apprentissage supervis (3)

Apprentissage supervis avec variable rponse continue


Rgression, Estimation de densit

Apprentissage avec variable rponse discrte


Classification ou analyse discriminante

Apprentissage avec variable rponse boolenne


Apprentissage de concept

17
Apprentissage non supervis

On dispose uniquement dun ensemble dentres.


Regrouper les entres en un ensemble fixe de groupes:
Clustering.
Les entres de chaque groupe sont proches les uns des autres.
On utilise une certaine mtrique dans lespace des entres.
Dcouvrir de nouvelles relations au niveau des
donnes: Ex. Rseaux baysiens.

18
Apprentissage non supervis (2)

Exemples
Segmentation du march:
Quelles sont les catgories principales des
clients typiques dans le domaine
vestimentaire?
Enfants, adolescent, adultes, etc.
Habill, sport, classique, etc.

19
Apprentissage non supervis (3)

Domaine mdical: Dcouverte de nouveaux liens


Il y a un lien entre visiter lAsie et attraper la tuberculose

20
Apprentissage semi-supervis

Lapprentissage semi-supervis utilise un ensemble de


donnes tiquetes et non-tiqutes.

Apprentissage semi-supervis peut


amliorer les performances en combinant
les donnes avec labels et sans labels

21
Apprentissage par renforcement

Lalgorithme dapprentissage doit trouver une stratgie


dactions pour obtenir ventuellement une rcompense
(ou pnalit).

La rcompense ou la pnalit arrive (gnralement)


suite un ensemble dactions.

Maximiser le gain (ou inversement) long terme


(apprentissage de rflexes, apprentissage de palnification,)

22
Apprentissage par renforcement (2)

Exemple
Jeu dchec :
On joue contre un adversaire.
Il y a une stratgie dactions (en fonction du jeu).
Cest en fin de la partie quon va avoir le rsultat
de nos actions :
Victoire.
Nul.
Dfaite.

23
Classification

Notion de classification
Apprentissage par lexemple
Approche paramtrique
Approche non paramtrique
Types de classification
24
Notion de classification

Lune des tches de lapprentissage est la Classification


O
Objet

Attributs A1 A2 ... Ak
(Variables)
Classifieur

Classes C1, C2, Cn


25
Apprentissage par lexemple

On dispose dun grand ensemble dexemples (objets).


On cherche trouver une structure relative ces
exemples pour obtenir un modle.
Ce modle permet de:
Extraire une procdure de classification partir dexemples.
Classer un nouvel exemple.
.
.
.
Prvoir une valeur numrique.
Comprendre la structure des exemples.

26
Apprentissage par lexemple (2)
Ensemble dapprentissage
Attributs
Revenu Proprit Crdit non Classe
rembours
Elev Suprieur Non C1
Valeurs des attributs

Elev Suprieur Oui C2


Elev Suprieur Non C1
Elev Infrieur Oui C2
Moyen Suprieur Non C1
Moyen Suprieur Oui C2
Moyen Infrieur Non C2
Moyen Infrieur Oui C2
Faible Infrieur Non C3
Faible Infrieur Oui C3

C1: Attribuer tout le crdit - C2: Attribuer une partie crdit - C3: Ne pas attribuer le crdit.

27
Apprentissage par lexemple (3)
Ensemble test
Revenu Proprit Crdit non Classes
rembours
Elev Suprieur Oui ?
Moyen Infrieur Non ?
Elev Suprieur Oui ?
Moyen Suprieur Oui ?
Faible Infrieur Oui ?
Nul Infrieur Oui ?
Elev Suprieur Non ?
Moyen Infrieur Oui ?

On cache les
vraies classes

28
Approche paramtrique

Proposition dun modle dont on estime ses paramtres


partir des exemples (phase dapprentissage).
Les hypothses que lon fait sur les lois de probabilit
font partie dune famille de distributions.
Si on sait que P est une distribution normale, il suffit destimer
ses deux paramtres:
Sa moyenne.
Son cart type.
Avoir une bonne approximation de la distribution P.
Dterminer une procdure de classification.

29
Approche non paramtrique

Pas dhypothses sur le modle que suivent


les donnes.
Les problmes rsoudre sont plus
complexes que ceux traits par les mthodes
paramtriques.
Mthodes statistiques.
Mthodes issues de lintelligence artificielle.

30
Types de classification
Classification supervise
Les classes sont dfinies a priori ( lavance).
Dcouverte de rgles ou formules pour ranger les
donnes dans des classes prdfinies.
Construction dun modle sur les donnes dont la classe
est connu (ensemble dapprentissage).
Utilisation des nouveaux objets pour classification.
Exemples
Arbres de dcision.
Mthode K plus proches voisins.
Rseaux de neurones.
Machines vecteurs supports (SVM).
31
Types de classification (2)
Classification non supervise
Les instances dapprentissage ne sont pas fournies avec
des classes.
Lensemble dapprentissage nest pas tiquet
(on ne connat pas les classes a priori).
Intuitevement les objets de mme classe sont proches
les uns des autres.
Mesure de similarit ou de distance
Regrouper les exemples similaires:
Segmentation et cluster
Exemples
Centres mobiles.
Rseaux de Kohonen.
32
Evaluation

Utilisation dun ensemble test.


Pourcentage de Classification Correcte (PCC).
Taux derreur de la classification (dduit du
PCC).
Utilisation de la validation croise.

33
Evaluation (2)
PCC = Nombre dobjets correctement classs
Nombre total des objets tests
Ensemble test
Revenu Proprit Crdit non Classes Vraies
rembours prdites classes
Elev Suprieur Oui C1 C1
Moyen Infrieur Non C2 C2
Elev Suprieur Oui C1 C1
Moyen Suprieur Oui C3 C2
Faible Infrieur Oui C1 C3
Nul Infrieur Oui C3 C3
Elev Suprieur Non C1 C1
Moyen Infrieur Oui C2 C2
6
PCC = = 75% Taux derreur = 25%
8
34
Evaluation (3)
Matrice de confusion
Classifieur
Prdites C1 (4) C2 (2) C3 (2)
Vraies
C1(3) 3 0 0
C2 (3) 0 2 1
C3 (2) 1 0 1
Bon classifieur sur la diagonale.
Identifier les classes mal comprises (apprises).

35
Evaluation (4)

Validation croise
Partition de lensemble dapprentissage T en n
ensembles disjoints (T1, T2,, Tn) de mme taille |Ti|
Pour chaque i = 1, 2, , n
On fait lapprentissage sur T {Ti}
On teste sur Ti
On calcule le PCC sur Ti
On fait la moyenne des PCC.

36
suivre

Arbres de dcision

37