Académique Documents
Professionnel Documents
Culture Documents
Apprentissage automatique
Gnralits
Hind Elouedi
Semestre 2 - 2016
Objectifs
2
Points abords
Introduction
Dfinitions
Domaines dapplication
Types dapprentissage
Classification
Evaluation
3
Introduction
Sources de donnes :
Donnes financires : Bourse, Banque, etc.
Donnes scientifiques : donnes gologiques,
biologiques, images satellite, etc.
Business transactions : code barre, e-commerce, etc.
Donnes personnelles / statistiques : recensement,
dossier mdical, profil client, donnes
dmographiques, etc.
World Wide Web et rpertoires Online : BD Online,
emails, news, images, vidos, Web documents,
librairies digitales, user registrations, etc.
4
Introduction (2)
Donnes coteuses en stockage et inexplores
5
Introduction (3)
Diffrentes sources
re du Big Data
de donnes
Ncessit de mthodes
automatises danalyse
et de traitements
des donnes
Apprentissage Automatique
(Machine Learning)
6
Dfinitions
Informatique dcisionnelle
Apprentissage
Apprentissage automatique
7
Dfinitions (2)
Objectifs : Utilisation efficace des donnes (souvent
htrognes) en un temps raisonnable pour des prises
de dcision comptitives.
Objectifs
Analytiques Exploratoires
(on sait ce quon cherche) = un (on ne sait pas exactement ce
questionnement particulier quon cherche) = on recherche
de nouveaux liens cachs
= nouvelles connaissances
8
Dfinitions (3)
Informatique dcisionnelle
= Business intelligence
9
Dfinitions (4)
Apprentissage
Acqurir de nouvelles connaissances.
Contracter de nouvelles habitudes.
Avoir une connaissance extraite partir dun
ensemble dexemples ou dexpriences antrieures.
10
Dfinitions (5)
Apprentissage automatique
Simuler la cognition humaine.
Doter la machine dun mcanisme dapprentissage.
Machine learning = Intersection de linformatique,
statistiques et domaines particuliers.
Statistiques Informatique
Domaine
dapplication
11
Domaines dapplication
12
Domaines dapplication (2)
Domaine de la mdecine: Aide au diagnostic
Caractriser les symptmes des anciens patients et de
leurs maladies.
Marketing: laboration dun profil client
Faire une segmentation automatique des clients.
Analyse financire: Prvision dvolution des
marchs.
Assurance: Analyse des risques.
Tlcoms: Dtection des fraudes.
Scurit: Dtection des intrusions.
13
Types dapprentissage
Apprentissage supervis
Apprentissage semi-supervis
14
Types dapprentissage (2)
Apprentissage supervis
Cest une technique d'apprentissage automatique o l'on cherche
produire automatiquement des rgles partir d'une base de
donnes d'apprentissage contenant des exemples .
On dispose dun ensemble de paires dE/S de la forme: (xi, yi)
xi : entre(s) possible(s) Descriptions ou situations
yi : sortie(s) associe(s) xi Actions ou predictions
Les paires dE/S sont appeles les exemples qui proviennent dune
fonction inconnue.
Il sagit de trouver une bonne approximation dune fonction f dont on
ne connat le rsultat que pour un certain nombre dexemples.
15
Apprentissage supervis (2)
Exemples
Une fonction h aussi proche que possible de f o f(xi) = yi
0 0
1 1
4 64
h(x) = x3
5 125
17
Apprentissage non supervis
18
Apprentissage non supervis (2)
Exemples
Segmentation du march:
Quelles sont les catgories principales des
clients typiques dans le domaine
vestimentaire?
Enfants, adolescent, adultes, etc.
Habill, sport, classique, etc.
19
Apprentissage non supervis (3)
20
Apprentissage semi-supervis
21
Apprentissage par renforcement
22
Apprentissage par renforcement (2)
Exemple
Jeu dchec :
On joue contre un adversaire.
Il y a une stratgie dactions (en fonction du jeu).
Cest en fin de la partie quon va avoir le rsultat
de nos actions :
Victoire.
Nul.
Dfaite.
23
Classification
Notion de classification
Apprentissage par lexemple
Approche paramtrique
Approche non paramtrique
Types de classification
24
Notion de classification
Attributs A1 A2 ... Ak
(Variables)
Classifieur
26
Apprentissage par lexemple (2)
Ensemble dapprentissage
Attributs
Revenu Proprit Crdit non Classe
rembours
Elev Suprieur Non C1
Valeurs des attributs
C1: Attribuer tout le crdit - C2: Attribuer une partie crdit - C3: Ne pas attribuer le crdit.
27
Apprentissage par lexemple (3)
Ensemble test
Revenu Proprit Crdit non Classes
rembours
Elev Suprieur Oui ?
Moyen Infrieur Non ?
Elev Suprieur Oui ?
Moyen Suprieur Oui ?
Faible Infrieur Oui ?
Nul Infrieur Oui ?
Elev Suprieur Non ?
Moyen Infrieur Oui ?
On cache les
vraies classes
28
Approche paramtrique
29
Approche non paramtrique
30
Types de classification
Classification supervise
Les classes sont dfinies a priori ( lavance).
Dcouverte de rgles ou formules pour ranger les
donnes dans des classes prdfinies.
Construction dun modle sur les donnes dont la classe
est connu (ensemble dapprentissage).
Utilisation des nouveaux objets pour classification.
Exemples
Arbres de dcision.
Mthode K plus proches voisins.
Rseaux de neurones.
Machines vecteurs supports (SVM).
31
Types de classification (2)
Classification non supervise
Les instances dapprentissage ne sont pas fournies avec
des classes.
Lensemble dapprentissage nest pas tiquet
(on ne connat pas les classes a priori).
Intuitevement les objets de mme classe sont proches
les uns des autres.
Mesure de similarit ou de distance
Regrouper les exemples similaires:
Segmentation et cluster
Exemples
Centres mobiles.
Rseaux de Kohonen.
32
Evaluation
33
Evaluation (2)
PCC = Nombre dobjets correctement classs
Nombre total des objets tests
Ensemble test
Revenu Proprit Crdit non Classes Vraies
rembours prdites classes
Elev Suprieur Oui C1 C1
Moyen Infrieur Non C2 C2
Elev Suprieur Oui C1 C1
Moyen Suprieur Oui C3 C2
Faible Infrieur Oui C1 C3
Nul Infrieur Oui C3 C3
Elev Suprieur Non C1 C1
Moyen Infrieur Oui C2 C2
6
PCC = = 75% Taux derreur = 25%
8
34
Evaluation (3)
Matrice de confusion
Classifieur
Prdites C1 (4) C2 (2) C3 (2)
Vraies
C1(3) 3 0 0
C2 (3) 0 2 1
C3 (2) 1 0 1
Bon classifieur sur la diagonale.
Identifier les classes mal comprises (apprises).
35
Evaluation (4)
Validation croise
Partition de lensemble dapprentissage T en n
ensembles disjoints (T1, T2,, Tn) de mme taille |Ti|
Pour chaque i = 1, 2, , n
On fait lapprentissage sur T {Ti}
On teste sur Ti
On calcule le PCC sur Ti
On fait la moyenne des PCC.
36
suivre
Arbres de dcision
37