Vous êtes sur la page 1sur 13

Ricco Rakotomalala Ricco.Rakotomalala@univ-lyon2.

fr

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Tableau de donnes

Variables, caractres, attributs, Descripteurs, champs, etc.

Success Wages Job Y 0 Unemployed N 2000 Skilled Worker N 1400 Worker N 1573 Retired Y 2776 Skilled Worker N 2439 Retired N 862 Office employee Y 1400 Salesman N 1700 Skilled Worker Y 785 Employee Y 1274 Worker N 960 Employee N 1656 Worker N 0 Unemployed

Refunding Slow Slow Slow Slow Slow Fast Slow Slow Slow Fast Slow Fast Fast Slow

Individus, observations, objets, enregistrements, etc.

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Statut des variables


Success W ages Job Y 0 U n e m p lo y e d N 2 0 0 0 S k ille d W o rk e r N 1 4 0 0 W o rk e r N 1 5 7 3 R e tire d Y 2 7 7 6 S k ille d W o rk e r N 2 4 3 9 R e tire d N 8 6 2 O ffic e e m p lo y e e Y 1 4 0 0 S a le s m a n N 1 7 0 0 S k ille d W o rk e r Y 7 8 5 E m p lo y e e Y 1 2 7 4 W o rk e r N 9 6 0 E m p lo y e e N 1 6 5 6 W o rk e r N 0 U n e m p lo y e d R e fu n d in g S lo w S lo w S lo w S lo w S lo w Fast S lo w S lo w S lo w Fast S lo w Fast Fast S lo w

Variable prdire Attribut classe Variable endogne Ncessairement discrte nominale (qualitative)
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Variables prdictives Descripteurs Variables exognes De type quelconque (nominale, ordinale, continue)

Principes de lapprentissage supervis


Population

Y variable prdire (endogne), qualitative X variables exognes (quelconques)


Une srie de variables X=(x1||xp)

Objet de l tude

On veut construire une fonction de classement telle que

Y = f ( X , )
Utiliser un chantillon a (extraite de la population) pour choisir la fonction f et ses paramtres telle que l on minimise l erreur thorique

Objectif de l apprentissage

ET =

1 [Y , f ( X , )] card ()

1 si Y f ( X , ) o [.] = 0 si Y = f ( X , )
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Problmes : il faut choisir une famille de fonction il faut estimer les paramtres on utilise un chantillon pour optimiser sur la population

Apprentissage bayesien
(cas particulier du problme 2 classes Positifs vs. Ngatifs)

Apprentissage en 2 tapes partir des donnes : estimer la probabilit daffectation P(Y / X) prdire [Y = +] si P(Y = + / X) > P(Y = - / X)
Remarques : P(Y = + / X) est selon le cas appel score ou apptence : cest la propension tre un positif Cette mthode daffectation minimise lerreur de prdiction -- cest un cas particulier du cot de mauvaise affectation

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Apprentissage bayesien
(gnralisation K classes)

Apprentissage en 2 tapes partir des donnes : estimer la probabilit daffectation P(Y = yk / X ) prdire

y k * = arg max P ( Y = y k / X )
k

Remarque : Lorsque les X sont discrets, nous pouvons en dduire un modle logique daffectation.

Si X1 = ? et X2 = ? et X3 = ? Alors Y = ?

prmisse
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

conclusion
6

Apprentissage bayesien -- Exemple Y


Maladie Prsent Prsent Absent Absent Prsent Absent Absent Prsent Absent Prsent Poids 45 57 59 61 65 68 70 72 78 80 Taille Trapu Elanc Elanc Trapu Elanc Elanc Trapu Trapu Trapu Elanc

X
Mari Non Non Non Oui Non Non Oui Non Oui Oui Etud.Sup Oui Oui Non Oui Oui Non Non Oui Non Non

SI taille = ? ALORS Maladie = ? SI taille = ? ET etud.sup = ? ALORS Maladie = ?

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Avantages et inconvnient du modle bayesien complet


Optimale, elle minimise lerreur thorique

Pas de solution directe pour les descripteurs continus


(discrtisation ou hypothse de distribution)

Pas de slection et dvaluation des descripteurs


(individuellement ou des groupes de variables donc pas de slection)

Ds que le nombre de descripteurs augmente

Problme de calculabilit Problme de fragmentation des donnes

Nombre doprations norme, ex. 10 descr. Binaires => 2^10 rgles

Plein de cases avec des 0, estimations peu fiables

Cette approche nest pas utilisable dans la pratique !


Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

valuation de lapprentissage
Le modle exprime une connaissance Explication : comprendre la causalit pour mieux lexploiter

Comprhensibilit

Validation : lexpert peut valuer la pertinence de lexpertise Amlioration : lexpert peut intervenir pour ajuster les paramtres calculs (ex. les bornes de discrtisation)

En apprentissage

pouvoir tester plusieurs pistes (ajout de variables,

Rapidit

test de combinaison de variables, modifications de paramtres, etc.) En classement, affecter une tiquette un nouvel individu Facilit de mise jour du modle (cf. la notion dincrmentalit)

Prcision

valuer la prcision (fiabilit) du modle lors de son utilisation future

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

valuation de lapprentissage Matrice de confusion


Principe : confronter la vraie valeur avec la prdiction
Prdite + b d b+d Total a+b c+d n

Observe

+ Total

a c a+c

Quelques indicateurs : Vrais positifs VP = a Faux positifs FP = c Taux derreur = (c+b)/n Sensibilit = Rappel = Taux de VP = a/(a+b) Prcision = a/(a+c) Taux de FP = c/(c+d) Spcificit = d/(c+d) = 1 Taux de FP
10

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

valuation Les cots de mauvaise affectation


Comparaison de deux mthodes dapprentissage
Prdite +
Observe

Prdite
10 30 40 Total 50 50 100
Observe

+ + Total 20 0 20

30 50 80

Total 50 50 100

+ Total

40 20 60

Calculer les indicateurs synthtiques et comparer

Une information complmentaire La matrice de cots de mauvais classement


Prdite +
Observe

5 0

+ -

0 1

Cot moyen de mauvaise affectation (dont le taux derreur est un cas particulier)
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

11

valuation Le principe apprentissage & test


Problme : un fichier ne peut pas tre juge et partie
Dans ce cas, les indicateurs calculs sont dit de resubstitution On sait quils sont biaiss -- trop optimistes

Success W ages Job Y 0 Unemployed N 2000 Skilled W orker N 1400 W orker N 1573 Retired Y 2776 Skilled W orker N 2439 Retired N 862 Office employee Y 1400 Salesman N 1700 Skilled W orker Y 785 Employee Y 1274 W orker N 960 Employee N 1656 W orker N 0 Unemployed

Refunding Slow Slow Slow Slow Slow Fast Slow Slow Slow Fast Slow Fast Fast Slow

Subdivision alatoire
chantillon dapprentissage
Utilis pour la construction du modle 70%

chantillon test
Utilis pour lvaluation du modle 30% Rappel, prcision, taux derreur

(exercice : fichier LOAN Success vs. Housing & Refunding) Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

12

Bibliographique : comprhension des mthodes supervises

Analyse discriminante Application au risque et au scoring financier , M. Bardos, ed. Dunod, 2001.
Technique pratique, avec de bons repres thoriques, tourn vers les applications

The elements of statistical learning - Data Mining, Inference and Prediction , T. Hastie, R. Tibshirani, J. Friedman, Springer 2001.
Trs technique, encyclopdique, indispensable pour la recherche, lire plusieurs fois

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

13