Vous êtes sur la page 1sur 16

COURS DE DATA MINING

3 : MODELISATION
PRESENTATION GENERALE
EPF 4/ 5me anne - Option Ingnierie dAffaires et de Projets - Finance
Bertrand LIAUDET

Phase 4 : Modelisation

Classement des techniques du data mining ....................................................................2


Les six grands types de technique du data mining .........................................................6
Historique des techniques de statistique et de data mining ...........................................9
Fonctionnement gnral des mthodes de classification ..............................................10
Fonctionnement gnral des mthodes supervises......................................................11

PHASE 4 : MODELISATION

PROCESSUS du DATA MINING


Acteurs
Matre
duvre

tapes

Phases

Objectifs

1 : Comprhension du mtier

Donnes

2 : Comprhension des donnes


3 : Prparation des donnes

Traitements

4 : Modlisation
5 : valuation de la modlisation

Matre
douvrage

Dploiement des rsultats de ltude

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 1/16- Bertrand LIAUDET

Classement des techniques du data mining


Les techniques du data mining
Le data mining met en uvre un ensemble de techniques issues des statistiques, de lanalyse
de donnes et de linformatique pour explorer les donnes.
Rappels de vocabulaire : concept, donne, variable, type, modle
On travaille sur des tableaux de donnes.

Le nom du tableau, cest ce dont on parle , cest--dire le concept dont on parle.


Cest une abstraction. Par exemple, un tableau de clients, de malades, etc.
Rappelons quun concept (ou notion, ou ide) est une reprsentation mentale gnrale et
abstraite dun objet. Le concept est le rsultat de lopration de lesprit qui fait quon
place tel objet dans telle catgorie et non dans telle autre.

Chaque colonne du tableau a un nom qui est un attribut du concept. On parle aussi de
proprit ou de champ . Le nom de la colonne est une abstraction (un concept).
Pour un objet concret, la colonne a une valeur particulire qui est la valeur particulire de
lattribut pour lobjet concret.
En data mining (et en statistique), les attributs des objets sont appels : variables .

Chaque ligne du tableau est un lment du tableau, cest--dire un objet concret


correspondant au concept abstrait dont on parle.
En data mining, un objet concret est appel : individu .
En data mining, la valeur dun attribut pour un individu est appel : donne .
En data mining, lensemble des individus est appel : population . Un tableau de
donnes est une population.

Un sous-ensemble de valeurs pour un ou plusieurs attributs donns peut tre appel :


type , classe , catgorie , segment ou encore modalit
Par exemple, grand et petit sont deux types (ou classe, ou catgorie, ou segment)
de lattribut taille .

On parle de variable catgorielle par opposition aux variables numriques . Par


exemple, si la variable (attribut) taille peut prendre deux valeurs possibles : grand
et petit , cest une variable catgorielle. Si les valeurs de la variable taille sont
donnes en cm, cest une variable numrique.

Quand on fait de la prvision, on travaille sur une variable particulire appele :


variable cible et sur un ensemble dautres variables utiles pour la prdiction
appeles : prdicteurs .
Le principe gnral de la prdiction sera : si le ou les prdicteurs valent tant, alors la
variable cible vaut tant.

Les statisticiens et les data miners construisent des modles. Un modle est un rsum
global des relations entre variables permettant de comprendre des phnomnes
(description, jugement) et dmettre des prvisions (prdiction, raisonnement).

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 2/16- Bertrand LIAUDET

Dans labsolu, tous les modles sont faux. Un modle nest pas une loi scientifique.
Cependant, certains sont utiles.
Premire distinction : techniques descriptives et techniques prdictives
On distingue dabord entre deux grandes catgories de techniques : les techniques
descriptives et les techniques prdictives.
Les techniques descriptives (archtype : la classification)

Dcrire.

Rsumer, synthtiser, rduire, classer.

Mettre en vidence des informations prsentes mais caches par le volume des donnes.

Pas de variable cible prdire.

On les appelle aussi : technique non supervises.

Elles produisent des modles de classement : typologie, mta-typologie.

Les techniques prdictives (archtype : le scoring)

Prdire.

Extrapoler de nouvelles informations partir des informations prsentes.

Les techniques prdictives prsentent une variable cible prdire.

Lobjectif est de prvoir la variable cible mais aussi de classer partir de la variable cible.

On les appelle aussi : techniques supervises.

Elles sont plus dlicates mettre en uvre que les techniques descriptives.

Elles demandent plus dhistorique que les techniques descriptives.

Elles produisent des modles de prdiction.

Deuxime distinction : variable numrique et variable catgorielle


Cette distinction est essentielle en statistique et en data mining.
Les variables numriques permettent de faire des rsums, des synthses : moyenne,
minimum, maximum, cart type, etc.
Les variables catgorielles permettent de faire des regroupement par catgories, cest--dire
des classements.
Les 6 grands types de techniques du data mining
Le data mining permet daccomplir les six types danalyse suivants :
1 : Description - 2 : Classification - 3 : Association
4 : Estimation - 5 : Segmentation - 6 : Prvision.
Ces types danalyse se rpartissent dans les techniques descriptives et prdictives :

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 3/16- Bertrand LIAUDET

Techniques descriptives
Corrlation
simple

Corrlation
complexe

Techniques prdictives
Prsent
Variable cible
numrique

Futur

Variable cible
catgorielle

1 : Description 2 : Classification 4 : Estimation 5 : Segmentation


3 : Association

6 : Prvision

Problmes de vocabulaire et de traduction


Traduction
Anglais
Clustering

Franais
segmentation ou classification

Classification

classification ou classement

Decision trees

arbres de dcision ou segmentation

Le vocabulaire soulign est celui quon utilise dans ce cours.


Distinction entre classification et classement
Dans un classement, on sait lavance quelle classe lindividu appartient car on connat
lavance les classes. Le classement est un tri pour les variables numrique, un group by
SQL pour les variables catgorielles.
Dans une classification, on ne sait pas lavance quelle classe un individu appartient car on
ne connat pas lavance les classes. La classification se fait en fonction de la population
entire.
Exemple :
On peut classer les personnes par choix de loption internationale et de loption messagerie.
Ca dfinit a priori 4 classes. Cest un classement.
On peut prendre tous les attributs des clients et chercher des classes de clients en fonction de
tous ces attributs : a donnera un nouvel attribut avec ses valeurs possibles.
Classement
Classification
Ne cre pas ncessairement de nouvel attribut Cre ncessairement un nouvel attribut
Les classes sont dfinies partir dun attribut Les classes sont dfinies partir dun grand
unique ou dun petit nombre dattributs.
nombre dattributs
Une classe est connue partir dun individu
Les classes
priori.

Les classes sont


population

connues partir de la

et leur nombre sont connus a Les classes et leur nombre sont connus a
posteriori.

La classe dappartenance dun individu est La classe dappartenance dun individu est
dfinie par lindividu lui-mme.
dfini par ses relations avec la population.

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 4/16- Bertrand LIAUDET

Classement

Classification

Plutt prdictif. Les donnes des attributs de Plutt descriptif. Le classification cre un
classement sont utiliss pour prdire une attribut de classification qui est la variable
variable cible.
cible de la classification elle-mme.
Exemple : superposition du churn en
fonction du choix de loption internationale.

Les techniques concrtes


Le data mining utlise des techniques concrtes qui peuvent tre limites un type de
technique spcifique ou tre tre partages par plusieurs types de techniques.

Exemple de mthodes descriptives : la classification hirarchique, la classification des K


moyennes, les rseaux de Kohonen, les rgles dassociation.

Exemples de mthodes prdictives : les mthodes de rgression, les arbres de dcision, les
rseaux de neurones, les K plus proches voisins.

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 5/16- Bertrand LIAUDET

Les six grands types de technique du data mining


1 : la description (technique descriptive)
Principe :
La description consiste mettre au jour

Pour une variable donne : la rpartition de ses valeurs (tri, histogramme, moyenne,
minimum, maximum, etc.).

Pour deux ou trois variables donnes : des liens entre les rpartitions des valeurs des
variables. Ces liens sappellent des tendances .

Intrt :

Favoriser la connaissance et la comprhension des donnes.

Mthode :

Mthodes graphiques pour la clart : analyse exploratoire des donnes.

Exemples :

Rpartition des votes par ge (lien entre les variables vote et ge ).

2 : la classification (technique descriptive)


Principe :
La classification (ou clustering ou segmentation) consiste crer des classes (cest--dire
des sous-ensembles) de donnes similaires entre elles et diffrentes des donnes dune autre
classe (autrement dit, lintersection des classes entre elles doit toujours tre vide).
Autrement dit, il sagit pour n variables de crer des sous-ensembles disjoints de donnes. On
dit aussi segmenter lensemble entier des donnes.
La classification dfinit les grands types de regroupement et de distinction : on parle de
mtatypologie (type de type).
Elle permet une vision gnrale de lensemble (de la clientle, par exemple).
Intrt :

Favoriser, grce la mtatypologie, la comprhension et la prdiction.

Fixer des segments qui serviront densemble de dpart pour des analyses approfondies.

Rduire les dimensions, cest--dire le nombre dattributs, quand il y en a trop au dpart.

Mthodes :

Classification hirarchique

Classification des K moyennes

Rseaux de Kohonen.

Rgles dassociation.

Exemples :

Mtatypologie dune clientle en fonction de lge, les revenus, le caractre urbain ou


rural, la taille des villes, etc.

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 6/16- Bertrand LIAUDET

Pour un audit comptable, classer un comportement financier en catgorie normale et


suspecte.

3 : lassociation (technique descriptive)


Principe :
Lassociation consiste trouver quelles valeurs des variables vont ensemble. Par exemple,
telle valeur dune variable va avec telle valeur dune autre variable.
Les rgles dassociation sont de la forme : si antcdent, alors consquence.
Lassociation ne fixe pas de variable cible. Toute les variables peuvent la fois tre
prdicteurs et variable cible.
On appelle aussi ce type danalyse une analyse daffinit .
Intrt :
Mieux connatre les comportements.
Mthodes :

Algorithme a priori.

Algorithme du GRI (induction de rgles gnralise).

Exemples :

Analyse du panier de la mnagre (si jachte des fraises, alors jachte des cerises).

tudier quelle configuration contractuelle dun abonn dune compagnie de tlphone


portable conduit plus facilement un changement doprateur.

4 : lestimation1 (technique prdictive)


Principe :
Lestimation consiste dfinir le lien entre un ensemble de prdicteurs et une variable cible.
Ce lien est dfini partir de donnes compltes , cest--dire dont les valeurs sont connues
tant pour les prdicteurs que pour la variable cible. Ensuite, on peut dduire une variable cible
inconnue de la connaissance des prdicteurs.
la diffrence de la segmentation (technique prdictive suivante) qui travaille sur une
variable cible catgorielle, lestimation travaille sur une variable cible numrique.
Intrt :
Permettre lestimation de valeurs inconnues.
Mthodes :

Analyse statistique classique : rgression linaire simple, corrlation, rgression multiple,


intervalle de confiance, estimation de points.

Rseaux de neurones

Exemples :

Estimer la pression sanguine partir de lge, le sexe, le poids et le niveau de sodium dans
le sang.

Estimer les rsultats dans les tudes suprieures en fonction de critres sociaux.

Reprise du 1er cours.

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 7/16- Bertrand LIAUDET

5 : la segmentation (technique prdictive)


Principe :
La segmentation est une estimation qui travaille sur une variable cible catgorielle.
On parle de segmentation car chaque valeur possible pour la variable cible va dfinir un
segment (ou type, ou classe, ou catgorie) de donnes.
La segmentation peut tre vue comme une classification supervise.
Intrt :

Permettre lestimation de valeurs inconnues.

Mthodes :

Graphiques et nuages de points.

Mthode des k plus proches voisins.

Arbres de dcision.

Rseau de neurones.
Exemples :

Segmentation par tranche de revenus : lev, moyen et faible (3 segments). On cherche les
caractristiques qui conduisent ces segments.

Dterminer si un mode de remboursement prsente un bon ou un mauvais niveau de


risque crdit (deux segments).

6 : la prvision (technique prdictive)


Principe :
La prvision est similaire lestimation et la segmentation mise part que pour la prvision,
les rsultats portent sur le futur.
Intrt :

Permettre lestimation de valeurs inconnues.

Mthodes :

Celles de lestimation ou de la segmentation.

Exemples :

Prvoir le prix daction trois mois dans le futur.

Prvoir le temps quil va faire.

Prvoir le gagnant du championnat de football, par rapport une comparaison des


rsultats des quipes.

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 8/16- Bertrand LIAUDET

Historique des techniques de statistique et de data mining








1875

Rgression linaire de Francis Galton.

1896

Formule du coefficient de corrlation de Karl Pearson2.

1900

Distribution du X de Karl Pearson.

1936

Analyse discriminante de Fischer et Mahalanobis

1941

Analyse factorielle des correspondances de Guttman

1943
1944

Rseaux de neurones de Mac Culloch et Pitts


Rgression logistique de Joseph Berkson

1958

Perceptron de Rosenblatt

1962

Analyse des correspondances de J.-P. Benzcri

1962

Rgression logistique de J. Cornfield

1964
1965

Arbre de dcision AID de J.-P. Sonquist et J.-A. Morgan


Mthode des centres mobiles de E. W. Forgy

1967
1971

Mthode des k means (k moyennes) de Mac Queen


Mthode des nues dynamiques de Diday

1972

Modle linaire gnralis de Nelder et Wedderburn

1975

Algorithme gntique de Holland

1977

Mthode de classement DISQUAL de Gilbert Saporta

1980

Arbre de dcision CHAID de KASS

1983

Rgression PLS de Herman et Svante Wold

1984

Arbre CART de Breichman, Friedman, Olshen, Stone

1986

Perceptron multicouches de Rumelhart et Mac Clelland

1989

Rseaux de T. Kohonen (cartes auto-adaptatives)

1990
1993

Apparition du concept de Data Mining


Arbre C4.5 de J. Ross Quinlan

1996

Bagging (Breiman) et boosting (Freund-Shapire)

1998

Support vector machine de Vladimir Vapnik

2001

Rgression logistique PLS de Tenenhaus

Karl Pearson, (1857-1936), mathmaticien et philosophe britannique qui a mis au point les principales
techniques statistiques modernes et les a appliques aux questions de lhrdit.

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 9/16- Bertrand LIAUDET

Fonctionnement gnral des mthodes de classification


Principe de la classification
Une classe est un ensemble dlments qui sont semblables entre eux et qui sont
dissemblables ceux dautres classes.
Classifier consistera maximiser les similarits des lments qui sont dans la mme classe et
minimiser les similarits de ces lments avec ceux des autres classes. Inversement, on peut
dire que classifier consiste minimiser la variation intra-classe et maximiser la variation
inter-classe.
Classification et techniques supervises
Quand on part dun volume de donnes trs important, on a intrt faire une classification
pralable pour rduire lespace de recherche des algorithmes superviss.
Comment mesurer la similarit ? Notion de distance entre les enregistrements
Cest le premier problme inhrent la classification.
La distance euclidienne entre deux enregistrements x et y est la suivante :
d(x,y)=

i (xi-yi)

x = x1, x2 xn reprsentent les valeurs des variables de x . De mme pour y .


Il existe dautres calculs de distance.
Pour que les distances soient comparables dune variable une autre, on va utiliser la
technique des normalisations : normalisation min-max ou normalisation par le test Z
Normalisation min - max : x = ( x-min(x) ) / amplitude(x)
Normalisation test Z : x= ( x - moy(x) ) / cart type(x)
Comment mesurer les variables catgorielles ?
Cest le second problme inhrent la classification.
Quand on a une variable boolenne, a ne pose pas de difficult. Faux vaut 0 et vrai vaut 1.
Pour des variables numres, on considrera que Si xi = yi alors xi-yi = 0 sinon xi-yi = 1
(cest une sorte de gnralisation du cas prcdent).

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 10/16- Bertrand LIAUDET

Fonctionnement gnral des mthodes supervises


Rappels : variable cible et variables prdictives
Variable cible
La variable cible est la variable dont on cherche connatre la valeur.
On parle aussi de :variable expliquer, rponse, variable dpendante, variable endogne.
Cest la variable en sortie .
Variables explicatives
Les variables explicatives sont les variables utilises pour fabriquer le modle.
On parle aussi de variables prdictives ou de prdicteurs.
Ce sont les variables en entre .
Dfinition gnrale dun modle prdictif
Un modle prdictif est un ensemble de rgles de dcoupage et dassociation des variables
explicatives. En appliquant ces rgles nimporte quel nouvel individu de la population, on
pourra dterminer la valeur de lindividu pour la variable cible.
Les techniques prdictives sont nombreuses et leur domaine dapplication tout autant. Elles
servent aussi bien calculer lefficacit dun traitement mdical, prvoir le temps en
mtorologie, qu prvoir le rendement dune culture en agriculture.
Ces techniques ont un cadre thorique prcis quil faut connatre pour les appliquer
correctement.
Description intuitive dun modle prdictif
Le but est de connatre une information quon ne connat pas.
Par exemple, on veut savoir si un client va rembourser le prt quon lui fait.
Pour calculer cette information, on va sintresser aux clients qui ont dj eu des prts. Et on
va chercher une corrlation gnrale entre les donnes conomiques, sociales, gographiques
et comportementales (le comportement des comptes) et le fait que ces clients aient ou naient
pas rembours leurs prts. Cette corrlation, cest le modle prdictif. Une fois trouve, on
peut lappliquer au client qui demande un prt : cest ce quon appelle une mesure de score de
risque.
Distinction entre les mthodes supervises : classement et prdiction
Le classement : variable cible catgorielle
Encore appel discrimination , le classement est une technique prdictive dont la variable
cible est une variable catgorielle, le plus souvent boolenne.

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 11/16- Bertrand LIAUDET

Le classement permet de placer chaque individu dans une classe correspondant une
catgorie de la variable cible.
A noter que le classement est aussi le nom donn une technique de modlisation descriptive,
par opposition la classification. Il sagit bien du mme classement dans le sens o on
connat a priori les catgories de classement. Quand il soppose la classification, le
classement est descriptif, sans variable cible. Quand il soppose la prdiction, le classement
est prdictif, avec variable cible.
Lexemple type sera le classement prdictif par arbre de dcision.
La prdiction : variable cible continue
Encore appel rgression , la prdiction est une technique prdictive dont la variable cible
est une variable continue.
Lexemple type sera la prdiction par rgression linaire.
Exemple : le scoring
La banque est le principal utilisateur de mesure de score. Ces mesures utilisent les donnes
conomiques, sociales et gographiques du client, mais aussi les donnes sur le
fonctionnement de ses comptes.
Principaux types de scores utiliss dans la banque (tous binaires) :

Score dapptence ou de propension consommer. Pour savoir quel produit proposer


quel client.

Score de risque, de comportement risque. Pour accepter ou pas une demande de prt, de
dcouvert, de carte bancaire, etc.

Score doctroi. Cest la mme chose quun score de risque, mais pour un nouveau client,
donc sans historique du fonctionnement des comptes.

Score de recouvrement. Evalue le montant susceptible dtre rcupr sur un compte en


cas de contentieux.

Sore dattrition. Evalue la probabilit de quitter la banque.

Deux grands types de technique : inductive et transductive


Les techniques transductives
Elles ne prsentent quune seule phase.
Elles ne produisent pas de modle.
Cest pendant la classification des individus connus que se fait la prdiction des donnes
inconnues. Toute prdiction demande donc un accs la population complte (ou un
chantillon) et demande une grande puissance de calcul et peut donc tre assez longue.
Les techniques inductives
1 : Elles prsentent trois phases (parfois quatre) :

une phase dapprentissage qui permet dlaborer un modle. Cest la phase inductive.

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 12/16- Bertrand LIAUDET

une phase de test pour vrifier le modle obtenu (et ventuellement une phase de
validation en plus).

une phase de prdiction ou de classement qui consiste appliquer le modle de


nouvelles donnes. Cest la phase dductive.
Les phases dapprentissage, de test et de validation sont effectues sur des chantillons
distincts de la population.
2 : Elles produisent un modle.
Les techniques inductives sont plus rpandues car le modle produit permet un contrle
du modle (courbe de ROC et indice de Gini) et une application facilite : une prdiction
se fait partir du modle, sans retour la population ou un chantillon dorigine. Cest
rapide et demande peu de puissance de calcul.
Ce sont uniquement ces techniques quon va aborder dans ce cours.
Echantillons dapprentissage et de test
Les techniques inductives travaillent sur deux chantillons de la population :

Lchantillon dapprentissage

Lchantillon de test
Lchantillon dapprentissage est celui avec lequel le modle est construit.
Lchantillon de test est celui avec lequel le modle est test.
Ces chantillons doivent tre reprsentatifs pour que garantir la qualit du modle.
Concrtement, on prend une partie de la population de dpart (les x premiers, 1 sur n, tel
pourcentage alatoire), puis on vrifie que les principales caractristiques statistiques
(tendance centrale, dispersion, corrlations) sont maintenues.
Si des exemples manquent systmatiquement dans lensemble dapprentissage concernant une
catgorie particulire de donnes, la modlisation donnera de mauvais rsultats.
Qualits attendues dun modle supervis

Le taux derreur doit tre le plus bas possible (courbe de ROC et indice de Gini).

Il doit tre aussi peu sensible que possible aux fluctuations alatoires de lchantillon
dapprentissage.

Il doit se maintenir le plus possible avec lvolution dans le temps de la population. Cette
caractristique est fonction des domaines dapplication : un score peut durer deux ans
dans la banque et six mois en tlphonie mobile.

Les rgles doivent tre aussi simples et aussi peu nombreuses que possibles.

Elles doivent autant que possible tre accessibles et comprhensibles.

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 13/16- Bertrand LIAUDET

Taille de lchantillon dapprentissage


Le schma ci-dessous montre lvolution du taux derreur dans les chantillons
dapprentissage et de test en fonction de la taille de ces chantillons (les deux chantillons
aillant la mme taille).
Taux
derreur

chantillon de test

taux
stable
chantillon dapprentissage
Taille de lchantillon
taille suffisante
Le principe est que le taux derreur dans lchantillon dapprentissage croit avec le nombre
dlments de lchantillon jusqu stabilisation. En effet, si on a deux points, on peut faire
une droite et le taux derreur est nul ; idem avec 3 points et une courbe ; avec 4 points et plus,
on va commencer avoir un taux derreur croissant.
Inversement, le taux derreur de lchantillon de test dcrot avec le nombre dlments de
lchantillon, jusqu stabilisation un peu au-dessus du taux derreur de la population
dapprentissage. En effet, si on a deux points dans lchantillon dapprentissage, les deux
points de lchantillon de test seront (probablement) trs loigns de la droite trouve dans
lchantillon. La progression du modle par augmentation de la taille de lchantillon
dapprentissage verra donc une diminution du taux derreur dans lchantillon de test.
Il y a donc une taille critique de lchantillon dapprentissage. Celle-ci dpend de la
complexit du problme trait.
Il est recommand de disposer de 300 500 individus dans chaque classe prdire.
Sur-apprentissage
On parle aussi de sur-ajustement (overfitting ou overtraining).
Un modle trop simple est tel le taux derreur sur les donnes dapprentissage est lev. De ce
fait, le taux derreur sur les donnes de test et dapplication sera aussi lev.
Un modle trop complexe est tel que le taux derreur sur les donnes dapprentissage est trs
faible. De ce fait aussi, le taux derreur sur les donnes de test et dapplication sera trs lev.
En effet, un modle trop complexe, tant particulirement bien adapt aux donnes
dapprentissage, se trouve tre inadapt pour les donnes de test et dapplication. En quelque
sorte, il ne prend pas son compte de taux derreur global des populations dapprentissage, de
test et dapplication, surchargeant du mme coup le taux des populations de test et
dapplication.

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 14/16- Bertrand LIAUDET

On parle de sur-apprentissage quand une liaison entre la variable cible et les variables
explicatives apparat dans les donnes dapprentissage alors quelle nexiste pas dans la
population entire.
Le sur-apprentissage peut survenir lorsque lune des variables cibles est mathmatiquement
corrle la variable cible.
Var. cible

Var. cible

Var. explicatives
Modle trop simple

Var. explicatives
Modle trop complexe

Var. cible

Var. explicatives
Bon modle
Il sagit de trouver un compromis entre la fiabilit du modle sur lensemble dapprentissage
et la gnralisation du modle :

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 15/16- Bertrand LIAUDET

Taux derreur

Taux derreur sur lensemble de validation

Taux derreur min


Taux derreur sur lensemble dapprentissage

Sous-apprentissage

Sur-apprentissage

Complexit optimale

Complexit du modle

Le but est de trouver le juste milieu entre sous et sur apprentissage.

EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 16/16- Bertrand LIAUDET