Vous êtes sur la page 1sur 156

Apprentissage Statistique

Apprentissage Statistique
modlisation, prvision, data mining
P HILIPPE B ESSE & B ATRICE L AURENT

NB. Les cours et travaux pratiques (scnarios, ateliers) du site wikistat.fr sont dispenss en formation initiale lINSA de Toulouse
dans la spcialit dIngnieurs en Gnie Mathmatique et Modlisation. Ils sont galement proposs dans le cadre de stages de
Formation Professionnelle Qualifiante.

quipe de Statistique et Probabilits


Institut de Mathmatiques de Toulouse UMR CNRS C5219
Dpartement Gnie Mathmatique et Modlisation
Institut National des Sciences Appliques de Toulouse 31077 Toulouse cedex 4.

Apprentissage Statistique

Table des matires

Statistique, Apprentissage, BigDataMining


Erreur de prvision et risque
Slection de variables et rgularisation en rgression multiple
Rgression PLS, ACP et PLS parcimonieuses
Rgression logistique
Modles non paramtriques
Analyse discriminante dcisionnelle
Arbres binaires de dcision
Rseaux neuronaux
Agrgation de modles
Machines vecteurs supports
Imputation de donnes manquantes
En guise de conclusion
Annexes
Dontologie scientifique et Statistique
Introduction au bootstrap

page 3
page 15
page 28
page 48
page 59
page 67
page 83
page 89
page 98
page 106
page 118
page 125
page 135
page 143
page 154

Attention ce cours est dense, la lecture de ce document ne suffira pas la bonne comprhension des outils qui y sont dcrits de
faon synthtique. La prsence aux cours et la participation active aux TDs sont indispensables lacquisition des comptences
incontournables pour une utilisation raisonnable et raisonne des techniques dapprentissage statistique.

Statistique, Apprentissage, BigDataMining

Statistique, Apprentissage,
BigDataMining

1.1

Introduction
Un peu dhistoire

1940-70 hOctets Il tait une fois la Statistique : une question, (i.e. biologique), associe une hypothse exprimentalement rfutable, une exprience planifie avec n 30 individus observs sur p (moins de 10)
variables, un modle linaire suppos vrai, un test, une dcision, une rponse.

Rsum
Lobjet de ce cours est dintroduire, sous une forme homogne et
synthtique, les techniques de modlisation statistique ou dapprentissage supervis utilises le plus couramment en fouille de donnes
volumineuses ou de grande dimension (data mining, big data analytics) pour laide la dcision dans des champs dapplications trs
divers : industriels, marketing, ou encore en relation avec des thmatiques de recherche en Biologie, pidmiologie... Lobjectif principal est la modlisation pour la prvision et donc la recherche
de modles optimaux (parcimonieux) pour diffrentes mthodes de
modlisation statistique classique (modles gaussiens et binomiaux,
analyse discriminante), moins classiques (ridge, pls, lasso, arbres
binaires de dcision) ou encore dites dapprentissage (rseaux de
neurones, agrgation de modles, machines vecteurs supports) issues du machine learning.
Statistique, Apprentissage, BigDataMining
Erreur de prvision et risque
Slection de variables et rgularisation en rgression multiple
Rgression PLS, ACP et PLS parcimonieuses
Rgression logistique
Modles non paramtriques
Analyse discriminante dcisionnelle
Arbres binaires de dcision
Rseaux neuronaux
Agrgation de modles
Machines vecteurs supports
Imputation de donnes manquantes
En guise de conclusion
Annexes
Dontologie scientifique et Statistique
Introduction au bootstrap

1970s kO Les premiers outils informatiques se gnralisant, lanalyse des


donnes en France, (multivariate statistics ailleurs : Mardia et al. (1979)
[5]) explore, prtendument sans modle, des donnes plus volumineuses.
1980s MO En Intelligence Artificielle, les systmes experts expirent, supplants par lapprentissage (machine learning) des rseaux de neurones.
La Statistique aborde des modles non-paramtriques ou fonctionnels.
1990s GO Premier changement de paradigme. Les donnes ne sont plus
planifies, elles sont pralablement acquises et bases dans des entrepts
pour les objectifs usuels (i.e. comptables) de lentreprise. Laide la dcision les valorise : From Data Mining to Knowledge Discovery (Fayyad et
al., 1996)[2]. Les logiciels de fouille regroupent dans un mme environnement des outils de gestions de donnes, des techniques exploratoires et
de modlisation statistique). Cest lavnement du marketing quantitatif
et de la gestion de la relation client (GRC ou CRM).
2000s TO Deuxime changement de paradigme. Le nombre p de variables
explose (de lordre de 104 106 ), notamment avec les biotechnologies
omiques o p >> n. Lobjectif de qualit de prvision lemporte sur la
ralit du modle devenu bote noire. Face au flau de la dimension,
Apprentissage Machine et Statistique sunissent en Apprentissage Statistique (statistical learning, Hastie et al. 2001-2009)[3] : slectionner des
modles en quilibrant biais vs. variance ; minimiser conjointement erreurs dapproximation (biais) et erreur destimation (variance).
2010s PO Troisime changement de paradigme. Dans les applications industrielles, le e-commerce, la go-localisation... cest le nombre n dindividus qui explose, les bases de donnes dbordent, se structurent en
nuages (cloud), les moyens de calculs se groupent (cluster), mais la puissance brute ne suffit plus la voracit (greed) des algorithmes. Un troi3

07/15

Statistique, Apprentissage, BigDataMining

sime terme derreur est prendre en compte : celle doptimisation, in- ses sous la terminologie de Data Mining gnralement traduit par fouille de
duite par la limitation du temps de calcul ou celle du volume / flux de donnes (voir Tuffry 2007 [6] pour un expos mtier plus dtaill). Cette
approche, dont la prsentation est principalement issue du marketing spciadonnes considr. La dcision devient adaptative ou squentielle.
lis dans la gestion de la relation client (GRC) (client relation management
1.2 Contenu
ou CRM), trouve galement des dveloppements et applications industrielles
Les donnes volumineuses sont au cur des problmatiques mergentes de en contrle de qualit ou mme dans certaines disciplines scientifiques ds
recherche, en faisant notamment appel des structures de donnes sophisti- lors que les ingnieurs et chercheurs sont confronts un volume de donnes
ques : graphes, fonctions, varits. Chaque problme est porteur de sa propre important. Cest mme lafflux actuel de saisies automatiques de donnes isoriginalit ; ils ne seront pas abords dans ce cours qui se limite aux articu- sues du monde industriel qui motive principalement lmergence du Big Data
lations : Statistique, Apprentissage Machine, fouille de donnes et donc au paralllement lexplosion du e-commerce. Devant la complexit envisage,
lorsque les modles physiques font dfaut, un problme industriel peut changer
problme central de lquilibre biais variance.
de paradigme lorsque la modlisation dterministe atteint ses limites, les donAinsi, le data mining est prsent comme la recherche dinformations perti- nes recueillies massivement sont analyses pour laide la dcision comme ce
nentes (des ppites dinformation) pour laide la dcision et la prvision. Il fut le cas en marketing quantitatif avec la fouille de donnes du sicle dernier.
met en vre des techniques statistiques et dapprentissage machine en tenant
Laccroche publicitaire souvent cite par les diteurs de logiciels (i.e. SAS)
compte de la spcificit de grandes trs grandes dimensions des donnes.
est :
La section 2 suivante introduit la fouille de donnes tandis que la section
Comment trouver un diamant dans un tas de charbon sans se salir
3 reprend ces objectifs dans le cadre gnral de la modlisation afin den larles mains.
gir les champs dapplication. La section 4 dcrit la stratgie trs gnralement
mise en place pour optimiser choix de mthodes et choix de modles ; la secNous proposons dvaluer et dexprimenter la ralit de cette annonce qui
tion 5 dcrit brivement quelques exemples dapplication et notamment ceux
sadresse un march en pleine expansion. Les entreprises sont en effet trs
utiliss pour illustrer ce cours. Enfin, la section 6 liste rapidement les mthodes
motives pour tirer parti et amortir, par une aide la dcision quantifie, les
qui sont abordes et les raisons qui ont conduit ces choix.
cots de stockage des traoctets que leur service informatique semploie administrer.

2.1

Motivations du big data mining

2.2

Environnement

Origine

Le contexte informationnel de la fouille de donnes est donc celui dun sysLe dveloppement des moyens informatiques et de calcul permet le stockage tme de bases de donnes, classique relationnel ou non, dont la mise en place
(bases de donnes), le traitement et lanalyse densembles de donnes trs vo- est assure par le gestionnaire de donnes (data manager) en relation avec une
lumineux. Plus rcemment, le perfectionnement des logiciels et de leurs in- problmatique :
gestion des stocks (flux tendu), des ventes dun groupe afin de prvoir et
terfaces offrent aux utilisateurs, statisticiens ou non, des possibilits de mise
anticiper au mieux les tendances du march,
en uvre trs simples de ces mthodes. Cette volution, ainsi que la popula suivi des fichiers clients dune banque, dune assurance, associs des
risation de nouvelles techniques algorithmiques (rseaux de neurones, support
donnes socio-conomiques (INSEE), lannuaire, en vue de la constituvector machine...) et outils graphiques, conduit au dveloppement et la comtion dune segmentation (typologie) pour cibler des oprations de markemercialisation de logiciels (Enterprise miner, Clementine, Insightfull miner...)
intgrant un sous-ensemble de mthodes statistiques et algorithmiques utiliting ou des attributions de crdit. La gestion de la relation client (GRC ou
4

07/15

Statistique, Apprentissage, BigDataMining

CRM) vise une individualisation ou personnalisation de la production et


de la communication afin dvacuer la notion de client moyen.
recherche, spcification puis ciblage de niches de march les plus profitables (banque) ou au contraire les plus risques (assurance) ;
suivi en ligne des paramtres de production (traabilit) en contrle de
qualit pour dtecter au plus vite lorigine dune dfaillance ;
prospection textuelle (text mining) et veille technologique ;
web mining, comportement des internautes et e-commerce ;
...
Cet environnement se caractrise par
une informatique htrogne faisant intervenir des sites distants travers
le rseau de lentreprise (intranet) ou mme des accs extrieurs (internet). Des contraintes defficacit, de fiabilit ou de scurit conduisent
rpartir, stocker linformation la source plutt qu la dupliquer systmatiquement ou la centraliser.
Lincompatibilit logique des informations observes sur des chantillons
diffrents ne prsentant pas les mmes strates, les mmes codifications.
Des volumes et flux considrables de donnes issues de saisies automatises et chiffrs en tra maintenant ptaoctets.
Contrairement une dmarche statistique traditionnelle (planification de
lexprience), les donnes analyses sont stockes dautres fins (comptabilit, contrle de qualit...) et sont donc pralables lanalyse.
La ncessit de ne pas exclure a priori un traitement exhaustif des donnes afin de ne pas laisser chapper, travers le crible dun sondage, des
groupes de faibles effectifs mais fort impact conomique.

ci un processeur ou calculateur reli aux autres par un rseau haut dbit au


sein dun cluster. Les mots clefs et outils de cette architecture sont Hadoop et
Map Reduce, NoSQL. Hadoop est un projet de la fondation logicielle Apache
(open source en java) destin faciliter la cration dapplications distribues
et chelonnables. Un algorithme, une mthode est dite chelonnable (scalable)
si le temps de calcul est divis par le nombre de processeurs (nuds) utiliss
ce qui permet aux applications de travailler avec des milliers de nuds et des
ptaoctets de donnes. Le principe, initi par Google et Yahoo, est de rpartir
les tches parallles (Map) puis dintgrer (Reduce) tous les rsultats obtenus.
Exemple trs lmentaire : chaque nud calcule la moyenne dune variable
avant de calculer la moyenne des moyennes. Bien entendu, toute mthode statistique ou dapprentissage nest pas scalable ou au pris dun algorithme stochastique plus sophistiqu. Dautre part les requtes complexes comme celle
de SQL sont impossibles. Dautres systmes dits NoSQL (not only SQL, Cassandra, MongoDB, Voldemort...), dvelopps lorigine par des grands sites
comme Amazon, eBay, reposent galement sur un systme de fragmentation
(sharding) des donnes tout en autorisant des possibilits de requtes intermdiaires avec SQL. Bien entendu les principaux acteurs commerciaux historiques comme (Oracle) prennent position de faon complmentaire ou concurrente avec ces systmes mergents.

2.3

thodes usuelles ou traiter les donnes de faon exhaustives uniquement


avec une technique scalable. Comment intervient un erreur introduite par
sondage par rapport celle de la mthode utilise ?
prendre en compte, ou non, les aspects temporels dus aux flux de donnes : estimer des modles sur une fentre glissante, adopter des algorithmes adaptatifs ?
Aborder de nouveaux (Scala, Clojure) anciens (bass sur Lisp) langages
de programmation pour dvelopper ou redvelopper des mthodes dapprentissage directement paralllisables. Cest en effet ce que permettent
ces langages fonctionnels par opposition aux langages objet (C, java...).
Ncessairement limit, ce cours, niveau M2, ne peut aborder ces dernires

Confront cette problmatique, il appartient au statisticien data scientist


de
sinitier aux interfaces daccs une architecture Hadoop ou NoSQL, no-

tamment par lutilisation doutils comme Mahout ou RHadoop...


optimiser sa stratgie : sonder dans les donnes et se ramener des m-

Big Data vs. Data Mining

La communication, les noms changent mais fondamentalement les mthodes restent. Le traitement des grandes masses de donnes, associ au "nouveau" mtier de data scientist, occupe une grande place dans les mdias notamment en relation avec les risques annoncs et rels du contrle dinternet
par big brother. Beaucoup dentreprises et de formations suivent le mouvement
en renommant les intituls sans pour autant se placer dans le cadre de grandes
masses de donnes ncessitant des traitements spcifiques. Celui-ci devient effectif partir du moment o le volume et le flux de donnes imposent une
paralllisation des tches : les donnes sont rparties en nuds, chacun asso5

07/15

identifier des chiffres manuscrits sur un code postal partir dune image

questions. Il ne peut non plus aborder celles lies la complexit des donnes
industrielles ou issues de la recherche (biologique, mdicale...) qui ouvrent
souvent sur des problmes originaux. Il peut sagir alors de traiter non plus des
tableaux ou matrices de donnes mais des saisies automatiques de courbes,
signaux spectres, images, graphes... De telles structures posent un problme
pralable de base de reprsentation (fourier, splines, ondelettes...) fonction de
la nature des donnes et de lobjectif recherch. Voir par exemple le scnario danalyse de spectres RMN dcomposs sur une base dondelettes pour la
dtection de mtabolites "biomarqueurs".

digitalise,
prvoir le prix dun stock dans 6 mois partir de mesures de performance

de lentreprise et de donnes conomiques,


prvoir un taux de pollution atmosphrique en fonction de conditions m-

torologiques ,
prvoir une courbe de consommation lectrique pour un client EDF en

fonction de variables climatiques et de caractristiques spcifiques ce


client,
Gestion de la relation client (GRC ou CRM) et scoring en marketing
quantitatif,
maintenance prventive partir de relevs dincidents,
construire un modle de substitution un code numrique complexe qui
permet de prdire une carte de concentration dun polluant dans un sol un
an aprs un rejet accidentel en fonction de la carte initiale et des caractristiques du sol (porosit, permabilit...). Lobjectif est de raliser une
analyse de sensibilit.
Historiquement, la Statistique sest beaucoup dveloppe autour de ce type
de problmes et a propos des modles incorporant dune part des variables
explicatives ou prdictives et, dautre part, une composante alatoire ou bruit.
Il sagit alors destimer les paramtres du modle partir des observations
en contrlant au mieux les proprits et donc le comportement de de la partie
alatoire. Dans la mme situation, la communaut informatique parle plutt
dapprentissage visant le mme objectif ; apprentissage machine (ou machine
learning), reconnaissance de forme (pattern recognition) en sont les principaux
mots-clefs.

Il est important de noter que, sil a une formation de base en Mathmatiques et Statistique, le nouveau data scientist voit arriver avec une certaine
srnit la vague ou le tsunami du Big Data. Certes un travail informatique
amont, perptuellement renouvel face lobsolescence rapide tes technologies, est important pour stocker les donnes et rendre excutable les mthodes
mais, conceptuellement, la Mathmatique ncessaire prend dj en compte des
tailles et dimensions infinies pour les modles considrs dans des espaces
hilbertiens. Muni de ce bagage prenne, il peut accompagner et suivre la recherche en dveloppement.

Apprentissage statistique

Un peu de recul permet dinscrire la dmarche de la fouille de donnes dans


un contexte plus large et donc potentiellement plus propice dautres domaines
dapplication.

3.1

Statistique, Apprentissage, BigDataMining

Objectif gnral

Lobjectif gnral est donc un objectif de modlisation qui peut se prciser


en sous-objectifs dfinir clairement pralablement une tude car ceux-ci
conditionnent en grande part les mthodes qui pourront tre mises en uvre :

Ds quun phnomne, quil soit physique, biologique ou autre, est trop


complexe ou encore trop bruit pour accder une description analytique dbouchant sur une modlisation dterministe, un ensemble dapproches ont t
labores afin den dcrire au mieux le comportement partir dune srie dobservations. Voici quelques exemples de problmes dapprentissage :
identifier les facteurs de risque dun certain type de cancer, en fonction de
variables cliniques et dmographiques,
rechercher des gnes potentiellement impliqus dans une maladie partir
de donnes de biopuces ou plus gnralement des bio-marqueurs pour un
diagnostic prcoce,

Modliser pour
explorer ou vrifier, reprsenter, dcrire, les variables, leurs liaisons et positionner les observations de lchantillon,
expliquer ou tester linfluence dune variable ou facteur dans un modle suppos connu a priori,
prvoir & slectionner un meilleur ensemble de prdicteurs comme par
6

07/15

Statistique, Apprentissage, BigDataMining

observe sur les mmes objets. Dans le premier cas il sagit bien dun problme de modlisation ou apprentissage supervis : trouver une fonction f
prvoir par une ventuelle meilleure bote noire sans besoin dinterprta- susceptible, au mieux selon un critre dfinir, de reproduire Y ayant observ
tion explicite.
X.
exemple dans la recherche de bio-marqueurs,

Des paramtres importants du problme sont les dimensions : n nombre


Y = f (X) +
dobservations ou taille de lchantillon et p nombre de variables observes sur
cet chantillon. Lorsque les mthodes statistiques traditionnelles se trouvent o symbolise le bruit ou erreur de mesure avec le parti pris le plus commun
mises en dfaut pour de grandes valeurs de p, ventuellement plus grande que que cette erreur est additive. En cas derreur multiplicative, une transformation
n, les mthodes rcentes dapprentissage sont des recours pertinents car effi- logarithmique ramne au problme prcdent.
caces.
Dans le cas contraire, en labsence dune variable expliquer, il sagit alors
dapprentissage
dit non-supervis. Lobjectif gnralement poursuivi est la reEnfin, les stratgies de choix de modle parmi un ensemble plus ou moins
cherche
dune
typologie
ou taxinomie des observations : comment regrouper
complexe, de choix de mthode, sont au cur de la problmatique de ce cours.
celles-ci
en
classes
homognes
mais les plus dissemblables entre elles. Cest
Ltude de la fouille de donnes se focalise donc sur les pratiques ou mthodes
un
problme
de
classification
(clustering).
linterface de lapprentissage machine et de la Statistique. Les dveloppements mthodologiques cette interface ont pris depuis le dbut du sicle la
Attention, langlais classification se traduit plutt en franais par discriminadnomination dapprentissage statistique ; Hastie et al. (2009)[3] en proposent tion ou classement (apprentissage supervis) tandis que la recherche de classes
un tour dhorizon assez exhaustif.
(clustering) (apprentissage non-supervis) fait appel des mthodes de clasAttention, dautres objectifs dune fouille de donnes ou dextensions de ces sification ascendante hirarchique, des algorithmes de rallocation dynamique
techniques, ne sont pas pris en compte dans celui dune modlisation au sens (kmeans) ou encore des cartes auto-organisatrices (Kohonen).
statistique prcdent et donc dans ce cours dapprentissage statistique. Cela
Dans ce cours, nous allons nous intresser essentiellement lapprentissage
concerne la
supervis, pour lequel on dispose dun ensemble dapprentissage constitu de
classification non-supervise ou clustering trait par ailleurs et rappel donnes dobservations de type entre-sortie : dn = {(x1 , y1 ), . . . , (xn , yn )}
1
ci-dessous.
avec xi X quelconque (souvent gal Rp ), yi Y pour i = 1 . . . n
recherche de rgles dassociations ou problme du panier de la mnagre.
Lobjectif est de construire, partir de cet chantillon dapprentissage, un
Mthode qui consiste identifi les co-occurences les plus frquentes ou
modle, qui va nous permettre de prvoir la sortie y associe une nouvelle
significatives par un ensemble de rgles logiques associant variables et
entre (ou prdicteur) x. La sortie y peut tre quantitative (prix dun stock,
valeurs de celles-ci.
courbe de consommation lectrique, carte de pollution ..) ou qualitative (sur Les Sytmes de recommandation : ou modles de bandits manchots pour
venue dun cancer, reconnaissance de chiffres...).
dterminer et afficher sur un site de e-commerce les articles complmensorties quantitatives
sorties qualitatives
taires susceptibles dintresser le visiteur.
Y Rp
Y fini

3.2 Problmatiques
rgression
discrimination, classement,
Supervis vs. non-supervis
reconnaissance de forme
Distinguons deux types de problmes : la prsence ou non dune variable
Nous parlerons de rgression relle lorsque Y R et de la discrimination
expliquer Y ou dune forme reconnatre qui a t, conjointement avec X, binaire lorsque Y = {1, 1}.
7

07/15

Statistique, Apprentissage, BigDataMining

Estimation vs. apprentissage


Tout au long de ce document, les termes de estimation et dapprentissage
sont utiliss comme des synonymes ce qui est abusif tant que les objectifs
dune tude nont pas t clairement explicits. Dans la tradition statistique, la
notion de modle est centrale surtout avec une finalit explicative. Il sagit alors
dapprocher la ralit, le vrai modle, suppos exister, ventuellement bas sur
une thorie physique, conomique, biologique... sous-jacente et la forme du
modle est guide par des indications thoriques et des critres dajustement ;
les dcisions de validit, de prsence deffets sont bases sur des tests reposant elles-mmes sur des hypothses probabilistes. Linterprtation du rle de
chaque variable explicative est prpondrante dans la dmarche.
En revanche, si lobjectif est essentiellement la prvision, il apparat que
le meilleur modle nest pas ncessairement celui qui ajusterait le mieux le
vrai modle. La thorie de lapprentissage (Vapnik, 1999) montre alors que le
F IGURE 1 Deuxime devise Shadok
cadre thorique est diffrent et les majorations derreur requirent une autre
approche. Les choix sont bass sur des critres de qualit de prvision visant
la recherche de modles parcimonieux, cest--dire de complexit (nombre
Statistique, informatique et taille des donnes
de paramtres ou flexibilit limite) dont linterprtabilit passe au deuxime
plan. La deuxime devise (cf. figure 1) des Shadoks nest pas une rfrence
Lorsque les dimensions du problmes (n, p) sont raisonnables et que des
suivre en apprentissage statistique !
hypothses relatives au modle (linarit) et aux distributions sont vrifies
cest--dire, le plus souvent, lorsque lchantillon ou les rsidus sont supposs
Discrimination vs. rgression
suivre des lois se mettant sous la forme dune famille exponentielle (gausLe type des variables statistiques considres diffrent selon lespace dans sienne, binomiale, poisson. . . ), les techniques statistiques de modlisation tilequel elles prennent leurs valeur. Elles peuvent tre qualitatives valeurs dans res du modle linaire gnral sont optimales (maximum de vraisemblance)
un ensemble de cardinal fini ou quantitatives valeurs relles voire fonction- et, surtout dans le cas dchantillons de taille restreinte, il semble difficile de
nelles. Certaines mthodes dapprentissage ou de modlisation sadaptent faire beaucoup mieux.
tout type de variables explicatives tandis que dautres sont spcialises. EnEn revanche, ds que les hypothses distributionnelles ne sont pas vrifies,
fin, si Y expliquer est qualitative, on parle de discrimination, classement ds que les relations supposes entre les variables ou la variable modliser
ou reconnaissance de forme tandis que si Y est quantitative on parle, par ha- ne sont pas linaires ou encore ds que le volume des donnes (big data) est
bitude, dun problme de rgression. Dans ce cas encore, certaines mthodes important, dautre mthodes viennent concurrencer lapproche statistique classont spcifiques (rgression linaire, analyse discriminante) tandis que dautres sique.
sadaptent sans modification profonde remettant en cause leur principe (rPrenons un exemple simple : expliquer une variable quantitative Y par un
seaux de neurones, arbres de dcision. . . ).
ensemble {X 1 , . . . , X p } de variables galement quantitatives :
Y = f (X 1 , . . . , X p ) + .
8

07/15

observes sur un chantillon (yi , xi ); i = 1, . . . , n de taille n. Si la fonction f


est suppose linaire et p petit, de lordre dune dizaine ; le problme est bien
connu et largement dbattu dans la littrature. Dans le cas o la fonction f
nest pas franchement linaire et n grand, il est possible destimer prcisment
un nombre plus important de paramtres et donc denvisager des modles plus
sophistiqus. Si on sen tient au modle gaussien usuel, mme le cas le plus
simple dun modle polynomial devient vite problmatique. En effet, lorsque
la fonction f est linaire, prenons p = 10, la procdure de choix de modle
est confronte un ensemble de 210 modles possibles et des algorithmes astucieux permettent encore de sen sortir. En revanche, considrer, pour estimer f , un simple polynme du deuxime voire troisime degr avec toutes
ses interactions, amne considrer un nombre considrable de paramtres et
donc, par explosion combinatoire, un nombre astronomique de modles possibles. Dautres mthodes doivent alors tre considres en prenant en compte
ncessairement la complexit algorithmique des calculs. Ceci explique limplication dune autre discipline, linformatique, dans cette problmatique. Le
souci de calculabilit lemporte sur la dfinition mathmatique du problme
qui se ramne loptimisation dun critre dajustement de la fonction f sur
un ensemble de solutions plus ou moins riche. Ces mthodes ont souvent t
dveloppes dans un autre environnement disciplinaire : informatique, intelligence artificielle. . . ; k plus proches voisins, rseaux de neurones, arbres de
dcisions, support vector machine deviennent des alternatives crdibles ds
lors que le nombre dobservations est suffisant ou le nombre de variables trs
important.

3.3

Statistique, Apprentissage, BigDataMining

choisir la plus pertinente. Cette comparaison repose sur une estimation derreur
(de rgression ou de classement) quil est ncessaire de conduire avec soin.
Choix de modle : quilibre biais-variance
Tous les auteurs saccordent pour souligner limportance quil y a
construire des modles parcimonieux quelque soit la mthode utilise. Toutes
les mthodes sont concernes : nombre de variables explicatives, de feuilles
dans un arbre ou de neurones dans une couche cache. . . . Seuls les algorithmes
de combinaison de modles (bagging, boosting) contournent cette tape au prix
dun accroissement sensible du volume des calculs et surtout de linterprtabilit des rsultats obtenus.
Lalternative est claire, plus un modle est complexe et donc plus il intgre
de paramtres et plus il est flexible donc capable de sajuster aux donnes
engendrant ainsi une erreur faible dajustement. En revanche, un tel modle
peut savrer dfaillant lorsquil sagira de prvoir ou gnraliser, cest--dire
de sappliquer des donnes qui nont pas particip son estimation.
Lexemple lmentaire de la figure 2 illustre ce point fondamental dans le
cas dun problme de discrimination dans R2 . Une frontire dont le modle
"vrai" est quadratique est, cause d"erreurs de mesure" sous-ajuste par une
rgression linaire mais sur-ajuste par un polynme de degr plus lev ou
lalgorithme local des k plus proches voisins.
Ce problme sillustre aussi facilement en rgression classique. Ajouter des
variables explicatives dans un modle ne peut que rduire lerreur dajustement
(le R2 ) et rduit le biais si le vrai modle est un modle plus complet. Mais,
ajouter des variables fait rdhibitoirement crotre la variance des estimateurs et
donc celle des prvisions qui se dgradent, voire explosent, avec la multicolinarit des variables explicatives. Un risque pour le modle, ou erreur quadratique de prvision, sexprimant comme le carr du biais plus la variance, il est
important doptimiser le dosage entre biais et variance en contrlant le nombre
de variables dans le modle (sa complexit) afin de minimiser le risque. Ces
remarques conduisent la dfinition de critres de choix de modle dont le Cp
de Mallows fut un prcurseur en rgression suivi par dautres propositions :
Akake (AIC), Schwartz (BIC). . .

Stratgies de choix

Choix de mthode
Avec le dveloppement du data mining, de trs nombreux articles comparent
et opposent les techniques sur des jeux de donnes publics et proposent des
amliorations incrmentales de certains algorithmes. Aprs une priode fivreuse o chacun tentait dafficher la suprmatie de sa mthode, un consensus
sest tabli autour de lide quil ny a pas de meilleure mthode. Chacune
est plus ou moins bien adapte au problme pos, la nature des donnes ou
encore aux proprits de la fonction f approcher ou estimer. Sur le plan mthodologique, il est alors important de savoir comparer des mthodes afin de

Parfois plus que celui de la mthode, le choix du bon modle dans une classe
ou ensemble de modles pour une mthode donne est primordial. En cons9

07/15

Statistique, Apprentissage, BigDataMining

Enfin, pour aborder en toute gnralit les situations les plus compliques,
Vapnik (1999) a formalis la thorie de lapprentissage en introduisant une
notion particulire de dimension pour toute famille de modles.

4
4.1

Stratgie de lapprentissage statistique


Les donnes

Dans la majorit des problmes rencontrs, des caractristiques ou variables


X = (X 1 , . . . , X p ) dites explicatives ou prdictives ont t observes sur un
ensemble de n objets, individus ou units statistiques. Un premier travail, souvent fastidieux mais incontournable, consiste mener une exploration statistique de ces donnes : allure des distributions, prsence de donnes atypiques,
corrlations et cohrence, transformations ventuelles des donnes, description
multidimensionnelle, rduction de dimension, classification. Cest lobjet dun
F IGURE 2 Sous-ajustement linaire et sur-ajustement local (proches voisins) cours distinct dexploration statistique tandis que ce cours dcrit les outils de
dun modle quadratique.
modlisation statistique ou encore dapprentissage utilisables pour la modlisation fin de prvision dune variable cible Y par les variables explicatives
ou prdictives X j .
quence, les problmes doptimisation considrs doivent mettre en uvre un
Lenchanement, ventuellement itratif, de ces tapes (exploration puis apcritre qui prend en compte la complexit du modle, cest--dire la complexit
prentissage)
constitue le fondement de la fouille de donnes.
de lespace ou de la classe dans lequel la solution est recherche.
Pour comprendre la structure et bien apprhender le contenu de ce cours,
Choix de modle : slection vs. rgularisation
il est important dintgrer rapidement ce quest la stratgie mettre en uvre
Selon la mthode considre, la complexit du modle sexprime de diff- pour aboutir au bon apprentissage ou encore au bon modle prdictif recherch
rentes faons. Simple lors dune slection de variable en rgression linaire, la partir des donnes observes.
complexit est directement lie la dimension de lespace engendr et donc
Attention, contrairement une dmarche statistique traditionnelle dans laau nombre de variables. Les choses se compliquent pour les modles non- quelle lobservation des donnes est intgre la mthodologie (planification
linaires lorsque, dimension fixe, cest la plus ou moins grande flexibilit de lexprience), les donnes sont gnralement pralables lanalyse. Nandes solutions qui doit tre pnalise.
moins il est clair que les proccupations lies leur analyse et son objectif
Cest typiquement le cas en rgression non-paramtrique ou fonctionnelle. doivent intervenir le plus en amont possible pour sassurer quelques chances
Une pnalisation faisant intervenir la norme carre de la drive seconde de succs.
contrle la flexibilit dun lissage spline. La largeur de fentre du noyau
contrle galement la rgularit de la solution. En rgression linaire, si le 4.2 Les tapes de lapprentissage
nombre et les variables sont dtermins, la version ridge de la rgression
Les traitements senchanent de faon assez systmatique selon le schma
pnalise la norme carre du vecteur des paramtres et restreint ainsi, par rgu- suivant et quelque soit le domaine dapplication :
larisation, lespace des solutions pour limiter leffet de la multicolinarit.
10

07/15

Statistique, Apprentissage, BigDataMining

8. R-estimation du modle avec la mthode, le modle et sa complexit


optimise ltape prcdente sur lensemble des donnes.
9. Exploitation du modle sur la base complte et de nouvelles donnes.
La conclusion de cette stratgie peut ventuellement tre modifie par la
construction dun meilleur compromis entre les diffrentes mthodes testes
plutt que de slectionner la meilleure. Deux approches proposent cette dmarche conduisant une collaboration entre modles : COBRA de Biau et al.
(2013)[1] et SuperLearner de van der Laan et al. (2007) [7]. La premire revient excuter une forme dalgorithme des k plus proches voisins avec une
dfinition trs particulire de la distance tandis que la deuxime cherche, par
minimisation dune estimateur derreur par validation croise, une meilleure
combinaison convexe des prvisions. Ces deux approches sont dveloppes
dans la vignette consacre lagrgation de modles et test dans un exemple
de donnes de criblage vituel de molcules.

1. Extraction des donnes avec ou sans chantillonnage faisant rfrence


des techniques de sondage appliques ou applicables des bases de
donnes.
2. Exploration des donnes pour la dtection de valeurs aberrantes ou seulement atypiques, dincohrences, pour ltude des distributions des structures de corrlation, recherche de typologies, pour des transformations
des donnes. . .
3. Partition alatoire de lchantillon (apprentissage, validation, test) en
fonction de sa taille et des techniques qui seront utilises pour estimer
une erreur de prvision en vue des tapes de choix de modle, puis de
choix et certification de mthode.
4. Pour chacune des mthodes considres : modle linaire gnral (gaussien, binomial ou poissonien), discrimination paramtrique (linaire ou
quadratique) ou non paramtrique, k plus proches voisins, arbre, rseau
de neurones (perceptron), support vecteur machine, combinaison de modles (bagging, boosting)...
estimer le modle pour une valeur donne dun paramtre (ou plusieurs) de complexit : nombre de variables, de voisins, de feuilles, de
neurones, dure de lapprentissage, largeur de fentre. . . ;
optimiser ce paramtre (ou ces paramtres) en fonction de la technique
destimation de lerreur retenue : chantillon de validation, validation
croise, approximation par pnalisation de lerreur dajustement (critres Cp , AIC).

Exemples

En plus des exemples pdagogiques illustrant simplement les diffrentes


mthodes tudies, dautres exemples en vraie grandeur permettent den valuer rellement lefficacit mais aussi toute la complexit de mise en uvre.
Dautres exemples sont encore plus concrtement proposs en travaux dirigs
ou sous formes de scnarios avec leur traitement informatique explicite.

5.1

Banque, finance, assurance : Marketing

5. Comparaison des modles optimaux obtenus (un par mthode) par estiLobjectif est une communication personnalise et adapte au mieux
mation de lerreur de prvision sur lchantillon test ou, si la prsence
chaque
client. Lapplication la plus courante est la recherche dun score estim
dun chantillon test est impossible, sur le critre de pnalisation de lersur
un
chantillon
de clientle pour lapprentissage puis extrapol lensemble
reur (AIC dAkake par exemple) sil en existe une version pour chacune
en
vue
dun
objectif
commercial :
des mthodes considres.
Apptence pour un nouveau produit financier : modlisation de la proba6. Itration ventuelle de la dmarche prcdente (validation croise), si
bilit de possder un bien (contrat dassurance...) puis application lenlchantillon test est trop rduit, depuis (iii). Partitions alatoires successemble de la base. Les clients, pour lesquels le modle prdit la possession
sives de lchantillon pour moyenner sur plusieurs cas lestimation finale
de ce bien alors que ce nest pas le cas, sont dmarchs (tl marketing,
de lerreur de prvision et sassurer de la robustesse du modle obtenu.
publipostage ou mailing, phoning,...) prioritairement.
Attrition ; mme chose pour valuer les risques de dpart ou dattrition
7. Choix de la mthode retenue en fonction de ses capacits de prvision, de
(churn) des clients par exemple chez un oprateur de tlphonie. Les
sa robustesse mais aussi, ventuellement, de linterprtabilit du modle
obtenu.
clients pour lesquels le risque prdit est le plus important reoivent des
11

07/15

10

incitations rester.

Statistique, Apprentissage, BigDataMining

riable prdire, dont lvaluation ncessite souvent une analyse trs coteuse
voire une intervention chirurgicale, est connue sur lchantillon ncessaire
lestimation des modles.

Risque pour lattribution dun crdit bancaire ou louverture de certains

contrats dassurance ; risque de faillite dentreprises.


...

Dans lexemple tudi (breast cancer), il sagit de prvoir le type de la tuLexemple trait suit un schma classique danalyse de donnes bancaires. meur (bnigne, maligne) lors dun cancer du sein laide de p = 9 variables
Aprs la phase exploratoire, il sagit de construire un score dapptence de la explicatives biologiques observes sur n = 700 patientes.
carte Visa Premier dans lide de fidliser les meilleurs clients. La variable
prvoir est binaire : possession ou non de cette carte en fonction des avoirs et 5.4 Biologie : slection de gnes
comportements bancaires dcrits par p = 32 variables sur n = 825 clients.
Les techniques de microbiologie permettent de mesurer simultanment lexpression (la quantit dARN messager produite) de milliers de gnes dans
5.2 Environnement : pic dozone
des situations exprimentales diffrentes, par exemple entre des tissus sains
Lobjectif est de prvoir pour le lendemain les risques de dpassement de et dautres cancreux. Lobjectif est donc de dterminer quels gnes sont les
seuils de concentration dozone dans les agglomrations partir de donnes plus susceptibles de participer aux rseaux de rgulation mis en cause dans
observes : concentrations en 03, NO3, NO2... du jour, et dautres prdites par la pathologie ou autre phnomne tudi. Le problme snonce simplement
Mto-France : temprature, vent... Encore une fois, le modle apprend sur les mais rvle un redoutable niveau de complexit et pose de nouveaux dfis
dpassements observs afin de prvoir ceux venir.
au statisticien. En effet, contrairement aux cas prcdents pour lesquels des
Il sagit dun problme de rgression : la variable prvoir est une concen- centaines voire des milliers dindividus peuvent tre observs et participer
tration mais elle peut aussi tre considre comme binaire : dpassement ou lapprentissage, dans le cas des biopuces, seuls quelques dizaines de tissus
non dun seuil. Il y a 8 variables explicatives dont une est dj une prvision son analyss cause essentiellement du prix et de la complexit dune telle
de concentration dozone mais obtenue par un modle dterministe de mca- exprience. Compte tenu du nombre de gnes ou variables, le problme de
nique des fluides (quation de Navier et Stockes). Lapproche statistique vient discrimination est svrement indtermin. Dautres approches, dautres techamliorer cette prvision en modlisant les erreurs et en tenant compte dob- niques sont ncessaires pour pallier linsuffisance des mthodes classiques
servations de concentration doxyde et dioxyde dazote, de vapeur deau, de la de discrimination.
prvision de la temprature ainsi que de la force du vent.
Lexemple concerne les expressions de gnes dans une exprience croisant
Cette tude est propose en exemple ou en travaux dirigs mais pas sous la deux facteurs le rgime alimentaire (5 niveaux) chez n = 40 souris de 2 gnoforme dun scnario car les donnes proprits de MtoFrance ne sont pas types. Il sagit de mettre en vidence limpact des facteurs sur les expressions
publiques.
de p = 120 gnes puis dexpliquer un ensemble de q = 21 variables phnotypiques (concentrations dacides gras) par ces mmes expressions.

5.3

Sant : aide au diagnostic

5.5

Exemples industriels

Les outils statistiques sont largement utiliss dans le domaine de la sant.


Ils le sont systmatiquement lors des essais cliniques dans un cadre lgislatif Donnes de spectromtrie
stricte mais aussi lors dtudes pidmiologiques pour la recherche de facteurs
depuis de trs nombreuses annes, lindustrie agroalimentaire est confronde risques dans des grandes bases de donnes ou encore pour laide au diagnoste
des problmes de grande dimension pour lanalyse de donnes de spectic. Lexemple tudi illustre ce dernier point : il sagit de prvoir un diagnostic
tromtrie
comme par exemple dans le proche infra-rouge (NIR). Sous lap partir de tests biologiques et dexamens lmentaires. Bien entendu, la va12

07/15

11

Statistique, Apprentissage, BigDataMining

Criblage virtuel de molcules


Une stratgie classique de lindustrie pharmaceutique consiste tester in silico un nombre considrable de molcules avant de ne synthtiser que celles juges intressantes pour passer aux tapes de recherche clinique in vitro puis in
vivo. Une proprit thrapeutique dun ensemble de molcules dapprentissage
(permabilit de la paroi intestinale ou la barrire sanguine du cerveau, adquation une cible donne...) tant connue, un grand ensemble de caractristiques physico-chimiques sont values, calcules par un logiciel spcifique :
ce sont des donnes dites QSAR Quantitative structure-activity relationship.
Sil est possible de raisonnablement prvoir la proprit thrapeutique partir
des caractristiques physico-chimiques, ce modle est systmatiquement appliqu un grand ensemble de molcules virtuelles ; cest le criblage ou sreening virtuel de molcule. Deux jeux de donnes sont tudis lun illustrant
un problme de rgression (blood brain barrier data) avec n = 208, p = 134
tandis que lautre est un problme de discrimination deux classes (multidrig
resistance reversal) avec n = 528, p = 342.
Dautres exemples sont cits titre illustratif mais leur complexit, inhrente
beaucoup de problmes industriels, ne permet pas de les dtailler des fins
F IGURE 3 Cookies : Spectres proche infrarouge (NIR) dchantillons de pdagogiques.
ptes gteaux. La couleur dpend du taux de sucre.
Industrie des semi-conducteurs : Dtection de dfaillance
Un procd de fabrication de microprocesseurs comporte des centaines
dtapes (photogravures, dpts, cuissons, polissages, lavages...) dont tous les
paramtres, quipement et mesures physiques (tempratures, pressions...), sont
enregistrs dans une grande base de donnes permettant la traabilit des produits manufacturs. Le test lectrique de chaque microprocesseur ne peut se
faire quen fin de fabrication lorsque ceux-ci sont achevs. Il est videment important de pouvoir dterminer, lors de lapparition dune baisse du rendement
et en utilisant les donnes de la base, lquipement ou la fourniture responsable
de la dfaillance afin dy remdier le plus rapidement possible.

pellation de Chimiomtrie de trs nombreuses mthodes et stratgies ont t


dveloppes ou enrichies (i.e. la rgression PLS) afin de prendre en compte la
spcificit des problmes rencontrs par la discrtisation de spectres conduisant trs gnralement un nombre de variables p > n. Dans un premier
exemples, il sagit de modliser, la teneur en sucre dune pte gteau (cookies o n = 72, p = 700)) partir des spectres (cf. figure 3) tandis que dans
un deuxime (Tecator ou n = 215, p = 100), cest la teneur en matire grasse
qui est recherche. Ces questions sont considres comme des problmes de 6 Contenu
calibration dun appareil de mesure (le spectromtre) pour arriver la quantiIl a fallu faire des choix dans lensemble des techniques proposes et leurs
fication dune mesure chimique dont lvaluation classique est beaucoup plus
nombreux
avatars. La forme et le contenu sont guids par les besoins expricoteuse ou encore destructive.
13

07/15

12

Statistique, Apprentissage, BigDataMining

les concepts originaux de chaque mthode dans son cadre disciplinaire tout
en tchant dhomogniser notations et terminologies. Lobjectif principal est
de faciliter la comprhension et linterprtation des techniques des principaux
logiciels pour en faciliter une utilisation pertinente et rflchie. Ce cours ne
peut tre dissoci de sances de travaux dirigs sur ordinateur laide de logiciels (SAS, R...) pour traiter des donnes en vraie grandeur dans toute leur
complexit. La principale difficult pratique est darriver dterminer o faire
porter leffort ou les efforts :
la saisie, la gestion, la slection des donnes et variables,
la slection des mthodes comparer,
loptimisation des choix de modles,
et ceci en fonction des mthodes considres, de la structure des donnes, des
Chaque mthode ou famille de mthodes de modlisation et dapprentissage proprits des variables notamment celle modliser.
parmi les plus rpandues, est prsente de faon plus ou moins succincte dans
un chapitre distinct avec un objectif de prvision. Une premire vignette incon- Rfrences
tournable est consacre aux techniques destimation dune erreur de prvision
ou dun risque sur lesquelles reposent les choix oprationnels dcisifs : de mo- [1] G. Biau, A. Ficher, B. Guedj et J. D. Malley, COBRA : A Nonlinear Aggregation Strategy, Journal of Multivariate Analysis (2013).
dle, de mthode mais aussi lvaluation de la prcision des rsultats escompts. La rgression linaire classique en statistique prend une place particulire [2] U. M. Fayyad, G. Piatetsky-Shapiro et P. Smyth, From data mining
titre pdagogique. Trs antrieure aux autres, elle donne lieu a une bibliograto knowledge discovery : an overview, Advances in Knowledge Discophie abondante. Conceptuellement plus simple, elle permet dintroduire plus
very and Data Mining (U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth et
facilement les problmatiques rencontres comme celle du choix dun modle
R. Uthurusamy, rds.), AAAI Press/MIT Press, 1996, p. 134.
par ses deux approches types : la slection de variable ou la rgularisation [3] T. Hastie, R. Tibshirani et J Friedman, The elements of statistical learning :
(ridge, Lasso). Le modle linaire gnral fournit le cadre thorique ncesdata mining, inference, and prediction, Springer, 2009, Second edition.
saire lunification des rgressions linaire, loglinaire et logistique ; cette
dernire reste toujours trs utilise en scoring. La prsentation de lanalyse dis- [4] Max Kuhn, Building Predictive Modelsoin R Using the caret Package, Journal of Statistical Software 28 (2008), n 5.
criminante dcisionnelle, paramtrique ou non paramtrique (dont les k plus
proches voisins), permet dintroduire galement des notions de thorie bay- [5] K.V. Mardia, J.T. Kent et J.M. Bibby, Multivariate Analysis, Academic
Press, 1979.
sienne de la dcision. Les vignettes suivantes sont consacres aux techniques
algorithmiques : arbres binaires de dcision (classification and regression trees [6] S. Tuffry, Data Mining et Statistique dcisionnelle : lintelligence des
ou CART) et celles plus directement issues de la thorie de lapprentissage
donnes, Technip, 2007.
machine (machine learning) : rseau de neurones et perceptron, agrgation de
modles (boosting, random forest), support vector machine (SVM). Enfin une [7] M. J. van der Laan, E. C. Polley et A. E. Hubbard, Super learner, Statistical
Applications in Genetics and Molecular Biology 6 :1 (2007).
vignette de conclusion tche de synthtiser le panorama et propose une comparaison systmatique des mthodes sur les diffrents jeux de donnes.
ms lors des stages ralises par les tudiants du dpartement Gnie Mathmatique de lINSA ou par les thmes des collaborations industrielles et scientifiques de lquipe Statistique et Probabilits de lInstitut de Mathmatiques
de Toulouse. Le lecteur peut se faire une ide du nombre trs important de mthodes et variantes concernes par lapprentissage supervise en consultant une
aide en ligne de la librairie caret (Kuhn, 2008)[4] du logiciel R. Remarquons
que les principaux logiciels commerciaux (SAS, Splus, SPSS, Matlab, KXEN,
SPAD, Statsoft. . . ) ou gratuits (R, Weka, Tanagra), performants et simposant
par des interfaces trs conviviales (Enterprise Miner, Insightfull Miner, Clementine, Statistica Data Miner), contribuent largement la diffusion, voire la
pntration, de mthodes trs sophistiques dans des milieux qui seraient impermables une conceptualisation mathmatique trop abstraite.

Le choix a t fait de conserver et expliciter, dans la mesure du possible,


14

07/15

guer estimation du modle et estimations du risque empirique.

Qualit de prvision et risque

2. une pnalisation de lerreur dajustement ou destimation du modle faisant intervenir la complexit du modle,

Rsum

3. un usage intensif du calcul (computational statistics) par la mise en uvre


de simulations (validation croise).

Dfinition et proprits du risque ou erreur de prvision ou erreur


de gnralisation dans le cas de la rgression et de la classification. Dcomposition biais / variance du risque. Critres de pnalisation et mthodes ou algorithmes destimation du risque empirique.
Choix du mode destimation en fonction du contexte (cas de la discrimination ou de la rgression), de la taille de lchantillon et de
lobjectif : optimisation du choix dune mthode ou de celui de la
complexit dun modle dans une collection donne. Estimation sur
chantillons de validation ou de test, par critre pnalis, par bootstrap, par validation croise, courbe ROC en discrimination binaire.
Retour au plan du cours

Qualit de prvision et risque

Le choix dpend de plusieurs facteurs dont la taille de lchantillon initial,


la complexit du modle envisag, la variance de lerreur, la complexit des
algorithmes cest--dire le volume de calcul admissible.
Les travaux de Vapnik en thorie de lapprentissage ont conduit focaliser
lattention sur la prsence ou labsence de proprits thoriques basiques dune
technique dapprentissage ou de modlisation :
consistance qui garantit la capacit de gnralisation. Un processus dapprentissage est dit consistant si lerreur sur lensemble dapprentissage et lerreur sur un jeu de donnes test convergent en probabilit vers la mme
limite lorsque la taille de lchantillon dapprentissage augmente.

Introduction

vitesse de convergence. Une valuation, quand elle est possible, de la vitesse


de convergence de lestimation du risque lorsque la taille augmente, est
La performance du modle issu dune mthode dapprentissage svalue
une indication sur la faon dont la gnralisation samliore et informe
par sa capacit de prvision dite encore de capacit de gnralisation dans
sur la nature des paramtres, comme le nombre de variables explicatives,
la communaut informatique. La mesure de cette performance est trs impordont elle dpend.
tante puisque, dune part, elle permet doprer une slection de modle dans
une famille associe la mthode dapprentissage utilise et, dautre part, elle contrle Est-il possible, partir dun chantillon dapprentissage de taille fini
donc sans considration asymptotique, de contrler la capacit de gnguide le choix de la mthode en comparant chacun des modles optimiss
ralisation et donc de majorer le terme de risque ?
ltape prcdente. Enfin, elle fournit, tous choix faits, une mesure de la qualit ou encore de la confiance que lon peut accorder la prvision en vue
Une estimation du risque ou qualit de la prvision est donc un lment cenmme, dans un cadre lgal, dune certification.
tral de la mise en place de la stratgie du data mining, telle quelle est dcrite
dans lintroduction mais aussi dans beaucoup de disciplines concernes par la
modlisation statistique. Le point important souligner est que le meilleur
modle en un sens prdictif nest pas ncessairement celui qui ajuste le mieux
les donnes (cas de sur-ajustement) ni mme le vrai modle si la variance
des estimations est importante.

Une fois que la notion de modle statistique ou rgle de prvision est prcise ainsi quune fonction dite perte associe, un risque ou erreur de gnralisation (ou erreur de prvision) est dfini pour la recherche dune rgle de
prvision optimale au sens o elle minimise le risque. En pratique, ce risque
ncessite dtre estim (risque empirique) et diffrentes stratgies sont proposes.

1. un partage de lchantillon (apprentissage, validation, test) afin de distin15

Risque, risque empirique


07/15

2.1

Modle statistique

Qualit de prvision et risque

rgle de prvision f .

On suppose que dn est lobservation dun n-chantillon D n =


Soit F lensemble des rgles de prvision possibles. On dira que f est une
{(X 1 , Y1 ), . . . , (X n , Yn )} dune loi conjointe P sur X Y, inconnue, et que
x est une observation de la variable X, (X, Y ) tant un couple alatoire de loi rgle optimale si
conjointe P indpendant de D n .
RP (f ) = inf RP (f ).
Lchantillon D n est appel chantillon dapprentissage.
f F

Une rgle de prvision / rgression ou discrimination (ou prdicteur) est une Une question naturelle qui se pose alors est : peut-on construire des rgles
fonction (mesurable) f : X Y qui associe la sortie f (x) lentre x X . optimales ?
Pour mesurer la qualit de prvision, on introduit une fonction de perte :

2.2

Risque et rgles optimales

D FINITION 1. Une fonction (mesurable) l : Y Y R+ est une fonction Rgression et discrimination binaire
de perte si l(y, y) = 0 et l(y, y 0 ) > 0 pour y 6= y 0 .
D FINITION 3. On appelle fonction de rgression la fonction : X Y
Si f est une rgle de prvision, x une entre, y la sortie qui lui est rellement dfinie par
associe, alors l(y, f (x)) mesure une perte encourue lorsque lon associe x
(x) = E[Y |X = x].
la sortie f (x).
En rgression relle : on dfinit les pertes Lp (p 1)

Cas de la rgression relle :

l(y, y 0 ) = |y y 0 |p .

Y = R,

l(y, y 0 ) = (y y 0 )2 .

Si p = 1 on parle de perte absolue, si p = 2 de perte quadratique.


En discrimination binaire : Y = {1, 1}
l(y, y 0 ) = 1y6=y0 =

T HORME 4. La fonction de rgression : x 7 E[Y |X = x] vrifie :


0 2

|y y |
(y y )
=
.
2
4

RP ( ) = inf RP (f ).
f F

On va sintresser au comportement moyen de cette fonction de perte, il


Cas de la rgression relle :
sagit de la notion de risque :
Y = R,
D FINITION 2. tant donne une fonction de perte l, le risque - ou lerreur
de gnralisation - dune rgle de prvision f est dfini par

l(y, y 0 ) = |y y 0 |.

T HORME 5.
La rgle de rgression dfinie par (x)
mediane[Y |X = x] vrifie :

RP (f ) = E(X,Y )P [l(Y, f (X))].


Il est important de bien noter que, dans la dfinition ci-dessus, (X, Y ) est
indpendant de lchantillon dapprentissage D n qui a permis de construire la

RP ( ) = inf RP (f ).
f F

16

07/15

2.3

Cas de la discrimination binaire :


Y = {1, 1},

Qualit de prvision et risque

Algorithmes de prvision

Dfinitions

l(y, y 0 ) = 1y6=y0 .

D FINITION 9. Un algorithme de prvision est reprsent par une application (mesurable) f : (X Y)n F qui un ensemble dapprentissage dn = {(xi , yi ), 1 i n} associe une rgle de prvision f(dn ), ou
D FINITION 6. On appelle rgle de Bayes toute fonction f de F telle que
par une suite (fn )n1 dapplications (mesurables) telles que pour n 1,
pour tout x X ,
fn : (X Y)n F.

P(Y = f (x)|X = x) = max P(Y = y|X = x).


yY
D FINITION 10. Le risque moyen dun algorithme de prvision f est dfini
par
T HORME 7. Si f est une rgle de Bayes, alors RP (f ) =
EDn P n [RP (f(D n ))].
inf
R (f ).
f F

En particulier, la rgle de Bayes dfinie par f (x) = 1 (x)0


1 (x)<0 = signe( (x)) vrifie :

D FINITION 11. Un algorithme de prvision est dit universellement consistant si


n
o
P lim EDn P n [RP (fn (D n ))] = inf RP (f ).

RP (f ) = inf RP (f ).

n+

f F

f F

Premiers exemples : Algorithmes par moyennes locales

De la rgression relle la discrimination binaire

Soit {Wn,i , 1 i n}Pune famille de poids positifs tels que pour tout
n
n 1, x, x1 , . . . , xn X , i=1 Wn,i (x, x1 , . . . , xn ) = 1.

On se place dans le cas o Y = {1, 1}.

On dfinit n et fn tels que pour dn = {(x1 , y1 ), . . . , (xn , yn )},

T HORME 8. Pour toute rgle de rgression , si f (x) = signe((x)),


alors
E(X,Y )P [1Y 6=f (X) 1Y 6=f (X) ] EXPX [|(X) (X)|]
1/2
E(X,Y )P [(Y (X))2 (Y (X))2 ]
.

n (dn ) : x X 7

n
X

Wn,i (x, x1 , . . . , xn )yi ,

i=1

et

Interprtation : si est une "bonne" rgle de rgression au sens o son


risque quadratique est proche du risque quadratique minimum, alors f est
une "bonne" rgle de discrimination, au sens o son risque est lui aussi proche
du risque minimum.

fn (dn ) : x X 7 signe(
n (dn )(x)).

Les thormes prcdents fournissent des rgles de prvision optimales D FINITION 12. Un algorithme de prvision par moyennage local est un
sexprimant de faon formelle... mais qui dpendent de la loi P inconnue ! algorithme de la forme :
n en rgression relle,
Il est donc ncessaire de construire des algorithmes de prvision qui ne dn
fn en discrimination binaire.
pendent pas de P mais de lensemble dapprentissage d .
17

07/15

On suppose maintenant que X = Rd , Y R et E[Y 2 ] < +.

Qualit de prvision et risque

Exemple 2 : Algorithme par noyau

T HORME 13. [Stone 1977[11]] On suppose que quelle que soit la loi D FINITION 17. On appelle algorithme par noyau un algorithme par
moyennage local dont les poids sont de la forme :
marginale PX de X,

 X


n
xj x
xi x
(i) c > 0, f : X R+ telle que EPX [f (X)] < , n,
Wn,i (x, x1 , . . . , xn ) = K

K
,
Pn
h
h
EP (n+1) [ i=1 Wn,i (X, X 1 , . . . , X n )f (X i )] cEPX [f (X)],
j=1
X
Pn

o K est une fonction (un noyau) valeurs dans R+ , h un rel > 0 (largeur
(ii) a > 0, EP (n+1)
Wn,i (X, X 1 , . . . , X n )1kX i Xk>a 0,
i=1
XPn

du noyau) avec la convention 0/0 = 0.
2
(iii) EP (n+1)
Wn,i
(X, X 1 , . . . , X n ) 0. Alors,
i=1
X
Noyaux usuels (X = Rd ) :
Si Y R, l(y, y 0 ) = (yy 0 )2 , (
n )n1 est universellement consistant,
0
Si Y = {1, 1}, l(y, y ) = 1y6=y0 , (fn )n1 est universellement consis noyau fentre K(x) = 1kxk1 ,
2
tant.
noyau gaussien K(x) = ekxk ,
k.k tant la norme euclidienne sur Rd .
Exemple 1 : Algorithme des k plus proches voisins

On note B(O, r) la boule euclidienne de X = Rd de centre O de rayon r.


T HORME 18. [Devroye and Wagner (1980) [5], Spiegelman and Sacks
(1980) [10]] Sil existe 0 < r R et b tels que b1B(O,r) K 1B(O,R) ,
si (hn )n1 vrifie hn 0 et nhdn + alors lalgorithme par noyau de
largeur hn est universellement consistant.

D FINITION 14. On appelle algorithme des k plus proches voisins un algorithme par moyennage local dont les poids vrifient :

Wn,i (x, x1 , . . . , xn ) =

1
k

si xi f ait partie des k p.p.v. de x


dans {x1 , . . . , xn }
sinon.

Exemple 3 : Algorithme par partition

D FINITION 19. Etant donne une partition V1 , V2 , . . . finie ou dnombrable de X , pour x X , on note V (x) llment de la partition contenant x. On appelle algorithme par partition un algorithme par
T HORME 15. Si X = Rd , (kn )n1 est une suite dentiers tels que kn moyennage local dont les poids sont de la forme : Wn,i (x, x1 , . . . , xn ) =
P
+ et kn /n 0, alors lalgorithme des kn p.p.v. pour une distance associe 1xi V (x)  nj=1 1xj V (x) ,
une norme quelconque de Rd est universellement consistant.
avec la convention 0/0 = 0.

En cas dgalit on utilise par exemple un tirage alatoire.

Dans le cas dun nombre de p.p.v. kn alatoire : il suffit que les hypothses Les arbres de dcision (CART) (Breiman et al. 1984)[2] font partie de cette
de convergence soient vrifies en probabilit.
classe dalgorithmes, de mme que les estimateurs par polynmes locaux en
rgression non paramtrique.
T HORME 16. [Cover and Hart 1967[3]] Lalgorithme du plus proche
Soit B(O, r) la boule de centre O de rayon r pour une norme k.k quelconque
voisin (k = 1) nest pas universellement consistant.
de Rd , et diam(Vk,n ) = supx,x0 X kx x0 k.
18

07/15

Qualit de prvision et risque

T HORME 20. Soit (V1,n , V2,n , . . .)n1 une suite de partitions dnomLa minimisation du risque empirique est une ide bien dveloppe depuis
brables de X = Rd . Si pour tout r > 0,
les travaux de Vapnik (1999)[12].
|{k, Vk,n B(O, r)}| 6= }|/n 0,
D FINITION 22. Etant donn un sous-ensemble F de F (un modle),
supk,Vk,n B(O,r) diam(Vk,n ) 0,
alors lalgorithme par partition dfini sur V1,n , V2,n , . . . est universellement lalgorithme de minimisation du risque empirique sur F est dfini par :
consistant.
cn (f, D n ).
fF (D n ) argminf F R
Le "flau" de la dimension

Dans le cas de F = F (ensemble de tous les prdicteurs possibles) :


Lalgorithme qui attribue la sortie Yi une entre x = X i , et une sortie
Soit PX la loi uniforme sur lhypercube unit de R .
quelconque une entre x diffrente des X i .
Slectionner une proportion p de donnes dobservation revient slectionCeci
conduit au phnomne de sur-apprentissage : viter !
ner un hypercube de ct moyen p1/d . Dans le cas d = 10 :
Le choix dun modle F "adquat" est crucial et relve des mthodes de
p = 1% p1/d = 0.63 ; p = 10% p1/d = 0.80 (proche de 1 !).
slection de modles.
d

Ainsi, pour obtenir 10 % des donnes en dimension 10, on doit recouvrir Dcomposition approximation/estimation (ou biais/variance)
80% du domaine de variation dans chaque direction. Il ne sagit donc plus
Soit f telle que RP (f ) = inf f F RP (f ), f est appel "oracle". Lobjecdune mthode "locale", inversement, si on impose la mthode dtre locale,
n

la proportion p sera infime et il faudra une taille n considrable de lchantillon tif est de dterminer un modle F pour lequel le risque de lestimateur fF (D )
est proche de celui de loracle.
pour esprer obtenir une ou des observations dans un voisinage trs local.

2.4

Minimisation du risque empirique


RP (fF (D n )) RP (f ) =
o n
o
n
RP (fF (D n )) inf RP (f ) + inf RP (f ) RP (f )
f F
f F
|
{z
}
|
{z
}
Erreur destimation
Erreur dapproximation
(Variance)
(Biais)
%
& (taille de F )

Dfinitions
Comme nous lavons vu prcdemment, le risque dune rgle de prvision
f est dfini par RP (f ) = E(X,Y )P [l(Y, f (X))]. Les rgles "optimales" au
sens de la minimisation du risque dpendent de P inconnue.
En labsence de toute information ou hypothse sur la loi P (cadre non paramtrique), il est naturel de remplacer P par Pn , mesure empirique associe
D n , et de minimiser le risque empirique.

Ces deux termes sont de natures diffrentes. Pour les valuer, nous aurons
recours des considrations issues respectivement de la statistique et de la
D FINITION 21. Le risque empirique (associ D n = {(X i , Yi ), 1 i thorie de lapproximation.
La slection dun modle F parmi une collection de modles C pour lequel
n}) dune rgle de prvision f F est dfini par
le risque de fF (D n ) est proche de celui de loracle va sobtenir par la minimin
X
sation dun critre pnalis du type :
cn (f, D n ) = 1
l(Yi , f (X i )).
R
n i=1
n (fF (D n ), D n ) + pen(F )}.
F = argminF C {R
19

07/15

Qualit de prvision et risque

La pnalit permet de pnaliser les modles de "grande" taille, afin dviter le trois parties respectivement appeles apprentissage, validation et test :
sur-ajustement. Le choix optimal de la pnalit (selon les modles statistiques
1
2
3
dn = dnAppr
dnValid
dnTest
,
considrs) est un sujet de recherche trs actif en statistique.
Trs gnralement, plus un modle (la famille des fonctions admissibles) avec n1 + n2 + n3 = n.
cn (fb(dn1 ), dn1 ) est minimise pour dterminer lestimateur fb(dn1 ),
1. R
est complexe, plus il est flexible et peut sajuster aux donnes observes et
Appr
Appr
Appr
un modle tant fix (par exemple un modle de rgression polynomiale
donc plus le biais est rduit. En revanche, la partie variance augmente avec le
de degr 2).
nombre de paramtres estimer et donc avec cette complexit. Lenjeu, pour
cn (fb(dn1 ), dn2 ) sert la comparaison des modles au sein dune
minimiser le risque quadratique ainsi dfini, est donc de rechercher un meilleur
2. R
Valid
Appr
compromis entre biais et variance : accepter de biaiser lestimation comme par
mme famille afin de slectionner celui qui minimise cette erreur, (par
exemple en rgression ridge pour rduire plus favorablement la variance.
exemple, on considre une famille de modles polynomiaux de degrs
varis).
cn (fb, dn3 ) est utilise pour comparer entre eux les meilleurs modles de
3 Estimation du risque
3. R
Test
chacune des mthodes considres (par exemple on compare le meilleur
3.1 Estimation de lerreur destimation ou dajusteestimateur polynomial au meilleur estimateur construit partir de rseaux
de neurones).
ment
Cette solution nest acceptable que si la taille de lchantillon initiale est imLe premier type destimation considrer exprime la qualit dajustement
portante sinon :
du modle sur lchantillon observ. Cest justement, dans le cas quantitatif,
la qualit dajustement est dgrade car n1 est trop faible,
ce critre qui est minimis dans la recherche de moindres carrs. Ce ne peut
la variance de lestimation de lerreur peut tre importante et ne peut tre
tre quune estimation biaise, car trop optimiste, de lerreur de prvision ; elle
estime.
est lie aux donnes qui ont servi lajustement du modle et est dautant plus
Si la taille de lchantillon est insuffisante, le point ii ci-dessus : la slection de
faible que le modle est complexe. Cette estimation ne dpend que de la partie
modle est base sur un autre type destimation de lerreur de prvision faisant
"biais" de lerreur de prvision et ne prend pas en compte la partie "variance"
appel soit une pnalisation soit des simulations.
de la dcomposition.

3.2

Cette estimation est note :


n

Estimation avec pnalisation

Cp de Mallows

X
cn (fb(dn ), dn ) = 1
R
l(yi , fb(dn )(xi )).
n i=1

Le Cp de Mallows (1973)[8] fut, historiquement, le premier critre visant


une meilleure estimation de lerreur de prvision que la seule considration
Cest simplement le taux de mal classs dans le cas qualitatif. Des critres de de lerreur dajustement (ou le R2 ) dans le modle linaire. Il repose sur une
risque plus sophistiqus sont envisags dans un contexte baysien si des pro- mesure de la qualit sur la base dun risque quadratique. Lerreur de prvision
babilits a priori sont connues sur les classes ou encore des cots de mauvais se dcompose en :
classement.
cP (fb(dn )) = R
cn (fb(dn ), dn ) + Optim
R
La faon la plus simple destimer sans biais lerreur de prvision consiste
calculer le risque empirique sur un chantillon indpendant nayant pas parti- qui est lestimation par re-substitution ou taux derreur apparent plus le biais
cip lestimation du modle. Ceci ncessite donc dclater lchantillon en par abus doptimisme. Il sagit donc destimer cet optimisme pour apporter
20

07/15

Qualit de prvision et risque

Une argumentation de type baysien conduit un autre critre BIC (Bayeune correction et ainsi une meilleure estimation de lerreur recherche. Cette
correction peut prendre plusieurs formes. Elle est lie lestimation de la va- sian Information Criterion, Schwarz, 1978[9]) qui cherche, approximativeriance dans la dcomposition en biais et variance de lerreur ou cest encore ment (asymptotiquement), le modle associ la plus grande probabilit
a posteriori. Dans le cas dun modle issu de la maximisation dune logune pnalisation associe la complexit du modle.
Son expression est dtaille dans le cas de la rgression linaire. On montre vraisemblance, il se met sous la forme :
(cf. Hastie et col. 2001), des fins de comparaison quil peut aussi se mettre
sous une forme quivalente :

d
BIC = 2L + log(n) .
n
On montre, dans le cas gaussien et en supposant la variance connue que BIC
est proportionnel AIC avec le facteur 2 remplac par log n. Ainsi, ds que
n > e2 7, 4, BIC tend pnaliser plus lourdement les modles complexes.
Asymptotiquement, on montre que la probabilit pour BIC de choisir le bon
modle tend vers 1 lorsque n tend vers linfini. Ce nest pas le cas dAIC ni du
Cp qui tendent alors choisir des modles trop complexes. Nanmoins taille
fini, petite, BIC risque de se limiter des modles trop simples.

cn (fb(dn ), dn ) + 2 d
Cp = R
b2
n
o d est le nombre de paramtres du modles (nombre de variables plus un)),
n le nombre dobservations,
b2 une estimation de la variance de lerreur par
un modle de faible biais. Ce dernier point est fondamental pour la qualit du
critre, il revient supposer que le modle complet (avec toutes les variables)
est le vrai modle ou tout du moins un modle peu biais afin de conduire
une bonne estimation de 2 .

Quelque soit le critre adopt, il est facile de choisir le modle prsentant le


plus faible AIC, AICc ou BIC parmi ceux considrs. Globalement, si lestimaAIC, AICc , BIC
tion du modle dcoule dune maximisation de la vraisemblance, estimation et
Contrairement au Cp associ un risque quadratique, le critre dinforma- choix de modle reviennent minimiser un critre de vraisemblance pnalise
tion dAkake (1974)[1] (AIC) dcoule dune expression de la qualit du mo- scrit sous la forme :
dle base sur la dissemblance de Kullback. Il se prsente sous une forme
Crit = (Vraisemblance) + Pnalisation(d)
similaire mais plus gnrale que le Cp de Mallows. Il sapplique en effet tout
modle estim par maximisation dune log-vraisemblance L et suppose que la o est une fonction dcroissante de la vraisemblance ( log) et la pnalisafamille de densits considres pour modliser la loi de Y contient la vraie tion une fonction croissante de la complexit du modle.
densit de Y .
Les critres ci-dessus ont pour la plupart t dfinis dans le cadre du modle
Aprs quelques dveloppements incluant de nombreuses approximations classique de rgression multiple pour lequel il existe de nombreuses rfrences
(estimation de paramtres par maximum de vraisemblance, proprits asymp- et certains ont t gnraliss ou adapts dautres mthodes en tendant la
totiques, formule de Taylor), le critre dAkake se met sous la forme :
notion de nombre de degrs de liberts des situations o le nombre de paramtres du modle nest pas explicite (lissage ou rgularisation).
d
AIC = 2L + 2 .
n
Dimension de Vapnik-Chernovenkis
Dans le cas gaussien en supposant la variance connue, moindres carrs et dCet indicateur mesure la complexit dune famille de fonctions candidates
viance concident, AIC est quivalent au Cp . Ce critre possde une version
la
dfinition
un modle de prvision. Cette complexit est base sur le pouvoir
plus raffine (AICc ) dans le cas gaussien et plus particulirement adapte aux
sparateur
de
la famille de fonction.
petits chantillons et asymptotiquement quivalente lorsque n est grand.
Considrons un chantillon (x1 , . . . , xn ) de Rp . Il existe 2n diffrentes man+d
AIC = 2L +
.
nires de sparer cet chantillon en deux sous-chantillons. Par dfinition,
nd2
21

07/15

on dit quun ensemble F de fonctions hache ou mieux pulvrise (shatters)


lchantillon si les 2n sparations peuvent tre construites par diffrents reprsentants de la famille de fonction F . Ainsi, par exemple, pour p = 2, les
fonctions linaires (droites) peuvent pulvriser 3 points mais pas 4.

Qualit de prvision et risque

Lingalit de Vapnik, qui scrit sous une forme analogue un intervalle

de confiance, permet de contrler lerreur de prvision ou risque. Avec


une probabilit 1 :
s

2n
cn (fb(dn ), dn ) + h(log( h ) + 1) log 4 .
RP (fb(dn )) < R
n

D FINITION 23. Un ensemble F de fonctions dfinies de Rp dans R est dit


de VC dimension (Vapnik-Chernovenkis) h si :
tout jeu de h vecteurs de Rp peut tre pulvris.
Aucun ensemble de h + 1 vecteurs ne peut tre pulvris par cet ensemble
de fonctions.

Il est important de souligner que cette ingalit ne fait pas intervenir le


nombre de variables explicatives p mais le rapport n/h. Elle ne fait pas intervenir non plus la loi conjointe inconnue du couple (Y, X). Le deuxime
terme est grand (mauvaise prcision) lorsque le rapport n/h est faible d
une trop grande VC dimension et donc une famille de modles trop
complexe.
Exemples
En pratique, il est important de minimiser simultanment les deux termes
La VC dimension de lensemble des hyperplans dans Rp est p + 1.
La VC dimension de lensemble des fonctions f (x, w) = sign(sin(w, x)) de linquation. La stratgie adopter est le principe de minimisation structure du risque (SRM) qui consiste faire de la VC dimension h une variable
avec 0 < c < x < 1 o w est un paramtre libre, est infinie.
contrle. Ayant dfini une squence ou structure de modles embots au sens
La VC dimension de lensemble des indicatrices linaires
de la VC dimension :

p
X
S1 S2 Sk avec : h1 < h2 < < hk .
f (x, w) = sign (wj xj ) + 1 avec kxk = 1
j=1
Il sagit de trouver la valeur h rendant le risque minimum et donc fournissant
le meilleur compromis entre les deux termes de lingalit de Vapnik.
et satisfaisant la condition :
La complexit de la famille des modles peut tre contrle par diffrents
p
X
2
paramtres
de la technique dapprentissage considre : le nombre de neurones
2
kwk =
wj C
dune
couche
dans un perceptron, le degr dun polynme, la contrainte sur les
j=1
paramtres comme en rgression ridge, une largeur de fentre ou paramtre de
dpend de la constante C et peut prendre toutes les valeurs de 0 p.
lissage...
Attention, les VC dimensions ne sont pas gales au nombre de paramtres
libres et sont souvent difficiles exprimer pour une famille de fonctions don- 3.3 Estimation par simulation
nes.
Validation croise
Vapnik (1999)[12] prouve des rsultats fondamentaux pour la thorie de
La validation croise est dun principe simple, efficace et largement utilise
lapprentissage :
pour
estimer une erreur moyennant un surplus de calcul. Lide est ditrer les Un processus dapprentissage est consistant si et seulement si la famille
timation
de lerreur sur plusieurs chantillons de validation puis den calculer
de modles considrs a une VC dimension h finie.
la
moyenne.
Cest indispensable pour rduire la variance et ainsi amliorer la
La majoration de la diffrence entre lerreur dapprentissage (ou par reprcision
lorsque
la taille de lchantillon initial est trop rduite pour en exsubstitution ou erreur apparente) et lerreur de prvision dpend du raptraire
des
chantillons
de validation et test de taille suffisante.
port entre la VC dimension h et la taille n de lensemble dapprentissage.
22

07/15

A LGORITHME 1 :
1: Dcouper alatoirement lchantillon en K parts (K-fold) de tailles approximativement gales selon une loi uniforme ;
2: for k=1 K do
3:
mettre de ct lune des partie,
4:
estimer le modle sur les K 1 parties restantes,
5:
calculer lerreur sur chacune des observations qui nont pas particip
lestimation
6: end for
7: moyenner toutes ces erreurs pour aboutir lestimation par validation
croise.

Qualit de prvision et risque

Minimiser lerreur estime par validation croise est une approche largement utilise pour optimiser le choix dun modle au sein dune famille parad
mtre. fb est dfini par b = arg min R
CV ().
Validation croise gnralise (GCV)
La validation croise peut se trouver excessivement chronophage. Dans de
nombreux cas de rgression, les valeurs ajustes sont fonction linaire des obb = Hy avec H = (hi,j )nn la hat-matrix. En rgression
servations : y
linaire multiple, H = X(X 0 X)1 X 0 et des formes similaires sont trouves pour la rgression spline ou la rgression par noyau, la ridge ou encore la
rgression LASSO. Pour de tels estimateurs linaires, lestimation leave-oneout de lerreur quadratique par validation croise (PRESS) scrit :

Plus prcisment, soit : {1, . . . , n} 7 {1, . . . , K} la fonction dindexation qui,pour chaque observation, donne lattribution uniformment alatoire
de sa classe. Lestimation par validation croise de lerreur de prvision est :

"
#2
n
n
i2
1 Xh
1 X yi fb(xi )
(i)
b
yi f
(xi ) =
.
n i=1
n i=1
1 hii

Une seule estimation de fb est requise mais le calcul de la diagonale de H


peut tre coteux lorsque n ou p sont grands. Craven et Wahba (1979)[4] ont
propos, initialement dans le cas du lissage spline pour loptimisation du paramtre de lissage, une approximation en approchant tous les hii par tr(H)/n.

1X
d
R
l(yi , fb( (i)) (xi ))
CV =
n i=1

o fb(k) dsigne lestimation de f sans prendre en compte la kime partie de


Bootstrap
lchantillon.
Le choix de k entre 5 et 15, est couramment K = 10 par dfaut dans les
logiciels Splus, R. Historiquement, la validation croise a t introduite avec
K = n (leave-one-out or loo cross validation) en rgression linaire. Ce
dernier choix nest possible que pour n relativement petit cause du volume
des calculs ncessaires. Dautre part, lestimation de lerreur prsente alors une
variance importante car comme chaque couple de modle partagent (n 2)
observations, ceux-ci peuvent tre trs similaires donc trs dpendants ; cette
dpendance accrot la variance. Intuitivement, cela revient construire un design pas du tout optimal en planification exprimentale. En revanche, si K
est petit (i.e. K = 5), la variance sera plus faible mais le biais (pessimiste)
devient un problme dpendant de la faon dont la qualit de lestimation se
dgrade avec la taille de lchantillon. Loptimisation de k qui correspond donc
encore un meilleur quilibre entre biais et variance, ncessite gnralement
trop dobservations pour tre pratique ; do le choix par dfaut.

Cette section plus technique dcrit des outils encore peu prsents dans les
logiciels commerciaux, elle peut tre saute en premire lecture.
Lide, dapprocher par simulation (Monte Carlo) la distribution dun estimateur lorsque lon ne connat pas la loi de lchantillon ou, plus souvent,
lorsque lon ne peut pas supposer quelle est gaussienne, est lobjectif mme
du bootstrap (Efron, 1982) [6].
Le principe fondamental de cette technique de r-chantillonnage est de substituer, la distribution de probabilit inconnue F , dont est issu lchantillon
dapprentissage, la distribution empirique Fn qui donne un poids 1/n chaque
ralisation. Ainsi on obtient un chantillon de taille n dit chantillon bootstrap
selon la distribution empirique Fn par n tirages alatoires avec remise parmi
les n observations initiales.
Il est facile de construire un grand nombre dchantillons bootstrap (i.e.
23

07/15

10

B = 100) sur lesquels calculer lestimateur concern. La loi simule de cet


estimateur est une approximation asymptotiquement convergente sous des hypothses raisonnables 1 de la loi de lestimateur. Cette approximation fournit
ainsi des estimations du biais, de la variance, donc dun risque quadratique, et
mme des intervalles de confiance (avec B beaucoup plus grand) de lestimateur sans hypothse (normalit) sur la vraie loi. Les grands principes de cette
approche sont rappels dans lannexe sur le bootstrap.

Qualit de prvision et risque

Estimateur out-of-bag
La premire sinspire simplement de la validation croise. Elle considre
dune part les observations tires dans lchantillon bootstrap et, dautre part,
celles qui sont laisses de ct pour lestimation du modle mais retenue pour
lestimation de lerreur.
n
1X 1 X
d
R
l(yi , fzb (xi ))
oob =
n i=1 Bi
bKi

Estimateur naf

o Ki est lensemble des indices b des chantillons bootstrap ne contenant pas


la ime observation lissue des B simulations et Bi = |Ki | le nombre de ces
chantillons ; B doit tre suffisamment grand pour que toute observation nait
pas t tire au moins une fois ou bien les termes avec Ki = 0 sont supprims.
d
Lestimation R
oob rsout le problme dun biais optimiste auquel est
[
confronte R
mais
nchappe pas au biais introduit pas la rduction tel
Boot
d
quil est signal pour lestimation pas validation croise R
CV . Cest ce qui a
conduit Efron et Tibshirani (1997) [7] a proposer des correctifs.

Soit z un chantillon bootstrap des donnes tir selon la loi empirique F


associe lchantillon dapprentissage dn
z = {(x1 , y1 ), . . . , (xn , yn )}.
Lestimateur plug-in de lerreur de prvision RP (f(dn )) est donn par :
n

X
bn (fz , dn ) = 1
l(yi , fz (xi ))
R
n i=1

o fz dsigne lestimation de f partir de lchantillon bootstrap. Estimateur .632-bootstrap


Il conduit lestimation bootstrap de lerreur moyenne de prvision
La probabilit quune observation soit tire dans un chantillon bootstrap
EDn P n [RP (f(D n )] par
est
1
1
" n
#
P [xi xb ] = 1 (1 )n 1 0, 632.
X
1
n
e
n
bn (fZ , d )] = E b
RBoot = EZ Fb [R
l(yi , fZ (xi )) .
Z F n
Trs approximativement, la dgradation de lestimation provoque par le
i=1
bootstrap et donc la survaluation de lerreur sont analogues celle de la vaCette estimation est approche par simulation :
lidation croise avec K = 2. la suite dun raisonnement trop long pour
tre reproduit ici, Efron et Tibshirani (1997) proposent de compenser excs
B
n
1 X1X
doptimisme du taux apparent derreur et excs de pessimisme du bootstrap
[
R
=
l(y
,
f
(x
)).
b
Boot
i z
i
B
n i=1
out-of-bag par une combinaison :
b=1
b.632 = 0, 368 R
bn (f(dn ), dn ) + 0, 632 R
boob .
Lestimation ainsi construite de lerreur de prvision est gnralement biaise
R
par optimisme car, au gr des simulations, les mmes observations (xi , yi )
apparaissent la fois dans lestimation du modle et dans celle de lerreur. 3.3.1 Remarques
Dautres approches visent corriger ce biais.
Toutes les estimations du risque empirique considres (pnalisation, va1. chantillon indpendant de mme loi et estimateur indpendant de lordre des observations.
lidation croise, bootstrap) sont asymptotiquement quivalentes et il nest
24

07/15

11

pas possible de savoir laquelle concrtement sera, n fini, la plus prcise.


Une large part darbitraire ou d"exprience" prside donc le choix dune
estimation plutt quune autre.
Conceptuellement, le bootstrap est plus compliqu et pratiquement encore
peu utilis. Nanmoins, cet outil joue un rle central dans les algorithmes
rcents de combinaison de modles en association avec une estimation
out-of-bag de lerreur. Il ne peut tre nglig.
Lestimateur .632-bootstrap pose des problmes en situation de surajustement aussi les mmes auteurs ont propos un rectificatif complmentaire not .632+bootstrap.
Comme le signale Vapnik, la rsolution dun problme de modlisation :
rgression ou discrimination fin prdictive doit, dans la mesure du possible, dviter de se ramener un problme finalement beaucoup plus
complexe comme celui de lestimation dune densit multidimensionnelle. Cest ainsi typiquement le cas en analyse discriminante non paramtrique.

Qualit de prvision et risque

une pondrations des observations ou encore lintroduction de cots de mauvais classement dissymtriques afin de forcer le modle prendre en compte
une petite classe.
Discrimination deux classes
Dans le cas du problme le plus lmentaire deux classes, dautres critres
sont proposs afin dvaluer plus prcisment une qualit de discrimination. La
plupart des mthodes vues (rgression logistique), ou venir dans les chapitre
qui suivent, valuent, pour chaque individu i, un score ou une probabilit
bi
que cette individu prenne la modalit Y = 1 (ou succs, ou possession dun
actif, ou prsence dune maladie...). Cette probabilit ou ce score compris entre
0 et 1 est compar avec une valeur seuil s fixe a priori (en gnral 0, 5) :
Si
bi > s, ybi = 1 sinon ybi = 0.

Pour un chantillon de taille n dont lobservation de Y est connue ainsi que


les scores
bi fournis par un modle, il est alors facile de construire la matrice
Ce quil faut retenir en conclusion, cest que lestimation dune erreur de pr- dite de confusion croisant les modalits de la variable prdite au seuil s avec
vision est une opration dlicate aux consquences importantes. Il est donc celles de la variable observe dans une table de contingence :
ncessaire
dutiliser le mme estimateur pour comparer lefficacit de deux mPrvision
Observation
Total
thodes,
Y =1 Y =0
de se montrer trs prudent, en dehors de tout systme dhypothses proybi = 1
n11 (s) n10 (s) n1+ (s)
babilistes, sur le caractre absolu dune estimation dans lobjectif dune
ybi = 0
n01 (s) n00 (s) n0+ (s)
certification.
Total
n+1
n+0
n
Dans ces deux dernires situations, le recours un chantillon test de bonne
Dans une situation classique de diagnostic mdical ou en marketing les
taille est difficilement contournable alors quen situation de choix de modle
quantits
suivantes sont considres :
au sein dune mme famille, un estimateur (petit chantillon de validation,

Vrais
positifs les n11 (s) observations bien classes (b
yi = 1 et Y = 1),
validation croise) plus conomique est adapt en supposant implicitement que

Vrais
ngatifs
les
n
(s)
observations
bien
classes
(b
yi = 0 et Y = 0),
le biais induit est identique dun modle lautre.
00
Faux ngatifs les n01 (s) observations mal classes (b
yi = 0 et Y = 1),
3.4 Discrimination et courbe ROC
Faux positifs les n10 (s) observations mal classes (b
yi = 1 et Y = 0),
n01 (s)+n10 (s)
,
Le taux derreur : t(s) =
n
Dans une situation de discrimination le seul critre de risque comme le taux
(s)

Le
taux
de
vrais
positifs
ou
sensibilit
= nn11+1
ou taux de positifs pour
derreur de classement nest pas toujours bien adapt surtout, par exemple,
les individus qui le sont effectivement,
dans le cadre de classes dsquilibres : un modle trivial qui ne prdit jamais
n (s)
une classe peu reprsente ne commet pas un taux derreur suprieur au pour Le taux de vrais ngatifs ou spcificit = n00+0 ou taux de ngatifs pour
centage de cette classe. Cette situation est souvent dlicate grer et ncessite
les individus qui le sont effectivement,
25

07/15

12

Le taux de faux positifs = 1 Spcificit = 1

n00 (s)
n+0

Qualit de prvision et risque

n10 (s)
n+0 .

En revanche, en mtorologie, dautres taux sont utiliss :


n11 (s)
Le taux de bonnes prvisions : H = n+1
(s) ,
n

(s)

Le taux de fausses alertes : F = n10+0 ,


Le score de Pierce : PSS= H F , compris entre 1 et 1, value la qualit

dun modle de prvision. Si ce score est suprieur 0, le taux de bonnes


prvisions est suprieur celui des fausses alertes et plus il est proche de
1, meilleur est le modle.
Le score de Pierce a t conu pour la prvision dvnements climatiques
rares afin de pnaliser les modles ne prvoyant jamais ces vnements (H =
0) ou encore gnrant trop de fausses alertes (F = 1). Le modle idal prvoyant tous les vnements critiques (H = 1) sans fausse alerte (F = 0). Des
cots de mauvais classement peuvent tre introduits pour pondrer ce score.
Courbe ROC et AUC
Les notions de spcificit et de sensibilit proviennent de la thorie du signal ; leurs valeurs dpendent directement de celle du seuil s. En augmentant
s, la sensibilit diminue tandis que la spcificit augmente car la rgle de dcision devient plus exigeante ; un bon modle associe grande sensibilit et grande
spcificit pour la dtection dun signal. Ce lien est reprsent graphiquement par la courbe ROC (Receiver Operating Caracteristic) de la sensibilit
(probabilit de dtecter un vrai signal) en fonction de 1 moins la spcificit
(probabilit de dtecter un faux signal) pour chaque valeur s du seuil. Notons
que la courbe ROC est une fonction monotone croissante :
1

n00 (s0 )
n11 (s)
n11 (s0 )
n00 (s)
<1
s < s0
<
.
n+0
n+0
n+1
n+1

F IGURE 1 Donnes bancaires : Courbes ROC estimes sur lchantillon test


pour diffrentes mthodes de prvision ou de score dapptence

La figure 1 donne un exemple de courbes ROC associe au score dapptence


de la carte visa premier. Plus la courbe se rapproche du carr, meilleure est
la discrimination, correspondant la fois une forte sensibilit et une grande
spcificit. Laire sous la courbe : AUC (area under curve) mesure la qualit de
discrimination du modle tandis quune analyse de la courbe aide au choix du
seuil. Ainsi, dans lexemple considr, un seuil de 0, 6 ne pnalise pas normment le nombre de vrais positifs carts tout en conomisant des envois
publicitaires (faux positifs) par rapport un seuil de 0, 5.
26

07/15

13

Laire sous la courbe est calcule en considrant toutes les paires (i, i0 ) formes dun premier individu avec yi = 1 et dun second avec yi0 = 0. Une paire
est dite concordante si
bi >
bi0 ; discordante sinon. Le nombre dex quo est
n+0 n+1 nc nd o nc est le nombre de paires concordantes et nd le nombre
de paires discordantes. Alors,
AUC =

Qualit de prvision et risque

[7] B. Efron et R. Tibshirani, Improvements on Cross-Validation : The .632+


Bootstrap Method, Journal of the American Statistical Association 92
(1997), no 438, 548560.
[8] C.L. Mallows, Some Comments on Cp, Technometrics 15 (1973), 661
675.
[9] G. Schwarz, Estimating the dimension of a model, Annals of Statistics 6
(1978), 461464.

nc + 0, 5(n+0 n+1 nc nd )
.
n+0 n+1

[10] C. Spiegelman et J. Sacks, Consistent Window Estimation in Nonparametric Regression, Annals of Statististics 8 (1980), 240246.
On montre par ailleurs (voir par exemple Tenenhaus 2007) que le numrateur de cette expression est encore la Statistique de test de Mann-Whitney [11] M. Stone, An Asymptotic Equivalence of Choice of Model by Crosstandis que le coefficient de Gini, qui est le double de la surface entre la diagoValidation and Akaikes Criterion, Journal of The Royal Statistical Sonale et la courbe, vaut 2AUC 1.
ciety B 39 (1977), 4447.
Attention, pour comparer des modles ou mthodes de complexits diff- [12] V.N. Vapnik, Statistical learning theory, Wiley Inter science, 1999.
rentes, ces courbes doivent tre estimes sur un chantillon test. Elles sont
bien videmment optimistes sur lchantillon dapprentissage. De plus, lAUC
ne donne pas un ordre total pour classer des modles car les courbes ROC
peuvent se croiser.

Rfrences
[1] H. Akake, A new look at the statistical model identification, IEEE Transactions on Automatic Control 19 (1974).
[2] L. Breiman, J. Friedman, R. Olshen et C. Stone, Classification and regression trees, Wadsworth & Brooks, 1984.
[3] T. M. Cover et P. E. Hart, Nearest neighbor pattern classification, IEEE
Trans. Inform. Theory 13 (1967), 2127.
[4] P Craven et G. Wahba, Smoothing Noisy Data with Spline Functions,
Technometrics 21 (1979), 215223.
[5] L. P. Deveroye et T.J. Wagner, Distribution-Free Consistency Results in
Discrimination and Regression Function Estimation, Annals of Statistics
8 (1980), 231239.
[6] B. Efron, The Jackknife, the Bootstrap and other Resampling Methods,
SIAM, 1982.
27

07/15

Slection de modle dans le cas gaussien

que lesprance de Y appartient au sous-espace de Rn engendr par


{1, X 1 , . . . , X p } o 1 dsigne le vecteur de Rn constitu de 1 . Cest-dire que les (p + 1) variables alatoires vrifient :

Slection de modle dans le cas


gaussien

Yi = 0 + 1 Xi1 + 2 Xi2 + + p Xip + i i = 1, 2, . . . , n

Rsum

avec les hypothses suivantes :

Le modle linaire gaussien ou rgression multiple est considr


pour lobjectif de la prvision dune variable quantitative par un
ensemble de variables quantitatives ou quantitatives et qualitatives
(analyse de covariance). Recherche dun modle parcimonieux assurant un bon quilibre entre la qualit de lajustement et la variance
des paramtres afin de minimiser le risque empirique. Algorithmes
(backward, forward, stepwise...) de slection de modle par slection
de variables et minimisation de critres pnaliss (Cp , AIC, BIC).
Algorithmes de slection de modle par pnalisation (ridge, lasso,
elastic net).
Retour au plan du cours

1. Les i sont des termes derreur indpendants et identiquement distribus ;


E(i ) = 0, V ar() = 2 I.
2. Les termes X j sont supposs dterministes (facteurs contrls) ou bien
lerreur est indpendante de la distribution conjointe de X 1 , . . . , X p .
On crit dans ce dernier cas que :
E(Y|X 1 , . . . , X p ) = 0 +1 X 1 +2 X 2 + +p X p et V ar(Y|X 1 , . . . , X p ) = 2 .

3. Les paramtres inconnus 0 , . . . , p sont supposs constants.


4. En option, pour ltude spcifique des lois des estimateurs, une quatrime
hypothse considre la normalit de la variable derreur (N (0, 2 I)).
Les i sont alors i.i.d. de loi N (0, 2 ).

Rgression multiple

Les donnes sont ranges dans une matrice X(n (p + 1)) de terme gnral Xij , dont la premire colonne contient le vecteur 1 (X0i = 1), et dans
Le modle de rgression linaire multiple est loutil statistique le plus ha- un vecteur Y de terme gnral Yi . En notant les vecteurs = [1 p ]0 et
bituellement mis en uvre pour ltude de donnes multidimensionnelles. Cas = [0 1 p ]0 , le modle scrit matriciellement :
particulier de modle linaire, il constitue la gnralisation naturelle de la rgression simple.
Y = X + .

1.1

Modle

Une variable quantitative Y dite expliquer (ou encore, rponse, exogne,


dpendante) est mise en relation avec p variables quantitatives X 1 , . . . , X p
dites explicatives (ou encore de contrle, endognes, indpendantes, rgres- 1.2 Estimation
seurs).
Conditionnellement la connaissance des valeurs des X j , les paramtres
Les donnes sont supposes provenir de lobservation dun chantillon sta- inconnus du modle : le vecteur et 2 (paramtre de nuisance), sont estims par minimisation des carrs des carts (M.C.) ou encore, en supposant
tistique de taille n (n > p + 1) de R(p+1) :
(4.), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alors
j
p
(x1i , . . . , xi , . . . , xi , yi ) i = 1, . . . , n.
les mmes expressions, lhypothse de normalit et lutilisation de la vraisemblance confrant ces derniers des proprits complmentaires.
Lcriture du modle linaire dans cette situation conduit supposer
28

07/15

1.3

1.4

Estimation par M.C.

Lexpression minimiser sur Rp+1 scrit :


n
X
(Yi 0 1 Xi1 p Xip )2

Slection de modle dans le cas gaussien

= kY Xk

Proprits

Les estimateurs des M.C. b0 , b1 , . . . , bp sont des estimateurs sans biais :


b = , et, parmi les estimateurs sans biais fonctions linaires des Yi ,
E()
ils sont de variance minimum (thorme de Gauss-Markov) ; ils sont donc
BLUE : best linear unbiaised estimators. Sous hypothse de normalit, les
estimateurs du M.V. sont uniformment meilleurs (efficaces) et concident avec
ceux des M.C.

i=1

= (Y X)0 (Y X)
= Y0 Y 2 0 X0 Y + 0 X0 X.

On montre que la matrice de covariance des estimateurs se met sous la forme


Par drivation matricielle de la dernire quation on obtient les quations
b )(
b )0 ] = 2 (X0 X)1 ,
E[(
normales :
X0 Y X0 X = 0
celle des prdicteurs est
0
dont la solution correspond bien un minimum car la matrice hessienne 2X X
b X)(Y
b X)0 ] = 2 H
E[(Y
est semi dfinie-positive.
Nous faisons lhypothse supplmentaire que la matrice X0 X est inversible, et celle des estimateurs des rsidus est
cest--dire que la matrice X est de rang (p + 1) et donc quil nexiste pas de
E[ee0 ] = 2 (I H)
colinarit entre ses colonnes. En pratique, si cette hypothse nest pas vrifie,
2
il suffit de supprimer des colonnes de X et donc des variables du modle ou tandis quun estimateur sans biais de est fourni par :
une autre approche de rduction de dimension (rgression ridge, Lasso, PLS
2
2
kek
kY Xk
SSE
...) est mettre en oeuvre.

b2 =
=
=
.
np1
np1
np1
Alors, lestimation des paramtres j est donne par :
Ainsi, les termes
b2 hii sont des estimations des variances des prdicteurs Ybi .
0
1 0
b
= (X X) X Y
La consquence immdiate importante est que si la matrice X0 X est mal
conditionne (dterminant proche de 0), son inversion fait apparatre des
termes trs levs sur la diagonale et conduit donc des variances trs importantes des estimations des paramtres.

et les valeurs ajustes (ou estimes, prdites) de Y ont pour expression :


b = X(X0 X)1 X0 Y = HY
b = X
Y

1.5

o H = X(X0 X) X0 est appele hat matrix ; elle met un chapeau Y.


Gomtriquement, cest la matrice de projection orthogonale dans Rn sur le
sous-espace Vect(X) engendr par les vecteurs colonnes de X.

Sommes des carrs

SSE est la somme des carrs des rsidus (sum of squared errors),

2

2
b
SSE = Y Y
= kek .

On note
b = (I H)Y
b = Y X
e=YY

On dfinit galement la somme totale des carrs (total sum of squares) par

2
2
SST = Y Y1 = Y0 Y nY

le vecteur des rsidus ; cest la projection de Y sur le sous-espace orthogonal


de Vect(X) dans Rn .
29

07/15

Slection de modle dans le cas gaussien

suit une loi de Student (n p 1) degrs de libert. Cette statistique est


donc utilise pour tester une hypothse H0 : j = a ou pour construire un
intervalle de confiance de niveau 100(1 )% :

et la somme des carrs de la rgression (regression sum of squares) par


2


b
b 0 X0 Y nY2 .
b 0Y
b nY2 = Y0 HY nY2 =
Y1 = Y
SSR = Y

bj t/2;(np1)
bj2 .

On vrifie alors : SST = SSR + SSE.

1.6

Coefficient de dtermination

Attention, cette statistique concerne un coefficient et ne permet pas dinfrer


conjointement
(cf. 3.4) sur dautres coefficients car ils sont corrls entre eux ;
On appelle coefficient de dtermination le rapport
de plus elle dpend des absences ou prsences des autres variables X k dans le
SSR
modle. Par exemple, dans le cas particulier de deux variables X 1 et X 2 trs
R2 =
SST
corrles, chaque variable, en labsence de lautre, peut apparatre avec un coqui est donc la part de variation de Y explique par le modle de rgression. efficient significativement diffrent de 0 ; mais, si les deux sont prsentes dans
Gomtriquement, cest un rapport de carrs de longueur de deux vecteurs. le modle, elles peuvent chacune apparatre avec des coefficients insignifiants.
b
Cest donc le cosinus carr de langle entre ces vecteurs : Y et sa projection Y
De faon plus gnrale, si c dsigne un vecteur non nul de (p+1) constantes
sur Vect(X).
relles, il est possible de tester la valeur dune combinaison linaire c0 des
Attention, dans le cas extrme o n = (p + 1), cest--dire si le nombre de paramtres en considrant lhypothse nulle H0 : c0 = a ; a connu. Sous
variables explicatives est grand comparativement au nombre dobservations, H0 , la statistique
b a
R2 = 1. Ou encore, il est gomtriquement facile de voir que lajout de vac0
1
riables explicatives ne peut que faire crotre le coefficient de dtermination.
(b
2 c0 (X0 X) c)1/2
La quantit R est appele coefficient de corrlation multiple entre Y et les suit une loi de Student (n p 1) degrs de libert.
variables explicatives, cest le coefficient de corrlation usuel entre Y et sa
b
Infrence sur le modle
prvision Y.

1.7

Le modle peut tre test globalement. Sous lhypothse nulle H0 : 1 =


2 = . . . = p = 0, la statistique

Infrence dans le cas gaussien

En principe, lhypothse optionnelle (4.) de normalit des erreurs est ncesSSR/p


MSR
saire pour cette section. En pratique, des rsultats asymptotiques, donc valides
=
SSE/(n p 1)
MSE
pour de grands chantillons, ainsi que des tudes de simulation, montrent que
cette hypothse nest pas celle dont la violation est la plus pnalisante pour la suit une loi de Fisher avec p et (n p 1) degrs de libert. Les rsultats sont
fiabilit des modles.
habituellement prsents dans un tableau danalyse de la variance sous la
forme
suivante :
Infrence sur les coefficients
Pour chaque coefficient j on note
bj2 lestimateur de la variance de bj
obtenu en prenant j-me terme diagonal de la matrice
b2 (X0 X)1 . On montre
que la statistique
bj j

bj
30

Source de
variation

d.d.l.

Somme des
carrs

Rgression
Erreur
Total

p
np1
n1

SSR
SSE
SST

Variance
MSR=SSR/p
MSE=SSE/(n p 1)

MSR/MSE

07/15

Infrence sur un modle rduit

Slection de modle dans le cas gaussien

linarit du modle : paramtres j constant,


absence de points influents : distance de Cook

Le test prcdent amne rejeter H0 ds que lune des variables X j est


lie Y. Il est donc dun intrt limit. Il est souvent plus utile de tester un
modle rduit cest--dire dans lequel certains coefficients, lexception de
la constante, sont nuls contre le modle complet avec toutes les variables. En
ayant ventuellement rordonn les variables, on considre lhypothse nulle
H0 : 1 = 2 = . . . = q = 0, q < p.

Di =

1
b(i) )0 (b
b(i) ),
(b
yy
yy
s2 (p + 1)

ventuellement la normalit des rsidus.


Ces
diagnostics obtenus par ltude des rsidus du modle sont trs classique
Notons respectivement SSRq , SSEq , Rq2 les sommes de carrs et le coef- en rgression linaire, ils ne sont pas repris ici afin de se focaliser sur ceux lis
ficient de dtermination du modle rduit (p q) variables. Sous H0 , la la possible colinarit des variables explicatives.
statistique
En effet, lestimation des paramtres ainsi que celle de leur cart-type (stan(R2 Rq2 )/q
(SSR SSRq )/q
=
dard
error) ncessite le calcul explicite de la matrice (X0 X)1 . Dans le cas dit
SSE/(n p 1)
(1 R2 )/(n p 1)
mal conditionn o le dterminant de la matrice X0 X nest que lgrement difsuit une loi de Fisher q et (n p 1) degrs de libert.
frent de 0, les rsultats conduiront des estimateurs de variances importantes.
Dans le cas particulier o q = 1 (j = 0), la F -statistique est alors le carr Il sagit donc de diagnostiquer ces situations critiques puis dy remdier. Dans
de la t-statistique de linfrence sur un paramtre et conduit donc au mme les cas descriptif ou prdictif on supprime des variables laide des procdures de choix de modle mais, pour un objectif explicatif ncessitant toutes
test.
les variables, dautres solutions doivent tre envisages : rgression biaise ou
1.8 Prvision
pnalise (ridge, lasso), rgression sur composantes principales ou PLS.

Connaissant les valeurs des variables X j pour une nouvelle observation : VIF
= [x10 , x20 , . . . , xp0 ] appartenant au domaine dans lequel lhypothse de liLa plupart des logiciels proposent des diagnostics de colinarit. Le plus
narit reste valide, une prvision, note yb0 de Y ou E(Y) est donne par :
classique est le facteur dinflation de la variance (VIF)
yb0 = b0 + b1 x10 + + bp xp0 .
1
Vj =
Les intervalles de confiance des prvisions de Y et E(Y), pour une valeur
1 Rj2
x0 Rp et en posant v0 = (1|x00 )0 Rp+1 , sont respectivement
x00

o Rj2 dsigne le coefficient de dtermination de la rgression de la variable


X j sur les autres variables explicatives ; Rj est alors un coefficient de corryb0 t/2;(np1)
b(v00 (X0 X)1 v0 )1/2 .
lation multiple, cest le cosinus de langle dans Rn entre X j et le sous-espace
vectoriel engendr par les variables {X 1 , . . . , X j1 , X j+1 , . . . , X p }. Plus
1.9 Diagnostics de colinarit
X j est linairement proche de ces variables et plus Rj est proche de 1 ;
on montre alors que la variance de lestimateur de j est dautant plus leLa validit dun modle de rgression multiple dpend de la bonne vrificave. videmment, cette variance est minimum lorsque X j est orthogonal au
tion des hypothses pralables :
sous-espace engendr par les autres variables.
homoscdasticit : variance 2 des rsidus constante,
yb0

t/2;(np1)
b(1 + v00 (X0 X)1 v0 )1/2 ,

31

07/15

Conditionnement

Slection de modle dans le cas gaussien

Modle complet

De faon classique, les qualits numriques de linversion dune matrice


La procdure SAS/REG fournit les rsultats classiques de la rgression mulsont quantifies par son indice de conditionnement. On note 1 , . . . , p les va- tiple.
leurs propres de la matrice des corrlations R ranges par ordre dcroissant. Le Analysis of Variance
Sum of
Mean
dterminant de R est gal au produit des valeurs propres. Ainsi, des problmes Source
DF
Squares
Square
F Value
Prob>F
(1)
numriques, ou de variances excessives apparaissent ds que les dernires va- Model
12
0.55868 (2)
0.04656 (5)
8.408 (7)
0.0001 (8)
27
0.14951 (3)
0.00554 (6)
leurs propres sont relativement trop petites. Lindice de conditionnement est le Error
C Total
39
0.70820 (4)
Root
MSE
0.07441
(9)
R-square
0.7889 (12)
rapport
Dep Mean
0.14275 (10)
Adj R-sq
0.6951 (13)
C.V.

= 1 /p

(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)

de la plus grande sur la plus petite valeur propre.


En pratique, si < 100 on considre quil ny a pas de problme. Celui-ci
devient svre pour > 1000. Cet indice de conditionnement donne un aperu
global des problmes de colinarit tandis que les VIF, les tolrances ou encore
ltude des vecteurs propres associs au plus petites valeurs propres permettent
didentifier les variables les plus problmatiques.

1.10

Exemple

Les donnes sont extraites de Jobson (1991)[3] et dcrivent les rsultats


comptables de 40 entreprises du Royaume Uni.
RETCAP
WCFTDT
LOGSALE
LOGASST
CURRAT
QUIKRAT
NFATAST
FATTOT
PAYOUT
WCFTCL
GEARRAT
CAPINT
INVTAST

52.12940 (11)

degrs de libert de la loi de Fisher du test global


SSR
SSE ou dviance
SST=SSE+SSR
SSR/DF
MSE=SSE/DF est lestimation de 2
Statistique F du test de Fisher du modle global
P (fp;np1 > F ) ; H0 est rejete au niveau si P <
s =racine de MSE
moyenne empirique de la variable explique
Coefficient de variation 100 (9)/(10)
Coefficient de dtermination R2
2
Coefficient de dtermination ajust R0

Parameter Estimates
Parameter
Variable DF
Estimate
(1)
INTERCEP
1
0.188072
WCFTCL
1
0.215130
WCFTDT
1
0.305557
GEARRAT
1
-0.040436
LOGSALE
1
0.118440
LOGASST
1
-0.076960
...

Return on capital employed


Ratio of working capital flow to total debt
Log to base 10 of total sales
Log to base 10 of total assets
Current ratio
Quick ratio
Ratio of net fixed assets to total assets
Gross sixed assets to total assets
Payout ratio
Ratio of working capital flow to total current liabilities
Gearing ratio (debt-equity ratio)
Capital intensity (ratio of total sales to total assets)
Ratio of total inventories to total assets

(1)
(2)
(3)
(4)
(5)
(6)

Standard
Error
(2)
0.13391661
0.19788455
0.29736579
0.07677092
0.03611612
0.04517414

T for H0:
Parameter=0 Prob>|T|
(3)
(4)
1.404
0.1716
1.087
0.2866
1.028
0.3133
-0.527
0.6027
3.279
0.0029
-1.704
0.0999

Tolerance
(5)
.
0.03734409
0.02187972
0.45778579
0.10629382
0.21200778

Variance
Inflation
(6)
0.00000000
26.77799793
45.70441500
2.18442778
9.40788501
4.71680805

estimations des paramtres (bj )


carts-types de ces estimations
bj
statistique T du test de Student de H0 : j = 0
P (tnp1 > T ) ; H0 est rejete au niveau si P <
2
1 R(j)
2
VIF=1/(1 R(j)
)

Ces rsultats soulignent les problmes de colinarits. De grands VIF (fac32

07/15

Slection de modle dans le cas gaussien

teurs dinflation de la variance) sont associs de grands cart-types des estiOn suppose que les moyennes conditionnelles E[Y|T ], cest--dire calcumations des paramtres. Dautre part les nombreux tests de Student non signifi- les lintrieur de chaque cellule, sont dans le sous-espace vectoriel engendr
catifs montrent que trop de variables sont prsentes dans le modle. Cette ide par les variables explicatives quantitatives, ici X. Ceci scrit :
est renforce par le calcul de lindice de conditionnement : 8.76623/0.00125.
Yij = 0j + 1j Xij + ij ; j = 1, . . . , J; i = 1, , nj

Analyse de covariance

o les ij sont i.i.d. suivant une loi centre de variance 2 qui sera suppose
Lanalyse de covariance se situe encore dans le cadre gnral du modle li- N (0, 2 ) pour la construction des tests.
naire et o une variable quantitative est explique par plusieurs variables la
Notons Y le vecteur des observations [Yij |i = 1, nj ; j = 1, J]0 mis en
fois quantitatives et qualitatives. Dans les cas les plus complexes, on peut avoir colonne, x le vecteur [X |i = 1, n ; j = 1, J]0 , = [ |i = 1, n ; j = 1, J]0
ij
j
ij
j
plusieurs facteurs (variables qualitatives) avec une structure croise ou hirar- le vecteur des erreurs, 1 les variables indicatrices des niveaux et 1 la colonne
j
chique ainsi que plusieurs variables quantitatives intervenant de manire li- de 1s. On note encore x.1 le produit terme terme des deux vecteurs, cestj
naire ou polynomiale. Le principe gnral, dans un but explicatif ou dcision- -dire le vecteur contenant les observations de x sur les individus prenant le
nel, est toujours destimer des modles intra-groupes et de faire apparatre niveau j de T et des zros ailleurs.
(tester) des effets diffrentiels inter-groupes des paramtres des rgressions.
La rsolution simultane des J modles de rgression est alors obtenue en
Ainsi, dans le cas plus simple o seulement une variable parmi les explicatives
considrant
globalement le modle :
est quantitative, nous sommes amens tester lhtrognit des constantes
et celle des pentes (interaction) entre diffrents modles de rgression linaire.
Y = X +
Ce type de modle permet donc, toujours avec un objectif prdictif, de sintresser la modlisation dune variable quantitative par un ensemble de vadans lequel X est la matrice n 2J constitue des blocs [1j |X.1j ] ; j =
riables explicatives la fois quantitatives et qualitatives. La possible prise en
1, . . . , J. Lestimation de ce modle global conduit, par bloc, estimer les
compte dinteractions complique singulirement la procdure de slection de
modles de rgression dans chacune des cellules.
variables.
Comme pour lanalyse de variance, les logiciels oprent une reparamtrisation faisant apparatre des effets diffrentiels par rapport au dernier niveau
2.1 Modle
(SAS/GLM, SAS/INSIGHT) ou par rapport un effet moyen (Systat), afin
Le modle est explicit dans le cas lmentaire o une variable quantitative dobtenir directement les bonnes hypothses dans les tests. Ainsi, dans le preY est explique par une variable qualitative T J niveaux et une variable mier cas, on considre la matrice de mme rang (sans la Jme indicatrice)
quantitative, appele encore covariable, X. Pour chaque niveau j de T , on
observe nj valeurs X1j , . . . , Xnj j de X et nj valeurs Y1j , . . . , Ynj j de Y ;
X = [1|X|11 | |1J1 |x.11 | |x.1J1 ]
PJ
n = j=1 nj est la taille de lchantillon.
En pratique, avant de lancer une procdure de modlisation et tests, une associe aux modles :
dmarche exploratoire sappuyant sur une reprsentation en couleur (une par
modalit j de T) du nuage de points croisant Y et X et associant les droites de
Yij = 0J + (0j 0J ) + 1J Xij + (1j 1J )Xij + ij ;
rgression permet de se faire une ide sur les effets respectifs des variables :
j = 1, . . . , J 1; i = 1, . . . , nj .
paralllisme des droites, tirement, imbrication des sous-nuages.
33

07/15

2.2

Slection de modle dans le cas gaussien

Tests

cette stratgie, laquelle peuvent contribuer des Analyses en Composantes Principales, correspond des algorithmes de recherche (pas pas)
Diffrentes hypothses sont alors testes en comparant le modle complet
moins performants mais conomiques en temps de calcul si p est grand.
Attention, si n est petit, et la recherche suffisamment longue avec beauY = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 + 1J x +
coup de variables explicatives, il sera toujours possible de trouver un
+ (11 1J )x.11 + + (1J1 1J )x.1J1 +
bon modle expliquant y ; cest leffet data mining dans les modles
conomtriques appel maintenant data snooping.
chacun des modles rduits :
Explicatif : Le deuxime objectif est sous-tendu par une connaissance a
(i) Y = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 + 1J x +
priori du domaine concern et dont des rsultats thoriques peuvent vou(ii) Y = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 +
loir tre confirms, infirms ou prciss par lestimation des paramtres.
Dans ce cas, les rsultats infrentiels prcdents permettent de construire
(iii) Y = 0J 1 + 1J x + (1j 1J )x.11 + +
le bon test conduisant la prise de dcision recherche. Utilises hors de
+(1J1 1J )x.1J1 +
ce contexte, les statistiques de test nont plus alors quune valeur indica(iv) Y = 0J 1 +
tive au mme titre que dautres critres plus empiriques.
Prdictif : Dans le troisime cas, laccent est mis sur la qualit des estipar un test de Fisher. Ceci revient considrer les hypothses suivantes :
mateurs et des prdicteurs qui doivent, par exemple, minimiser une er H0i : pas dinteraction entre variables X et T, 11 = = 1J , les droites
reur quadratique moyenne. Cest la situation rencontre en apprentissage.
partagent la mme pente 1J .
Ceci conduit rechercher des modles parcimonieux cest--dire avec un
H0ii : 11 = = 1J =0 (pas deffet de x)
nombre volontairement restreint de variables explicatives. Le meilleur
H0iii :01 = = 0J , les droites partagent la mme constante lorigine
modle ainsi obtenu peut donner des estimateurs lgrement biaiss au
0J .
profit dun compromis pour une variance plus faible. Un bon modle nest
H0iv les variables X et T nont aucun effet sur Y.
donc plus celui qui explique le mieux les donnes au sens dune dviance
On commence donc par valuer i, si le test nest pas significatif, on regarde ii
(SSE) minimale (ou dun R2 max) au prix dun nombre important de vaqui, sil nest pas non plus significatif, conduit labsence deffet de la variable
riables pouvant introduire des colinarits. Le bon modle est celui qui
X. De mme, toujours si i nest pas significatif, on sintresse iii pour juger
conduit aux prvisions les plus fiables.
de leffet du facteur T .
Certes, le thorme de Gauss-Markov indique que, parmi les estimateurs
3 Choix de modle par slection de variables sans biais, celui des moindres carrs est de variance minimum. Nanmoins,
il peut tre important de prfrer un estimateur lgrement biais si le gain
en variance est lui plus significatif. Cest tout le problme de trouver un bon
3.1 Introduction
quilibre entre biais et variance afin de minimiser un risque quadratique de
De faon un peu schmatique, on peut associer la pratique de la modlisa- prvision. Nous allons illustrer ceci par un exemple trs simple (mais pdagotion statistique trois objectifs qui peuvent ventuellement tre poursuivis en gique) en rgression polynomiale : on reprsente ci-dessous un jeu de donnes
complmentarit.
pour lesquelles Yi = f (xi ) + i , i = 1, . . . , n et xi [0, 1]. On ajuste des
Descriptif : Il vise rechercher de faon exploratoire les liaisons entre Y polynmes de degrs croissants sur ces donnes, le critre R2 augmente pour
et dautres variables, potentiellement explicatives, X j qui peuvent tre atteindre la valeur 1 pour le polynme qui passe par toutes les observations.
nombreuses afin, par exemple den slectionner un sous-ensemble. Lajustement du modle mesur par la R2 crot logiquement avec le nombre
34

07/15

Polynme de degr 5

Polynme de degr 10
2.5

Polynme de degr 2
2.5

Rgression linaire simple

Slection de modle dans le cas gaussien

2.0

2.0

1.5

1.5

1.0

1.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

F IGURE 1 A gauche : y = 0 + 1 x + , R2 = 0.03, A droite :


0 + 1 x + 2 x2 + , R2 = 0.73.

0.5
0.0

0.0

0.2

0.4

0.6

0.8

1.0

0.5

0.0

0.5

0.0

0.5

0.0

0.2

0.4

0.6

0.8

1.0

F IGURE 2 A gauche : y = 0 +1 x+. . .+5 x5 +, R2 = 0.874,


A droite : y = 0 + 1 x + . . . + 10 x10 + , R2 = 1.

y =

avec Y = (Y1 , . . . , Yn )0 , = (f (X1 ), . . . , f (Xn ))0 et  = (1 , . . . , n )0 .


b de est :
b = X
Le risque quadratique moyen de lestimateur

de paramtres.

Le R2 ne peut-tre un bon critre de slection de modles ; il ne peut


b k2 ],
R(b
) = EY0 ,Y [kY0
servir qu comparer des modles de mme dimension car sinon conduit
slectionner le modle le plus complexe, cest--dire celui correspond au plus o Y0 est un vecteur de Rn indpendant de Y et de mme loi que Y. On a
grand espace de projection, et conduit donc au sur-ajustement.
alors, en utilisant le thorme de Cochran,
Il y a principalement deux faons de biaiser un modle dans le but de
R(b
) = n 2 + p 2 + k V ()k2 .
restreindre la variance :
en rduisant le nombre de variables explicatives et donc en simplifiant le
modle (slection ou pnalisation lasso),
2
de biais, il dcroit lorsque lespace V
en contraignant les paramtres du modle, en les rtrcissant (schrinkage), k V ()k reprsente le terme
2
croit
(au
sens
de
linclusion),
p
reprsente
la variance de lestimateur :
en rgression ridge qui opre une rgularisation.
2
E[kb

E(b

)k
]
et
croit
avec
la
dimension
de
V
,
n 2 correspond au risque de
Commenons par dcrire les procdures de slection.
loracle .

3.2

Etude du risque quadratique

On se place ici sur Y = Rn , muni de la norme euclidienne. On crit le


modle sous la forme :
3.3

Critres de slection de variables

De nombreux critres de choix de modle sont prsents dans la littrature


sur la rgression linaire multiple. Citons le critre dinformation dAkake

Y = + ,
35

07/15

Slection de modle dans le cas gaussien

Ce coefficient sexprime encore par


(AIC), celui baysien de Sawa (BIC). . . Ils sont quivalents lorsque le nombre
de variables slectionner, ou niveau du modle, est fix. Le choix du critre
(n 1)MSE
est dterminant lorsquil sagit de comparer des modles de niveaux diffrents.
1
SST
Certains critres se ramnent, dans le cas gaussien, lutilisation dune expression pnalise de la fonction de vraisemblance afin de favoriser des modles ainsi dans la comparaison de deux modles partageant la mme SST, on obparcimonieux. En pratique, les plus utiliss ou ceux gnralement fournis par serve que R0 2 > R0 2j si et seulement si MSE<MSEj ; MSE et MSEj dsignant
les logiciels sont les suivants.
respectivement lerreur quadratique moyenne du modle complet et celle dun
modle j variables explicatives. Maximiser le R2 ajust revient donc miniStatistique du F de Fisher
miser lerreur quadratique moyenne.
Ce critre, justifi dans le cas explicatif car bas sur une qualit dajustement est aussi utilis titre indicatif pour comparer des squences de modles Cas des variables ordonnes
embots. La statistique partielle de Fisher est
Nous avons considr ci-dessus un modle linaire avec les p covariables
(1)
X
, . . . , X (p) , mais on peut envisager dautres estimateurs, et dterminer un
2
2
(R Rq ) n p 1
(SSR SSRq )/q
=
critre pour slectionner le "meilleur" estimateur de la collection considre.
SSE/(n p 1)
(1 R2 )
q
Si on sait priori que les variables X (1) , . . . , X (p) sont classes par ordre
dans laquelle lindice q dsigne les expressions concernant le modle rduit dimportance, on peut envisager, pour tout m de 1 p, lestimateur linaire
avec (p q) variables explicatives. On considre alors que si laccroissement fonction des m 1 premires variables : X (1) , . . . , X (m1) . En notant Vm le
(R2 Rq2 ) est suffisamment grand :
sous-espace vectoriel de Rn engendr par ces variables et le vecteur 1 de Rn ,
b m lestimateur associ :
b m = Vm (Y), on obtient
et
q
F;q,(np1) ,
R2 Rq2 >
(n p 1)
R(b
m ) = n 2 + m 2 + k Vm ()k2 .
lajout des q variables au modle est justifi.
On cherche dterminer, parmi la collection destimateurs (b
m , m = 1, . . . p)
R2 et R2 ajust
un estimateur de risque minimal. Par Pythagore,
Le coefficient de dtermination R2 = 1SSE/SST, directement li la dR(b
m ) = n 2 + m 2 + kk2 kVm ()k2 .
viance (SSE) est aussi un indice de qualit mais qui a la proprit dtre monom )
tone croissant en fonction du nombre de variables. Il ne peut donc servir qu Puisque n 2 + kk2 ne dpend pas du modle considr, minimiser R(b
m ) = m 2 kVm ()k2 .
comparer deux modles de mme niveau cest--dire avec le mme nombre de quivaut minimiser R0 (b
En notant que kVm (Y)k2 m 2 est un estimateur sans biais de kVm ()k2 ,
variables.
on obtient un estimateur sans biais du risque R0 (b
m ) :
En revanche, le R2 ajust :
2

R0 = 1

b0 (b
R
m ) = kVm (Y)k2 + 2m 2 .

n1
SSE/(n p 1)
(1 R2 ) = 1
.
np1
SST/(n 1)

Ceci conduit au critre CP de Mallows (1973)[5], qui consiste slectionner


dans lequel le rapport SSE/SST est remplac par un rapport des estimations le modle m qui minimise le critre
sans biais des quantits 2 et y2 introduit une pnalisation lie au nombre de
Crit(m) = kVm (Y)k2 + 2m 2 .
paramtres estimer.
36

07/15

10

Slection de modle dans le cas gaussien

CP de Mallows

m
b = argminm=1,...,p Crit(m),

Polynme de degr 3

bm
est alors estim par
b . On peut montrer (mais la dmonstration est loin
dtre triviale !) que le risque de lestimateur ainsi slectionn est "proche" de
celui de loracle. (cf Concentration inequalities and statistical applications, P.
Massart).
Remarque : On peut estimer la variance 2 des variables i par kY
V (Y)k2 /(n p 1), cet estimateur est sans biais si Y obit au modle
linaire Y = X + .
Un autre critre, classiquement utilis, est le critre BIC, pour lequel le facteur
2 dans la pnalit est remplac par log(n).

CP

6
k

10

0.0

0.2

0.4

0.6

0.8

1.0

F IGURE 3 Cp de Mallow en fonction du degr du polynme et modle slection de degr 3.

Cp de Mallows

Dans le cas gnral et videmment le plus courant en pratique, les variables


vrai modle complet est moins fiable quun modle rduit donc biais mais
ne sont pas pr-ordonnes par importance. Lindicateur propos par Mallows
destimation plus prcise.
(1973)[5] est une estimation de lerreur quadratique moyenne de prvision qui
La figure 3 montre le comportement du Cp dans lexemple de la rgresscrit aussi comme la somme dune variance et du carr dun biais. Lerreur
sion polynomial. Ce critre dcrot avec le biais jusqu un choix optimal de
quadratique moyenne de prvision scrit ainsi :
dimension 3 avec de r-augmenter avec la variance.
MSE(Ybi ) = Var(Ybi ) + [Biais(Ybi )]2
AIC, BIC et PRESS
puis aprs sommation et rduction :

Dans le cas du modle linaire, et si la variance des observations est suppose connue, le critre AIC (Akakes Information criterion) est quivalent au
critre Cp de Mallows.

n
n
n
X
X
1 X
bi ) = 1
bi ) + 1
MSE(
Y
Var(
Y
[Biais(Ybi )]2 .
2 i=1
2 i=1
2 i=1

Le PRESS de Allen est lintroduction historique de la validation croise


ou leave one out (loo). On dsigne par Yb(i) la prvision de Yi calcule sans
En supposant que les estimations du modle complet sont sans biais et en uti- tenir compte de la ime observation (Y , X 1 , . . . , X p ), la somme des erreurs
i
i
i
lisant des estimateurs de Var(Ybi ) et 2 , lexpression de lerreur quadratique quadratiques de prvision (PRESS) est dfinie
par
moyenne totale standardise (ou rduite) pour un modle j variables expli"
#2
catives scrit :
n
n
i2
X
b(xi )
1 Xh
1
y

f
i
(i)
yi fb (xi ) =
.
MSEj
n i=1
n i=1
1 hii
[n 2(q + 1)]
Cp = (n q 1)
MSE
et dfinit la valeur du C de Mallows pour les q variables considres. Il est et permet de comparer les capacits prdictives de deux modles.
p

alors dusage de rechercher un modle qui minimise le Cp tout en fournissant


La vignette sur Qualit de prvision et risque donne plus de dtails sur ces
une valeur infrieure et proche de (q + 1). Ceci revient considrer que le derniers critres.
37

07/15

11

3.4

3.5

Algorithmes de slection de variables

Lorsque p est grand, il nest pas raisonnable de penser explorer les 2p modles possibles afin de slectionner le meilleur au sens de lun des critres
ci-dessus. Diffrentes stratgies sont donc proposes qui doivent tre choisies
en fonction de lobjectif recherch, de la valeur de p et des moyens de calcul disponibles ! deux types dalgorithmes sont rsums ci-dessous par ordre
croissant de temps de calcul ncessaire cest--dire par nombre croissant de
modles considrs parmi les 2p et donc par capacit croissante doptimalit.
On donne pour chaque algorithme loption selection utiliser dans la procdure REG de SAS.

Slection de modle dans le cas gaussien

Slection en analyse de covariance

Un modle danalyse de covariance pose des problmes spcifiques de slection notamment par la prise en compte possible dinteractions entre variables
dans la dfinition du modle. La recherche dun modle efficace, donc parcimonieux, peut conduire ngliger des interactions ou effets principaux lorsquune faible amlioration du R2 le justifie et mme si le test correspondant
apparat comme significatif. Lutilisation du Cp est thoriquement possible
mais en gnral ce critre nest pas calcul car dutilisation dlicate. En effet, il ncessite la considration dun vrai modle de rfrence ou tout du
moins dun modle de faible biais pour obtenir une estimation raisonnable de
la variance de lerreur. En rgression multiple (toutes les variables explicatives
quantitatives), le modle complet est considr comme tant celui de faible
biais mais analyse de covariance quels niveaux de complexit des interactions
faut-il considrer pour construire le modle complet jug de faible biais ? Il st
alors plus simple et plus efficace dutiliser le critre AIC ou le PRESS ; AIC
est systmatiquement utilis dans plusieurs logiciels comme R ou Enterprise
Miner de SAS.

Pas pas
Slection (forward) chaque pas, une variable est ajoute au modle. Cest
celle dont la valeur p (prob value)associe la statistique partielle du
test de Fisher qui compare les deux modles est minimum. La procdure
sarrte lorsque toutes les variables sont introduites ou lorsque p reste plus
grande quune valeur seuil fixe par dfaut 0, 50.

Lalgorithme de recherche descendant est le plus couramment utilis avec la


limination (backward) Lalgorithme dmarre cette fois du modle complet. chaque tape, la variable associe la plus grande valeur p est contrainte suivante :
limine du modle. La procdure sarrte lorsque les variables restant
un effet principal nest supprim qu la condition quil napparaisse plus
dans le modle ont des valeurs p plus petites quun seuil fix par dfaut dans une interaction.
0, 10.
Voici, titre dexemple, une tape intermdiaire dune slection de variables
Mixte (stepwise) Cet algorithme introduit une tape dlimination de va- pas pas stepwize avec loption both de la fonction StepAIC de R. A chaque
riable aprs chaque tape de slection afin de retirer du modle dven- tape, le critre AIC est valu par suppression ou rajout de chacune des vatuels variables qui seraient devenues moins indispensables du fait de la riables. Loption minimisant le critre AIC est retenue avant de passer ltape
prsence de celles nouvellement introduites.
suivante. Le modle ne comprend pas dinteractions.
Global

Step: AIC=-60.79
lpsa ~ lcavol + lweight + age + lbph + svi + pgg45

Lalgorithme de Furnival et Wilson (1974)[2]est utilis pour comparer tous


les modles possibles en cherchant optimiser lun des critres : R2 , R2 ajust,
ou Cp de Mallows (rsquare, adjrsq, cp) choisi par lutilisateur. Par
souci dconomie, cet algorithme vite de considrer des modles de certaines
sous-branches de larborescence dont on peut savoir a priori quils ne sont
pas comptitifs. En gnral les logiciels excutant cet algorithme affichent le
(best=1) ou les meilleurs modles de chaque niveau q.

- pgg45
<none>
+ lcp
- age
38

Df Sum of Sq RSS
1 0.6590
45.526
44.867
1 0.6623
44.204
1 1.2649
46.132

AIC
-61.374
-60.788
-60.231
-60.092
07/15

12

+
-

lbph
gleason
lweight
svi
lcavol

1 1.6465
3 1.2918
1 3.5646
1 4.2503
1 25.4190

46.513
43.575
48.431
49.117
70.286

-59.293
-57.622
-55.373
-54.009
-19.248

8 0.769 0.709
9 0.776 0.708

7.507 -193.8 WCFTDT LOGSALE LOGASST NFATAST FATTOT


8.641 -191.5 WCFTCL WCFTDT LOGSALE LOGASST NFATAST
CURRAT
10 0.783 0.708 9.744 -189.1 WCFTCL WCFTDT LOGSALE LOGASST NFATAST
QUIKRAT CURRAT
11 0.786 0.702 11.277 -186.4 WCFTCL WCFTDT LOGSALE LOGASST NFATAST
PAYOUT QUIKRAT CURRAT
12 0.788 0.695 13.000 -183.5 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST
INVTAST PAYOUT QUIKRAT CURRAT

Step: AIC=-61.37
lpsa ~ lcavol + lweight + age + lbph + svi

INVTAST QUIKRAT CURRAT


FATTOT INVTAST QUIKRAT
FATTOT INVTAST PAYOUT
CAPINT FATTOT INVTAST
NFATAST CAPINT FATTOT

Dans cet exemple, Cp et BIC se comportent de la mme faon. Avec peu de


variables, le modle est trop biais. Ils atteignent un minimum pour un modle
4 variables explicatives puis croissent de nouveau selon la premire bissectrice. La maximisation du R2 ajust conduirait une solution beaucoup moins
parcimonieuse. On note par ailleurs que lalgorithme remplace WCFTCL par
WCFTDT. Un algorithme par slection ne peut pas aboutir la solution optimale retenue.

En effet, supprimer un effet principal alors que la variable est prsente


dans une interaction ne change en rien le modle car lespace engendr par
lensemble des indicatrices slectionnes reste le mme ; la matrice X est
construite sous contrainte de rang et retirer une colonne (effet principal) fait
automatiquement entrer une indicatrice dinteraction supplmentaire. Le modle est inchang mais linterprtation plus complique car il ne sagit plus de
dcomposer un effet principal et ses interactions.

3.6

Slection de modle dans le cas gaussien

Rgression rgularise ou pnalise

Lautre stratgie qui cherche conserver lensemble ou tout du moins la


plupart des variables explicatives pose un problme de multicolinarit. Il est
rsolu par une procdure de rgularisation.

Exemple de slection

Parmi les trois types dalgorithmes et les diffrents critres de choix, une
des faons les plus efficaces consiste choisir les options du programme ci- 4.1 Rgression ridge
dessous. Tous les modles (parmi les plus intressants selon lalgorithme de
Furnival et Wilson) sont considrs. Seul le meilleur pour chaque niveau, cest- Modle et estimation
-dire pour chaque valeur p du nombre de variables explicatives sont donns.
Ayant diagnostiqu un problme mal conditionn mais dsirant conserver
Il est alors facile de choisir celui minimisant lun des critres globaux (Cp ou
BIC).
toutes les variables, il est possible damliorer les proprits numriques et la
variance des estimations en considrant un estimateur lgrement biais des
options linesize=110 pagesize=30 nodate nonumber;
paramtres.
title;
proc reg data=sasuser.ukcomp2 ;
model RETCAP = WCFTCL
WCFTDT
GEARRAT
LOGSALE
NFATAST CAPINT
FATTOT
INVTAST
PAYOUT
/ selection=rsquare cp rsquare bic best=1;
run;

In
1
2
3
4
5
6
7

LOGASST
QUIKRAT

On se place dans le modle linaire


CURRAT

e + ,
e
Y=X

N = 40
Regression Models for Dependent Variable: RETCAP
R-sq. Adjust. C(p)
BIC
Variables in Model
R-sq
0.105 0.081 78.393 -163.2 WCFTCL
0.340 0.305 50.323 -173.7 WCFTDT QUIKRAT
0.615 0.583 17.181 -191.1 WCFTCL NFATAST CURRAT
0.720 0.688 5.714 -199.2 WCFTDT LOGSALE NFATAST CURRAT
0.731 0.692 6.304 -198.0 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT
0.748 0.702 6.187 -197.2 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT
0.760 0.707 6.691 -195.7 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT

1 X1
1 X1
2
e

X=
.
.
1 Xn1
39

X12
X22
.
Xn2

. X1p
. X2p
,
.
.
. Xnp
07/15

13

0
1

e

=
. ,
.
p

1
2

=
. .
.
p

On obtient :
0
1 0
b

Ridge = (X X + Ip ) X Y.

La solution est donc explicite et linaire en Y.


Remarques :
1. X0 X est une matrice symtrique positive (pour tout vecteur u de Rp ,
u0 (X0 X)u = kXuk2 0. Il en rsulte que pour tout > 0, X0 X + Ip
est ncessaire inversible.

e prive de sa premire coOn note X 0 = (1, 1, . . . , 1)0 , et X la matrice X


lonne. Lestimateur ridge est dfini par un critre des moindres carrs, avec
une pnalit de type L2 :

2. La constante 0 nintervient pas dans la pnalit, sinon, le choix de lorigine pour Y aurait une influence sur lestimation de lensemble des paramtres. On obtient b0 = Y, ajouter une constante Y ne modifie pas les
bj pour j 1.

e dans le modle
D FINITION 1. Lestimateur ridge de
e + ,
e
Y=X

3. Lestimateur ridge nest pas invariant par renormalisation des vecteurs


X (j) , il est prfrable de normaliser les vecteurs avant de minimiser le
critre.

est dfini par :

p
p
n
X
X
X
(j)
b
(Yi

Xi j )2 +
j2 ,
Ridge = argminRp+1
i=1

j=0

Slection de modle dans le cas gaussien

4. On montre que la rgression ridge revient encore estimer le modle


par les moindres carrs sous la contrainte que la norme du vecteur des
paramtres ne soit pas trop grande :
n
o
2
2
b

=
arg
min
kY

Xk
;
kk
<
c
.
Ridge

j=1

o est un paramtre positif, choisir.


A noter que le paramtre 0 nest pas pnalis.

P ROPOSITION 2. Lestimateur ridge sexprime aussi sous la forme :



c1

c
2


c0
.

= argminRp kY(c) X(c) k2 + kk2 .

Ridge = Y ,

.
cp

La rgression Ridge conserve toutes les variables mais, contraignant la


norme des paramtres j , elle les empche de prendre de trop grandes
valeurs et limite ainsi la variance.
Optimisation de la pnalisation

La figure 4 montre quelques rsultats obtenus par la mthode ridge en fonction de la valeur de la pnalit = l sur lexemple de la rgression polynomiale. Plus la pnalit augmente et plus la solution obtenue est rgulire ou
o X(c) dsigne la matrice X recentre (par colonnes) et Y(c) dsigne le encore, plus le biais augmente et la variance diminue. Il y a sur-ajustement
vecteur Y recentr.
avec une pnalit nulle : le modle passe par tous les points mais oscille dangeureusement ; il y a sous-ajustement avec une pnalit trop grande.
On suppose dsormais que X et Y sont centrs. On trouve lestimateur ridge
Comme dans tout problme de rgularisation, le choix de la valeur du paraen rsolvant les quations normales qui sexpriment sous la forme :
mtre est crucial est dterminera le choix de modle. La validation croise
est gnralement utilise pour optimiser le choix car la lecture du graphique
X0 Y = (X0 X + Ip ).
Ridge

40

07/15

14

Rgression Ridge, l=10^7


20

Rgression Ridge, l=0

Slection de modle dans le cas gaussien

10

2.5

1.5

1.0

1.0

10

1.5

2.0

2.0

t(x$coef)

2.5

0.5

0.5

0.0

0.0

20

0e+00

1e04

2e04

3e04

4e04

5e04

0.5

0.5

x$lambda

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

Rgression Ridge, l=10^4

Rgression Ridge, l=0.1

2.5

2.5

2.0

2.0

1.5

1.5

1.0

Le principe de la validation croise qui permet destimer sans biais une erreur de prvision est dtaill par ailleurs.

0.0
0.5

0.5

0.0

0.5

0.5

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6
x

Rgression Ridge, l=10^4

2.5

2.5

La dcomposition en valeur singulire (SVD) de la matrice X donne une


nouvel clairage sur la rgression ridge, et permet de linterprter comme une
mthode de seuillage. La dcomposition SVD de X scrit sous la forme :

2.0

2.0

1.0

Interprtation par la SVD

1.5

1.5

0.8

Rgression Ridge, l=10

X = UDV0 ,

1.0

0.5

o X est de taille n p, U de taille n n, D est une matrice "diagonale" de


taille n p dont tous les lments sont 0 et ordonns par ordre dcroissant,
et V est de taille p p. De plus, les matrices U et V sont orthogonales :
UU0 = U0 U = In , VV0 = V0 V = Ip .
On a alors
0
1 0 0
b
X
Ridge = UD(D D + Ip ) D U Y.

0.0

0.0

0.2

0.4

0.6
x

0.8

1.0

0.5

0.0

0.5

0.5

(cf. figure 5) montrant lvolution des paramtres en fonction du coefficient


ou chemins de rgularisation ridge nest pas suffisante pour dterminer une
valeur optimale.

F IGURE 5 Chemin de rgularisation en rgression ridge en fonction du paramtre de la pnalisation. A droite, rgression polynomiale et gauche, retour
sur capital).

1.0

1.0

1.0

0.8

0.0

0.2

0.4

0.6

0.8

1.0

F IGURE 4 Pnalisation ridge du modle polynomial

On suppose n p. On note u(1) , . . . , u(n) les colonnes de la matrice U. En


notant d1 . . . dp 0 les lments diagonaux de la matrice D, UD est la
41

07/15

15

matrice de taille n p dont la j-me colonne est dj u(j) . On a alors


!
p
2
X
d
j
b
(uj )0 Y.
X
uj
Ridge =
2+
d
j
j=1

Slection de modle dans le cas gaussien

On voit donc que la rgression ridge seuille peu les premires composantes
principales (pour lesquelles dj est grand, et davantage les dernires composantes principales).
On associe la procdure ridge la quantit df () appele nombre de degrs de
libert effectifs dans la rgression ridge et dfinie par :

Comparons cet estimateur lestimateur des moindres carrs (qui correspond


= 0) :
p
X
b=
X
uj (uj )0 Y.

df () =

j=1

p
X

d2j
.
+

d2
j=1 j

Si = 0, df () = p (pas de seuillage), si , df () 0, la limite,


tous les coefficients sont nuls.

j 0

(u ) Y correspond la j-me composante de Y dans la base forme de


u1 , . . . , un .
Dans le cas de
 la rgression ridge, on multiplie cette composante par le facteur
d2j / d2j + ]0, 1[, on dit que cette composante est seuille.
Remarques :
1) Plus est grand, plus les coefficients sont seuills.
2) x 7 x/(x + ) est croissante de x pour x > 0. Les plus grands coefficients
sont peu seuills : si d2j >> , d2j / d2j + est proche de 1. Le seuil dcroit
lorsque j augmente puisque dj dcroit.
On peut donner une interprtation en termes dAnalyse en composantes principales. X tant centre, X0 X/n est la matrice de variance-covariance empirique des vecteurs qui composent la matrice X.

4.2

Rgression LASSO

La rgression ridge permet donc de contourner les problmes de colinarit


mme en prsence dun nombre important de variables explicatives ou prdicteurs (p > n). La principale faiblesse de cette mthode est lie aux difficults
dinterprtation car, sans slection, toutes les variables sont concernes dans
le modle. Dautres approches par rgularisation permettent galement une slection, cest le cas de la rgression LASSO.
Modle et estimation

X0 X = VD0 DV0 ,

La mthode Lasso (Tibshirani, 1996)[8] correspond la minimisation dun


critre des moindres carrs avec une pnalit
Pde type l1 (et non plus l2 comme
o D0 D est la matrice diagonale des d2i . On note v1 , . . . , vp les vecteurs co- dans la rgression ridge). On note kk1 = pj=1 |j |.
lonnes de Rp de la matrice V.
Soit v un vecteur de Rp de norme 1.
D FINITION 3. Lestimateur Lasso de dans le modle
V ar(Xv) = (Xv)0 (Xv) = v 0 (X0 X)v,

Y = X + ,

ceci est maximal pour v = v1 et vaut d21 .


est dfini par :
z 1 = Xv1 est la premire composante principale de la matrice X.

p
p
n
Les vecteurs propres orthogonaux v 1 , . . . , v p sont les directions principales
X
X
X
(j)
b
(Yi

Xi j )2 +
|j | ,
(ou directions de Karhunen Loeve) de X. Les variables z j = Xv j sont les
Lasso = argminRp
i=1
j=0
j=1
composantes principales. On remarque que
z j = Xv j = UDV0 v j = dj u(j) .

o est un paramtre positif, choisir.


42

07/15

16

Slection de modle dans le cas gaussien

logiciel R introduit une contrainte sous forme dune borne relative pour
PLe
p
j=1 |j | : la contrainte sexprime sous la forme

On peut montrer que ceci quivaut au problme de minimisation suivant :


2
b

Lasso = argmin,kk1 t (kY Xk ),

p
X

pour un t convenablement choisi.

|j |

p
X

(0)

|j |,

j=1
j=1
Comme dans le cas de la rgression Ridge, le paramtre est un paramtre
de rgularisation :
o (0) est lestimateur des moindres carrs et [0, 1].
Si = 0, on retrouve lestimateur des moindres carrs.

Si tend vers linfini, on annule tous les j , j = 1, . . . , p.


Pour = 1 on retrouve lestimateur des moindres carrs (pas de contrainte)
La solution obtenue est dite parcimonieuse (sparse en anglais), car elle com- et pour = 0, tous les j , j 1, sont nuls (contrainte maximale).
porte beaucoup de coefficients nuls. Si la matrice X est orthogonale (X0 X =
Utilisation de la rgression Lasso
Id), on obtient une solution explicite.

La pnalisation est optimise comme en rgression ridge par validation croiP ROPOSITION 4. Si X0 X = Ip , la solution de la minimisation en du se.
critre Lasso
Grce ses solutions parcimonieuses, cette mthode est surtout utilise pour
kY Xk2 + 2kk1
slectionner des variables dans des modles de grande dimension ; on peut
lutiliser si p > n cest--dire sil y a plus de variables que dobservations. Bien
est la suivante : pour tout j = 1, . . . , p,
entendu, dans ce cas, les colonnes de la matrice X ne sont pas linairement
indpendantes. Il ny a donc pas de solution explicite, on utilise des procdures
j = signe(bj )(|bj | )1|bj | ,
doptimisation pour trouver la solution. Il faut nanmoins utiliser la mthode
avec prcaution lorsque les variables explicatives sont corrles. Pour que la
0
b
b
o est lestimateur des moindres carrs : = X Y.
mthode fonctionne, il faut nanmoins que le nombre de variables influentes
(correspondant des j diffrents de 0) ne dpasse pas n et que les variables
Lestimateur ainsi obtenu correspond un seuillage doux (soft thresholding) non influentes ne soient pas trop corrles celles qui le sont.
de lestimateur des moindres carrs. Les coefficients bj sont remplacs par
Attention aux grandes ou ultra grandes dimensions : Verzalen (2012)[9] a
(bj ) o
montr (risque minimax) que si
: x 7 signe(x)(|x| )+ .
k
p
1
log( ) >
Autre pnalisation
n
k
2
La mthode LASSO quivaut minimiser le critre
o k est le nombre de coefficients non nuls, aucune mthode destimation et
n
de slection de variables nest pertinente. Exemples en analyse de donnes
X
(1)
(2)
(p)
Crit() =
(Yi 0 1 Xi 2 Xi . . . p Xi )2
transcriptomiques :
k
i=1
p = 5000 gnes et n = 40 microarrays, k = 4, n
log( kp ) = 0.71,
k
Pp
p = 600 gnes et n = 40 microarrays, k = 4, n log( kp ) = 0.50.
sous la contrainte j=1 |j | t, pour un t > 0.
43

07/15

17

4.3

Slection de modle dans le cas gaussien

Elastic Net

ont t retenus pour le nombre important de pics de pollution qui ont t dtects dans les priodes considres (ts 2002, 2003, 2005). Un pic de polLa mthode Elastic Net permet de combiner la rgression ridge et la rgres- lution est dfini ici par une concentration dpassant le seuil de 150g/m3 .
sion Lasso, en introduisant les deux types de pnalits simultanment.
Mto-France dispose dj dune prvision (MOCAGE), partir dum modle
Le critre minimiser est :
physique bas sur les quations du comportement dynamique de latmosphre
(Navier et Stockes). Cette prvision fait partie du dispositif dalerte des poun
X
(1)
(2)
(p) 2
voirs publics et prvoit donc une concentration de pollution 17h locale pour
(Yi 0 1 Xi 2 Xi . . . p Xi )
le lendemain. Lobjet du travail est den faire une valuation statistique puis
i=1

de lamliorer en tenant compte dautres variables ou plutt dautres prvip


p
X
X
2
sions faites par Mto-France. Il sagit donc dintgrer ces informations dans

+
|j | + (1 )
j
un modle statistique global.
j=1
j=1
Les variables

Pour = 1, on retrouve la mthode LASSO.


Pour = 0, on retrouve la rgression Ridge.

Certaines variables de concentration ont t transformes afin de rendre symtrique (plus gaussienne) leur distribution.

Il ya dans ce dernier cas deux paramtres optimiser par validation croise.

4.4

O3-o Concentration dozone effectivement observe ou variable prdire,

Slection par rduction de dimension

03-pr prvision "mocage" qui sert de variable explicative ;

Le principe de ces approches consiste calculer la rgression sur un ensemble de variables orthogonales deux deux. celles-ci peuvent tre obtenues
la suite dune analyse en composantes principales ou dcomposition en valeur singulire de la matrice X : Cest la rgression sur les composantes principales associes aux plus grandes valeurs propres.

Tempe Temprature prvue pour le lendemain,


vmodule Force du vent prvue pour le lendemain,
lno Logarithme de la concentration observe en monoxyde dazote,
lno2 Logarithme de la concentration observe en dioxyde dazote,

Lautre approche ou rgression PLS (partial least square consiste recher- rmh20 Racine de la concentration en vapeur deau,
cher itrativement une composante linaire des variables de plus forte cova- Jour Variable deux modalits pour distinguer les jours "ouvrables" (0) des
riance avec la variable expliquer sous une contrainte dorthogonalit avec les
jours "fris-WE" (1).
composantes prcdentes.
Station Une variable qualitative indique la station concerne : Aix-enCe deux mthodes sont dveloppes dans une vignette spcifique.
Provence, Rambouillet, Munchhausen, Cadarache, et Plan de Cuques.

Modle physique

Exemples

Les graphiques de la figure 6 reprsente la premire prvision de la concentration dozone observe, ainsi que ses rsidus, cest--dire celle obtenue par
le modle physique MOCAGE. Ces graphes tmoignent de la mauvaise quaLes donnes
lit de ce modle : les rsidus ne sont pas rpartis de faon symtrique et les
Les donnes proviennent des services de Mto-France et sintresse la deux nuages prsentent une lgre forme de "banane" signifiant que des comprvision de la concentration en Ozone dans 5 stations de mesure ; ces sites posantes non linaires du modle nont pas t prises en compte. Dautre part,

5.1

Prvision de la concentration dozone

44

07/15

18

50

100

200

Valeurs predites

300

50.69567
1.85389
3.37517
3.07893
3.74155
3.05338
0.23170

2.680 0.00747 **
-0.186 0.85215
2.687 0.00733 **
4.650 3.76e-06 ***
5.759 1.12e-08 ***
2.247 0.02484 *
20.074 < 2e-16 ***

Residual standard error: 27.29 on 1028 degrees of freedom


Multiple R-Squared: 0.5616,
Adjusted R-squared: 0.5569
F-statistic: 119.7 on 11 and 1028 DF, p-value: < 2.2e-16

100 50
0

135.88280
-0.34561
9.06874
14.31603
21.54765
6.86130
4.65120

Rsidus

50

250
150
50
0

Valeurs observees

100

s_rmh2o
jour1
stationAls
stationCad
stationPla
stationRam
TEMPE

Slection de modle dans le cas gaussien

50

100

200

300

A lexception de la variable indiquant la nature du jour, lensemble des coefficients sont jugs significativement diffrent de zro mais la qualit de lajustement est faible (R2 ).

Valeurs predites

F IGURE 6 Ozone : prvision et rsidus du modle MOCAGE de Mto- Modle avec interaction
France pour 5 stations.
La qualit dajustement du modle prcdent ntant pas trs bonne, un autre
modle est considr en prenant en compte les interactions dordre 2 entre les
la forme dentonnoir des rsidus montrent une forte htroscdasticit. Cela variables. Compte tenu de la complexit du modle qui un dcoule, un choix
signifie que la variance des rsidus et donc des prvisions crot avec la valeur. automatique est lanc par limination successive des termes non significatifs
En dautre terme, la qualit de la prvision se dgrade pour les concentrations (algorithme backward). Le critre optimis est celui (AIC) dAkake. Plusieurs
leves justement dans la zone "sensible".
interactions ont t limines au cours de la procdure mais beaucoup subsistent dans le modle. Attention, les effets principaux lno2, vmodule ne
Modle sans interaction
peuvent tre retirs car ces variables apparaissent dans une interaction. En reUn premier modle est estim avec R :
vanche on peut sinterroger sur lopportunit de conserver celle entre la force
du vent et la concentration de dioxyde dazote.
fit.lm=lm(O3-o~O3-pr+vmodule+lno2+lno+s-rmh2o+
jour+station+TEMPE,data=donne)

NULL
O3_pr
station
vmodule
lno2
s_rmh2o
TEMPE
O3_pr:station
O3_pr:vmodule
O3_pr:TEMPE
station:vmodule
station:lno2
station:s_rmh2o
station:TEMPE
vmodule:lno2
vmodule:s_rmh2o
lno2:TEMPE
s_rmh2o:TEMPE

Il introduit lensemble des variables explicatives mais sans interaction. Les


rsultats numriques sont fournis ci-dessous.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.99738
7.87028 -0.635 0.52559
O3_pr
0.62039
0.05255 11.805 < 2e-16 ***
vmodule
-1.73179
0.35411 -4.891 1.17e-06 ***
lno2
-48.17248
6.19632 -7.774 1.83e-14 ***
lno
50.95171
5.98541
8.513 < 2e-16 ***

45

Df Deviance Resid. Df Resid. Dev


F
Pr(>F)
1039
1745605
1
611680
1038
1133925 969.9171 < 2.2e-16 ***
4
39250
1034
1094674 15.5594 2.339e-12 ***
1
1151
1033
1093523
1.8252 0.1769957
1
945
1032
1092578
1.4992 0.2210886
1
24248
1031
1068330 38.4485 8.200e-10 ***
1
248891
1030
819439 394.6568 < 2.2e-16 ***
4
16911
1026
802528
6.7038 2.520e-05 ***
1
8554
1025
793974 13.5642 0.0002428 ***
1
41129
1024
752845 65.2160 1.912e-15 ***
4
7693
1020
745152
3.0497 0.0163595 *
4
12780
1016
732372
5.0660 0.0004811 ***
4
19865
1012
712508
7.8746 2.997e-06 ***
4
27612
1008
684896 10.9458 1.086e-08 ***
1
1615
1007
683280
2.5616 0.1098033
1
2407
1006
680873
3.8163 0.0510351 .
1
4717
1005
676156
7.4794 0.0063507 **
1
42982
1004
633175 68.1543 4.725e-16 ***

07/15

19

Slection de modle dans le cas gaussien

50

100

Les donnes originales sont dues Osbone et al. (1984) [6] et ont t souvent utilises pour la comparaison de mthodes (Stone et al. 1990 [7], Brown
et al. 2001 [1], Krmer et al. 2008 [4]). Elles sont accessibles dans R au sein de
la librairie ppls. Les mesures ont t faites sur deux chantillons, lun de taille
40 prvu pour lapprentissage, lautre de taille 32 pour les tests. Pour chacun
de ces 72 biscuits, les compositions en lipides, sucre, farine, eau, sont mesures par une approche classique tandis que le spectre est observ sur toutes les
longueurs dondes entre 1100 et 2498 nanomtres, rgulirement espacs de 2
nanomtres. Nous avons donc 700 valeurs observes, ou variables potentiellement explicatives, par chantillon de pte biscuit.

100 50

Rsidus

0
100 50

Rsidus

50

100

Les donnes

50

100

200

300

Valeurs predites

50

100

200

300

Valeurs predites

Rsultats par rgression pnalise


Typiquement, cette tude se droule dans un contexte de trs grande dimension avec p >> n. Ltude dtaille de ces donnes fait lobjet dun scnario
avec le logiciel R.

F IGURE 7 Ozone : Rsidus des modles linaire et quadratique.

Ce sont surtout les graphes de la figure 7 qui renseignent sur ladquation des
Voici quelques rsultats partiels concernant les mthodes de rgression par
modles. Le modle quadratique fournit une forme plus "linaire" des rsidus rgression ridge et rgression LASSO. La comparaison globale des rsultats
et un meilleur ajustement avec un R2 de 0,64 mais lhtroscdasticit reste des diffrentes approches de modlisation est reporte en conclusion.
prsente, dautres approches savrent ncessaires afin de rduire la variance
lie la prvision des concentrations leves.

Rfrences

5.2

Donnes de spectromtrie NIR

[1] P.J. Brown, T. Fearn et M. Vannucci, Bayesian Wavelet Regression on


Curves with Applications to a Spectroscopic Calibration Problem, Journal of the American Statistical Society 96 (2001), 398408.
[2] G. M. Furnival et R. W. Wilson, Regression by leaps and bounds, Technometrics 16 (1974), 499511.
[3] J.D. Jobson, Applied Multivariate Data Analysis, t. I : Regression and experimental design, Springer-Verlag, 1991.
[4] Nicole Krmer, Anne Laure Boulesteix et Gerhard Tutz, Penalized Partial
Least Squares with applications to B-spline transformations and functional data, Chemometrics and Intelligent Laboratory Systems 94 (2008),
6069.
[5] C.L. Mallows, Some Comments on Cp, Technometrics 15 (1973), 661
675.

Objectif
Ce type de problme se rencontre en contrle de qualit sur une chane
de fabrication agroalimentaire, ici des biscuits (cookies). Il est ncessaire de
contrler le mlange des ingrdients avant cuisson afin de sassurer que les
proportions en lipides, sucre, farine, eau, sont bien respectes. Il sagit de savoir sil est possible de dpister au plus tt une drive afin dintervenir sur
les quipements concerns. Les mesures et analyses, faites dans un laboratoire
classique de chimie, sont relativement longues et coteuses ; elles ne peuvent
tre entreprises pour un suivi rgulier ou mme en continue de la production.
Dans ce contexte, un spectromtre en proche infrarouge (NIR) mesure labsorbance cest--dire les spectres dans les longueurs dondes afin de construire un
modle de prvision de la concentration en sucre.
46

07/15

20

Slection de modle dans le cas gaussien

[6] B. G. Osborne, T. Fearn, A. R. Miller et S. Douglas, Application of Near


Infrared Reflectance spectroscopy to the compositional analysis of biscuits
and biscuit doughs, J. Sci. Food Agric. 35 (1984), 99105.
[7] M. Stone et R. J. Brooks, Continuum regression : cross-validated sequentially constructed prediction embracing ordinary least squares, partial
least squares and principal components regression, Journal of The Royal
Statistical Society B 52 (1990), 237269.
[8] R. Tibshirani, Regression shrinkage and selection via the lasso, J. Royal.
Statist. Soc B 58 (1996), 267288.
[9] Nicolas Verzelen, Minimax risks for sparse regressions : Ultra-highdimensional phenomenons, Electron. J. Statistics 6 (2012), 3890, http:
//arxiv.org/pdf/1008.0526.pdf.

F IGURE 8 Cookies : Rgression ridge ; chemin de rgularisation des paramtres et optimisation de la pnalisation.

F IGURE 9 Cookies : Rgression lasso ; chemin de rgularisation des paramtres et optimisation de la pnalisation.

47

07/15

X 1 , . . . , X p par un sous-ensemble de variables Z 1 , . . . , Z r deux deux orthogonales et combinaisons linaires des variables X 1 , . . . , X p . Avec r = p il ny
a pas de rduction de dimension et le mme ajustement quen rgression classique est obtenu : mme espace de projection engendr. Les variables Z 1 , . . . ,
Z p sont simplement les composantes principales associes des variables X 1 ,
. . . , X p obtenues par lanalyse en composantes principales ou encore la dcomposition en valeurs singulires de la matrice X. Pour viter les problmes
dunit et linfluence dune htrognit des variances, les variables sont centres et rduites. Cest donc lACP rduite qui est calcule.
Pp
j
La premire composante Z 1 =
maximale la
j=1 j X est de variance
P
premire valeur propre 1 de l amatrice des corrlations avec j2 = 1. Tandis que Z m est combinaison linaire de variance maximale j et orthogonale
Z 1 , . . . , Z m1 .

Composantes principales et rgressions


PLS parcimonieuses
Rsum
Lintroduction de pnalisations en norme L1 induit une slection de
variables optimale en rgression. Mme si, numriquement, ce
nest pas indispensable pour les mthodes de rgression ou projection sur composantes orthogonales avec rduction de dimension, le
mme type de pnalisation est introduit afin de simplifier la construction des composantes et donc leur interprtation lorsque le nombre
de variables est important. Cette dmarche conduit la dfinition de
versions parcimonieuses de lAnalyse en Composantes Principales
et de la rgression PLS pour diffrents objectifs : exploration, comparaison ou intgration de deux jeux de donnes en version rgression ou canonique, analyse discriminante PLS.

La PCR considre un prdicteur de la forme :


Y P CR =

r
X

m Z m

m=1

Retour au plan du cours

Composantes principales et rgressions PLS parcimonieuses

avec

Introduction

hZ m , Y i
m =
kZ m k2

obtenu par une procdure classique de rgression.

1.1

Objectif

Le choix r = p redonne lestimateur des moindres carrs car le mme espace


est engendr tandis que r < p limine les composantes de variances nulles ou
trs faibles et donc rsout par l les problmes de colinarit mme dans les
cas extrmes o (p > n). Le choix de r est optimis de faon classique par
validation croise.

Lintrt principal des mthodes de cette vignette rside dans leur capacit
prendre en compte des donnes de grande dimension et mme de trs grande
dimension lorsque le nombre de variables p est largement plus grand que le
nombre dindividus n : p >> n. La slection de variables devient inefficace
et mme ingrable par les algorithmes usuels. La construction dun modle
de rgression requiert alors une pnalisation (ridge, lasso, elastic net) ou une
rduction de dimension : rgression sur composantes principales ou rgression
PLS.

Bien videmment, linterprtation des composantes est rendu difficile si p


est grand. La PCR est rapprocher de la rgression ridge qui seuille les coefficients des composantes principales tandis que la PCR annule ceux dordre
suprieur r.

Le principal Problme pose par la PCR est que les premires composantes,
associes aux plus grandes valeurs propres, ne sont pas ncessairement corrLa rgression sur composantes principales ou PCR est simple par son prin- les avec Y et ne sont donc pas ncessairement les meilleures candidates pour
cipe et sa mise en uvre. Lobjectif est de rsumer lensemble des variables rsumer ou modliser Y .

1.2

Rgression sur composantes principales

48

07/15

Composantes principales et rgressions PLS parcimonieuses

Cette remarque justifie les dveloppements de la rgression PLS ou partial grand nombre, les composantes obtenues sont difficilement exploitables. Cest
pourquoi il a t propos (L Cao et al. 2008[5], 2009[4], 2011[3]) de coupler
least square.
les deux approches : pnalisation L1 de type Lasso pour une slection des va1.3 Rgression PLS
riables utilises dans la construction des composantes orthogonales. Cette dLa rgression PLS (partial least square) est une mthode ancienne marche passe par lutilisation dun algorithme parcimonieux (Shen et Huang,
(Wold, 1966)[10] largement utilise, notamment en chimiomtrie dans lagro- 2008)[7] de SVD (dcomposition en valeur singulire). Celui-ci permet, la
alimentaire, lors de lanalyse de donnes spectrales (Near Infra-Red ou HPLC) fois, de dfinir des versions parcimonieuses de lACP et aussi de la PLS en
discrtises et donc toujours de grande dimension. La rgression PLS savre remarquant que lalgorithme de la PLS peut tre dfini comme une succession
concrtement une mthode efficace qui justifie son emploi trs rpandu mais de premires tapes de SVD.
Lobjectif principal est donc la construction de versions parcimonieuses (en
prsente le dfaut de ne pas se prter une analyse statistique traditionnelle
qui exhiberait les lois de ses estimateurs. Elle est ainsi reste un marge des anglais sparse) des diffrentes mthodes de rgression PLS. Aux rsultats
numriques, ventuellement de prvision, sajoutent des reprsentations graapproches traditionnelles de la Statistique mathmatique.
Diffrentes version de rgression PLS sont proposes en fonction de lob- phiques en petite dimension trs utiles pour aider linterprtation.
jectif poursuivi ; voir Tenenhaus (1998)[8] pour une prsentation dtaille :

PLS1 Une variable cible Y quantitative est expliquer, modliser, prvoir par
p variables explicatives quantitatives X j .

Rgression PLS

Quelques rappels pour introduire cette mthode largement employe pour


PLS2 Version canonique. Mettre en relation un ensemble de q variables quan- traiter les situations prsentant une forte multicolinarit et mme lorsque le
nombre dobservations est infrieur au nombre de variables explicatives.
titatives Y k et un ensemble de p variables quantitatives X j .
PLS2 Version rgression. Chercher expliquer, modliser un ensemble de q 2.1 Rgression PLS1
variables Y k par un ensemble de p variables explicatives quantitatives
Une variable cible Y quantitative est expliquer, modliser, prvoir par p
Xj.
variables
explicatives quantitatives X j . Comme pour la rgression sur comPLS-DA Version discriminante. Cas particulier du cas prcdent. La variable
Y qualitative q classes est remplace par q variables indicatrices (dummy posantes principales, le principe est de rechercher un modle de rgression
linaire sur un ensemble de composantes orthogonales construites partir de
variables) de ces classes.
combinaisons linaires des p variables explicatives centres X j . Dans le cas
Une application utile de la PLS2 en version canonique sopre, par exemple de la PLS, la construction des composantes est optimise pour que celles-ci
en Biologie haut dbit, dans la comparaison de deux plates-formes ou deux soient les plus lies la variable Y prdire au sens de la covariance empitechnologies de mesures sur le mme chantillon : Affymetrix vs. Agilent ou rique, alors que les composantes principales ne visent qu extraire une part de
encore entre les rsultats obtenus par squenage (RNA Seq) et biopuces. Tou- variance maximale sans tenir compte dune variable cible.
jours en Biologie, la PLS2 en version rgression permet dintgrer des jeux de
Soit X(n p) la matrice des variables explicatives centres avec n pouvant
donnes observes des niveaux diffrents sur le mme chantillon : expliquer
tre infrieur p. On cherche une matrice U de coefficients ou pondrations
par exemple un ensemble de mtabolites ou de phnotypes par des transcrits.
(loading vectors) dfinissant les r composantes h (ou variables latentes) par
Dans un objectif seulement prvisionnel, lapproche PLS savre plutt effi- combinaisons linaires des variables Xj :
cace mais, si lobjectif est aussi la recherche dune interprtation, cest--dire
ncessairement la recherche des variables les plus pertinentes parmi un trs
= XU.
49

07/15

Composantes principales et rgressions PLS parcimonieuses

La matrice U est solution du problme suivant :


Pour

h = 1, . . . , r,

uh

lpsa

= arg max Cov(Y, h )


u

1.1

= arg max u0 X0 YY0 Xu


u

1
0,

pour ` = 1 . . . , h 1.

1.0

Avec
=
et 0h h = u0 X0 YY Xu =

RMSEP

u0h uh
0

0.8

0.9

La matrice U est obtenue par la dmarche itrative de lalgorithme 1 ; il


suffit ensuite de calculer la rgression de Y sur les r variables h centres,
appeles variables latentes ainsi construites. Le choix du nombre de composantes r est optimis par validation croise.
A LGORITHME 1 : Rgression PLS1
X matrice des variables explicatives centres,
Calcul de la matrice U des coefficients.
for h = 1 r do
X0 Y
uh = X
,
k 0Y k
h = Xuh
Dflation de X : X = X h h0 X
end for

10

number of components

F IGURE 1 Donnes cancer : optimisation du nombre de composantes en


PLS1
lpsa

lpsa, 6 comps, validation

0.5

Exemple de PLS1 sur les donnes de cancer de la prostate

0.4

La figure 1 donne lestimation par validation croise (10-fold) de lerreur


de prvision en fonction de la dimension tandis que la figure 2 (gauche) est
une aide linterprtation. Les loadings sont les coefficients ou importance
des variables sur la premire composante PLS. Le graphe de droite de la figure
2 indique simplement la plus ou moins bonne qualit de lajustement avec un
choix de 6 composantes PLS.

0.3

predicted

0.2

lcav

lwei

age

lbph

svi1

lcp

variable

gl7

gl8

gl9

pg45

0.0

Rgression PLS2

2
0.1

regression coefficient

0.1

2.2

measured
6 composantes PLS

Dfinition
Lalgorithme prcdent de PLS1 se gnralise une variable expliquer Y F IGURE 2 Donnes cancer : Coefficient (loadings) des variables sur la premultidimensionnelle (PLS2) : Mettre en relation ou chercher expliquer, mo- mire composante et qualit de lajustement avec 6 composantes.
50

07/15

dliser un ensemble de q variables Y k par un ensemble de p variables explicatives X j . Le critre optimiser devient une somme des carrs des covariances
entre une composante et chacune des variables rponses. Plusieurs variantes
de la rgression PLS multidimensionnelle ont t proposes ; le mme critre
est optimis mais sous des contraintes diffrentes. La version canonique (par
rfrence lanalyse canonique de deux ensembles de variables), o les deux
ensembles de donnes jouent des rles symtriques, diffre de la version rgression (un paquet de variable expliqu par un autre) par ltape dite de dflation de lalgorithme gnral de PLS.

12

.
.
.

u1
u2
uH

c1
c2
cH

12

.
.
.

X
1 2 H

1 2 H

V
D

1
2

v1
v2
vH
d1
d2
dH

F IGURE 3 PLS2 : les matrices X and Y sont successivement dcomposes en


ensembles de coefficients (loading vectors) (u1 , . . . , ur ), (v1 , . . . , vr ) et ensembles de variables latentes (1 , . . . , r ), ( 1 , . . . , r ), o r est la dimension
recherche ou nombre de composantes.

1 = Xu1 et 1 = Yv1
solutions de
max

1
2

Dans les deux cas, la PLS se dfinit par la recherche (cf. 3) de :


variables latentes h et h , (h = 1, . . . , r)

||u||=||v||=1

Composantes principales et rgressions PLS parcimonieuses

cov(Xu, Yv),
Algorithme

puis itrations sous contraintes dorthogonalit par dflations de X et Y.


Les vecteurs de coefficients (uh , vh )h=1,...,r sont appels vecteurs loa-

Historiquement, la rgression PLS est construite par lalgorithme NIPALS


(Non
linear Iterative PArtial Least Square algorithm) (cf. 2) dans lequel chaque
dings.
itration
h, h = 1, . . . , r de lalgorithme dcompose X et Y en faisant interTous ces vecteurs sont schmatiss dans la figure 3.
venir
une
tape de dflation spcifique lobjectif.
Deux types de dflation sont considrs, lun faisant jouer un rle symCet algorithme, en itrant des rgressions partielles, prsente de nombreux
trique entre les variables (mode canonique), tandis que lautre suppose que les
variables X sont expliques par celles Y . La rgression PLS est rapprocher avantages. Il nest pas ncessaire dinverser une matrice comme en analyse
de lanalyse canonique des corrlations qui sutilise dans le mme contexte de canonique ; de plus il accepte des donnes manquantes et mme propose, par
deux variables multidimensionnelles X et Y mettre en relation. La diffrence la PLS, une mthode dimputation de celles-ci.
vient du critre optimis en analyse canonique qui est la corrlation entre les
variables latentes plutt que la covariance :
A LGORITHME 2 : NIPALS
X et Y matrices des donnes centres
max cor(Xu, Yv).
Initialiser 1 par la premire colonne de Y
||u||=||v||=1
for h = 1 r do
while Convergence pas atteinte do
Cette optimisation requiert linversion des matrices X0 X et Y0 Y. Ces inveruh = X0 h / 0h h
sions sont impossibles en cas de colinarit des variables et donc videmment
uh = uh /u0h uh est le vecteur loading associ X
si n < p ou n < q. Une version rgularise ou ridge de lanalyse canonique
h = Xuh est la variable latente associe X
rend les calculs possibles (Gonzales et al. 2008) mais les interprtations restent
vh = Y0 h /( 0h h )
difficiles pour des grandes valeurs de p ou q.
51

07/15

vh = vh /vh0 vh est le vecteur loading associ Y


h = Y0 vh est la variable latente associe Y
end while
ch = X0 / 0 rgression partielle de X sur
dh = Y0 / 0 rgression partielle de Y sur
Rsidus X X c0 ou dflation
Rsidus Y Y d0 ou dflation
end for

Composantes principales et rgressions PLS parcimonieuses

Nanmoins, la perspective de grer les donnes manquantes ou encore celle de


raliser les calculs sans avoir stocker des matrices p p pour p trs grand,
rend lalgorithme NIPALS tout fait pertinent mme sil est numriquement
moins performant.
PLS mode Rgression vs. canonique

Deux modes de dflation sont proposs selon que les variables jouent un rle
symtrique ou que les variables X sont supposes expliques par celles Y .
Mode canonique : Xh = Xh1 h c0 h et Yh = Yh1 h d0 h
Mode rgression : Xh = Xh1 h c0 h et Yh = Yh1 h v0 h
Le nombre r ditrations est fixer ou optimiser par lutilisateur tandis
La PLS en mode canonique poursuit donc le mme objectif que lanalyse
que la convergence de chaque tape h est analogue celle, relativement rapide
(moins dune dizaine ditrations), dun algorithme de puissance itre. En canonique des corrlations en rendant les calculs possibles mme si p > n car
la PLS ne ncessite pas linversion des matrices de corrlation. Toujours avec le
effet, la convergence, les vecteurs vrifient :
mme objectif de rendre possible les calculs, des versions rgularises (norme
YY0 XX0 u = u
L2 ) de lanalyse canonique ont t proposes de faon analogue la rgression
Y0 XX0 Y =
ridge. Nanmoins, cette approche conduit des graphiques et interprtations
0
0
difficiles lorsque p est grand.
XX YY v = v
X0 YY0 X

PLS-DA ou discrimination PLS

o u, , v et sont donc les vecteurs propres respectifs des matrices


La rgression PLS peut facilement sadapte au cas de la classification suYY0 XX0 , Y0 XX0 Y, XX0 YY0 , X0 YY0 X associs la mme plus grande pervise, ou analyse discriminante dcisionnelle (PLS-Discriminant Analysis),
valeur propre . Ltape de dflation permet donc de calculer successivement dans lequel p variables quantitatives X j expliquent une variable qualitative
les vecteurs propres associs aux valeurs propres dcroissantes.
Y m modalits. Il suffit de gnrer le paquet des m variables indicatrices
ou
dummy variables Y k et dexcuter lalgorithme PLS2 (mode rgression)
En rsum,
La rgression PLS2 gre des donnes incompltes, bruites, colinaires en considrant comme quantitatives ces variables indicatrices. Le choix du
nombre de dimensions peut tre optimis en minimisant lerreur de prvision
ou de trs grande dimension
calcule les variables latentes h et h qui renseignent (graphes) sur les des classes par validation croise.
similarits et/ou dissimilarits des observations,
2.3 Reprsentations graphiques
et les vecteurs loading uh et vh qui renseignent sur limportance des variables Xj et Yk ,
Les reprsentations graphiques des individus, comme celles des variables
trace les Graphes illustrant les covariations des variables.
initiales, sont analogues celles obtenues en analyse canonique.
Les variables initiales sont reprsentes par leurs coefficients sur les vaVariante de lalgorithme
riables latentes ;
les individus par leurs valeurs sur les composantes de X (ou de Y ) comme
Une autre approche consiste calculer directement les vecteurs propres de
en ACP.
la matrice X0 YY0 X ou encore et cest quivalent, les valeurs et vecteurs singuliers de la dcomposition en valeurs singulires (SVD) de la matrice X0 Y.
52

07/15

3
3.1

Mthodes parcimonieuses

Composantes principales et rgressions PLS parcimonieuses

uold = u?h avec vh? et vh? de norme 1


while Pas de convergence de unew et vnew do
vnew = g (M0 h1 uold )
unew = M0 h1 vnew /||Mh1 vnew ||
uold = unew , vold = vnew
end while
vnew = vnew /||vnew ||
0
Mh = Mh1 h unew vnew
end for

Objectif

La rgression PLS est une rgression sur composantes orthogonales qui rsout efficacement les problmes de multicolinarit ou de trop grand nombre
de variables en rgression comme en analyse canonique. La contre partie, ou
prix payer, est laccroissement souvent rdhibitoire de la complexit de linterprtation des rsultats. En effet, chaque composante est obtenue par combinaison linaire dun nombre pouvant tre trs important de lensemble des p
variables.

Lalgorithme peut adopter diffrents types de fonction de pnalisation, celle


Pour aider linterprtation, lobjectif est donc de limiter, ou contraindre,
retenue est une fonction de seuillage doux avec
le nombre de variables participant chaque combinaison linaire. La faon
simple de procder est dintgrer une contrainte de type Lasso dans lalg (y) = sign(y)(|y| )+ .
gorithme PLS2. Plusieurs approches on t proposes, celle dcrite ci-aprs
savre rapide et efficace.

3.3

3.2

Sparse PLS

Sparse SVD

Ayant remarqu quun tape h de PLS2 est la premire tape de la dcomLa dmarche adopte est issue dune construction dune version parcimo- position en valeur singulire de la matrice Mh = X0 h Yh , la version parcimonieuse de lACP propose par Shen et Huang (2008)[7]. Considrant que nieuse de la PLS2 est simplement construite en itrant r fois lalgorithme de
lACP admet pour solution la dcomposition en valeurs singulires (SVD) de sparse SVD (s-SVD) qui cherche rsoudre :
la sparse PCA (s-PCA) est base sur un algorithme qui
la matrice centre X,
min ||Mh uh vh0 ||2F + P1 (uh ) + P2 (vh .
rsout le problme :
uh ,vh
min ||M uv0 ||2F + P (v)

Comme pour lalgorithme de sparse-SVD, une pnalisation de type L1


(||v||1 ) conduit lannulation des paramtres les plus petits pour ne laisser
o le vecteur v contient les paramtres des combinaisons linaires des va- quun ensemble restreint de paramtres non-nuls dont leffectif dpend direcriables initiales. Une pnalisation de type L1 (||v||1 ) conduit lannulation tement des valeurs et de pnalisation.
1
2
des paramtres les plus petits pour ne laisser quun ensemble restreint de paraPlus prcisment, lalgorithme adopte pour pnalisation des fonctions de
mtres non-nuls dont leffectif dpend directement de la valeur de la pnaliseuillage doux composante par composante avec
sation.
u,v

A LGORITHME 3 : sparse SVD


Dcomposer M = UV0
M0 = M
for h de 1 r do
Fixer vold = h vh?

P1 (uh )
P2 (vh )

p
X
j=1
q
X

sign(uhj )(|uhj | 1 )+
sign(vhj )(|vhj | 2 )+ .

j=1

53

07/15

Composantes principales et rgressions PLS parcimonieuses

Entre deux tapes de s-SVD, les matrices Xh et Yh subissent une dflation


(mode rgression ou canonique) avant de passer ltape suivante.
Cette dmarche soulve des questions dlicates doptimisation du nombre
r de dimensions et celle des valeurs des paramtres de la fonction de pnalisation. En mode rgression (PLS2 ou PLS-DA) il est possible doptimiser ces
choix en minimisant des erreurs de prvision estimes par validation croise.
En mode canonique, le degr de parcimonie comme le nombre de dimensions doivent tre fixs a priori par lutilisateur. Plus concrtement, ce sont
souvent des choix a priori qui sont oprs en fonction de lobjectif de lutilisateur : recherche de peu de variables assimiles, par exemple, des biomarqueurs ou de beaucoup de variables dans le cadre dune tentative de
comprhension globale de la structure des donnes. De mme, le nombre de
composantes r est choisi avec une valeur rduite afin de construire des reprsentations graphiques r 3 plus lmentaire pour aider linterprtation.

F IGURE 4 Cookies : Optimisation du nombre de composante en rgression


PLS par validation croise et graphe des rsidus calculs sur lchantillon test.

En rsum, ce sont donc les capacits dinterprtation dun problme qui


guident concrtement le choix moins quun objectif de construction dun
meilleur modle de prvision conduisent une optimisation par validation sont calculs pour lchantillon test afin dobtenir le graphe des rsidus.
croise.

Dans le cas particulier de PLS-DA, la slection de variables sopre sur le 4.2 sPLS de donnes simules
seul ensemble des variables X et donc un seul paramtre est rgler.
Le modle de simulation est celui propos par (Chun et Keles, 2010)[2]. Les
Attention, les variables latentes successivement calcules perdent leur pro- donnes gnres permettent de voir le rle de la pnalisation dans la slection
prit de stricte orthogonalit du fait de la pnalisation. Cela ne sest pas avr des variables en PLS mode canonique. Elles sont constitues de
n = 40, p = 5000 (X var.), q = 50 (Y var.)
gnant sur les quelques premires dimensions et donc composantes calcules
20 variables X et 10 variables Y deffet 1
en pratique.
20 variables X et 20 variables Y deffet 2

Exemples

4.3

Analyse canonique par sPLS2

Les donnes (NCI) concernent 60 lignes cellulaires de tumeurs. Lobjectif


est de comparer deux plate-formes. Sur la premire (cDNA chip) ont t obserLes donnes (cookies) sont celles tudies par rgression pnalise. Comme ves les expressions de p = 1375 gnes tandis que sur la 2me (Affymetrix) ce
pour les autres techniques, le paramtre de complexit, ici le nombre de com- sont q = 1517 gnes qui sont concerns. Une grande majorit des gnes, sont
posantes, est optimis par validation croise. Le graphe de la figure 4 montre communs aux deux tableaux X(60 1375) et Y(60 1517).
lvolution de lerreur quadratique (ou risque) dapprentissage (en noir) et de
Les deux technologies de mesure dexpression des gnes conduisent-elles
celle estime par validation croise (en rouge).
des rsultats globalement comparables pour ltude de ces lignes cellulaires
Une fois la dimension optimale dtermine, les prvisions des taux de sucre cancreuses ?

4.1

PLS1 de donnes de spectromtrie NIR

54

07/15

dim 1

20

40

20

60

40

80

100

20

40

20

40

60

80

100

60

80

100

60

80

100

RE
8

OV
6

BR
8

PR
2

CNS
9

LEU
6

ME
8

dim 2

60

80

100

20

40

dim 3

CO
7

dim 1

dim 2

Composantes principales et rgressions PLS parcimonieuses

TABLE 1 Effectifs des rpartitions des chantillons des lignes cellulaires en


8 types de cancer et 3 types de cellules : pithliales, msenchymales, mlanomes

dim 3

60

80

100

20

40

4.4

Recherche de bio-marqueurs par sPLS-DA

(2 , 2 )

F IGURE 5 Effet de la pnalisation sur les vecteurs loading associs la Les donnes
matrice X ; PLS gauche et sPLS droite.
Les qualits prdictives de la sPLS-DA peuvent-tre compares avec celles
des autres mthodes abordes dans ce cours, notamment celles dagrgation
de modles. L Cao et al. (2011)[3] ont men cette comparaison systmatique
sur un ensemble de jeux de donnes publiques dont des donnes relatives la
discrimination de 5 types de cancer du cerveau. Les expressions de p = 6144
gnes sont observs sur n = 90 individus.
7860

La question est donc de savoir si la mesure des expressions dune slection


de gnes est pertinente pour aider diagnostiquer ces diffrents types de cancer. Les gnes les plus discriminants au sens de la rgressions sPLS-DA sont
reprsents par leur coefficients (loadings ) dans la base des deux premires
composantes (figure 7). Le rseau (figure 8) est celui des gnes connus dans la
littrature pour intervenir sur ces pathologies.

H460

(1 , 1 )

Parmi les gnes slectionns par la sPLS-DA (figure 7), une couleur particulire est attribue ceux dj connus et prsents dans le rseau.

BR
CNS
CO
LE
ME
NS
OV
PR
RE

5
5.1

Robustesse dune slection


Principe

Le grand nombre de variables au regard de la taille de lchantillon soulve quelques doutes quand la robustesse ou la stabilit dune slection de
F IGURE 6 Les individus lignes cellulaires sont reprsentes dans les variables au sein dun modle ; nest-elle pas finalement quun artefact li
deux espaces : ( 1 , 1 ) vs. ( 2 , 2 ). La longueur de chaque vecteur souligne lchantillon observ ?
limpact de la technologie utilise sur chaque type de cellule.
Bach (2008)[1] dune part, Meinshausen et Blhmann (2008)[6] dautre part
55

07/15

Composantes principales et rgressions PLS parcimonieuses

1.0

BARD1
Midkine
CIP4

0.5

PTMA

U30255_at
X53777_at

PEA15
MLLT3

Cyclin D1
TNFRSF1A
STAB1

0.0

Comp 2

D31764_at
M83233_at

CD97

D12676_at

X68836_at
M74089_at
M31520_at
U76272_at
U56833_at
U85267_at
X78520_at
D89667_at
L00205_at
X16560_at
Y00764_atM28213_s_at
U21858_at
HG384.HT384_at
M20471_at
M33653_at
Z50022_at
D79998_at
X63578_rna1_at

LRRC16A
INSM1
MAB21L1
AP3B2
U30521_at
STMN2
Neuronatin
NDF1

0.5

PON2

ALDOC
PGHD
BTN2A2
SCN1B

1.0

SORL1
BAD
GRM4
PEA15
SIRPA

1.0

0.5

0.0

0.5

1.0

Comp 1

F IGURE 7 Reprsentation des individus dans les deux premires compo- F IGURE 8 Reprsentation (Gene Go software) en rseau des gnes dj identifis comme lis ces pathologies de tumeurs crbrales.
santes

56

07/15

10

Composantes principales et rgressions PLS parcimonieuses

ont propos des stratgies pour valuer cette stabilit, ventuellement loptimiser en les utilisant pour rgler le paramtre de pnalisation. Ils partent de la
mme ide : tudier les occurrences ou non des slections des variables dans
un modle pour une pnalisation donne sur des chantillons bootstrap (Bach,
2008)[1] ou sur des sous-chantillons alatoires (Meinshausen et Blhmann,
2010)[6]. Ils tudient ces stratgies dans le cas du modle linaire avec pnalisation Lasso et montrent dans ce cas des proprits asymptotiques de convergence vers la bonne slection. Bach (2008)[1] sintresse la slection obtenue
par intersection de toutes les slections sur chacun des chantillons bootstrap
tandis que Meinshausen et Blhmann (2010)[6] compte le nombre de fois o
une variables est slectionne pour une valeur donne de la pnalisation.

Brain dim 1

Exemple

0.6
0.2

probability

0.8

1.0

Le graphique de la figure 9 est obtenu en synthtisant les stratgies prcdentes. Sur chacun des 50 chantillons bootstrap, une sPLS-DA est calcule
pour diffrentes valeurs de la pnalisation. On ne sintresse ici qu la premire composante (h = 1). Dans ce cas de seuillage doux, la pnalisation
revient fixer le nombre de variables intervenant dans la construction de la
premire variable latente. La probabilit doccurrence dune variable ou gne
est tout simplement estime par le ratio du nombre de fois o elle a t slectionne. Quelques variables ou gnes apparaissent assez systmatiquement
slectionns,principalement 4 dentre eux. Il apparat que les donnes observes ne peuvent garantir la slection que dun nombre restreint de gnes. Ce
constat serait rapprocher du rsultat thorique de Verzelen (2012)[9] dans le
cas du modle gaussien. Celui-ci met en vidence quun problme de ultrahaute dimension se manifeste si

0.4

5.2

0.0

2k log(p/k)
1
> .
n
2

Avec les effectifs (n=90, p=6144) de lexemple prsent, cette contrainte, dans
5
10
15
20
25
30
35
40
45
50
100
200
500
1
le cas gaussien, signifierait quil est illusoire de vouloir slectionner plus de 6
number of selected variables
gnes. Pour un tout autre modle, cest aussi ce que nous signifie le graphique.
Seule la considration dun petit nombre de gnes dont la slection est relati- F IGURE 9 Probabilits de slection des diffrentes variables (gnes) sur la
vement stable sur les diffrents chantillons bootstrap est raisonnable sur ces premire composante en fonction de la valeur de la pnalisation en sPLS-DA.
donnes compte tenu de la faible taille de lchantillon.
57

07/15

11

Composantes principales et rgressions PLS parcimonieuses

Rfrences
[1] F. Bach, Bolasso : model consistent Lasso estimation through the bootstrap, Proceedings of the Twenty-fifth International Conference on Machine Learning (ICML) (2008), 3340.
[2] H. Chun et S. Keles, Sparse partial least squares regression for simultaneous dimension reduction and variable selection, Journal of the Royal
Statistical Society : Series B 72 (2010), 325.
[3] K. A. L Cao, S. Boistard et P. Besse, Sparse PLS Discriminant Analysis : biologically relevant feature selection and graphical displays for
multiclass problems, BMC Bioinformatics 12 (2011), no 253.
[4] K. A. L Cao, P.G.P Martin, C. Robert-Grani et P. Besse, Sparse Canonical Methods for Biological Data Integration : application to a crossplatform study, BMC Bioinformatics 10 (2009), no 34.
[5] K. A. L Cao, D. Rossouw, C. Robert-Grani et P. Besse, A sparse PLS
for variable selection when integrating Omics data, Statistical Applications in Genetics and Molecular Biology 7 (2008), no 35.
[6] N. Meinshausen et P. Bhlmann, Stability selection, Journal of the Royal
Statistical Society : Series B 72 (2008), 417473.
[7] H. Shen et J.Z. Huang, Sparse principal component analysis via regularized low rank matrix approximation, Journal of Multivariate Analysis 99
(2008), 10151034.
[8] M. Tenenhaus, La rgression PLS : thorie et applications, Technip,
1998.
[9] Nicolas Verzelen, Minimax risks for sparse regressions : Ultra-highdimensional phenomenons, Electron. J. Statistics 6 (2012), 3890,
http://arxiv.org/pdf/1008.0526.pdf.
[10] H. Wold, Multivariate analysis, Academic Press,, 1966.

58

07/15

la plupart des usages des mthodes de cette famille : estimation par maximisation de la vraisemblance, statistiques de test suivant asymptotiquement des
lois du chi-deux, calcul des rsidus, observations influentes, critre pnalis
(AIC) dAkake[?] pour la slection de modle. Nanmoins, certaines spcificits mritent dtre soulignes pour un meilleur usage de mme quil est
important de rappeler que dautres mthodes peuvent conduire de meilleure
prvision, donc de meilleurs scores et que cest souvent un bon investissement
que de faire vouer ses habitudes.

Rgression logistique ou modle


binomial
Rsum
Rappels sur la rgression logistique ou modle binomial du modle
linaire gnral. Dfinition de la notion de rapport de cote utile
dans linterprtation du rle des paramtres ; modle pour une variable binomiale ou une variable binaire 0, 1) de Bernoulli ; estimation, proprits et difficults spcifiques ce modle ; extension la
modlisation dune variable polytomique ou ordinale. Les lois des
observations sont discrtes et associes des dnombrements : binomiale, multinomiale. Choix de modle en rgression logistique et
exemples.
Retour au plan du cours

Rgression logistique ou modle binomial

Odds et odds ratio

Une premire section dfinit quelques notions relatives ltude de la liaison


entre variables qualitatives. Elles sont couramment utilises dans linterprtation des modles de rgression logistique.

Une variable
Soit Y une variable qualitative J modalits. On dsigne la chance (ou
odds 1 de voir se raliser la j-me modalit plutt que la kme par le rapport

Introduction

jk =

Historiquement, la rgression logistique ou rgression binomiale fut la premire mthode utilise, notamment en marketing pour le scoring et en pidmiologie, pour aborder la modlisation dune variable binaire binomiale
(nombre de succs pour ni essais) ou de Bernoulli (avec ni = 1) : possession on non dun produit, bon ou mauvais client, dcs ou survie dun patient,
absence ou prsence dune pathologie...

j
k

o j est la probabilit dapparition de la j-me modalit. Cette quantit est


estime par le rapport nj /nk des effectifs observs sur un chantillon. Lorsque
la variable est binaire et suit une loi de Bernouilli de paramtre , lodds est le
rapport /(1 ) qui exprime une cote ou chance de gain.
Par exemple, si la probabilit dun succs est 0.8, celle dun chec est 0.2.
Lodds du succs est 0.8/0.2=4 tandis que lodds de lchec est 0.2/0.8=0.25.
On dit encore que la chance de succs est de 4 contre 1 tandis que celle dchec
est de 1 contre 4.

Bien connue dans ces types dapplication et largement rpandue, la rgression logistique conduit des interprtations pouvant tre complexes mais rentres dans les usages pour quantifier, par exemple, des facteurs de risque lis
une pathologie, une faillite... Cette mthode reste donc celle la plus utilise
mme si, en terme de qualit prvisionnelle, dautres approches sont susceptibles, en fonction des donnes tudies, dapporter de bien meilleurs rsultats.
Il est donc important de bien matriser les diffrents aspects de la rgression
logistiques dont linterprtation des paramtres, la slection de modle par slection de variables ou par rgularisation (LASSO).

2.1

Table de contingence

On considre maintenant une table de contingence 2 2 croisant deux variables qualitatives binaires X 1 et X 2 . les paramtres de la loi conjointe se
1. Il nexiste pas, mme en Qubcois, de traduction consensuelle de odds qui utilise nanmoins souvent le terme cote.

Cas particulier de modle linaire gnral, la rgression logistique reprend


59

07/15

Rgression logistique ou modle binomial

quipement, faillite dune entreprise, bon ou mauvais client. . . . Les modles


de rgression prcdents adapts lexplication dune variable quantitative ne
sappliquent plus directement car le rgresseur linaire usuel X ne prend pas
1
2
o ij = P [{X = i} et {X = j}] est la probabilit doccurrence de chaque des valeurs simplement binaires. Lobjectif est adapt cette situation en cherchant expliquer les probabilits
combinaison.
Dans la ligne 1, lodds que la colonne 1 soit prise plutt que la colonne 2
= P (Z = 1) ou 1 = P (Z = 0),
est :
11
ou plutt une transformation de celles-ci, par lobservation conjointe des va.
1 =
12
riables explicatives. Lide est en effet de faire intervenir une fonction relle
Dans la ligne 2, lodds que la colonne 1 soit prise plutt que la colonne 2 monotone g oprant de [0, 1] dans R et donc de chercher un modle linaire de
est :
la forme :
21
2 =
.
g(i ) = x0i .
22
On appelle odds ratio (rapport de cote) le rapport
Il existe de nombreuses fonctions, dont le graphe prsente une forme sigmodale
et qui sont candidates pour remplir ce rle, trois sont pratiquement
1
11 22
=
=
.
disponibles
dans les logiciels :
2
12 21
probit : g est alors la fonction inverse de la fonction de rpartition dune loi
Ce rapport prend la valeur 1 si les variables sont indpendantes, il est suprieur
normale, mais son expression nest pas explicite.
1 si les sujets de la ligne 1 ont plus de chances de prendre la premire colonne
log-log
avec g dfinie par
que les sujets de la ligne 2 et infrieur 1 sinon.

mettent dans une matrice :

11
21

12
22

g() = ln[ ln(1 )]


Exemple : supposons qu lentre dans une cole dingnieurs, 7 garons
sur 10 sont reus tandis que seulement 4 filles sur 10 le sont. Lodds des garmais cette fonction est dissymtrique.
ons est alors de 0.7/0.3=2.33 tandis que celle des filles est de 0.4/0.6=0.67.
logit est dfinie par
Lodds ratio est de 2.33/0.67=3.5. La chance dtre reu est 3.5 plus grande

ex
pour les garons que pour les filles.
g() = logit() = ln
avec g 1 (x) =
.
1
1 + ex
Lodds ratio est galement dfini pour deux lignes (a, b) et deux colonnes
Plusieurs raisons, tant thoriques que pratiques, font prfrer cette dernire
(c, d) quelconques dune table de contingence croisant deux variables J et
solution.
Le rapport /(1 ), qui exprime une cote, est lodds et la rK modalits. Lodds ratio est le rapport
gression logistique sinterprte donc comme la recherche dune modlisation
ac bd
a
b abcd = nac nbd . linaire du log odds tandis que les coefficients de certains modles expriment
=
estim par lodds ratio empirique
abcd =
b
ad bc
nad nbc des odds ratio cest--dire linfluence dun facteur qualitatif sur le risque (ou
la chance) dun chec (dun succs) de Z.

Rgression logistique

Cette section se limite la description de lusage lmentaire de la rgression


logistique. Des complments concernant lexplication dune variable qua3.1 Type de donnes
litative ordinale (plusieurs modalits), lintervention de variables explicatives
Cette section dcrit la modlisation dune variable qualitative Z 2 moda- avec effet alatoire, lutilisation de mesures rptes donc dpendantes, sont
lits : 1 ou 0, succs ou chec, prsence ou absence de maladie, panne dun rechercher dans la bibliographie.
60

07/15

3.2

Modle binomial

Remarques
1. La matrice X issue de la planification exprimentale est construite avec
les mmes rgles que celles utilises dans le cadre de lanalyse de covariance mixant variables explicatives quantitatives et qualitatives. Ainsi,
les logiciels grent avec plus ou moins de clart le choix des variables
indicatrices et donc des paramtres estimables ou contrastes associs.
2. Attention, La situation dcrite prcdemment correspond lobservation
de donnes groupes. Dans de nombreuses situations concrtes et souvent ds quil y a des variables explicatives quantitatives, les observations
xi sont toutes distinctes. Ceci revient donc fixer ni = 1; i = 1, . . . , I
dans les expressions prcdentes et la loi de Bernouilli remplace la loi
binomiale. Certaines mthodes ne sont alors plus applicables et les comportements asymptotiques des distributions des statistiques de test ne sont
plus valides, le nombre de paramtres tendant vers linfini.
3. Dans le cas dune variable explicative X dichotomique, un logiciel
comme SAS fournit, en plus de lestimation dun paramtre b, celle des
odds ratios ; b est alors le log odds ratio ou encore, eb est lodds ratio (le
rapport de cote). Ceci sinterprte en disant que Y a eb fois plus de chance
de succs (ou de maladie comme par un exemple un cancer du poumon)
quand X = 1 (par exemple pour un fumeur).
4. Attention dans SAS, la procdure LOGISTIC adopte une paramtrisation
(1, 1) analogue celle de la procdure CATMOD mais diffrente de
celle des modules GENMOD ou SAS/Insight (0, 1). Ceci explique les
diffrences observes dans lestimation des paramtre dune procdure
lautre mais les modles sont identiques/ Mmes exprims dans des
bases diffrentes, les espaces engendrs par les vecteurs des indicatrices
slectionnes sont les mmes.

On considre, pour i = 1, . . . , I, diffrentes valeurs fixes x1i , . . . , xqi des


variables explicatives X 1 , . . . , X q . Ces dernires pouvant tre des variables
quantitatives ou encore des variables qualitatives, cest--dire des facteurs issus
dune planification exprimentale.
Pour chaque groupe, cest--dire pour chacune
PI des combinaisons de valeurs
ou facteurs, on ralise ni observations (n = i=1 ni ) de la variable Z qui se
mettent sous la forme y1 /n1 , . . . , yI /nI o yi dsigne le nombre de succs
observs lors des ni essais. On suppose que toutes les observations sont indpendantes et qu lintrieur dun mme groupe, la probabilit i de succs est
constante. Alors, la variable Yi sachant ni et desprance E(Yi ) = ni i suit
une loi binomiale B(ni , i ) dont la fonction de densit scrit :
 
ni yi
P (Y = yi ) =
(1 i )(ni yi ) .
yi i
On suppose que le vecteur des fonctions logit des probabilits i appartient
au sous-espace vect{X 1 , . . . , X q } engendr par les variables explicatives :
logit(i ) = x0i

i = 1, . . . , I

ce qui scrit encore


0

exi
i =
0
1 + exi

Rgression logistique ou modle binomial

i = 1, . . . , I.

Le vecteur des paramtres est estim par maximisation de la logvraisemblance. Il ny a pas de solution analytique, celle-ci est obtenue par des
mthodes numriques itratives (par exemple Newton Raphson) dont certaines
reviennent itrer des estimations de modles de rgression par moindres carrs gnraliss avec des poids et des mtriques adapts chaque itration.
3.3 Rgressions logistiques polytomique et ordinale
Loptimisation fournit une estimation b de , il est alors facile den dduire
3.3.1 Gnralisation
les estimations ou prvisions des probabilits i :
0
La rgression logistique adapte la modlisation dune variable dichotoexi b

bi =
mique
se gnralise au cas dune variable Y plusieurs modalits ou polyto0
1 + ex i b
mique. Si ces modalits sont ordonns, on dit que la variable est qualitative
et ainsi celles des effectifs
ordinale. Ces types de modlisation sont trs souvent utiliss en pidmiologie
ybi = ni
bi .
et permettent dvaluer ou comparer des risques par exemples sanitaires. Des
61

07/15

Rgression logistique ou modle binomial

estimations dodds ratio ou rapports de cotes sont ainsi utiliss pour valuer et sur cette chelle dpendent chacune de tous les effectifs, ce qui peut conduire
interprter les facteurs de risques associs diffrents types (rgression poly- une plus grande stabilit des mesures qui en dcoulent.
tomique) ou seuils de gravit (rgression ordinale) dune maladie ou, en marketing, cela sapplique lexplication, par exemple, dun niveau de satisfaction Proportionnalit des rapports de cote
dun client. Il sagit de comparer entre elles des estimations de fonctions logit.
Si les variables indpendantes sont nombreuses dans le modle ou si la vaDans une situation de data mining ou fouille de donnes, ce type dapproche riable rponse Y comporte un nombre lev de niveaux, la description des
se trouve lourdement pnalis lorsque, lintrieur dun mme modle polyto- fonctions logit devient fastidieuse. La pratique consiste plutt dterminer un
mique ou ordinal, plusieurs types de modles sont en concurrence pour chaque coefficient global b (mesure deffet) qui soit la somme pondre des coeffifonction logit associe diffrentes modalits. Diffrents choix de variables, cients bj . Ceci revient faire lhypothse que les coefficients sont homognes
diffrents niveaux dinteraction rendent trop complexe et inefficace cette ap- (idalement tous gaux), cest--dire supposer que les rapports de cotes sont
proche. Elle est privilgier uniquement dans le cas dun nombre restreint de proportionnels. Cest ce que calcule implicitement la procdure LOGISTIC de
SAS applique une variable rponse Y ordinale en estimant un seul paravariables explicatives avec un objectif explicatif ou interprtatif.
mtre b mais k 1 termes constants correspondant des translations de la
Logits cumulatifs
fonctions logit.
titre illustratif, explicitons le cas simple dune variable Y k modalits
La procdure LOGISTIC fournit le rsultat du test du score sur lhypothse
ordonnes explique par une seule variable dichotomique X. Notons j (X) = H0 de lhomognit des coefficients j .
Pk
P (Y = j|X) avec j=1 j (X) = 1. Pour une variable Y k modalits, il
Le coefficient b mesure donc lassociation du facteur X avec la gravit de la
faut, en toute rigueur, estimer k 1 prdicteurs linaires :
maladie et peut sinterprter comme suit : pour tout seuil de gravit choisi sur
Y , la cote des risques davoir une gravit suprieure ce seuil est eb fois plus
gj (X) = j + j X pourj = 1, . . . , k 1
grande chez les exposs (X = 1) que chez les non exposs (X = 0).
et, dans le cas dune variable ordinale, la fonction lien logit utilise doit tenir
compte de cette situation particulire.

Dans la littrature, trois types de fonction sont considres dpendant de


lchelle des rapports de cote adopte :
chelle base sur la comparaison des catgories adjacentes deux deux,
sur la comparaison des catgories adjacentes suprieures cumules,
et enfin sur la comparaison des catgories adjacentes cumules.
Pour k = 2, les trois situations sont identiques. Cest le dernier cas qui est le
plus souvent adopt ; il conduit dfinir les fonctions des logits cumulatifs
de la forme :

4.1

Choix de modle
Recherche pas pas

Principalement deux critres (test du rapport de vraisemblance et test de


Wald), sont utiliss de faon analogue au test de Fisher du modle linaire
gaussien. Ils permettent de comparer un modle avec un sous-modle et dvaluer lintrt de la prsence des termes complmentaires. On suit ainsi une
stratgie descendante partir du modle complet. Lide est de supprimer, un
terme la fois, la composante dinteraction ou leffet principal qui apparat
comme le moins significatif au sens du rapport de vraisemblance ou du test
j+1 + + k
log
pourj = 1, . . . , k 1.
de Wald. Les tests prsentent une structure hirarchise. SAS facilite cette re1 + + j
cherche en produisant une dcomposition (Type III) de ces indices permettant
Pour un seuil donn sur Y , les catgories infrieures ce seuil, cumules, sont de comparer chacun des sous-modles excluant un des termes avec le modle
compares aux catgories suprieures cumules. Les fonctions logit dfinies les incluant tous.
62

07/15

Rgression logistique ou modle binomial

DEBIT
4

Attention, du fait de lutilisation dune transformation non linaire (logit),


mme si des facteurs sont orthogonaux, aucune proprit dorthogonalit ne
peut tre prise en compte pour ltude des hypothses. Ceci impose llimination des termes un par un et la r-estimation du modle. Dautre part, un terme
principal ne peut tre supprim que sil nintervient plus dans des termes dinteraction.

4.2

3
2
1

Critre

Lapproche prcdente favorise la qualit dajustement du modle. Dans un


but prdictif, certains logiciels, comme Splus/R ou Enterpirse Miner, proposent
dautres critres de choix (AIC, BIC). Une estimation de lerreur de prvision
par validation croise est aussi opportune dans une dmarche de choix de modle.

4.3

0
0
DILAT

Pnalisation

VOLUME
0

4
1

F IGURE 1 Dilatation : Nuage des modalits de Y dans les coordonnes des


variables explicatives.

Des versions Lasso, elastic-net, PLS... de la rgression logistique ont t


proposes. Elles sont utilises comme dans le cadre du modle linaire gaussien.
proc logistic data=sasuser.debvol;

5
5.1

model dilat=l_debit l_volume;


run;
proc genmod data=sasuser.debvol;
model dilat/un=l_debit l_volume/d=bin;
run;

Exemples
Exemple lmentaire avec SAS

Les donnes

The LOGISTIC Procedure


Intercept

Intercept
and
On tudie linfluence du dbit et du volume dair inspir sur loccurrence Criterion
Only
Covariates
Chi-Square for Covariates
AIC
56.040
35.216
.
(code 1) de la dilatation des vaisseaux sanguins superficiels des membres in- SC
57.703
40.206
.
-2 LOG L
54.040
29.216(1)
24.824 with 2 DF (p=0.0001)
frieurs. Un graphique lmentaire reprsentant les modalits de Y dans les Score
.
.
16.635 with 2 DF (p=0.0002)
coordonnes de X 1 X 2 est toujours instructif. Il montre une sparation raiParameter(2) Standard
Wald(3)
Pr >
Standardized Odds
sonnable et de bon augure des deux nuages de points. Dans le cas de nom- Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio
INTERCPT 1
2.8782
1.3214
4.7443
0.0294
.
.
breuses variables explicatives quantitatives, une analyse en composantes prin- L_DEBIT 1 -4.5649 1.8384 6.1653 0.0130 -2.085068 0.010
L_VOLUME 1
-5.1796
1.8653
7.7105
0.0055
-1.535372
0.006
cipales simpose. Les formes des nuages reprsents, ainsi que lallure des
distributions (tudies pralablement), incitent dans ce cas considrer par la
Cette procdure fournit des critres de choix de modle dont la dviance
suite les logarithmes des variables. Une variable un ne contenant que des 1 (1), le vecteur b des paramtres (2) et les statistiques des tests (3) comparant
dnombrant le nombre dessais est ncessaire dans la syntaxe de genmod. Les le modle excluant un terme par rapport au modle complet tel quil est dcrit
donnes sont en effet non groupes.
dans la commande.
Criteria For Assessing Goodness Of Fit

63

07/15

Criterion
Deviance
Scaled Deviance
Pearson Chi-Square
Scaled Pearson X2
Log Likelihood

Parameter
INTERCEPT
L_DEBIT
L_VOLUME
SCALE (6)

(1)
(2)
(3)
(4)
(5)
(6)

5.2

DF
36
36
36
36
.

Value
29.2156
29.2156
34.2516
34.2516
-14.6078

Analysis Of Parameter Estimates


DF
Estimate (4) Std Err
1
-2.8782
1.3214
1
4.5649
1.8384
1
5.1796
1.8653
0
1.0000
0.0000

sexe Sfem vs Shom


alcool A_bu vs Ajeu
ceinture Cnon vs Coui

Value/DF
0.8115 (1)
0.8115 (2)
0.9514 (3)
0.9514
.

5.3

ChiSquare (5) Pr>Chi


4.7443
0.0294
6.1653
0.0130
7.7105
0.0055
.
.

Rgression logistique ordinale

1. Etat du conducteur : Normal ou Alcoolis


3. Port de la ceinture : Oui Non

Ce jeu de donnes est assez particulier car plutt facile ajuster. Une estimation utilisant toutes les variables conduit des messages critiques indiquant
un dfaut de convergence et des probabilits exactement ajustes. En fait le
modle sajuste exactement aux donnes en utilisant toutes les variables aussi
lerreur de prvision ncessite une estimation plus soigne. Une sparation
entre un chantillon dapprentissage et un chantillon test ou une validation
croise permet une telle estimation.

4. Gravit des blessures : 0 : rien 3 : fatales


Les modalits de la variable expliquer concernant la gravit de laccident
sont ordonnes. Mais dans cet exemple, lhypothse H0 de proportionnalit des
rapports de cote est rejete. Le problme est alors simplifi en regroupant les
consquences d elaccident en seulement 2 modalits avec ou sans squelles.
Estimate
1.8699
2.8080
5.1222
-0.3118
-0.5017
-0.1110

Standard
Error
0.0236
0.0269
0.0576
0.0121
0.0190
0.0174

Wald
Chi-Square
6264.9373
10914.3437
7917.0908
664.3353
697.0173
40.6681

Pr > ChiSq
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001

On trouve alors quun modle plus parcimonieux et obtenu par une dmarche descendante, de sorte que les paramtres soient significatifs au sens
dun test du Chi2, conduit des erreurs de prvision plus faibles sur un chantillon test indpendant quun modle ajustant exactement les donnes. La qualit de lajustement du modle se rsume sous la forme dune matrice de confusion valuant les taux de bien et mal classs sur lchantillon dapprentissage
tandis que lerreur de prvision est estime partir de lchantillon test.

Test de score pour lhypothse des cotes proportionnelles


Khi-2
DDL
Pr > Khi-2
33.3161 6
<.0001
Modle lmentaire GrO vs. GrN
Estimations des rapports de cotes
Effet
Valeur estime

Cancer du sein

La dernire variable est celle prdire, les variables explicatives sont ordinales ou nominales 10 classes. Il reste 683 observations aprs la suppression
de 16 prsentant des valeurs manquantes.

2. Sexe du conducteur

DF
1
1
1
1
1
1

1.786 1.964
2.512 2.918
1.162 1.332

Cl.thickness Clump Thickness


Cell.size Uniformity of Cell Size
Cell.shape Uniformity of Cell Shape
Marg.adhesion Marginal Adhesion
Epith.c.size Single Epithelial Cell Size
Bare.nuclei Bare Nuclei
Bl.cromatin Bland Chromatin
Normal.nucleoli Normal Nucleoli
Mitoses Mitoses
Class "benign" et "malignant".

Dviance du modle par rapport au modle satur.


Dviance pondre si le paramtre dchelle est diffrent de 1 en cas de sur-dispersion.
Statistique de Pearson, voisine de la dviance, comparant le modle au modle satur .
Paramtres du modle.
Statistique des tests comparant le modle excluant un terme par rapport au modle complet.
Estimation du paramtre dchelle si la quasi-vraisemblance est utilise.

Gr0
Gr1
Gr2
Sfem
A_bu
Cnon

1.873
2.707
1.244

Les donnes (Wisconsin BreastCancer Database) sont disponibles dans la librairie mlbench du logiciel R. Elles servent trs souvent de
base de rfrence des comparaisons de techniques dapprentissage. Les variables considres sont :

On tudie les rsultats dune tude pralable la lgislation sur le port de


la ceinture de scurit dans la province de lAlberta Edmonton au Canada
(Jobson, 1991). Un chantillon de 86 769 rapports daccidents de voitures ont
t compulss afin dextraire une table croisant :

Parameter
Intercept
Intercept
Intercept
sexe
alcool
ceinture

Rgression logistique ou modle binomial

IC de Wald 95 %

64

07/15

Rgression logistique ou modle binomial

On peut sinterroger sur lintrt de la prsence de la variable vmodule qui


rend plus faible la prvision de lerreur au sens dAkake mais dont le coefficient nest pas significatif au sens du test du Chi-deux ; ce critre tant li
une qualit dajustement. Lerreur estime sur lchantillon test ne permet pas
# erreur de prvision
de dpartager ces modles car les matrices de transition similaires conduisent
benign malignant
la mme estimation du taux derreur de 11,5% tandis que la mme erreur est
FALSE
84
5
de 13,2% pour le modle MOCAGE. Un modle de rgression logistique faiTRUE
2
46
sant intervenir les interactions dordre 2 et optimis par algorithme descendant
aboutit une erreur de 10,6% tandis que le modle quantitatif de rgression
Le taux derreur apparent estim sur lchantillon dapprentissage est de
quadratique du chapitre prcdent conduit une erreur de 10,1% avec le mme
3,5% (0% avec le modle complet) tandis que le taux derreur estim sans biais
protocole et les mmes chantillons dapprentissage et de test.
sur lchantillon test est de 5,1% (5,8 avec le modle complet). Ces estimations
demanderont tre affines afin de comparer les mthodes entre elles.
Matrices de confusion de lchantillon test pour diffrents modles :
# erreur dajustement
benign malignant
FALSE
345
6
TRUE
13
182

5.4

0
1
FALSE 163 19
TRUE
5 21
logistique sans vmodule

Pic dozone

Plutt que de prvoir la concentration de lozone puis un dpassement ventuel dun seuil, il pourrait tre plus efficace de prvoir directement ce dpassement en modlisant la variable binaire associe. Attention toutefois, ces dpassements tant relativement peu nombreux (17%), il serait ncessaire den
accentuer limportance par lintroduction dune fonction cot ou une pondration spcifique. Ceci est un problme gnral losquil sagit de prvoir des
phnomnes rares : un modle trivial ne les prvoyant jamais ne commettrait
finalement quune erreur relative faible. Ceci revient demander au spcialiste
de quantifier le risque de prvoir un dpassement du seuil tort par rapport
celui de ne pas prvoir ce dpassement tort. Le premier des consquences
conomiques et sur le confort des usagers par des limitations de trafic tandis
que le 2me a des consquences sur lenvironnement et la sant de certaines
populations. Ce nest plus un problme "statistique".

0
1
FALSE 162 18
TRUE
6 22
avec vmodule

0
1
FALSE 163 17
TRUE
5 23
avec interactions

0
1
FALSE 160
13
TRUE
8
27
quantitatif

Notons que les erreurs ne sont pas "symtriques" et sont affectes du mme
biais : tous ces modles "oublient" systmatiquement plus de dpassements de
seuils quils nen prvoient tort. Une analyse plus pousse de lestimation
de lerreur de prvision est videmment ncessaire. ce niveau de ltude, ce
qui est le plus utile au mtorologue, cest lanalyse des coefficients les plus
significativement prsents dans la rgression quadratique, cest--dire avec les
interactions. Ils fournissent des indications prcieuses sur les faiblesses ou insuffisances de leur modle physique.

5.5

Donnes bancaires

Il sagit de modliser une variable binaire reprsentant la possession ou non


de la carte visa premier en fonction du comportement bancaire dun client. Cet
La recherche descendante dun meilleur modle au sens du critre dAkake exemple est typique de la construction dun score dapptence en marketing
conduit au rsultat ci-dessous.
quantitatif. Comme dans lexemple prcdent, la possession de ce type de produit est rare aussi, un chantillon spcifique, non reprsentatif, a t construit
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
en sur-reprsentant cette possession.
NULL
831
744.34
O3_pr
vmodule
s_rmh2o
station
TEMPE

1
1
1
4
1

132.89
2.42
33.71
16.59
129.39

830
829
828
824
823

611.46
609.04
575.33
558.74
429.35

9.576e-31
0.12
6.386e-09
2.324e-03
5.580e-30

Plusieurs stratgies peuvent tre mises en uvre sur ces donnes selon les
transformations et codages raliss sur les variables qualitatives. Elles sont explores dans le scnario affrent. La stratgie adopte ici consiste rechercher
un meilleur modle laide de la procdure SAS/STAT logistic en as65

07/15

Rgression logistique ou modle binomial

sociation avec lun des trois algorithmes de slection (forward, backward ou


stepwise).
La slection de variables ainsi retenue est ensuite utilise avec la procdure
genmod aux sorties plus explicites qui est galement mise en uvre dans le
module SAS Enterprise Miner. Le taux apparent derreur est valu partir du
mme chantillon dapprentissage et donc de manire ncessairement biaise
par optimisme. Il mesure la qualit dajustement du modle illustre par la
matrice de confusion de lchantillon ci-dessous associ un taux derreur de
11,5%.
YVAR1(CARVPR)
PREDY
Frequency|
Percent |
0|
1| Total
---------+--------+--------+
0 |
659 |
53 |
712
| 61.65 |
4.96 | 66.60
---------+--------+--------+
1 |
70 |
287 |
357
|
6.55 | 26.85 | 33.40
---------+--------+--------+
Total
729
340
1069
68.19
31.81
100.00

Il est notable, sur cet exemple (voir le scnario sur ces donnes), de trouver un bien meilleur rsultat (meilleure prvision de 11.5% au lieu de 16%)
lorsque les variables quantitatives sont dcoupes en classes et donc rendues
qualitatives. Intuitivement, nous pourrions penser que dcouper des variables
quantitatives en classes conduit une perte dinformation et donc un moins
bon modle. Cette intuition est fausse sur cet exemple, le dcoupage en classe
conduit en fait un modle plus flexible (plus de paramtres) fonctionnant
comme une approximation rudimentaire par fonctions tages de transforma- F IGURE 2 Donnes bancaires : estimation sur lchantillon test de la courbe
tions non linaires des variables explicatives. Plus flexible (approximativement ROC associe la rgression logistique.
non-linaire) mais sans tre trop complexe, le modle obtenu fournit, sur ce
exemple, de meilleures prvisions et donc un meilleur score.
Dans ce type dapplication, il est trs classique destimer la courbe ROC sur
lchantillon test afin de calibrer le seuil en fontion des objectifs du service
marketing plutt que de le laisser par dfaut 0, 5.

66

07/15

Apprentissage non paramtrique en


rgression

2.1

Diffrentes mthodes destimation non paramtriques en rgression


sont prsentes. Tout dabord les plus classiques : estimation par des
polynmes, estimation sur des bases de splines, estimateurs noyau
et par projection sur des bases orthonormes (Fourier, ondelettes).
Des contrles du risque quadratique et des calculs de vitesses de
convergences sont effectus. Nous prsentons galement les modles
additifs gnraliss ainsi que les arbres de rgression CART et la
mthode KRLS (kernel regression least square).
Retour au plan du cours

Estimation par des constantes par morceaux

On peut estimer la fonction f par une fonction constante par morceaux sur
une partition de [0, 1]. (Ces estimateurs sont les analogues en rgression des
estimateurs par histogramme en densit, on les appelle rgressogrammes).
On dcoupe [0, 1] en D intervalles de mme taille :
Ik,D = 1]k/D,(k+1)/D] , k = 0, . . . , D 1.
Il est naturel destimer la fonction f sur lintervalle Ik,D par la moyenne des
valeurs de Yi qui sont telles que Xi Ik,D , soit pour tout x Ik,D , on pose
P
i,Xi Ik,D Yi

fD (x) =
]{i, Xi Ik,D }

Introduction
On se place dans le cadre dun modle de rgression :
Yi = f (X i ) + i ,

Estimation par des polynmes par morceaux.

Dans ce chapitre, on suppose que les Xi appartiennent un compact de R,


que lon peut supposer gal [0, 1].

Rsum

Apprentissage non paramtrique en rgression

si ]{i, Xi Ik,D } 6= 0 et

i = 1, . . . n.

fD (x) = 0 si ]{i, Xi Ik,D } = 0.


Nous supposerons que les variables X i appartiennent Rd , les Yi sont relles.
Soit les X i sont dterministes, et nous supposerons les variables i sont On peut aussi crire f (x) sous la forme
D
i.i.d., centres, de variance 2 .
Pn
Yi 1Xi Ik,D

fD (x) = Pi=1
.
n
Soit les X i sont alatoires et nous supposerons les variables i indpeni=1 1Xi Ik,D
dantes des X i , i.i.d., centres, de variance 2 .
On suppose dans la suite que D < n, si pour tout i, Xi = i/n, ceci entrane
En labsence de toute hypothse sur la fonction de rgression f , nous que pour tout k, ]{i, Xi Ik,D } 6= 0.
sommes dans un cadre non paramtrique. Nous allons proposer plusieurs types
Cet estimateur correspond lestimateur des moindres carrs de f sur le
de mthodes dapprentissage pour la fonction f : l estimation par des splines,
modle paramtrique des fonctions constantes par morceaux sur les intervalles
les estimateurs noyaux et les estimateurs par projection sur des bases orI
:
thonormes, notamment des bases dondelettes. Nous verrons galement une k,D
D
X
mthode qui permet de contourner le flau de la dimension dans le cas des
SD = {f (x) =
ak 1xIk,D }.
modles additifs, enfin nous introduirons les arbres CART.
k=1
67

07/15

Si D est de lordre de n, on a un seul point Xi par intervalle Ik,D et

En effet, si on cherche minimiser


h(a1 , . . . , aD ) =

n
X

Yi

i=1

!2

D
X

ak 1Xi Ik,D

D
X

on estime f par Yi sur chaque intervalle Ik,D . On a une fonction trs


irrgulire, qui reproduit simplement les observations. On fait alors du
sur-ajustement.

(Yi ak )2 ,

k=1 i,Xi Ik,D

k=1

(1)
la minimisation est obtenue pour
P
a
l =

2.2

Apprentissage non paramtrique en rgression

i,Xi Il,D

Yi

]{i, Xi Il,D }

Si D = 1, on estime f sur [0, 1] par la moyenne de toutes les observations

Yi . Si f est trs loin dtre une fonction constante, lestimateur sera mal
ajust.
,

l.
Il faut donc trouver un bon compromis entre ces deux situations extrmes
pour le choix de D.

Polynmes par morceaux

2.4

Performances de lestimateur.

Lestimation par des polynmes par morceaux de degr m sur la partition


Nous allons majorer le risque quadratique de lestimateur, pour un choix
dfinie par les intervalles Ik,D , 1 k D correspond la minimisation du
convenable de D, dans le cas o la fonction de rgression f est Lipschitzienne :
critre :
on suppose que f est dans la classe de fonctions
!2
n
D
X
X
S1,R = {f L2 ([0, 1]), x, y [0, 1], |f (x) f (y)| R|x y|}.
Yi
(ak,0 + ak,1 Xi + . . . + ak,m Xim )1Xi Ik,D
i=1

k=1

D
X

T HORME 1. Dans le modle

(Yi ak,0 ak,1 Xi . . . ak,m Xim )2 .

i
Yi = f ( ) + i , i = 1, . . . , n,
n

k=1 i,Xi Ik,D

Sur tout intervalle Ik,D , on ajuste un polynme de degr m, par la mthode lestimateur
des moindres carrs en minimisant le critre :
X
(Yi ak,0 ak,1 Xi . . . ak,m Xim )2 .
avec
i,X I
i

k,D

Il sagit simplement dun modle linaire en les paramtres (ak,0 , . . . , ak,m ), vrifie
il y a donc une solution explicite. Le problme du choix des paramtres D et
m se pose.

2.3

Pn
Yi 1Xi Ik,D
fD (x) = Pi=1
,
n
i=1 1Xi Ik,D
D = D(n) = [(nR2 )1/3 ]
2

sup Ef [kfD f k22 ] C()R 3 n 3 .

f S1,R

Ajustement des paramtres

Bien entendu, ce rsultat est purement thorique, car en pratique, on ne sait pas
Revenons au cas de lestimation par des constantes par morceaux, et consi- si la fonction f appartient la classe S1,R . Nous verrons la Section 10 des
drons le problme du choix du paramtre D. On peut alors distinguer deux mthodes pratiques de choix de D par validation croise.
cas extrmes :
Dmonstration.
68

07/15

Puisque Xi = i/n, on remarque aisment que ]{i, Xi Ik,D } [n/D]


n/(2D) si on suppose D n/2. Ceci implique :

Calcul de lesprance

Pour tout x Ik,D ,




Ef fD (x) =

Ef

Apprentissage non paramtrique en rgression


fD (x) f (x) =

i,Xi Ik,D

f (Xi )

L(fD , f )

]{i, Xi Ik,D }
P
i,Xi Ik,D (f (Xi ) f (x))
]{i, Xi Ik,D }

2 2 D
+ R2 D2 .
n

Il reste choisir D pour optimiser ce risque quadratique. En posant


D = [(nR2 )1/3 ],

Si on fait lhypothse que f S1,R alors pour x et Xi dans le mme et on obtient


2
2
L(fD , f ) C()R 3 n 3 .
intervalle Ik,D , |x Xi | 1/D, ce qui implique |f (x) f (Xi )|
RD1 . Ainsi


R
|Biais(fD (x))| = |Ef fD (x) f (x)| .
D
3 Estimation sur des bases de
Calcul de la variance

Var(fD (x))

Nous supposons ici que les Xi appartiennent R. Les estimateurs de la


section prcdente ne sont pas continus, pour obtenir des estimateurs qui sont
des polynmes par morceaux et qui ont des proprits de rgularit, on utilise
les bases de splines.

= Ef [(fD (x) Ef (fD (x)))2 ]


=

splines

2
.
]{i, Xi Ik,D }

On utilise comme critre pour mesurer les performances de notre estimateur


3.1 Splines linaires et cubiques
le risque L2 ([0, 1], dx) cest--dire
Z 1

L(fD , f ) = Ef [ (fD (x) f (x))2 dx].


f (x) = 0 + 1 x + 2 (x a)+ + 3 (x b)+ + 4 (x c)+ + . . . +
0
On a aussi
L(fD , f ) =

o 0 < a < b < c . . . sont les points qui dterminent les intervalles de la
partition (appels les nuds).

Ef [(fD (x) f (x))2 ]dx.

Or,
Ef [(fD (x) f (x))2 ]

f (x)
2
= Ef [ fD (x) Ef (fD (x)) + Ef (fD (x)) f (x) ]


= 0 + 1 x si x a
= 0 + 1 x + 2 (x a)+ si a x b
= 0 + 1 x + 2 (x a)+ + 3 (x b)+ si b x c

= Ef [(fD (x) Ef (fD (x)))2 ] + [Ef (fD (x)) f (x)]2


La fonction f est continue, si on veut imposer plus de rgularit (par exemple
= Var(fD (x)) + Biais2 (fD (x))
f de classe C 2 ), on utilise des splines cubiques.
2

+ R2 D2 .
f (x) = 0 +1 x+2 x2 +3 x3 +4 (xa)3+ +5 (xb)3+ +4 (xc)3+ +. . . +
]{i, Xi Ik,D }
69

07/15

Apprentissage non paramtrique en rgression

La fonction (x a)3 sannule ainsi que ses drives dordre 1 et 2 en a donc 3.2 Mthodes de rgularisation
f est de classe C 2 .
On se place dans un modle de rgression : Yi = f (Xi ) + i , 1 i n.
Pour viter les problmes de bords, on impose souvent des contraintes supplOn
minimise
Pn parmi les fonctions f splines naturels de nuds en les Xi
mentaires aux splines cubiques, notamment la linarit de la fonction sur les
(f
(x)
=
k=1 k Nk (x)) le critre pnalis :
deux intervalles correspondant aux extrmits.
On se place sur [0, 1]. 0 = 0 < 1 < . . . < K < 1.
Z 1
n
X
C(f, ) =
(Yi f (Xi ))2 +
(f 00 (t))2 dt,
K
0
X
i=1
k (x k )3+ .
f (x) = 0 + 1 x + 2 x2 + 3 x3 +
R1
k=1
o > 0. En notant l,k = 0 Nk00 (x)Nl00 (x)dx et Ni,j = Nj (Xi ), le critre
minimiser est
On impose f 00 (0) = f (3) (0) = 0, f 00 (K ) = f (3) (K ) = 0. On en dduit :
C(, ) = kY N k2 + .
2 = 3 = 0,

K
X

k (K k ) = 0,

k=1

K
X

La solution est :

k = 0.

= (N N + )1 N Y

k=1

et
f (x)

= 0 + 1 x +

K
X

k [(x k )3+ (x K )3+ ]

f(x) =

k=1

= 0 + 1 x +

K1
X

n
X

k Nk (x).

(2)

k=1

k (K k )[

k=1

(x k )3+ (x K )3+
]
(K k )
T HORME 2. On note

On pose k = k (K k ) et dk (x) =

f (x) = 0 + 1 x +

K2
X

(xk )3+ (xK )3+


.
(K k )

PK1
k=1

k = 0.

F = {f, C 2 ([0, 1]),

f 002 (t)dt < +}.

k (dk (x) dK1 (x)).

On se donne n 2, 0 < X1 < . . . < Xn < 1 et (y1 , . . . , yn ) Rn . Pour


f F, et > 0, on note

k=1

On obtient la base de splines naturels :


C(f, ) =
N1 (x) = 1, N2 (x) = x, 1 k K 2, Nk+2 (x) = dk (x) dK1 (x).

Z 1
n
X
(Yi f (Xi ))2 +
(f 00 (t))2 dt.
i=1

Pour tout > 0, il existe un unique minimiseur dans F de C(f, ), qui est la
fonction dfinie en (2).

On doit choisir la position et le nombre de nuds.


70

07/15

Apprentissage non paramtrique en rgression

Estimateurs noyau

Remarque : on utilise plus gnralement des noyaux rguliers, ce qui


permet dobtenir des estimateurs rguliers.
Exemples de noyaux en dimension 1 :
Yi = f (X i ) + i , i = 1, . . . , n
(3) -Le noyau triangulaire K(x) = (1 |x|)1
|x|1 .
1
x2 /2

.
o les X i appartiennent Rd , les i sont i.i.d. centres de variance 2 , les X i -Le noyau gaussien K(x) = 2 e
3
2
-Le
noyau
parabolique
K(x)
=
(1

x
)1|x|1 .
et les i sont indpendantes.
4
On considre le modle

4.1

Dfinition des estimateurs a noyau.

4.2

d
3.
RD FINITION
R On appelle noyau une fonction K : R R telle que
2
K < + et K = 1.

Proprits des estimateurs noyau.

Pour simplifier les calculs, on se place dans un modle o les Xi sont alatoires, de loi uniforme sur [0, 1], et on considre lestimateur dfini en (4).

D FINITION 4. On se donne un rel h > 0 (appel fentre) et un noyau K.


On appelle estimateur noyau de f dans le modle (3) associ au noyau K et T HORME 5. On suppose que f (, R) dfinie par
n
o
la fentre h la fonction fh dfinie par :
l
(l)
(l)

(,
R)
=
f

C
([0,
1]),
x,
y

[0,
1],
|f
(x)

f
(y)|

R|x

y|
,

Pn
xX i
Yi K
h
 .
fh (x) = Pi=1
n
xX i
o = l + avec l entier et ]0, 1].
i=1 K
h
On fait
R les hypothses suivantes sur K :
H1 R uj K(u)du = 0 pour j = 1, . . . , l.
d
Dans le cas o les X i sont de loi uniforme sur [0, 1] , on trouve aussi la dfiH2 |u| |K(u)|du < +.
nition suivante :
En choisissant h de sorte que h (nR2 )1/(1+2) , on obtient, f (, R),


n
Z 1

1 X
x Xi
2
fh (x) =
Yi K
.
(4)
2
2
d

nh i=1
h
Ef
(fh (x) f (x)) C(, , ksk )R 1+2 n 1+2 .
0

Si par exemple d = 1 et K(u) = (1/2)1|u|1 , fh (x) est la moyenne des Yi Dmonstration.


tels que |X i x| h. Il sagit dun estimateur constant par morceaux.
Calcul du biais : en notant Kh = (1/h)K(./h),
Cas extrmes :
Z 1
Supposons d = 1 et les Xi quirpartis sur [0, 1].

-Si h = 1/n, lestimateur est trs irrgulier et reproduit simplement les


Ef (fh (x)) =
f (y)Kh (x y)dy = f ? Kh (x).
0
observations.
P
n
-Si h 1, pour tout x, fh (x) = i=1 Yi /n.
R
On a alors, puisque K = 1,
Z
Il faut donc, ici encore chercher une valeur de h qui ralise un bon

E
(
f
(x))

f
(x)
=
(f (x uh) f (x))K(u)du.
f h
compromis entre le terme de biais et le terme de variance.
71

07/15

Apprentissage non paramtrique en rgression

On utilise un dveloppement de Taylor :


f (x uh) = f (x) f 0 (x)uh + f 00 (x)

(uh)2
(uh)l
+ . . . + f (l) (x uh)
2
l!

E[2i Kh2 (x Xi )]

avec 0 1. En utilisant lhypothse H1,


Ef (fh (x)) f (x)

f (l) (x uh)

1
l!

Puisque
Z 1
 Z
2

Ef
(fh (x) f (x)) dx =
0

|u| |K(u)|du.

E[f

K 2.


Biais2 (fh (x)) + V ar(fh (x)) dx,

on obtient

Z 1


1
.
Ef
(fh (x) f (x))2 dx C(, , kf k ) R2 h2 +
nh
0

n
1 X
V ar(Yi Kh (x Xi )).
n2 i=1

n
1 X
Es [Yi2 Kh2 (x Xi )]
n2 i=1

cest--dire h (nR2 )1/(1+2) , on obtient le rsultat souhait.

n
1 X
E[f 2 (Xi )Kh2 (x Xi ) + 2i Kh2 (x Xi )].
n2 i=1

En choisissant h de sorte que


R2 h2

De plus,
2

1 2 xy
K (
)dy
h2
h

1
V ar(fh (x)) C(kf k , ) .
nh

Calcul de la variance :
V ar(fh (x))

Il en rsulte que

Puisque f (, R), et en utilisant lhypothse H2, on obtient


|Ef (fh (x)) f (x)| R h

2
h

(uh)l
K(u)du
l!
Z
(uh)l
K(u)du.
=
(f (l) (x uh) f (l) (x))
l!
Z

= 2

(Xi )Kh2 (x

Estimation ponctuelle par des polynmes


locaux

Dans la section 2, nous nous tions donn une partition priori, elle ne
dpendait pas des observations. Lestimation de la fonction de rgression en
un point x tait construite partir des observations pour lesquelles Xi tait
dans le mme intervalle de la partition que x, ce qui conduit des estimateurs
irrguliers. Une ide naturelle est destimer la fonction de rgression en un
point x partir des observations pour lesquelles Xi est "proche" de x. Plus
gnralement, on introduit une fonction de poids (wi (x)) construite partir

xy
1
Xi )] =
f (y) 2 K 2 (
)dy
h
h
Z
1
=
f 2 (x uh) K 2 (u)du
h
Z
1
kf k2
K 2.
h
Z

1
,
nh

72

07/15

Apprentissage non paramtrique en rgression

0 (x) partir dun


dun noyau : wi (x) = K((Xi x)/h) qui va attribuer un poids plus important rgression linaire locale. On peut expliciter la valeur de a
aux observations pour lesquelles Xi est "proche" de x, et on minimise (en a) critre des moindres carrs pondrs : soit Xx la matrice
la somme des carrs pondre :

x)p
1 X1 x . . . (X1p!
n

(X2 x)p
X
1 X2 x . . .

p!
wi (x)(Yi a)2 .

Xx = .
.
.
.
.
i=1

.
.
.
(Xn x)p
La solution est donne par
1 Xn x . . .
p!
Pn
wi (x)Yi
a = fn (x) = Pi=1
,
(5) Soit Wx la matrice diagonale de i-me lment sur la diagonale wi (x). On a
n
alors :
i=1 wi (x)
n
ce qui correspond lestimateur noyau de la fonction de rgression ! On peut X w (x)(Y a a (X x). . . ap (X x)p )2 = (Y X a) W (Y X a).
i
i
0
1
i
i
x
x
x
p!
gnraliser la formule ci-dessus en remplaant la constante a par un polynme i=1
de degr p : on se donne un point x en lequel on souhaite estimer la fonction
Minimiser lexpression ci-dessus conduit lestimateur des moindres carrs
de rgression. Pour u dans un voisinage de x, on considre le polynme
pondrs :
ap
p
a
(x) = (Xx Wx Xx )1 Xx Wx Y,
Px (u, a) = a0 + a1 (u x) + . . . + (u x) .
p!
et lestimateur par polynmes locaux au point x correspond fn (x) = a
0 (x),
On cherche estimer la fonction de rgression au voisinage de x par le poly- cest--dire au produit scalaire du vecteur Y avec la premire ligne de la manme Px (u, a) o le vecteur a = (a0 , . . . ap ) est obtenu par minimisation de trice (Xx Wx Xx )1 Xx Wx . On obtient le thorme suivant :
la somme des carrs pondre :
T HORME 6. Lestimateur par polynmes locaux au point x est
n
X
ap
n
X
wi (x)(Yi a0 a1 (Xi x) . . . (Xi x)p )2 .
n (x) =
p!
f
li (x)Yi
i=1
i=1

La solution obtenue est le vecteur a


(x) = (
a0 (x), . . . a
p (x)), lestimateur local o l(x) = (l (x), . . . , l (x)),
1
n
de la fonction de rgression f est
l(x) = e1 (Xx Wx Xx )1 Xx Wx ,
a

(x)
p
fn (u) = a
0 (x) + a
1 (x)(u x) + . . . +
(u x)p .
avec e1 = (1, 0, . . . , 0).
p!
n
X
Au point x, o lon souhaite raliser lestimation, on obtient :
E(fn (x)) =
li (x)f (Xi )
i=1

fn (x) = a
0 (x).
n
X
Var(fn (x)) = 2
li2 (x).
Attention, cet estimateur ne correspond pas celui que lon obtient en (5),
i=1
qui correspond p = 0 (cest lestimateur noyau). Si p = 1, on parle de
73

07/15

Estimateurs par projection

appel estimateur par projection.

On se place dans le modle


Yi = f (Xi ) + i , i = 1, . . . , n.

Apprentissage non paramtrique en rgression

Exemple de la base Fourier On note (j , j 1) la base trigonomtrique de L2 ([0, 1]) :

(6)

1 (x) = 1[0,1] ,

2k (x) = 2 cos(2kx) k 1

2k+1 (x) = 2 sin(2kx) k 1.

Soit (j , j 1) une base orthonorme de L ([0, 1]). On se donne D 1 et


on pose
SD = Vect{1 , . . . , D }.

On obtient pour tout D 1, lestimateur

On note fD la projection orthogonale de f sur SD dans L2 ([0, 1]) :

fD =

hf, j ij ,

j=1

Nous allons noncer les performances de lestimateur, lorsque la fonction de


rgression f appartient une classe de fonctions priodiques, rgulires.

o
Z

j = hf, j i =

D FINITION 7. Soit L > 0 et = l + avec l N et ]0, 1]. On dfinit


la classe per (, R) par
n
per (, R) = f C l ([0, 1]), j = 0, . . . , l, f (j) (0) = f (j) (1),
o
x, y [0, 1], |f (l) (x) f (l) (y)| R|x y| .

f (x)j (x)dx.
0

Il est naturel destimer j par


n

1X
Yi j (Xi ).
j =
n i=1

T HORME 8. Dans le modle


i
Yi = f ( ) + i ,
n

En effet, si les Xi sont dterministes,


n

E(j ) =

1 XX
fD (x) =
Yi j (Xi )j (x).
n j=1 i=1

D
X

1X
f (Xi )j (Xi ),
n i=1

i = 1, . . . , n,

o les i sont i.i.d. de loi N (0, 2 ), lestimateur fD dfini pour tout x [0, 1]
par :
D X
n
X
et si f j est rgulire et les Xi quirpartis sur [0, 1], ceci est proche de j . Si
D (x) = 1
f
Yi j (Xi )j (x)
les Xi sont alatoires, de loi uniforme sur [0, 1], on a
n j=1 i=1
E(j ) = j .

avec D = [(nR2 )1/(1+2) ], vrifie pour tout > 1, R > 0,




2
2
sup
Ef kfD f k22 C(, )R 1+2 n 1+2 .

On introduit alors lestimateur


fD (x) =

f per (,R)

D
X

Nous introduisons, dans le chapitre suivant, la dfinition des bases dondelettes, qui sont utilises en particulier si la fonction estimer est trs irrgulire.

j j (x),

j=1

74

07/15

Apprentissage non paramtrique en rgression

R1
= 0 f (x)(x)dx est appel "coefficient dchelle" et les j,k =
R1
f (x)j,k (x)dx sont appels "dtails". On appelle approximation de f au
0
niveau de rsolution J la fonction

Bases dondelettes et estimation par


seuillage

Dans ce chapitre, on sintresse lestimation de fonctions spatialement inj


homognes, cest--dire qui peuvent tre trs rgulires dans certaines zones
1
J1
X 2X
puis trs irrgulires (prsentant des pics) dans certaines parties de lespace.
j,k j,k (x).
fJ = (x) +
Les bases dondelettes sont des bases orthonormes, qui sont bien adaptes
j=0 k=0
pour lestimation de fonctions de ce type. Nous supposerons ici que les Xi
appartiennent [0, 1], mais nous traiterons galement en TP des exemples en
Cette expression comporte 2J coefficients. Comme lespace engendr par les
dimension 2 dans le cadre du traitement dimages.
fonctions (, j,k , 0 j J 1, 0 k 2j 1) est lespace des fonctions constantes par morceaux sur les intervalles de longueur 1/2J , cest--dire
7.1 Bases dondelettes
lespace engendr par les fonctions (J,k , 0 k 2J 1), on a aussi
Base de Haar
La base de Haar est la base dondelettes la plus simple. Londelette pre (ou
fonction dchelle) est dfinie par

fJ =

o J,k =

Londelette mre (ou fonction dondelette) est dfinie par


(x)

R1
0

f (x)J,k (x)dx.

La base de Haar est simple dfinir, les fonctions sont support compact, nanmoins cette base fournit des approximations qui ne sont pas
rgulires. Il existe dautres bases dondelettes la fois support compact
et rgulires, par exemple les ondelettes de Daubechies (voir Daubechies
(1992) : Ten Lectures on wavelets).

= 1 si x [0, 1/2],
= 1 si x ]1/2, 1].

Pour tout j N, k N, on pose


j,k (x) = 2j/2 (2j x k),

J,k J,k (x),

k=0

= 1 si x [0, 1[,
= 0 sinon.

(x)

J
2X
1

j,k (x) = 2j/2 (2j x k).

7.2
T HORME 9. Les fonctions (, j,k , j N, k {0, . . . , 2j 1}) forment
une base orthonorme de L2 ([0, 1]).

Estimation dune fonction de rgression avec des


ondelettes

Les ondelettes sont bien adaptes pour lanalyse des signaux recueillis sur
Il rsulte de ce thorme que lon peut dvelopper une fonction de L2 ([0, 1]) une grille rgulire, dyadique. On les utilise en traitement du signal et de
limage. On considre le modle
dans cette base :
j

f (x) = (x) +

2X
1
X

j,k j,k (x).

Yk = f (

j=0 k=0

75

k
) + k , k = 1, . . . , N = 2J ,
N
07/15

10

Apprentissage non paramtrique en rgression

On considre les N = 2J premires fonctions dune base dondelettes sur Dbruitage par approximation linaire :
[0, 1] : (, j,k , 0 j J 1, 0 k 2j 1). On note W la matrice N N
On approxime la fonction de rgression f par projection orthogonale de f

sur
VJ0 :
(1/N ) 0,0 (1/N ) . . . J1,2J 1 (1/N )
j
JX
1

0 1 2X
.
.
.
.

f
=

+
j,k j,k ,
J0
W = (i/N ) 0,0 (i/N ) . . . J1,2J 1 (i/N )
N
j=0
k=0

.
.
.
.
(N/N ) 0,0 (N/N ) . . . J1,2J 1 (N/N )
ce qui correspond regarder seulement les 2J0 premiers coefficients dondeJ0

Dans le cas de la base de Haar, W est une matrice orthogonale (la base est lettes. Pour estimer fJ0 , dans , on ne garde que les 2 premiers coefficients,

orthonorme pour le produit scalaire discret). On note W la transpose de W les autres sont annuls, cela forme le vecteur not J0 , puis on reconstruit le
signal dbruit :
et

YJ0 = (W )1 J0 .
= W Y,
La fonction de rgression f est alors estime par
la tranforme en ondelettes du vecteur Y .
Il sagit de lestimateur des moindres carrs de dans le modle Y = W +
1
si W est orthogonale.
fJ0 (x) = ((x), 0,0 (x), . . . , J1,2J 1 (x))J0 .
N
N
N
X
X
1
l
l
1
l
j
j,k =
j,k ( )Yl =
j,k ( )f ( ) + l
JX
1
0 1 2X
N
N
N
N l=1
N l=1
J (x) =
f

(x)
+
j,k j,k (x)
0

j=0 k=0
N j,k + l

, j,k , j = 0, . . . J0 1, k = 0, . . . , 2j 1, 0, . . . , 0). Il faut


o J0 = N (
o
choisir le paramtre J0 de manire optimale.
N
1 X
l
Dbruitage par approximation non linaire via le seuillage :
l =
j,k ( )l
N
N l=1
La mthode de seuillage consiste minimiser en RN le critre pnalis
N
2 X
l

avec une pnalit de type l1 :


2
j,k
( )).
N (0,
N
N
l=1
C() = kY W k2 + 2kk1 ,
2 PN
l
2
2
Dans le cas de la base de Haar, N
PN
l=1 j,k ( N ) = . On peut reconstruire
le signal partir de sa transforme en ondelettes par la transformation inverse : avec kk1 = i=1 |i |. Nous supposerons ici que la matrice W est orthogonale, ce qui permet de trouver une solution explicite.

Y = (W )1 .
C() = kY k2 + kW k2 2hY, W i + 2kk1 ,

= kY k2 + kk2 2 W Y + 2kk1 .
Y = W dans
le cas de la base de Haar.
76

07/15

11

En notant =

Minimiser C() quivaut minimiser en


C 0 ()

Apprentissage non paramtrique en rgression

N (
, j,k , j = 0, . . . , J 1, k = 0, . . . 2j1 ), on obtient

= kk2 2 W Y + 2kk1
= 2

N
X

i i + 2

i=1

N
X

|i | +

i=1

N
X

fN (x) =
(x) +

i2 .

j
J1
1
X 2X

j,k j,k (x).

j=0 k=0

i=1

En pratique, il faut choisir le seuil , on prend gnralement =


p
Ceci est minimal si pour tout i, i est du mme signe que i . On a donc i i =
2 log(N ).

|i ||i |.
0

C ()

= 2

N
X

|i ||i | + 2

i=1

N 
X

N
X

|i | +

i=1

N
X

N
l
l
1 X
j,k ( )f ( ) + l
= W Y =
N
N
N l=1

i2

i=1

N
2 X
|i | (|i | )
(|i | )2 .

i=1

avec
 = W  NN (0, 2 IN ).

i=1

On peut montrer que

Minimiser ce critre en quivaut minimiser


N 
X

2
|i | (|i | ) .


sup |
i |

2 log(N ).

1iN

i=1

p
Les coefficients qui sont infrieurs 2 log(N ) sont considrs comme du
bruit et sont annuls. Ces mthodes de seuillages fournissent des estimateurs
permettant destimer des signaux trs irrguliers (notamment des fonctions
avec des pics).

La solution est donc :


|i | = |i | si |i |
= 0 si |i |

i = signe(i )(|i | )1|i | .


Il sagit du seuillage dit "doux" (soft thresholding), on applique une fonction
continue i . Le seuillage dur ("soft thresholding") consiste poser

Modles additifs gnraliss

Les mthodes destimation prsentes prcdemment vont se heurter au


flau de la dimension. Sous certaines hypothses de structure sur la fonction
de rgression, on peut contourner ce problme. Nous allons nous intresser ici
des fonctions de rgression additives. Nous nous plaons dans le modle

i = i 1|i | .
on reconstruit le signal dbruit :

Yi = f (X i ) + i ,

Y = W .

o les i sont i.i.d. centres de variance 2 , et les X i Rd . Nous supposons


que la fonction de rgression f est additive, cest--dire que

La fonction de rgression f est estime par


1

fN (x) = ((x), 0,0 (x), . . . , J1,2J 1 (x)).


N

f (X i,1 , . . . , X i,d ) = + f1 (X i,1 ) + . . . + fd (X i,d ).


77

07/15

12

Apprentissage non paramtrique en rgression

fj minimise

Pour assurer lunicit dune telle criture, on impose que


Z
fj (xj )dxj = 0, j = 1, . . . , d.

n
X

Yi

i=1

fk (Xi,k ) fj (Xi,j ) + j

(fj00 )2 (xj )dxj ,

k6=j

Nous allons dcrire dans ce chapitre une mthode destimation des compoPn
santes de ce modle additif, il sagit des modles GAM (Generalized Additive
fj := fj n1 i=1 fj (Xi,j ).
Models). Nous supposerons que chacune des fonctions unidimensionnelles est
estime laide de Splines comme dans la section 3.2. On introduit alors le
Arrt lorsque toutes les fonctions fj sont "stabilises".
critre pnalis :
Le mme algorithme peut tre utilise avec dautres mthodes dajustement

2
que les splines : estimateurs par polynmes locaux, noyaux, par projection ..
n
d
X
X
Les modles additifs gnraliss sont une extension des modles linaires,

Crit(, f1 , f2 , . . . , fp ) =
Yi
fj (Xi,j )
les rendant plus flexibles, tout en restant facilement interprtables. Ces moi=1
j=1
dles sont trs largement utiliss en modlisation statistique, nanmoins, en
Z
d
X
00 2
trs grande dimension, il est difficile de les mettre en uvre, et il sera utile de
+
j (fj ) (xj )dxj ,
les combiner un algorithme de slection (pour rduire la dimension).
j=1
o les j 0 sont des paramtres de rgularisation. On peut montrer que la
solution de la minimisation de ce critre est un modle de additif de splines
cubiques, chaque fonction fj tant un spline cubique de la variable xj , dont
les nuds correspondent aux valeurs diffrentes des Xi,j , i = 1, . . . n. Pour
garantir lunicit du minimiseur, on impose les contraintes
j = 1, . . . , d,

n
X

Kernel Regression Least Square


Un exemple lmentaire de machine noyau.
Lobjectif est ici de prsenter une mthode qui fournit des prdicteurs non
linaires.
Le point commun avec les mthodes prsentes prcdemment est quil
sagit dune mthode de rgularisation base sur un critre des moindres
carrs pnaliss.
On note (Xi , Yi )1in les observations, avec Xi Rp , Yi R.
On se donne un noyau k dfini sur Rp , symtrique, semi-dfini positif :

fj (Xi,j ) = 0.

i=1

Pn
Sous ces conditions, on obtient
= i=1 Yi /n, et si la matrice des variables
dentres Xi,j nest pas singulire, on peut montrer que le critre est strictement convexe, et admet donc un unique minimiseur. Lalgorithme suivant,
appel algorithme de backfitting, converge vers la solution :

k(x, y) = k(y, x);

n
X

ci cj k(Xi , Xj ) 0.

i,j=1

Exemples de noyaux sur Rp :

Algorithme de backfitting pour les modles GAM :

Linaire :
1. Initialisation :
=

Pn

i=1

k(Xi , Xj ) = Xi 0 Xj = hXi , Xj i

Yi /n, fj = 0 j.
Polynomial :

2. Pour l = 1 N iter
Pour j = 1 d

k(Xi , Xj ) = (Xi 0 Xj + 1)d


78

07/15

13

Apprentissage non paramtrique en rgression

La mthode fournit des estimateurs non linaires pour les noyaux polyno-

Gaussien :

k(Xi , Xj ) = exp

kXi Xj k
2

miaux ou gaussiens par exemple.


.

Un intrt important de la mthode prcdente est la possibilit de gn-

ralisation des prdicteurs Xi qui ne sont pas ncessairement dans Rp


mais qui peuvent tre de nature complexe (graphes, squence dADN ..)
ds lors que lon sait dfinir un noyau k(x, y) symtrique et semi-dfini
positif agissant sur ces objets.
Ceci fait appel la thorie des RKHS Reproducing Kernel Hilbert Spaces
ou Espaces de Hilbert noyau reproduisant.

On cherche un prdicteur de la forme

f (x) =

n
X

cj k(Xj , x), c Rn .

i=1

On note K la matrice dfinie par K i,j = k(Xi , Xj ).


La mthode consiste minimiser pour f de la forme ci-dessus le critre

10

des moindres carrs pnaliss :


n
X
(Yi f (Xi ))2 + kf k2K ,

Les mthodes bases sur les arbres reposent sur une partition de lespace
des variables dentre, puis on ajuste un modle simple (par exemple un modle constant) sur chaque lment de la partition. On suppose que lon a un
chantillon de taille n : (X i , Yi )1in avec X i Rd et Yi R. Lalgorithme CART permet de dfinir, partir de lchantillon dapprentissage, une
partition automatique de lespace des variables dentres X i . Supposons que
lespace o varient les X i soit partitionn en M rgions, notes R1 , . . . RM .
On introduit la classe F des fonctions constantes par morceaux sur chacune
des rgions :
M
X
F = {f, f (x) =
cm 1xRm }.

i=1

o
kf k2K

n
X

Arbres de rgression CART

ci cj k(Xi , Xj ).

i,j=1

De manire quivalente, on minimise pour c Rn le critre

kY Kck2 + c0 Kc.
La solution est explicite :
= (K + In )1 Y.
c

m=1

On obtient le prdicteur

f(x) =

n
X

Lestimateur des moindres carrs de la fonction de rgression f sur la classe F


minimise le critre
M
X
(Yi f (X i ))2 ,

cj k(Xj , x).

j=1

m=1

Y = K
c.

parmi les fonctions f F . La solution est

Avec le noyau correspondant au produit scalaire, on retrouve un estima-

teur linaire :
0

= (XX + In )
K = XX , c
f(x) =

n
X

f(x) =

Y,

M
X

cm 1xRm ,

m=1

cj hXj , xi.

o cm est la moyenne des observations Yi pour lesquelles X i Rm . Pour


construire la partition, CART procde de la manire suivante : tant donn

j=1

79

07/15

14

Apprentissage non paramtrique en rgression

une variable de sparation X (j) et un point de sparation s, on considre les on peut montrer quelle contient larbre T .
demi-espaces
R1 (j, s) = {X = (X (1) , . . . , X (d) )/X (j) s} et R2 (j, s) = {X/X (j) > s}.
La variable de sparation X (j) et un point de sparation s sont choisis de manire rsoudre
X
X
min[
(Yi c1 )2 +
(Yi c2 )2 ].
j,s

i,X i R1 (j,s)

Annexe : Choix dun paramtre de lissage par


validation croise

i,X i R2 (j,s)

Ayant dtermin j et s, on partitionne les donnes en les deux rgions correspondantes, puis on recommence la procdure de sparation sur chacune des
deux sous-rgions, et ainsi de suite sur chacune des sous-rgions obtenues. La
taille de larbre est un paramtre ajuster, qui va gouverner la complexit du
modle : un arbre de trop grande taille va conduire un sur-ajustement (trop
grande variance), au contraire un arbre de petite taille va mal sajuster la
fonction de rgression (biais trop lev). Il est donc ncessaire de choisir une
taille "optimale" de manire adaptative partir des observations. La stratgie
adopte consiste construire un arbre de grande taille, puis llaguer en introduisant un critre pnalis. On dira que T est un sous-arbre de T0 si T peut tre
obtenu en laguant T0 , cest--dire en rduisant le nombre de nuds de T0 . On
note |T | le nombre de nuds terminaux de larbre T et Rm , m = 1, . . . |T |, la
partition correspondant ces nuds terminaux. On note Nm le nombre dobservations pour lesquelles X i Rm . On a donc
cm =

1
Nm

Dans le cas des estimateurs noyaux, et pour les estimateurs par polynmes
locaux, on doit choisir la fentre h ; pour les estimateurs constants par morceaux (ou polynmes par morceaux), ainsi que pour les estimateurs par projection, on doit choisir un paramtre D (nombre de morceaux de la partition ou
dimension de lespace de projection sur lequel on ralise lestimation), pour les
arbres CART, on doit choisir le paramtre de la procdure dlaguage. Dans
ce chapitre, nous allons dcrire la mthode de validation croise, qui est une
mthode possible pour choisir ces paramtres, ce qui correspond slectionner
un estimateur dans une collection destimateurs.
Notons le paramtre choisir. Soit fn, lestimateur de la fonction de
rgression f associ ce paramtre . On considre lerreur quadratique
moyenne :
!
n
1X
R() = E
(fn, (X i ) f (X i ))2 .
n i=1

Yi ,

i,X i Rm

Idalement, on souhaiterait choisir de manire minimiser R(), mais cette


quantit dpend de la fonction inconnue f .

et on introduit le critre
C (T ) =

Le paramtre de rgularisation doit son tour tre calibr pour raliser un


bon compromis entre le biais et la variance de lestimateur ainsi obtenu, ou de
manire quivalente entre un bon ajustement aux donnes et une taille pas trop
importante pour larbre. La mthode de validation croise, dcrite en annexe,
peut tre utilise.

|T |
X

Une premire ide est destimer R() par lerreur dapprentissage :

(Yi cm )2 + |T |.

m=1 i,X i Rm

1X
(Yi fn, (X i ))2 ,
n i=1

Pour tout , on peut montrer quil existe un unique arbre minimal T qui
minimise le critre C (T ). Pour trouver larbre T , on supprime par tapes
successives
le nud interne de larbre T qui rduit le moins le critre mais cette quantit sous-estime R() et conduit un sur-ajustement. Ceci est
P P
m )2 . Ceci donne une succession de sous-arbres, dont d au fait que lon utilise les mmes donnes pour construire lestimateur fn,
m
i,X i Rm (Yi c
80

07/15

15

Apprentissage non paramtrique en rgression

On obtient donc E(R())


' 2 + R().

Le calcul de R()
peut savrer long, mais dans certains cas, il nest pas
ncessaire de recalculer n fois un estimateur de la fonction de rgression. Pour
la plupart des mthodes traites dans ce chapitre, lestimateur correspond un
algorithme de moyennes locales, cest--dire est de la forme

(qui est construit pour bien sajuster lchantillon dapprentissage) et pour estimer lerreur commise par cet estimateur. Pour avoir une meilleure estimation
du risque, on doit construire lestimateur du risque avec des observations qui
nont pas t utilises pour construire lestimateur fn, . Idalement, si on avait
assez dobservations, on pourrait les sparer en un chantillon dapprentissage
et un chantillon test. Ce nest gnralement pas le cas, et on souhaite utiliser
lensemble des donnes dapprentissage pour la construction de lestimateur.
On va alors avoir recours la validation croise. On partitionne lchantillon
dapprentissage en V blocs, nots B1 , . . . BV , de tailles peu prs identiques.
(v)
Pour tout v de 1 V , on note fn, lestimateur obtenu en supprimant de
lchantillon dapprentissage les donnes appartenant au bloc Bv .

fn, (x) =

n
X

Yj lj (x),

j=1

avec

Pn

j=1 lj (x)

= 1, et on peut montrer que


(i)
fn, (x) =

D FINITION 10. On dfinit le score de validation croise V -fold par :

n
X

(i)

Yj lj

(x),

j=1

N
1 X
(v(i))

CV = R()
=
(Yi fn,
(X i ))2 ,
N i=1

avec
(i)

lj

(v(i))

o fn,
est lestimateur de f obtenu en enlevant les observations du bloc
qui contient lobservation i.

(x)

0 si j = i

lj (x)
si j 6= i.
k6=i lk (x)

de qui miLe principe de la validation croise est de choisir une valeur

nimise la quantit R(). Un cas particulier correspond la validation croise


leave-one-out, obtenue quand on considre n blocs, chacun rduits une ob- T HORME 12. Sous les hypothses ci-dessus concernant lestimateur, le
servation.
score de validation croise leave-one-out est gal :
D FINITION 11. Le score de validation croise leave-one-out est dfini
par :
n
1X
(i)

CV = R()
=
(Yi fn, (X i ))2 ,
n i=1

1X

CV = R()
=
n i=1

!2
.

On trouve galement dans les logiciels une dfinition lgrement diffrente :

(i)
o fn, est lestimateur de f obtenu en enlevant lobservation (X i , Yi ).

D FINITION 13. On appelle score de validation croise gnralise la


quantit :
!2
n
1 X Yi fn, (X i )
GCV () =
,
n i=1
1 /n
Pn
o /n = i=1 li (X i )/n.

Lide de la validation croise leave-one-out vient du calcul suivant :


(i)
E((Yi fn, (X i ))2 )

Yi fn, (X i )
1 li (X i )

(i)
= E((Yi f (X i ) + f (X i ) fn, (X i ))2 )
(i)
= 2 + E((f (X i ) fn, (X i ))2 )

' 2 + E((f (X i ) fn, (X i ))2 ).


81

07/15

16

Apprentissage non paramtrique en rgression

Dans cette dfinition, li (X i ) est remplac par la moyenne des li (X i ). En pratique, les deux mthodes donnent gnralement des rsultats assez proches. En
utilisant lapproximation (1 x)2 1 + 2x pour x proche de 0, on obtient :
n

GCV ()
o
2 =

1
n

Pn

1X
2
2
(Yi fn, (X i ))2 +
,
n i=1
n

i=1 (Yi fn, (X i )) .

Cela correspond au critre Cp de Mallows.

82

07/15

Analyse Discriminante Dcisionnelle

o Sr est appele variance intraclasse (within) ou rsiduelle :

Analyse Discriminante Dcisionnelle

Sr = Xr 0 DXr =

m X
X

wi (xi g` )(xi g` )0 ,

`=1 i`

Rsum

et Se la variance interclasse (between) ou explique :

Une variable qualitative Y m modalits est modlis par p variables quantitatives X j , j = 1, . . . , p. Lobjectif est la prvision
de la classe dun ou de nouveaux individus sur lesquels les variables X j , j = 1, . . . , p sont galement observs. Diffrents modles danalyse discriminante dcisionnelle sont considrs : rgle
linaire et quadratique de dcision dans le cas gaussien, rgle non
paramtrique et k plus proches voisins.

Se = G DG = X e DX e =

m
X

w` (g` x)(g` x)0 .

`=1

2
2.1

Rgle de dcision issue de lAFD


Cas gnral : m quelconque

D FINITION 1. On affectera lindividu x la modalit de Y minimisant :


Retour au plan du cours

d2S1 (x, g` ), ` = 1, . . . , m.
r

Introduction

Cette distance se dcompose en


2

= (x g` )0 S1
d2S1 (x, g` ) = kx g` kS1
r (x g` )
Il sagit de la modlisation dune variable qualitative Y m modalits par
r
r
j
p variables quantitatives X , j = 1, . . . , p observes sur un mme chantillon et le problme revient donc maximiser
de taille n. Lobjectif de lanalyse discriminante dcisionnelle dborde le
1 0 1
simple cadre descriptif de lanalyse factorielle discriminante (AFD). Disposant
g`0 S1
r x g` Sr g` .
2
j
dindividus sur lesquels on a observ les X mais pas Y , il sagit de dcider
de la modalit T` de Y (ou de la classe correspondante) de ces individus. On Il sagit bien dune rgle linaire en x car elle peut scrire : A` x + b` .
parle aussi de problme daffectation. LADD sapplique donc galement la
2.2 Cas particulier : m=2
situation prcdente de la rgression logistique (m = 2) mais aussi lorsque le
nombre de classes est plus grand que 2.
Dans ce cas, la dimension r de lAFD vaut 1. Il ny a quune seule valeur
propre
non nulle 1 , un seul vecteur discriminant v 1 et un seul axe discriminant
Pour cela, on va dfinir et tudier dans ce chapitre des rgles de dcision
1
(ou daffectation) et donner ensuite les moyens de les valuer sur un seul in- 1 . Les 2 barycentres g1 et g2 sont sur 1 , de sorte que v est colinaire
dividu ; x = (x1 , . . . , xp ) dsigne les observations des variables explicatives g1 g2 .
sur cet individu, {g` ; ` = 1, . . . , m} les barycentres des classes calculs sur
Lapplication de la rgle de dcision permet daffecter x T1 si :
lchantillon et x le barycentre global.
1 0 1
1 0 1
0 1
g10 S1
r x g1 Sr g1 > g2 Sr x g2 Sr g2
La matrice de covariance empirique se dcompose en
2
2
cest--dire encore si
0 1 g1 + g2
(g1 g2 )0 S1
.
r x > (g1 g2 ) Sr
S = Se + Sr .
2
83

07/15

Analyse Discriminante Dcisionnelle

3.3

Remarque

Cots inconnus

Lestimation des cots nest pas du ressort de la Statistique et, sils ne sont
La rgle de dcision lie lAFD est simple mais elle est limite et insuffisante notamment si les variances des classes ne sont pas identiques. De plus, pas connus, on suppose simplement quils sont tous gaux. La minimisation
elle ne tient pas compte de lchantillonnage pour x : tous les groupes nont du risque ou rgle de Bayes revient alors affecter tout x la classe la plus
probable cest--dire celle qui maximise la probabilit conditionnelle a pospas ncessairement la mme probabilit doccurrence.
teriori : P [T` | x]. Par le thorme de Bayes, on a :

Rgle de dcision baysienne

3.1

P [T` et x]
P [T` ].P [x | T` ]
=
P [x]
P [x]
Pm
avec le principe des probabilits totales : P [x] = `=1 P [T` ].P [x | T` ].
P [T` | x] =

Introduction

Dans cette optique, on considre que la variable Y , qui indique le groupe


dappartenance dun individu, prend ses valeurs dans {T1 , . . . , Tm } et est munie dune loi de probabilit 1 , . . . , m . Les probabilits ` = P [T` ] reprsentent les probabilits a priori des classes ou groupes ` . On suppose que les
vecteurs x des observations des variables explicatives suivent, connaissant leur
classe, une loi de densit
f` (x) = P [x | T` ]

Comme P [x] ne dpend pas de `, la rgle consistera choisir T` maximisant


P [T` ].P [x | T` ] = ` .P [x | T` ];
P [x | T` ] est la probabilit dobserver x au sein de la classe T` . Pour une loi
discrte, il sagit dune probabilit du type P [x = xlk | T` ] et dune densit
f (x | T` ) pour une loi continue. Dans tous les cas nous utiliserons la notation
f` (x).

par rapport une mesure de rfrence 1 .

3.2

La rgle de dcision scrit finalement sous la forme :

Dfinition

(x) = arg max ` f` (x).


`=1,...,m

Une rgle de dcision est une application de dans {T1 , . . . , Tm } qui,


tout individu, lui affecte une classe connaissant x. Sa dfinition dpend du
contexte de ltude et prend en compte la
connaissance ou non de cots de mauvais classement,
connaissance ou non des lois a priori sur les classes,
nature alatoire ou non de lchantillon.
On dsigne par c` | k le cot du classement dans T` dun individu de Tk . Le
risque de Bayes dune rgle de dcision exprime alors le cot moyen :
Z
m
m
X
X
k
c` | k
R =
fk (x)dx
k=1

`=1

3.4

Dtermination des a priori

Les probabilits a priori ` peuvent effectivement tre connues a priori :


proportions de divers groupes dans une population, de diverses maladies. . . ;
sinon elles sont estimes sur lchantillon dapprentissage :
n`

b` = w` =
(si tous les individus ont le mme poids)
n
condition quil soit bien un chantillon alatoire susceptible de fournir des
estimations correctes des frquences. Dans le cas contraire il reste considrer
tous les ` gaux.

{x | (x)=T` }

o {x | (x)=T` } fk (x)dx reprsente la probabilit daffect x T` alors quil 3.5 Cas particuliers
est dans Tk .
Dans le cas o les probabilits a priori sont gales, cest par exemple le
cas du choix de probabilits non informatives, la rgle de dcision bay1. La mesure de Lebesgues pour des variables relles, celle de comptage pour des variables
qualitatives
sienne revient alors maximiser f` (x) qui est la vraisemblance, au sein
R

84

07/15

Analyse Discriminante Dcisionnelle

de T` , de lobservation x. La rgle consiste alors choisir la classe pour par la moyenne empirique de x dans la classe l pour lchantillon dapprentissage et ` par la matrice de covariance empirique SRl :
laquelle cette vraisemblance est maximum.
Dans le cas o m = 2, on affecte x T1 si :
X
1
SRl =
(xi g` )(xi g` )0
2
f1 (x)
n` 1
>
i`
f2 (x)
1
faisant ainsi apparatre un rapport de vraisemblance. Dautre part, lintro- pour ce mme chantillon.
duction de cots de mauvais classement diffrents selon les classes amne
4.2 Homoscdasticit
modifier la valeur limite 2 /1 .
Finalement, il reste estimer les densits conditionnelles f` (x). Les diffOn suppose dans ce cas que les lois de chaque classe partagent la mme
rentes mthodes destimation considres conduisent aux mthodes classiques structure de covariance ` = . Supprimant les termes indpendants de l, le
de discrimination baysienne objets des sections suivantes.
critre maximiser devient

1
0 1
ln(` ) 0` 1
` ` + ` ` x
2

Rgle baysienne avec modle normal

On suppose dans cette section que, conditionnellement T` , x = qui est cette fois linaire en x. Les moyennes sont estimes comme pr`
(x1 , . . . , xp ) est lobservation dun vecteur alatoire gaussien N (` , ` ) ; ` cdemment tandis que est estime par la matrice de covariance intraclasse
est un vecteur de Rp et ` une matrice (p p) symtrique et dfinie-positive. empirique :
m
La densit de la loi, au sein de la classe T` , scrit donc :
1 XX


SR =
(xi g` )(xi g` )0 .
1
1
n

m
`=1 i`
f` (x) =
exp (x ` )0 1
` (x ` ) .
2
2(det(` ))1/2
Si, de plus, les probabilits ` sont gales, aprs estimation le critre scrit :
Laffectation de x une classe se fait en maximisant ` .f` (x) par rapport l
1 0 1
soit encore la quantit :
x` 0 S1
R x x` SR x` .
2
1
1
ln(` ) ln(det(` )) (x ` )0 1
` (x ` ).
2
2
On retrouve alors le critre de la section 2 issu de lAFD.

4.1

Htroscdasticit

4.3

Dans le cas gnral, il ny a pas dhypothse supplmentaire sur la loi de


x et donc les matrices ` sont fonction de `. Le critre daffectation est alors
quadratique en x. Les probabilits ` sont supposes connues mais il est ncessaire destimer les moyennes ` ainsi que les covariances ` en maximisant, compte tenu de lhypothse de normalit, la vraisemblance. Ceci conduit
estimer la moyenne
c` = g`

Commentaire

Les hypothses : normalit, ventuellement lhomoscdasticit, doivent tre


vrifies par la connaissance a priori du phnomne ou par une tude pralable
de lchantillon dapprentissage. Lhypothse dhomoscdasticit, lorquelle
est vrifie, permet de rduire trs sensiblement le nombre de paramtres estimer et daboutir des estimateurs plus fiables car de variance moins leve.
Dans le cas contraire, lchantillon dapprentissage doit tre de taille importante.
85

07/15

Analyse Discriminante Dcisionnelle

Rgle baysienne avec estimation non paramtrique

h est appel largeur de fentre ou paramtre de lissage ; plus h est grand, plus
lestimation fb de f est rgulire. Le noyau K est choisi centr en 0, unimodal
et symtrique. Les cas les plus usuels sont la densit gaussienne, celle uniforme
sur [1, 1] ou triangulaire : K(x) = [1 |x|]1[1,1] (x). La forme du noyau
5.1 Introduction
nest pas trs dterminante sur la qualit de lestimation contrairement la
En Statistique, on parle destimation non paramtrique ou fonctionnelle valeur de h.
lorsque le nombre de paramtres estimer est infini. Lobjet statistique esApplication lanalyse discriminante
timer est alors une fonction par exemple de rgression y = f (x) ou encore
une densit de probabilit. Dans ce cas, au lieu de supposer quon a affaire
La mthode du noyau est utilise pour calculer une estimation non paramune densit de type connu (normale) dont on estime les paramtres, on cherche trique de chaque densit f` (x) qui sont alors des fonctions dfinies dans Rp .
une estimation fb de la fonction de densit f . Pour tout x de R, f (x) est donc Le noyau K dont donc tre choisi multidimensionnel et


estime par fb(x).
1 X x xi
b
f` (x) =
.
K
Cette approche trs souple a lavantage de ne pas ncessiter dhypothse
n` hp
h
i
`
particulire sur la loi (seulement la rgularit de f pour de bonnes proprits
de convergence), en revanche elle nest applicable quavec des chantillons de Un noyau multidimensionnel peut tre dfini partir de la densit usuelle de
grande taille dautant plus que le nombre de dimensions p est grand (curse of lois : multinormale Np (0, p ) ou uniforme sur la sphre unit ou encore par
dimensionality).
produit de noyaux unidimensionnels :
Dans le cadre de lanalyse discriminante, ces mthodes permettent destimer
p
Y
directement les densits f` (x). On considre ici deux approches : la mthode
K(xj ).
K (x) =
du noyau et celle des k plus proches voisins.
j=1

5.2

Mthode du noyau

5.3

k plus proches voisins

Estimation de densit

Cette mthode daffectation dun vecteur x consiste enchaner les tapes


dcrites
dans lalgorithme ci-dessous.
Soit y1 , . . . , yn n observations quipondres dune v.a.r. continue Y de
densit f inconnue. Soit K(y) (le noyau) une densit de probabilit unidimensionnelle (sans rapport avec f ) et h un rel strictement positif. On appelle Algorithme des k plus proches voisins (k-nn)
estimation de f par la mthode du noyau la fonction
1. Choix dun entier k : 1 k n.


n
2. Calculer les distances dM (x, xi ) , i = 1, . . . , n o M est la mtrique
1 X
y yi
K
.
fb(y) =
de Mahalanobis cest--dire la matrice inverse de la matrice de variance
nh i=1
h
(ou de variance intraclasse).
3. Retenir les k observations x(1) , . . . , x(k) pour lesquelles ces distances
Il est immdiat de vrifier que
sont les plus petites.
Z +
4.
Compter
les nombres de fois k1 , . . . , km que ces k observations appay R, fb(y) 0 et
fb(y)dy = 1;
raissent
dans
chacune des classes.

86

07/15

Analyse Discriminante Dcisionnelle

TABLE 1 Cancer : estimations des taux derreurs de prvision obtenus par TABLE 2 Ozone : estimations des taux derreurs de prvision obtenus par
diffrents types danalyse discriminante
diffrents types danalyse discriminante
Mthode
linaire
kNN

apprentissage
1,8
2,5

validations croise
3,8
2,7

test
3,6
2,9

Mthode
linaire
quadratique

validations croise
12,5
14,8

test
12,0
12,5

TABLE 3 Banque : estimations des taux derreurs de prvision obtenus par


diffrents types danalyse discriminante

5. Estimer localement les densits conditionnelles par


fb` (x) =

apprentissage
11,9
12,7

k`
;
kVk (x)

Mthode
linaire
quadratique
kNN

o Vk (x) est le volume de lellipsode {z|(z x)0 M(z x) =


dM (x, x(k) )}.

apprentissage
16,5
17,8
23,5

validations croise
18,3
22,0
29,8

test
18
30
29

Pour k = 1, x est affect la classe du plus proche lment.


Comme toute technique, celles prsentes ci-dessus ncessitent le rglage 6.2 Concentration dozone
dun paramtre (largeur de fentre ou nombre de voisins considrs). Ce choix
Dans cet exemple aussi, deux variables sont qualitatives : le type de jour
sapparente un choix de modle et ncessite le mme type dapproche sa2
modalits
ne pose pas de problme mais remplacer la station par un entier
voir loptimisation dun critre (erreur de classement, validation croise.
est plutt abusif. Dailleurs, la mthode des plus proches voisins ne lacceptent
pas, une transformation des donnes serait ncessaire.

6.1

Exemples

6.3

Cancer du sein

Carte visa

Comme pour les donnes sur le cancer, les donnes bancaires posent un
problme car elles associent diffrents types de variables. Il est possible de le
contourner, pour celles binaires, en considrant quantitative, lindicatrice de
la modalit (0 ou 1). Pour les autres, certaines procdures (DISQUAL pour
discrimination sur variables qualitatives) proposent de passer par une analyse
factorielle multiple des correspondances pour rendre tout quantitatif mais ceci
nest pas implment de faon standard dans les logiciels dorigine amricaine.

Par principe, lanalyse discriminante sapplique des variables explicatives


quantitatives. Ce nest pas le cas des donnes qui sont au mieux ordinales. Il
est clair que construire une fonction de discrimination comme combinaison de
ces variables na gure de sens. Nanmoins, en sattachant uniquement la
qualit de prvision sans essayer de construire une interprtation du plan ou de
la surface de discrimination, il est dusage dutiliser lanalyse discriminante de
faon "sauvage". Les rsultats obtenus sont rsums dans le tableau 1. Lanalyse discriminante quadratique, avec matrice de variance estime pour chaque
classe na pas pu tre calcule. Une des matrices nest pas inversible.

Pour lanalyse discriminante, R ne propose pas de slection automatique de


variable mais inclut une estimation de lerreur par validation croise. Les rsultats trouvs sont rsums dans le tableau 3. Seule une discrimination linaire
87

07/15

Analyse Discriminante Dcisionnelle

F IGURE 1 Banque : Deux excutions de loptimisation du choix de k par


validation croise.
semble fournir des rsultats raisonnables, la recherche dune discrimination
quadratique napporte rien pour ces donnes. De son ct, SAS propose une
slection automatique (procdure stepdisc) mais les rsultats obtenus ne sont
pas sensiblement meilleurs aprs slection.
Le choix de k dans la mthode des k plus proches voisins est souvent dlicat ; chaque excution de lestimation de lerreur par validation croise conduit
des rsultats alatoires et trs diffrents et k optimal oscille entre 10 et 30
(fig. 1) !

88

07/15

dterminer une squence de nuds.


Un nud est dfini par le choix conjoint dune variable parmi les explicatives et dune division qui induit une partition en deux classes. Implicitement, chaque nud correspond donc un sous-ensemble de lchantillon
auquel est applique une dichotomie.
Une division est elle-mme dfinie par une valeur seuil de la variable
quantitative slectionne ou un partage en deux groupes des modalits si
la variable est qualitative.
la racine ou nud initial correspond lensemble de lchantillon ; la
procdure est ensuite itre sur chacun des sous-ensembles.
Lalgorithme considr ncessite :

Arbres binaires de dcision


Rsum
Mthodes de construction darbres binaires de dcision, modlisant
une discrimination (classification trees) ou une rgression (regression trees). Principes et algorithmes de construction des arbres, critres dhomognit et construction des nuds, lagage pour lobtention dun modle parcimonieux.
Retour au plan du cours

1. la dfinition dun critre permettant de slectionner la meilleure division parmi toutes celles admissibles pour les diffrentes variables ;

Introduction

2. une rgle permettant de dcider quun nud est terminal : il devient ainsi
une feuille ;

Complmentaires des mthodes statistiques plus classiques : analyse discriminante, rgression linaire, les solutions obtenues sont prsentes sous une
forme graphique simple interprter, mme pour des nophytes, et constituent une aide efficace pour laide la dcision. Elles sont bases sur un dcoupage, par des hyperplans parallles aux axes, de lespace engendr par les
variables explicatives. Nommes initialement partitionnement rcursif ou segmentation, les dveloppements importants de Breiman et col. (1984)[1] les
ont fait connatre sous lacronyme de CART : Classification and Regression
Tree ou encore de C4.5 (Quinlan, 1993) dans la communaut informatique.
Lacronyme correspond deux situations bien distinctes selon que la variable
expliquer, modliser ou prvoir est qualitative (discrimination ou en anglais
classification) ou quantitative (rgression).

2
2.1

Arbres binaires de dcision

3. laffectation de chaque feuille lune des classes ou une valeur de la


variable expliquer.
Le point (ii) est le plus dlicat. Il correspond encore la recherche dun modle parcimonieux. Un arbre trop dtaill, associ une sur-paramtrisation,
est instable et donc probablement plus dfaillant pour la prvision dautres observations. La contribution majeure de Breiman et col. (1984)[1] est justement
une stratgie de recherche darbre optimal. Elle consiste
1. construire larbre maximal Amax ,
2. ordonner les sous-arbres selon une squence embote suivant la dcroissance dun critre pnalis de dviance ou de taux de mal-classs,
3. puis slectionner le sous-arbre optimal ; cest la procdure dlagage.

Construction dun arbre binaire

Tous ces points sont dtaills ci-dessous.

Principe

2.2

Critre de division

Les donnes sont constitues de lobservation de p variables quantitatives


Une division est dite admissible si aucun des deux nuds descendants qui
ou qualitatives explicatives X j et dune variable expliquer Y qualitative m en dcoulent nest vide. Si la variable explicative est qualitative ordinale avec
modalits {T` ; ` = 1 . . . , m} ou quantitative relle, observes sur un chan- m modalits, elle fournit (m 1) divisions binaires admissibles. Si elle est
tillon de n individus.
seulement nominale le nombre de divisions passe 2(m1) 1. Une variable
La construction dun arbre de discrimination binaire (cf. figure 2.1) consiste quantitative se ramne au cas ordinal.
89

07/15

Arbres binaires de dcision

Parmi toutes les divisions admissibles du nud k, lalgorithme retient celle


qui rend la somme D(k+1) + D(k+2) des dsordres des nuds fils minimales.
Ceci revient encore rsoudre chaque tape k de construction de larbre :

Revenu < 10000

@
Revenu > 10000
@
@
@
@
@ 



Sexe=H @ Sexe=F Age < 50 @ Age > 50
@
@
@
@
@
@
@
@ 

Tj
Tj
T`

max

{divisions deX j ;j=1,p}

Dk (D(k+1) + D(k+2) )

Graphiquement, la longueur de chaque branche peut tre reprsente proportionnellement la rduction de lhtrognit occasionne par la division.

2.3

Rgle darrt

La croissance de larbre sarrte un nud donn, qui devient donc terminal ou feuille, lorsquil est homogne cest--dire lorsquil nexiste plus de
partition admissible ou, pour viter un dcoupage inutilement fin, si le nombre
dobservations quil contient est infrieur une valeur seuil choisir en gnral
entre 1 et 5.

F IGURE 1 Exemple lmentaire darbre de classification.

2.4

Affectation

Dans le cas Y quantitative, chaque feuille est associe une valeur : la


moyenne des observations associes cette feuille. Dans le cas qualitatif,
chaque feuille ou nud terminal est affect une classe T` de Y en considrant le mode conditionnel :
celle la mieux reprsente dans le nud et il est ensuite facile de compter
le nombre dobjets mal classs ;
la classe a posteriori la plus probable au sens baysien si des probabilits
a priori sont connues ;
la classe la moins coteuse si des cots de mauvais classement sont donns.

Attention, lalgorithme tend favoriser la slection de variables explicatives


avec beaucoup de modalits car celles-ci offrent plus de souplesse dans la
construction de deux sous groupes. Ces variables sont utiliser avec parcimonie car susceptibles de favoriser un sur-apprentissage ; il est souvent prfrable de rduire le nombre de modalits par fusion de modalits comme cest
classique en analyse des correspondances multiple.
Le critre de division repose sur la dfinition dune fonction dhtrognit
ou de dsordre explicite dans la section suivante. Lobjectif tant de partager
les individus en deux groupes les plus homognes au sens de la variable
expliquer. Lhtrognit dun nud se mesure par une fonction non ngative
qui doit tre

1. nulle si, et seulement si, le nud est homogne : tous les individus appartiennent la mme modalit ou prennent la mme valeur de Y .

Critres dhomognit
Deux cas sont considrer, les arbres de rgression ou de classification.

2. Maximale lorsque les valeurs de Y sont quiprobables ou trs disperses. 3.1

Y quantitative

La division du nud k cre deux fils, gauche et droit. Pour simplifier, ils
On considre le cas plus gnral dune division en J classes. Soit nP
individus
J
sont nots (k + 1) et (k + 2) mais une re-numrotation est ncessaire pour et une partition en J classes de tailles nj ; j = 1, . . . , J avec n = j=1 nj .
respecter la squence de sous-arbres qui sera dcrite dans la section suivante. On numrote i = 1, . . . , nj les individus de la jme classe. Soit ij (resp.yij )
90

07/15

Arbres binaires de dcision

la valeur thorique (resp. lobservation) de Y sur lindividu (i, j) : le ime Sous hypothse gaussienne :
de la jme classe. Lhtrognit de la classe j est dfinie par :
Yij = .j + uij
nj
nj
X
X
ij .
(ij .j )2 avec .j =
Dj =
la log-vraisemblance

+ uij N (0, 2 ),

i=1

i=1

Lhtrognit de la partition est dfinie par :


D=

avec

J
X

Dj =

log L = Cste

nj
J X
X
(ij .j )2 ;

est rendue maximale pour

j=1 i=1

j=1

J nj
n
1 XX
log( 2 ) 2
(yij .j )2
2
2 j=1 i=1

cest linertie intra (homogne la variance intraclasse) qui vaut D = 0 si et


seulement si ij = .j pour tout i et tout j.

L = sup log L = Cste

J nj
n
1 XX
(yij y.j )2 .
log( 2 ) 2
2
2 j=1 i=1

La diffrence dhtrognit entre lensemble non partag et lensemble


Pour le modle satur (une classe par individu) : yij = ij + uij , cet optimum
partag selon la partition J est
devient :
n
nj
nj
J X
J X
J nj
X
X
Ls = sup log L = Cste log( 2 ).
1 XX
2
2
2

=
(ij .. )
(ij .j ) o .. =
ij .
n
j=1 i=1
j=1 i=1
j=1 i=1
La dviance (par rapport au modle satur) sexprime alors comme :
J
X
=
nj (.. .j )2 ;
b
D = 2 2 (Ls L ) = D.
j=1

Le raffinement de larbre est donc associ une dcroissance, la plus rapide


cest encore homogne la variance inter classe ou dsordre des barycentres
possible, de la dviance. Cest loptique retenue dans le logiciel Splus. On peut
qui vaut = n1 n2 ((.1 .2 )2 pour J = 2 dans le cas qui nous intresse.
encore dire que la division retenue est celle qui rend le test de Fisher (analyse
Lobjectif, chaque tape, est de maximiser cest--dire de trouver la de variance), comparant les moyennes entre les deux classes, le plus significatif
variable induisant une partition en 2 classes associe une inertie (variance) possible.
intraclasse minimale ou encore qui rend linertie (la variance) interclasse la
3.2 Y qualitative
plus grande.
Les quantits sont estimes :
Dj

cj
par D

nj
X
(yij y.j )2
i=1

b
par D

J
X
j=1

cj =
D

nj
J X
X
(yij y.j )2 .
j=1 i=1

Dans ce cas, il existe plusieurs fonctions dhtrognit, ou de dsordre


dun nud. Ce peut tre le nombre de mal classs, un critre dfini partir de
de Gini. Un dernier
(1) la notion dentropie ou encore partir de la concentration
critre est bas sur la statistique de test du 2 . En pratique, il savre que
le choix du critre importe moins que celui du niveau dlagage. Le premier
(2) critre (entropie) est souvent prfr (Splus) car il sinterprte encore comme
un terme de dviance mais dun modle multinomial cette fois.
91

07/15

Critre dentropie

Arbres binaires de dcision

tgories de paramtre :

On considre une variable expliquer qualitative, Y m modalits ou catgories T numrotes ` = 1, . . . , m. Larbre induit une partition pour laquelle
n+k dsigne leffectif de la kme classe ou kme nud. Soit
p`k = P [T` | k] avec

m
X

pk = (p1k , . . . , pmk ),

avec

m
X

p`k = 1.

`=1

Pour ce modle, la logvraisemblance :


p`k = 1

`=1

log L = Cste +
la probabilit quun lment du k-ime nud appartienne la `-ime classe.

K X
m
X

n`k log(p`k )

k=1 `=1

Le dsordre du k-ime nud, dfini partir de lentropie, scrit avec la


est rendue maximale pour
convention 0 log(0) = 0. :
Dk = 2

m
X

L = sup log L = Cste +

n+k p`k log(p`k )

p`k

`=1

K
X
k=1

Dk = 2

K X
m
X

n`k log

k=1 `=1

n`k
.
n+k

Pour le modle satur (une catgorie par objet), cet optimum prend la valeur de
la constante et la dviance (par rapport au modle satur) sexprime comme :

tandis que lhtrognit ou dsordre de la partition est encore :


D=

K X
m
X

n+k p`k log(p`k ).


D = 2

k=1 `=1

K X
m
X
k=1 `=1

n`k log

n`k
b
= D.
n+k

Cette quantit est positive ou nulle, elle est nulle si et seulement si les probabilits p`k ne prennent que des valeurs 0 sauf une gale 1 correspondant
Comme pour lanalyse discriminante dcisionnelle, les probabilits condilabsence de mlange.
tionnelles sont dfinies par la rgle de Bayes lorsque les probabilits a priori
Dsignons par n`k leffectif observ de la `-ime classe dans le k-ime ` dappartenance la `-ime classe sont connues. Dans le cas contraire, les
nud. Un nud
k de larbre reprsente un sous-ensemble de lchantillon def- probabilits de chaque classe sont estimes sur lchantillon et donc les proPm
fectif n+k = `=1 n`k .
babilits conditionnelles sestiment simplement par des rapports deffectifs :
p`k est estime par n`k /n+k . Enfin, il est toujours possible dintroduire, lorsLes quantits sont estimes :
quils sont connus, des cots de mauvais classement et donc de se ramener
m
X
la minimisation dun risque baysien.
n`k
n`k
ck = 2
Dk parD
n+k
log
(3)
Remarques :
n+k
n+k
`=1
La
dentropie peut tre remplace par lindice de Gini 1
K X
m
K
Pmfonction
X
X
2
n
`k
p
qui
conduit une autre dfinition de lhtrognit galement
b =
ck = 2
`=1 `k
n`k log
D par D
D
.
(4)
n+k
utilise mais qui ne sinterprte pas en terme de dviance dun modle
k=1 `=1
k=1
comme dans le cas de lentropie. Les rsultats sont en gnral assez simiConsidrons, pour chaque classe ou nud k, un modle multinomial m calaires.
92

07/15

o Dk (A) est le nombre de mal classs ou la dviance ou le cot de mauvais


classement de la kme feuille de larbre A.

La fonction dhtrognit dans le cas de larbre de rgression revient

chercher la division rendant le test de Fisher le plus significatif. De


faon analogue, lalgorithme CHAID (CHi-square Automatic Interaction
Detector) utilise la statistique dun test du Chi-deux afin de dfinir la fonction dhtrognit. Cette option de lalgorithme est implmente dans
les logiciels SAS et SPSS.
Une variante de lalgorithme permet de prendre en compte des observations avec donnes manquantes de certaines variables explicatives. Il suffit de dterminer pour chaque nuds une squence ordonne de divisions
possibles. Au moment de calculer une prvision, si une donne manque
pour lapplication dune division ou rgle de dcision, la division suivante est prise en compte jusqu ce quune dcision soit prise chacun
des nouds rencontrs.

Arbres binaires de dcision

La construction de la squence darbres embots repose sur une pnalisation de la complexit de larbre :
C(A) = D(A) + K.
Pour = 0, Amax = AK minimise C(A). En faisant crotre , lune des
divisions de AK , celle pour laquelle lamlioration de D est la plus faible
(infrieure ), apparat comme superflue et les deux feuilles obtenues sont
regroupes (lagues) dans le nud pre qui devient terminal ; AK devient
AK1 .
Le procd est itr pour la construction de la squence embote :

lagage

Amax = AK AK1 A1

Dans des situations complexes, la dmarche propose conduit des arbres


extrmement raffins et donc des modles de prvision trs instables car
fortement dpendants des chantillons qui ont permis leur estimation. On se
trouve donc dans une situation de sur-ajustement viter au profit de modles
plus parcimonieux donc plus robuste au moment de la prvision. Cet objectif
est obtenu par une procdure dlagage ou (pruning) de larbre.

o A1 , le nud racine, regroupe lensemble de lchantillon.


Un graphe reprsente la dcroissance ou boulis de la dviance (ou du taux
de mal classs) en fonction du nombre croissant de feuilles dans larbre ou,
cest quivalent, en fonction de la valeur dcroissante du coefficient de pnalisation .

4.2

Le principe de la dmarche, introduite par Breiman et col. (1984)[1],


consiste construire une suite embote de sous-arbres de larbre maximum
par lagage successif puis choisir, parmi cette suite, larbre optimal au sens
dun critre. La solution ainsi obtenue par un algorithme pas pas nest pas
ncessairement globalement optimale mais lefficacit et la fiabilit sont prfres loptimalit.

Recherche de larbre optimal

Les procdures dlagage diffrent par la faon destimer lerreur de prdiction. Le graphe prcdemment obtenu peut se lire comme un boulis de valeur
propre. Quand lamlioration du critre est jug trop petite ou ngligeable,
on lague larbre au nombre de feuilles obtenues. Lvaluation de la dviance
ou du taux de mauvais classement estim par re-substitution sur lchantillon
dapprentissage est biaise (trop optimiste). Une estimation sans biais est obte4.1 Construction de la squence darbres
nue par lutilisation dun autre chantillon (validation) ou encore par validation
Pour un arbre A donn, on note K le nombre de feuilles ou nuds terminaux croise. La procdure de validation croise prsente dans ce cas une particulade A ; la valeur de K exprime la complexit de A. La mesure de qualit de rit car la squence darbres obtenue est diffrente pour chaque estimation sur
discrimination dun arbre A sexprime par un critre
lun des sous-chantillons. Lerreur moyenne nest pas, dans ce cas, calcule
pour chaque sous-arbre avec un nombre de feuilles donn mais pour chaque
K
X
sous-arbre correspondant une valeur fixe du coefficient de pnalisation.
D(A) =
Dk (A)
la valeur de minimisant lestimation de lerreur de prvision, correspond
k=1
93

07/15

Arbres binaires de dcision

consquence de la structure hirarchique : une erreur de division en dbut


darbre est propage tout au long de la construction.
De plus le dcoupage de lespace des solutions par un ensemble dhyperplans parallles aux axes conduit des solutions trs abruptes, sans possibilit de lisser les angles. Le bagging est prsent plus loin comme
une solution pour rduire la variance dun arbre et lisser le dcoupage en
hyperplans.
Plusieurs variantes on t proposes puis abandonnes : arbres ternaires
plutt que binaires, rgle de dcision linaire plutt que dichotomique.
La premire renforce inutilement linstabilit alors que si une dcision
ternaire est indispensable, elle est la succession de deux divisions binaires.
La deuxime rend linterprtation trop complexe donc le modle moins
utile.

ensuite larbre jug optimal dans la squence estime sur tout lchantillon
dapprentissage.
Le principe de slection dun arbre optimal est donc dcrit dans lalgorithme
ci-dessous.
A LGORITHME 1 : Slection darbre ou lagage
Construction de larbre maximal Amax .
Construction de la squence AK . . . A1 darbres embots.
Estimation sans biais (chantillon de validation ou validation croise) des
dviances D(AK ), . . . , D(A1 ).
Reprsentation de D(Ak ) en fonction de k ou de .
Choix de k rendant D(Ak ) minimum.

4.3

Remarques pratiques

Ces mthodes sont surtout efficaces que pour des tailles dchantillons

5.1

importantes et elles sont trs calculatoires. Les deux raisons : modle graphique de dcision simple interprter, puissance de calcul ncessaire,
suffisent expliquer leur popularit rcente.
Elles ne requirent pas dhypothses sur les distributions des variables et
semblent particulirement adaptes au cas o les variables explicatives
sont nombreuses. En effet, la procdure de slection des variables est intgre lalgorithme construisant larbre et les interactions sont prises en
compte. Il est ainsi frquent dassocier arbre et rgression logistique. Les
premires division dun arbre sont utilises pour construire une variable
synthtique intgre une rgression logistique afin de slectionner les
quelques interactions apparaissant comme les plus pertinentes.
En classification, la recherche de division est par ailleurs invariable par
transformation monotone des variables explicatives quantitatives. Cela
confre une certaine robustesse vis--vis de possibles valeurs atypiques.
La dfinition dun arbre ncessite en dernier lieu une optimisation dlicate
de la complexit par lagage afin dviter le sur-ajustement.
Cet algorithme suivant une stratgie pas pas hirarchise, peut, comme
dans le cas du choix de modle en rgression, passer cot dun optimum global ; il se montre par ailleurs trs instable et donc sensible des
fluctuations dchantillon. Cette instabilit ou variance de larbre est une

Exemples
Cancer du sein

Un arbre de discrimination est estim sur lchantillon dapprentissage,


lagu par validation croise et reprsent dans la figure 2. La prvision de
lchantillon test par cet arbre conduit la matrice de confusion :
predq.tree benign malignant
benign
83
5
malignant
3
46
avec un taux derreur estim 5,8%.

5.2

Concentration dozone

Arbre de rgression
Un arbre de rgression est estim pour prvoir la concentration dozone.
La librairie rpart du logiciel R prvoit une procdure dlagage par validation croise afin doptimiser le coefficient de pnalisation. Larbre (figure 3)
montre bien quelles sont les variables importantes intervenant dans la prvision. Mais, compte tenu de la hirarchisation de celles-ci, due la structure
arborescente du modle, cette liste nest pas similaire celle mise en vidence
94

07/15

Arbres binaires de dcision

benign
|
358/188

Cell.shape=1,2
Cell.shape=3,4,5,6,7,8,9,10
benign
318/4

malignant
40/184

Bare.nuclei=1,2
Bare.nuclei=3,4,5,6,7,8,9,10
benign
32/20

malignant
8/164

Epith.c.size=1,2,3
Epith.c.size=4,5,6,7,8,9,10
benign
30/1

malignant
2/19

F IGURE 2 Cancer : arbre de dcision lagu par validation croise (R).

dans le modle gaussien. On voit plus prcisment ici la complexit des interactions entre la prdiction par MOCAGE et leffet important de la temprature
dans diffrentes situations. Les rsidus de lchantillon test du modle darbre
de rgression prennent une structure particulire (figure 4) car les observations
communes une feuille terminale sont affectes de la mme valeur. Il y a donc
une colonne par feuille. La prcision de lajustement peut sen trouver altre
(R2 = 0, 68) mais il apparat que ce modle est moins soumis au problme
dhtroscdasticit trs prsent dans le modle gaussien.
Arbre de discrimination
Un modle est estim afin de prvoir directement le dpassement dun seuil.
Il est de complexit similaire larbre de rgression mais ne fait pas jouer
le mme rle aux variables. La temprature remplace la prvision MOCAGE
de lozone comme variable la plus importante. Les prvisions de dpassement
de seuil sur lchantillon test sont sensiblement moins bonnes que celle de la
rgression, les taux sont de 14,4% avec larbre de rgression et de 14,5% directement avec larbre de discrimination. Les matrices de confusion prsentent les
mmes biais que les modles de rgression en omettant un nombre important

F IGURE 3 Ozone : arbre de rgression lagu par validation croise (R).

95

07/15

Arbres binaires de dcision

100 50

Rsidus

50

250
150
50
0

Valeurs observees

100

50

100

200

Valeurs predites

300

50

100

200

300

F IGURE 5 Banque : choix du nombre de feuilles par chantillon de validation.

Valeurs predites

F IGURE 4 Ozone : Valeurs observes et rsidus de lchantillon test.


le dcoupage de lchantillon en trois parties apprentissage, validation et test.
Llagage de larbre estim sur lchantillon dapprentissage est optimis pour
minimiser lerreur estime sur lchantillon de validation. Cest le graphique
de dpassements.
de la figure 5. La librairie rpart de R propose doptimiser llagage par va5.3 Carte Visa Premier
lidation croise. Larbre ainsi obtenu est reprsent dans la figure 6 Cet arbre
conduit la matrice de confusion suivante sur lchantillon test avec un taux
Ltude des donnes bancaires sintresse soit aux donnes quantitatives derreur estim 8%.
brutes soient celles-ci aprs dcoupage en classes des variables quantitatives. Ce dcoupage rend des services en rgression logistique car le modle vistest Cnon Coui
construit sen trouve plus flexible : plus de paramtres mais moins de degrs
Cnon 127
6
de libert, comme lapproximation par des indicatrices (des classes) de transCoui
10
57
formations non linaires des variables. Il a t fait " la main" en prenant les
quantiles comme bornes de classe ; Cest un usage courant pour obtenir des
classes deffectifs gaux et rpartit ainsi au mieux la prcision de lestima- Rfrences
tion des paramtres mais ce choix nest pas optimal au regard de lobjectif
de prvision. Dans le cas dun modle construit partir dun arbre binaire, il [1] L. Breiman, J. Friedman, R. Olshen et C. Stone, Classification and regression trees, Wadsworth & Brooks, 1984.
est finalement prfrable de laisser faire celui-ci le dcoupage en classe cest-dire de trouver les valeurs seuils de dcision. Cest la raison pour laquelle,
larbre est prfrablement estim sur els variables quantitatives et qualitatives
initiales.
Le module SAS/STAT ne fournit pas destimation darbre de dcision, il faut
faire appel au module SAS Enterprise Miner. Celui-ci, par principe, propose
96

07/15

Arbres binaires de dcision

Endpoint = CARVP

Cnon
569/294
|
MOYRVL< 3.02
MOYRVL>=3.02
Coui
94/204

Cnon
475/90
RELAT>=5.5
Cnon
462/61
FACANL< 11.44
Cnon
457/51

FACANL>=11.44
Coui
5/10

DMVTPL>=2.602
DMVTPL< 2.602
Cnon
Cnon
381/28
76/23

RELAT< 5.5
Coui
13/29

DMVTPL>=2.602
DMVTPL< 2.602
Coui
Coui
1/83
93/121

AGER< 26DMVTPL< 2.674


AGER>=26 DMVTPL>=2.674
Coui
Cnon
Coui
23/104
70/17
5/29

Cnon
8/0

FACANL< 11.32
FACANL>=11.32
Cnon
Coui
67/10
3/7

DMVTPL< 1.199
DMVTPL>=1.199
Cnon
Coui
76/3
0/20

F IGURE 6 Banque : arbre de dcision lagu par validation croise dans R.

97

07/15

exemple, des rsultats dexamens, danalyses de sang, de salive pour des


applications biomdicales de choix dun antibiotique,
un moteur dinfrence charg dappliquer les rgles expertes sur la base
de faits afin den dduire de nouveaux faits jusqu la ralisation dun
objectif comme llaboration du traitement dun infection bactrienne.
Face aux difficults rencontres lors de la modlisation des connaissances dun
expert humain, au volume considrable des bases de connaissance qui en dcoulaient et au caractre exponentiel de la complexit des algorithmes dinfrence mis en jeu, cette approche sest teinte avec les annes 80. En effet, il a
t montr que les systmes bass sur le calcul des prdicats du premier ordre
conduisaient des problmes N P complets.

Rseaux de neurones
Rsum
Dfinition et caractristiques des rseaux de neurones ou perceptrons multicouches spcifiques pour la rgression et la discrimination ou classification supervise. Structure, fonction de transfert, estimation du gradient par rtro-propagation et algorithmes dapprentissage des poids en contrlant le sur-ajustement par rgularisation.
Retour au plan du cours

1
1.1

Rseaux de neurones

Lessor technologique et quelques avances thoriques :


estimation du gradient par rtro-propagation de lerreur (Hopkins, 1982),
analogie de la phase dapprentissage avec les modles markoviens de systmes de particules de la mcanique statistique (verres de spin) par (Hopfield, 1982),
au dbut des annes 80 ont permis de relancer lapproche connexioniste. Celleci a connu au dbut des annes 90 un dveloppement considrable si lon
considre le nombre de publications et de congrs qui lui ont t consacrs
mais aussi les domaines dapplications trs divers o elle apparat. Sur de nombreux objectifs, justement ceux propres au data mining, les rseaux neuronaux
ne rentrent pas ncessairement en concurrence avec des mthodes statistiques
bientt centenaires mais apportent un point de vue complmentaire quil est
important de considrer.

Introduction
Historique

Nous nous intressons ici une branche de lInformatique fondamentale


qui, sous lappellation dIntelligence Artificielle, a pour objectif de simuler
des comportements du cerveau humain. Les premires tentatives de modlisation du cerveau sont anciennes et prcdent mme lre informatique. Cest en
1943 que Mc Culloch (neurophysiologiste) et Pitts (logicien) ont propos les
premires notions de neurone formel. Ce concept fut ensuite mis en rseau avec
une couche dentre et une sortie par Rosenblatt en 1959 pour simuler le fonctionnement rtinien et tacher de reconnatre des formes. Cest lorigine du perceptron. Cette approche dite connexioniste a atteint ses limites technologiques,
Finalement, la motivation initiale de simulation du cortex crbral a t racompte tenu de la puissance de calcul de lpoque, mais aussi thoriques au pidement abandonn alors que les mthodes qui en dcoulaient ont trouv leur
dbut des annes 70.
propre intrt de dveloppement mthodologique et leurs champs dapplicaLapproche connexioniste connaissance rpartie a alors t supplante par tions.
lapproche symbolique ou squentielle qui promouvait les systmes experts
1.2 Rseaux de neurones
connaissance localise. Lobjectif tait alors dautomatiser le principe de lexpertise humaine en associant trois concepts :
Un rseau neuronal est lassociation, en un graphe plus ou moins complexe,
une base de connaissance dans laquelle taient regroupes toutes les dobjets lmentaires, les neurones formels. Les principaux rseaux se disconnaissances dexperts humains sous forme de propositions logiques l- tinguent par lorganisation du graphe (en couches, complets. . . ), cest--dire
mentaires ou plus labores en utilisant des quantificateurs (logique du leur architecture, son niveau de complexit (le nombre de neurones, prsence
premier ordre).
ou non de boucles de rtroaction dans le rseau), par le type des neurones (leurs
une base de faits contenant les observations du cas traiter comme, par
98

07/15

Rseaux de neurones

La fonction dactivation opre une transformation dune combinaison affine


des signaux dentre, 0 tant appel le biais du neurone. Cette combinaison
affine est dtermine par un vecteur de poids [0 , . . . , p ] associ chaque
neurone et dont les valeurs sont estimes dans la phase dapprentissage. Ils
constituent la mmoire ou connaissance rpartie du rseau.

x1
Q
Q
x2 P Q
s
PPQ
q
P
xj
..
3
.


xp 

Les diffrents types de neurones se distinguent par la nature f de leur fonction dactivation. Les principaux types sont :
-y
| f
linaire f est la fonction identit,
sigmode f (x) = 1/(1 + ex ),
seuil f (x) = 1[0,+[ (x),
p
radiale f (x) = 1/2 exp(x2 /2),
stochastiques f (x) = 1 avec la probabilit 1/(1 + ex/H ), 0 sinon (H
intervient comme une temprature dans un algorithme de recuit simul),
F IGURE 1 Reprsentation dun neurone formel.
...
Les modles linaires et sigmodaux sont bien adapts aux algorithmes dapprentissage impliquant (cf. ci-dessous) une rtro-propagation du gradient car
leur fonction dactivation est diffrentiable ; ce sont les plus utiliss. Le mofonctions de transition ou dactivation) et enfin par lobjectif vis : apprentis- dle seuil est sans doute plus conforme la ralit biologique mais pose
des problmes dapprentissage. Enfin le modle stochastique est utilis pour
sage supervis ou non, optimisation, systmes dynamiques.
des problmes doptimisation globale de fonctions perturbes ou encore pour
les analogies avec les systmes de particules. On ne le rencontre pas en data
1.3 Neurone formel
mining.
De faon trs rductrice, un neurone biologique est une cellule qui se caractrise par
2 Perceptron multicouche
des synapses, les points de connexion avec les autres neurones, fibres nerveuses ou musculaires ;
Nous ne nous intresserons dans ce cours qu une structure lmentaire
des dentrites, les entres du neurones ;
de rseau, celle dite statique ne prsentant pas de boucle de rtroaction et
laxone, la sortie du neurone vers dautres neurones ou fibres muscudans un but dapprentissage supervis. Tant les systmes dynamiques, avec
laires ;
boucle de rtroaction, que les rseaux dit cartes de Kohonen ou cartes auto le noyau qui active la sortie en fonction des stimulations en entre.
organisatrices ne sont pas abords. Ces derniers sont en fait des algorithmes de
Par analogie, le neurone formel est un modle qui se caractrise par un tat classification non-supervise.
interne s S, des signaux dentre x1 , . . . , xp et une fonction dactivation

2.1

s = h(x1 , . . . , xp ) = f 0 +

p
X

Architecture

Le perceptron multicouche (PMC) est un rseau compos de couches successives. Une couche est un ensemble de neurones nayant pas de connexion

j xj = f (0 + 0 x).

j=1

99

07/15

Rseaux de neurones

entre eux. Une couche dentre lit les signaux entrant, un neurone par entre
xj , une couche en sortie fournit la rponse du systme. Selon les auteurs, la
couche dentre qui nintroduit aucune modification nest pas comptabilise.
Une ou plusieurs couches caches participent au transfert. Un neurone dune
couche cache est connect en entre chacun des neurones de la couche prcdente et en sortie chaque neurone de la couche suivante.

2.2
x1

x2

..
.

xj

..
.

xp

HH
LJ
LJ HHH
j |f
H
LJ
*

@


L J 


@
L J


 L J
@
H

J HH

@
L
J
J LH J
@
H

^
J
R
@
j
- |f
J L H
* |f

J 



J L

..
L


HH J

L
.
H
HJ L
J^

HH
JL
j
* |f






Fonction de transfert

Par souci de cohrence, les mmes notations ont t conserves travers les diffrents chapitres. Ainsi, les entres dun rseau sont encore notes X1 , . . . , Xp comme les variables explicatives dun modle tandis que les
poids des entres sont des paramtres , estimer lors de la procdure
dapprentissage et que la sortie est la variable Y expliquer ou cible du modle.
-y

Un perceptron multicouche ralise donc une transformation des variables


dentre :
Y = (X1 , . . . , Xp ; )
o est le vecteur contenant chacun des paramtres jk` de la jme entre
du kme neurone de la `me couche ; la couche dentre (` = 0) nest pas
paramtre, elle ne fait que distribuer les entres sur tous les neurones de la
couche suivante.

Un thorme dit dapproximation universelle montre que cette structure


lmentaire une seule couche cache est bien suffisante pour prendre en
compte les problmes classiques de modlisation ou apprentissage statistique.
En effet, toute fonction rgulire peut tre approche uniformment avec une
prcision arbitraire et dans un domaine fini de lespace de ses variables, par un
rseau de neurones comportant une couche de neurones cachs en nombre fini
F IGURE 2 Exemple de perceptron multicouche lmentaire avec une couche possdant tous la mme fonction dactivation et un neurone de sortie linaire.
cache et une couche de sortie.
De faon usuelle et en rgression (Y quantitative), la dernire couche est
constitue dun seul neurone muni de la fonction dactivation identit tandis
que les autres neurones (couche cache) sont munis de la fonction sigmode.
En classification binaire, le neurone de sortie est muni galement de la fonction sigmode tandis que dans le cas dune discrimination m classes (Y qualitative), ce sont m neurones avec fonction sigmode, un par classe, qui sont
considrs en sortie.
-

100

07/15

Rseaux de neurones

Ainsi, en rgression avec un perceptron une couche cache de q neurones quations dites de rtro-propagation :
et un neurone de sortie, cette fonction scrit :
ski = f 0 (0k xi )k i
y = (x; , ) = 0 + 0 z
avec zk = f (k0 + k 0 x); k = 1, . . . , q.

2.3

dont les termes sont value sen deux passes. Une passe avant, avec les valeurs courantes des poids, lapplication des diffrentes entres xi au rseau
b i ). La passe retour permet enpermet de dterminer les valeurs ajustes (x
suite de dterminer les i qui sont rtro-propags afin de calculer les ski et
ainsi obtenir les valuations des gradients.

Apprentissage

Supposons que lon dispose dune base dapprentissage de taille n dobservations (x1i , . . . , xpi ; yi ) des variables explicatives X 1 , . . . , X p et de la variable
prvoir Y . Considrons le cas le plus simple de la rgression avec un rseau
constitu dun neurone de sortie linaire et dune couche q neurones dont
les paramtres sont optimiss par moindres carrs. Ceci se gnralise toute
fonction perte drivable et donc la discrimination m classes.

2.3.2

Algorithmes doptimisation

Sachant valuer les gradients, diffrents algorithmes, plus ou moins sophistiqus, sont implments. Le plus lmentaire est une utilisation itrative du
gradient : en tout point de lespace des paramtres, le vecteur gradient de Q
pointe dans la direction de lerreur croissante. Pour faire dcrotre Q il suffit
Lapprentissage est lestimation des paramtres j=0,p;k=1,q et k=0,q par donc de se dplacer en sens contraire. Il sagit dun algorithme itratif modiminimisation de la fonction perte quadratique (ou dun fonction dentropie en fiant les poids de chaque neurone selon :
classification) :
Q(, ) =

n
X
i=1

Qi =

n
X

[yi (x; , )] .

(r+1)

i=1

Diffrents algorithmes doptimisation sont proposs, ils sont gnralement bass sur une valuation du gradient par rtro-propagation.
2.3.1

Rtro-propagation de lerreur

(r+1)

kp

(r)

= k
(r)

= kp

n
X
Qi
(r)

i=1
n
X

Qi

i=1

kp

(r)

Il sagit donc dvaluer la drive de la fonction cut en une observation


:
Rtro propagation lmentaire du graet par rapport aux diffrents paramtres. Soit zki = f (k0 + k 0 xi ) et A LGORITHME 1
z i = {z1i , . . . , zqi }. Les drives partielles de la fonction perte quadratique dient
scrivent :
Initialisation
Les poids bjk` par tirage alatoire selon une loi uniforme sur [0, 1].
Qi
= 2(yi (xi ))( 0 z i )zki = i zki
Normaliser dans [0, 1] les donnes dapprentissage.
k
while Q > errmax ou niter<itermax do
Qi
= 2(yi (xi ))( 0 z i )k f 0 (0k xi )xip = ski xip .
Ranger la base dapprentissage dans un nouvel ordre alatoire.
kj
for chaque lment i = 1, . . . , n de la base do
Les termes i et ski sont respectivement les termes derreur du modle couCalculer (i) = yi (x1i , . . . , xpi ; (b)(i1)) en propageant les entres
rant la sortie et sur chaque neurone cach. Ces termes derreur vrifient les
vers lavant.
101

07/15

Rseaux de neurones

1. les variables dentre et la variable de sortie ; leur faire subir comme pour
toutes mthodes statistiques, dventuelles transformations.

Lerreur est rtro-propage dans les diffrentes couches afin daffecter chaque entre une responsabilit dans lerreur globale.
Mise jour de chaque poids bjk` (i) = bjk` (i i) + bjk` (i)
end for
end while

2. Larchitecture du rseau : le nombre de couches caches (en gnral


une ou deux) qui correspond une aptitude traiter des problmes de
non-linarit, le nombre de neurones par couche cache. Ces deux choix
conditionnent directement le nombre de paramtres (de poids) estimer
et donc la complexit du modle. Ils participent la recherche dun bon
compromis biais/variance cest--dire lquilibre entre qualit dapprentissage et qualit de prvision.

Le coefficient de proportionnalit est appel le taux dapprentissage. Il


peut tre fixe, dterminer par lutilisateur, ou encore varier en cours dexcution selon certaines heuristiques. Il parat en effet intuitivement raisonnable
que, grand au dbut pour aller plus vite, ce taux dcroisse pour aboutir un
rglage plus fin au fur et mesure que le systme sapproche dune solution.

3. Trois autres paramtres interviennent galement sur ce compromis : le


nombre maximum ditrations, lerreur maximum tolre et un terme
ventuel de rgularisation (decay). En renforant ces critres on amliore
la qualit de lapprentissage ce qui peut se faire au dtriment de celle de
la prvision.

Bien dautres mthodes doptimisation ont t adaptes lapprentissage


dun rseau : mthodes du gradient avec second ordre utilisant une approximation itrative de la matrice hessienne (algorithme BFGS, de LevenbergMarquardt) ou encore une valuation implicite de cette matrice par la mthode
4. Le taux dapprentissage ainsi quune ventuelle stratgie dvolution de
dite du gradient conjugu. La littrature sur le sujet propose quantits de recelui-ci.
cettes destines amliorer la vitesse de convergence de lalgorithme ou bien
lui viter de rester coll une solution locale dfavorable. Dautres heuris- En pratique, tous ces paramtres ne peuvent tre rgls simultanment par
tiques proposent dajouter un terme dinertie afin dviter des oscillations de lutilisateur. Celui-ci est confront des choix concernant principalement le
lalgorithme.
contrle du sur-apprentissage : limiter le nombre de neurones ou la dure dapDautres algorithmes encore sont des versions adaptatives. Lorsque de nou- prentissage ou encore augmenter le coefficient de pnalisation de la norme des
velles observations sont proposes une une au rseau. Dans ce dernier type paramtres. Ceci ncessite de dterminer un mode destimation de lerreur :
dalgorithme, des proprits de dynamique markovienne (processus ergodique chantillon validation ou test, validation croise ou bootstrap. Ces choix sont
convergeant vers la mesure stationnaire) impliquent une convergence presque souvent pris par dfaut dans la plupart des logiciels commerciaux. Il est imsre : la probabilit datteindre une prcision fixe a priori tend vers 1 lorsque portant den connatre les implications.
la taille de lchantillon dapprentissage tend vers linfini.
Dure de lapprentissage
On pourra se reporter labondante littrature sur le sujet (Haykin, 1994)[1]
La stratgie la plus simple (SAS Enterprise Miner) consiste considr un
pour obtenir des prcisions sur les algorithme dapprentissage et leurs nombreuses variantes. Il est important de rappeler la liste des choix qui sont laisss chantillon indpendant de validation et arrter lapprentissage lorsque ler lutilisateur. En effet, mme si les logiciels proposent des valeurs par dfaut, reur sur cet chantillon de validation commence se dgrader tandis que celle
sur lchantillon dapprentissage ne peut que continuer dcrotre.
il est frquent que cet algorithme connaisse quelques soucis de convergence.

2.4

Contrle de la complexit

Choix des paramtres


Lutilisateur doit donc dterminer

Nombre de neurones
Le nombre de couches reste restreint car toute fonction continue dun compact de RP dans Rq peut tre approche avec une prcision arbitraire par un
rseau une couche cache en adaptant le nombre de neurones. Le contrle
102

07/15

de la complexit du modle ou plus gnralement dun sur-apprentissage peut


tre dtermin en optimisant le nombre de neurones par minimisation dune
estimation de lerreur de prvision par exemple par validation croise.

Rseaux de neurones

Exemples

Les rseaux de neurones tant des botes noires, les rsultats fournis ne sont
gure explicites et ne conduisent donc pas des interprtations peu informaRgularisation
tives du modle. Seule une tude des erreurs de prvisions et, dans le cas dune
Une option importante car efficace pour viter le sur-apprentissage consiste rgression, une tude des rsidus, permet de se faire une ide de la qualit du
introduire une terme de pnalisation ou rgularisation, comme en rgression modle.
ridge, dans le critre optimiser. Celui-ci devient alors : Q() + kk2 .
3.1 Cancer du sein
Le paramtre (decay) doit tre rgl par lutilisateur ; plus il est imporLa prvision de lchantillon test par un rseau de neurones conduit la
tant et moins les paramtres ou poids peuvent prendre des valeurs chaotimatrice
de confusion ci-dessous et donc une erreur estime de 3%.
ques contribuant ainsi limiter les risques de sur-apprentissage. Une stratgie
simple et sans doute efficace, surtout si la taille de lchantillon ne permet pas
benign malignant
de prendre en compte une partie validation, consiste introduire un nombre
FALSE
83
1
plutt grand de neurones puis optimiser le seul paramtre de rgularisation
TRUE
3
50
(decay) par validation croise.

2.5

3.2

Remarques

Concentration dozone

La comparaison des rsidus (figure 3 montre que le problme de nonLes champs dapplication des PMC sont trs nombreux : discrimination, linarit qui apparaissait sur les modles simples (MOCAGE, rgression liprvision dune srie temporelle, reconnaissance de forme. . . Ils sont en gn- naire) est bien rsolu et que ces rsidus sont plutt moins tendus, mais le
ral bien explicits dans les documentations des logiciels spcialiss.
phnomne dhtroscdasticit est toujours prsent quelque soit le nombre de
Les critiques principales nonces lencontre du PMC concernent les dif- neurones utiliss. Il a t choisi relativement important (10) et conduit donc
ficults lis lapprentissage (temps de calcul, taille de lchantillon, localit un bon ajustement (R2 = 0, 77) mais devra tre rduit pour optimiser la
de loptimum obtenu) ainsi que son statut de bote noir. En effet, contraire- prvision.
ment un modle de discrimination ou un arbre, il est a priori impossible de
Loptimisation des paramtres dun rseau de neurones est instable comme
connatre linfluence effective dune entre (une variable) sur le systme ds pour les proches voisins car chaque excution de lestimation de lerreur par
quune couche cache intervient. Nanmoins, des techniques de recherche de validation croise fournit des rsultats diffrents. Elle est en plus trs comsensibilit du systme chacune des entres permettent de prciser les ides et, plique par le nombre de paramtres optimiser : nombre de neurones sur la
ventuellement de simplifier le systme en supprimant certaines des entres.
couche (size), pnalisation (decay), nombre ditrations. Une fonction de la
En revanche, ils possdent dindniables qualits lorsque labsence de linarit et/ou le nombre de variables explicatives rendent les modles statistiques
traditionnelles inutilisables. Leur flexibilit allie une procdure dapprentissage intgrant la pondration (le choix) des variables comme de leurs interactions peuvent les rendre trs efficaces.

librairie e1071 permet de faire varier la fois la taille et la pnalisation et


fournit des graphiques lgants (figure 4) mais les excutions sont trs longues
et les rsultats pas toujours pertinents. Le plus efficace semble tre de fixer
assez grands la taille (nombre de neurones) et le nombre ditrations pour se
focaliser sur le seul rglage de la pnalisation.
Comme pour les arbres de dcision, les rseaux de neurones ne proposent
pas de modles trs efficaces sur cet exemple. Les taux derreur de prvision

103

07/15

Rseaux de neurones

50

100

200

300

50

Valeurs predites

100

200

300

0.8
0.6
0.4
0.2

_ logit
_ nnetr
_ nnetq

0.0

True positive rate

100 50

Rsidus

50

250
150
0 50

Valeurs observees

100

1.0

0.0

Valeurs predites

0.2

0.4

0.6

0.8

1.0

False positive rate

F IGURE 3 Ozone : Valeurs observes et rsidus de lchantillon test en fonction des valeurs prdites par un rseau de 10 neurones

Performance of nnet
3.0

680
675

decay

2.5

670
2.0

F IGURE 5 Ozone : courbes ROC pour la rgression logistique et les rseaux


de neurones.
du dpassement du seuil sont de 14,4% partir du modle quantitatif et de
15,6% avec une prvision directement qualitative. Les courbes ROC estimes
sur lchantillon test permettent de comparer les mthodes. Dans ce cas et
pour lchantillon test concern, la mthode la plus efficace (figure 5) pour
prvoir le dpassement du pic dozone est un rseau de neurone modlisant la
concentration plutt que la prvision directe du dpassement (logit ou rseau
qualitatif).

665
660

1.5

655
1.0
2.0

2.5

3.0
size

3.5

4.0

3.3

Donnes bancaires

Une fonction de la librairie e1071, pratique mais trs chronophage, propose une automatisation de loptimisation des paramtres (decay, nombre de
neurones). Elle produit une carte de type contour permettant dvaluer " lil"
les valeurs optimales. La prvision de lchantillon test par ce rseau de neurones conduit la matrice de confusion ci-dessous et donc une erreur estime
de 21,5% :

F IGURE 4 Ozone : optimisation des paramtres (pnalisation et nombre de


neurones) par validation croise.
pred.vistest FALSE TRUE
FALSE
110
16
104

07/15

TRUE

27

Rseaux de neurones

105

07/15

47

Rfrences
[1] T.J. Haykin, Neural network, a comprehensive foundation, Prentice-Hall,
1994.

Agrgation de modles

Agrgation de modles

2
2.1

Rsum

Famille de modles alatoires


Bagging

Principe et algorithme

Les algorithmes dcrits sont bass sur des stratgies adaptatives


(boosting) ou alatoires (bagging, random forest) permettant damliorer lajustement par une combinaison ou agrgation dun grand
nombre de modles tout en vitant le sur-ajustement. Dfinitions, optimisation et principes dutilisation de ces algorithmes.

Soit Y une variable expliquer quantitative ou qualitative, X 1 , . . . , X p les


variables explicatives et (x) un modle fonction de x = {x1 , . . . , xp } Rp .
On note n le nombre dobservations et

Retour au plan du cours

un chantillon de loi F .

z = {(x1 , y1 ), . . . , (xn , yn )}

Lesprance (.) = EF (bz ) de lestimateur dfinie sur lchantillon z, est


un estimateur sans biais de variance nulle. Considrons B chantillons ind1 Introduction
pendants nots {zb }b=1,B et construisons une agrgation des modles dans le
Deux types dalgorithmes sont abords. Ceux reposants sur une construc- cas o la variable expliquer Y est :
tion alatoires dune famille de modles : bagging pour bootstrap aggregabB (.) = 1 PB bz (.),
quantitative :
b n
b=1
B
o
ting (Breiman 1996)[2] et les forts alatoires (random forests) de Breiman
b
bz (.) = j .
qualitative : B (.) = arg maxj card b |
b
(2001)[4] qui propose une amlioration du bagging spcifique aux modles
dfinis par des arbres binaires (CART). Ceux bass sur le boosting (Freund et Dans le premier cas, il sagit dune simple moyenne des rsultats obtenus pour
Shapiro,1996)[6] et qui reposent sur une construction adaptative, dterministe les modles associs chaque chantillon, dans le deuxime, un comit de
ou alatoire, dune famille de modles. Ces algorithmes se sont dvelopps modles est constitu pour voter et lire la rponse la plus probable. Dans ce
la frontire entre apprentissage machine (machine learning) et Statistique. dernier cas, si le modle retourne des probabilits associes chaque modalit
De nombreux articles comparatifs montrent leur efficacit sur des exemples comme en rgression logistique ou avec les arbres de dcision, il est aussi
de donnes simules et surtout pour des problmes rels complexes (voir par simple de calculer des moyennes de ces probabilits.
exemple Ghattas, 2000)[10] tandis que leurs proprits thoriques sont un
Le principe est lmentaire, moyenner les prvisions de plusieurs modles
thme de recherche toujours actif.
indpendants permet de rduire la variance et donc de rduire lerreur de prLes principes du bagging ou du boosting sappliquent toute mthode de vision.
modlisation (rgression, CART, rseaux de neurones) mais nont dintrt, et
Cependant, il nest pas raliste de considrer B chantillons indpendants.
rduisent sensiblement lerreur de prvision, que dans le cas de modles in- Cela ncessiterait gnralement trop de donnes. Ces chantillons sont donc
stables, donc plutt non linaires. Ainsi, lutilisation de ces algorithmes na remplacs par B rplications dchantillons bootstrap obtenus chacun par n
gure de sens avec la rgression multilinaire ou lanalyse discriminante. Ils tirages avec remise selon la mesure empirique Fb. Ceci conduit lalgorithme
sont surtout mis en uvre en association avec des arbres binaires comme mo- ci-dessous.
dles de base. En effet, linstabilit dj souligns des arbres apparat alors
comme une proprit essentielle la rduction de la variance par agrgation
de modles.
106

07/15

A LGORITHME 1 : Bagging
Soit x0 prvoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un chantillon
for b = 1 B do
Tirer un chantillon bootstrap zb .
Estimer bzb (x0 ) sur lchantillon bootstrap.
end for
PB
Calculer lestimation moyenne bB (x0 ) = B1 b=1 bzb (x0 ) ou le rsultat
du vote.

Agrgation de modles

La premire stratgie semble en pratique un bon compromis entre volume des


calculs et qualit de prvision. Chaque arbre est alors affect dun faible biais
et dune grande variance mais la moyenne des arbres rduit avantageusement
celle-ci. En revanche, llagage par validation croise pnalise lourdement les
calculs sans gain substantiel de qualit.

Cet algorithme a lavantage de la simplicit, il sadapte et se programme


facilement quelque soit la mthode de modlisation mise en uvre. Il pose
nanmoins quelques problmes :
temps de calcul important pour valuer un nombre suffisant darbres jusqu ce que lerreur de prvision out-of-bag ou sur un chantillon validation se stabilise et arrt si elle tend augmenter ;
ncessiter de stocker tous les modles de la combinaison afin de pouvoir
utiliser cet outil de prvision sur dautres donnes,
lamlioration de la qualit de prvision se fait au dtriment de linterErreur out-of-bag
prtabilit. Le modle finalement obtenu devient une bote noire comme
Il est naturel et techniquement facile daccompagner ce calcul par une estidans le cas du perceptron.
mation out-of-bag de lerreur de prvision car sans biais, ou plutt pessimiste,
comme en validation croise. Celle-ci dcrot en principe rgulirement en 2.2 Forts alatoires
fonction du nombre de modles avant de se stabiliser en indiquant le nombre
Motivation
de modles ou chantillons bootstrap ncessaires lagrgation.
Dans les cas spcifique des modles CART (arbres binaires), Breiman
Pour chaque observation (yi , xi ) considrer les seuls modles estims sur un
chantillon bootstrap ne contenant pas cette observation ( peu prs 1/3). Pr- (2001)[4] propose une amlioration du bagging par lajout dune randomivoir la valeur yb comme prcdemment (moyenne ou vote) et calculer lerreur sation. Lobjectif est donc de rendre plus indpendants les arbres de lagrgation en ajoutant du hasard dans le choix des variables qui interviennent dans
de prvision associe ; moyenner sur toute les observations.
les modles. Cette approche semble plus particulirement fructueuse dans des
Utilisation
situations hautement multidimensionnelles (cf. Caruana et al. 2008)[5], cestEn pratique, CART est souvent utilise comme mthode de base pour -dire lorsque le nombre de variables explicatives p est trs important. Cest le
construire une famille de modles cest--dire darbres binaires. Leffet ob- cas lorsquil sagit, par exemple, de discriminer des courbes, spectres, signaux,
tenu, par moyennage darbres, est un "lissage" du pavage de lespace des biopuces.
observations pour la construction des rgles de dcision. Trois stratgies dlaPlus prcisment, la variance de la moyenne de B variables i.i.d., chacune
gage sont possibles :
de variance 2 , est 2 /B. Si les variables sont identiquement distribues mais
1. laisser construire et garder un arbre complet pour chacun des chantillons, avec une corrlation des variables prises deux deux, la variance de la
moyenne devient :
2. construire un arbre dau plus q feuilles,
1 2
2 +
.
B
3. construire chaque fois larbre complet puis llaguer par validation croiComme dans le cas indpendant, le 2me terme dcrot avec B mais le prese.
107

07/15

Agrgation de modles

mier limite considrablement lavantage du bagging si la corrlation est le- toirement peut, selon les exemples traits, tre un paramtre sensible avec des
ve. Cest ce qui motive principalement la randomisation introduite dans choix par dfaut pas toujours optimaux :

m = p dans un problme de classification,


lalgorithme ci-dessous afin de rduire .
m = p/3 dans un problme de rgression.
Algorithme
Comme pour le bagging, lvaluation itrative de lerreur out-of-bag permet
de contrler le nombre B darbres de la fort de mme quventuellement
Le bagging est appliqu des arbres binaires de dcision en ajoutant un
optimiser
le choix de m.
tirage alatoire de m variables explicatives parmi les p.
A LGORITHME 2 : Forts Alatoires
Soit x0 prvoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un chantillon
for b = 1 B do
Tirer un chantillon bootstrap zb
Estimer un arbre sur cet chantillon avec randomisation des variables :
la recherche de chaque nud optimal est prcd dun tirage alatoire
dun sous-ensemble de m prdicteurs.
end for
PB
Calculer lestimation moyenne bB (x0 ) = B1 b=1 bzb (x0 ) ou le rsultat
du vote.
Paramtres de lalgorithme
La stratgie dlagage peut, dans le cas des forts alatoires, tre plus lmentaire quavec le bagging en se limitant des arbres de taille q relativement
rduite voire mme triviale avec q = 2 (stump). En effet, avec le seul bagging, des arbres limits une seule fourche risquent dtre trs semblables
(fortement corrls) car impliquant les mmes quelques variables apparaissant
comme les plus explicatives. Dans la stratgie par dfaut de lalgorithme, cest
simplement le nombre minimum dobservation par muds qui limite la taille
de larbre, il est fix par dfaut 5. Ce sont donc des arbres plutt complets
qui sont considrs, chacun de faible biais mais de variance importante.

Importance des variables


Comme pour tout modles construit par agrgation ou bote noire, il ny a
pas dinterprtation directe. Nanmoins des informations pertinentes sont obtenues par le calcul et la reprsentation graphique dindices proportionnels
limportance de chaque variable dans le modle agrg et donc de sa participation la rgression ou la discrimination. Cest videmment dautant plus
utile que les variables sont trs nombreuses. Deux critres sont ainsi proposs
pour valuer limportance de la jme variable.
Le premier (Mean Decrease Accuracy repose sur une permutation alatoire des valeurs de cette variable. Plus la qualit, estime par une lerreur
out-of-bag, de la prvision est dgrade par la permutation des valeurs
de cette variable, plus celle-ci est importante. Une fois le b-me arbre
construit, lchantillon oout-of-bag est prdit par cet arbre et lerreur estime enregistre. Les valeurs de la j-me variables sont alatoirement
permutes dans lchantillon out-of-bag et lerreur nouveau calcule. La
dcroissance de la qualit de prvision est moyenne sur tous les arbres et
utilise pour valuer limportance de la variable j dans la fort. Il sagit
donc dune mesure globale mais indirecte de linfluence dune variable
sur la qualit des prvisions.
Le deuxime (Mean Decrease Gini) est local, bas sur la dcroissance
dentropie ou encore la dcroissance de lhtrognit dfinie partir du
critre de Gini. Limportance dune variable est alors une somme pondre des dcroissances dhtrognit induites lorsquelle est utilise pour
dfinir la division associe un nud.

La slection alatoire dun nombre rduit de m prdicteurs potentiels


chaque tape de construction dun arbre, accrot significativement la variabilit Implmentations
en mettant en avant ncessairement dautres variables. Chaque modle de base
Limplmentation la plus utilise est celle de la librairie randomForest
est videmment moins performant mais, lunion faisant la force, lagrgation
de R qui ne fait quinterfacer le programme original dvelopp en Fortran
conduit finalement de bons rsultats. Le nombre m de variables tires ala108

07/15

77 par Lo Breiman et Adele Cutler qui maintient le site ddi cet algorithme.
Le site du logiciel Weka dvelopp luniversit Waikato de Nouvelle
Zlande propose une version en Java.
Une version trs proche de lalgorithme original est disponible dans la
librairie Scikit-learn de Python.
Une autre version adapte aux donnes massives est proposes dans la librairie MLlib deSpark, technologie dveloppe pur interfacer diffrentes
architectures matrielles/logicielles avec des systmes de gestion de fichiers de donnes distribues. Elle sera dcrite par ailleurs.
Autres utilisations

Agrgation de modles

(premire classe). Pour ce faire, chaque colonne (variable) est alatoirement permute dtruisant ainsi la structure de corrlation entre les variables. Une fort est estime pour modliser la variable ainsi cre puis
les mmes approches : matrice de dissimilarits, classification non supervise partir de cette matrice, positionnement multidimensionnel, dtection dobservations atypiques, sont dveloppes.
Imputation de donnes manquantes.
Modles de dure de vie (survival forest).

3
3.1

Depuis la publication initiale de lalgorithme (Breiman, 2001)[4], cette mthode a beaucoup t teste, compare (Caruana et al. 2008[5]), analyse.
Elle devient dans beaucoup darticles dapprentissage machine la mthode
"battre" en matire de qualit de prvision alors que ses proprits thoriques
de convergence, difficiles tudier, commencent tre publies (Scornet et al.
2015)[13]. Nanmoins elle peut conduire aussi de mauvais rsultats notamment lorsque le problme est tout fait linaire et donc quune simple rgression PLS conduit de bonnes prvisions mme en grande dimension. Cest le
cas par exemple de donnes de spectromtrie en proche infra-rouge (NIR).

Famille de modles adaptatifs


Principes du Boosting

Le boosting diffre des approches prcdentes par ses origines et ses principes. Lide initiale, en apprentissage machine, tait damliorer les comptences dun faible classifieur cest--dire celle dun modle de discrimination
dont la probabilit de succs sur la prvision dune variable qualitative est lgrement suprieure celle dun choix alatoire. Lide originale de Schapire
de 1990 a t affine par Freund et Schapire (1996)[6] qui ont dcrit lalgorithme original AdaBoost (Adaptative boosting) pour la prvision dune variable binaire. De nombreuses tudes ont ensuite t publies pour adapter cet
algorithme dautres situations : k classes, rgression, paramtre de schrinkage et rendre compte de ses performances sur diffrents jeux de donnes. Ces
tests ont montr le rel intrt pratique de ce type dalgorithme pour rduire
sensiblement la variance (comme le bagging) mais aussi le biais de prvision
comparativement dautres approches. En effet, comme les arbres sont identiquement distribus par bagging, lesprance de B arbres est la mme que lesprance dun arbre. Cela signifie que le biais darbres agrgs par bagging est
le mme que celui dun seul arbre. Ce nest plus le cas avec le boosting. Cet
algorithme est mme considr comme la meilleure mthode off-the-shelf
cest--dire ne ncessitant pas un long prtraitement des donnes ni un rglage
fin de paramtres lors de la procdure dapprentissage.

Devenu le "couteau suisse" de lapprentissage, les forts alatoires sont utilises diffrentes fins (consulter le site ddi) :
Similarit ou proximit entre observations. Aprs la construction dun
chaque arbre, incrmenter la similarit ou proximit de deux observations
qui se trouvent dans la mme feuille. Sommer sur la fort, normaliser par
le nombre darbres. Un positionnement multidimensionnel peut reprsenter ces similarits ou la matrice des dissimilarits qui en dcoule.
Dtection dobservations atypiques multidimensionnelles (outliers) ou de
"nouveauts" (novelties) pour signifier quune observation nappartient
pas aux classes connues. Un critre d"anormalit" par rapport une classe
est bas sur la notion prcdente de proximits (faible) dune observation
Le boosting adopte le mme principe gnral que le bagging : construction
aux autres observations de sa classe.
dune
famille de modles qui sont ensuite agrgs par une moyenne pondr
Classification non supervise. Si aucune variables Y nest modliser,
des
estimations
ou un vote. Il diffre nettement sur la faon de construire la falide est de se ramener au cas prcdant en simulant des observations
mille
qui
est
dans
ce cas rcurrente : chaque modle est une version adaptative
constituant une deuxime classe synthtique partir de celles connues
109

07/15

Agrgation de modles

Calculer les logit : cm = log((1 Ebp )/Ebp ).


Calculer les nouvelles pondrations :

du prcdent en donnant plus de poids, lors de lestimation suivante, aux observations mal ajustes ou mal prdites. Intuitivement, cet algorithme concentre
donc ses efforts sur les observations les plus difficiles ajuster tandis que
lagrgation de lensemble des modles permet dchapper au sur-ajustement.

wi wi . exp [cm 1{m (xi ) 6= yi }] ; i = 1, . . . , n.

Les algorithmes de boosting proposs diffrent par diffrentes caractristiques :


la faon de pondrer cest--dire de renforcer limportance des observations mal estimes lors de litration prcdente,
leur objectif selon le type de la variable prdire Y : binaire, qualitative
k classes, relles ;
la fonction perte, qui peut tre choisie plus ou moins robuste aux valeurs
atypiques, pour mesurer lerreur dajustement ;
la faon dagrger, ou plutt pondrer, les modles de base successifs.
La littrature sur le sujet prsente donc de trs nombreuses versions de cet
algorithme et il est encore difficile de dire lesquelles sont les plus efficaces et
si une telle diversit est bien ncessaire. Il serait fastidieux de vouloir expliciter
toutes les versions, ce chapitre en propose un choix arbitraire.

end for
hP
i
M
Rsultat du vote : bM (x0 ) = signe
m=1 cm m (x0 ) .

Les poids de chaque observations sont initialiss 1/n pour lestimation


du premier modle puis voluent chaque itration donc pour chaque nouvelle estimation. Limportance dune observation wi est inchange si elle est
bien classe, elle crot sinon proportionnellement
PM au dfaut dajustement du
modle. Lagrgation finale des prvisions : m=1 cm m (x0 ) est une combinaison pondre par les qualits dajustement de chaque modle. Sa valeur
absolue appele marge est proportionnelle la confiance que lon peut attribuer son signe qui fournit le rsultat de la prvision. Attention, un contrle
doit tre ajout en pratique pour bien vrifier que le classifieur de base est
3.2 Algorithme de base
bien faible mais pas mauvais savoir que cm garde bien des valeurs positives ;
Dcrivons la version originale du boosting pour un problme de discrimi- que le taux derreur apparent ne soit pas suprieur 50%.
nation lmentaire deux classes en notant la fonction de discrimination
Ce type dalgorithme est largement utilis avec un arbre (CART) comme
valeurs dans {1, 1}. Dans cette version, le modle de base retourne lidentit modle de base. De nombreuses applications montrent que si le classifieur
dune classe, il est encore nomm Adaboost discret. Il est facile de ladapter faible est un arbre trivial deux feuilles (stump), AdaBoost fait mieux quun
des modles retournant une valeur relle comme une probabilit dapparte- arbre sophistiqu pour un volume de calcul comparable : autant de feuilles
nance une classe.
dans larbre que ditrations dans AdaBoost. Hastie et col. (2001)[11] discutent
A LGORITHME 3 : AdaBoost (adaptive boosting)
Soit x0 prvoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un chantillon
Initialiser les poids w = {wi = 1/n ; i = 1, . . . , n}.
for m = 1 M do
Estimer m sur lchantillon pondr par w.
Calculer le taux derreur apparent :
Pn
wi 1{m (xi ) 6= yi }
b
.
Ep = i=1 Pn
i=1 wi

la meilleure stratgie dlagage applicable chaque modle de base. Ils le


comparent avec le niveau dinteraction requis dans un modle danalyse de
variance. Le cas q = 2 correspondant la seule prise en compte des effets
principaux. Empiriquement ils recommandent une valeur comprise entre 4 et
8.
De nombreuses adaptations ont t proposes partir de lalgorithme initial. Elles font intervenir diffrentes fonctions pertes offrant des proprits de
robustesse ou adaptes une variable cible Y quantitative ou qualitative plusieurs classes : Adaboost M1, M2, MH ou encore MR. Schapire (2002)[12]
liste une bibliographie dtaille.
110

07/15

3.3

Agrgation de modles

Version alatoire
Calculer les nouvelles probabilits : pi Pnwi wi .
i=1
end for
b 0 ) moyenne ou mdiane des prvisions bm (x0 ) pondres par
Calculer (x
des coefficients log( 1m ).

la suite de Freund et Schapire (1996)[6], Breiman (1998)[3] dveloppe


aussi, sous le nom dArcing (adaptively resample and combine), une version
alatoire, et en pratique trs proche, du boosting. Elle sadapte des classifieurs
pour lesquels il est difficile voire impossible dintgrer une pondration des
observations dans lestimation. Ainsi plutt que de jouer sur les pondrations,
chaque itration, un nouvel chantillon est tir avec remise, comme pour le
bootstrap, mais selon des probabilits inversement proportionnelles la qualit
dajustement de litration prcdente. La prsence des observations difficiles
ajuster est ainsi renforce pour que le modle y consacre plus dattention.
Lalgorithme adaboost prcdent est facile adapter en ce sens en regardant
celui dvelopp ci-dessous pour la rgression et qui adopte ce point de vue.

3.4

Prcisions :
Dans cet algorithme la fonction perte Q peut tre exponentielle, quadratique ou, plus robuste, la valeur absolue. Le choix usuel de la fonction
quadratique est retenu par Gey et Poggi (2002)[9].
Notons Lm = supi=1,...,n lm (i) le maximum de lerreur observe par le
modle bm sur lchantillon initial. La fonction g est dfinie par :

Pour la rgression

g(lm (i))

Diffrentes adaptations du boosting ont t proposes pour le cas de la rgression, cest--dire lorsque la variable prdire est quantitative. Voici lalgorithme de Drucker (1997) dans la prsentation de Gey et Poggi (2002)[9]
qui en tudient les performances empiriques en relation avec CART. Freund et
Schapire (1996) ont propos Adaboost.R avec le mme objectif tandis que le
point de vue de Friedman (2002)[7] est dcrit plus loin dans lalgorithme 5.
A LGORITHME 4 : Boosting pour la rgression
Soit x0 prvoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un chantillon
Initialiser p par la distribution uniforme p = {pi = 1/n ; i = 1, . . . , n}.
for m = 1 M do
Tirer avec remise dans z un chantillon zm suivant p.
Estimer bm sur lchantillon zm .
Calculer partir de lchantillon initial z :


lm (i) = Q yi , bm (xi )
i = 1, . . . , n; (Q : fonction perte)
n
X

Ec
m

wi

= g(lm (i))pi . (g continue non dcroissante)

pi lm (i);

i=1

avec m

1lm (i)/Lm
= m
Ec
m
=
.
Lm Ec
m

(1)
(2)

Comme pour AdaBoost discret, une condition supplmentaire est ajoute

lalgorithme. Il est arrt ou rinitialis des poids uniformes si lerreur


se dgrade trop : si Ec
m < 0.5Lm .
Lalgorithme gnre M prdicteurs construits sur des chantillons bootstrap
zm dont le tirage dpend de probabilits p mises jour chaque itration.
Cette mise jour est fonction dun paramtre m qui est un indicateur de la
performance, sur lchantillon z, du m-ime prdicteur estim sur lchantillon
zm . La mise jour des probabilits dpend donc la fois de cet indicateur
global m et de la qualit relative lm (i)/Lm de lestimation du i-me individu.
Lestimation finale est enfin obtenue la suite dune moyenne ou mdiane des
prvisions pondres par la qualit respective de chacune de ces prvisions.
Gey et Poggi (2002)[9] conseille la mdiane afin de saffranchir de linfluence
de prdicteurs trs atypiques.

3.5

Modle additif pas pas

Le bon comportement du boosting par rapport dautres techniques de discrimination est difficile expliquer ou justifier par des arguments thoriques.
la suite dune proposition de Breiman en 1999 (rapport technique) de considrer le boosting comme un algorithme global doptimisation, Hastie et col.
111

07/15

Agrgation de modles

(2001)[11] prsentent le boosting dans le cas binaire sous la forme dune ap- avec Ebp erreur apparente de prvision tandis que les wi sont mis jour avec :
proximation de la fonction par un modle additif construit pas pas :
(m)
(m1)
wi = wi
exp[cm ].
M
X
b
On montre ainsi quadaboost approche pas pas par un modle additif en
(x)
=
cm (x; m )
utilisant une fonction perte exponentielle tandis que daubres types de boosting
m=1
sont dfinis sur la base dune autre fonction perte :
est cette combinaison o cm est un paramtre, le classifieur (faible) de base
AdaBoost Q(y, (x)) = exp[y(x)],
fonction de x et dpendant dun paramtre m . Si Q est une fonction perte, il
LogitBoost Q(y, (x)) = log2 (1 + exp[2y(x)],
sagit, chaque tape, de rsoudre :
L2 Boost Q(y, (x)) = (y (x))2 /2.
n
X
Dautres fonctions pertes sont envisageables pour, en particulier, un algo(cm , m ) = arg min
Q(yi , bm1 (xi ) + c(xi ; ));
(c,)
rithme
plus robuste face un chantillon dapprentissage prsentant des eri=1
reurs de classement dans le cas de la discrimination ou encore des valeurs
atypiques (outliers) dans le cas de la rgression. Hastie et col. (2001)[11] combm (x) = bm1 (x)+cm (x; m ) est alors une amlioration de lajustement
parent les intrts respectifs de plusieurs fonctions pertes. Celles juges roprcdent.
bustes (entropie en discrimination, valeur absolue en rgression) conduisent
Dans le cas dadaboost pour lajustement dune fonction binaire, la fonction des algorithmes plus compliqus mettre en uvre.
perte utilise est Q(y, (x)) = exp[y(x)]. il sagit donc de rsoudre :

3.6
(cm , m )

= arg min

(c,)

n
X
i=1
n
X

i
exp yi (bm1 (xi ) + c(xi ; )) ;

Boosting, gradient adaptatif et arbres

Algorithme

Dans le mme esprit dapproximation adaptative, Friedman (2002)[7] a propos


sous lacronyme MART (multiple additive regression trees) puis sous
= arg min
exp [cyi (xi ; )]
(c,)
celui de GBM (gradient boosting models) une famille dalgorithmes bass sur
i=1
une fonction perte suppose diffrentiable note Q. Le principe de base est le
avec wim = exp[yi bm1 (xi )];
mme que pour Adaboost, construire une squence de modles de sorte que
chaque tape, chaque modle ajout la combinaison, apparaisse comme un
m
wi ne dpendant ni de c ni de , il joue le rle dun poids fonction de la
pas vers une meilleure solution. La principale innovation est que ce pas est
qualit de lajustement prcdent. Quelques dveloppements complmentaires
franchi dans la direction du gradient de la fonction perte lui-mme approch
montrent que la solution du problme de minimisation est obtenue en deux
par un arbre de rgression. Lalgorithme ci-dessous dcrit le cas de la rgrestapes : recherche du classifieur optimal puis optimisation du paramtre cm .
sion, il peut tre adapt celui de la classification.
n
X
m = arg min
1{yi 6= (xi ; )},
A LGORITHME 5 : Gradient Tree Boosting pour la rgression

i=1
Soit x0 prvoir
Pn
Initialiser b0 = arg min i=1 Q(yi , )
1 Ebp
1
log
cm =
for m = 1 M do
2
Ep
wim

112

07/15

Calculer ri m =

Q(yi ,(xi ))
(xi )

Agrgation de modles

Interprtation

,
=m1

Ajuster un arbre de rgression aux rm i donnant les feuilles ou rgions


Linterprtabilit des arbres de dcision sont une des raisons de leur succs.
terminales Rjm ; j = 1, . . . , Jm .
Leur lecture ne ncessite pas de comptences particulires en statistique. Cette
for m = 1 M do
proprit est videmment perdue par lagrgation darbres ou de tout autre
P
Calculer jm = arg min xi Rjm Q(yi , bm1 + ).
modle. Nanmoins, surtout si le nombre de variables est trs grand, il est
end for
important davoir une indication de limportance relative des variables entrant
PJm
Mise jour : bm (x) = bm1 (x) + j=1
jm 1{x Rjm }.
dans la modlisation.
end for
Des critres dimportance des variables sont nanmoins faciles calculer
Rsultat : bM (x0 ).
comme dans le cas des forts alatoires.
Lalgorithme est initialis par un terme constant cest--dire encore un arbre
une feuille. Les expressions du gradient reviennent simplement calculer
les rsidus rmj du modle ltape prcdente. Les termes correctifs jm
sont ensuite optimiss pour chacune des rgions Rjm dfinies par larbre de
rgression ajustant les rsidus. Un algorithme de discrimination est similaire
calculant autant de probabilits que de classes prvoir.
Sur-ajustement et rgularisation
Dans le dernier algorithme, le nombre ditrations peut tre contrl par
un chantillon de validation. Comme pour dautres mthodes (perceptron), il
suffit darrter la procdure lorsque lerreur estime sur cet chantillon arrive
se dgrader. Une possibilit complmentaire consiste ajouter un coefficient
de rtrcissement (shrinkage comme en rgression ridge). Compris entre 0
et 1, celui-ci pnalise lajout dun nouveau modle dans lagrgation et ralentit
lajustement.
bm (x) = bm1 (x) +

Jm
X
j=1

jm 1{x Rjm }

Performances
En rsum, le boosting est susceptible de rduire la variance comme le bagging et galement le biais par agrgation, il donne gnralement de meilleurs
rsultats. De leur ct les forts alatoires bases sur des modles de faible
biais (arbres complets) permettent de rduire significativement la variance et
conduisent donc des rsultats comptitifs avec le boosting.
Chaque problme, chaque jeu de donnes prsente des spcificits et il est
difficile danticiper sur le choix dune meilleure mthode, seule la comparaison
des erreurs sur des chantillons tests permet doptimiser le choix. Ainsi, dans
le cas dun trs grand nombre p de variables o seules quelques unes sont
pertinentes, les forts alatoire peinent les extraire, surtout videmment si m
est fix trop petit. Cest en revanche dans cette situation que le boosting peut
savrer plus performant.
La dernire version de boosting (GBM) adaptant et approchant le gradient
par un arbre peut savrer trs performante surtout lorsque le coefficient de
rgularisation ou schrinkage est bien rgl. Nanmoins cette approche perd en
simplicit du fait du ncessiare rglage de plusieurs paramtres (choix de la
fonction perte, de la profondeur des arbres, du coefficient de rgularisation...).

Logiciels
Il joue le rle du coefficient decay du perceptron) et, si sa valeur est petite
(< 0, 1) cela conduit accrotre le nombre darbres mais entrane gnraleLe bagging est trs facile programmer dans R mais il existe une libraiment une amlioration de la qualit de prvision. Le boosting est un algorithme rie (ipred) qui en propose des implmentations efficaces. Lalgorithme de
qui peut effectivement converger exactement, donc ventuellement vers une si- boosting, ou plutt la version de Friedman et col. (2000)[8] a t dveloppe
tuation de sur-apprentissage. En pratique, cette convergence peut tre rendue et interface avec R dans la librairie gbm tandis que Friedman fait commersuffisamment lente pour tre mieux contrle.
113

07/15

Agrgation de modles

cialiser ses outils par la socit Salford System. Schapire diffuse lui le logiciel fonctions de rgression de la collection.
Boost texter sur sa page pour des utilisations non commerciales.
Principe

Super apprenti en rgression

La principale originalit de COBRA par rapport aux techniques dagrgation de modles prcdentes, est que cette mthode nopre pas une moyenne
de prvisions mais une moyenne dobservations : celles les plus proches des
prvisions dune famille de modles ou de m machines. COBRA opre donc
une forme de rgression non-paramtrique avec une fonction noyau ou une notion de voisinage trs complexe car elle dpend des prvisions dune famille de
machines. Biau et al. (2013) explique le principe par un exemple jouet repris
dans la figure 1.

Dautres stratgies ont t proposes dans loptique dune prvision bruteen rgression, sans slection de variables ou objectif dinterprtation du
modle. Elles procdent en deux principales tapes :
la premire consiste estimer un ensemble de modles varis appartenant
celles des mthodes, de la rgression au boosting en passant par les
rseaux de neuronnes.
la deuxime construit une combinaison linaire convexe (super learner
Connaissant un ensemble dapprentissage (xi , yi ), les quantits f1 et f2 sont
Van der Laan et al. (2007)[14]) ou une rgression locale, partir des mo- estimes. La prvision en x est construite de la faon suivante. Une slections
0
dles prcdents (COBRA de Biau et al. (2013)[1]).
des observations est opre, ce sont celles qui vrifient pour un seuil choisi :

4.1

Super learner

m = 1, 2 : |fm (xi ) f m(x0 )| .

Le principe de lapproche propose par van der Laan et al. (2007) [14] est
simple, il sagit de calculer une combinaison convexe ou moyenne pondre
de plusieurs prvisions obtenues par plusieurs modles. Les paramtres de la
combinaison sont optimiss en minimisant un critre de validation croise. La
mthode est implmente dans la librairie SuperLearner de R o toutes
les combinaisons de mthodes ne sont pas possibles, seule une liste prdfinie
est implmente cette date (juin 2014) : glm, random forest, gbm,
mars, svm. Son emploi est illustr dans le scnario danalyse de donnes
(QSAR) issues de criblage virtuel de molcules.

La simple moyenne des observations slectionnes par unanimit fournit la


prvision. Ce principe dunanimit peut tre relch en acceptant quune proportion rduite des M machines satisfassent la contrainte sur les observations.
Sous des hypothse que les machines sont bornes, Biau et al. (2013)
montrent que le risque collectif est born par le plus petit risque de toutes
2
les machines plus un terme dordre `2 M +2 .
Illustration

4.2

COBRA

Biau et al. (2013)[1] proposent de combiner une collection de m fonctions


de rgression fbk (k = 1, m) en tenant compte de la proximit entre les donnes
dapprentissage avec lobservation prvoir. Plus prcisment, la prvision
en ybx est obtenue partir de m prvisions comme la moyenne non pondre
des observations yi dont les prvisions par m machines ( entre 0 et 1)
sont dans les boules de rayon centres en chaque fbk (xi ). Ils montrent que,
asymptotiquement, cette combinaison destimateurs fait au moins aussi bien,
au sens du risque quadratique ou erreur L2 de prvision, que la meilleure des

Comme pour le Super learner cette approche est teste dans le scnario
danalyse de donnes (QSAR) issues de criblage virtuel de molcules. La librairie R COBRA implmente cette mthode en proposant une procdure doptimisation des paramtres et . Tout type de modle de rgression peut tre
inclus dans la procdure COBRA, il est conseill den utiliser des trs varis
linaires et surtout non linaires afin doptimiser les chances du succs.
Bien entendu, mme les faibles capacits dinterprtation de certains mthodes comme random forest avec les critres dimportance de variables ne
sont plus dconserves.

114

07/15

10

Agrgation de modles

Exemples

5.1

Cancer du sein

La prvision de lchantillon test par ces algorithmes conduit aux matrices


de confusion :

benign
malignant

bagging(ipred)
benign malignant
83
3
3
48

adaboost(gbm)
benign malignant
84
1
2
50

random forest
benign malignant
83
0
3
51

et, respectivement, des erreurs estimes de 4,4 et 2,2% pour cet exemple et
avec les chantillons (apprentissage et test) tirs.
Il est remarquable de noter lvolution des erreurs dajustement et de test sur
cet exemple (figure 2) en fonction du nombre darbres estims par adaboost.
Lerreur dapprentissage arrive rapidement 0 tandis que celle de test continue
dcrotre avant datteindre un seuil. Cet algorithme est donc relativement
robuste au sur-apprentissage avant, ventuellement, de se dgrader pour des
raisons, sans doute, de prcision numrique. Ce comportement t relev
dans beaucoup dexemples dans la littrature.

5.2

F IGURE 1 COBRA : De gauche droite et de bas en haut : Lensemble dapprentissage (Y fonction de X) ; il faut prvoir la valeur sur la ligne pointille.
Les estimations de chaque observation par deux machines (rouge et verte). Une
tolrance ( optimiser) dtermine les observations retenues pour chaque
machine autour de la valeur prvoir. La prvision est la moyenne (en bleu)
des observations (en noir) slectionnes pour toutes les machines ltape
prcdente.

Concentration dozone

Malgr une bonne prvision quantitative, la prvision du dpassement de


seuil reste difficile pour lalgorithme des forts alatoires. Par une rgression
ou une discrimination, le taux derreur obtenu est le mme (12,5%) sur le
mme chantillon test et dautres exprimentations sont ncessaires pour dpartager, ou non, les diffrentes mthodes. Il semble que, travers plusieurs
exemples, lamlioration apporte la prvision par des algorithmes dagrgation de modles soit nettement plus probante dans des situations difficiles
cest--dire avec beaucoup de variables explicatives et des problmes de multicolinarit.
Comme les rseaux de neurones, les algorithmes dagrgation de modles
sont des botes noires. Nanmoins dans le cas des forts, les critres dimportance donnent des indications sur le rle de celles-ci. Les voici ordonnes par
ordre croissant du critre bas sur celui de Gini pour la construction des arbres.
jour station
2.54
13.58

115

lno
21.78

lno2 vmodule s_rmh2o


23.33
24.77
31.19

O3_pr
43.87

07/15

TEMPE
67.66

50

100

200

50

100

150

200

250

300

5
4

F IGURE 3 Ozone : Valeurs observes et rsidus de lchantillon test en fonction des valeurs prdites par une fort alatoire

0.0

Err.test

3.0
2.0

Valeurs predites

1.0

Err.app

Valeurs predites

300

100

50

50

Rsidus

150

50

100

250

Agrgation de modles

Valeurs observees

11

10

15

10

15

Les variables prpondrantes sont celles apparues dans la construction dun


seul arbre.

5.3

Donnes bancaires

Les arbres, qui acceptent la fois des variables explicatives qualitatives et


quantitatives en optimisant le dcoupage des variables quantitatives, se prtent
F IGURE 2 Cancer : volution des taux derreur (%) sur les chantillons bien au traitement des donnes bancaires. on a vu quun seul arbre donnait des
dapprentissage et de test en fonction du nombre darbres dans le modle avec rsultats semble-t-il trs corrects. Naturellement les forts constitus darbres
se trouvent galement performantes sur ces donnes en gagnant en stabilit et
adaboost.
sans trop se poser de problme concernant loptimisation de paramtres. Les
TPs dcrivent galement les rsultats proposs par les algorithmes de bagging
et de boosting sur les arbres en faisant varier certains paramtres comme le
shrinkage dans le cas du boosting.
Les graphiques de la figure 4 montrent bien linsensibilit des forts au surapprentissage. Les taux derreurs estims, tant par bootstrap (out-of-bag), que
sur un chantillon test, se stabilisent au bout de quelques centaines ditrations.
Il est mme possible dintroduire dans le modle toutes les variables quanti116

07/15

12

Agrgation de modles

0.25
0.20

0.16

0.10

0.15

0.20

[2] L. Breiman, Bagging predictors, Machine Learning 26 (1996), no 2, 123


140.

Err.test

0.24

[1] G. Biau, A. Ficher, B. Guedj et J. D. Malley, COBRA : A Nonlinear


Aggregation Strategy, Journal of Multivariate Analysis (2013).

0.12

Err.oob

Rfrences

100

200

300

400

500

Index

100

200

300

400

[3]

, Arcing classifiers, Annals of Statistics 26 (1998), 801849.

[4]

, Random forests, Machine Learning 45 (2001), 532.

[5] Rich. Caruana, N. Karampatziakis et A. Yessenalina, An Empirical Evaluation of Supervised Learning in High Dimensions, Proceedings of the
25th International Conference on Machine Learning (New York, NY,
USA), ICML 08, ACM, 2008, p. 96103, ISBN 978-1-60558-205-4.

500

Index

[6] Y. Freund et R.E. Schapire, Experiments with a new boosting algorithm,


Machine Learning : proceedings of the Thirteenth International Conference, Morgan Kaufman, 1996, San Francisco, p. 148156.

F IGURE 4 Banque : volution du taux de mal classs estims "out-of-bag"


et sur lchantillon test en fonction du nombre darbres intervenant dans la
combinaison de modles.

[7] J. H. Friedman, Stochastic gradient boosting, Computational Statisrics


and Data Analysis 38 (2002), .
tatives et qualitatives, avec certaines dupliques, en laissant lalgorithme faire
son choix. Cet algorithme conduit un taux derreur de 10,5% sur lchantillon
test avec la matrice de confusion :

Cnon
Coui

[9] S. Gey et J. M. Poggi, Boosting and instabillity for regression trees, Rap.
tech. 36, Universit de Paris Sud, Mathmatiques, 2002.

Cnon Coui
126
11
10
53

[10] B. Ghattas, Agrgation darbres de classification, Revue de Statistique


Applique 48 (2000), no 2, 8598.

tandis que les coefficients dimportance :


QSMOY FACANL
20.97 26.77

[8] J. H. Friedman, H. Hastie et R. Tibshirani, Additive logistic regression : a


statistical view of boosting, The Annals of Statistics 28 (2000), 337407.

RELAT DMVTPL QCREDL MOYRVL


29.98 36.81 40.31 50.01

[11] T. Hastie, R. Tibshirani et J Friedman, The elements of statistical learning : data mining, inference, and prediction, Springer, 2009, Second
edition.
[12] R. Schapire, The boosting approach to machine learning. An overview,
MSRI workshop on non linear estimation and classification, 2002, p. .
[13] E. Scornet, G. Biau et J. P. Vert, Consistency of random forests, The Annals of Statistics (2015), paratre.

mettent en vidence les variables les plus discriminantes. De son ct, le boos[14] M. J. van der Laan, E. C. Polley et A. E. Hubbard, Super learner, Statisting (sans schrinkage) fournit des rsultats tout fait comparables avec un taux
tical Applications in Genetics and Molecular Biology 6 :1 (2007).
derreur de 11%.
117

07/15

ce dveloppement, est dviter de substituer lobjectif initial : la discrimination, un ou des problmes qui savrent finalement plus complexes rsoudre
comme par exemple lestimation non-paramtrique de la densit dune loi multidimensionnelle en analyse discriminante.

Machines vecteurs supports


Rsum
Recherche dun hyperplan, dit de marge optimale (vaste), pour la
sparation de deux classes dans un espace hilbertien dfini par
un noyau reproduisant associ au produit scalaire de cet espace.
Estimation de lhyperplan dans le cas linaire et sparable ; les
contraintes actives du problme doptimisation dterminent les vecteurs supports. Extension au cas non linaire par plongement dans
un espace hilbertien noyau reproduisant. Extension au cas non sparable par pnalisation.
Retour au plan du cours

Machines vecteurs supports

Introduction

Les Support Vector Machines souvent traduit par lappellation de Sparateur Vaste Marge (SVM) sont une classe dalgorithmes dapprentissage initialement dfinis pour la discrimination cest--dire la prvision dune variable
qualitative initialement binaire. Ils ont t ensuite gnraliss la prvision
dune variable quantitative. Dans le cas de la discrimination dune variable dichotomique, ils sont bass sur la recherche de lhyperplan de marge optimale
qui, lorsque cest possible, classe ou spare correctement les donnes tout en
tant le plus loign possible de toutes les observations. Le principe est donc
de trouver un classifieur, ou une fonction de discrimination, dont la capacit de
gnralisation (qualit de prvision) est la plus grande possible.

Le principe de base des SVM consiste de ramener le problme de la discrimination celui, linaire, de la recherche dun hyperplan optimal. Deux ides
ou astuces permettent datteindre cet objectif :
La premire consiste dfinir lhyperplan comme solution dun problme
doptimisation sous contraintes dont la fonction objectif ne sexprime
qu laide de produits scalaires entre vecteurs et dans lequel le nombre
de contraintes actives ou vecteurs supports contrle la complexit du
modle.
Le passage la recherche de surfaces sparatrices non linaires est obtenu
par lintroduction dune fonction noyau (kernel) dans le produit scalaire
induisant implicitement une transformation non linaire des donnes vers
un espace intermdiaire (feature space) de plus grande dimension. Do
lappellation couramment rencontre de machine noyau ou kernel machine. Sur le plan thorique, la fonction noyau dfinit un espace hilbertien,
dit auto-reproduisant et isomtrique par la transformation non linaire de
lespace initial et dans lequel est rsolu le problme linaire.
Cet outil devient largement utilis dans de nombreux types dapplication
et savre un concurrent srieux des algorithmes les plus performants (agrgation de modles). Lintroduction de noyaux, spcifiquement adapts une
problmatique donne, lui confre une grande flexibilit pour sadapter des
situations trs diverses (reconnaissance de formes, de squences gnomiques,
de caractres, dtection de spams, diagnostics...). noter que, sur le plan algorithmique, ces algorithmes sont plus pnaliss par le nombre dobservations,
cest--dire le nombre de vecteurs supports potentiels, que par le nombre de
variables. Nanmoins, des versions performantes des algorithmes permettent
de prendre en compte des bases de donnes volumineuses dans des temps de
calcul acceptables.

Cette approche dcoule directement des travaux de Vapnik en thorie de


lapprentissage partir de 1995. Elle sest focalise sur les proprits de gnralisation (ou prvision) dun modle en contrlant sa complexit. Voir ce
sujet la vignette sur lestimation dun risque et la section introduisant la dimenLe livre de rfrence sur ce sujet est celui de Schlkopf et Smola (2002)[2].
sion de Vapnik-Chernovenkis comme indicateur du pouvoir sparateur dune
De
nombreuses introduction et prsentations des SVM sont accessibles sur des
famille de fonctions associ un modle et qui en contrle la complexit. Le
sites
comme par exemple : www.kernel-machines.org. Guermeur et
principe fondateur des SVM est justement dintgrer lestimation le contrle
Paugam-Moisy
(1999)[1] en proposent une en franais.
de la complexit cest--dire le nombre de paramtres qui est associ dans ce
cas au nombre de vecteurs supports. Lautre ide directrice de Vapnik dans
118

07/15

Machines vecteurs supports

Principes

2.1

Problme

Comme dans toute situation dapprentissage, on considre une variable Y


prdire mais qui, pour simplifier cette introduction lmentaire, est suppose dichotomique valeurs dans {1, 1}. Soit X = X 1 , . . . , X p les variables explicatives ou prdictives et (x) un modle pour Y , fonction de
x = {x1 , . . . , xp } Rp . Plus gnralement on peut simplement considrer
la variable X valeurs dans un ensemble F.
On note
z = {(x1 , y1 ), . . . , (xn , yn )}
un chantillon statistique de taille n et de loi F inconnue. Lobjectif est donc
de construire une estimation b de , fonction de F dans {1, 1}, de sorte que
la probabilit :
F IGURE 1 Sous-ajustement linaire et sur-ajustement local (proches voisins)
P ((X) 6= Y )
dun modle quadratique.
soit minimale.
Dans ce cas (Y dichotomique), le problme se pose comme la recherche
On dit que Y f (X) est la marge de f en (X, Y ).
dune frontire de dcision dans lespace F des valeurs de X. De faon classique, un compromis doit tre trouv entre la complexit de cette frontire, qui 2.3 Espace intermdiaire
peut sexprimer aussi comme sa capacit pulvriser un nuage de points par
la VC dimension, donc la capacit dajustement du modle, et les qualits de
Une premire tape consiste transformer les valeurs de X, cest--dire les
gnralisation ou prvision de ce modle. Ce principe est illustr par la figure objets de F par une fonction valeurs dans un espace H intermdiaire (fea1.
ture space) muni dun produit scalaire. Cette transformation est fondamentale
dans le principe des SVM, elle prend en compte lventuelle non linarit du
2.2 Marge
problme pos et le ramne la rsolution dune sparation linaire. Ce point
est dtaill dans une section ultrieure. Traitons tout dabord le cas linaire
b
La dmarche consiste rechercher, plutt quune fonction valeurs dans
cest--dire le cas o est la fonction identit.
{1, 1}, une fonction relle f dont le signe fournira la prvision :
b = signe(f ).
Lerreur sexprime alors comme la quantit :

3
3.1

Sparateur linaire
Hyperplan sparateur

P ((X) 6= Y ) = P (Y f (X) 0).

La rsolution dun problme de sparation linaire est illustr par la figure


De plus, la valeur absolue de cette quantit |Y f (X)| fournit une indication sur 2. Dans le cas o la sparation est possible, parmi tous les hyperplans solutions
la confiance accorder au rsultat du classement.
pour la sparation des observations, on choisit celui qui se trouve le plus loin
119

07/15

Machines vecteurs supports

2
et, dans ces conditions, la marge du plan a pour valeur kwk
2 . Chercher le plan
sparateur de marge maximale revient rsoudre le problme ci-dessous doptimisation sous contraintes (problme primal) :

minw 12 kwk2

avec i, yi (< w, xi > +b) 1.

Le problme dual est obtenu en introduisant des multiplicateurs de Lagrange. La solution est fournie par un point-selle (w , b , ) du lagrangien :
F IGURE 2 Recherche dun hyperplan de sparation optimal au sens de la
marge maximale.

L(w, b, ) =

1/2kwk22

n
X

i [yi (< w, xi > +b) 1] .

i=1

possible de tous les exemples, on dit encore, de marge maximale.

Ce point-selle vrifie en particulier les conditions :

Dans le cas linaire, un hyperplan est dfini laide du produit scalaire de


H par son quation :
hw, xi + b = 0
o w est un vecteur orthogonal au plan tandis que le signe de la fonction

i [yi (< w , xi > +b ) 1] = 0 i {1, . . . , n}.


Les vecteurs support sont les vecteurs xi pour lesquels la contrainte est active,
cest--dire les plus proches du plan, et vrifiant donc :

f (x) = hw, xi + b

yi (< w , xi > +b ) = 1.

indique de quel ct se trouve le point x prdire. Plus prcisment, un point


est bien class si et seulement si :
yf (x) > 0

Les conditions dannulation des drives partielles du lagrangien permettent


dcrire les relations que vrifient le plan optimal, avec les i non nuls seulement pour les points supports :

mais, comme le couple (w, b) qui caractrise le plan est dfini un coefficient
multiplicatif prs, on simpose :

w =

i=1

yf (x) 1.
Un plan (w, b) est un sparateur si :
yi f (xi ) 1 i {1, . . . , n}.
La distance dun point x au plan (w, b) est donne par :
d(x) =

| hw, xi + b|
|f (x)|
=
kwk
kwk

n
X

i yi xi

et

n
X

i yi = 0.

i=1

Ces contraintes dgalit permettent dexprimer la formule duale du lagrangien :


n
n
X
1 X
i j yi yj < xi , xj > .
W () =
i
2 i,j=1
i=1
Pour trouver le point-selle, il suffit alors de maximiser W () avec i 0 pour
tout i {1, ...n}. La rsolution de ce problme doptimisation quadratique de
120

07/15

taille n, le nombre dobservations, fournit lquation de lhyperplan optimal :

Machines vecteurs supports

De nombreux algorithmes sont proposs pour rsoudre ces problmes

doptimisation quadratique. Certains, proposant une dcomposition de


1

lensemble
dapprentissage, sont plus particulirement adapts prendre
< x, xi > +b = 0 avec b = [< w , svclass+1 > + < w , svclass1
>] .
2
en
compte
un
nombre important de contraintes lorsque n, le nombre dobi=1
servation, est grand.
Pour une nouvelle observation x non apprise prsente au modle, il suffit de
On montre par ailleurs que la recherche des hyperplans optimaux rpond
regarder le signe de lexpression :
bien au problme de la bonne gnralisation. On montre aussi que, si
n
lhyperplan optimal peut tre construit partir dun petit nombre de vecX
f (x) =
i yi hx, xi i + b
teurs supports, par rapport la taille de la base dapprentissage, alors la
i=1
capacit en gnralisation du modle sera grande, indpendamment de la
taille de lespace.
pour savoir dans quel demi-espace cette forme se trouve, et donc quelle classe
Plus prcisment, on montre que, si les X sont dans une boule de rayon R,
il faut lui attribuer.
lensemble des hyperplans de marge fixe a une VC-dimension borne
3.2 Cas non sparable
par
R2
Lorsque les observations ne sont pas sparables par un plan, il est ncessaire
avec kxk R.
2
dassouplir les contraintes par lintroduction de termes derreur i qui en
Lerreur par validation croise (leave-one-out) et borne en moyenne par
contrlent le dpassement :
le nombre de vecteurs supports. Ces bornes derreur sont bien relativement prdictives mais nanmoins trop pessimistes pour tre utiles en prayi hw, xi i + b +1 i i {1, . . . , n}.
tique.
Le modle attribue ainsi une rponse fausse un vecteur xi si le i correspondant est suprieur 1. La somme de tous les i reprsente donc une borne du
4 Sparateur non linaire
nombre derreurs.

n
X

i yi

Le problme de minimisation est rcrit en introduisant une pnalisation par 4.1 Noyau
le dpassement de la contrainte :
Revenons la prsentation initiale du problme. Les observations faites dans

Pn
2
min 21 kwk + i=1 i
lensemble F (en gnral Rp ) sont considres comme tant transformes par
i, yi hw, xi i + b +1 i
une application non linaire de F dans H muni dun produit scalaire et de
plus grande dimension.
Remarques
Le point important remarquer, cest que la formulation du problme de
Le paramtre contrlant la pnalisation est rgler. Plus il est grand et
minimisation ainsi que celle de sa solution :
plus cela revient attribuer une forte importance lajustement. Il est le
n
X
paramtre qui ajuste le compromis entre bon ajustement et bonne gnraf
(x)
=
i yi hx, xi i + b
lisation.
i=1
Le problme dans le cas non sparable se met sous la mme forme duale
que dans la cas sparable une diffrence prs : les coefficients i sont ne fait intervenir les lments x et x0 que par lintermdiaire de produits scatous borns par la constante de contrle de la pnalisation.
laires : hx, x0 i. En consquence, il nest pas ncessaire dexpliciter la transfor121

07/15

Machines vecteurs supports

quelle dfinit une matrice de produit scalaire.


Dans ce cas, on montre quil existe un espace H et une fonction tels que :
k(x, x0 ) = h(x), (x0 )i .
Malheureusement, cette condition thorique dexistence est difficile vrifier et, de plus, elle ne donne aucune indication sur la construction de la
fonction noyau ni sur la transformation . La pratique consiste combiner
des noyaux simples pour en obtenir des plus complexes (multidimensionnels)
associs la situation rencontre.

F IGURE 3 Rle de lespace intermdiaire dans la sparation des donnes.

4.3
mation , ce qui serait souvent impossible, condition de savoir exprimer les
produits scalaires dans H laide dune fonction k : F F R symtrique
appele noyau de sorte que :
k(x, x0 ) = h(x), (x0 )i .

Exemples de noyaux

Linaire

k(x, x0 ) = hx, x0 i
Polynmial

k(x, x0 ) = (c + hx, x0 i)d

Bien choisi, le noyau permet de matrialiser une notion de proximit adapte


au problme de discrimination et sa structure de donnes.

Gaussien

k(x, x0 ) = e

kxx0 k2
2 2

Exemple

Beaucoup darticles sont consacrs la construction dun noyau plus ou moins

2
Prenons le cas trivial o x = (x1 , x2 ) dans R et (x) =
2x1 x2 , x2 ) exotique et adapt une problmatique pose : reconnaissance de squences,
est explicite. Dans ce cas, H est de dimension 3 et le produit scalaire scrit : de caractres, lanalyse de textes... La grande flexibilit dans la dfinition des
noyaux, permettant de dfinir une notion adapte de similitude, confre beau0 0
2 02
h(x), (x0 )i = x21 x02
+
2x
x
x
x
+
x
x
coup defficacit cette approche condition bien sur de construire et tester
1
2
1
1 2
2 2
0
0 2
le bon noyau. Do apparat encore limportance de correctement valuer des
= (x1 x1 + x2 x2 )
erreurs de prvision par exemple par validation croise.
2
= hx, x0 i
Attention, les SVM noyaux RBF gaussiens, pour lesquels, soit on est dans
= k(x, x0 ).
le cas sparable, soit la pnalit attribue aux erreurs est autorise prendre
Le calcul du produit scalaire dans H ne ncessite pas lvaluation explicite de nimporte quelle valeur, ont une VC-dimension infinie.
. Dautre part, le plongement dans H = R3 peut rendre possible la sparation
4.4 SVM pour la rgression
linaire de certaines structures de donnes (cf. figure 3).
2

(x21 ,

Les SVM peuvent galement tre mis en uvre en situation de rgression,


cest--dire pour lapproximation de fonctions quand Y est quantitative. Dans
Une fonction k(., .) symtrique est un noyau si, pour tous les xi possibles, la le cas non linaire, le principe consiste rechercher une estimation de la foncmatrice de terme gnral k(xi , xj ) est une matrice dfinie positive cest--dire tion par sa dcomposition sur une base fonctionnelle. la forme gnrale des

4.2

Condition de Mercer

122

07/15

Machines vecteurs supports

fonctions calcules par les SVM se met sous la forme :


(x, w) =

wi vi (x).

i=1

Le problme se pose toujours comme la minimisation dune fonction cot,


mais, plutt que dtre base sur un critre derreur quadratique (moindres
carrs), celle-ci sinspire des travaux de Huber sur la recherche de modles
robustes et utilise des carts absolus.
On note |.| la fonction qui est paire, continue, identiquement nulle sur lintervalle [0, ] et qui croit linairement sur [, +]. La fonction cot est alors F IGURE 4 Cookies : trois excutions de la validation croise estimant lerreur
dfinie par :
en fonction de la pnalisation dun noyau linaire.
n

E(w, ) =

1X
|yi (xi , w)| + kwk2
n i=1

ign malignant
benign
83
1
o est, comme en rgression ridge, un paramtre de rgularisation assurant
malignant
3
50
le compromis entre gnralisation et ajustement. De mme que prcdemment,
on peut crire les solutions du problmes doptimisation. Pour plus de dtails, et donc une erreur estime de 3%.
se reporter Schlkopf et Smola (2002)[2]. Les points de la base dapprentissage associs un coefficient non nul sont l encore nomms vecteurs support. 5.2 Concentration dozone
Dans cette situation, les noyaux k utiliss sont ceux naturellement associs
Un modle lmentaire avec noyau par dfaut (gaussien) et une pnalisation
la dfinition de bases de fonctions. Noyaux de splines ou encore noyau de de 2 conduit une erreur de prvision estime 12,0% sur lchantillon test.
Driclet associ un dveloppement en srie de Fourier sont des grands clas- La meilleure prvision de dpassement de seuil sur lchantillon test initial
siques. Ils expriment les produits scalaires des fonctions de la base.
est fournie par des SVM d-rgression. Le taux derreur est de 9,6% avec la
matrice de confusion suivante :

Exemples

0
1
Comme pour les rseaux de neurones, loptimisation des SVM qui, en plus
FALSE 161 13
du choix de noyau, peut comporter de 1 3 paramtres (pnalisation et venTRUE
7 27
tuels paramtres du noyau) est dlicate. La figure 4 montre 3 rsultats de validation croise pour le simple noyau linaire dans le cas des donnes NIR.
Ce rsultat serait confirmer avec des estimations systmatiques de lerreur.
Les graphiques de la figure 5 montre le bon comportement de ce prdicteur.
5.1 Cancer du sein
Il souligne notamment leffet "tunnel" de lestimation qui accepte des erreurs
La prvision de lchantillon test par un Sparateur Vaste marge conduit autour de la diagonale pour se concentrer sur les observations plus loignes
donc plus difficiles ajuster.
la matrice de confusion :
123

07/15

Machines vecteurs supports

Rsidus

200
150
0

100

50

50

100

Valeurs observees

50

250

100

300

50

100

150

200

250

300

Valeurs predites

50

100

150

200

250

300

Valeurs predites

F IGURE 5 Ozone : Valeurs observes et rsidus en fonction des valeurs prdites pour lchantillon test.

5.3

Donnes bancaires

Les donnes bancaires posent un problme car elles mixent variables quantitatives et qualitatives. Celles-ci ncessiteraient la construction de noyaux trs
spcifiques. Leur traitement par SVM nest pas dtaill ici.

Rfrences
[1] Y. Guermeur et H. Paugam-Moisy, Thorie de lapprentissage de Vapnik
et SVM, Support Vector Machines, Apprentissage automatique (M. Sebban
et G. Venturini, rds.), Hermes, 1999, p. 109138.
[2] B Schlkopf et A Smola, Learning with Kernels Support Vector Machines,
Regularization, Optimization and Beyond, MIT Press, 2002.

124

07/15

Imputation de donnes manquantes

Imputation de donnes manquantes

Typologie des donnes manquantes

2.1
Rsum

Afin daborder correctement limputation des donnes manquantes il faut


en distinguer les causes, les donnes manquantes narrivant pas toujours par
un pur hasard. Une typologie a t dveloppe par Little & Rubin en 1987
[13], les rpartissant en 3 catgories :

Cette vignette prsente les diffrents types de problmes soulevs


par la question trs frquente en pratique doccurrences de donnes
manquantes, que ce soit pour des donnes matricielles ou longitudinales. Les mthodes dimputation de donnes manquantes sont dcrites ; les plus rudimentaires : LOCF, imputation par la mdiane,
la moyenne..., de mme que celles par modlisation ou apprentissage statistique : rgression et rgression locale, k-nn, rgression
PLS, SVD, Random Forest ou encore par imputation multiple. Ces
mthodes sont illustres et leur efficacit compare sur trois jeux de
donnes.
Retour au plan du cours

Types de donnes manquantes

Introduction

Malgr la quantit croissante de donnes disponibles et lmergence du Big


Data, les problmatiques de donnes manquantes restent trs rpandues dans
les problmes statistiques et ncessitent une approche particulire. Ignorer les
donnes manquantes peut entraner, outre une perte de prcision, de forts biais
dans les modles danalyse.

- Missing completely at random (MCAR) : Une donne est MCAR, cest


dire manquante de faon compltement alatoire si la probabilit dabsence est la mme pour toutes les observations. Cette probabilit ne dpend donc que de paramtres extrieurs indpendants de cette variable.
Par exemple : si chaque participant un sondage dcide de rpondre la
question du revenu en lanant un d et en refusant de rpondre si la face 6
apparat [1]. A noter que si la quantit de donnes MCAR nest pas trop
importante, ignorer les cas avec des donnes manquantes ne biaisera pas
lanalyse. Une perte de prcision dans les rsultats est toutefois prvoir.
- Missing at random (MAR) : Le cas des donnes MCAR est tout de
mme peu courant. Il arrive souvent que les donnes ne manquent pas de
faon compltement alatoire. Si la probabilit dabsence est lie une ou
plusieurs autres variables observes, on parle de missingness at random
(MAR). Il existe des mthodes statistiques appropries qui permettrons
dviter de biaiser lanalyse (voir 4)
- Missing not at random (MNAR) : La donne est manquante de faon
non alatoire (MNAR) si la probabilit dabsence dpend de la variable en
question. Un exemple rpandu [1][9] est le cas o des personnes avec un
revenu important refusent de le dvoiler. Les donnes MNAR induisent
une perte de prcision (inhrente tout cas de donnes manquantes) mais
aussi un biais qui ncessite le recours une analyse de sensibilit.

Les donnes sont constitues de p variables quantitatives ou qualitatives


(Y1 , . . . , Yp ) observes sur un chantillon de n individus. Il existe des donnes manquantes reprsentes par la matrice M dite dindication des valeurs
2.2
manquantes [13] dont la forme dpend du type de donnes manquantes.

Rpartition des donnes manquantes

Nous commencerons par donner une dfinition des donnes manquantes en


Soit Y = (yij ) Rnp la matrice rectangulaire des donnes pour p vadfinissant plusieurs types de donnes manquantes et en tudiant les rparti- riables Y1 , . . . , Yp et n observations. Considrons M = (mij ) la matrice dintions possibles. Nous verrons ensuite quelques dapproches qui ncessitent la dication des valeurs manquantes [13], qui va dfinir la rpartition des donnes
suppression de donnes puis nous proposerons un certain nombre de mthodes manquantes. On considrera alors 3 types de rpartition :
de compltion, sans souci dexhaustivit.
1. Les valeurs manquantes univaries. Cest dire que pour une variable
125

07/15

Imputation de donnes manquantes

Yk seulement, si une observation yki est manquante, alors il ny aura plus 2.3 Probabilit dabsence
dobservation de cette variable. Une illustration est donne Figure 1a.
La probabilit dabsence selon le type de donnes manquantes (MCAR,
2. Les valeurs manquantes sont dites monotones si Yj manquante pour MAR, MNAR) peut alors tre exprim en fonction de M [13]. Les donun individu i implique que toutes les variables suivantes {Yk }k>j sont nes sont divises en deux selon la matrice M dindication des donnes
manquantes pour cet individu (Figure 1b). Lindicateur de donnes man- manquantes. On dfinit donc Yobs = Y 1{M =0} les donnes observes et
quantes M est alors un entier M (1, 2, . . . , p) pour chaque individu, Ymis = Y 1{M =1} les donnes manquantes telles que Y = {Yobs , Ymis }. Le
indiquant le plus grand j pour lequel Yj est observ.
mcanisme des donnes manquantes est caractris par la distribution conditionnelle de M sachant Y donne par p(M |Y ).
3. Les valeurs manquantes sont non monotones (ou arbitraires), comme
- Dans le cas des donnes MCAR labsence de donnes ne dpend pas des
le reprsente la Figure 1c Dans ce cas, on dfinit la matrice de valeurs
valeurs de Y donc
manquantes par M = (mij ) avec mij = 1 si yij est manquant et zro
sinon.
p(M |Y ) = p(M ) pour tout Y.
(1)
- Considrons prsent le cas MAR. Soit Yobs la partie observe du jeu de
donnes et Ymis les donnes manquantes. MAR signifie que labsence de
donnes dpend uniquement de Yobs :
p(M |Y ) = p(M |Yobs ) pour tout Ymis .

(2)

- Enfin, les donnes sont MNAR si la distribution de M dpend aussi de


Ymis .
(a)

(b)

(c)

Exemple pour un chantillon alatoire univari

F IGURE 1 Rpartitions des donnes manquantes. (a) univaries, (b) monotones et (c) arbitraires/non monotones

Soit Y = (y1 , . . . , yn )> o yi est lobservation dune variable alatoire pour


lindividu i, et M = (M1 , . . . , Mn ) o Mi = 0 pour les donnes observes et
Mi = 1 pour les donnes manquantes. On suppose galement que la distribuCette rpartition est valable pour les donnes longitudinales (voir Figure 2). tion conjointe est indpendante des individus. Alors
La rpartition monotone correspond alors une censure droite.
n
n
Y
Y
p(Y, M ) = p(Y )p(M |Y ) =
p(yi )
p(Mi |yi )
(3)
i=1

i=1

o p(yi ) est la densit de yi et p(Mi |yi ) est la densit dune loi de Bernoulli
pour lindicateur binaire Mi avec la probabilit P(Mi = 1|yi ) que yi soit
manquante.
F IGURE 2 Rpartitions des donnes manquantes pour des variables longitudinales. (a) jeu complet, (b) arbitraires/non monotones et (c) monotones

Si P(Mi = 1|yi ) = avec une constante qui ne dpend pas de yi alors


cest un cas MCAR (ou dans ce cas aussi MAR). Si P(Mi = 1|yi ) dpend de
yi , le mcanisme de donnes manquantes est MNAR.

126

07/15

3
3.1

Analyse sans compltion

Imputation de donnes manquantes

3.2

Mthodes avec suppression de donnes

Mthodes qui tolrent les donnes manquantes

Si la plupart des mthodes danalyse suppriment automatiquement les donnes manquantes, certaines les tolrent. Cest le cas par exemple des arbres
CART qui considrent des surrogate splits ou divisions de substitution : Au
moment du split dun nud, plusieurs couples variables / seuil optimaux
sont considrs et mmoriss. Au moment de lutilisation, si la donne est
manquante pour une observation, ce nest pas la meilleure division qui est utilise mais celle juste aprs lui est substitue [7].

Dans certains cas, lanalyse est possible sans imputer les donnes manquantes. En gnral, on se reporte deux mthodes classiques :
- Lanalyse des cas concrets, qui consiste ne considrer que les individus pour lesquels toutes les donnes sont disponibles, i.e. en supprimant
les lignes comportant des valeurs manquantes. Cest ce qui est fait automatiquement avec R (na.action=na.omit). Cette mthode, on le
voit bien Figure 3, risque de supprimer trop de donnes et daugmenter de 4 Mthodes dimputation
beaucoup la perte de prcision. De plus, si les donnes ne sont pas MCAR,
retirer des observations va induire un biais dans lanalyse puisque le sousCette section donne un aperu non exhaustif des mthodes de compltion
chantillon des cas reprsents par les donnes manquantes ne sont pas les plus courantes. On considre un jeu de donnes constitu de p variables
forcment reprsentatifs de lchantillon initial.
quantitatives ou qualitatives (Y1 , . . . , Yp ) observes sur un chantillon de n
individus. On dfinit la matrice M dindication des valeurs manquantes par
mij = 1{yij manquante}

4.1

(a)

(b)

Compltion stationnaire

Il existe plusieurs compltions stationnaires possibles. On peut par exemple


choisir de complter par la valeur la plus frquemment reprsente (Concept
Most Common Attribute Value Fitting, CMCF [14]) ou plus simplement par la
dernire valeur connue (Last observation carried forward, LOCF) :

F IGURE 3 Rpartitions des donnes manquantes. (a) donnes dorigine, va(yij )mis = yi? j ? = {yi? j |mi? j = 0, j < j ? }
(4)
leurs manquantes arbitraires, (b) observations restantes en analyse des cas
complets
Cette mthode peut sembler trop nave mais est souvent utilise pour poser
les bases dune comparaison entre mthodes de compltion.
- Lanalyse des cas disponibles. Afin dviter de supprimer trop de donnes, il est possible de faire de la suppression par paires (pairwise dele- 4.2 Compltion par une combinaison linaire des obtion) ou analyse des cas disponibles (available-case analysis). Diffrents
servations
aspects du problme sont alors tudis avec diffrents sous-chantillons.
Une autre technique rpandue consiste remplacer toutes les valeurs manCependant, les diffrentes analyses ne seront pas ncessairement compaquantes par une combinaison linaire des observations. On retiendra le cas
tibles entre elles.
Lanalyse des cas disponibles correspond aussi au cas o une variable est dimputation par la moyenne :
supprime du jeu de donnes cause de sa trop grande quantit de valeurs
manquantes.
(yij )mis = yi? j ? = Yj ?
(5)
127

07/15

Imputation de donnes manquantes

Soit Yi? une observation laquelle il manque q valeurs manquantes. On


(6) impute ces donnes manquantes par rgression locale en suivant lalgorithme
Mais ce cas se gnralise toute combinaison linaire pondre des observa- ci-aprs.
ou par la mdiane :

(yij )mis = yi? j ? = Yj ?

tions.
Au lieu dutiliser toutes les valeurs disponibles, il est possible de se res- Algorithme LOESS
treindre des mthodes qui slectionnent les valeurs les plus influentes. Par
1. Obtention des k plus proches voisins Y(i1 ) , . . . , Y(ik )
exemple, on prsente ci-dessous des mthodes dagrgation locale ou de rgression ainsi que des algorithmes combinant diffrents aspects.
2. Cration des matrices A Rk(nq) , B Rkq et w R(nq)1 de
sorte que :
4.3 Mthode des plus proches voisins (KNN)
- Les lignes de A correspondent aux voisins privs des valeurs aux
indices des donnes manquantes de Yi?

La compltion par k plus proches voisins (k-nearest neighbors ou KNN)


consiste suivre lalgorithme suivant :

- Les colonnes de B correspondent aux valeurs des voisins aux indices des donnes manquantes de Yi?

Algorithme des k plus proches voisins (k-nn)

- Le vecteur w correspond aux (n q) valeurs observes de Yi? :


wj = (yi? j )obs

1. Choix dun entier k : 1 k n.


2. Calculer les distances d(Yi? , Yi ) , i = 1, . . . , n
3. Retenir les k observations Y(i1 ) , . . . , Y(ik ) pour lesquelles ces distances
sont les plus petites.
4. Affecter aux valeurs manquantes la moyenne des valeurs des k voisins :
(yij )mis = yi? j ?


1
=
Y(i1 ) + . . . + Y(ik )
k

3. Rsolution du problme des moindres carrs


min k A> x w k

(8)

xRk

o k k est la norme quadratique de Rk .


4. Le vecteur u des donnes manquantes sexprime alors par

(7)

u = B > x = B > (A> )1 w


Comme pour la classification par KNN, la mthode des plus proches voisins
ncessite le choix du paramtre k par optimisation dun critre. De plus, la
notion de distance entre les individus doit tre choisie avec prcaution. On
considrera usuellement la distance Euclidienne ou de Mahalanobis.

4.4

Rgression locale

La rgression locale (en anglais LOcal regrESSion : LOESS) [15] permet


galement dimputer des donnes manquantes. Pour cela, un polynme de degr faible est ajust autour de la donne manquante par moindres carrs pondrs, en donnant plus de poids aux valeurs proches de la donne manquante.

(9)

avec (A> )1 la matrice pseudo-inverse de A> .

4.5

Algorithme NIPALS

Lalgorithme NIPALS (Nonlinear Iterative Partial Least Squares) est une


mthode itrative proche de la rgression PLS, utilise pour estimer les lments dune analyse en composantes principales dun vecteur alatoire de dimension finie. Cet algorithme peut tre adapt pour limputation de donnes
manquantes [3]. Soit Y = (Y1 , . . . , Yp ) tel que i 1, . . . , p, E(Yi ) = 0

128

07/15

Imputation de donnes manquantes

(chaque colonne de la matrice est centre). Lexpansion de Y en termes de


composantes principales et de facteurs principaux est donne par
Y =

q
X

h uh

On pourra alors approximer les donnes manquantes par


(
yij )mis =

(10)

q
X

h (i)
uh (j)

(12)

h=1

h=1

o q = dimL2 (Y ) et {h }h=1,...,q sont les composantes principales et 4.6 Par dcomposition en valeurs singulires (SVD)
{uh }h=1,...,q les vecteurs principaux de lACP de Y . Donc pour chaque va4.6.1 Cas o il y a suffisamment de donnes observes
riable Yi on a
q
X
Sil y a bien plus de donnes observes que de donnes manquantes, on sYi =
h uh (i)
(11)
pare
le jeu de donnes Y en deux groupes : dun ct Y c avec les observations
h=1
compltes et de lautre Y m comprenant les individus pour lesquels certaines
Lide tant que pour chaque h, uh (i) reprsente la pente de la rgression
donnes manquent. On considre alors la dcomposition en valeurs singulires
linaire de Yi sur la composante h . Lalgorithme NIPALS va permettre
(SVD) tronque du jeu complet [6] :
dobtenir {h }h=1,...,q et {
uh }h=1,...,q les approximations de {h }h=1,...,q et
Yc = UJ DJ VJ>
(13)
{u }
.
h h=1,...,q

o DJ est la matrice diagonale comprenant les J premires valeurs singulires


de Y c . Les valeurs manquantes sont alors imputes par rgression :

2
J
X
X
Yi?
min
vlj j
(14)
RJ
j=1
i observes

Algorithme NIPALS
1. Y 0 = Y
2. Pour h = 1, . . . , q faire
(a) h = Y1h1
(b) Tant que uh na pas converg faire
i. Pour i = 1, . . . , p faire
P
uh (i) =

j:yji ,h (j) existe

h1
yji
h (j)

2
j:h (j) existe h (j)

ii. Normaliser uh

Soit VJ? la version tronque de VJ , cest dire pour laquelle les lignes correspondant aux donnes manquantes de la ligne Yi? sont supprimes. Une solution
du problme 14 est alors
= (V ?> V ? )1 V ?> Yi?
(15)
J

h (i) =
(c) Y h = Y h1 h u0h

h1
j:y existe yij uh (j)
Pij
2
j:yij existe uh (j)

La prdiction des donnes manquantes est donc donne par


(?)
Yi? = VJ
(?)

iii. Pour i = 1, . . . , N faire


P

o VJ

(16)

est le complment de VJ? dans VJ .

Comme pour KNN, cette mthode ncessite le choix du paramtre J. On se


ramnera alors un problme de minimisation :
min

X de rang J

k Y c X kF

(17)

avec k kF la norme de Frobenius.


129

07/15

4.6.2

Cas o il y a trop de donnes manquantes

Si les donnes manquantes sont trop nombreuses, cela induira un biais important dans le calcul de la base de dcomposition. De plus, il arrive quil y ait
au moins une donne manquante pour toutes les observations. Dans ce cas, il
faut rsoudre le problme suivant :
min

UJ ,VJ ,DJ

k Y m UJ DJ VJ> k?

(18)

Imputation de donnes manquantes

s
2. ymis
les valeurs manquantes dans Y s
3. X s = Y \ Y s lensemble des rgresseurs de Y s parmi lesquels on considre
(a) xsobs les rgresseurs observs pour isobs = {i, . . . , n} \ ismis
(b) xsmis les rgresseurs manquants pour ismis

La mthode suit alors lalgorithme suivant :

o k k? somme les carrs des lments de la matrice, en ignorant les valeurs


Algorithme MissForest
manquantes. m est le vecteur des moyennes des observations. La rsolution de
ce problme suit lalgorithme suivant :
1. Premire compltion nave des valeurs manquantes.
2. Soit k le vecteur des indices de colonnes de Y tries par quantit croisAlgorithme de Compltion par SVD
sante de valeurs manquantes ;
3.
Tant que nest pas atteint faire
0
1. Crer une matrice Y pour laquelle les valeurs manquantes sont complold
(a) Yimp
= matrice prcdemment impute
tes par la moyenne,
i
(b)
Pour
s dans k faire
2. Calculer la SVD solution du problme (18) pour la matrice complte Y .
(s)
(s)
i+1
On cre ainsi Y
en remplaant les valeurs manquantes de Y par celles
i. Ajuster yobs xobs par fort alatoire
de la rgression.
(s)
(s)
ii. Prdire ymis avec les rgresseurs xmis
i
i+1
i
3. Itrer ltape prcdente jusqu ce que k Y Y
k / k Y k< , seuil
new
iii. Yimp
est la nouvelle matrice complte par les valeurs prdites
arbitraire (souvent 106 )
(s)
ymis
(c) mettre jour le critre

4.7

Utilisation de Forts alatoires

Avec un critre darrt atteint ds que la diffrence entre la matrice de


Stekhoven et Bhlmann (2011)[5] ont propos une mthode de compltion
donnes
nouvellement imput et la prcdente augmente pour la premire fois.
base sur les forts alatoires appele MissForest. Un package R ponyme lui
La
diffrence
de lensemble des variables continues est dfinie comme
est associe. Cette mthode ncessite une premire imputation nave, par

P
dfaut une compltion par la moyenne, afin dobtenir un chantillon dapprennew
old 2
jN Yimp Yimp
tissage complet. Puis une srie de forts alatoires sont ajustes jusqu la
N =
(19)

P
new 2
premire dgradation du modle.
jN Yimp
Pour formaliser cela, on dcompose le jeu de donnes initial en quatre par- En cas de variables qualitatives on dfinit la diffrence par
ties. Pour chaque variable Y s , s = 1, . . . , S dont les valeurs manquantes sont
P
Pn
new 6=Y old
jF
i=1 1Yimp
indexes par ismis {1, . . . , n}, on dfinit
imp
F =
s
s
#N A
1. yobs les valeurs observes dans Y
130

(20)
07/15

4.8

Imputation de donnes manquantes

Infrence Baysienne

paramtres du modle. Une autre hypothse est que les donnes sont MAR
donc
Soit la ralisation dune variable alatoire et soit p() sa distribution a
p(M |Y ) = p(M |Yobs )
(22)
priori. La distribution a posteriori est donc donne par :
La vraisemblance p(Yobs |) scrit alors
p(|Yobs ) p()f (Yobs ; )
(21)
p(Yobs , M |) = p(M |Yobs )p(Yobs |)
La mthode de data augmentation de Tanner et Wong (1987) [10] simule
de manire itrative des chantillons alatoires des valeurs manquantes et des Donc
paramtres du modle, compte tenu des donnes observes chaque itration,
L(|Yobs ) p(Yobs |)
constitue dune tape dimputation (I) et dune tape postrieure (P).
Or en utilisant la proprit itrative de lesprance
Soit (0) un tirage initial obtenu partir dune approximation de la distribuZ
tion a posteriori de . Pour une valeur (t) de un instant t
(t+1)
p(Y
|)
=
p(Y |)dYmis
(t)
obs
Imputation (I) : soit Y
avec une densit p(Y |Y , )
mis
(t+1)

Postrieure (P) : soit

(25)

On obtient donc la loi posteriori

Cette procdure itrative finira par obtenir un tirage de la distribution


conjointe de (Ymis , |Yobs ) lorsque t +

4.9

(24)

mis

avec une densit

obs
(t)
p(|Yobs , Ymis )

(23)

Z
p(|Yobs ) p(Yobs |) =

p(Y |)dYmis

(26)

Imputation multiple

Lalgorithme EMB dAmelia II combine lalgorithme EM classique (du


maximum de vraisemblance) avec une approche bootstrap. Pour chaque tirage,
les donnes sont estimes par bootstrap pour simuler lincertitude puis lalgorithme EM est xcut pour trouver lestimateur a posteriori M AP pour les
donnes bootstrap. Les imputations sont alors cres par tirage de Ymis selon
Le maintien de la variabilit dorigine des donnes se fait en crant des va- sa distribution conditionnelle sur Yobs et des tirages de .
leurs imputes qui sont bass sur des variables corrles avec les donnes manquantes et les causes dabsence. Lincertitude est prise en compte en crant des 5 Exemple
versions diffrentes de donnes manquantes et lobservation de la variabilit
entre les ensembles de donnes imputes.
5.1 Fraudes sur la consommation en gaz
Limputation multiple consiste, comme son nom lindique, imputer plusieurs fois les valeurs manquantes afin de combiner les rsultats pour diminuer
lerreur (le bruit) due limputation [4]. Cela permet galement de dfinir une
mesure de lincertitude cause par la compltion.

4.10

Amelia II

Amelia II est un programme dimputation multiple dvelopp en 2011 par


James Honaker et al [8]. Le modle sappuie sur une hypothse de normalit :
Y Nk (, ), et ncessite donc parfois des transformations pralables des
donnes.
Soit M la matrice dindication des donnes manquantes et = (, ) les

Les diffrentes mthodes de compltion ont t testes et compares sur un


exemple de dtection de fraudes sur la consommation en gaz. Soit Y RN 12
tel que yij soit la consommation de gaz de lindividu i au mois j. La rpartition
des donnes manquantes est non monotone et on fait lhypothse de donnes
MAR. Aprs une transformation en log afin dapprocher la normalit, la compltion a t effectue. Les rsultats ont t compars avec un chantillon test
de 10% des donnes, pralablement retir du set.

131

07/15

Imputation de donnes manquantes

Ce jeu de donnes rel comporte au moins une valeur manquante par individu, et au total 50.4% des donnes sont manquantes. Si on ne considre que
la consommation mensuelle individuelle, sans variables exognes, on obtient
la rpartition des erreurs de chaque mthode reprsente Figure 4.

F IGURE 5 EBP - Erreurs de compltion sur un chantillon test de 10%

F IGURE 4 Fraudes - Erreurs de compltion sur un chantillon test

5.2

Encours Boursiers Parisiens (EBP)

On sintresse aux cours des actifs boursiers sur la place de Paris de 2000
2009. On considre 252 cours dentreprises ou indices rgulirement cots
sur cette priode. En se limitant au cas MCAR, on cre artificiellement de plus
en plus de donnes manquantes imputer. Pour 10% de donnes manquantes,
une comparaison des mthodes dimputations est donnes Figure 5. Trois mthodes se dtachent visiblement : SVD, missForest et AmeliaII.

F IGURE 6 EBP - Erreurs de compltion sur un chantillon test par AmeliaII


quand la quantit de valeurs manquantes augmente

La robustesse de ces mthodes a t teste en augmentant graduellement


la quantit de donnes manquantes. Les rsultats sont donns Figure 6 pour
AmeliaII et Figure 7 pour missForest.
jeu de donnes de rfrence sur les problmes de compltion [11]. Les
donnes ont t acquises par Detranao et al. (1989) [12] et mises dispo5.3 Maladies Coronariennes (CHD)
sition par Bache et Lichman (2013)[2]. Elles se prsentent sous la forme
La plupart des mthodes dimputation de sont dfinies que pour des dune matrice dobservations mdicales Y RN 14 de 14 variables
variables quantitatives. Mais certaines mthodes prsentes ci-dessus htrognes pour N patients. Le jeu de donnes contient donc des vapermettent dimputer des donnes qualitatives, voire htrognes. Cest riables quantitatives (age, pression, cholestrol, frquence
le cas de LOCF, KNN et missForest qui ont donc t testes sur un cardiaque maximale, oldpeak) et qualitatives (sexe, douleur,
132

07/15

Imputation de donnes manquantes

F IGURE 7 EBP - Erreurs de compltion sur un chantillon test par missForest


quand la quantit de valeurs manquantes augmente

sucre, cardio, angine, pente du pic, nombre de


vaisseaux cardiaques, thalassmie, absence/prsence
de maladie cardiaque).
En se limitant toujours au cas MCAR, on cre artificiellement de plus en
plus de donnes manquantes imputer. Ladquation de limputation est don- F IGURE 8 CHD - Erreurs de compltion sur un chantillon test par LOCF
ne par la moyenne de lerreur en valeur absolue dans le cas des donnes quan- (noir), KNN (rouge) et missForest (vert) quand la quantit de valeurs mantitatives et par la distance de Hamming dans le cas des donnes qualitatives. quantes augmente, pour une variable qualitative (au dessus) et quantitative (en
Les rsultats sont reprsents Figure 8.
dessous)

Rfrences
1987.
[1] Gelman A. et Hill J., Data Analysis Using Regression and Multilevel/Hierarchical Models, chap. 25, p. 529563, Cambridge University Press,
2007.
[2] K. Bache et M. Lichman, UCI Machine Learning Repository, 2013,
http://archive.ics.uci.edu/ml.
[3] Preda C., Saporta G. et Hedi Ben Hadj Mbarek M., The NIPALS algorithm for missing functional data, Romanian Journal of Pure and Applied
Mathematics 55 (2010), no 4, 315326.
[4] Rubin D.B., Multiple Imputation for Nonresponse in Surveys, Wiley,
133

[5] Stekhoven D.J. et Bhlmann P., MissForest - nonparametric missing


value imputation for mixed-type data, Bioinformatics Advance Access
(2011).
[6] Hastie et al, Imputing Missing Data for Gene Expression Arrays, Rap.
tech., Division of Biostatistics, Stanford University, 1999.
[7] A. J. Feelders, Handling Missing Data in Trees : Surrogate Splits or Statistical Imputation., PKDD, Lecture Notes in Computer Science, t. 1704,
Springer, 1999, p. 329334.
07/15

10

Imputation de donnes manquantes

[8] Honaker J., King G. et Blackwell M., Amelia II : A Program for Missing
Data, Journal of statistical software 45 (2011), no 7.
[9] Glasson Cicignani M. et Berchtold A., Imputation de Donnees Manquantes : Comparaison de Differentes Approches, 42e Journees de Statistique, 2010.
[10] Tanner M.A. et Wong W.H., The Calculation of Posterior Distributions
by Data Augmentation, Journal of the American Statistical Association
82 (1987), no 398, 528540.
[11] Setiawan N.A., Venkatachalam P.A. et Hani A.F.M., A Comparative
Study of Imputation Methods to Predict Missing Attribute Values in Coronary Heart Disease Data Set, 4th Kuala Lumpur International Conference on Biomedical Engineering 2008 (University of Malaya Department of Biomedical Engineering Faculty of Engineering, rd.), t. 21,
Springer Berlin Heidelberg, 2008, p. 266269.
[12] Detrano R., Janosi A., Steinbrunn W., Pfisterer M., Schmid J., Sandhu S.,
Guppy K., Lee S. et Froelicher V., International Application of a New
Probability Algorithm for the Diagnosis of Coronary Artery Disease,
American Journal of Cardiology 64 (1989), 304310.
[13] Little R.J.A. et Rubin D.B., Statistical Analysis with Missing Data, Wiley
series in probability and statistics, 1987.
[14] Grzymala Busse J. W., Grzymala Busse W. J. et Goodwin L. K., Coping With Missing Attribute Values Based on Closest Fit in Preterm Birth
Data : A Rough Set Approach, Computational Intelligence 17 (2001),
425434.
[15] Cleveland W.S. et Devlin S.J., Locally-Weighted Regression : An Approach to Regression Analysis by Local Fitting, Journal of the American
Statistical Association 83 (1988), no 403, 596610.

134

07/15

En guise de conclusion

Objectifs

En guise de conclusion

Trois objectifs principaux sont poursuivis dans les applications classiques


de data mining :

Rsum

1. Exploration multidimensionnelle ou rduction de dimension : production de graphes, dun sous-ensemble de variables reprsentatives Xr , dun
ensemble de composantes Cq pralables une autre technique.

Rsumer les grandes lignes de ce cours dans une vue synthtique :


mthodes et stratgies dans lobjectif dune comparaison globale
des mthodes sur les diffrents jeux de donnes (cancer, pollution,
carte visa). Il voque enfin les piges frquents de telles dmarches
et revient sur la place du statisticien.

2. Classification (clustering) ou segmentation : production dune variable


qualitative Tr .
3. Modlisation (Y ou Z)/Discrimination (Z ou T ) production dun modle de prvision de Y (resp. Z, T ).

Retour au plan du cours

Dautres mthodes plus spcifiques certaines problmatiques peuvent apparatre (analyse sensorielle, analyse conjointe, SARIMA. . . mais leur usage reste
limit des contextes bien particuliers.

Stratgies du data mining

Les chapitres prcdents dcrivent les outils de base du prospecteur de donnes tandis que les logiciels commerciaux en proposent une intgration plus ou Outils
moins complte, plus ou moins conviviale de mise en uvre. En pratique, lenLes mthodes utilisables se classent en fonction de leur objectif et des types
chanement de ces techniques permet la mise en place de stratgies de fouille de variables prdictives et cibles.
bien dfinies. Celles-ci dpendent essentiellement des types de variables consiExploration
drs et des objectifs poursuivis.
ACP

Types de variables

XR et

AFCM XE et

Explicatives Lensemble des p variables explicatives ou prdictives est not AFD XR et T


X, il est constitu de variables
Classification
XR toutes quantitatives 1 ,
CAH XR et
XE toutes qualitatives,
NueDyn XR et
XRE un mlange de qualitatives et quantitatives.
RNKoho

expliquer La variable expliquer ou prdire ou cible (target) peut tre


Y quantitative,
Z qualitative 2 modalits,
T qualitative.

XR et

Modlisation
1. Modle linaire gnralis
RLM

XR et Y

ANOVA XE et Y
1. Une variables explicative qualitative 2 modalits (0,1) peut tre considre comme quantitative ; cest lindicatrice des modalits.

135

ACOVA XRE et Y
Rlogi XRE et Z
07/15

En guise de conclusion

Lglin XT et T

(b) Estimation, optimisation (validation croise) des modles pour chacune


des mthodes utilisables.

2. Analyse discriminante

(c) Prvision de lchantillon test.

ADpar/nopar XR et T

Comparer les distributions et moyennes des erreurs de prvision, ventuellement les courbes ROC.
Choisir une mthode et le modle associ de complexit optimale et le restimer sur lensemble de lchantillon.

3. Classification and regression Tree


ArbReg XRE et Y
ArbCla XRE et T
4. Rseaux neuronaux

4. Exploitation du modle sur lensemble des donnes et diffusion des rsultats.

percep XRE et Y ou T

5. Agrgation de modles
Bagging XRE et Y ou T

Comparaison des rsultats

La procdure dcrite ci-dessus a t systmatiquement mise en uvre en automatisant dans R lextraction alatoire dun chantillon test et les estimations, optimisations des diffrents modles. Les codes sont disponibles sous forme de scnarios sur le
site wikiwtat. La librairie caret (Kuhn, 2008)[1] savre trs efficace pour mettre en
uvre cette dmarche. Loptimisation des paramtres est ralise par validation croise.

RandFor XRE et Y ou T
Boosting XRE et Y ou T
6. Support Vector Machine
SVM-R XRE et Y
SVM-C XRE et T

Stratgies
Les stratgies classiques de la fouille de donnes consistent enchaner les tapes
suivantes :

Chaque chantillon test fournit donc une estimation sans biais de lerreur de prvision. La distribution de ces erreurs est alors reprsente par des diagrammes en botes.
En discrimination binaire, des courbes ROC compltent les rsultats. Les figures suivantes synthtisent les rsultats pour les donnes de cancer du sein, de chromatographie
NIR (cookies), de prvision du pic dozone et enfin bancaires (apptence carte visa premier). dautres exemples sont traites sur le site wikiwtat.

1. Extraction de lentrept des donnes ventuellement par sondage pour renforcer


leffort sur la qualit des donnes plutt que sur la quantit.

2. Exploration
Tri plat, et tude des distributions : transformation, recodage ventuel des
variables quantitatives, regroupement de modalits des variables qualitatives,
limination de variables (trop de donnes manquantes, quasi constantes, redondantes. . . ). Gestion des donnes manquantes et valeurs atypiques.
tude bivarie, recherche dventuelles relations non linaires, de variables redondantes, dincohrences.
tude multivarie, reprsentations en dimension rduite (ACP, AFCM) et classification non-supervise par classification ascendante hirarchique (CAH) ou
kmeans ou stratgie mixte.

Les principaux piges qui peuvent tre rencontrs au cours dune prospection
peuvent tre le rsultat dun acharnement en qute de sens (data snooping). Cela signifie qu force de creuser, contrairement un prospecteur minier la recherche de
diamants bien rels, le prospecteur en donnes disposant dun grand nombre de variables finit bien, en mode exploratoire, par trouver des relations semblant hautement
significatives. Par exemple, au seuil classique, 5% des tests sont, tort, significatifs et
conduisent des "faux positifs" ou des fausses corrlations. Il suffit donc den faire
beaucoup, de croiser beaucoup de variables, pour ncessairement trouver du "sens"
dans des donnes. Encore une fois, il est prfrable dviter le fonctionnement "Shadock" (cf. figure 10) : je nai quune chance sur un milliard de russir ; je me dpche
donc de rater le plus dessais possibles.

3. Apprentissage : rgression ou discrimination (classification supervise).


Itrer les tapes suivantes :
(a) Extraction dun chantillon test,

Piges

En phase de modlisation, une sur-paramtrisation ou un sur-ajustement du modle


peut parfaitement expliquer des donnes sans pour autant que les rsultats soient ex136

07/15

En guise de conclusion

err.lm

err.tree

err.neur

err.bag

err.rf

err.svm

0.0

0.1

0.00

0.2

0.02

0.3

0.04

0.4

0.5

0.06

0.08

0.10

0.12

0.14

F IGURE 1 Cancer : Diagrammes botes des taux derreurs. Le boosting est


mis de ct pour des problmes dchelle et de comportement erratique provenant dune focalisation extrme sur une observation imprvisible.

F IGURE 2 Cookies : Rsidus (apprentissage et test) des diffrents modles


mettant en vidence la forte linarit des donnes ainsi que les aspects volontairement atypiques de lchantillon test original.

137

07/15

En guise de conclusion

F IGURE 4 Ozone : Diagrammes botes des taux derreurs en rgression.


Meilleur comportement des SVM avec noyau linaire (649) devant random forest (666). Lanalyse de covariance quadratique conduit une moyenne leve
(774) mais reste utile pour linterprtation.

F IGURE 3 Cookies : Diagrammes botes trs proches des mthodes linaires


alors que les mthodes non-linaires ne sont pas retenues car inefficaces. Les F IGURE 5 Ozone : Diagrammes botes des taux derreurs pour la prvision
SVM (noyau linaire) conduisent la meilleure moyenne (0.70) devant la r- des dpassements de seuil. En moyenne, les deux stratgies (prvision en rgression ou directement du dpassement) sont finalement quivalentes pour les
gression ridge (0.84), elastic net (0.85), lasso, PLS (0.86)
meilleures mthodes. Les moyennes se rpartissent entre 11 % (random forest)
et 14%.
138

07/15

En guise de conclusion

F IGURE 6 Ozone : Attention,lchantillon test est petit et les courbes ROC F IGURE 7 Ozone : Les courbes ROC moyennes, qui permettraient de dtersont fortement disperses. Il est important den calculer une moyenne sur les miner un seuil de dclenchement dalerte, soulignent les meilleures comportements des SVM et de Random forest aprs rgression.
50 chantillons tests.

139

07/15

En guise de conclusion

F IGURE 8 Banque : Diagrammes botes des taux derreurs. En moyenne, les


mthodes bases sur des arbres lemportent nettement avec celle dagrgation
de modles (boosting 9%, ranfom forest et bagging 10 %) devant un arbre seul
(11 %) trs utile pour linterprtation.
F IGURE 9 banque : Les courbes ROC moyennes insistent sur le trs bon
comportement des agrgations de modles (boosting, random forest, bagging)
pour une trs grande varit de choix de seuils contrairement un arbre de
discrimination dont les qualit se dtriorent pour des seuils faibles.

140

07/15

En guise de conclusion

trapolables ou gnralisables dautres donnes que celles tudies. Les rsultats de


prvision seront donc entachs dune forte erreur relative lie la variance des estimations des paramtres. Cest toujours le problme de trouver un bon compromis entre
le biais dun modle plus ou moins faux et la variance des estimateurs. Nous insistons
donc sur les indispensables phases de choix de modles et comparaison des mthodes.

4
4.1

Rle du statisticien
Des comptences multiples

Une bonne pratique du Data Mining ncessite de savoir articuler toutes les mthodes
entrevues dans ce document. Rude tche, qui ne peut tre entreprise qu la condition
davoir trs bien spcifi les objectifs de ltude. On peut noter que certaines mthodes
poursuivent les mmes objectifs prdictifs. Dans les bons cas, donnes bien structures,
elles fourniront des rsultats trs similaires, dans dautres une mthode peut se rvler
plus efficace compte tenu de la taille de lchantillon ou gomtriquement mieux adapte la topologie des groupes discriminer ou encore en meilleure interaction avec
les types des variables. Ainsi, il peut tre important et efficace de dcouper en classes
des variables prdictives quantitatives afin dapprocher de faon sommaire une version
non-linaire du modle par une combinaison de variables indicatrices. Cet aspect est par
exemple important en rgression logistique ou avec un perceptron mais inutile avec des
arbres de dcisions qui intgrent ce dcoupage en classes dans la construction du modle (seuils optimaux). Dautre part, les mthodes ne prsentent pas toutes les mmes
facilits dinterprtation. Il ny a pas de meilleur choix a priori, seule lexprience et un
protocole de test soign permettent de se dterminer. Cest la raison pour laquelle des
logiciels gnralistes comme SAS (module Enterprise Miner) ou la librairie caret de
R ne font pas de choix et offrent ces mthodes en parallle pour mieux sadapter aux
donnes, aux habitudes de chaque utilisateur (client potentiel) et la mode.

4.2

De lutilit du statisticien

F IGURE 10 Shadoks : Tant qu pomper, autant que cela serve quelque


chose !
sements consentis. En effet, il faut bien admettre, et faire admettre, que, mme si un
petit quart dheure suffit pour se familiariser avec une interface graphique conviviale,
la bonne comprhension des mthodes employes ncessite plusieurs heures de cours
ou rflexion Bac+5. Il devient tellement simple, avec les outils disponibles, de lancer
des calculs, que certains nhsitent pas comparer prospecteur de donnes et chauffeur
de voiture en arguant quil nest pas ncessaire dtre un mcanicien accompli pour savoir conduire. Nanmoins, la conduite dune modlisation, dune segmentation, dune
discrimination, imposent son auteur des choix plus ou moins implicites qui sont loin
dtre neutres et qui dpassent largement en complexit celui du choix dun carburant
par le conducteur la pompe.

4.3

Le travail demand dborde souvent du rle dun statisticien car la masse et la complexit des donnes peuvent ncessiter le dveloppement dinterfaces et doutils graphiques sophistiqus permettant un accs aiss aux donnes, comme des rsultats,
par lutilisateur finale laide par exemple dun simple navigateur sur lintranet de
lentreprise. Nanmoins, au del de ces aspects plus "informatiques", lobjectif principal reste une qute de sens en vue de faciliter les prises de dcision tout en en
prservant la fiabilit. Ainsi, la prsence ou le contrle dune expertise statistique reste
incontournable car la mconnaissance des limites et piges des mthodes employes
peut conduire des aberrations discrditant la dmarche et rendant caducs les investis-

Vers le Big Data

Le volume des donnes gnres et stockes pas les entreprises industrielles et celles
du e-commerce font franchir une nouvelle tape. Nous passons du TraOctet au PtaOctet. Comme expliqu rapidement en introduction, cette nouvelle tape engendre de
nouvelles approches tant pour les architectures des bases de donnes, la paralllisation
des calculs, que pour les algorithmes et mthodes mises en uvre.
Dun point de vue informatique, une connaissance du nouveau standard Hadoop 2 est
2. Cr en 2009 et dvelopp en Java par Doug Cutting au sein des projets de la fondation des
logiciels libres Apache. Il est inspir des principes de MapReduce de Google.

141

07/15

En guise de conclusion

142

07/15

vivement souhaite. Il permet la cration dapplications distribues et chelonnables


(scalables) sur des milliers de nuds pour grer des ptaoctets de donnes. Le principe
est de dcouper et parallliser (distribution) des tches en lots de donnes afin de rduire
linairement le temps (scalable) de calcul en fonction du nombre de nuds. Hadoop
devient loutil de rfrence du web mining et le-commerce.
Dun point de vue statistique / mathmatique, le nouveau dfi est la construction de
bases de reprsentation fonctionnelle et de modles pertinents pour aborder et prendre
en compte des structures de donnes complexes : golocalisation sur des graphes, signaux en temps rels, images 3D, squences... Chaque problme, surtout industriel, ncessite une approche spcifique issue dune recherche originale dans le cadre souvent
dune thse, par exemple CIFRE, quun dun dveloppement dingnierie classique.
Dans le cas de flots de donnes, laide la dcision devient adaptative ou squentielle.

Rfrences
[1] Max Kuhn, Building Predictive Models in R Using the caret Package, Journal of
Statistical Software 28 (2008), no 5.

Statistique et dontologie scientifique

Statistique et dontologie scientifique


Rsum
Limage sociale souvent peu flatteuse de la Statistique est illustre
travers quelques problmes de dontologie statistique et plus gnralement scientifique. Des exemples historiques ou plus rcents
mettent en vidence falsifications et dissimulations triviales de donnes. Dautres sont le rsultat dune utilisation abusive ou du dtournement de mthodes statistiques, notamment des tests daide
la dcision. Ce dernier point est illustr par les controverses autour
du mas OGM. Ces pratiques douteuses et bien trop rpandues ont
pouss les associations des statisticiens les plus exposs rdiger
des codes de dontologie ou de bonne pratique.
Retour lintroduction.

Introduction

F IGURE 1 Le livre illustr de Darrel Huff (1954) et un exemple de graphique


cratif : la ralit (la hauteur de la grenouille) est fausse par limpression
visuelle (sa surface). Proscrire dautant plus les graphiques faussement en
perspective !
1) dans lequel il identifie et illustre plusieurs types de mensonges : falsification de donnes, biais dchantillonnage, extrapolation, graphiques cratifs,
hypothses frauduleuses, incomptence...

Les exemples historiques montrent que le dbat sur les mauvais usages innocents ou intentionnels de la Statistique est ancien. Il ne faudrait nanmoins
Depuis ses dbuts ou tout du moins depuis le dbut du XIX-ime sicle, pas penser quavec le temps et laccroissement des connaissances, la place et
la Statistique bnficie dune renomme plus ou moins douteuse, certes par limage de cette discipline aient favorablement progress. Strasak et al. (2007)
publi Statistical errors in medical
mconnaissance dune discipline aux concepts difficiles mais aussi cause de de lUniversit mdicale dInnsbruck ont
research a review of common pitfalls 2 ; titre auquel nous aimerions ajouter :
nombreux abus.
pitfalls or fakes ?
Ainsi, en 1906 Mark Twain attribuait, sans doute tort, un premier ministre
britannique la trop clbre maxime : There are three kinds of lies: lies, damned 1.2 Motivations
lies, and statistics.
La rdaction de ce texte est motive par une concentration daffaires qui ont
videmment les statisticiens acadmiques se sont fortement alarms des
secou ou qui rgulirement secouent lenvironnement politico-mdiatique :
mauvais usages de leur discipline et donc des mauvais procs qui leur taient
affaire du Mediator de Servier, conflits rcurrents autour des OGM, crise fiintents. Ds dcembre 1938, Jerome B. Cohen publie un article dans le
nancire omniprsente depuis 2008. Contribuant former des professionnels
1
Journal of the American Statistical Association qui dcrit : The misuse of
de la Statistique actifs dans des domaines trs divers (figure 2), il me semble
statistics.
important de les sensibiliser aux difficults, voire aux pressions, auxquelles ils
Darrel Huff (1954) [4] est lauteur dun bestseller trs souvent rdit (figure vont se trouver professionnellement confronts :

1.1

Image historique de la Statistique

1. volume 33 N204 pp 657-674

2. Swiss Med Wkly, 2007, 137, 44-49

143

07/15

Statistique et dontologie scientifique

des interrogs avaient manqu la dontologie. Parmi le top 10 des mauvaises pratiques se classent en premier : Falsifier ou arranger les donnes
et en septime : Omettre de prsenter des donnes parce quelles seraient en
contradiction avec vos prcdentes recherches. Dans le mme ordre dide, Fanelli (2009) [3] propose dans cet article une mta-analyse de 18 enqutes sur
les falsifications de la recherche et principalement des donnes. Pour rsumer
brivement, 2% de scientifiques admettent avoir eux-mmes falsifi ou modifi des donnes et ce pourcentage monte 14% propos du comportement
F IGURE 2 Les statisticiens travaillent dans des domaines sensibles dun des autres collgues. Cette tude retrouve le chiffre de 33% de manquement
point de vue thique et socitale : autorisation de mdicaments et veille sani- gnral dontologique, chiffre port 72% propos des autres collgues.
taire, critres daffectation de crdits, produits et risques financiers...

1.3

pression acadmique de publication (publish or perish) pour valider des

rsultats et conclusions dexpriences,


pressions commerciales pour justifier des produits plus ou moins thi-

ques : crdit renouvelable ou revolving (en cause dans 80% des dossiers
de surendettement), instruments financiers douteux...,
justifier de linnocuit ou de lefficacit de produits industriels (mdicaments, agroalimentaire, bio et nanotechnologies...),
pressions politiques (sondages, statistiques publiques).
Un seuil dindignation tant largement dpass, notamment avec le scandale du Mediator, il nous a sembl important de mieux formaliser par crit le
contenu de ces questions dontologiques en plus des remarques et commentaires oraux intervenant en prsence des tudiants. Lobjectif est donc de faire
rflchir sur le rle de la Statistique et les responsabilits de ses principaux acteurs quand il sagit daider lvaluation des risques ou la prise de dcision.
La dontologie statistique nest quun lment du dbat beaucoup plus large
sur lthique de la recherche scientifique. Le texte de ce document est volontairement cibl sur le bon usage de la Statistique et galement dat par certains vnements de lanne 2011 mais son contenu restera malheureusement
dactualit compte tenu du sujet. Ainsi, dans le numro 36 de mars 2012, le

magazine La Recherche voque le premier sminaire Parlons thique


organis par lInstitut Curie/Inserm (Unit 932). Cet article cite Melissa Anderson, intervenue lors de ce sminaire propos de sa participation une enqute anonyme auprs de 3247 scientifiques. Cette enqute a rvl que 33%

Contenu

Une premire section rappelle quelques fraudes clbres et videntes de falsifications ou dissimulations de donnes parmi celles qui ont videmment t
dceles dans diffrents domaines de la recherche ; celles-ci sont relativement
faciles mettre en vidence ou prouver ds que la supercherie est souponne.
En revanche, une section suivante aborde un exemple de malversation plus habile concernant une mauvaise utilisation de mthodes statistiques (i.e. les tests)
ou leur utilisation hors limite de validit ou encore sans contrle explicite dune
marge derreur. Alors que les falsifications de donnes ne laissent plus gure
de doute et se terminent mme devant les tribunaux, les mauvais usages de la
Statistique peuvent gnrer des querelles dexperts lourdes et sans conclusion
tranche ne serait-ce que par le cot des exprimentations quil faudrait entreprendre pour arriver une rponse significative. Une dernire section tche de
faire le tour des dmarches dassociations professionnelles soucieuses de ces
difficults et qui ont propos des codes de dontologie statistique.

Falsifications et dissimulations

Internet et plus prcisment Wikipedia regorgent dinformations sur les falsifications et fraudes scientifiques historiques ainsi que sur les mauvais usages
(misuse) de la Statistique.

2.1

Statistiques publiques

Nos collgues britanniques rappellent que leurs Politicians use statistics like
drunkards use lampposts : not for illumination, but for support. Nos homo-

144

07/15

Statistique et dontologie scientifique

Ce nest quau dbut des annes 70 que de srieux doutes furent mis ou de
logues franais nont rien leur envier. Les exemples sont malheureusement
trs, trop nombreux. Citons une affaire qui montre nettement les relations dif- violentes accusations prononces sur la pertinence de ces travaux : rfrence
ficiles entre monde politique et statistique officielle publique. Le 25 mai 2011, des publications inexistantes ou introuvables et surtout des corrlations identiques la 3me dcimales entre des tudes spares de plus de 20 ans ! Les
Claude Guant, Ministre de lIntrieur, sexprime sur Europe 1 :
carnets dexprience de Burt nont pas t retrouvs et des doutes plus que sles deux tiers des checs scolaires, cest lchec denfants dimmirieux ont t soulevs sur la ralit des expriences notamment celles de 1966.
grs.
Il a fallu un mois et une menace srieuse de grve de la part des syndicats de 2.3 Sciences du vivant
lINSEE pour obliger la direction de cet organisme public rtablir les chiffres
Lexemple suivant illustre la pression considrable qui pse sur la recherche
travers un communiqu officiel le 27/06/2011 :
scientifique, son financement, la renomme de ses acteurs et leur carrire. Il
La proportion denfants dimmigrs parmi les lves sortis sans quadborde largement le cadre dun mauvais usage de mthodes statistiques.
lification de lenseignement secondaire peut tre estime environ
Hwang Woo-suk est un sud-coren qui est (fut) trs rput dans la recherche
16% pour les enfants de familles immigres. Si on y ajoute les ensur
le clonage (le chien Snuppy) et les cellules souches. Lui et son quipe
fants de familles mixtes, cette proportion passe environ 22%.
publient 2 articles dans Science en 2004 sur le clonage dun embryon humain
Le ministre, accus par lopposition de stigmatiser les immigrs pour sduire
pour la production de cellules souches, et en 2005 sur la production de 11
les lecteurs dextrme droite, avait affirm sappuyer sur des tudes de lInsee
lignes de cellules souches partir de cellules de peau de patients adultes.
et a envoy plusieurs droits de rponse des mdias qui crivaient que ses
Les consquences thrapeutiques de tels rsultats seraient considrables. Ces
chiffres taient faux. (Le Monde du 28/06/2011).
rsultats lui valurent le titre de Supreme Scientist assorti de prix financiers
trs substantiels et de dons trs gnreux de fondations pour ses recherches.
2.2 Sciences humaines
Dans ce domaine aussi, les exemples seraient nombreux. Citons celui historique de laffaire Burt. Sir Cyril Burt, professeur de Psychologie Londres
en 1931 fut Prsident de la British Psychology Society puis diteur en chef du
Journal of Statistical Psychology. Il reste clbre pour des contributions la
Statistique (les tableaux de contingences multiples portent son nom) et aussi
pour son influence sur lorganisation du systme ducatif britannique : Burt
ayant prouv linfluence prpondrante de lhrdit sur lintelligence (mesure par le QI de Binet), cela justifierait dorienter par un examen (eleven
plus) les lves ds 11 ans vers une filire primaire, moyenne ou suprieure
(grammar-modern-technical) en fonction de leurs notes.
Burt affirme, au cours de 3 tudes (1955, 1958, 1966), que la corrlation des
QIs entre couples de jumeaux homozygotes levs dans des milieux diffrents
ds leur enfance est significativement plus leve que la corrlation entre les
QIs de couples de jumeaux htrozygotes levs dans un mme milieu social.
Il montrerait ainsi limportance de la notion de quotient intellectuel et leur
hritabilit.

A la suite de nombreuses pripties scientifico-mdiatiques, une commission denqute de lUniversit de Soul dnonce la falsification (fabrication de
donnes) en dcembre 2005 et ce chercheur est inculp le 12 mai 2006 pour
fraude, dtournements de fonds et violation des lois sur la biothique. Les
montants des dtournements, des corruptions, des achats illgaux dovocytes
se chiffrent en centaines de millions de dollars. Il a t dclar coupable en
octobre 2009 de dtournements de fonds et violation des lois sur la biothique,
mais pas de fraude, puis condamn 2 ans de prison avec sursis.

2.4

Sciences de la terre

Claude Allgre fut ministre de lducation national, de la recherche et de la


technologie de 1997 2000 (gouvernement Jospin). Il est membre de lAcadmie des Sciences et a reu la mdaille dor du CNRS (1994) pour des travaux en Gochimie. Il est lauteur de trs nombreux livres de vulgarisation
scientifique dont un en 2010 [1] dentretiens avec le journaliste Dominique de
Montvalon.

145

07/15

Statistique et dontologie scientifique

gnrale, en modifier le trac partir de 1900 puis lextrapoler trs approximativement jusquen 2100 sans aucune justification et avec le seul objectif de
soutenir ses arguties plus polmiques que scientifiques.
Bien sr, la seule vue de la courbe rouge, un statisticien familier des sries chronologiques identifie une tendance, plutt la baisse, et une priodicit
de lordre de 250 ans. Tout laisse penser que Claude Allgre a prolong
la louche cette courbe sans videmment tenir compte de tous les travaux de
modlisation entrepris par la communaut scientifique active en climatologie
et les paramtres de forage (concentration de CO2) ou covariables susceptibles dintervenir. Cette communaut sest dailleurs mobilise (600 signataires) pour rclamer lorganisation dun vrai dbat sur le climat (Le Monde du
9 avril 2010).

F IGURE 3 En noir, courbe de temprature dessine par C. Allgre partir


La dmarche des climat-sceptiques est aussi trs dveloppe aux tats-Unis.
des Travaux de Grudd et rectifie (en rouge) par Hkan Grudd lui-mme. Il a
Un livre traduit en franais fait une analyse dtaille (Oreskes et Conway,
galement extrapol trs approximativement une concentration de CO2
2012) [6] des motivations de scientifiques qui ont successivement mis en
cause la nocivit du tabac, lorigine du trou dans la couche dozone, les pluies
Dans ce dernier livre, il formule de graves accusations contre le GIEC acides et maintenant la ralit et les causes du changement climatique.
(Groupe dexperts intergouvernemental sur lvolution du climat) quil qualifie
2.5 Industrie pharmaceutique
de systme mafieux ayant conspir pour faire passer aux yeux de lensemble
du monde un mythe pour un fait scientifique. Ce livre suscite de nombreuses
Avant dtre autoris la vente, un mdicament suit une procdure trs rcontroverses et accusations de mensonges ou erreurs factuelles.
glemente dessais cliniques.
Prclinique : recherche et identification de molcules ayant potentielleReprenons une seule de ces accusations qui concerne le graphique de la
ment un effet thrapeutique. Essais sur des animaux (souris) pour valuer
figure 3, accusation dtaille sur le blog {Sciences2 } de Sylvain Huet, journaces effets et dterminer la dose active (modles de pharmacocintique).
liste Libration.
Une fois quune molcule est identifie pour une cible thrapeutique donHkan Grudd est un paloclimatologue de lUniversit de Stockholm spne, des essais sont engags sur lhomme.
cialiste de ltude de lvolution du climat partir de lobservation des anneaux
Phase I : Groupe de 20 80 sujets sains volontaires pour valuer la tol3
des arbres (dendroclimatologie). Il publie en 2008 un article proposant une
rance et dventuels effets secondaires.
courbe des tempratures estivales au nord de la Sude pour la priode 500
Phase II : Groupe de 200 300 sujets malades pour commencer valuer
2004. Claude Allgre sapproprie cette courbe, la complte, et enrle imlefficacit, rechercher la dose optimale et toujours des effets secondaires
plicitement lauteur dans des conclusions formellement rejetes par luniversipossibles.
taire sudois qui dnonce les supercheries. Celles-ci consistent faire prendre
Phase III : Ce sont plusieurs milliers de sujets malades qui participent
cette courbe locale en temps (t) et lieu (nord de la Sude) pour une courbe
des tudes comparatives en double aveugle. Leffet du mdicament candidat est compar celui dun placebo et celui du traitement de rfrence.
3. Tornetraask tree-ring width and density AD 5002004 : a test of climatic sensitivity and
La preuve statistique doit tre apporte dun effet significatif du mdicaa new 1500-year reconstruction of north Fennoscandian summers, Climate Dynamics (2008) 31,
pp843-857.

146

07/15

Statistique et dontologie scientifique

ment par rapport au placebo et celle dune amlioration par rapport au


traitement de rfrence.
A lissue de ces essais, lAfssaps prononce ou pas lAutorisation de Mise
sur le March (AMM)
Phase IV (post-marketing) : Les visiteurs mdicaux assurent la promotion des nouveaux mdicaments et recrutent des mdecins prescripteurs
pour la dtection deffets secondaires ou de complications tardives afin
que ces ventuels problmes soient archivs par le laboratoire.
Dans le cas du Mediator, plusieurs dysfonctionnements ont t attests, dysfonctionnements donnant suite des poursuites judiciaires. Le Mediator,
comme toute amphtamine, a des proprits bien connues de coupe faim
(anorexigne). Or ce mdicament a obtenu une autorisation comme antidiabtique ; le dput Grard Bapt, qui a prsid la commission parlementaire sur le
Mediator note : A aucun moment (...) on na pu trouver un compte rendu de
commission pour une autorisation de mise sur le march qui valide cette indication pour le diabte (Libration du 05/08/2011). Servier est poursuivi pour F IGURE 4 Lenvironnement politico-scientifico-mdiatique autour de lautoescroquerie envers lAssurance Maladie et les Mutuelles qui ont port plainte. risation de cultiver le mas transgnique MON810
En effet, considr comme antidiabtique, celui-ci fut rembours au maximum
alors que seules ses capacits de coupe faim sont attestes.
Beaucoup plus grave, ce mdicament a probablement caus 3100 hospitalisations et une estimation dau moins 1300 morts entre 1976 et 2009 en France
(article paru dans Pharmacoepidemiology & Drug Safety cit dans un article
de Libration du 9-02-2012) ; il a fallu attendre novembre 2009 pour que lAfssaps dcide de retirer le Mediator du march alors que de nombreux acteurs
avaient attir lattention des pouvoirs publiques sur les risques cardiaques et
que le mme type de mdicament, lIsomride, a t interdit ds 1997 (Le
Monde du 16/11/2010). Deux informations judiciaires ont t ouvertes, lune
pour tromperie aggrave, lautre pour blessures et homicides involontaires.

Abus mthodologique

Les exemples prcdents mettent en vidence des cas de manquements dontologiques vidents par falsifications et/ou dissimulations de donnes qui
conduisent des procdures judiciaires. Dans dautres cas, la preuve de la
fraude ou du manquement thique nest pas aussi simple apporter et relve
dune valuation experte afin de mettre en vidence une utilisation abusive
dune mthode statistique. Lexemple du mas OGM MON810 va permettre
dillustrer cette situation. Le site de Marc Lavielle, membre du Haut Comit
pour les Biotechnologies, fournit des dtails prcis sur cette affaire politicoscientifico-mdiatique (fig. 4).

Indpendamment des problmes de conflits dintrts au sein de lAfssaps


et de commissions parlementaires, nous pouvons nous interroger sur la faon 3.1 Un exemple de mas OGM
dont ont t traites et analyses les donnes normalement recueillies lors de
La chenille dun papillon, la pyrale du mas, est responsable de dgts consila phase iv des essais cliniques.
drables sur les cultures de cette crale (fig. 5). Une bactrie prsente naturellement dans le sol sait produire une protine, insecticide naturel et autoris
en agriculture biologique qui permet de lutter contre la pyrale.
147

07/15

Statistique et dontologie scientifique

F IGURE 5 La pyrale du mas, la chenille, ses dgats et Baccillus thuringiensis.


Principe dun OGM : le mas MON810
Dans le cas du mas MON810, lobjectif recherch par la production de
ce mas obtenu par transgnse (fig. 6) est assez simple apprhender. Une
fois identifi le ou les gnes susceptibles de produire la protine insecticide,
ceux-ci sont extraits de lADN de la bactrie et intgrs par des techniques de
gnie gntique lADN de cellules de mas. Les cellules obtenues sont cultives jusqu lobtention de semences dune varit de mas OGM rsistante
la pyrale.

F IGURE 6 Processus de transgnse.

Les bnfices attendus sont une meilleure production et une rduction de


lutilisation des pesticides de synthse.
Les risques sont :
des groupes tmoins (mme effectif n) avec un quivalent sans OGM.
des effets potentiels sur dautres organismes, en particulier les insectes
pollinisateurs (abeilles),
2. Diffrentes mesures (poids des rats, de chacun des organes, paramtres
la dissmination, contamination dautres plantes par ces mmes gnes,
biochimiques...) sont ralises au cours de lexprience et la fin de celle laccroissement potentiel de la rsistance de la pyrale par mutations,
ci aprs avoir sacrifi les rats.
des ventuels problmes de sant humaine long terme.
Cest en particulier ce dernier point qui a t tudi par Monsanto et divers
Question biologique
organismes de recherche publics ou non.
La nourriture des rats (OGM ou pas) a-t-elle un effet sur le dveloppement
de ceux-ci ? Ou, pour prendre un exemple, le mas MON810 affecte-t-il le
Ciblons lillustration des tudes sur lventuelle toxicit moyen terme de poids du foie de ces rats ?
ce mas OGM. Le protocole exprimental est relativement simple mettre en
On note 1 le poids moyen du foie des rats dun groupe tmoin, et 2 celui
uvre mais ncessite des moyens consquents et bien dimensionns. Celui des rats dun groupe test. Sans discuter le bien-fond de ces hypothses car
men par Monsanto peut se rsumer de la faon suivante :
celles-ci ne sont pas critiques dans cette tude, les variables de poids des rats

3.2

Tests de toxicit sub-chronique

1. Plusieurs groupes de rats sont nourris pendant 13 semaines :


des groupes tests (effectif n) sont nourris avec le mas MON810,

sont supposes gaussiennes ou normales et les variances sont supposes gales


une mme valeur 2 .
148

07/15

3.3

Test statistique

Statistique et dontologie scientifique

Lcart alatoire (car dpendant de lchantillon) observ entre


c1
et
c2 est-il significativement grand ou peut-il tre considr comme
d au seul hasard ?

La question biologique revient alors tester lgalit de ces moyennes. Si


celles-ci sont juges significativement diffrentes, nous conclurons une influence de lalimentation sur le dveloppement des rats et labsence din- Sous lhypothse que H0 est vrifie la quantit
fluence si lgalit des moyennes est accepte. Dans le cas considr et avec
r
n
c1
c2
les hypothses mentionnes (normalit des variables de poids, galit des vat=
2

b
riances quil est dusage de vrifier pralablement par un test de Fisher), le test
de Student est un usage courant.
appele statistique de test, est la ralisation dune variable alatoire qui suit
Test de Student dgalit des moyennes
une loi dite de Student (2n 2) degrs de libert dont la fonction de densit
est reprsente figure 7. La zone rouge reprsente = 5% de la surface ou
Ce test sintresse lhypothse dite H0 : 1 = 2 ou = 1 2 = 0
probabilit tandis que le reste reprsente (1 ) = 95%. Si la statistique de
et lhypothse alternative H1 : 1 6= 2 .
test observe sur lchantillon est, en valeur absolue, suffisamment grande pour
Attention, la faon de poser lhypothse H0 nest pas neutre, elle prsume tomber dans la zone rouge de cette densit, la diffrence entre les moyennes
implicitement linnocence du mas et cest aux donnes, aux expriences, est juge significativement diffrente de 0 ; lhypothse H0 est rejete. Ou endapporter la preuve du contraire, le rejet de lhypothse H0 au profit de H1 . core, la probabilit de se tromper en rejetant H0 est infrieure au seuil pralaEn effet, le risque (not ) de se tromper ou de rejeter tort lhypothse H0 blement dtermin , et le test est jug significatif.
au profit de lhypothse alternative H1 et celui (not ) daccepter tort cette
mme hypothse ne sont pas identiques. Ceci se rsume de faon gnrale dans Puissance de test
le tableau ci-dessous :
Une autre question concerne le contrle de lerreur daccepter tord lhypothse
H0 (innocuit du mas MON810) alors que cest H1 qui est vraie (inAccepter H0
Rejeter H0
fluence
de
la consommation de MON810). Cette erreur (figure 8) ou risque de
H0 vraie Probabilit 1
Probabilit
2me
espce
dpend de plusieurs paramtres :
H1 vraie
Probabilit
Probabilit 1
du choix du seuil (en gnral = 5%),
Si H0 est vraie, la probabilit (1 ) est celle dune dcision correcte et
de lcart rel 1 2 (hypothse H1 vrifie),
est appel risque ou erreur de premire espce.
de la dispersion des valeurs ou variance 2 ,
Si H1 est vraie, la probabilit est le risque ou erreur de deuxime es et aussi de la taille n des groupes ou chantillons.
pce daccepter tort H0 tandis que la probabilit (1 ) est celle dune Plus prcisment, il est possible de montrer que plus n crot, plus dcrot.
dcision correcte, elle est appele puissance du test.
Ou encore, plus n est grand et plus il est possible de dtecter significativement
une diffrence relle mais faible entre les moyennes 1 et 2 .
Risque de premire espce
Voila toute la difficult du dbat autour dun test statistique li une exLe risque ou seuil est celui qui est plus particulirement contrl par lex- primentation. Si la taille n de lchantillon est suffisamment grande, il est
prience. Une fois observ un chantillon, les moyennes 1 et 2 sont respec- possible dobtenir un test statistiquement significatif alors que la diffrence
tivement estimes par les moyennes empiriques (calcules sur lchantillon) observe na pas de significativit biologique. Rciproquement, si la taille n

c1 et
c2 . La variance 2 est galement estime par la variance empirique
b2 . est trop petite, la puissance de test devient insuffisante et grand est le risque
La question se pose sous la forme suivante :
daccepter tort H0 .
149

07/15

Statistique et dontologie scientifique

F IGURE 9 Devise Shadok : la vrit est quil ny a pas de vrit (y compris


F IGURE 7 Si H0 vraie : Densit dune loi de Student (18 ddl) et valeurs seuils celle-ci).
ou quantiles de cette loi dterminant un risque = 5% de premire espce en
rouge de rejeter tort H0 .
Dans le cas du MON810, la principale critique nonce est justement que le
test a t pos (H0 ) en considrant implicitement linnocuit de ce mas alors
que la taille des groupes (n = 10 !) tait bien trop faible pour assurer une
puissance de test raisonnable. Seules de grosses diffrences auraient pu tre
statistiquement dtectes.
Tests multiples
Dans lautre camp, le Criigen (Comit de recherche et dinformation indpendantes sur le gnie gntique) a propos une autre tude selon un protocole
similaire mais sur une dure (5 ans et 14 semaines) beaucoup plus longue et
avec lobservation de trs nombreuses variables (500). Ltude qui a t publie dans lInt. Jour. of Biological Sciences souffre galement dune insuffisance. En effet, ayant calcul 500 statistiques de test sur le mme chantillon,
on sattend ce quen moyenne, 5 500/100 conduisent des tests statisF IGURE 8 Si H1 vraie : Erreur de 2me espce (en rouge) de rejeter tort tiquement significatifs alors que ce sont trs probablement des faux positifs
H1 pour un test de Student (18 ddl) de seuil = 5% ; gauche lorsque les dus au seul fait du hasard. En effet, lorsquun correctif classique de tests mulmoyennes sont peu spares (1 cart-type) et droite lorsquelle sont bien tiples (Bonferroni) est appliqu, aucune des diffrences observes ne restent
spares (3,5 carts-types).
significatives.
150

07/15

Conclusion sur le MON810

Statistique et dontologie scientifique

Ces travaux ont valu en 1997 Robert Merton et Myron Scholes le prix
(Nobel dconomie) de la banque de Sude en honneur Alfred Nobel. Ce
modle et ses extensions ont permis le dveloppement considrable du march des options sur les places financires mais ils ncessitent explicitement
des hypothses trs simplificatrices dont certaines relatives la volatilit (variance), la normalit (mouvement brownien), la rationalit des investisseurs...
ne sont pas vrifies. Dans ses livres sur lapproche fractale des marchs, Benot Mandelbrot (2009, [5])dnonce ces simplifications abusives qui rendent
les modles, certes calculables, mais dconnects des ralits financires. La
succession des crash boursiers semblerait bien justifier ces critiques sur des
modles qui sous-estiment gravement les risques.

Les exemples prsents illustrent des utilisations injustifies de pratiques


statistiques :
le test est pos de faon favorable (hypothse H0 ) au mas MON810 en
contradiction avec le principe de prcaution qui voudrait que les donnes
de lexprience apportent la preuve 4 de linnocuit,
risque de 2me espce inconnu daccepter tort H0 alors que la trs faible
taille de lchantillon rend trs lev ce risque ;
mise en uvre incontrle de tests multiples.
En plus de ces problmes, Marc Lavielle souligne dautres manquements dans
lutilisation de donnes de rfrence ou historiques, la gestion des donnes
Dans la squence dactivits suivantes, partir de quel moment une responatypiques, lanalyse de donnes rptes (courbes de poids longitudinales) ou
sabilit
morale, si ce nest pnale, est-elle engage ?
des approximations gaussiennes abusives. Ils justifient larticle du Monde du
1.
Travailler
sur les proprits des quations diffrentielles stochastiques,
10/02/2010 qui titre : OGM : opposants et promoteurs renvoys dos dos.
Les tudes statistiques publies sont insuffisantes pour permettent de conclure,
2. construire de nouveaux modles plus sophistiqus dingnierie financire,
avec une confiance raisonnable, dans un sens ou dans lautre. Le chercheur doit
3. utiliser des modles connus faux (violation des hypothses simplificaavoir lhumilit de reconnatre quil sait juste quil ne sait pas (figure 9).
trices de calcul) en relativisant leur pertinence,
4. crire des programmes de trading automatique (algotrading) appliquant
3.4 Dautres abus
ces modles sans se soucier de leur pertinence,
Lingnierie financire
5. construire de nouveaux instruments financiers en les habillant dquations
sophistiques pour vendre leur scientificit,
Au moment de la crise financire de 2008 provoque par lclatement de
6. ...
la bulle immobilire aux tats-Unis (subprimes), Michel Rocard dit dans une
interview du Monde (01/11/2008) :
Les sondages
Des professeurs de maths enseignent leurs tudiants comment faire
des coups boursiers. Ce quils font relve, sans quils le sachent, du
crime contre lhumanit.
La violence de cette accusation est-elle justifie ? Ce type de dbat soulve la
question classique du discernement entre linvention ou la cration de loutil
dune part et lusage qui en est fait dautre part : bombe atomique, internet...
Prenons lexemple du modle dit de Black & Scholes (1973) reposant sur lintgration dquations diffrentielles stochastiques (formule dIt, 1940). Ce
modle permet le calcul de la valeur thorique du prix dun produit financier
(une option) partir du prix de laction sous-jacente.
4. Mettre en uvre un test dit de comparaison dans lequel lhypothse H0 pose 1 6= 2

Depuis de nombreuses annes, les statisticiens regroups au sein de la Socit Franaise de Statistique et dans dautres associations professionnelles
(administrateurs INSEE) tentent de faire voluer la loi sur la publication des
sondages. Ce lobbying a permis, par le pass, dobliger les instituts prciser
le nombre de personnes enqutes et le mode dchantillonnage. Il serait en
effet trs fallacieux de chercher faire croire quune enqute auprs de lecteurs dun journal, de visiteurs dun site internet ou au mieux dabonns du
tlphone acceptant de rpondre... a la mme prcision quun sondage sur un
chantillon alatoire tir dans une liste lectorale.
Les mdias nont toujours pas obligation de publier conjointement aux rsultats dun sondage, les modes de redressement et les marges dincertitude.

151

07/15

10

En mars 2011, deux Snateurs (Hugues Portelli UMP et Jean-Pierre Sueur


PS) ont dpos une proposition de loi visant mieux encadrer les sondages
politiques. Le dbat qui sen est suivi a t pour le moins tendancieux (Le
Monde du 17/03/2011). La loi a t vote lunanimit par le Snat mais jamais inscrite lordre du jour de lAssemble Nationale. Il est certes difficile
de prciser une marge dincertitude lors dun chantillonnage par la mthode
des quotas mais il serait instructif dindiquer a minima celle qui serait obtenue
par un sondage alatoire simple sur le mme effectif. Pourquoi ne pas ajouter
la publication dun sondage une mention rdige sous la forme "tant obtenus partir dun chantillon de taille 1000, les rsultats sont affects dune
marge dincertitude ; dans les conditions optimales dun sondage alatoire de
mme taille, la marge dincertitude est de 3 points, cest--dire, la proportion
exprime en pourcentage plus ou moins 3%". La plupart des sites dtaillant explicitement les sondages annoncent une marge dincertitude entre 2 et 3%, sans
doute optimiste, mais restent trs discrets sur les pratiques de redressement juges relevant du secret de fabrication. Certes le discours journalistique qui
commente longuement des volutions d1 ou 2 points dintentions de vote en
serait fortement relativis.

Codes de dontologie statistique

Pour ragir aux drives constates dans lusage de leur discipline, les statisticiens professionnels se sont mobiliss pour rdiger des codes de bonne
pratique. Une des principales motivations de ce travail est aussi la structuration dun collectif afin que chaque statisticien puisse mieux se protger des
pressions auxquelles il pourrait tre soumis de la part de sa hirarchie, de son
commanditaire, du pouvoir politique. Dans ce contexte, il faudrait en fait distinguer la Statistique publique 5 dont la crainte principale est dtre infode
au pouvoir politique, la Statistique acadmique en relation avec la recherche
scientifique et enfin celle utilise dans la sphre conomique, industrielle ou
commerciale.
Voici une slection de quelques lments dinformations.

4.1

Statistique et dontologie scientifique

En france

En France, lassociation des administrateurs de lINSEE (AIS) et lassociation des statisticiens conomistes anciens lves de lENSAE (ASEC) ont
rdig un code dontologique accessible sur le site du syndicat CGT de lINSEE et introduit par Padieu (1991, [7]). Ce texte a t rdig pour rpondre
aux pressions exerces par le pouvoir politique sur la dfinition des chiffres
trs sensibles du chmage dans les annes soixante-dix. Cest pour dfendre
les positions de ce texte que ce syndicat sest mobilis contre les allgations de
Claude Guant (cf. section 1.1) sur la scolarit des enfants dimmigrs.
LAutorit de la Statistique publique veille au respect des principes dindpendance professionnelle, dimpartialit, dobjectivit, de pertinence et de
qualit dans son laboration et sa diffusion.
De son ct, lassociation des pidmiologistes de langue franaise propose
des Recommandations de Dontologie et bonnes pratiques en pidmiologie
(2007) dans un document de 37 pages.

4.2

Niveau europen

Eurostat est une direction gnrale de la Commission Europenne charge


de la mise en uvre de la politique communautaire dans le domaine statistique
et de fournir une information statistique de qualit.
LEurope est galement dote dun
Conseil consultatif europen pour la gouvernance statistique cr par le
Parlement europen et le Conseil en 2008 charg dvaluer, en toute indpendance, le Systme statistique europen ;
Comit consultatif europen de la Statistique ;
Code de bonnes pratiques de la statistique europenne adopt par le Comit du programme statistique le 24 fvrier 2005 et promulgu dans la
recommandation de la Commission du 25 mai 2005 sur lindpendance,
lintgrit et la responsabilit des services statistiques nationaux et communautaires.
Lexistence de tous ces comits, conseils et directions montrent les enjeux des
statistiques au sein de la gestion de la Communaut europenne.

5. Voir ce propos le compte-rendu du sminaire organis par la Socit Franaise de Statistique sur lIndpendance de la Statistique publique le 15/12/2008

152

07/15

11

4.3

Statistique et dontologie scientifique

Niveau international

recherche et donc sur son financement et la promotion des chercheurs. Lvaluation de la recherche peut-elle reposer sur de seuls indicateurs bibliomPour les acteurs conomiques, la Chambre de Commerce Internationale triques ? Conduisant au seul objectif de publier (publish or perish) parfois en
(ICC), organisation mondiale des entreprises, sest associe avec lorganisme contradiction ou en conflit avec celui de lavancement des connaissances pour
ESOMAR qui regroupe les fournisseurs dtudes de marchs et enqutes le bien commun.
dopinion. Ils se rallient au Code International ICC/ESOMAR de pratiques
loyales en matire dtudes de march et dopinion (1995).

Rfrences

Pour les acteurs acadmiques et publiques, lInstitut International de Statis


[1] Claude Allgre, Limposture climatique ou la fausse cologie, Plon, 2010.
tique a remis jour sa Dclaration dthique
professionnelle (2010).

[2] Melissa Anderson, Vers un code dthique mondial de la recherche scientifique, 2011, Accs site.

Conclusion

Bien entendu, les questions de dontologie statistique sinscrivent dans le


cadre plus large dune thique de la recherche scientifique. Cette rflexion difficile devient plus active ces dernires annes la suite de quelques scandales
retentissants comme celui de laffaire Hwang Woo-suk de Core du Sud qui
la particularit de violer beaucoup de principes thiques ; falsification de rsultats et manquements biothiques graves. La recherche sur les cellules souches
impliquant des embryons humains, le clonage du vivant, soulvent en effet des
questions politiques et thiques nettement plus complexes que celles du seul
bon usage de la Statistique. Notons simplement que cette dernire problmatique a merg chronologiquement plus tt par le rle trs spcifique que cette
discipline joue dans les sciences exprimentales comme support de preuve de
la significativit dun test dhypothse.
Ces questions thiques sont videmment dautant plus pressantes que la
mondialisation fait clater les frontires de la recherche dans une comptition
internationale exacerbe et des concentrations de moyens financiers jamais atteints. Des confrences sont organises spcifiquement sur la mise en place
dun code dthique mondial de la recherche scientifique (Anderson, 2011
[2]) :
A Amsterdam en 2011 : ALLEA. European Code for Conduct on Research Integrity. European Federation of National Academies of Sciences
and Humanities
A Singapour en 2010 : Anon. Second World Conference on Research Integrity
Derrire cette rflexion sen cache une autre sur les modes dvaluation de la

[3] Daniele Fanelli, How Many Scientists Fabricate and Falsify Research ? A Systematic Review and Meta-Analysis of Survey Data, PLoS
ONE 4 (2009), no 5, e5738, http://dx.doi.org/10.1371%
2Fjournal.pone.0005738.
[4] Darrel Huff, How to lie with Statistics, Norton & Company, 1954.
[5] Benot Mandelbrot, Une approche fractale des marchs : risquer, perdre
et gagner, deuxime d., Odile Jacob, 2009.
[6] N. Oreskes et M. Conway, Les Marchands de doute, ou comment une poigne de scientifiques ont masqu la vrit sur des enjeux de socit tels
que le tabagisme et le rchauffement climatique, Le Pommier, 2012.
[7] Ren Padieu, La dontologie des statisticiens, Socits Contemporaines 7
(1991), 3561.

153

07/15

Introduction au bootstrap

1.1

Introduction au bootstrap

Principe du plug-in

Soit x = {x1 , . . . , xn } un chantillon de taille n issue dune loi inconnue F sur (, A). On appelle loi empirique Fb la loi discrte des singletons
(x1 , . . . , xn ) affects des poids 1/n :

Rsum
Prsentation succincte du principe du bootstrap.

Fb =

Retour au plan du cours

n
X

xi .

i=1

Soit A A, PF (A) est estime par :

Introduction

n
X
1
La motivation du bootstrap 1 (Efron, 1982 ; Efron et Tibshirani, 1993) est
b(P )F (A) = P b (A) =
xi (A) = Cardxi A.
F
dapprocher par simulation (Monte Carlo) la distribution dun estimateur
n
i=1
lorsque lon ne connat pas la loi de lchantillon ou, plus souvent lorsque
lon ne peut pas supposer quelle est gaussienne. Lobjectif est de remplacer De manire plus gnrale, soit un paramtre dont on suppose que cest une
des hypothses probabilistes pas toujours vrifies ou mme invrifiables par fonction de la loi F . on crit donc = t(F ). Par exemple, = E(F ) est un
des simulations et donc beaucoup de calcul.
paramtre de F suivant ce modle. Une statistique est une fonction (mesurable)
Le principe fondamental de cette technique de r-chantillonnage est de sub- de lchantillon. Avec le mme exemple :
stituer la distribution de probabilit inconnue F , dont est issu lchantillon
n
1X
dapprentissage, la distribution empirique Fb qui donne un poids 1/n chaque

b=x=
xi
n i=1
ralisation. Ainsi on obtient un chantillon de taille n dit chantillon bootstrap
selon la distribution empirique Fb par n tirages alatoires avec remise parmi les
et x est la statistique qui estime . On dit que cest un estimateur plug-in et,
n observations initiales.
Il est facile de construire un grand nombre dchantillons bootstrap sur plus gnralement,

lesquels calculer lestimateur concern. La loi simule de cet estimateur est


une approximation asymptotiquement convergente sous des hypothses rai- D FINITION 1. On appelle estimateur plug-in dun paramtre de F , lessonnables 2 de la loi de lestimateur. Cette approximation fournit ainsi des es- timateur obtenu en remplaant la loi F par la loi empirique :
timations du biais, de la variance, donc dun risque quadratique, et mme des
b = t(Fb).
intervalles de confiance de lestimateur sans hypothse (normalit) sur la vraie
loi.
comme dans le cas de lestimation de :
b = E(Fb) = x.
1. Cette appellation est inspire du baron de Mnchhausen (Rudolph Erich Raspe) qui se sortit
de sables mouvants par traction sur ses tirants de bottes. En France bootstrap est parfois traduit
par la Cyrano (acte III, scne 13) en rfrence ce hros qui prvoyait datteindre la lune en se
plaant sur une plaque de fer et en itrant le jet dun aimant.
2. chantillon indpendant de mme loi et estimateur indpendant de lordre des observations.

1.2

154

Estimation de lcart-type de la moyenne

Soit X une variable alatoire relle de loi F . On pose :


F = EF (X),

et F2 = VarF (X) = EF [(X F )2 ];


07/15

suivant la loi Fb ; x est un r-chantillon de x avec remise.

Ce qui scrit :
X

Introduction au bootstrap

(F , F2 ).

2.2

Estimation dun cart-type

Soit (XP
1 , . . . , Xn ) n variables alatoires i.i.d. suivant aussi la loi F . Posons
n
b
X = n1 i=1 Xi . Cette variable alatoire a pour esprance F et pour variance D FINITION 3. On appelle estimation bootstrap de lcart-type c
F () de
2
F /n. On dit aussi que la statistique
b
b
, son estimation plug-in : Fb ().
X (F , F2 /n).

Mais, part dans le cas trs lmentaire o, comme dans lexemple ci-dessus,
Remarquons quen moyennant plusieurs valeurs ou observations, on rduit la est une moyenne, il ny a pas de formule explicite de cet estimateur. Une apb
variance inhrente une observation. De plus, sous certaines conditions sur la proximation de lestimateur bootstrap (ou plug-in) de lcart-type de est obtenue
par
une
simulation
(Monte-Carlo)
dcrite
dans
lalgorithme
ci-dessous.
loi F et comme rsultat du thorme de la limite centrale, X converge en loi
vers la loi normale.
Pour un paramtre et un chantillon x donns, on note b = s(x) lestimation obtenue sur cet chantillon. Une rplication bootstrap de b est donne
Lestimateur plug-in de F est dfini par :
par : b = s(x ).
2
2

b2 = c
=
Var
(X)
F = F
b
b
F
A LGORITHME 1 : Estimation de lcart-type
n
1X
= EFb [(X EFb (X))2 ] =
(Xi X)2 .
Soit x un chantillon et un paramtre.
n i=1
for b = 1 B do
b
Slectionner 1 chantillon bootstrap xb = {xb
1 , . . . , xn }. par tirage
Lestimateur plug-in de F est (lgrement) diffrent de celui du maximum de
avec
remise
dans
x.
vraisemblance. Lestimateur plug-in est en gnral biais mais il a lavantage
Estimer sur cet chantillon : b (b) = s(xb ).
dtre simple et de pouvoir sappliquer tout paramtre mme lorsque lon
end
for
ne peut pas calculer la vraisemblance du modle.
Calculer lcart-type de lchantillon ainsi construit :

Estimation bootstrap dun cart-type

bB

1 X b
( (b) b (.))2
B1

B
1 X b
( (b).
B

b=1

Soit b = s(x) un estimateur quelconque (M.V. ou autre) de pour un chantillon x donn. On cherche apprcier la prcision de b et donc estimer son
cart-type.

2.1

avec b (.)

b=1

chantillon bootstrap

bB est lapproximation bootstrap de lestimation plug-in recherche de


b
Avec les mmes notations, Fb est la distribution empirique dun chantillon lcart-type de .
x = {x1 , . . . , xn }.

2.3

D FINITION 2. On appelle chantillon bootstrap de x un chantillon de


taille n not
x = {x1 , . . . , xn }
155

Estimation du biais

Avec les mmes notations :


= t(F ) et b = s(x),
07/15

Introduction au bootstrap

Le bootstrap rapidement dcrit ici est dit non-paramtrique car la loi empirique Fb est une estimation non-paramtrique de F . Dans le cas o F serait
connue un paramtre prs, il existe galement une version dite paramtrique
du bootstrap.

le biais dun estimateur sexprime comme


b = EF [s(x)] t(F ).
BF ()

b = . Le biais est aussi une mesure de la


Un estimateur est sans biais si E[]
Pour des estimateurs plus compliqus (fonctionnels) comme dans le cas de
prcision dun estimateur et on a vu que, gnralement, les estimateurs plug-in
la
rgression non-paramtrique par noyau ou spline, il est facile de construire
taient biaiss.
graphiquement une enveloppe bootstrap de lestimateur partir de rplications
de lchantillon. Celle-ci fournit gnralement une bonne apprciation de la
D FINITION 4. On appelle estimateur bootstrap du biais, lestimateur
qualit de lestimateur obtenu. Attention, dans le cas de la rgression il est
plug-in :
en principe plus justifi de rpliquer le tirage sur les rsidus plutt que sur les

b
b
b
Bc
F () = BF
b () = EF
b [s(x )] t(F ).
observations. Ce sont les rsidus qui sont en effet supposs i.i.d. et qui vrifient
donc les hypothses ncessaires mais cette approche devient trs sensible
Comme pour lcart-type, il nexiste gnralement pas dexpression analytique
lhypothse sur la validit du modle. Il est finalement dusage de considrer
et il faut avoir recours une approximation par simulation.
un chantillon bootstrap issu des donnes initiales (Efron et Tibshirani) :
A LGORITHME 2 : Estimation bootstrap du biais
Soit x un chantillon et un paramtre.
for b = 1 B do
b
Slectionner 1 chantillon bootstrap xb = {xb
1 , . . . , xn }. par tirage
avec remise dans x.
Estimer sur cet chantillon la rplication bootstrap de b : b (b) = s(xb ).
end for
PB
Approcher EFb [s(x )] par b (.) = B1 b=1 (b (b)
b
b
b
Lapproximation bootstrap du biais est : Bc
B () = (.) .

b
b b
zb = {(xb
1 , y1 ), . . . , (xn , yn )};

cest ce qui a t choisi dans ce document.


Enfin, lestimation bootstrap est justifie par des proprits asymptotiques
(convergence en loi) lorsque le nombre de rplications (B) croit conjointement
avec la taille de lchantillon (n). Comme la loi empirique Fb converge (en loi)
vers celle thorique, la distribution du paramtre b = t(Fb) converge (en loi)
vers celle thorique de = t(Fb).

Complments

En rsum, on peut dire que le bootstrap repose sur une hypothse trs lmentaire : b se comporte par rapport b comme b par rapport . La connaisb
sance de b (distribution, variance, biais. . . ) renseigne alors sur celle de .
Beaucoup dautres complments sont rechercher dans la littrature et en
particulier dans Efron et Tibshirani (1993). Il est ainsi possible de dfinir des
intervalles de confiance bootstrap en considrant la distribution et les quantiles de b ou mme encore des tests partir des versions bootstrap de leur
statistique.
156

07/15