Académique Documents
Professionnel Documents
Culture Documents
Apprentissage Statistique
modlisation, prvision, data mining
P HILIPPE B ESSE & B ATRICE L AURENT
NB. Les cours et travaux pratiques (scnarios, ateliers) du site wikistat.fr sont dispenss en formation initiale lINSA de Toulouse
dans la spcialit dIngnieurs en Gnie Mathmatique et Modlisation. Ils sont galement proposs dans le cadre de stages de
Formation Professionnelle Qualifiante.
Apprentissage Statistique
page 3
page 15
page 28
page 48
page 59
page 67
page 83
page 89
page 98
page 106
page 118
page 125
page 135
page 143
page 154
Attention ce cours est dense, la lecture de ce document ne suffira pas la bonne comprhension des outils qui y sont dcrits de
faon synthtique. La prsence aux cours et la participation active aux TDs sont indispensables lacquisition des comptences
incontournables pour une utilisation raisonnable et raisonne des techniques dapprentissage statistique.
Statistique, Apprentissage,
BigDataMining
1.1
Introduction
Un peu dhistoire
1940-70 hOctets Il tait une fois la Statistique : une question, (i.e. biologique), associe une hypothse exprimentalement rfutable, une exprience planifie avec n 30 individus observs sur p (moins de 10)
variables, un modle linaire suppos vrai, un test, une dcision, une rponse.
Rsum
Lobjet de ce cours est dintroduire, sous une forme homogne et
synthtique, les techniques de modlisation statistique ou dapprentissage supervis utilises le plus couramment en fouille de donnes
volumineuses ou de grande dimension (data mining, big data analytics) pour laide la dcision dans des champs dapplications trs
divers : industriels, marketing, ou encore en relation avec des thmatiques de recherche en Biologie, pidmiologie... Lobjectif principal est la modlisation pour la prvision et donc la recherche
de modles optimaux (parcimonieux) pour diffrentes mthodes de
modlisation statistique classique (modles gaussiens et binomiaux,
analyse discriminante), moins classiques (ridge, pls, lasso, arbres
binaires de dcision) ou encore dites dapprentissage (rseaux de
neurones, agrgation de modles, machines vecteurs supports) issues du machine learning.
Statistique, Apprentissage, BigDataMining
Erreur de prvision et risque
Slection de variables et rgularisation en rgression multiple
Rgression PLS, ACP et PLS parcimonieuses
Rgression logistique
Modles non paramtriques
Analyse discriminante dcisionnelle
Arbres binaires de dcision
Rseaux neuronaux
Agrgation de modles
Machines vecteurs supports
Imputation de donnes manquantes
En guise de conclusion
Annexes
Dontologie scientifique et Statistique
Introduction au bootstrap
07/15
sime terme derreur est prendre en compte : celle doptimisation, in- ses sous la terminologie de Data Mining gnralement traduit par fouille de
duite par la limitation du temps de calcul ou celle du volume / flux de donnes (voir Tuffry 2007 [6] pour un expos mtier plus dtaill). Cette
approche, dont la prsentation est principalement issue du marketing spciadonnes considr. La dcision devient adaptative ou squentielle.
lis dans la gestion de la relation client (GRC) (client relation management
1.2 Contenu
ou CRM), trouve galement des dveloppements et applications industrielles
Les donnes volumineuses sont au cur des problmatiques mergentes de en contrle de qualit ou mme dans certaines disciplines scientifiques ds
recherche, en faisant notamment appel des structures de donnes sophisti- lors que les ingnieurs et chercheurs sont confronts un volume de donnes
ques : graphes, fonctions, varits. Chaque problme est porteur de sa propre important. Cest mme lafflux actuel de saisies automatiques de donnes isoriginalit ; ils ne seront pas abords dans ce cours qui se limite aux articu- sues du monde industriel qui motive principalement lmergence du Big Data
lations : Statistique, Apprentissage Machine, fouille de donnes et donc au paralllement lexplosion du e-commerce. Devant la complexit envisage,
lorsque les modles physiques font dfaut, un problme industriel peut changer
problme central de lquilibre biais variance.
de paradigme lorsque la modlisation dterministe atteint ses limites, les donAinsi, le data mining est prsent comme la recherche dinformations perti- nes recueillies massivement sont analyses pour laide la dcision comme ce
nentes (des ppites dinformation) pour laide la dcision et la prvision. Il fut le cas en marketing quantitatif avec la fouille de donnes du sicle dernier.
met en vre des techniques statistiques et dapprentissage machine en tenant
Laccroche publicitaire souvent cite par les diteurs de logiciels (i.e. SAS)
compte de la spcificit de grandes trs grandes dimensions des donnes.
est :
La section 2 suivante introduit la fouille de donnes tandis que la section
Comment trouver un diamant dans un tas de charbon sans se salir
3 reprend ces objectifs dans le cadre gnral de la modlisation afin den larles mains.
gir les champs dapplication. La section 4 dcrit la stratgie trs gnralement
mise en place pour optimiser choix de mthodes et choix de modles ; la secNous proposons dvaluer et dexprimenter la ralit de cette annonce qui
tion 5 dcrit brivement quelques exemples dapplication et notamment ceux
sadresse un march en pleine expansion. Les entreprises sont en effet trs
utiliss pour illustrer ce cours. Enfin, la section 6 liste rapidement les mthodes
motives pour tirer parti et amortir, par une aide la dcision quantifie, les
qui sont abordes et les raisons qui ont conduit ces choix.
cots de stockage des traoctets que leur service informatique semploie administrer.
2.1
2.2
Environnement
Origine
Le contexte informationnel de la fouille de donnes est donc celui dun sysLe dveloppement des moyens informatiques et de calcul permet le stockage tme de bases de donnes, classique relationnel ou non, dont la mise en place
(bases de donnes), le traitement et lanalyse densembles de donnes trs vo- est assure par le gestionnaire de donnes (data manager) en relation avec une
lumineux. Plus rcemment, le perfectionnement des logiciels et de leurs in- problmatique :
gestion des stocks (flux tendu), des ventes dun groupe afin de prvoir et
terfaces offrent aux utilisateurs, statisticiens ou non, des possibilits de mise
anticiper au mieux les tendances du march,
en uvre trs simples de ces mthodes. Cette volution, ainsi que la popula suivi des fichiers clients dune banque, dune assurance, associs des
risation de nouvelles techniques algorithmiques (rseaux de neurones, support
donnes socio-conomiques (INSEE), lannuaire, en vue de la constituvector machine...) et outils graphiques, conduit au dveloppement et la comtion dune segmentation (typologie) pour cibler des oprations de markemercialisation de logiciels (Enterprise miner, Clementine, Insightfull miner...)
intgrant un sous-ensemble de mthodes statistiques et algorithmiques utiliting ou des attributions de crdit. La gestion de la relation client (GRC ou
4
07/15
2.3
La communication, les noms changent mais fondamentalement les mthodes restent. Le traitement des grandes masses de donnes, associ au "nouveau" mtier de data scientist, occupe une grande place dans les mdias notamment en relation avec les risques annoncs et rels du contrle dinternet
par big brother. Beaucoup dentreprises et de formations suivent le mouvement
en renommant les intituls sans pour autant se placer dans le cadre de grandes
masses de donnes ncessitant des traitements spcifiques. Celui-ci devient effectif partir du moment o le volume et le flux de donnes imposent une
paralllisation des tches : les donnes sont rparties en nuds, chacun asso5
07/15
identifier des chiffres manuscrits sur un code postal partir dune image
questions. Il ne peut non plus aborder celles lies la complexit des donnes
industrielles ou issues de la recherche (biologique, mdicale...) qui ouvrent
souvent sur des problmes originaux. Il peut sagir alors de traiter non plus des
tableaux ou matrices de donnes mais des saisies automatiques de courbes,
signaux spectres, images, graphes... De telles structures posent un problme
pralable de base de reprsentation (fourier, splines, ondelettes...) fonction de
la nature des donnes et de lobjectif recherch. Voir par exemple le scnario danalyse de spectres RMN dcomposs sur une base dondelettes pour la
dtection de mtabolites "biomarqueurs".
digitalise,
prvoir le prix dun stock dans 6 mois partir de mesures de performance
torologiques ,
prvoir une courbe de consommation lectrique pour un client EDF en
Il est important de noter que, sil a une formation de base en Mathmatiques et Statistique, le nouveau data scientist voit arriver avec une certaine
srnit la vague ou le tsunami du Big Data. Certes un travail informatique
amont, perptuellement renouvel face lobsolescence rapide tes technologies, est important pour stocker les donnes et rendre excutable les mthodes
mais, conceptuellement, la Mathmatique ncessaire prend dj en compte des
tailles et dimensions infinies pour les modles considrs dans des espaces
hilbertiens. Muni de ce bagage prenne, il peut accompagner et suivre la recherche en dveloppement.
Apprentissage statistique
3.1
Objectif gnral
Modliser pour
explorer ou vrifier, reprsenter, dcrire, les variables, leurs liaisons et positionner les observations de lchantillon,
expliquer ou tester linfluence dune variable ou facteur dans un modle suppos connu a priori,
prvoir & slectionner un meilleur ensemble de prdicteurs comme par
6
07/15
observe sur les mmes objets. Dans le premier cas il sagit bien dun problme de modlisation ou apprentissage supervis : trouver une fonction f
prvoir par une ventuelle meilleure bote noire sans besoin dinterprta- susceptible, au mieux selon un critre dfinir, de reproduire Y ayant observ
tion explicite.
X.
exemple dans la recherche de bio-marqueurs,
3.2 Problmatiques
rgression
discrimination, classement,
Supervis vs. non-supervis
reconnaissance de forme
Distinguons deux types de problmes : la prsence ou non dune variable
Nous parlerons de rgression relle lorsque Y R et de la discrimination
expliquer Y ou dune forme reconnatre qui a t, conjointement avec X, binaire lorsque Y = {1, 1}.
7
07/15
07/15
3.3
choisir la plus pertinente. Cette comparaison repose sur une estimation derreur
(de rgression ou de classement) quil est ncessaire de conduire avec soin.
Choix de modle : quilibre biais-variance
Tous les auteurs saccordent pour souligner limportance quil y a
construire des modles parcimonieux quelque soit la mthode utilise. Toutes
les mthodes sont concernes : nombre de variables explicatives, de feuilles
dans un arbre ou de neurones dans une couche cache. . . . Seuls les algorithmes
de combinaison de modles (bagging, boosting) contournent cette tape au prix
dun accroissement sensible du volume des calculs et surtout de linterprtabilit des rsultats obtenus.
Lalternative est claire, plus un modle est complexe et donc plus il intgre
de paramtres et plus il est flexible donc capable de sajuster aux donnes
engendrant ainsi une erreur faible dajustement. En revanche, un tel modle
peut savrer dfaillant lorsquil sagira de prvoir ou gnraliser, cest--dire
de sappliquer des donnes qui nont pas particip son estimation.
Lexemple lmentaire de la figure 2 illustre ce point fondamental dans le
cas dun problme de discrimination dans R2 . Une frontire dont le modle
"vrai" est quadratique est, cause d"erreurs de mesure" sous-ajuste par une
rgression linaire mais sur-ajuste par un polynme de degr plus lev ou
lalgorithme local des k plus proches voisins.
Ce problme sillustre aussi facilement en rgression classique. Ajouter des
variables explicatives dans un modle ne peut que rduire lerreur dajustement
(le R2 ) et rduit le biais si le vrai modle est un modle plus complet. Mais,
ajouter des variables fait rdhibitoirement crotre la variance des estimateurs et
donc celle des prvisions qui se dgradent, voire explosent, avec la multicolinarit des variables explicatives. Un risque pour le modle, ou erreur quadratique de prvision, sexprimant comme le carr du biais plus la variance, il est
important doptimiser le dosage entre biais et variance en contrlant le nombre
de variables dans le modle (sa complexit) afin de minimiser le risque. Ces
remarques conduisent la dfinition de critres de choix de modle dont le Cp
de Mallows fut un prcurseur en rgression suivi par dautres propositions :
Akake (AIC), Schwartz (BIC). . .
Stratgies de choix
Choix de mthode
Avec le dveloppement du data mining, de trs nombreux articles comparent
et opposent les techniques sur des jeux de donnes publics et proposent des
amliorations incrmentales de certains algorithmes. Aprs une priode fivreuse o chacun tentait dafficher la suprmatie de sa mthode, un consensus
sest tabli autour de lide quil ny a pas de meilleure mthode. Chacune
est plus ou moins bien adapte au problme pos, la nature des donnes ou
encore aux proprits de la fonction f approcher ou estimer. Sur le plan mthodologique, il est alors important de savoir comparer des mthodes afin de
Parfois plus que celui de la mthode, le choix du bon modle dans une classe
ou ensemble de modles pour une mthode donne est primordial. En cons9
07/15
Enfin, pour aborder en toute gnralit les situations les plus compliques,
Vapnik (1999) a formalis la thorie de lapprentissage en introduisant une
notion particulire de dimension pour toute famille de modles.
4
4.1
07/15
Exemples
5.1
5. Comparaison des modles optimaux obtenus (un par mthode) par estiLobjectif est une communication personnalise et adapte au mieux
mation de lerreur de prvision sur lchantillon test ou, si la prsence
chaque
client. Lapplication la plus courante est la recherche dun score estim
dun chantillon test est impossible, sur le critre de pnalisation de lersur
un
chantillon
de clientle pour lapprentissage puis extrapol lensemble
reur (AIC dAkake par exemple) sil en existe une version pour chacune
en
vue
dun
objectif
commercial :
des mthodes considres.
Apptence pour un nouveau produit financier : modlisation de la proba6. Itration ventuelle de la dmarche prcdente (validation croise), si
bilit de possder un bien (contrat dassurance...) puis application lenlchantillon test est trop rduit, depuis (iii). Partitions alatoires successemble de la base. Les clients, pour lesquels le modle prdit la possession
sives de lchantillon pour moyenner sur plusieurs cas lestimation finale
de ce bien alors que ce nest pas le cas, sont dmarchs (tl marketing,
de lerreur de prvision et sassurer de la robustesse du modle obtenu.
publipostage ou mailing, phoning,...) prioritairement.
Attrition ; mme chose pour valuer les risques de dpart ou dattrition
7. Choix de la mthode retenue en fonction de ses capacits de prvision, de
(churn) des clients par exemple chez un oprateur de tlphonie. Les
sa robustesse mais aussi, ventuellement, de linterprtabilit du modle
obtenu.
clients pour lesquels le risque prdit est le plus important reoivent des
11
07/15
10
incitations rester.
riable prdire, dont lvaluation ncessite souvent une analyse trs coteuse
voire une intervention chirurgicale, est connue sur lchantillon ncessaire
lestimation des modles.
Dans lexemple tudi (breast cancer), il sagit de prvoir le type de la tuLexemple trait suit un schma classique danalyse de donnes bancaires. meur (bnigne, maligne) lors dun cancer du sein laide de p = 9 variables
Aprs la phase exploratoire, il sagit de construire un score dapptence de la explicatives biologiques observes sur n = 700 patientes.
carte Visa Premier dans lide de fidliser les meilleurs clients. La variable
prvoir est binaire : possession ou non de cette carte en fonction des avoirs et 5.4 Biologie : slection de gnes
comportements bancaires dcrits par p = 32 variables sur n = 825 clients.
Les techniques de microbiologie permettent de mesurer simultanment lexpression (la quantit dARN messager produite) de milliers de gnes dans
5.2 Environnement : pic dozone
des situations exprimentales diffrentes, par exemple entre des tissus sains
Lobjectif est de prvoir pour le lendemain les risques de dpassement de et dautres cancreux. Lobjectif est donc de dterminer quels gnes sont les
seuils de concentration dozone dans les agglomrations partir de donnes plus susceptibles de participer aux rseaux de rgulation mis en cause dans
observes : concentrations en 03, NO3, NO2... du jour, et dautres prdites par la pathologie ou autre phnomne tudi. Le problme snonce simplement
Mto-France : temprature, vent... Encore une fois, le modle apprend sur les mais rvle un redoutable niveau de complexit et pose de nouveaux dfis
dpassements observs afin de prvoir ceux venir.
au statisticien. En effet, contrairement aux cas prcdents pour lesquels des
Il sagit dun problme de rgression : la variable prvoir est une concen- centaines voire des milliers dindividus peuvent tre observs et participer
tration mais elle peut aussi tre considre comme binaire : dpassement ou lapprentissage, dans le cas des biopuces, seuls quelques dizaines de tissus
non dun seuil. Il y a 8 variables explicatives dont une est dj une prvision son analyss cause essentiellement du prix et de la complexit dune telle
de concentration dozone mais obtenue par un modle dterministe de mca- exprience. Compte tenu du nombre de gnes ou variables, le problme de
nique des fluides (quation de Navier et Stockes). Lapproche statistique vient discrimination est svrement indtermin. Dautres approches, dautres techamliorer cette prvision en modlisant les erreurs et en tenant compte dob- niques sont ncessaires pour pallier linsuffisance des mthodes classiques
servations de concentration doxyde et dioxyde dazote, de vapeur deau, de la de discrimination.
prvision de la temprature ainsi que de la force du vent.
Lexemple concerne les expressions de gnes dans une exprience croisant
Cette tude est propose en exemple ou en travaux dirigs mais pas sous la deux facteurs le rgime alimentaire (5 niveaux) chez n = 40 souris de 2 gnoforme dun scnario car les donnes proprits de MtoFrance ne sont pas types. Il sagit de mettre en vidence limpact des facteurs sur les expressions
publiques.
de p = 120 gnes puis dexpliquer un ensemble de q = 21 variables phnotypiques (concentrations dacides gras) par ces mmes expressions.
5.3
5.5
Exemples industriels
07/15
11
07/15
12
les concepts originaux de chaque mthode dans son cadre disciplinaire tout
en tchant dhomogniser notations et terminologies. Lobjectif principal est
de faciliter la comprhension et linterprtation des techniques des principaux
logiciels pour en faciliter une utilisation pertinente et rflchie. Ce cours ne
peut tre dissoci de sances de travaux dirigs sur ordinateur laide de logiciels (SAS, R...) pour traiter des donnes en vraie grandeur dans toute leur
complexit. La principale difficult pratique est darriver dterminer o faire
porter leffort ou les efforts :
la saisie, la gestion, la slection des donnes et variables,
la slection des mthodes comparer,
loptimisation des choix de modles,
et ceci en fonction des mthodes considres, de la structure des donnes, des
Chaque mthode ou famille de mthodes de modlisation et dapprentissage proprits des variables notamment celle modliser.
parmi les plus rpandues, est prsente de faon plus ou moins succincte dans
un chapitre distinct avec un objectif de prvision. Une premire vignette incon- Rfrences
tournable est consacre aux techniques destimation dune erreur de prvision
ou dun risque sur lesquelles reposent les choix oprationnels dcisifs : de mo- [1] G. Biau, A. Ficher, B. Guedj et J. D. Malley, COBRA : A Nonlinear Aggregation Strategy, Journal of Multivariate Analysis (2013).
dle, de mthode mais aussi lvaluation de la prcision des rsultats escompts. La rgression linaire classique en statistique prend une place particulire [2] U. M. Fayyad, G. Piatetsky-Shapiro et P. Smyth, From data mining
titre pdagogique. Trs antrieure aux autres, elle donne lieu a une bibliograto knowledge discovery : an overview, Advances in Knowledge Discophie abondante. Conceptuellement plus simple, elle permet dintroduire plus
very and Data Mining (U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth et
facilement les problmatiques rencontres comme celle du choix dun modle
R. Uthurusamy, rds.), AAAI Press/MIT Press, 1996, p. 134.
par ses deux approches types : la slection de variable ou la rgularisation [3] T. Hastie, R. Tibshirani et J Friedman, The elements of statistical learning :
(ridge, Lasso). Le modle linaire gnral fournit le cadre thorique ncesdata mining, inference, and prediction, Springer, 2009, Second edition.
saire lunification des rgressions linaire, loglinaire et logistique ; cette
dernire reste toujours trs utilise en scoring. La prsentation de lanalyse dis- [4] Max Kuhn, Building Predictive Modelsoin R Using the caret Package, Journal of Statistical Software 28 (2008), n 5.
criminante dcisionnelle, paramtrique ou non paramtrique (dont les k plus
proches voisins), permet dintroduire galement des notions de thorie bay- [5] K.V. Mardia, J.T. Kent et J.M. Bibby, Multivariate Analysis, Academic
Press, 1979.
sienne de la dcision. Les vignettes suivantes sont consacres aux techniques
algorithmiques : arbres binaires de dcision (classification and regression trees [6] S. Tuffry, Data Mining et Statistique dcisionnelle : lintelligence des
ou CART) et celles plus directement issues de la thorie de lapprentissage
donnes, Technip, 2007.
machine (machine learning) : rseau de neurones et perceptron, agrgation de
modles (boosting, random forest), support vector machine (SVM). Enfin une [7] M. J. van der Laan, E. C. Polley et A. E. Hubbard, Super learner, Statistical
Applications in Genetics and Molecular Biology 6 :1 (2007).
vignette de conclusion tche de synthtiser le panorama et propose une comparaison systmatique des mthodes sur les diffrents jeux de donnes.
ms lors des stages ralises par les tudiants du dpartement Gnie Mathmatique de lINSA ou par les thmes des collaborations industrielles et scientifiques de lquipe Statistique et Probabilits de lInstitut de Mathmatiques
de Toulouse. Le lecteur peut se faire une ide du nombre trs important de mthodes et variantes concernes par lapprentissage supervise en consultant une
aide en ligne de la librairie caret (Kuhn, 2008)[4] du logiciel R. Remarquons
que les principaux logiciels commerciaux (SAS, Splus, SPSS, Matlab, KXEN,
SPAD, Statsoft. . . ) ou gratuits (R, Weka, Tanagra), performants et simposant
par des interfaces trs conviviales (Enterprise Miner, Insightfull Miner, Clementine, Statistica Data Miner), contribuent largement la diffusion, voire la
pntration, de mthodes trs sophistiques dans des milieux qui seraient impermables une conceptualisation mathmatique trop abstraite.
07/15
2. une pnalisation de lerreur dajustement ou destimation du modle faisant intervenir la complexit du modle,
Rsum
Introduction
Une fois que la notion de modle statistique ou rgle de prvision est prcise ainsi quune fonction dite perte associe, un risque ou erreur de gnralisation (ou erreur de prvision) est dfini pour la recherche dune rgle de
prvision optimale au sens o elle minimise le risque. En pratique, ce risque
ncessite dtre estim (risque empirique) et diffrentes stratgies sont proposes.
2.1
Modle statistique
rgle de prvision f .
Une rgle de prvision / rgression ou discrimination (ou prdicteur) est une Une question naturelle qui se pose alors est : peut-on construire des rgles
fonction (mesurable) f : X Y qui associe la sortie f (x) lentre x X . optimales ?
Pour mesurer la qualit de prvision, on introduit une fonction de perte :
2.2
D FINITION 1. Une fonction (mesurable) l : Y Y R+ est une fonction Rgression et discrimination binaire
de perte si l(y, y) = 0 et l(y, y 0 ) > 0 pour y 6= y 0 .
D FINITION 3. On appelle fonction de rgression la fonction : X Y
Si f est une rgle de prvision, x une entre, y la sortie qui lui est rellement dfinie par
associe, alors l(y, f (x)) mesure une perte encourue lorsque lon associe x
(x) = E[Y |X = x].
la sortie f (x).
En rgression relle : on dfinit les pertes Lp (p 1)
l(y, y 0 ) = |y y 0 |p .
Y = R,
l(y, y 0 ) = (y y 0 )2 .
|y y |
(y y )
=
.
2
4
RP ( ) = inf RP (f ).
f F
l(y, y 0 ) = |y y 0 |.
T HORME 5.
La rgle de rgression dfinie par (x)
mediane[Y |X = x] vrifie :
RP ( ) = inf RP (f ).
f F
16
07/15
2.3
Algorithmes de prvision
Dfinitions
l(y, y 0 ) = 1y6=y0 .
D FINITION 9. Un algorithme de prvision est reprsent par une application (mesurable) f : (X Y)n F qui un ensemble dapprentissage dn = {(xi , yi ), 1 i n} associe une rgle de prvision f(dn ), ou
D FINITION 6. On appelle rgle de Bayes toute fonction f de F telle que
par une suite (fn )n1 dapplications (mesurables) telles que pour n 1,
pour tout x X ,
fn : (X Y)n F.
RP (f ) = inf RP (f ).
n+
f F
f F
Soit {Wn,i , 1 i n}Pune famille de poids positifs tels que pour tout
n
n 1, x, x1 , . . . , xn X , i=1 Wn,i (x, x1 , . . . , xn ) = 1.
n (dn ) : x X 7
n
X
i=1
et
fn (dn ) : x X 7 signe(
n (dn )(x)).
Les thormes prcdents fournissent des rgles de prvision optimales D FINITION 12. Un algorithme de prvision par moyennage local est un
sexprimant de faon formelle... mais qui dpendent de la loi P inconnue ! algorithme de la forme :
n en rgression relle,
Il est donc ncessaire de construire des algorithmes de prvision qui ne dn
fn en discrimination binaire.
pendent pas de P mais de lensemble dapprentissage d .
17
07/15
T HORME 13. [Stone 1977[11]] On suppose que quelle que soit la loi D FINITION 17. On appelle algorithme par noyau un algorithme par
moyennage local dont les poids sont de la forme :
marginale PX de X,
X
n
xj x
xi x
(i) c > 0, f : X R+ telle que EPX [f (X)] < , n,
Wn,i (x, x1 , . . . , xn ) = K
K
,
Pn
h
h
EP (n+1) [ i=1 Wn,i (X, X 1 , . . . , X n )f (X i )] cEPX [f (X)],
j=1
X
Pn
o K est une fonction (un noyau) valeurs dans R+ , h un rel > 0 (largeur
(ii) a > 0, EP (n+1)
Wn,i (X, X 1 , . . . , X n )1kX i Xk>a 0,
i=1
XPn
du noyau) avec la convention 0/0 = 0.
2
(iii) EP (n+1)
Wn,i
(X, X 1 , . . . , X n ) 0. Alors,
i=1
X
Noyaux usuels (X = Rd ) :
Si Y R, l(y, y 0 ) = (yy 0 )2 , (
n )n1 est universellement consistant,
0
Si Y = {1, 1}, l(y, y ) = 1y6=y0 , (fn )n1 est universellement consis noyau fentre K(x) = 1kxk1 ,
2
tant.
noyau gaussien K(x) = ekxk ,
k.k tant la norme euclidienne sur Rd .
Exemple 1 : Algorithme des k plus proches voisins
D FINITION 14. On appelle algorithme des k plus proches voisins un algorithme par moyennage local dont les poids vrifient :
Wn,i (x, x1 , . . . , xn ) =
1
k
D FINITION 19. Etant donne une partition V1 , V2 , . . . finie ou dnombrable de X , pour x X , on note V (x) llment de la partition contenant x. On appelle algorithme par partition un algorithme par
T HORME 15. Si X = Rd , (kn )n1 est une suite dentiers tels que kn moyennage local dont les poids sont de la forme : Wn,i (x, x1 , . . . , xn ) =
P
+ et kn /n 0, alors lalgorithme des kn p.p.v. pour une distance associe 1xi V (x) nj=1 1xj V (x) ,
une norme quelconque de Rd est universellement consistant.
avec la convention 0/0 = 0.
Dans le cas dun nombre de p.p.v. kn alatoire : il suffit que les hypothses Les arbres de dcision (CART) (Breiman et al. 1984)[2] font partie de cette
de convergence soient vrifies en probabilit.
classe dalgorithmes, de mme que les estimateurs par polynmes locaux en
rgression non paramtrique.
T HORME 16. [Cover and Hart 1967[3]] Lalgorithme du plus proche
Soit B(O, r) la boule de centre O de rayon r pour une norme k.k quelconque
voisin (k = 1) nest pas universellement consistant.
de Rd , et diam(Vk,n ) = supx,x0 X kx x0 k.
18
07/15
T HORME 20. Soit (V1,n , V2,n , . . .)n1 une suite de partitions dnomLa minimisation du risque empirique est une ide bien dveloppe depuis
brables de X = Rd . Si pour tout r > 0,
les travaux de Vapnik (1999)[12].
|{k, Vk,n B(O, r)}| 6= }|/n 0,
D FINITION 22. Etant donn un sous-ensemble F de F (un modle),
supk,Vk,n B(O,r) diam(Vk,n ) 0,
alors lalgorithme par partition dfini sur V1,n , V2,n , . . . est universellement lalgorithme de minimisation du risque empirique sur F est dfini par :
consistant.
cn (f, D n ).
fF (D n ) argminf F R
Le "flau" de la dimension
Ainsi, pour obtenir 10 % des donnes en dimension 10, on doit recouvrir Dcomposition approximation/estimation (ou biais/variance)
80% du domaine de variation dans chaque direction. Il ne sagit donc plus
Soit f telle que RP (f ) = inf f F RP (f ), f est appel "oracle". Lobjecdune mthode "locale", inversement, si on impose la mthode dtre locale,
n
la proportion p sera infime et il faudra une taille n considrable de lchantillon tif est de dterminer un modle F pour lequel le risque de lestimateur fF (D )
est proche de celui de loracle.
pour esprer obtenir une ou des observations dans un voisinage trs local.
2.4
Dfinitions
Comme nous lavons vu prcdemment, le risque dune rgle de prvision
f est dfini par RP (f ) = E(X,Y )P [l(Y, f (X))]. Les rgles "optimales" au
sens de la minimisation du risque dpendent de P inconnue.
En labsence de toute information ou hypothse sur la loi P (cadre non paramtrique), il est naturel de remplacer P par Pn , mesure empirique associe
D n , et de minimiser le risque empirique.
Ces deux termes sont de natures diffrentes. Pour les valuer, nous aurons
recours des considrations issues respectivement de la statistique et de la
D FINITION 21. Le risque empirique (associ D n = {(X i , Yi ), 1 i thorie de lapproximation.
La slection dun modle F parmi une collection de modles C pour lequel
n}) dune rgle de prvision f F est dfini par
le risque de fF (D n ) est proche de celui de loracle va sobtenir par la minimin
X
sation dun critre pnalis du type :
cn (f, D n ) = 1
l(Yi , f (X i )).
R
n i=1
n (fF (D n ), D n ) + pen(F )}.
F = argminF C {R
19
07/15
La pnalit permet de pnaliser les modles de "grande" taille, afin dviter le trois parties respectivement appeles apprentissage, validation et test :
sur-ajustement. Le choix optimal de la pnalit (selon les modles statistiques
1
2
3
dn = dnAppr
dnValid
dnTest
,
considrs) est un sujet de recherche trs actif en statistique.
Trs gnralement, plus un modle (la famille des fonctions admissibles) avec n1 + n2 + n3 = n.
cn (fb(dn1 ), dn1 ) est minimise pour dterminer lestimateur fb(dn1 ),
1. R
est complexe, plus il est flexible et peut sajuster aux donnes observes et
Appr
Appr
Appr
un modle tant fix (par exemple un modle de rgression polynomiale
donc plus le biais est rduit. En revanche, la partie variance augmente avec le
de degr 2).
nombre de paramtres estimer et donc avec cette complexit. Lenjeu, pour
cn (fb(dn1 ), dn2 ) sert la comparaison des modles au sein dune
minimiser le risque quadratique ainsi dfini, est donc de rechercher un meilleur
2. R
Valid
Appr
compromis entre biais et variance : accepter de biaiser lestimation comme par
mme famille afin de slectionner celui qui minimise cette erreur, (par
exemple en rgression ridge pour rduire plus favorablement la variance.
exemple, on considre une famille de modles polynomiaux de degrs
varis).
cn (fb, dn3 ) est utilise pour comparer entre eux les meilleurs modles de
3 Estimation du risque
3. R
Test
chacune des mthodes considres (par exemple on compare le meilleur
3.1 Estimation de lerreur destimation ou dajusteestimateur polynomial au meilleur estimateur construit partir de rseaux
de neurones).
ment
Cette solution nest acceptable que si la taille de lchantillon initiale est imLe premier type destimation considrer exprime la qualit dajustement
portante sinon :
du modle sur lchantillon observ. Cest justement, dans le cas quantitatif,
la qualit dajustement est dgrade car n1 est trop faible,
ce critre qui est minimis dans la recherche de moindres carrs. Ce ne peut
la variance de lestimation de lerreur peut tre importante et ne peut tre
tre quune estimation biaise, car trop optimiste, de lerreur de prvision ; elle
estime.
est lie aux donnes qui ont servi lajustement du modle et est dautant plus
Si la taille de lchantillon est insuffisante, le point ii ci-dessus : la slection de
faible que le modle est complexe. Cette estimation ne dpend que de la partie
modle est base sur un autre type destimation de lerreur de prvision faisant
"biais" de lerreur de prvision et ne prend pas en compte la partie "variance"
appel soit une pnalisation soit des simulations.
de la dcomposition.
3.2
Cp de Mallows
X
cn (fb(dn ), dn ) = 1
R
l(yi , fb(dn )(xi )).
n i=1
07/15
Une argumentation de type baysien conduit un autre critre BIC (Bayeune correction et ainsi une meilleure estimation de lerreur recherche. Cette
correction peut prendre plusieurs formes. Elle est lie lestimation de la va- sian Information Criterion, Schwarz, 1978[9]) qui cherche, approximativeriance dans la dcomposition en biais et variance de lerreur ou cest encore ment (asymptotiquement), le modle associ la plus grande probabilit
a posteriori. Dans le cas dun modle issu de la maximisation dune logune pnalisation associe la complexit du modle.
Son expression est dtaille dans le cas de la rgression linaire. On montre vraisemblance, il se met sous la forme :
(cf. Hastie et col. 2001), des fins de comparaison quil peut aussi se mettre
sous une forme quivalente :
d
BIC = 2L + log(n) .
n
On montre, dans le cas gaussien et en supposant la variance connue que BIC
est proportionnel AIC avec le facteur 2 remplac par log n. Ainsi, ds que
n > e2 7, 4, BIC tend pnaliser plus lourdement les modles complexes.
Asymptotiquement, on montre que la probabilit pour BIC de choisir le bon
modle tend vers 1 lorsque n tend vers linfini. Ce nest pas le cas dAIC ni du
Cp qui tendent alors choisir des modles trop complexes. Nanmoins taille
fini, petite, BIC risque de se limiter des modles trop simples.
cn (fb(dn ), dn ) + 2 d
Cp = R
b2
n
o d est le nombre de paramtres du modles (nombre de variables plus un)),
n le nombre dobservations,
b2 une estimation de la variance de lerreur par
un modle de faible biais. Ce dernier point est fondamental pour la qualit du
critre, il revient supposer que le modle complet (avec toutes les variables)
est le vrai modle ou tout du moins un modle peu biais afin de conduire
une bonne estimation de 2 .
07/15
2n
cn (fb(dn ), dn ) + h(log( h ) + 1) log 4 .
RP (fb(dn )) < R
n
p
X
S1 S2 Sk avec : h1 < h2 < < hk .
f (x, w) = sign (wj xj ) + 1 avec kxk = 1
j=1
Il sagit de trouver la valeur h rendant le risque minimum et donc fournissant
le meilleur compromis entre les deux termes de lingalit de Vapnik.
et satisfaisant la condition :
La complexit de la famille des modles peut tre contrle par diffrents
p
X
2
paramtres
de la technique dapprentissage considre : le nombre de neurones
2
kwk =
wj C
dune
couche
dans un perceptron, le degr dun polynme, la contrainte sur les
j=1
paramtres comme en rgression ridge, une largeur de fentre ou paramtre de
dpend de la constante C et peut prendre toutes les valeurs de 0 p.
lissage...
Attention, les VC dimensions ne sont pas gales au nombre de paramtres
libres et sont souvent difficiles exprimer pour une famille de fonctions don- 3.3 Estimation par simulation
nes.
Validation croise
Vapnik (1999)[12] prouve des rsultats fondamentaux pour la thorie de
La validation croise est dun principe simple, efficace et largement utilise
lapprentissage :
pour
estimer une erreur moyennant un surplus de calcul. Lide est ditrer les Un processus dapprentissage est consistant si et seulement si la famille
timation
de lerreur sur plusieurs chantillons de validation puis den calculer
de modles considrs a une VC dimension h finie.
la
moyenne.
Cest indispensable pour rduire la variance et ainsi amliorer la
La majoration de la diffrence entre lerreur dapprentissage (ou par reprcision
lorsque
la taille de lchantillon initial est trop rduite pour en exsubstitution ou erreur apparente) et lerreur de prvision dpend du raptraire
des
chantillons
de validation et test de taille suffisante.
port entre la VC dimension h et la taille n de lensemble dapprentissage.
22
07/15
A LGORITHME 1 :
1: Dcouper alatoirement lchantillon en K parts (K-fold) de tailles approximativement gales selon une loi uniforme ;
2: for k=1 K do
3:
mettre de ct lune des partie,
4:
estimer le modle sur les K 1 parties restantes,
5:
calculer lerreur sur chacune des observations qui nont pas particip
lestimation
6: end for
7: moyenner toutes ces erreurs pour aboutir lestimation par validation
croise.
Minimiser lerreur estime par validation croise est une approche largement utilise pour optimiser le choix dun modle au sein dune famille parad
mtre. fb est dfini par b = arg min R
CV ().
Validation croise gnralise (GCV)
La validation croise peut se trouver excessivement chronophage. Dans de
nombreux cas de rgression, les valeurs ajustes sont fonction linaire des obb = Hy avec H = (hi,j )nn la hat-matrix. En rgression
servations : y
linaire multiple, H = X(X 0 X)1 X 0 et des formes similaires sont trouves pour la rgression spline ou la rgression par noyau, la ridge ou encore la
rgression LASSO. Pour de tels estimateurs linaires, lestimation leave-oneout de lerreur quadratique par validation croise (PRESS) scrit :
Plus prcisment, soit : {1, . . . , n} 7 {1, . . . , K} la fonction dindexation qui,pour chaque observation, donne lattribution uniformment alatoire
de sa classe. Lestimation par validation croise de lerreur de prvision est :
"
#2
n
n
i2
1 Xh
1 X yi fb(xi )
(i)
b
yi f
(xi ) =
.
n i=1
n i=1
1 hii
1X
d
R
l(yi , fb( (i)) (xi ))
CV =
n i=1
Cette section plus technique dcrit des outils encore peu prsents dans les
logiciels commerciaux, elle peut tre saute en premire lecture.
Lide, dapprocher par simulation (Monte Carlo) la distribution dun estimateur lorsque lon ne connat pas la loi de lchantillon ou, plus souvent,
lorsque lon ne peut pas supposer quelle est gaussienne, est lobjectif mme
du bootstrap (Efron, 1982) [6].
Le principe fondamental de cette technique de r-chantillonnage est de substituer, la distribution de probabilit inconnue F , dont est issu lchantillon
dapprentissage, la distribution empirique Fn qui donne un poids 1/n chaque
ralisation. Ainsi on obtient un chantillon de taille n dit chantillon bootstrap
selon la distribution empirique Fn par n tirages alatoires avec remise parmi
les n observations initiales.
Il est facile de construire un grand nombre dchantillons bootstrap (i.e.
23
07/15
10
Estimateur out-of-bag
La premire sinspire simplement de la validation croise. Elle considre
dune part les observations tires dans lchantillon bootstrap et, dautre part,
celles qui sont laisses de ct pour lestimation du modle mais retenue pour
lestimation de lerreur.
n
1X 1 X
d
R
l(yi , fzb (xi ))
oob =
n i=1 Bi
bKi
Estimateur naf
X
bn (fz , dn ) = 1
l(yi , fz (xi ))
R
n i=1
07/15
11
une pondrations des observations ou encore lintroduction de cots de mauvais classement dissymtriques afin de forcer le modle prendre en compte
une petite classe.
Discrimination deux classes
Dans le cas du problme le plus lmentaire deux classes, dautres critres
sont proposs afin dvaluer plus prcisment une qualit de discrimination. La
plupart des mthodes vues (rgression logistique), ou venir dans les chapitre
qui suivent, valuent, pour chaque individu i, un score ou une probabilit
bi
que cette individu prenne la modalit Y = 1 (ou succs, ou possession dun
actif, ou prsence dune maladie...). Cette probabilit ou ce score compris entre
0 et 1 est compar avec une valeur seuil s fixe a priori (en gnral 0, 5) :
Si
bi > s, ybi = 1 sinon ybi = 0.
Vrais
positifs les n11 (s) observations bien classes (b
yi = 1 et Y = 1),
validation croise) plus conomique est adapt en supposant implicitement que
Vrais
ngatifs
les
n
(s)
observations
bien
classes
(b
yi = 0 et Y = 0),
le biais induit est identique dun modle lautre.
00
Faux ngatifs les n01 (s) observations mal classes (b
yi = 0 et Y = 1),
3.4 Discrimination et courbe ROC
Faux positifs les n10 (s) observations mal classes (b
yi = 1 et Y = 0),
n01 (s)+n10 (s)
,
Le taux derreur : t(s) =
n
Dans une situation de discrimination le seul critre de risque comme le taux
(s)
Le
taux
de
vrais
positifs
ou
sensibilit
= nn11+1
ou taux de positifs pour
derreur de classement nest pas toujours bien adapt surtout, par exemple,
les individus qui le sont effectivement,
dans le cadre de classes dsquilibres : un modle trivial qui ne prdit jamais
n (s)
une classe peu reprsente ne commet pas un taux derreur suprieur au pour Le taux de vrais ngatifs ou spcificit = n00+0 ou taux de ngatifs pour
centage de cette classe. Cette situation est souvent dlicate grer et ncessite
les individus qui le sont effectivement,
25
07/15
12
n00 (s)
n+0
n10 (s)
n+0 .
(s)
n00 (s0 )
n11 (s)
n11 (s0 )
n00 (s)
<1
s < s0
<
.
n+0
n+0
n+1
n+1
07/15
13
Laire sous la courbe est calcule en considrant toutes les paires (i, i0 ) formes dun premier individu avec yi = 1 et dun second avec yi0 = 0. Une paire
est dite concordante si
bi >
bi0 ; discordante sinon. Le nombre dex quo est
n+0 n+1 nc nd o nc est le nombre de paires concordantes et nd le nombre
de paires discordantes. Alors,
AUC =
nc + 0, 5(n+0 n+1 nc nd )
.
n+0 n+1
[10] C. Spiegelman et J. Sacks, Consistent Window Estimation in Nonparametric Regression, Annals of Statististics 8 (1980), 240246.
On montre par ailleurs (voir par exemple Tenenhaus 2007) que le numrateur de cette expression est encore la Statistique de test de Mann-Whitney [11] M. Stone, An Asymptotic Equivalence of Choice of Model by Crosstandis que le coefficient de Gini, qui est le double de la surface entre la diagoValidation and Akaikes Criterion, Journal of The Royal Statistical Sonale et la courbe, vaut 2AUC 1.
ciety B 39 (1977), 4447.
Attention, pour comparer des modles ou mthodes de complexits diff- [12] V.N. Vapnik, Statistical learning theory, Wiley Inter science, 1999.
rentes, ces courbes doivent tre estimes sur un chantillon test. Elles sont
bien videmment optimistes sur lchantillon dapprentissage. De plus, lAUC
ne donne pas un ordre total pour classer des modles car les courbes ROC
peuvent se croiser.
Rfrences
[1] H. Akake, A new look at the statistical model identification, IEEE Transactions on Automatic Control 19 (1974).
[2] L. Breiman, J. Friedman, R. Olshen et C. Stone, Classification and regression trees, Wadsworth & Brooks, 1984.
[3] T. M. Cover et P. E. Hart, Nearest neighbor pattern classification, IEEE
Trans. Inform. Theory 13 (1967), 2127.
[4] P Craven et G. Wahba, Smoothing Noisy Data with Spline Functions,
Technometrics 21 (1979), 215223.
[5] L. P. Deveroye et T.J. Wagner, Distribution-Free Consistency Results in
Discrimination and Regression Function Estimation, Annals of Statistics
8 (1980), 231239.
[6] B. Efron, The Jackknife, the Bootstrap and other Resampling Methods,
SIAM, 1982.
27
07/15
Rsum
Rgression multiple
Les donnes sont ranges dans une matrice X(n (p + 1)) de terme gnral Xij , dont la premire colonne contient le vecteur 1 (X0i = 1), et dans
Le modle de rgression linaire multiple est loutil statistique le plus ha- un vecteur Y de terme gnral Yi . En notant les vecteurs = [1 p ]0 et
bituellement mis en uvre pour ltude de donnes multidimensionnelles. Cas = [0 1 p ]0 , le modle scrit matriciellement :
particulier de modle linaire, il constitue la gnralisation naturelle de la rgression simple.
Y = X + .
1.1
Modle
07/15
1.3
1.4
= kY Xk
Proprits
i=1
= (Y X)0 (Y X)
= Y0 Y 2 0 X0 Y + 0 X0 X.
b2 =
=
=
.
np1
np1
np1
Alors, lestimation des paramtres j est donne par :
Ainsi, les termes
b2 hii sont des estimations des variances des prdicteurs Ybi .
0
1 0
b
= (X X) X Y
La consquence immdiate importante est que si la matrice X0 X est mal
conditionne (dterminant proche de 0), son inversion fait apparatre des
termes trs levs sur la diagonale et conduit donc des variances trs importantes des estimations des paramtres.
1.5
SSE est la somme des carrs des rsidus (sum of squared errors),
2
2
b
SSE =
Y Y
= kek .
On note
b = (I H)Y
b = Y X
e=YY
On dfinit galement la somme totale des carrs (total sum of squares) par
2
2
SST =
Y Y1
= Y0 Y nY
07/15
bj t/2;(np1)
bj2 .
1.6
Coefficient de dtermination
1.7
bj
30
Source de
variation
d.d.l.
Somme des
carrs
Rgression
Erreur
Total
p
np1
n1
SSR
SSE
SST
Variance
MSR=SSR/p
MSE=SSE/(n p 1)
MSR/MSE
07/15
Di =
1
b(i) )0 (b
b(i) ),
(b
yy
yy
s2 (p + 1)
Connaissant les valeurs des variables X j pour une nouvelle observation : VIF
= [x10 , x20 , . . . , xp0 ] appartenant au domaine dans lequel lhypothse de liLa plupart des logiciels proposent des diagnostics de colinarit. Le plus
narit reste valide, une prvision, note yb0 de Y ou E(Y) est donne par :
classique est le facteur dinflation de la variance (VIF)
yb0 = b0 + b1 x10 + + bp xp0 .
1
Vj =
Les intervalles de confiance des prvisions de Y et E(Y), pour une valeur
1 Rj2
x0 Rp et en posant v0 = (1|x00 )0 Rp+1 , sont respectivement
x00
t/2;(np1)
b(1 + v00 (X0 X)1 v0 )1/2 ,
31
07/15
Conditionnement
Modle complet
= 1 /p
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
1.10
Exemple
52.12940 (11)
Parameter Estimates
Parameter
Variable DF
Estimate
(1)
INTERCEP
1
0.188072
WCFTCL
1
0.215130
WCFTDT
1
0.305557
GEARRAT
1
-0.040436
LOGSALE
1
0.118440
LOGASST
1
-0.076960
...
(1)
(2)
(3)
(4)
(5)
(6)
Standard
Error
(2)
0.13391661
0.19788455
0.29736579
0.07677092
0.03611612
0.04517414
T for H0:
Parameter=0 Prob>|T|
(3)
(4)
1.404
0.1716
1.087
0.2866
1.028
0.3133
-0.527
0.6027
3.279
0.0029
-1.704
0.0999
Tolerance
(5)
.
0.03734409
0.02187972
0.45778579
0.10629382
0.21200778
Variance
Inflation
(6)
0.00000000
26.77799793
45.70441500
2.18442778
9.40788501
4.71680805
07/15
teurs dinflation de la variance) sont associs de grands cart-types des estiOn suppose que les moyennes conditionnelles E[Y|T ], cest--dire calcumations des paramtres. Dautre part les nombreux tests de Student non signifi- les lintrieur de chaque cellule, sont dans le sous-espace vectoriel engendr
catifs montrent que trop de variables sont prsentes dans le modle. Cette ide par les variables explicatives quantitatives, ici X. Ceci scrit :
est renforce par le calcul de lindice de conditionnement : 8.76623/0.00125.
Yij = 0j + 1j Xij + ij ; j = 1, . . . , J; i = 1, , nj
Analyse de covariance
o les ij sont i.i.d. suivant une loi centre de variance 2 qui sera suppose
Lanalyse de covariance se situe encore dans le cadre gnral du modle li- N (0, 2 ) pour la construction des tests.
naire et o une variable quantitative est explique par plusieurs variables la
Notons Y le vecteur des observations [Yij |i = 1, nj ; j = 1, J]0 mis en
fois quantitatives et qualitatives. Dans les cas les plus complexes, on peut avoir colonne, x le vecteur [X |i = 1, n ; j = 1, J]0 , = [ |i = 1, n ; j = 1, J]0
ij
j
ij
j
plusieurs facteurs (variables qualitatives) avec une structure croise ou hirar- le vecteur des erreurs, 1 les variables indicatrices des niveaux et 1 la colonne
j
chique ainsi que plusieurs variables quantitatives intervenant de manire li- de 1s. On note encore x.1 le produit terme terme des deux vecteurs, cestj
naire ou polynomiale. Le principe gnral, dans un but explicatif ou dcision- -dire le vecteur contenant les observations de x sur les individus prenant le
nel, est toujours destimer des modles intra-groupes et de faire apparatre niveau j de T et des zros ailleurs.
(tester) des effets diffrentiels inter-groupes des paramtres des rgressions.
La rsolution simultane des J modles de rgression est alors obtenue en
Ainsi, dans le cas plus simple o seulement une variable parmi les explicatives
considrant
globalement le modle :
est quantitative, nous sommes amens tester lhtrognit des constantes
et celle des pentes (interaction) entre diffrents modles de rgression linaire.
Y = X +
Ce type de modle permet donc, toujours avec un objectif prdictif, de sintresser la modlisation dune variable quantitative par un ensemble de vadans lequel X est la matrice n 2J constitue des blocs [1j |X.1j ] ; j =
riables explicatives la fois quantitatives et qualitatives. La possible prise en
1, . . . , J. Lestimation de ce modle global conduit, par bloc, estimer les
compte dinteractions complique singulirement la procdure de slection de
modles de rgression dans chacune des cellules.
variables.
Comme pour lanalyse de variance, les logiciels oprent une reparamtrisation faisant apparatre des effets diffrentiels par rapport au dernier niveau
2.1 Modle
(SAS/GLM, SAS/INSIGHT) ou par rapport un effet moyen (Systat), afin
Le modle est explicit dans le cas lmentaire o une variable quantitative dobtenir directement les bonnes hypothses dans les tests. Ainsi, dans le preY est explique par une variable qualitative T J niveaux et une variable mier cas, on considre la matrice de mme rang (sans la Jme indicatrice)
quantitative, appele encore covariable, X. Pour chaque niveau j de T , on
observe nj valeurs X1j , . . . , Xnj j de X et nj valeurs Y1j , . . . , Ynj j de Y ;
X = [1|X|11 | |1J1 |x.11 | |x.1J1 ]
PJ
n = j=1 nj est la taille de lchantillon.
En pratique, avant de lancer une procdure de modlisation et tests, une associe aux modles :
dmarche exploratoire sappuyant sur une reprsentation en couleur (une par
modalit j de T) du nuage de points croisant Y et X et associant les droites de
Yij = 0J + (0j 0J ) + 1J Xij + (1j 1J )Xij + ij ;
rgression permet de se faire une ide sur les effets respectifs des variables :
j = 1, . . . , J 1; i = 1, . . . , nj .
paralllisme des droites, tirement, imbrication des sous-nuages.
33
07/15
2.2
Tests
cette stratgie, laquelle peuvent contribuer des Analyses en Composantes Principales, correspond des algorithmes de recherche (pas pas)
Diffrentes hypothses sont alors testes en comparant le modle complet
moins performants mais conomiques en temps de calcul si p est grand.
Attention, si n est petit, et la recherche suffisamment longue avec beauY = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 + 1J x +
coup de variables explicatives, il sera toujours possible de trouver un
+ (11 1J )x.11 + + (1J1 1J )x.1J1 +
bon modle expliquant y ; cest leffet data mining dans les modles
conomtriques appel maintenant data snooping.
chacun des modles rduits :
Explicatif : Le deuxime objectif est sous-tendu par une connaissance a
(i) Y = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 + 1J x +
priori du domaine concern et dont des rsultats thoriques peuvent vou(ii) Y = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 +
loir tre confirms, infirms ou prciss par lestimation des paramtres.
Dans ce cas, les rsultats infrentiels prcdents permettent de construire
(iii) Y = 0J 1 + 1J x + (1j 1J )x.11 + +
le bon test conduisant la prise de dcision recherche. Utilises hors de
+(1J1 1J )x.1J1 +
ce contexte, les statistiques de test nont plus alors quune valeur indica(iv) Y = 0J 1 +
tive au mme titre que dautres critres plus empiriques.
Prdictif : Dans le troisime cas, laccent est mis sur la qualit des estipar un test de Fisher. Ceci revient considrer les hypothses suivantes :
mateurs et des prdicteurs qui doivent, par exemple, minimiser une er H0i : pas dinteraction entre variables X et T, 11 = = 1J , les droites
reur quadratique moyenne. Cest la situation rencontre en apprentissage.
partagent la mme pente 1J .
Ceci conduit rechercher des modles parcimonieux cest--dire avec un
H0ii : 11 = = 1J =0 (pas deffet de x)
nombre volontairement restreint de variables explicatives. Le meilleur
H0iii :01 = = 0J , les droites partagent la mme constante lorigine
modle ainsi obtenu peut donner des estimateurs lgrement biaiss au
0J .
profit dun compromis pour une variance plus faible. Un bon modle nest
H0iv les variables X et T nont aucun effet sur Y.
donc plus celui qui explique le mieux les donnes au sens dune dviance
On commence donc par valuer i, si le test nest pas significatif, on regarde ii
(SSE) minimale (ou dun R2 max) au prix dun nombre important de vaqui, sil nest pas non plus significatif, conduit labsence deffet de la variable
riables pouvant introduire des colinarits. Le bon modle est celui qui
X. De mme, toujours si i nest pas significatif, on sintresse iii pour juger
conduit aux prvisions les plus fiables.
de leffet du facteur T .
Certes, le thorme de Gauss-Markov indique que, parmi les estimateurs
3 Choix de modle par slection de variables sans biais, celui des moindres carrs est de variance minimum. Nanmoins,
il peut tre important de prfrer un estimateur lgrement biais si le gain
en variance est lui plus significatif. Cest tout le problme de trouver un bon
3.1 Introduction
quilibre entre biais et variance afin de minimiser un risque quadratique de
De faon un peu schmatique, on peut associer la pratique de la modlisa- prvision. Nous allons illustrer ceci par un exemple trs simple (mais pdagotion statistique trois objectifs qui peuvent ventuellement tre poursuivis en gique) en rgression polynomiale : on reprsente ci-dessous un jeu de donnes
complmentarit.
pour lesquelles Yi = f (xi ) + i , i = 1, . . . , n et xi [0, 1]. On ajuste des
Descriptif : Il vise rechercher de faon exploratoire les liaisons entre Y polynmes de degrs croissants sur ces donnes, le critre R2 augmente pour
et dautres variables, potentiellement explicatives, X j qui peuvent tre atteindre la valeur 1 pour le polynme qui passe par toutes les observations.
nombreuses afin, par exemple den slectionner un sous-ensemble. Lajustement du modle mesur par la R2 crot logiquement avec le nombre
34
07/15
Polynme de degr 5
Polynme de degr 10
2.5
Polynme de degr 2
2.5
2.0
2.0
1.5
1.5
1.0
1.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.5
0.0
0.0
0.2
0.4
0.6
0.8
1.0
0.5
0.0
0.5
0.0
0.5
0.0
0.2
0.4
0.6
0.8
1.0
y =
de paramtres.
E(b
)k
]
et
croit
avec
la
dimension
de
V
,
n 2 correspond au risque de
Commenons par dcrire les procdures de slection.
loracle .
3.2
Y = + ,
35
07/15
R0 = 1
b0 (b
R
m ) = kVm (Y)k2 + 2m 2 .
n1
SSE/(n p 1)
(1 R2 ) = 1
.
np1
SST/(n 1)
07/15
10
CP de Mallows
m
b = argminm=1,...,p Crit(m),
Polynme de degr 3
bm
est alors estim par
b . On peut montrer (mais la dmonstration est loin
dtre triviale !) que le risque de lestimateur ainsi slectionn est "proche" de
celui de loracle. (cf Concentration inequalities and statistical applications, P.
Massart).
Remarque : On peut estimer la variance 2 des variables i par kY
V (Y)k2 /(n p 1), cet estimateur est sans biais si Y obit au modle
linaire Y = X + .
Un autre critre, classiquement utilis, est le critre BIC, pour lequel le facteur
2 dans la pnalit est remplac par log(n).
CP
6
k
10
0.0
0.2
0.4
0.6
0.8
1.0
Cp de Mallows
Dans le cas du modle linaire, et si la variance des observations est suppose connue, le critre AIC (Akakes Information criterion) est quivalent au
critre Cp de Mallows.
n
n
n
X
X
1 X
bi ) = 1
bi ) + 1
MSE(
Y
Var(
Y
[Biais(Ybi )]2 .
2 i=1
2 i=1
2 i=1
f
i
(i)
yi fb (xi ) =
.
MSEj
n i=1
n i=1
1 hii
[n 2(q + 1)]
Cp = (n q 1)
MSE
et dfinit la valeur du C de Mallows pour les q variables considres. Il est et permet de comparer les capacits prdictives de deux modles.
p
07/15
11
3.4
3.5
Lorsque p est grand, il nest pas raisonnable de penser explorer les 2p modles possibles afin de slectionner le meilleur au sens de lun des critres
ci-dessus. Diffrentes stratgies sont donc proposes qui doivent tre choisies
en fonction de lobjectif recherch, de la valeur de p et des moyens de calcul disponibles ! deux types dalgorithmes sont rsums ci-dessous par ordre
croissant de temps de calcul ncessaire cest--dire par nombre croissant de
modles considrs parmi les 2p et donc par capacit croissante doptimalit.
On donne pour chaque algorithme loption selection utiliser dans la procdure REG de SAS.
Un modle danalyse de covariance pose des problmes spcifiques de slection notamment par la prise en compte possible dinteractions entre variables
dans la dfinition du modle. La recherche dun modle efficace, donc parcimonieux, peut conduire ngliger des interactions ou effets principaux lorsquune faible amlioration du R2 le justifie et mme si le test correspondant
apparat comme significatif. Lutilisation du Cp est thoriquement possible
mais en gnral ce critre nest pas calcul car dutilisation dlicate. En effet, il ncessite la considration dun vrai modle de rfrence ou tout du
moins dun modle de faible biais pour obtenir une estimation raisonnable de
la variance de lerreur. En rgression multiple (toutes les variables explicatives
quantitatives), le modle complet est considr comme tant celui de faible
biais mais analyse de covariance quels niveaux de complexit des interactions
faut-il considrer pour construire le modle complet jug de faible biais ? Il st
alors plus simple et plus efficace dutiliser le critre AIC ou le PRESS ; AIC
est systmatiquement utilis dans plusieurs logiciels comme R ou Enterprise
Miner de SAS.
Pas pas
Slection (forward) chaque pas, une variable est ajoute au modle. Cest
celle dont la valeur p (prob value)associe la statistique partielle du
test de Fisher qui compare les deux modles est minimum. La procdure
sarrte lorsque toutes les variables sont introduites ou lorsque p reste plus
grande quune valeur seuil fixe par dfaut 0, 50.
Step: AIC=-60.79
lpsa ~ lcavol + lweight + age + lbph + svi + pgg45
- pgg45
<none>
+ lcp
- age
38
Df Sum of Sq RSS
1 0.6590
45.526
44.867
1 0.6623
44.204
1 1.2649
46.132
AIC
-61.374
-60.788
-60.231
-60.092
07/15
12
+
-
lbph
gleason
lweight
svi
lcavol
1 1.6465
3 1.2918
1 3.5646
1 4.2503
1 25.4190
46.513
43.575
48.431
49.117
70.286
-59.293
-57.622
-55.373
-54.009
-19.248
8 0.769 0.709
9 0.776 0.708
Step: AIC=-61.37
lpsa ~ lcavol + lweight + age + lbph + svi
3.6
Exemple de slection
Parmi les trois types dalgorithmes et les diffrents critres de choix, une
des faons les plus efficaces consiste choisir les options du programme ci- 4.1 Rgression ridge
dessous. Tous les modles (parmi les plus intressants selon lalgorithme de
Furnival et Wilson) sont considrs. Seul le meilleur pour chaque niveau, cest- Modle et estimation
-dire pour chaque valeur p du nombre de variables explicatives sont donns.
Ayant diagnostiqu un problme mal conditionn mais dsirant conserver
Il est alors facile de choisir celui minimisant lun des critres globaux (Cp ou
BIC).
toutes les variables, il est possible damliorer les proprits numriques et la
variance des estimations en considrant un estimateur lgrement biais des
options linesize=110 pagesize=30 nodate nonumber;
paramtres.
title;
proc reg data=sasuser.ukcomp2 ;
model RETCAP = WCFTCL
WCFTDT
GEARRAT
LOGSALE
NFATAST CAPINT
FATTOT
INVTAST
PAYOUT
/ selection=rsquare cp rsquare bic best=1;
run;
In
1
2
3
4
5
6
7
LOGASST
QUIKRAT
e + ,
e
Y=X
N = 40
Regression Models for Dependent Variable: RETCAP
R-sq. Adjust. C(p)
BIC
Variables in Model
R-sq
0.105 0.081 78.393 -163.2 WCFTCL
0.340 0.305 50.323 -173.7 WCFTDT QUIKRAT
0.615 0.583 17.181 -191.1 WCFTCL NFATAST CURRAT
0.720 0.688 5.714 -199.2 WCFTDT LOGSALE NFATAST CURRAT
0.731 0.692 6.304 -198.0 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT
0.748 0.702 6.187 -197.2 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT
0.760 0.707 6.691 -195.7 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT
1 X1
1 X1
2
e
X=
.
.
1 Xn1
39
X12
X22
.
Xn2
. X1p
. X2p
,
.
.
. Xnp
07/15
13
0
1
e
=
. ,
.
p
1
2
=
. .
.
p
On obtient :
0
1 0
b
Ridge = (X X + Ip ) X Y.
2. La constante 0 nintervient pas dans la pnalit, sinon, le choix de lorigine pour Y aurait une influence sur lestimation de lensemble des paramtres. On obtient b0 = Y, ajouter une constante Y ne modifie pas les
bj pour j 1.
e dans le modle
D FINITION 1. Lestimateur ridge de
e + ,
e
Y=X
p
p
n
X
X
X
(j)
b
(Yi
Xi j )2 +
j2 ,
Ridge = argminRp+1
i=1
j=0
=
arg
min
kY
Xk
;
kk
<
c
.
Ridge
j=1
c
2
c0
.
Ridge = Y ,
.
cp
La figure 4 montre quelques rsultats obtenus par la mthode ridge en fonction de la valeur de la pnalit = l sur lexemple de la rgression polynomiale. Plus la pnalit augmente et plus la solution obtenue est rgulire ou
o X(c) dsigne la matrice X recentre (par colonnes) et Y(c) dsigne le encore, plus le biais augmente et la variance diminue. Il y a sur-ajustement
vecteur Y recentr.
avec une pnalit nulle : le modle passe par tous les points mais oscille dangeureusement ; il y a sous-ajustement avec une pnalit trop grande.
On suppose dsormais que X et Y sont centrs. On trouve lestimateur ridge
Comme dans tout problme de rgularisation, le choix de la valeur du paraen rsolvant les quations normales qui sexpriment sous la forme :
mtre est crucial est dterminera le choix de modle. La validation croise
est gnralement utilise pour optimiser le choix car la lecture du graphique
X0 Y = (X0 X + Ip ).
Ridge
40
07/15
14
10
2.5
1.5
1.0
1.0
10
1.5
2.0
2.0
t(x$coef)
2.5
0.5
0.5
0.0
0.0
20
0e+00
1e04
2e04
3e04
4e04
5e04
0.5
0.5
x$lambda
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
2.5
2.5
2.0
2.0
1.5
1.5
1.0
Le principe de la validation croise qui permet destimer sans biais une erreur de prvision est dtaill par ailleurs.
0.0
0.5
0.5
0.0
0.5
0.5
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
x
2.5
2.5
2.0
2.0
1.0
1.5
1.5
0.8
X = UDV0 ,
1.0
0.5
0.0
0.0
0.2
0.4
0.6
x
0.8
1.0
0.5
0.0
0.5
0.5
F IGURE 5 Chemin de rgularisation en rgression ridge en fonction du paramtre de la pnalisation. A droite, rgression polynomiale et gauche, retour
sur capital).
1.0
1.0
1.0
0.8
0.0
0.2
0.4
0.6
0.8
1.0
07/15
15
On voit donc que la rgression ridge seuille peu les premires composantes
principales (pour lesquelles dj est grand, et davantage les dernires composantes principales).
On associe la procdure ridge la quantit df () appele nombre de degrs de
libert effectifs dans la rgression ridge et dfinie par :
df () =
j=1
p
X
d2j
.
+
d2
j=1 j
j 0
4.2
Rgression LASSO
X0 X = VD0 DV0 ,
Y = X + ,
p
p
n
Les vecteurs propres orthogonaux v 1 , . . . , v p sont les directions principales
X
X
X
(j)
b
(Yi
Xi j )2 +
|j | ,
(ou directions de Karhunen Loeve) de X. Les variables z j = Xv j sont les
Lasso = argminRp
i=1
j=0
j=1
composantes principales. On remarque que
z j = Xv j = UDV0 v j = dj u(j) .
07/15
16
logiciel R introduit une contrainte sous forme dune borne relative pour
PLe
p
j=1 |j | : la contrainte sexprime sous la forme
p
X
|j |
p
X
(0)
|j |,
j=1
j=1
Comme dans le cas de la rgression Ridge, le paramtre est un paramtre
de rgularisation :
o (0) est lestimateur des moindres carrs et [0, 1].
Si = 0, on retrouve lestimateur des moindres carrs.
La pnalisation est optimise comme en rgression ridge par validation croiP ROPOSITION 4. Si X0 X = Ip , la solution de la minimisation en du se.
critre Lasso
Grce ses solutions parcimonieuses, cette mthode est surtout utilise pour
kY Xk2 + 2kk1
slectionner des variables dans des modles de grande dimension ; on peut
lutiliser si p > n cest--dire sil y a plus de variables que dobservations. Bien
est la suivante : pour tout j = 1, . . . , p,
entendu, dans ce cas, les colonnes de la matrice X ne sont pas linairement
indpendantes. Il ny a donc pas de solution explicite, on utilise des procdures
j = signe(bj )(|bj | )1|bj | ,
doptimisation pour trouver la solution. Il faut nanmoins utiliser la mthode
avec prcaution lorsque les variables explicatives sont corrles. Pour que la
0
b
b
o est lestimateur des moindres carrs : = X Y.
mthode fonctionne, il faut nanmoins que le nombre de variables influentes
(correspondant des j diffrents de 0) ne dpasse pas n et que les variables
Lestimateur ainsi obtenu correspond un seuillage doux (soft thresholding) non influentes ne soient pas trop corrles celles qui le sont.
de lestimateur des moindres carrs. Les coefficients bj sont remplacs par
Attention aux grandes ou ultra grandes dimensions : Verzalen (2012)[9] a
(bj ) o
montr (risque minimax) que si
: x 7 signe(x)(|x| )+ .
k
p
1
log( ) >
Autre pnalisation
n
k
2
La mthode LASSO quivaut minimiser le critre
o k est le nombre de coefficients non nuls, aucune mthode destimation et
n
de slection de variables nest pertinente. Exemples en analyse de donnes
X
(1)
(2)
(p)
Crit() =
(Yi 0 1 Xi 2 Xi . . . p Xi )2
transcriptomiques :
k
i=1
p = 5000 gnes et n = 40 microarrays, k = 4, n
log( kp ) = 0.71,
k
Pp
p = 600 gnes et n = 40 microarrays, k = 4, n log( kp ) = 0.50.
sous la contrainte j=1 |j | t, pour un t > 0.
43
07/15
17
4.3
Elastic Net
ont t retenus pour le nombre important de pics de pollution qui ont t dtects dans les priodes considres (ts 2002, 2003, 2005). Un pic de polLa mthode Elastic Net permet de combiner la rgression ridge et la rgres- lution est dfini ici par une concentration dpassant le seuil de 150g/m3 .
sion Lasso, en introduisant les deux types de pnalits simultanment.
Mto-France dispose dj dune prvision (MOCAGE), partir dum modle
Le critre minimiser est :
physique bas sur les quations du comportement dynamique de latmosphre
(Navier et Stockes). Cette prvision fait partie du dispositif dalerte des poun
X
(1)
(2)
(p) 2
voirs publics et prvoit donc une concentration de pollution 17h locale pour
(Yi 0 1 Xi 2 Xi . . . p Xi )
le lendemain. Lobjet du travail est den faire une valuation statistique puis
i=1
+
|j | + (1 )
j
un modle statistique global.
j=1
j=1
Les variables
Certaines variables de concentration ont t transformes afin de rendre symtrique (plus gaussienne) leur distribution.
4.4
Le principe de ces approches consiste calculer la rgression sur un ensemble de variables orthogonales deux deux. celles-ci peuvent tre obtenues
la suite dune analyse en composantes principales ou dcomposition en valeur singulire de la matrice X : Cest la rgression sur les composantes principales associes aux plus grandes valeurs propres.
Lautre approche ou rgression PLS (partial least square consiste recher- rmh20 Racine de la concentration en vapeur deau,
cher itrativement une composante linaire des variables de plus forte cova- Jour Variable deux modalits pour distinguer les jours "ouvrables" (0) des
riance avec la variable expliquer sous une contrainte dorthogonalit avec les
jours "fris-WE" (1).
composantes prcdentes.
Station Une variable qualitative indique la station concerne : Aix-enCe deux mthodes sont dveloppes dans une vignette spcifique.
Provence, Rambouillet, Munchhausen, Cadarache, et Plan de Cuques.
Modle physique
Exemples
Les graphiques de la figure 6 reprsente la premire prvision de la concentration dozone observe, ainsi que ses rsidus, cest--dire celle obtenue par
le modle physique MOCAGE. Ces graphes tmoignent de la mauvaise quaLes donnes
lit de ce modle : les rsidus ne sont pas rpartis de faon symtrique et les
Les donnes proviennent des services de Mto-France et sintresse la deux nuages prsentent une lgre forme de "banane" signifiant que des comprvision de la concentration en Ozone dans 5 stations de mesure ; ces sites posantes non linaires du modle nont pas t prises en compte. Dautre part,
5.1
44
07/15
18
50
100
200
Valeurs predites
300
50.69567
1.85389
3.37517
3.07893
3.74155
3.05338
0.23170
2.680 0.00747 **
-0.186 0.85215
2.687 0.00733 **
4.650 3.76e-06 ***
5.759 1.12e-08 ***
2.247 0.02484 *
20.074 < 2e-16 ***
100 50
0
135.88280
-0.34561
9.06874
14.31603
21.54765
6.86130
4.65120
Rsidus
50
250
150
50
0
Valeurs observees
100
s_rmh2o
jour1
stationAls
stationCad
stationPla
stationRam
TEMPE
50
100
200
300
A lexception de la variable indiquant la nature du jour, lensemble des coefficients sont jugs significativement diffrent de zro mais la qualit de lajustement est faible (R2 ).
Valeurs predites
F IGURE 6 Ozone : prvision et rsidus du modle MOCAGE de Mto- Modle avec interaction
France pour 5 stations.
La qualit dajustement du modle prcdent ntant pas trs bonne, un autre
modle est considr en prenant en compte les interactions dordre 2 entre les
la forme dentonnoir des rsidus montrent une forte htroscdasticit. Cela variables. Compte tenu de la complexit du modle qui un dcoule, un choix
signifie que la variance des rsidus et donc des prvisions crot avec la valeur. automatique est lanc par limination successive des termes non significatifs
En dautre terme, la qualit de la prvision se dgrade pour les concentrations (algorithme backward). Le critre optimis est celui (AIC) dAkake. Plusieurs
leves justement dans la zone "sensible".
interactions ont t limines au cours de la procdure mais beaucoup subsistent dans le modle. Attention, les effets principaux lno2, vmodule ne
Modle sans interaction
peuvent tre retirs car ces variables apparaissent dans une interaction. En reUn premier modle est estim avec R :
vanche on peut sinterroger sur lopportunit de conserver celle entre la force
du vent et la concentration de dioxyde dazote.
fit.lm=lm(O3-o~O3-pr+vmodule+lno2+lno+s-rmh2o+
jour+station+TEMPE,data=donne)
NULL
O3_pr
station
vmodule
lno2
s_rmh2o
TEMPE
O3_pr:station
O3_pr:vmodule
O3_pr:TEMPE
station:vmodule
station:lno2
station:s_rmh2o
station:TEMPE
vmodule:lno2
vmodule:s_rmh2o
lno2:TEMPE
s_rmh2o:TEMPE
45
07/15
19
50
100
Les donnes originales sont dues Osbone et al. (1984) [6] et ont t souvent utilises pour la comparaison de mthodes (Stone et al. 1990 [7], Brown
et al. 2001 [1], Krmer et al. 2008 [4]). Elles sont accessibles dans R au sein de
la librairie ppls. Les mesures ont t faites sur deux chantillons, lun de taille
40 prvu pour lapprentissage, lautre de taille 32 pour les tests. Pour chacun
de ces 72 biscuits, les compositions en lipides, sucre, farine, eau, sont mesures par une approche classique tandis que le spectre est observ sur toutes les
longueurs dondes entre 1100 et 2498 nanomtres, rgulirement espacs de 2
nanomtres. Nous avons donc 700 valeurs observes, ou variables potentiellement explicatives, par chantillon de pte biscuit.
100 50
Rsidus
0
100 50
Rsidus
50
100
Les donnes
50
100
200
300
Valeurs predites
50
100
200
300
Valeurs predites
Ce sont surtout les graphes de la figure 7 qui renseignent sur ladquation des
Voici quelques rsultats partiels concernant les mthodes de rgression par
modles. Le modle quadratique fournit une forme plus "linaire" des rsidus rgression ridge et rgression LASSO. La comparaison globale des rsultats
et un meilleur ajustement avec un R2 de 0,64 mais lhtroscdasticit reste des diffrentes approches de modlisation est reporte en conclusion.
prsente, dautres approches savrent ncessaires afin de rduire la variance
lie la prvision des concentrations leves.
Rfrences
5.2
Objectif
Ce type de problme se rencontre en contrle de qualit sur une chane
de fabrication agroalimentaire, ici des biscuits (cookies). Il est ncessaire de
contrler le mlange des ingrdients avant cuisson afin de sassurer que les
proportions en lipides, sucre, farine, eau, sont bien respectes. Il sagit de savoir sil est possible de dpister au plus tt une drive afin dintervenir sur
les quipements concerns. Les mesures et analyses, faites dans un laboratoire
classique de chimie, sont relativement longues et coteuses ; elles ne peuvent
tre entreprises pour un suivi rgulier ou mme en continue de la production.
Dans ce contexte, un spectromtre en proche infrarouge (NIR) mesure labsorbance cest--dire les spectres dans les longueurs dondes afin de construire un
modle de prvision de la concentration en sucre.
46
07/15
20
F IGURE 8 Cookies : Rgression ridge ; chemin de rgularisation des paramtres et optimisation de la pnalisation.
F IGURE 9 Cookies : Rgression lasso ; chemin de rgularisation des paramtres et optimisation de la pnalisation.
47
07/15
X 1 , . . . , X p par un sous-ensemble de variables Z 1 , . . . , Z r deux deux orthogonales et combinaisons linaires des variables X 1 , . . . , X p . Avec r = p il ny
a pas de rduction de dimension et le mme ajustement quen rgression classique est obtenu : mme espace de projection engendr. Les variables Z 1 , . . . ,
Z p sont simplement les composantes principales associes des variables X 1 ,
. . . , X p obtenues par lanalyse en composantes principales ou encore la dcomposition en valeurs singulires de la matrice X. Pour viter les problmes
dunit et linfluence dune htrognit des variances, les variables sont centres et rduites. Cest donc lACP rduite qui est calcule.
Pp
j
La premire composante Z 1 =
maximale la
j=1 j X est de variance
P
premire valeur propre 1 de l amatrice des corrlations avec j2 = 1. Tandis que Z m est combinaison linaire de variance maximale j et orthogonale
Z 1 , . . . , Z m1 .
r
X
m Z m
m=1
avec
Introduction
hZ m , Y i
m =
kZ m k2
1.1
Objectif
Lintrt principal des mthodes de cette vignette rside dans leur capacit
prendre en compte des donnes de grande dimension et mme de trs grande
dimension lorsque le nombre de variables p est largement plus grand que le
nombre dindividus n : p >> n. La slection de variables devient inefficace
et mme ingrable par les algorithmes usuels. La construction dun modle
de rgression requiert alors une pnalisation (ridge, lasso, elastic net) ou une
rduction de dimension : rgression sur composantes principales ou rgression
PLS.
Le principal Problme pose par la PCR est que les premires composantes,
associes aux plus grandes valeurs propres, ne sont pas ncessairement corrLa rgression sur composantes principales ou PCR est simple par son prin- les avec Y et ne sont donc pas ncessairement les meilleures candidates pour
cipe et sa mise en uvre. Lobjectif est de rsumer lensemble des variables rsumer ou modliser Y .
1.2
48
07/15
Cette remarque justifie les dveloppements de la rgression PLS ou partial grand nombre, les composantes obtenues sont difficilement exploitables. Cest
pourquoi il a t propos (L Cao et al. 2008[5], 2009[4], 2011[3]) de coupler
least square.
les deux approches : pnalisation L1 de type Lasso pour une slection des va1.3 Rgression PLS
riables utilises dans la construction des composantes orthogonales. Cette dLa rgression PLS (partial least square) est une mthode ancienne marche passe par lutilisation dun algorithme parcimonieux (Shen et Huang,
(Wold, 1966)[10] largement utilise, notamment en chimiomtrie dans lagro- 2008)[7] de SVD (dcomposition en valeur singulire). Celui-ci permet, la
alimentaire, lors de lanalyse de donnes spectrales (Near Infra-Red ou HPLC) fois, de dfinir des versions parcimonieuses de lACP et aussi de la PLS en
discrtises et donc toujours de grande dimension. La rgression PLS savre remarquant que lalgorithme de la PLS peut tre dfini comme une succession
concrtement une mthode efficace qui justifie son emploi trs rpandu mais de premires tapes de SVD.
Lobjectif principal est donc la construction de versions parcimonieuses (en
prsente le dfaut de ne pas se prter une analyse statistique traditionnelle
qui exhiberait les lois de ses estimateurs. Elle est ainsi reste un marge des anglais sparse) des diffrentes mthodes de rgression PLS. Aux rsultats
numriques, ventuellement de prvision, sajoutent des reprsentations graapproches traditionnelles de la Statistique mathmatique.
Diffrentes version de rgression PLS sont proposes en fonction de lob- phiques en petite dimension trs utiles pour aider linterprtation.
jectif poursuivi ; voir Tenenhaus (1998)[8] pour une prsentation dtaille :
PLS1 Une variable cible Y quantitative est expliquer, modliser, prvoir par
p variables explicatives quantitatives X j .
Rgression PLS
07/15
h = 1, . . . , r,
uh
lpsa
1.1
1
0,
pour ` = 1 . . . , h 1.
1.0
Avec
=
et 0h h = u0 X0 YY Xu =
RMSEP
u0h uh
0
0.8
0.9
10
number of components
0.5
0.4
0.3
predicted
0.2
lcav
lwei
age
lbph
svi1
lcp
variable
gl7
gl8
gl9
pg45
0.0
Rgression PLS2
2
0.1
regression coefficient
0.1
2.2
measured
6 composantes PLS
Dfinition
Lalgorithme prcdent de PLS1 se gnralise une variable expliquer Y F IGURE 2 Donnes cancer : Coefficient (loadings) des variables sur la premultidimensionnelle (PLS2) : Mettre en relation ou chercher expliquer, mo- mire composante et qualit de lajustement avec 6 composantes.
50
07/15
dliser un ensemble de q variables Y k par un ensemble de p variables explicatives X j . Le critre optimiser devient une somme des carrs des covariances
entre une composante et chacune des variables rponses. Plusieurs variantes
de la rgression PLS multidimensionnelle ont t proposes ; le mme critre
est optimis mais sous des contraintes diffrentes. La version canonique (par
rfrence lanalyse canonique de deux ensembles de variables), o les deux
ensembles de donnes jouent des rles symtriques, diffre de la version rgression (un paquet de variable expliqu par un autre) par ltape dite de dflation de lalgorithme gnral de PLS.
12
.
.
.
u1
u2
uH
c1
c2
cH
12
.
.
.
X
1 2 H
1 2 H
V
D
1
2
v1
v2
vH
d1
d2
dH
1 = Xu1 et 1 = Yv1
solutions de
max
1
2
||u||=||v||=1
cov(Xu, Yv),
Algorithme
07/15
Deux modes de dflation sont proposs selon que les variables jouent un rle
symtrique ou que les variables X sont supposes expliques par celles Y .
Mode canonique : Xh = Xh1 h c0 h et Yh = Yh1 h d0 h
Mode rgression : Xh = Xh1 h c0 h et Yh = Yh1 h v0 h
Le nombre r ditrations est fixer ou optimiser par lutilisateur tandis
La PLS en mode canonique poursuit donc le mme objectif que lanalyse
que la convergence de chaque tape h est analogue celle, relativement rapide
(moins dune dizaine ditrations), dun algorithme de puissance itre. En canonique des corrlations en rendant les calculs possibles mme si p > n car
la PLS ne ncessite pas linversion des matrices de corrlation. Toujours avec le
effet, la convergence, les vecteurs vrifient :
mme objectif de rendre possible les calculs, des versions rgularises (norme
YY0 XX0 u = u
L2 ) de lanalyse canonique ont t proposes de faon analogue la rgression
Y0 XX0 Y =
ridge. Nanmoins, cette approche conduit des graphiques et interprtations
0
0
difficiles lorsque p est grand.
XX YY v = v
X0 YY0 X
07/15
3
3.1
Mthodes parcimonieuses
Objectif
La rgression PLS est une rgression sur composantes orthogonales qui rsout efficacement les problmes de multicolinarit ou de trop grand nombre
de variables en rgression comme en analyse canonique. La contre partie, ou
prix payer, est laccroissement souvent rdhibitoire de la complexit de linterprtation des rsultats. En effet, chaque composante est obtenue par combinaison linaire dun nombre pouvant tre trs important de lensemble des p
variables.
3.3
3.2
Sparse PLS
Sparse SVD
Ayant remarqu quun tape h de PLS2 est la premire tape de la dcomLa dmarche adopte est issue dune construction dune version parcimo- position en valeur singulire de la matrice Mh = X0 h Yh , la version parcimonieuse de lACP propose par Shen et Huang (2008)[7]. Considrant que nieuse de la PLS2 est simplement construite en itrant r fois lalgorithme de
lACP admet pour solution la dcomposition en valeurs singulires (SVD) de sparse SVD (s-SVD) qui cherche rsoudre :
la sparse PCA (s-PCA) est base sur un algorithme qui
la matrice centre X,
min ||Mh uh vh0 ||2F + P1 (uh ) + P2 (vh .
rsout le problme :
uh ,vh
min ||M uv0 ||2F + P (v)
P1 (uh )
P2 (vh )
p
X
j=1
q
X
sign(uhj )(|uhj | 1 )+
sign(vhj )(|vhj | 2 )+ .
j=1
53
07/15
Dans le cas particulier de PLS-DA, la slection de variables sopre sur le 4.2 sPLS de donnes simules
seul ensemble des variables X et donc un seul paramtre est rgler.
Le modle de simulation est celui propos par (Chun et Keles, 2010)[2]. Les
Attention, les variables latentes successivement calcules perdent leur pro- donnes gnres permettent de voir le rle de la pnalisation dans la slection
prit de stricte orthogonalit du fait de la pnalisation. Cela ne sest pas avr des variables en PLS mode canonique. Elles sont constitues de
n = 40, p = 5000 (X var.), q = 50 (Y var.)
gnant sur les quelques premires dimensions et donc composantes calcules
20 variables X et 10 variables Y deffet 1
en pratique.
20 variables X et 20 variables Y deffet 2
Exemples
4.3
4.1
54
07/15
dim 1
20
40
20
60
40
80
100
20
40
20
40
60
80
100
60
80
100
60
80
100
RE
8
OV
6
BR
8
PR
2
CNS
9
LEU
6
ME
8
dim 2
60
80
100
20
40
dim 3
CO
7
dim 1
dim 2
dim 3
60
80
100
20
40
4.4
(2 , 2 )
F IGURE 5 Effet de la pnalisation sur les vecteurs loading associs la Les donnes
matrice X ; PLS gauche et sPLS droite.
Les qualits prdictives de la sPLS-DA peuvent-tre compares avec celles
des autres mthodes abordes dans ce cours, notamment celles dagrgation
de modles. L Cao et al. (2011)[3] ont men cette comparaison systmatique
sur un ensemble de jeux de donnes publiques dont des donnes relatives la
discrimination de 5 types de cancer du cerveau. Les expressions de p = 6144
gnes sont observs sur n = 90 individus.
7860
H460
(1 , 1 )
Parmi les gnes slectionns par la sPLS-DA (figure 7), une couleur particulire est attribue ceux dj connus et prsents dans le rseau.
BR
CNS
CO
LE
ME
NS
OV
PR
RE
5
5.1
Le grand nombre de variables au regard de la taille de lchantillon soulve quelques doutes quand la robustesse ou la stabilit dune slection de
F IGURE 6 Les individus lignes cellulaires sont reprsentes dans les variables au sein dun modle ; nest-elle pas finalement quun artefact li
deux espaces : ( 1 , 1 ) vs. ( 2 , 2 ). La longueur de chaque vecteur souligne lchantillon observ ?
limpact de la technologie utilise sur chaque type de cellule.
Bach (2008)[1] dune part, Meinshausen et Blhmann (2008)[6] dautre part
55
07/15
1.0
BARD1
Midkine
CIP4
0.5
PTMA
U30255_at
X53777_at
PEA15
MLLT3
Cyclin D1
TNFRSF1A
STAB1
0.0
Comp 2
D31764_at
M83233_at
CD97
D12676_at
X68836_at
M74089_at
M31520_at
U76272_at
U56833_at
U85267_at
X78520_at
D89667_at
L00205_at
X16560_at
Y00764_atM28213_s_at
U21858_at
HG384.HT384_at
M20471_at
M33653_at
Z50022_at
D79998_at
X63578_rna1_at
LRRC16A
INSM1
MAB21L1
AP3B2
U30521_at
STMN2
Neuronatin
NDF1
0.5
PON2
ALDOC
PGHD
BTN2A2
SCN1B
1.0
SORL1
BAD
GRM4
PEA15
SIRPA
1.0
0.5
0.0
0.5
1.0
Comp 1
F IGURE 7 Reprsentation des individus dans les deux premires compo- F IGURE 8 Reprsentation (Gene Go software) en rseau des gnes dj identifis comme lis ces pathologies de tumeurs crbrales.
santes
56
07/15
10
ont propos des stratgies pour valuer cette stabilit, ventuellement loptimiser en les utilisant pour rgler le paramtre de pnalisation. Ils partent de la
mme ide : tudier les occurrences ou non des slections des variables dans
un modle pour une pnalisation donne sur des chantillons bootstrap (Bach,
2008)[1] ou sur des sous-chantillons alatoires (Meinshausen et Blhmann,
2010)[6]. Ils tudient ces stratgies dans le cas du modle linaire avec pnalisation Lasso et montrent dans ce cas des proprits asymptotiques de convergence vers la bonne slection. Bach (2008)[1] sintresse la slection obtenue
par intersection de toutes les slections sur chacun des chantillons bootstrap
tandis que Meinshausen et Blhmann (2010)[6] compte le nombre de fois o
une variables est slectionne pour une valeur donne de la pnalisation.
Brain dim 1
Exemple
0.6
0.2
probability
0.8
1.0
Le graphique de la figure 9 est obtenu en synthtisant les stratgies prcdentes. Sur chacun des 50 chantillons bootstrap, une sPLS-DA est calcule
pour diffrentes valeurs de la pnalisation. On ne sintresse ici qu la premire composante (h = 1). Dans ce cas de seuillage doux, la pnalisation
revient fixer le nombre de variables intervenant dans la construction de la
premire variable latente. La probabilit doccurrence dune variable ou gne
est tout simplement estime par le ratio du nombre de fois o elle a t slectionne. Quelques variables ou gnes apparaissent assez systmatiquement
slectionns,principalement 4 dentre eux. Il apparat que les donnes observes ne peuvent garantir la slection que dun nombre restreint de gnes. Ce
constat serait rapprocher du rsultat thorique de Verzelen (2012)[9] dans le
cas du modle gaussien. Celui-ci met en vidence quun problme de ultrahaute dimension se manifeste si
0.4
5.2
0.0
2k log(p/k)
1
> .
n
2
Avec les effectifs (n=90, p=6144) de lexemple prsent, cette contrainte, dans
5
10
15
20
25
30
35
40
45
50
100
200
500
1
le cas gaussien, signifierait quil est illusoire de vouloir slectionner plus de 6
number of selected variables
gnes. Pour un tout autre modle, cest aussi ce que nous signifie le graphique.
Seule la considration dun petit nombre de gnes dont la slection est relati- F IGURE 9 Probabilits de slection des diffrentes variables (gnes) sur la
vement stable sur les diffrents chantillons bootstrap est raisonnable sur ces premire composante en fonction de la valeur de la pnalisation en sPLS-DA.
donnes compte tenu de la faible taille de lchantillon.
57
07/15
11
Rfrences
[1] F. Bach, Bolasso : model consistent Lasso estimation through the bootstrap, Proceedings of the Twenty-fifth International Conference on Machine Learning (ICML) (2008), 3340.
[2] H. Chun et S. Keles, Sparse partial least squares regression for simultaneous dimension reduction and variable selection, Journal of the Royal
Statistical Society : Series B 72 (2010), 325.
[3] K. A. L Cao, S. Boistard et P. Besse, Sparse PLS Discriminant Analysis : biologically relevant feature selection and graphical displays for
multiclass problems, BMC Bioinformatics 12 (2011), no 253.
[4] K. A. L Cao, P.G.P Martin, C. Robert-Grani et P. Besse, Sparse Canonical Methods for Biological Data Integration : application to a crossplatform study, BMC Bioinformatics 10 (2009), no 34.
[5] K. A. L Cao, D. Rossouw, C. Robert-Grani et P. Besse, A sparse PLS
for variable selection when integrating Omics data, Statistical Applications in Genetics and Molecular Biology 7 (2008), no 35.
[6] N. Meinshausen et P. Bhlmann, Stability selection, Journal of the Royal
Statistical Society : Series B 72 (2008), 417473.
[7] H. Shen et J.Z. Huang, Sparse principal component analysis via regularized low rank matrix approximation, Journal of Multivariate Analysis 99
(2008), 10151034.
[8] M. Tenenhaus, La rgression PLS : thorie et applications, Technip,
1998.
[9] Nicolas Verzelen, Minimax risks for sparse regressions : Ultra-highdimensional phenomenons, Electron. J. Statistics 6 (2012), 3890,
http://arxiv.org/pdf/1008.0526.pdf.
[10] H. Wold, Multivariate analysis, Academic Press,, 1966.
58
07/15
la plupart des usages des mthodes de cette famille : estimation par maximisation de la vraisemblance, statistiques de test suivant asymptotiquement des
lois du chi-deux, calcul des rsidus, observations influentes, critre pnalis
(AIC) dAkake[?] pour la slection de modle. Nanmoins, certaines spcificits mritent dtre soulignes pour un meilleur usage de mme quil est
important de rappeler que dautres mthodes peuvent conduire de meilleure
prvision, donc de meilleurs scores et que cest souvent un bon investissement
que de faire vouer ses habitudes.
Une variable
Soit Y une variable qualitative J modalits. On dsigne la chance (ou
odds 1 de voir se raliser la j-me modalit plutt que la kme par le rapport
Introduction
jk =
Historiquement, la rgression logistique ou rgression binomiale fut la premire mthode utilise, notamment en marketing pour le scoring et en pidmiologie, pour aborder la modlisation dune variable binaire binomiale
(nombre de succs pour ni essais) ou de Bernoulli (avec ni = 1) : possession on non dun produit, bon ou mauvais client, dcs ou survie dun patient,
absence ou prsence dune pathologie...
j
k
Bien connue dans ces types dapplication et largement rpandue, la rgression logistique conduit des interprtations pouvant tre complexes mais rentres dans les usages pour quantifier, par exemple, des facteurs de risque lis
une pathologie, une faillite... Cette mthode reste donc celle la plus utilise
mme si, en terme de qualit prvisionnelle, dautres approches sont susceptibles, en fonction des donnes tudies, dapporter de bien meilleurs rsultats.
Il est donc important de bien matriser les diffrents aspects de la rgression
logistiques dont linterprtation des paramtres, la slection de modle par slection de variables ou par rgularisation (LASSO).
2.1
Table de contingence
On considre maintenant une table de contingence 2 2 croisant deux variables qualitatives binaires X 1 et X 2 . les paramtres de la loi conjointe se
1. Il nexiste pas, mme en Qubcois, de traduction consensuelle de odds qui utilise nanmoins souvent le terme cote.
07/15
11
21
12
22
ex
pour les garons que pour les filles.
g() = logit() = ln
avec g 1 (x) =
.
1
1 + ex
Lodds ratio est galement dfini pour deux lignes (a, b) et deux colonnes
Plusieurs raisons, tant thoriques que pratiques, font prfrer cette dernire
(c, d) quelconques dune table de contingence croisant deux variables J et
solution.
Le rapport /(1 ), qui exprime une cote, est lodds et la rK modalits. Lodds ratio est le rapport
gression logistique sinterprte donc comme la recherche dune modlisation
ac bd
a
b abcd = nac nbd . linaire du log odds tandis que les coefficients de certains modles expriment
=
estim par lodds ratio empirique
abcd =
b
ad bc
nad nbc des odds ratio cest--dire linfluence dun facteur qualitatif sur le risque (ou
la chance) dun chec (dun succs) de Z.
Rgression logistique
07/15
3.2
Modle binomial
Remarques
1. La matrice X issue de la planification exprimentale est construite avec
les mmes rgles que celles utilises dans le cadre de lanalyse de covariance mixant variables explicatives quantitatives et qualitatives. Ainsi,
les logiciels grent avec plus ou moins de clart le choix des variables
indicatrices et donc des paramtres estimables ou contrastes associs.
2. Attention, La situation dcrite prcdemment correspond lobservation
de donnes groupes. Dans de nombreuses situations concrtes et souvent ds quil y a des variables explicatives quantitatives, les observations
xi sont toutes distinctes. Ceci revient donc fixer ni = 1; i = 1, . . . , I
dans les expressions prcdentes et la loi de Bernouilli remplace la loi
binomiale. Certaines mthodes ne sont alors plus applicables et les comportements asymptotiques des distributions des statistiques de test ne sont
plus valides, le nombre de paramtres tendant vers linfini.
3. Dans le cas dune variable explicative X dichotomique, un logiciel
comme SAS fournit, en plus de lestimation dun paramtre b, celle des
odds ratios ; b est alors le log odds ratio ou encore, eb est lodds ratio (le
rapport de cote). Ceci sinterprte en disant que Y a eb fois plus de chance
de succs (ou de maladie comme par un exemple un cancer du poumon)
quand X = 1 (par exemple pour un fumeur).
4. Attention dans SAS, la procdure LOGISTIC adopte une paramtrisation
(1, 1) analogue celle de la procdure CATMOD mais diffrente de
celle des modules GENMOD ou SAS/Insight (0, 1). Ceci explique les
diffrences observes dans lestimation des paramtre dune procdure
lautre mais les modles sont identiques/ Mmes exprims dans des
bases diffrentes, les espaces engendrs par les vecteurs des indicatrices
slectionnes sont les mmes.
i = 1, . . . , I
exi
i =
0
1 + exi
i = 1, . . . , I.
Le vecteur des paramtres est estim par maximisation de la logvraisemblance. Il ny a pas de solution analytique, celle-ci est obtenue par des
mthodes numriques itratives (par exemple Newton Raphson) dont certaines
reviennent itrer des estimations de modles de rgression par moindres carrs gnraliss avec des poids et des mtriques adapts chaque itration.
3.3 Rgressions logistiques polytomique et ordinale
Loptimisation fournit une estimation b de , il est alors facile den dduire
3.3.1 Gnralisation
les estimations ou prvisions des probabilits i :
0
La rgression logistique adapte la modlisation dune variable dichotoexi b
bi =
mique
se gnralise au cas dune variable Y plusieurs modalits ou polyto0
1 + ex i b
mique. Si ces modalits sont ordonns, on dit que la variable est qualitative
et ainsi celles des effectifs
ordinale. Ces types de modlisation sont trs souvent utiliss en pidmiologie
ybi = ni
bi .
et permettent dvaluer ou comparer des risques par exemples sanitaires. Des
61
07/15
estimations dodds ratio ou rapports de cotes sont ainsi utiliss pour valuer et sur cette chelle dpendent chacune de tous les effectifs, ce qui peut conduire
interprter les facteurs de risques associs diffrents types (rgression poly- une plus grande stabilit des mesures qui en dcoulent.
tomique) ou seuils de gravit (rgression ordinale) dune maladie ou, en marketing, cela sapplique lexplication, par exemple, dun niveau de satisfaction Proportionnalit des rapports de cote
dun client. Il sagit de comparer entre elles des estimations de fonctions logit.
Si les variables indpendantes sont nombreuses dans le modle ou si la vaDans une situation de data mining ou fouille de donnes, ce type dapproche riable rponse Y comporte un nombre lev de niveaux, la description des
se trouve lourdement pnalis lorsque, lintrieur dun mme modle polyto- fonctions logit devient fastidieuse. La pratique consiste plutt dterminer un
mique ou ordinal, plusieurs types de modles sont en concurrence pour chaque coefficient global b (mesure deffet) qui soit la somme pondre des coeffifonction logit associe diffrentes modalits. Diffrents choix de variables, cients bj . Ceci revient faire lhypothse que les coefficients sont homognes
diffrents niveaux dinteraction rendent trop complexe et inefficace cette ap- (idalement tous gaux), cest--dire supposer que les rapports de cotes sont
proche. Elle est privilgier uniquement dans le cas dun nombre restreint de proportionnels. Cest ce que calcule implicitement la procdure LOGISTIC de
SAS applique une variable rponse Y ordinale en estimant un seul paravariables explicatives avec un objectif explicatif ou interprtatif.
mtre b mais k 1 termes constants correspondant des translations de la
Logits cumulatifs
fonctions logit.
titre illustratif, explicitons le cas simple dune variable Y k modalits
La procdure LOGISTIC fournit le rsultat du test du score sur lhypothse
ordonnes explique par une seule variable dichotomique X. Notons j (X) = H0 de lhomognit des coefficients j .
Pk
P (Y = j|X) avec j=1 j (X) = 1. Pour une variable Y k modalits, il
Le coefficient b mesure donc lassociation du facteur X avec la gravit de la
faut, en toute rigueur, estimer k 1 prdicteurs linaires :
maladie et peut sinterprter comme suit : pour tout seuil de gravit choisi sur
Y , la cote des risques davoir une gravit suprieure ce seuil est eb fois plus
gj (X) = j + j X pourj = 1, . . . , k 1
grande chez les exposs (X = 1) que chez les non exposs (X = 0).
et, dans le cas dune variable ordinale, la fonction lien logit utilise doit tenir
compte de cette situation particulire.
4.1
Choix de modle
Recherche pas pas
07/15
DEBIT
4
4.2
3
2
1
Critre
4.3
0
0
DILAT
Pnalisation
VOLUME
0
4
1
5
5.1
Exemples
Exemple lmentaire avec SAS
Les donnes
Intercept
and
On tudie linfluence du dbit et du volume dair inspir sur loccurrence Criterion
Only
Covariates
Chi-Square for Covariates
AIC
56.040
35.216
.
(code 1) de la dilatation des vaisseaux sanguins superficiels des membres in- SC
57.703
40.206
.
-2 LOG L
54.040
29.216(1)
24.824 with 2 DF (p=0.0001)
frieurs. Un graphique lmentaire reprsentant les modalits de Y dans les Score
.
.
16.635 with 2 DF (p=0.0002)
coordonnes de X 1 X 2 est toujours instructif. Il montre une sparation raiParameter(2) Standard
Wald(3)
Pr >
Standardized Odds
sonnable et de bon augure des deux nuages de points. Dans le cas de nom- Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio
INTERCPT 1
2.8782
1.3214
4.7443
0.0294
.
.
breuses variables explicatives quantitatives, une analyse en composantes prin- L_DEBIT 1 -4.5649 1.8384 6.1653 0.0130 -2.085068 0.010
L_VOLUME 1
-5.1796
1.8653
7.7105
0.0055
-1.535372
0.006
cipales simpose. Les formes des nuages reprsents, ainsi que lallure des
distributions (tudies pralablement), incitent dans ce cas considrer par la
Cette procdure fournit des critres de choix de modle dont la dviance
suite les logarithmes des variables. Une variable un ne contenant que des 1 (1), le vecteur b des paramtres (2) et les statistiques des tests (3) comparant
dnombrant le nombre dessais est ncessaire dans la syntaxe de genmod. Les le modle excluant un terme par rapport au modle complet tel quil est dcrit
donnes sont en effet non groupes.
dans la commande.
Criteria For Assessing Goodness Of Fit
63
07/15
Criterion
Deviance
Scaled Deviance
Pearson Chi-Square
Scaled Pearson X2
Log Likelihood
Parameter
INTERCEPT
L_DEBIT
L_VOLUME
SCALE (6)
(1)
(2)
(3)
(4)
(5)
(6)
5.2
DF
36
36
36
36
.
Value
29.2156
29.2156
34.2516
34.2516
-14.6078
Value/DF
0.8115 (1)
0.8115 (2)
0.9514 (3)
0.9514
.
5.3
Ce jeu de donnes est assez particulier car plutt facile ajuster. Une estimation utilisant toutes les variables conduit des messages critiques indiquant
un dfaut de convergence et des probabilits exactement ajustes. En fait le
modle sajuste exactement aux donnes en utilisant toutes les variables aussi
lerreur de prvision ncessite une estimation plus soigne. Une sparation
entre un chantillon dapprentissage et un chantillon test ou une validation
croise permet une telle estimation.
Standard
Error
0.0236
0.0269
0.0576
0.0121
0.0190
0.0174
Wald
Chi-Square
6264.9373
10914.3437
7917.0908
664.3353
697.0173
40.6681
Pr > ChiSq
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
On trouve alors quun modle plus parcimonieux et obtenu par une dmarche descendante, de sorte que les paramtres soient significatifs au sens
dun test du Chi2, conduit des erreurs de prvision plus faibles sur un chantillon test indpendant quun modle ajustant exactement les donnes. La qualit de lajustement du modle se rsume sous la forme dune matrice de confusion valuant les taux de bien et mal classs sur lchantillon dapprentissage
tandis que lerreur de prvision est estime partir de lchantillon test.
Cancer du sein
La dernire variable est celle prdire, les variables explicatives sont ordinales ou nominales 10 classes. Il reste 683 observations aprs la suppression
de 16 prsentant des valeurs manquantes.
2. Sexe du conducteur
DF
1
1
1
1
1
1
1.786 1.964
2.512 2.918
1.162 1.332
Gr0
Gr1
Gr2
Sfem
A_bu
Cnon
1.873
2.707
1.244
Les donnes (Wisconsin BreastCancer Database) sont disponibles dans la librairie mlbench du logiciel R. Elles servent trs souvent de
base de rfrence des comparaisons de techniques dapprentissage. Les variables considres sont :
Parameter
Intercept
Intercept
Intercept
sexe
alcool
ceinture
IC de Wald 95 %
64
07/15
5.4
0
1
FALSE 163 19
TRUE
5 21
logistique sans vmodule
Pic dozone
Plutt que de prvoir la concentration de lozone puis un dpassement ventuel dun seuil, il pourrait tre plus efficace de prvoir directement ce dpassement en modlisant la variable binaire associe. Attention toutefois, ces dpassements tant relativement peu nombreux (17%), il serait ncessaire den
accentuer limportance par lintroduction dune fonction cot ou une pondration spcifique. Ceci est un problme gnral losquil sagit de prvoir des
phnomnes rares : un modle trivial ne les prvoyant jamais ne commettrait
finalement quune erreur relative faible. Ceci revient demander au spcialiste
de quantifier le risque de prvoir un dpassement du seuil tort par rapport
celui de ne pas prvoir ce dpassement tort. Le premier des consquences
conomiques et sur le confort des usagers par des limitations de trafic tandis
que le 2me a des consquences sur lenvironnement et la sant de certaines
populations. Ce nest plus un problme "statistique".
0
1
FALSE 162 18
TRUE
6 22
avec vmodule
0
1
FALSE 163 17
TRUE
5 23
avec interactions
0
1
FALSE 160
13
TRUE
8
27
quantitatif
Notons que les erreurs ne sont pas "symtriques" et sont affectes du mme
biais : tous ces modles "oublient" systmatiquement plus de dpassements de
seuils quils nen prvoient tort. Une analyse plus pousse de lestimation
de lerreur de prvision est videmment ncessaire. ce niveau de ltude, ce
qui est le plus utile au mtorologue, cest lanalyse des coefficients les plus
significativement prsents dans la rgression quadratique, cest--dire avec les
interactions. Ils fournissent des indications prcieuses sur les faiblesses ou insuffisances de leur modle physique.
5.5
Donnes bancaires
1
1
1
4
1
132.89
2.42
33.71
16.59
129.39
830
829
828
824
823
611.46
609.04
575.33
558.74
429.35
9.576e-31
0.12
6.386e-09
2.324e-03
5.580e-30
Plusieurs stratgies peuvent tre mises en uvre sur ces donnes selon les
transformations et codages raliss sur les variables qualitatives. Elles sont explores dans le scnario affrent. La stratgie adopte ici consiste rechercher
un meilleur modle laide de la procdure SAS/STAT logistic en as65
07/15
Il est notable, sur cet exemple (voir le scnario sur ces donnes), de trouver un bien meilleur rsultat (meilleure prvision de 11.5% au lieu de 16%)
lorsque les variables quantitatives sont dcoupes en classes et donc rendues
qualitatives. Intuitivement, nous pourrions penser que dcouper des variables
quantitatives en classes conduit une perte dinformation et donc un moins
bon modle. Cette intuition est fausse sur cet exemple, le dcoupage en classe
conduit en fait un modle plus flexible (plus de paramtres) fonctionnant
comme une approximation rudimentaire par fonctions tages de transforma- F IGURE 2 Donnes bancaires : estimation sur lchantillon test de la courbe
tions non linaires des variables explicatives. Plus flexible (approximativement ROC associe la rgression logistique.
non-linaire) mais sans tre trop complexe, le modle obtenu fournit, sur ce
exemple, de meilleures prvisions et donc un meilleur score.
Dans ce type dapplication, il est trs classique destimer la courbe ROC sur
lchantillon test afin de calibrer le seuil en fontion des objectifs du service
marketing plutt que de le laisser par dfaut 0, 5.
66
07/15
2.1
On peut estimer la fonction f par une fonction constante par morceaux sur
une partition de [0, 1]. (Ces estimateurs sont les analogues en rgression des
estimateurs par histogramme en densit, on les appelle rgressogrammes).
On dcoupe [0, 1] en D intervalles de mme taille :
Ik,D = 1]k/D,(k+1)/D] , k = 0, . . . , D 1.
Il est naturel destimer la fonction f sur lintervalle Ik,D par la moyenne des
valeurs de Yi qui sont telles que Xi Ik,D , soit pour tout x Ik,D , on pose
P
i,Xi Ik,D Yi
fD (x) =
]{i, Xi Ik,D }
Introduction
On se place dans le cadre dun modle de rgression :
Yi = f (X i ) + i ,
Rsum
si ]{i, Xi Ik,D } 6= 0 et
i = 1, . . . n.
fD (x) = Pi=1
.
n
Soit les X i sont alatoires et nous supposerons les variables i indpeni=1 1Xi Ik,D
dantes des X i , i.i.d., centres, de variance 2 .
On suppose dans la suite que D < n, si pour tout i, Xi = i/n, ceci entrane
En labsence de toute hypothse sur la fonction de rgression f , nous que pour tout k, ]{i, Xi Ik,D } 6= 0.
sommes dans un cadre non paramtrique. Nous allons proposer plusieurs types
Cet estimateur correspond lestimateur des moindres carrs de f sur le
de mthodes dapprentissage pour la fonction f : l estimation par des splines,
modle paramtrique des fonctions constantes par morceaux sur les intervalles
les estimateurs noyaux et les estimateurs par projection sur des bases orI
:
thonormes, notamment des bases dondelettes. Nous verrons galement une k,D
D
X
mthode qui permet de contourner le flau de la dimension dans le cas des
SD = {f (x) =
ak 1xIk,D }.
modles additifs, enfin nous introduirons les arbres CART.
k=1
67
07/15
n
X
Yi
i=1
!2
D
X
ak 1Xi Ik,D
D
X
(Yi ak )2 ,
k=1
(1)
la minimisation est obtenue pour
P
a
l =
2.2
i,Xi Il,D
Yi
]{i, Xi Il,D }
Yi . Si f est trs loin dtre une fonction constante, lestimateur sera mal
ajust.
,
l.
Il faut donc trouver un bon compromis entre ces deux situations extrmes
pour le choix de D.
2.4
Performances de lestimateur.
k=1
D
X
i
Yi = f ( ) + i , i = 1, . . . , n,
n
Sur tout intervalle Ik,D , on ajuste un polynme de degr m, par la mthode lestimateur
des moindres carrs en minimisant le critre :
X
(Yi ak,0 ak,1 Xi . . . ak,m Xim )2 .
avec
i,X I
i
k,D
Il sagit simplement dun modle linaire en les paramtres (ak,0 , . . . , ak,m ), vrifie
il y a donc une solution explicite. Le problme du choix des paramtres D et
m se pose.
2.3
Pn
Yi 1Xi Ik,D
fD (x) = Pi=1
,
n
i=1 1Xi Ik,D
D = D(n) = [(nR2 )1/3 ]
2
f S1,R
Bien entendu, ce rsultat est purement thorique, car en pratique, on ne sait pas
Revenons au cas de lestimation par des constantes par morceaux, et consi- si la fonction f appartient la classe S1,R . Nous verrons la Section 10 des
drons le problme du choix du paramtre D. On peut alors distinguer deux mthodes pratiques de choix de D par validation croise.
cas extrmes :
Dmonstration.
68
07/15
Calcul de lesprance
fD (x) f (x) =
i,Xi Ik,D
f (Xi )
L(fD , f )
]{i, Xi Ik,D }
P
i,Xi Ik,D (f (Xi ) f (x))
]{i, Xi Ik,D }
2 2 D
+ R2 D2 .
n
Var(fD (x))
splines
2
.
]{i, Xi Ik,D }
o 0 < a < b < c . . . sont les points qui dterminent les intervalles de la
partition (appels les nuds).
Or,
Ef [(fD (x) f (x))2 ]
f (x)
2
= Ef [ fD (x) Ef (fD (x)) + Ef (fD (x)) f (x) ]
= 0 + 1 x si x a
= 0 + 1 x + 2 (x a)+ si a x b
= 0 + 1 x + 2 (x a)+ + 3 (x b)+ si b x c
+ R2 D2 .
f (x) = 0 +1 x+2 x2 +3 x3 +4 (xa)3+ +5 (xb)3+ +4 (xc)3+ +. . . +
]{i, Xi Ik,D }
69
07/15
La fonction (x a)3 sannule ainsi que ses drives dordre 1 et 2 en a donc 3.2 Mthodes de rgularisation
f est de classe C 2 .
On se place dans un modle de rgression : Yi = f (Xi ) + i , 1 i n.
Pour viter les problmes de bords, on impose souvent des contraintes supplOn
minimise
Pn parmi les fonctions f splines naturels de nuds en les Xi
mentaires aux splines cubiques, notamment la linarit de la fonction sur les
(f
(x)
=
k=1 k Nk (x)) le critre pnalis :
deux intervalles correspondant aux extrmits.
On se place sur [0, 1]. 0 = 0 < 1 < . . . < K < 1.
Z 1
n
X
C(f, ) =
(Yi f (Xi ))2 +
(f 00 (t))2 dt,
K
0
X
i=1
k (x k )3+ .
f (x) = 0 + 1 x + 2 x2 + 3 x3 +
R1
k=1
o > 0. En notant l,k = 0 Nk00 (x)Nl00 (x)dx et Ni,j = Nj (Xi ), le critre
minimiser est
On impose f 00 (0) = f (3) (0) = 0, f 00 (K ) = f (3) (K ) = 0. On en dduit :
C(, ) = kY N k2 + .
2 = 3 = 0,
K
X
k (K k ) = 0,
k=1
K
X
La solution est :
k = 0.
= (N N + )1 N Y
k=1
et
f (x)
= 0 + 1 x +
K
X
f(x) =
k=1
= 0 + 1 x +
K1
X
n
X
k Nk (x).
(2)
k=1
k (K k )[
k=1
(x k )3+ (x K )3+
]
(K k )
T HORME 2. On note
On pose k = k (K k ) et dk (x) =
f (x) = 0 + 1 x +
K2
X
PK1
k=1
k = 0.
k=1
Z 1
n
X
(Yi f (Xi ))2 +
(f 00 (t))2 dt.
i=1
Pour tout > 0, il existe un unique minimiseur dans F de C(f, ), qui est la
fonction dfinie en (2).
07/15
Estimateurs noyau
.
o les X i appartiennent Rd , les i sont i.i.d. centres de variance 2 , les X i -Le noyau gaussien K(x) = 2 e
3
2
-Le
noyau
parabolique
K(x)
=
(1
x
)1|x|1 .
et les i sont indpendantes.
4
On considre le modle
4.1
4.2
d
3.
RD FINITION
R On appelle noyau une fonction K : R R telle que
2
K < + et K = 1.
Pour simplifier les calculs, on se place dans un modle o les Xi sont alatoires, de loi uniforme sur [0, 1], et on considre lestimateur dfini en (4).
(,
R)
=
f
C
([0,
1]),
x,
y
[0,
1],
|f
(x)
f
(y)|
R|x
y|
,
Pn
xX i
Yi K
h
.
fh (x) = Pi=1
n
xX i
o = l + avec l entier et ]0, 1].
i=1 K
h
On fait
R les hypothses suivantes sur K :
H1 R uj K(u)du = 0 pour j = 1, . . . , l.
d
Dans le cas o les X i sont de loi uniforme sur [0, 1] , on trouve aussi la dfiH2 |u| |K(u)|du < +.
nition suivante :
En choisissant h de sorte que h (nR2 )1/(1+2) , on obtient, f (, R),
n
Z 1
1 X
x Xi
2
fh (x) =
Yi K
.
(4)
2
2
d
nh i=1
h
Ef
(fh (x) f (x)) C(, , ksk )R 1+2 n 1+2 .
0
E
(
f
(x))
f
(x)
=
(f (x uh) f (x))K(u)du.
f h
compromis entre le terme de biais et le terme de variance.
71
07/15
(uh)2
(uh)l
+ . . . + f (l) (x uh)
2
l!
E[2i Kh2 (x Xi )]
f (l) (x uh)
1
l!
Puisque
Z 1
Z
2
Ef
(fh (x) f (x)) dx =
0
|u| |K(u)|du.
E[f
K 2.
Biais2 (fh (x)) + V ar(fh (x)) dx,
on obtient
Z 1
1
.
Ef
(fh (x) f (x))2 dx C(, , kf k ) R2 h2 +
nh
0
n
1 X
V ar(Yi Kh (x Xi )).
n2 i=1
n
1 X
Es [Yi2 Kh2 (x Xi )]
n2 i=1
n
1 X
E[f 2 (Xi )Kh2 (x Xi ) + 2i Kh2 (x Xi )].
n2 i=1
De plus,
2
1 2 xy
K (
)dy
h2
h
1
V ar(fh (x)) C(kf k , ) .
nh
Calcul de la variance :
V ar(fh (x))
Il en rsulte que
2
h
(uh)l
K(u)du
l!
Z
(uh)l
K(u)du.
=
(f (l) (x uh) f (l) (x))
l!
Z
= 2
(Xi )Kh2 (x
Dans la section 2, nous nous tions donn une partition priori, elle ne
dpendait pas des observations. Lestimation de la fonction de rgression en
un point x tait construite partir des observations pour lesquelles Xi tait
dans le mme intervalle de la partition que x, ce qui conduit des estimateurs
irrguliers. Une ide naturelle est destimer la fonction de rgression en un
point x partir des observations pour lesquelles Xi est "proche" de x. Plus
gnralement, on introduit une fonction de poids (wi (x)) construite partir
xy
1
Xi )] =
f (y) 2 K 2 (
)dy
h
h
Z
1
=
f 2 (x uh) K 2 (u)du
h
Z
1
kf k2
K 2.
h
Z
1
,
nh
72
07/15
x)p
1 X1 x . . . (X1p!
n
(X2 x)p
X
1 X2 x . . .
p!
wi (x)(Yi a)2 .
Xx = .
.
.
.
.
i=1
.
.
.
(Xn x)p
La solution est donne par
1 Xn x . . .
p!
Pn
wi (x)Yi
a = fn (x) = Pi=1
,
(5) Soit Wx la matrice diagonale de i-me lment sur la diagonale wi (x). On a
n
alors :
i=1 wi (x)
n
ce qui correspond lestimateur noyau de la fonction de rgression ! On peut X w (x)(Y a a (X x). . . ap (X x)p )2 = (Y X a) W (Y X a).
i
i
0
1
i
i
x
x
x
p!
gnraliser la formule ci-dessus en remplaant la constante a par un polynme i=1
de degr p : on se donne un point x en lequel on souhaite estimer la fonction
Minimiser lexpression ci-dessus conduit lestimateur des moindres carrs
de rgression. Pour u dans un voisinage de x, on considre le polynme
pondrs :
ap
p
a
(x) = (Xx Wx Xx )1 Xx Wx Y,
Px (u, a) = a0 + a1 (u x) + . . . + (u x) .
p!
et lestimateur par polynmes locaux au point x correspond fn (x) = a
0 (x),
On cherche estimer la fonction de rgression au voisinage de x par le poly- cest--dire au produit scalaire du vecteur Y avec la premire ligne de la manme Px (u, a) o le vecteur a = (a0 , . . . ap ) est obtenu par minimisation de trice (Xx Wx Xx )1 Xx Wx . On obtient le thorme suivant :
la somme des carrs pondre :
T HORME 6. Lestimateur par polynmes locaux au point x est
n
X
ap
n
X
wi (x)(Yi a0 a1 (Xi x) . . . (Xi x)p )2 .
n (x) =
p!
f
li (x)Yi
i=1
i=1
(x)
p
fn (u) = a
0 (x) + a
1 (x)(u x) + . . . +
(u x)p .
avec e1 = (1, 0, . . . , 0).
p!
n
X
Au point x, o lon souhaite raliser lestimation, on obtient :
E(fn (x)) =
li (x)f (Xi )
i=1
fn (x) = a
0 (x).
n
X
Var(fn (x)) = 2
li2 (x).
Attention, cet estimateur ne correspond pas celui que lon obtient en (5),
i=1
qui correspond p = 0 (cest lestimateur noyau). Si p = 1, on parle de
73
07/15
(6)
1 (x) = 1[0,1] ,
2k (x) = 2 cos(2kx) k 1
fD =
hf, j ij ,
j=1
o
Z
j = hf, j i =
f (x)j (x)dx.
0
1X
Yi j (Xi ).
j =
n i=1
E(j ) =
1 XX
fD (x) =
Yi j (Xi )j (x).
n j=1 i=1
D
X
1X
f (Xi )j (Xi ),
n i=1
i = 1, . . . , n,
o les i sont i.i.d. de loi N (0, 2 ), lestimateur fD dfini pour tout x [0, 1]
par :
D X
n
X
et si f j est rgulire et les Xi quirpartis sur [0, 1], ceci est proche de j . Si
D (x) = 1
f
Yi j (Xi )j (x)
les Xi sont alatoires, de loi uniforme sur [0, 1], on a
n j=1 i=1
E(j ) = j .
f per (,R)
D
X
Nous introduisons, dans le chapitre suivant, la dfinition des bases dondelettes, qui sont utilises en particulier si la fonction estimer est trs irrgulire.
j j (x),
j=1
74
07/15
R1
= 0 f (x)(x)dx est appel "coefficient dchelle" et les j,k =
R1
f (x)j,k (x)dx sont appels "dtails". On appelle approximation de f au
0
niveau de rsolution J la fonction
fJ =
o J,k =
R1
0
f (x)J,k (x)dx.
La base de Haar est simple dfinir, les fonctions sont support compact, nanmoins cette base fournit des approximations qui ne sont pas
rgulires. Il existe dautres bases dondelettes la fois support compact
et rgulires, par exemple les ondelettes de Daubechies (voir Daubechies
(1992) : Ten Lectures on wavelets).
= 1 si x [0, 1/2],
= 1 si x ]1/2, 1].
k=0
= 1 si x [0, 1[,
= 0 sinon.
(x)
J
2X
1
7.2
T HORME 9. Les fonctions (, j,k , j N, k {0, . . . , 2j 1}) forment
une base orthonorme de L2 ([0, 1]).
Les ondelettes sont bien adaptes pour lanalyse des signaux recueillis sur
Il rsulte de ce thorme que lon peut dvelopper une fonction de L2 ([0, 1]) une grille rgulire, dyadique. On les utilise en traitement du signal et de
limage. On considre le modle
dans cette base :
j
f (x) = (x) +
2X
1
X
Yk = f (
j=0 k=0
75
k
) + k , k = 1, . . . , N = 2J ,
N
07/15
10
On considre les N = 2J premires fonctions dune base dondelettes sur Dbruitage par approximation linaire :
[0, 1] : (, j,k , 0 j J 1, 0 k 2j 1). On note W la matrice N N
On approxime la fonction de rgression f par projection orthogonale de f
sur
VJ0 :
(1/N ) 0,0 (1/N ) . . . J1,2J 1 (1/N )
j
JX
1
0 1 2X
.
.
.
.
f
=
+
j,k j,k ,
J0
W = (i/N ) 0,0 (i/N ) . . . J1,2J 1 (i/N )
N
j=0
k=0
.
.
.
.
(N/N ) 0,0 (N/N ) . . . J1,2J 1 (N/N )
ce qui correspond regarder seulement les 2J0 premiers coefficients dondeJ0
Dans le cas de la base de Haar, W est une matrice orthogonale (la base est lettes. Pour estimer fJ0 , dans , on ne garde que les 2 premiers coefficients,
orthonorme pour le produit scalaire discret). On note W la transpose de W les autres sont annuls, cela forme le vecteur not J0 , puis on reconstruit le
signal dbruit :
et
YJ0 = (W )1 J0 .
= W Y,
La fonction de rgression f est alors estime par
la tranforme en ondelettes du vecteur Y .
Il sagit de lestimateur des moindres carrs de dans le modle Y = W +
1
si W est orthogonale.
fJ0 (x) = ((x), 0,0 (x), . . . , J1,2J 1 (x))J0 .
N
N
N
X
X
1
l
l
1
l
j
j,k =
j,k ( )Yl =
j,k ( )f ( ) + l
JX
1
0 1 2X
N
N
N
N l=1
N l=1
J (x) =
f
(x)
+
j,k j,k (x)
0
j=0 k=0
N j,k + l
Y = (W )1 .
C() = kY k2 + kW k2 2hY, W i + 2kk1 ,
= kY k2 + kk2 2 W Y + 2kk1 .
Y = W dans
le cas de la base de Haar.
76
07/15
11
En notant =
N (
, j,k , j = 0, . . . , J 1, k = 0, . . . 2j1 ), on obtient
= kk2 2 W Y + 2kk1
= 2
N
X
i i + 2
i=1
N
X
|i | +
i=1
N
X
fN (x) =
(x) +
i2 .
j
J1
1
X 2X
j=0 k=0
i=1
|i ||i |.
0
C ()
= 2
N
X
|i ||i | + 2
i=1
N
X
N
X
|i | +
i=1
N
X
N
l
l
1 X
j,k ( )f ( ) + l
= W Y =
N
N
N l=1
i2
i=1
N
2 X
|i | (|i | )
(|i | )2 .
i=1
avec
= W NN (0, 2 IN ).
i=1
N
X
2
|i | (|i | ) .
sup |
i |
2 log(N ).
1iN
i=1
p
Les coefficients qui sont infrieurs 2 log(N ) sont considrs comme du
bruit et sont annuls. Ces mthodes de seuillages fournissent des estimateurs
permettant destimer des signaux trs irrguliers (notamment des fonctions
avec des pics).
i = i 1|i | .
on reconstruit le signal dbruit :
Yi = f (X i ) + i ,
Y = W .
07/15
12
fj minimise
n
X
Yi
i=1
fk (Xi,k ) fj (Xi,j ) + j
k6=j
Nous allons dcrire dans ce chapitre une mthode destimation des compoPn
santes de ce modle additif, il sagit des modles GAM (Generalized Additive
fj := fj n1 i=1 fj (Xi,j ).
Models). Nous supposerons que chacune des fonctions unidimensionnelles est
estime laide de Splines comme dans la section 3.2. On introduit alors le
Arrt lorsque toutes les fonctions fj sont "stabilises".
critre pnalis :
Le mme algorithme peut tre utilise avec dautres mthodes dajustement
2
que les splines : estimateurs par polynmes locaux, noyaux, par projection ..
n
d
X
X
Les modles additifs gnraliss sont une extension des modles linaires,
Crit(, f1 , f2 , . . . , fp ) =
Yi
fj (Xi,j )
les rendant plus flexibles, tout en restant facilement interprtables. Ces moi=1
j=1
dles sont trs largement utiliss en modlisation statistique, nanmoins, en
Z
d
X
00 2
trs grande dimension, il est difficile de les mettre en uvre, et il sera utile de
+
j (fj ) (xj )dxj ,
les combiner un algorithme de slection (pour rduire la dimension).
j=1
o les j 0 sont des paramtres de rgularisation. On peut montrer que la
solution de la minimisation de ce critre est un modle de additif de splines
cubiques, chaque fonction fj tant un spline cubique de la variable xj , dont
les nuds correspondent aux valeurs diffrentes des Xi,j , i = 1, . . . n. Pour
garantir lunicit du minimiseur, on impose les contraintes
j = 1, . . . , d,
n
X
fj (Xi,j ) = 0.
i=1
Pn
Sous ces conditions, on obtient
= i=1 Yi /n, et si la matrice des variables
dentres Xi,j nest pas singulire, on peut montrer que le critre est strictement convexe, et admet donc un unique minimiseur. Lalgorithme suivant,
appel algorithme de backfitting, converge vers la solution :
n
X
ci cj k(Xi , Xj ) 0.
i,j=1
Linaire :
1. Initialisation :
=
Pn
i=1
k(Xi , Xj ) = Xi 0 Xj = hXi , Xj i
Yi /n, fj = 0 j.
Polynomial :
2. Pour l = 1 N iter
Pour j = 1 d
07/15
13
La mthode fournit des estimateurs non linaires pour les noyaux polyno-
Gaussien :
k(Xi , Xj ) = exp
kXi Xj k
2
.
f (x) =
n
X
cj k(Xj , x), c Rn .
i=1
10
Les mthodes bases sur les arbres reposent sur une partition de lespace
des variables dentre, puis on ajuste un modle simple (par exemple un modle constant) sur chaque lment de la partition. On suppose que lon a un
chantillon de taille n : (X i , Yi )1in avec X i Rd et Yi R. Lalgorithme CART permet de dfinir, partir de lchantillon dapprentissage, une
partition automatique de lespace des variables dentres X i . Supposons que
lespace o varient les X i soit partitionn en M rgions, notes R1 , . . . RM .
On introduit la classe F des fonctions constantes par morceaux sur chacune
des rgions :
M
X
F = {f, f (x) =
cm 1xRm }.
i=1
o
kf k2K
n
X
ci cj k(Xi , Xj ).
i,j=1
kY Kck2 + c0 Kc.
La solution est explicite :
= (K + In )1 Y.
c
m=1
On obtient le prdicteur
f(x) =
n
X
cj k(Xj , x).
j=1
m=1
Y = K
c.
teur linaire :
0
= (XX + In )
K = XX , c
f(x) =
n
X
f(x) =
Y,
M
X
cm 1xRm ,
m=1
cj hXj , xi.
j=1
79
07/15
14
une variable de sparation X (j) et un point de sparation s, on considre les on peut montrer quelle contient larbre T .
demi-espaces
R1 (j, s) = {X = (X (1) , . . . , X (d) )/X (j) s} et R2 (j, s) = {X/X (j) > s}.
La variable de sparation X (j) et un point de sparation s sont choisis de manire rsoudre
X
X
min[
(Yi c1 )2 +
(Yi c2 )2 ].
j,s
i,X i R1 (j,s)
i,X i R2 (j,s)
Ayant dtermin j et s, on partitionne les donnes en les deux rgions correspondantes, puis on recommence la procdure de sparation sur chacune des
deux sous-rgions, et ainsi de suite sur chacune des sous-rgions obtenues. La
taille de larbre est un paramtre ajuster, qui va gouverner la complexit du
modle : un arbre de trop grande taille va conduire un sur-ajustement (trop
grande variance), au contraire un arbre de petite taille va mal sajuster la
fonction de rgression (biais trop lev). Il est donc ncessaire de choisir une
taille "optimale" de manire adaptative partir des observations. La stratgie
adopte consiste construire un arbre de grande taille, puis llaguer en introduisant un critre pnalis. On dira que T est un sous-arbre de T0 si T peut tre
obtenu en laguant T0 , cest--dire en rduisant le nombre de nuds de T0 . On
note |T | le nombre de nuds terminaux de larbre T et Rm , m = 1, . . . |T |, la
partition correspondant ces nuds terminaux. On note Nm le nombre dobservations pour lesquelles X i Rm . On a donc
cm =
1
Nm
Dans le cas des estimateurs noyaux, et pour les estimateurs par polynmes
locaux, on doit choisir la fentre h ; pour les estimateurs constants par morceaux (ou polynmes par morceaux), ainsi que pour les estimateurs par projection, on doit choisir un paramtre D (nombre de morceaux de la partition ou
dimension de lespace de projection sur lequel on ralise lestimation), pour les
arbres CART, on doit choisir le paramtre de la procdure dlaguage. Dans
ce chapitre, nous allons dcrire la mthode de validation croise, qui est une
mthode possible pour choisir ces paramtres, ce qui correspond slectionner
un estimateur dans une collection destimateurs.
Notons le paramtre choisir. Soit fn, lestimateur de la fonction de
rgression f associ ce paramtre . On considre lerreur quadratique
moyenne :
!
n
1X
R() = E
(fn, (X i ) f (X i ))2 .
n i=1
Yi ,
i,X i Rm
et on introduit le critre
C (T ) =
|T |
X
(Yi cm )2 + |T |.
m=1 i,X i Rm
1X
(Yi fn, (X i ))2 ,
n i=1
Pour tout , on peut montrer quil existe un unique arbre minimal T qui
minimise le critre C (T ). Pour trouver larbre T , on supprime par tapes
successives
le nud interne de larbre T qui rduit le moins le critre mais cette quantit sous-estime R() et conduit un sur-ajustement. Ceci est
P P
m )2 . Ceci donne une succession de sous-arbres, dont d au fait que lon utilise les mmes donnes pour construire lestimateur fn,
m
i,X i Rm (Yi c
80
07/15
15
Le calcul de R()
peut savrer long, mais dans certains cas, il nest pas
ncessaire de recalculer n fois un estimateur de la fonction de rgression. Pour
la plupart des mthodes traites dans ce chapitre, lestimateur correspond un
algorithme de moyennes locales, cest--dire est de la forme
(qui est construit pour bien sajuster lchantillon dapprentissage) et pour estimer lerreur commise par cet estimateur. Pour avoir une meilleure estimation
du risque, on doit construire lestimateur du risque avec des observations qui
nont pas t utilises pour construire lestimateur fn, . Idalement, si on avait
assez dobservations, on pourrait les sparer en un chantillon dapprentissage
et un chantillon test. Ce nest gnralement pas le cas, et on souhaite utiliser
lensemble des donnes dapprentissage pour la construction de lestimateur.
On va alors avoir recours la validation croise. On partitionne lchantillon
dapprentissage en V blocs, nots B1 , . . . BV , de tailles peu prs identiques.
(v)
Pour tout v de 1 V , on note fn, lestimateur obtenu en supprimant de
lchantillon dapprentissage les donnes appartenant au bloc Bv .
fn, (x) =
n
X
Yj lj (x),
j=1
avec
Pn
j=1 lj (x)
n
X
(i)
Yj lj
(x),
j=1
N
1 X
(v(i))
CV = R()
=
(Yi fn,
(X i ))2 ,
N i=1
avec
(i)
lj
(v(i))
o fn,
est lestimateur de f obtenu en enlevant les observations du bloc
qui contient lobservation i.
(x)
0 si j = i
lj (x)
si j 6= i.
k6=i lk (x)
CV = R()
=
(Yi fn, (X i ))2 ,
n i=1
1X
CV = R()
=
n i=1
!2
.
(i)
o fn, est lestimateur de f obtenu en enlevant lobservation (X i , Yi ).
Yi fn, (X i )
1 li (X i )
(i)
= E((Yi f (X i ) + f (X i ) fn, (X i ))2 )
(i)
= 2 + E((f (X i ) fn, (X i ))2 )
07/15
16
Dans cette dfinition, li (X i ) est remplac par la moyenne des li (X i ). En pratique, les deux mthodes donnent gnralement des rsultats assez proches. En
utilisant lapproximation (1 x)2 1 + 2x pour x proche de 0, on obtient :
n
GCV ()
o
2 =
1
n
Pn
1X
2
2
(Yi fn, (X i ))2 +
,
n i=1
n
82
07/15
Sr = Xr 0 DXr =
m X
X
wi (xi g` )(xi g` )0 ,
`=1 i`
Rsum
Une variable qualitative Y m modalits est modlis par p variables quantitatives X j , j = 1, . . . , p. Lobjectif est la prvision
de la classe dun ou de nouveaux individus sur lesquels les variables X j , j = 1, . . . , p sont galement observs. Diffrents modles danalyse discriminante dcisionnelle sont considrs : rgle
linaire et quadratique de dcision dans le cas gaussien, rgle non
paramtrique et k plus proches voisins.
Se = G DG = X e DX e =
m
X
`=1
2
2.1
d2S1 (x, g` ), ` = 1, . . . , m.
r
Introduction
= (x g` )0 S1
d2S1 (x, g` ) = kx g` kS1
r (x g` )
Il sagit de la modlisation dune variable qualitative Y m modalits par
r
r
j
p variables quantitatives X , j = 1, . . . , p observes sur un mme chantillon et le problme revient donc maximiser
de taille n. Lobjectif de lanalyse discriminante dcisionnelle dborde le
1 0 1
simple cadre descriptif de lanalyse factorielle discriminante (AFD). Disposant
g`0 S1
r x g` Sr g` .
2
j
dindividus sur lesquels on a observ les X mais pas Y , il sagit de dcider
de la modalit T` de Y (ou de la classe correspondante) de ces individus. On Il sagit bien dune rgle linaire en x car elle peut scrire : A` x + b` .
parle aussi de problme daffectation. LADD sapplique donc galement la
2.2 Cas particulier : m=2
situation prcdente de la rgression logistique (m = 2) mais aussi lorsque le
nombre de classes est plus grand que 2.
Dans ce cas, la dimension r de lAFD vaut 1. Il ny a quune seule valeur
propre
non nulle 1 , un seul vecteur discriminant v 1 et un seul axe discriminant
Pour cela, on va dfinir et tudier dans ce chapitre des rgles de dcision
1
(ou daffectation) et donner ensuite les moyens de les valuer sur un seul in- 1 . Les 2 barycentres g1 et g2 sont sur 1 , de sorte que v est colinaire
dividu ; x = (x1 , . . . , xp ) dsigne les observations des variables explicatives g1 g2 .
sur cet individu, {g` ; ` = 1, . . . , m} les barycentres des classes calculs sur
Lapplication de la rgle de dcision permet daffecter x T1 si :
lchantillon et x le barycentre global.
1 0 1
1 0 1
0 1
g10 S1
r x g1 Sr g1 > g2 Sr x g2 Sr g2
La matrice de covariance empirique se dcompose en
2
2
cest--dire encore si
0 1 g1 + g2
(g1 g2 )0 S1
.
r x > (g1 g2 ) Sr
S = Se + Sr .
2
83
07/15
3.3
Remarque
Cots inconnus
Lestimation des cots nest pas du ressort de la Statistique et, sils ne sont
La rgle de dcision lie lAFD est simple mais elle est limite et insuffisante notamment si les variances des classes ne sont pas identiques. De plus, pas connus, on suppose simplement quils sont tous gaux. La minimisation
elle ne tient pas compte de lchantillonnage pour x : tous les groupes nont du risque ou rgle de Bayes revient alors affecter tout x la classe la plus
probable cest--dire celle qui maximise la probabilit conditionnelle a pospas ncessairement la mme probabilit doccurrence.
teriori : P [T` | x]. Par le thorme de Bayes, on a :
3.1
P [T` et x]
P [T` ].P [x | T` ]
=
P [x]
P [x]
Pm
avec le principe des probabilits totales : P [x] = `=1 P [T` ].P [x | T` ].
P [T` | x] =
Introduction
3.2
Dfinition
`=1
3.4
b` = w` =
(si tous les individus ont le mme poids)
n
condition quil soit bien un chantillon alatoire susceptible de fournir des
estimations correctes des frquences. Dans le cas contraire il reste considrer
tous les ` gaux.
{x | (x)=T` }
o {x | (x)=T` } fk (x)dx reprsente la probabilit daffect x T` alors quil 3.5 Cas particuliers
est dans Tk .
Dans le cas o les probabilits a priori sont gales, cest par exemple le
cas du choix de probabilits non informatives, la rgle de dcision bay1. La mesure de Lebesgues pour des variables relles, celle de comptage pour des variables
qualitatives
sienne revient alors maximiser f` (x) qui est la vraisemblance, au sein
R
84
07/15
de T` , de lobservation x. La rgle consiste alors choisir la classe pour par la moyenne empirique de x dans la classe l pour lchantillon dapprentissage et ` par la matrice de covariance empirique SRl :
laquelle cette vraisemblance est maximum.
Dans le cas o m = 2, on affecte x T1 si :
X
1
SRl =
(xi g` )(xi g` )0
2
f1 (x)
n` 1
>
i`
f2 (x)
1
faisant ainsi apparatre un rapport de vraisemblance. Dautre part, lintro- pour ce mme chantillon.
duction de cots de mauvais classement diffrents selon les classes amne
4.2 Homoscdasticit
modifier la valeur limite 2 /1 .
Finalement, il reste estimer les densits conditionnelles f` (x). Les diffOn suppose dans ce cas que les lois de chaque classe partagent la mme
rentes mthodes destimation considres conduisent aux mthodes classiques structure de covariance ` = . Supprimant les termes indpendants de l, le
de discrimination baysienne objets des sections suivantes.
critre maximiser devient
1
0 1
ln(` ) 0` 1
` ` + ` ` x
2
On suppose dans cette section que, conditionnellement T` , x = qui est cette fois linaire en x. Les moyennes sont estimes comme pr`
(x1 , . . . , xp ) est lobservation dun vecteur alatoire gaussien N (` , ` ) ; ` cdemment tandis que est estime par la matrice de covariance intraclasse
est un vecteur de Rp et ` une matrice (p p) symtrique et dfinie-positive. empirique :
m
La densit de la loi, au sein de la classe T` , scrit donc :
1 XX
SR =
(xi g` )(xi g` )0 .
1
1
n
m
`=1 i`
f` (x) =
exp (x ` )0 1
` (x ` ) .
2
2(det(` ))1/2
Si, de plus, les probabilits ` sont gales, aprs estimation le critre scrit :
Laffectation de x une classe se fait en maximisant ` .f` (x) par rapport l
1 0 1
soit encore la quantit :
x` 0 S1
R x x` SR x` .
2
1
1
ln(` ) ln(det(` )) (x ` )0 1
` (x ` ).
2
2
On retrouve alors le critre de la section 2 issu de lAFD.
4.1
Htroscdasticit
4.3
Commentaire
07/15
h est appel largeur de fentre ou paramtre de lissage ; plus h est grand, plus
lestimation fb de f est rgulire. Le noyau K est choisi centr en 0, unimodal
et symtrique. Les cas les plus usuels sont la densit gaussienne, celle uniforme
sur [1, 1] ou triangulaire : K(x) = [1 |x|]1[1,1] (x). La forme du noyau
5.1 Introduction
nest pas trs dterminante sur la qualit de lestimation contrairement la
En Statistique, on parle destimation non paramtrique ou fonctionnelle valeur de h.
lorsque le nombre de paramtres estimer est infini. Lobjet statistique esApplication lanalyse discriminante
timer est alors une fonction par exemple de rgression y = f (x) ou encore
une densit de probabilit. Dans ce cas, au lieu de supposer quon a affaire
La mthode du noyau est utilise pour calculer une estimation non paramune densit de type connu (normale) dont on estime les paramtres, on cherche trique de chaque densit f` (x) qui sont alors des fonctions dfinies dans Rp .
une estimation fb de la fonction de densit f . Pour tout x de R, f (x) est donc Le noyau K dont donc tre choisi multidimensionnel et
estime par fb(x).
1 X x xi
b
f` (x) =
.
K
Cette approche trs souple a lavantage de ne pas ncessiter dhypothse
n` hp
h
i
`
particulire sur la loi (seulement la rgularit de f pour de bonnes proprits
de convergence), en revanche elle nest applicable quavec des chantillons de Un noyau multidimensionnel peut tre dfini partir de la densit usuelle de
grande taille dautant plus que le nombre de dimensions p est grand (curse of lois : multinormale Np (0, p ) ou uniforme sur la sphre unit ou encore par
dimensionality).
produit de noyaux unidimensionnels :
Dans le cadre de lanalyse discriminante, ces mthodes permettent destimer
p
Y
directement les densits f` (x). On considre ici deux approches : la mthode
K(xj ).
K (x) =
du noyau et celle des k plus proches voisins.
j=1
5.2
Mthode du noyau
5.3
Estimation de densit
86
07/15
TABLE 1 Cancer : estimations des taux derreurs de prvision obtenus par TABLE 2 Ozone : estimations des taux derreurs de prvision obtenus par
diffrents types danalyse discriminante
diffrents types danalyse discriminante
Mthode
linaire
kNN
apprentissage
1,8
2,5
validations croise
3,8
2,7
test
3,6
2,9
Mthode
linaire
quadratique
validations croise
12,5
14,8
test
12,0
12,5
apprentissage
11,9
12,7
k`
;
kVk (x)
Mthode
linaire
quadratique
kNN
apprentissage
16,5
17,8
23,5
validations croise
18,3
22,0
29,8
test
18
30
29
6.1
Exemples
6.3
Cancer du sein
Carte visa
Comme pour les donnes sur le cancer, les donnes bancaires posent un
problme car elles associent diffrents types de variables. Il est possible de le
contourner, pour celles binaires, en considrant quantitative, lindicatrice de
la modalit (0 ou 1). Pour les autres, certaines procdures (DISQUAL pour
discrimination sur variables qualitatives) proposent de passer par une analyse
factorielle multiple des correspondances pour rendre tout quantitatif mais ceci
nest pas implment de faon standard dans les logiciels dorigine amricaine.
07/15
88
07/15
1. la dfinition dun critre permettant de slectionner la meilleure division parmi toutes celles admissibles pour les diffrentes variables ;
Introduction
2. une rgle permettant de dcider quun nud est terminal : il devient ainsi
une feuille ;
Complmentaires des mthodes statistiques plus classiques : analyse discriminante, rgression linaire, les solutions obtenues sont prsentes sous une
forme graphique simple interprter, mme pour des nophytes, et constituent une aide efficace pour laide la dcision. Elles sont bases sur un dcoupage, par des hyperplans parallles aux axes, de lespace engendr par les
variables explicatives. Nommes initialement partitionnement rcursif ou segmentation, les dveloppements importants de Breiman et col. (1984)[1] les
ont fait connatre sous lacronyme de CART : Classification and Regression
Tree ou encore de C4.5 (Quinlan, 1993) dans la communaut informatique.
Lacronyme correspond deux situations bien distinctes selon que la variable
expliquer, modliser ou prvoir est qualitative (discrimination ou en anglais
classification) ou quantitative (rgression).
2
2.1
Principe
2.2
Critre de division
07/15
@
Revenu > 10000
@
@
@
@
@
Sexe=H @ Sexe=F Age < 50 @ Age > 50
@
@
@
@
@
@
@
@
Tj
Tj
T`
max
Dk (D(k+1) + D(k+2) )
Graphiquement, la longueur de chaque branche peut tre reprsente proportionnellement la rduction de lhtrognit occasionne par la division.
2.3
Rgle darrt
La croissance de larbre sarrte un nud donn, qui devient donc terminal ou feuille, lorsquil est homogne cest--dire lorsquil nexiste plus de
partition admissible ou, pour viter un dcoupage inutilement fin, si le nombre
dobservations quil contient est infrieur une valeur seuil choisir en gnral
entre 1 et 5.
2.4
Affectation
1. nulle si, et seulement si, le nud est homogne : tous les individus appartiennent la mme modalit ou prennent la mme valeur de Y .
Critres dhomognit
Deux cas sont considrer, les arbres de rgression ou de classification.
Y quantitative
La division du nud k cre deux fils, gauche et droit. Pour simplifier, ils
On considre le cas plus gnral dune division en J classes. Soit nP
individus
J
sont nots (k + 1) et (k + 2) mais une re-numrotation est ncessaire pour et une partition en J classes de tailles nj ; j = 1, . . . , J avec n = j=1 nj .
respecter la squence de sous-arbres qui sera dcrite dans la section suivante. On numrote i = 1, . . . , nj les individus de la jme classe. Soit ij (resp.yij )
90
07/15
la valeur thorique (resp. lobservation) de Y sur lindividu (i, j) : le ime Sous hypothse gaussienne :
de la jme classe. Lhtrognit de la classe j est dfinie par :
Yij = .j + uij
nj
nj
X
X
ij .
(ij .j )2 avec .j =
Dj =
la log-vraisemblance
+ uij N (0, 2 ),
i=1
i=1
avec
J
X
Dj =
log L = Cste
nj
J X
X
(ij .j )2 ;
j=1 i=1
j=1
J nj
n
1 XX
log( 2 ) 2
(yij .j )2
2
2 j=1 i=1
J nj
n
1 XX
(yij y.j )2 .
log( 2 ) 2
2
2 j=1 i=1
=
(ij .. )
(ij .j ) o .. =
ij .
n
j=1 i=1
j=1 i=1
j=1 i=1
La dviance (par rapport au modle satur) sexprime alors comme :
J
X
=
nj (.. .j )2 ;
b
D = 2 2 (Ls L ) = D.
j=1
cj
par D
nj
X
(yij y.j )2
i=1
b
par D
J
X
j=1
cj =
D
nj
J X
X
(yij y.j )2 .
j=1 i=1
07/15
Critre dentropie
tgories de paramtre :
On considre une variable expliquer qualitative, Y m modalits ou catgories T numrotes ` = 1, . . . , m. Larbre induit une partition pour laquelle
n+k dsigne leffectif de la kme classe ou kme nud. Soit
p`k = P [T` | k] avec
m
X
pk = (p1k , . . . , pmk ),
avec
m
X
p`k = 1.
`=1
`=1
log L = Cste +
la probabilit quun lment du k-ime nud appartienne la `-ime classe.
K X
m
X
n`k log(p`k )
k=1 `=1
m
X
p`k
`=1
K
X
k=1
Dk = 2
K X
m
X
n`k log
k=1 `=1
n`k
.
n+k
Pour le modle satur (une catgorie par objet), cet optimum prend la valeur de
la constante et la dviance (par rapport au modle satur) sexprime comme :
K X
m
X
k=1 `=1
K X
m
X
k=1 `=1
n`k log
n`k
b
= D.
n+k
Cette quantit est positive ou nulle, elle est nulle si et seulement si les probabilits p`k ne prennent que des valeurs 0 sauf une gale 1 correspondant
Comme pour lanalyse discriminante dcisionnelle, les probabilits condilabsence de mlange.
tionnelles sont dfinies par la rgle de Bayes lorsque les probabilits a priori
Dsignons par n`k leffectif observ de la `-ime classe dans le k-ime ` dappartenance la `-ime classe sont connues. Dans le cas contraire, les
nud. Un nud
k de larbre reprsente un sous-ensemble de lchantillon def- probabilits de chaque classe sont estimes sur lchantillon et donc les proPm
fectif n+k = `=1 n`k .
babilits conditionnelles sestiment simplement par des rapports deffectifs :
p`k est estime par n`k /n+k . Enfin, il est toujours possible dintroduire, lorsLes quantits sont estimes :
quils sont connus, des cots de mauvais classement et donc de se ramener
m
X
la minimisation dun risque baysien.
n`k
n`k
ck = 2
Dk parD
n+k
log
(3)
Remarques :
n+k
n+k
`=1
La
dentropie peut tre remplace par lindice de Gini 1
K X
m
K
Pmfonction
X
X
2
n
`k
p
qui
conduit une autre dfinition de lhtrognit galement
b =
ck = 2
`=1 `k
n`k log
D par D
D
.
(4)
n+k
utilise mais qui ne sinterprte pas en terme de dviance dun modle
k=1 `=1
k=1
comme dans le cas de lentropie. Les rsultats sont en gnral assez simiConsidrons, pour chaque classe ou nud k, un modle multinomial m calaires.
92
07/15
La construction de la squence darbres embots repose sur une pnalisation de la complexit de larbre :
C(A) = D(A) + K.
Pour = 0, Amax = AK minimise C(A). En faisant crotre , lune des
divisions de AK , celle pour laquelle lamlioration de D est la plus faible
(infrieure ), apparat comme superflue et les deux feuilles obtenues sont
regroupes (lagues) dans le nud pre qui devient terminal ; AK devient
AK1 .
Le procd est itr pour la construction de la squence embote :
lagage
Amax = AK AK1 A1
4.2
Les procdures dlagage diffrent par la faon destimer lerreur de prdiction. Le graphe prcdemment obtenu peut se lire comme un boulis de valeur
propre. Quand lamlioration du critre est jug trop petite ou ngligeable,
on lague larbre au nombre de feuilles obtenues. Lvaluation de la dviance
ou du taux de mauvais classement estim par re-substitution sur lchantillon
dapprentissage est biaise (trop optimiste). Une estimation sans biais est obte4.1 Construction de la squence darbres
nue par lutilisation dun autre chantillon (validation) ou encore par validation
Pour un arbre A donn, on note K le nombre de feuilles ou nuds terminaux croise. La procdure de validation croise prsente dans ce cas une particulade A ; la valeur de K exprime la complexit de A. La mesure de qualit de rit car la squence darbres obtenue est diffrente pour chaque estimation sur
discrimination dun arbre A sexprime par un critre
lun des sous-chantillons. Lerreur moyenne nest pas, dans ce cas, calcule
pour chaque sous-arbre avec un nombre de feuilles donn mais pour chaque
K
X
sous-arbre correspondant une valeur fixe du coefficient de pnalisation.
D(A) =
Dk (A)
la valeur de minimisant lestimation de lerreur de prvision, correspond
k=1
93
07/15
ensuite larbre jug optimal dans la squence estime sur tout lchantillon
dapprentissage.
Le principe de slection dun arbre optimal est donc dcrit dans lalgorithme
ci-dessous.
A LGORITHME 1 : Slection darbre ou lagage
Construction de larbre maximal Amax .
Construction de la squence AK . . . A1 darbres embots.
Estimation sans biais (chantillon de validation ou validation croise) des
dviances D(AK ), . . . , D(A1 ).
Reprsentation de D(Ak ) en fonction de k ou de .
Choix de k rendant D(Ak ) minimum.
4.3
Remarques pratiques
Ces mthodes sont surtout efficaces que pour des tailles dchantillons
5.1
importantes et elles sont trs calculatoires. Les deux raisons : modle graphique de dcision simple interprter, puissance de calcul ncessaire,
suffisent expliquer leur popularit rcente.
Elles ne requirent pas dhypothses sur les distributions des variables et
semblent particulirement adaptes au cas o les variables explicatives
sont nombreuses. En effet, la procdure de slection des variables est intgre lalgorithme construisant larbre et les interactions sont prises en
compte. Il est ainsi frquent dassocier arbre et rgression logistique. Les
premires division dun arbre sont utilises pour construire une variable
synthtique intgre une rgression logistique afin de slectionner les
quelques interactions apparaissant comme les plus pertinentes.
En classification, la recherche de division est par ailleurs invariable par
transformation monotone des variables explicatives quantitatives. Cela
confre une certaine robustesse vis--vis de possibles valeurs atypiques.
La dfinition dun arbre ncessite en dernier lieu une optimisation dlicate
de la complexit par lagage afin dviter le sur-ajustement.
Cet algorithme suivant une stratgie pas pas hirarchise, peut, comme
dans le cas du choix de modle en rgression, passer cot dun optimum global ; il se montre par ailleurs trs instable et donc sensible des
fluctuations dchantillon. Cette instabilit ou variance de larbre est une
Exemples
Cancer du sein
5.2
Concentration dozone
Arbre de rgression
Un arbre de rgression est estim pour prvoir la concentration dozone.
La librairie rpart du logiciel R prvoit une procdure dlagage par validation croise afin doptimiser le coefficient de pnalisation. Larbre (figure 3)
montre bien quelles sont les variables importantes intervenant dans la prvision. Mais, compte tenu de la hirarchisation de celles-ci, due la structure
arborescente du modle, cette liste nest pas similaire celle mise en vidence
94
07/15
benign
|
358/188
Cell.shape=1,2
Cell.shape=3,4,5,6,7,8,9,10
benign
318/4
malignant
40/184
Bare.nuclei=1,2
Bare.nuclei=3,4,5,6,7,8,9,10
benign
32/20
malignant
8/164
Epith.c.size=1,2,3
Epith.c.size=4,5,6,7,8,9,10
benign
30/1
malignant
2/19
dans le modle gaussien. On voit plus prcisment ici la complexit des interactions entre la prdiction par MOCAGE et leffet important de la temprature
dans diffrentes situations. Les rsidus de lchantillon test du modle darbre
de rgression prennent une structure particulire (figure 4) car les observations
communes une feuille terminale sont affectes de la mme valeur. Il y a donc
une colonne par feuille. La prcision de lajustement peut sen trouver altre
(R2 = 0, 68) mais il apparat que ce modle est moins soumis au problme
dhtroscdasticit trs prsent dans le modle gaussien.
Arbre de discrimination
Un modle est estim afin de prvoir directement le dpassement dun seuil.
Il est de complexit similaire larbre de rgression mais ne fait pas jouer
le mme rle aux variables. La temprature remplace la prvision MOCAGE
de lozone comme variable la plus importante. Les prvisions de dpassement
de seuil sur lchantillon test sont sensiblement moins bonnes que celle de la
rgression, les taux sont de 14,4% avec larbre de rgression et de 14,5% directement avec larbre de discrimination. Les matrices de confusion prsentent les
mmes biais que les modles de rgression en omettant un nombre important
95
07/15
100 50
Rsidus
50
250
150
50
0
Valeurs observees
100
50
100
200
Valeurs predites
300
50
100
200
300
Valeurs predites
07/15
Endpoint = CARVP
Cnon
569/294
|
MOYRVL< 3.02
MOYRVL>=3.02
Coui
94/204
Cnon
475/90
RELAT>=5.5
Cnon
462/61
FACANL< 11.44
Cnon
457/51
FACANL>=11.44
Coui
5/10
DMVTPL>=2.602
DMVTPL< 2.602
Cnon
Cnon
381/28
76/23
RELAT< 5.5
Coui
13/29
DMVTPL>=2.602
DMVTPL< 2.602
Coui
Coui
1/83
93/121
Cnon
8/0
FACANL< 11.32
FACANL>=11.32
Cnon
Coui
67/10
3/7
DMVTPL< 1.199
DMVTPL>=1.199
Cnon
Coui
76/3
0/20
97
07/15
Rseaux de neurones
Rsum
Dfinition et caractristiques des rseaux de neurones ou perceptrons multicouches spcifiques pour la rgression et la discrimination ou classification supervise. Structure, fonction de transfert, estimation du gradient par rtro-propagation et algorithmes dapprentissage des poids en contrlant le sur-ajustement par rgularisation.
Retour au plan du cours
1
1.1
Rseaux de neurones
Introduction
Historique
07/15
Rseaux de neurones
x1
Q
Q
x2 P Q
s
PPQ
q
P
xj
..
3
.
xp
Les diffrents types de neurones se distinguent par la nature f de leur fonction dactivation. Les principaux types sont :
-y
| f
linaire f est la fonction identit,
sigmode f (x) = 1/(1 + ex ),
seuil f (x) = 1[0,+[ (x),
p
radiale f (x) = 1/2 exp(x2 /2),
stochastiques f (x) = 1 avec la probabilit 1/(1 + ex/H ), 0 sinon (H
intervient comme une temprature dans un algorithme de recuit simul),
F IGURE 1 Reprsentation dun neurone formel.
...
Les modles linaires et sigmodaux sont bien adapts aux algorithmes dapprentissage impliquant (cf. ci-dessous) une rtro-propagation du gradient car
leur fonction dactivation est diffrentiable ; ce sont les plus utiliss. Le mofonctions de transition ou dactivation) et enfin par lobjectif vis : apprentis- dle seuil est sans doute plus conforme la ralit biologique mais pose
des problmes dapprentissage. Enfin le modle stochastique est utilis pour
sage supervis ou non, optimisation, systmes dynamiques.
des problmes doptimisation globale de fonctions perturbes ou encore pour
les analogies avec les systmes de particules. On ne le rencontre pas en data
1.3 Neurone formel
mining.
De faon trs rductrice, un neurone biologique est une cellule qui se caractrise par
2 Perceptron multicouche
des synapses, les points de connexion avec les autres neurones, fibres nerveuses ou musculaires ;
Nous ne nous intresserons dans ce cours qu une structure lmentaire
des dentrites, les entres du neurones ;
de rseau, celle dite statique ne prsentant pas de boucle de rtroaction et
laxone, la sortie du neurone vers dautres neurones ou fibres muscudans un but dapprentissage supervis. Tant les systmes dynamiques, avec
laires ;
boucle de rtroaction, que les rseaux dit cartes de Kohonen ou cartes auto le noyau qui active la sortie en fonction des stimulations en entre.
organisatrices ne sont pas abords. Ces derniers sont en fait des algorithmes de
Par analogie, le neurone formel est un modle qui se caractrise par un tat classification non-supervise.
interne s S, des signaux dentre x1 , . . . , xp et une fonction dactivation
2.1
s = h(x1 , . . . , xp ) = f 0 +
p
X
Architecture
Le perceptron multicouche (PMC) est un rseau compos de couches successives. Une couche est un ensemble de neurones nayant pas de connexion
j xj = f (0 + 0 x).
j=1
99
07/15
Rseaux de neurones
entre eux. Une couche dentre lit les signaux entrant, un neurone par entre
xj , une couche en sortie fournit la rponse du systme. Selon les auteurs, la
couche dentre qui nintroduit aucune modification nest pas comptabilise.
Une ou plusieurs couches caches participent au transfert. Un neurone dune
couche cache est connect en entre chacun des neurones de la couche prcdente et en sortie chaque neurone de la couche suivante.
2.2
x1
x2
..
.
xj
..
.
xp
HH
LJ
LJ HHH
j |f
H
LJ
*
@
L J
@
L J
L J
@
H
J HH
@
L
J
J LH J
@
H
^
J
R
@
j
- |f
J L H
* |f
J
J L
..
L
HH J
L
.
H
HJ L
J^
HH
JL
j
* |f
Fonction de transfert
Par souci de cohrence, les mmes notations ont t conserves travers les diffrents chapitres. Ainsi, les entres dun rseau sont encore notes X1 , . . . , Xp comme les variables explicatives dun modle tandis que les
poids des entres sont des paramtres , estimer lors de la procdure
dapprentissage et que la sortie est la variable Y expliquer ou cible du modle.
-y
100
07/15
Rseaux de neurones
Ainsi, en rgression avec un perceptron une couche cache de q neurones quations dites de rtro-propagation :
et un neurone de sortie, cette fonction scrit :
ski = f 0 (0k xi )k i
y = (x; , ) = 0 + 0 z
avec zk = f (k0 + k 0 x); k = 1, . . . , q.
2.3
dont les termes sont value sen deux passes. Une passe avant, avec les valeurs courantes des poids, lapplication des diffrentes entres xi au rseau
b i ). La passe retour permet enpermet de dterminer les valeurs ajustes (x
suite de dterminer les i qui sont rtro-propags afin de calculer les ski et
ainsi obtenir les valuations des gradients.
Apprentissage
Supposons que lon dispose dune base dapprentissage de taille n dobservations (x1i , . . . , xpi ; yi ) des variables explicatives X 1 , . . . , X p et de la variable
prvoir Y . Considrons le cas le plus simple de la rgression avec un rseau
constitu dun neurone de sortie linaire et dune couche q neurones dont
les paramtres sont optimiss par moindres carrs. Ceci se gnralise toute
fonction perte drivable et donc la discrimination m classes.
2.3.2
Algorithmes doptimisation
Sachant valuer les gradients, diffrents algorithmes, plus ou moins sophistiqus, sont implments. Le plus lmentaire est une utilisation itrative du
gradient : en tout point de lespace des paramtres, le vecteur gradient de Q
pointe dans la direction de lerreur croissante. Pour faire dcrotre Q il suffit
Lapprentissage est lestimation des paramtres j=0,p;k=1,q et k=0,q par donc de se dplacer en sens contraire. Il sagit dun algorithme itratif modiminimisation de la fonction perte quadratique (ou dun fonction dentropie en fiant les poids de chaque neurone selon :
classification) :
Q(, ) =
n
X
i=1
Qi =
n
X
[yi (x; , )] .
(r+1)
i=1
Diffrents algorithmes doptimisation sont proposs, ils sont gnralement bass sur une valuation du gradient par rtro-propagation.
2.3.1
Rtro-propagation de lerreur
(r+1)
kp
(r)
= k
(r)
= kp
n
X
Qi
(r)
i=1
n
X
Qi
i=1
kp
(r)
07/15
Rseaux de neurones
1. les variables dentre et la variable de sortie ; leur faire subir comme pour
toutes mthodes statistiques, dventuelles transformations.
Lerreur est rtro-propage dans les diffrentes couches afin daffecter chaque entre une responsabilit dans lerreur globale.
Mise jour de chaque poids bjk` (i) = bjk` (i i) + bjk` (i)
end for
end while
2.4
Contrle de la complexit
Nombre de neurones
Le nombre de couches reste restreint car toute fonction continue dun compact de RP dans Rq peut tre approche avec une prcision arbitraire par un
rseau une couche cache en adaptant le nombre de neurones. Le contrle
102
07/15
Rseaux de neurones
Exemples
Les rseaux de neurones tant des botes noires, les rsultats fournis ne sont
gure explicites et ne conduisent donc pas des interprtations peu informaRgularisation
tives du modle. Seule une tude des erreurs de prvisions et, dans le cas dune
Une option importante car efficace pour viter le sur-apprentissage consiste rgression, une tude des rsidus, permet de se faire une ide de la qualit du
introduire une terme de pnalisation ou rgularisation, comme en rgression modle.
ridge, dans le critre optimiser. Celui-ci devient alors : Q() + kk2 .
3.1 Cancer du sein
Le paramtre (decay) doit tre rgl par lutilisateur ; plus il est imporLa prvision de lchantillon test par un rseau de neurones conduit la
tant et moins les paramtres ou poids peuvent prendre des valeurs chaotimatrice
de confusion ci-dessous et donc une erreur estime de 3%.
ques contribuant ainsi limiter les risques de sur-apprentissage. Une stratgie
simple et sans doute efficace, surtout si la taille de lchantillon ne permet pas
benign malignant
de prendre en compte une partie validation, consiste introduire un nombre
FALSE
83
1
plutt grand de neurones puis optimiser le seul paramtre de rgularisation
TRUE
3
50
(decay) par validation croise.
2.5
3.2
Remarques
Concentration dozone
La comparaison des rsidus (figure 3 montre que le problme de nonLes champs dapplication des PMC sont trs nombreux : discrimination, linarit qui apparaissait sur les modles simples (MOCAGE, rgression liprvision dune srie temporelle, reconnaissance de forme. . . Ils sont en gn- naire) est bien rsolu et que ces rsidus sont plutt moins tendus, mais le
ral bien explicits dans les documentations des logiciels spcialiss.
phnomne dhtroscdasticit est toujours prsent quelque soit le nombre de
Les critiques principales nonces lencontre du PMC concernent les dif- neurones utiliss. Il a t choisi relativement important (10) et conduit donc
ficults lis lapprentissage (temps de calcul, taille de lchantillon, localit un bon ajustement (R2 = 0, 77) mais devra tre rduit pour optimiser la
de loptimum obtenu) ainsi que son statut de bote noir. En effet, contraire- prvision.
ment un modle de discrimination ou un arbre, il est a priori impossible de
Loptimisation des paramtres dun rseau de neurones est instable comme
connatre linfluence effective dune entre (une variable) sur le systme ds pour les proches voisins car chaque excution de lestimation de lerreur par
quune couche cache intervient. Nanmoins, des techniques de recherche de validation croise fournit des rsultats diffrents. Elle est en plus trs comsensibilit du systme chacune des entres permettent de prciser les ides et, plique par le nombre de paramtres optimiser : nombre de neurones sur la
ventuellement de simplifier le systme en supprimant certaines des entres.
couche (size), pnalisation (decay), nombre ditrations. Une fonction de la
En revanche, ils possdent dindniables qualits lorsque labsence de linarit et/ou le nombre de variables explicatives rendent les modles statistiques
traditionnelles inutilisables. Leur flexibilit allie une procdure dapprentissage intgrant la pondration (le choix) des variables comme de leurs interactions peuvent les rendre trs efficaces.
103
07/15
Rseaux de neurones
50
100
200
300
50
Valeurs predites
100
200
300
0.8
0.6
0.4
0.2
_ logit
_ nnetr
_ nnetq
0.0
100 50
Rsidus
50
250
150
0 50
Valeurs observees
100
1.0
0.0
Valeurs predites
0.2
0.4
0.6
0.8
1.0
F IGURE 3 Ozone : Valeurs observes et rsidus de lchantillon test en fonction des valeurs prdites par un rseau de 10 neurones
Performance of nnet
3.0
680
675
decay
2.5
670
2.0
665
660
1.5
655
1.0
2.0
2.5
3.0
size
3.5
4.0
3.3
Donnes bancaires
Une fonction de la librairie e1071, pratique mais trs chronophage, propose une automatisation de loptimisation des paramtres (decay, nombre de
neurones). Elle produit une carte de type contour permettant dvaluer " lil"
les valeurs optimales. La prvision de lchantillon test par ce rseau de neurones conduit la matrice de confusion ci-dessous et donc une erreur estime
de 21,5% :
07/15
TRUE
27
Rseaux de neurones
105
07/15
47
Rfrences
[1] T.J. Haykin, Neural network, a comprehensive foundation, Prentice-Hall,
1994.
Agrgation de modles
Agrgation de modles
2
2.1
Rsum
Principe et algorithme
un chantillon de loi F .
z = {(x1 , y1 ), . . . , (xn , yn )}
07/15
A LGORITHME 1 : Bagging
Soit x0 prvoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un chantillon
for b = 1 B do
Tirer un chantillon bootstrap zb .
Estimer bzb (x0 ) sur lchantillon bootstrap.
end for
PB
Calculer lestimation moyenne bB (x0 ) = B1 b=1 bzb (x0 ) ou le rsultat
du vote.
Agrgation de modles
07/15
Agrgation de modles
mier limite considrablement lavantage du bagging si la corrlation est le- toirement peut, selon les exemples traits, tre un paramtre sensible avec des
ve. Cest ce qui motive principalement la randomisation introduite dans choix par dfaut pas toujours optimaux :
07/15
77 par Lo Breiman et Adele Cutler qui maintient le site ddi cet algorithme.
Le site du logiciel Weka dvelopp luniversit Waikato de Nouvelle
Zlande propose une version en Java.
Une version trs proche de lalgorithme original est disponible dans la
librairie Scikit-learn de Python.
Une autre version adapte aux donnes massives est proposes dans la librairie MLlib deSpark, technologie dveloppe pur interfacer diffrentes
architectures matrielles/logicielles avec des systmes de gestion de fichiers de donnes distribues. Elle sera dcrite par ailleurs.
Autres utilisations
Agrgation de modles
(premire classe). Pour ce faire, chaque colonne (variable) est alatoirement permute dtruisant ainsi la structure de corrlation entre les variables. Une fort est estime pour modliser la variable ainsi cre puis
les mmes approches : matrice de dissimilarits, classification non supervise partir de cette matrice, positionnement multidimensionnel, dtection dobservations atypiques, sont dveloppes.
Imputation de donnes manquantes.
Modles de dure de vie (survival forest).
3
3.1
Depuis la publication initiale de lalgorithme (Breiman, 2001)[4], cette mthode a beaucoup t teste, compare (Caruana et al. 2008[5]), analyse.
Elle devient dans beaucoup darticles dapprentissage machine la mthode
"battre" en matire de qualit de prvision alors que ses proprits thoriques
de convergence, difficiles tudier, commencent tre publies (Scornet et al.
2015)[13]. Nanmoins elle peut conduire aussi de mauvais rsultats notamment lorsque le problme est tout fait linaire et donc quune simple rgression PLS conduit de bonnes prvisions mme en grande dimension. Cest le
cas par exemple de donnes de spectromtrie en proche infra-rouge (NIR).
Le boosting diffre des approches prcdentes par ses origines et ses principes. Lide initiale, en apprentissage machine, tait damliorer les comptences dun faible classifieur cest--dire celle dun modle de discrimination
dont la probabilit de succs sur la prvision dune variable qualitative est lgrement suprieure celle dun choix alatoire. Lide originale de Schapire
de 1990 a t affine par Freund et Schapire (1996)[6] qui ont dcrit lalgorithme original AdaBoost (Adaptative boosting) pour la prvision dune variable binaire. De nombreuses tudes ont ensuite t publies pour adapter cet
algorithme dautres situations : k classes, rgression, paramtre de schrinkage et rendre compte de ses performances sur diffrents jeux de donnes. Ces
tests ont montr le rel intrt pratique de ce type dalgorithme pour rduire
sensiblement la variance (comme le bagging) mais aussi le biais de prvision
comparativement dautres approches. En effet, comme les arbres sont identiquement distribus par bagging, lesprance de B arbres est la mme que lesprance dun arbre. Cela signifie que le biais darbres agrgs par bagging est
le mme que celui dun seul arbre. Ce nest plus le cas avec le boosting. Cet
algorithme est mme considr comme la meilleure mthode off-the-shelf
cest--dire ne ncessitant pas un long prtraitement des donnes ni un rglage
fin de paramtres lors de la procdure dapprentissage.
Devenu le "couteau suisse" de lapprentissage, les forts alatoires sont utilises diffrentes fins (consulter le site ddi) :
Similarit ou proximit entre observations. Aprs la construction dun
chaque arbre, incrmenter la similarit ou proximit de deux observations
qui se trouvent dans la mme feuille. Sommer sur la fort, normaliser par
le nombre darbres. Un positionnement multidimensionnel peut reprsenter ces similarits ou la matrice des dissimilarits qui en dcoule.
Dtection dobservations atypiques multidimensionnelles (outliers) ou de
"nouveauts" (novelties) pour signifier quune observation nappartient
pas aux classes connues. Un critre d"anormalit" par rapport une classe
est bas sur la notion prcdente de proximits (faible) dune observation
Le boosting adopte le mme principe gnral que le bagging : construction
aux autres observations de sa classe.
dune
famille de modles qui sont ensuite agrgs par une moyenne pondr
Classification non supervise. Si aucune variables Y nest modliser,
des
estimations
ou un vote. Il diffre nettement sur la faon de construire la falide est de se ramener au cas prcdant en simulant des observations
mille
qui
est
dans
ce cas rcurrente : chaque modle est une version adaptative
constituant une deuxime classe synthtique partir de celles connues
109
07/15
Agrgation de modles
du prcdent en donnant plus de poids, lors de lestimation suivante, aux observations mal ajustes ou mal prdites. Intuitivement, cet algorithme concentre
donc ses efforts sur les observations les plus difficiles ajuster tandis que
lagrgation de lensemble des modles permet dchapper au sur-ajustement.
end for
hP
i
M
Rsultat du vote : bM (x0 ) = signe
m=1 cm m (x0 ) .
07/15
3.3
Agrgation de modles
Version alatoire
Calculer les nouvelles probabilits : pi Pnwi wi .
i=1
end for
b 0 ) moyenne ou mdiane des prvisions bm (x0 ) pondres par
Calculer (x
des coefficients log( 1m ).
3.4
Prcisions :
Dans cet algorithme la fonction perte Q peut tre exponentielle, quadratique ou, plus robuste, la valeur absolue. Le choix usuel de la fonction
quadratique est retenu par Gey et Poggi (2002)[9].
Notons Lm = supi=1,...,n lm (i) le maximum de lerreur observe par le
modle bm sur lchantillon initial. La fonction g est dfinie par :
Pour la rgression
g(lm (i))
Diffrentes adaptations du boosting ont t proposes pour le cas de la rgression, cest--dire lorsque la variable prdire est quantitative. Voici lalgorithme de Drucker (1997) dans la prsentation de Gey et Poggi (2002)[9]
qui en tudient les performances empiriques en relation avec CART. Freund et
Schapire (1996) ont propos Adaboost.R avec le mme objectif tandis que le
point de vue de Friedman (2002)[7] est dcrit plus loin dans lalgorithme 5.
A LGORITHME 4 : Boosting pour la rgression
Soit x0 prvoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un chantillon
Initialiser p par la distribution uniforme p = {pi = 1/n ; i = 1, . . . , n}.
for m = 1 M do
Tirer avec remise dans z un chantillon zm suivant p.
Estimer bm sur lchantillon zm .
Calculer partir de lchantillon initial z :
lm (i) = Q yi , bm (xi )
i = 1, . . . , n; (Q : fonction perte)
n
X
Ec
m
wi
pi lm (i);
i=1
avec m
1lm (i)/Lm
= m
Ec
m
=
.
Lm Ec
m
(1)
(2)
3.5
Le bon comportement du boosting par rapport dautres techniques de discrimination est difficile expliquer ou justifier par des arguments thoriques.
la suite dune proposition de Breiman en 1999 (rapport technique) de considrer le boosting comme un algorithme global doptimisation, Hastie et col.
111
07/15
Agrgation de modles
(2001)[11] prsentent le boosting dans le cas binaire sous la forme dune ap- avec Ebp erreur apparente de prvision tandis que les wi sont mis jour avec :
proximation de la fonction par un modle additif construit pas pas :
(m)
(m1)
wi = wi
exp[cm ].
M
X
b
On montre ainsi quadaboost approche pas pas par un modle additif en
(x)
=
cm (x; m )
utilisant une fonction perte exponentielle tandis que daubres types de boosting
m=1
sont dfinis sur la base dune autre fonction perte :
est cette combinaison o cm est un paramtre, le classifieur (faible) de base
AdaBoost Q(y, (x)) = exp[y(x)],
fonction de x et dpendant dun paramtre m . Si Q est une fonction perte, il
LogitBoost Q(y, (x)) = log2 (1 + exp[2y(x)],
sagit, chaque tape, de rsoudre :
L2 Boost Q(y, (x)) = (y (x))2 /2.
n
X
Dautres fonctions pertes sont envisageables pour, en particulier, un algo(cm , m ) = arg min
Q(yi , bm1 (xi ) + c(xi ; ));
(c,)
rithme
plus robuste face un chantillon dapprentissage prsentant des eri=1
reurs de classement dans le cas de la discrimination ou encore des valeurs
atypiques (outliers) dans le cas de la rgression. Hastie et col. (2001)[11] combm (x) = bm1 (x)+cm (x; m ) est alors une amlioration de lajustement
parent les intrts respectifs de plusieurs fonctions pertes. Celles juges roprcdent.
bustes (entropie en discrimination, valeur absolue en rgression) conduisent
Dans le cas dadaboost pour lajustement dune fonction binaire, la fonction des algorithmes plus compliqus mettre en uvre.
perte utilise est Q(y, (x)) = exp[y(x)]. il sagit donc de rsoudre :
3.6
(cm , m )
= arg min
(c,)
n
X
i=1
n
X
i
exp yi (bm1 (xi ) + c(xi ; )) ;
Algorithme
i=1
Soit x0 prvoir
Pn
Initialiser b0 = arg min i=1 Q(yi , )
1 Ebp
1
log
cm =
for m = 1 M do
2
Ep
wim
112
07/15
Calculer ri m =
Q(yi ,(xi ))
(xi )
Agrgation de modles
Interprtation
,
=m1
Jm
X
j=1
jm 1{x Rjm }
Performances
En rsum, le boosting est susceptible de rduire la variance comme le bagging et galement le biais par agrgation, il donne gnralement de meilleurs
rsultats. De leur ct les forts alatoires bases sur des modles de faible
biais (arbres complets) permettent de rduire significativement la variance et
conduisent donc des rsultats comptitifs avec le boosting.
Chaque problme, chaque jeu de donnes prsente des spcificits et il est
difficile danticiper sur le choix dune meilleure mthode, seule la comparaison
des erreurs sur des chantillons tests permet doptimiser le choix. Ainsi, dans
le cas dun trs grand nombre p de variables o seules quelques unes sont
pertinentes, les forts alatoire peinent les extraire, surtout videmment si m
est fix trop petit. Cest en revanche dans cette situation que le boosting peut
savrer plus performant.
La dernire version de boosting (GBM) adaptant et approchant le gradient
par un arbre peut savrer trs performante surtout lorsque le coefficient de
rgularisation ou schrinkage est bien rgl. Nanmoins cette approche perd en
simplicit du fait du ncessiare rglage de plusieurs paramtres (choix de la
fonction perte, de la profondeur des arbres, du coefficient de rgularisation...).
Logiciels
Il joue le rle du coefficient decay du perceptron) et, si sa valeur est petite
(< 0, 1) cela conduit accrotre le nombre darbres mais entrane gnraleLe bagging est trs facile programmer dans R mais il existe une libraiment une amlioration de la qualit de prvision. Le boosting est un algorithme rie (ipred) qui en propose des implmentations efficaces. Lalgorithme de
qui peut effectivement converger exactement, donc ventuellement vers une si- boosting, ou plutt la version de Friedman et col. (2000)[8] a t dveloppe
tuation de sur-apprentissage. En pratique, cette convergence peut tre rendue et interface avec R dans la librairie gbm tandis que Friedman fait commersuffisamment lente pour tre mieux contrle.
113
07/15
Agrgation de modles
cialiser ses outils par la socit Salford System. Schapire diffuse lui le logiciel fonctions de rgression de la collection.
Boost texter sur sa page pour des utilisations non commerciales.
Principe
La principale originalit de COBRA par rapport aux techniques dagrgation de modles prcdentes, est que cette mthode nopre pas une moyenne
de prvisions mais une moyenne dobservations : celles les plus proches des
prvisions dune famille de modles ou de m machines. COBRA opre donc
une forme de rgression non-paramtrique avec une fonction noyau ou une notion de voisinage trs complexe car elle dpend des prvisions dune famille de
machines. Biau et al. (2013) explique le principe par un exemple jouet repris
dans la figure 1.
Dautres stratgies ont t proposes dans loptique dune prvision bruteen rgression, sans slection de variables ou objectif dinterprtation du
modle. Elles procdent en deux principales tapes :
la premire consiste estimer un ensemble de modles varis appartenant
celles des mthodes, de la rgression au boosting en passant par les
rseaux de neuronnes.
la deuxime construit une combinaison linaire convexe (super learner
Connaissant un ensemble dapprentissage (xi , yi ), les quantits f1 et f2 sont
Van der Laan et al. (2007)[14]) ou une rgression locale, partir des mo- estimes. La prvision en x est construite de la faon suivante. Une slections
0
dles prcdents (COBRA de Biau et al. (2013)[1]).
des observations est opre, ce sont celles qui vrifient pour un seuil choisi :
4.1
Super learner
Le principe de lapproche propose par van der Laan et al. (2007) [14] est
simple, il sagit de calculer une combinaison convexe ou moyenne pondre
de plusieurs prvisions obtenues par plusieurs modles. Les paramtres de la
combinaison sont optimiss en minimisant un critre de validation croise. La
mthode est implmente dans la librairie SuperLearner de R o toutes
les combinaisons de mthodes ne sont pas possibles, seule une liste prdfinie
est implmente cette date (juin 2014) : glm, random forest, gbm,
mars, svm. Son emploi est illustr dans le scnario danalyse de donnes
(QSAR) issues de criblage virtuel de molcules.
4.2
COBRA
Comme pour le Super learner cette approche est teste dans le scnario
danalyse de donnes (QSAR) issues de criblage virtuel de molcules. La librairie R COBRA implmente cette mthode en proposant une procdure doptimisation des paramtres et . Tout type de modle de rgression peut tre
inclus dans la procdure COBRA, il est conseill den utiliser des trs varis
linaires et surtout non linaires afin doptimiser les chances du succs.
Bien entendu, mme les faibles capacits dinterprtation de certains mthodes comme random forest avec les critres dimportance de variables ne
sont plus dconserves.
114
07/15
10
Agrgation de modles
Exemples
5.1
Cancer du sein
benign
malignant
bagging(ipred)
benign malignant
83
3
3
48
adaboost(gbm)
benign malignant
84
1
2
50
random forest
benign malignant
83
0
3
51
et, respectivement, des erreurs estimes de 4,4 et 2,2% pour cet exemple et
avec les chantillons (apprentissage et test) tirs.
Il est remarquable de noter lvolution des erreurs dajustement et de test sur
cet exemple (figure 2) en fonction du nombre darbres estims par adaboost.
Lerreur dapprentissage arrive rapidement 0 tandis que celle de test continue
dcrotre avant datteindre un seuil. Cet algorithme est donc relativement
robuste au sur-apprentissage avant, ventuellement, de se dgrader pour des
raisons, sans doute, de prcision numrique. Ce comportement t relev
dans beaucoup dexemples dans la littrature.
5.2
F IGURE 1 COBRA : De gauche droite et de bas en haut : Lensemble dapprentissage (Y fonction de X) ; il faut prvoir la valeur sur la ligne pointille.
Les estimations de chaque observation par deux machines (rouge et verte). Une
tolrance ( optimiser) dtermine les observations retenues pour chaque
machine autour de la valeur prvoir. La prvision est la moyenne (en bleu)
des observations (en noir) slectionnes pour toutes les machines ltape
prcdente.
Concentration dozone
115
lno
21.78
O3_pr
43.87
07/15
TEMPE
67.66
50
100
200
50
100
150
200
250
300
5
4
F IGURE 3 Ozone : Valeurs observes et rsidus de lchantillon test en fonction des valeurs prdites par une fort alatoire
0.0
Err.test
3.0
2.0
Valeurs predites
1.0
Err.app
Valeurs predites
300
100
50
50
Rsidus
150
50
100
250
Agrgation de modles
Valeurs observees
11
10
15
10
15
5.3
Donnes bancaires
07/15
12
Agrgation de modles
0.25
0.20
0.16
0.10
0.15
0.20
Err.test
0.24
0.12
Err.oob
Rfrences
100
200
300
400
500
Index
100
200
300
400
[3]
[4]
[5] Rich. Caruana, N. Karampatziakis et A. Yessenalina, An Empirical Evaluation of Supervised Learning in High Dimensions, Proceedings of the
25th International Conference on Machine Learning (New York, NY,
USA), ICML 08, ACM, 2008, p. 96103, ISBN 978-1-60558-205-4.
500
Index
Cnon
Coui
[9] S. Gey et J. M. Poggi, Boosting and instabillity for regression trees, Rap.
tech. 36, Universit de Paris Sud, Mathmatiques, 2002.
Cnon Coui
126
11
10
53
[11] T. Hastie, R. Tibshirani et J Friedman, The elements of statistical learning : data mining, inference, and prediction, Springer, 2009, Second
edition.
[12] R. Schapire, The boosting approach to machine learning. An overview,
MSRI workshop on non linear estimation and classification, 2002, p. .
[13] E. Scornet, G. Biau et J. P. Vert, Consistency of random forests, The Annals of Statistics (2015), paratre.
mettent en vidence les variables les plus discriminantes. De son ct, le boos[14] M. J. van der Laan, E. C. Polley et A. E. Hubbard, Super learner, Statisting (sans schrinkage) fournit des rsultats tout fait comparables avec un taux
tical Applications in Genetics and Molecular Biology 6 :1 (2007).
derreur de 11%.
117
07/15
ce dveloppement, est dviter de substituer lobjectif initial : la discrimination, un ou des problmes qui savrent finalement plus complexes rsoudre
comme par exemple lestimation non-paramtrique de la densit dune loi multidimensionnelle en analyse discriminante.
Introduction
Les Support Vector Machines souvent traduit par lappellation de Sparateur Vaste Marge (SVM) sont une classe dalgorithmes dapprentissage initialement dfinis pour la discrimination cest--dire la prvision dune variable
qualitative initialement binaire. Ils ont t ensuite gnraliss la prvision
dune variable quantitative. Dans le cas de la discrimination dune variable dichotomique, ils sont bass sur la recherche de lhyperplan de marge optimale
qui, lorsque cest possible, classe ou spare correctement les donnes tout en
tant le plus loign possible de toutes les observations. Le principe est donc
de trouver un classifieur, ou une fonction de discrimination, dont la capacit de
gnralisation (qualit de prvision) est la plus grande possible.
Le principe de base des SVM consiste de ramener le problme de la discrimination celui, linaire, de la recherche dun hyperplan optimal. Deux ides
ou astuces permettent datteindre cet objectif :
La premire consiste dfinir lhyperplan comme solution dun problme
doptimisation sous contraintes dont la fonction objectif ne sexprime
qu laide de produits scalaires entre vecteurs et dans lequel le nombre
de contraintes actives ou vecteurs supports contrle la complexit du
modle.
Le passage la recherche de surfaces sparatrices non linaires est obtenu
par lintroduction dune fonction noyau (kernel) dans le produit scalaire
induisant implicitement une transformation non linaire des donnes vers
un espace intermdiaire (feature space) de plus grande dimension. Do
lappellation couramment rencontre de machine noyau ou kernel machine. Sur le plan thorique, la fonction noyau dfinit un espace hilbertien,
dit auto-reproduisant et isomtrique par la transformation non linaire de
lespace initial et dans lequel est rsolu le problme linaire.
Cet outil devient largement utilis dans de nombreux types dapplication
et savre un concurrent srieux des algorithmes les plus performants (agrgation de modles). Lintroduction de noyaux, spcifiquement adapts une
problmatique donne, lui confre une grande flexibilit pour sadapter des
situations trs diverses (reconnaissance de formes, de squences gnomiques,
de caractres, dtection de spams, diagnostics...). noter que, sur le plan algorithmique, ces algorithmes sont plus pnaliss par le nombre dobservations,
cest--dire le nombre de vecteurs supports potentiels, que par le nombre de
variables. Nanmoins, des versions performantes des algorithmes permettent
de prendre en compte des bases de donnes volumineuses dans des temps de
calcul acceptables.
07/15
Principes
2.1
Problme
3
3.1
Sparateur linaire
Hyperplan sparateur
07/15
2
et, dans ces conditions, la marge du plan a pour valeur kwk
2 . Chercher le plan
sparateur de marge maximale revient rsoudre le problme ci-dessous doptimisation sous contraintes (problme primal) :
minw 12 kwk2
Le problme dual est obtenu en introduisant des multiplicateurs de Lagrange. La solution est fournie par un point-selle (w , b , ) du lagrangien :
F IGURE 2 Recherche dun hyperplan de sparation optimal au sens de la
marge maximale.
L(w, b, ) =
1/2kwk22
n
X
i=1
f (x) = hw, xi + b
yi (< w , xi > +b ) = 1.
mais, comme le couple (w, b) qui caractrise le plan est dfini un coefficient
multiplicatif prs, on simpose :
w =
i=1
yf (x) 1.
Un plan (w, b) est un sparateur si :
yi f (xi ) 1 i {1, . . . , n}.
La distance dun point x au plan (w, b) est donne par :
d(x) =
| hw, xi + b|
|f (x)|
=
kwk
kwk
n
X
i yi xi
et
n
X
i yi = 0.
i=1
07/15
lensemble
dapprentissage, sont plus particulirement adapts prendre
< x, xi > +b = 0 avec b = [< w , svclass+1 > + < w , svclass1
>] .
2
en
compte
un
nombre important de contraintes lorsque n, le nombre dobi=1
servation, est grand.
Pour une nouvelle observation x non apprise prsente au modle, il suffit de
On montre par ailleurs que la recherche des hyperplans optimaux rpond
regarder le signe de lexpression :
bien au problme de la bonne gnralisation. On montre aussi que, si
n
lhyperplan optimal peut tre construit partir dun petit nombre de vecX
f (x) =
i yi hx, xi i + b
teurs supports, par rapport la taille de la base dapprentissage, alors la
i=1
capacit en gnralisation du modle sera grande, indpendamment de la
taille de lespace.
pour savoir dans quel demi-espace cette forme se trouve, et donc quelle classe
Plus prcisment, on montre que, si les X sont dans une boule de rayon R,
il faut lui attribuer.
lensemble des hyperplans de marge fixe a une VC-dimension borne
3.2 Cas non sparable
par
R2
Lorsque les observations ne sont pas sparables par un plan, il est ncessaire
avec kxk R.
2
dassouplir les contraintes par lintroduction de termes derreur i qui en
Lerreur par validation croise (leave-one-out) et borne en moyenne par
contrlent le dpassement :
le nombre de vecteurs supports. Ces bornes derreur sont bien relativement prdictives mais nanmoins trop pessimistes pour tre utiles en prayi hw, xi i + b +1 i i {1, . . . , n}.
tique.
Le modle attribue ainsi une rponse fausse un vecteur xi si le i correspondant est suprieur 1. La somme de tous les i reprsente donc une borne du
4 Sparateur non linaire
nombre derreurs.
n
X
i yi
Le problme de minimisation est rcrit en introduisant une pnalisation par 4.1 Noyau
le dpassement de la contrainte :
Revenons la prsentation initiale du problme. Les observations faites dans
Pn
2
min 21 kwk + i=1 i
lensemble F (en gnral Rp ) sont considres comme tant transformes par
i, yi hw, xi i + b +1 i
une application non linaire de F dans H muni dun produit scalaire et de
plus grande dimension.
Remarques
Le point important remarquer, cest que la formulation du problme de
Le paramtre contrlant la pnalisation est rgler. Plus il est grand et
minimisation ainsi que celle de sa solution :
plus cela revient attribuer une forte importance lajustement. Il est le
n
X
paramtre qui ajuste le compromis entre bon ajustement et bonne gnraf
(x)
=
i yi hx, xi i + b
lisation.
i=1
Le problme dans le cas non sparable se met sous la mme forme duale
que dans la cas sparable une diffrence prs : les coefficients i sont ne fait intervenir les lments x et x0 que par lintermdiaire de produits scatous borns par la constante de contrle de la pnalisation.
laires : hx, x0 i. En consquence, il nest pas ncessaire dexpliciter la transfor121
07/15
4.3
mation , ce qui serait souvent impossible, condition de savoir exprimer les
produits scalaires dans H laide dune fonction k : F F R symtrique
appele noyau de sorte que :
k(x, x0 ) = h(x), (x0 )i .
Exemples de noyaux
Linaire
k(x, x0 ) = hx, x0 i
Polynmial
Gaussien
k(x, x0 ) = e
kxx0 k2
2 2
Exemple
2
Prenons le cas trivial o x = (x1 , x2 ) dans R et (x) =
2x1 x2 , x2 ) exotique et adapt une problmatique pose : reconnaissance de squences,
est explicite. Dans ce cas, H est de dimension 3 et le produit scalaire scrit : de caractres, lanalyse de textes... La grande flexibilit dans la dfinition des
noyaux, permettant de dfinir une notion adapte de similitude, confre beau0 0
2 02
h(x), (x0 )i = x21 x02
+
2x
x
x
x
+
x
x
coup defficacit cette approche condition bien sur de construire et tester
1
2
1
1 2
2 2
0
0 2
le bon noyau. Do apparat encore limportance de correctement valuer des
= (x1 x1 + x2 x2 )
erreurs de prvision par exemple par validation croise.
2
= hx, x0 i
Attention, les SVM noyaux RBF gaussiens, pour lesquels, soit on est dans
= k(x, x0 ).
le cas sparable, soit la pnalit attribue aux erreurs est autorise prendre
Le calcul du produit scalaire dans H ne ncessite pas lvaluation explicite de nimporte quelle valeur, ont une VC-dimension infinie.
. Dautre part, le plongement dans H = R3 peut rendre possible la sparation
4.4 SVM pour la rgression
linaire de certaines structures de donnes (cf. figure 3).
2
(x21 ,
4.2
Condition de Mercer
122
07/15
wi vi (x).
i=1
E(w, ) =
1X
|yi (xi , w)| + kwk2
n i=1
ign malignant
benign
83
1
o est, comme en rgression ridge, un paramtre de rgularisation assurant
malignant
3
50
le compromis entre gnralisation et ajustement. De mme que prcdemment,
on peut crire les solutions du problmes doptimisation. Pour plus de dtails, et donc une erreur estime de 3%.
se reporter Schlkopf et Smola (2002)[2]. Les points de la base dapprentissage associs un coefficient non nul sont l encore nomms vecteurs support. 5.2 Concentration dozone
Dans cette situation, les noyaux k utiliss sont ceux naturellement associs
Un modle lmentaire avec noyau par dfaut (gaussien) et une pnalisation
la dfinition de bases de fonctions. Noyaux de splines ou encore noyau de de 2 conduit une erreur de prvision estime 12,0% sur lchantillon test.
Driclet associ un dveloppement en srie de Fourier sont des grands clas- La meilleure prvision de dpassement de seuil sur lchantillon test initial
siques. Ils expriment les produits scalaires des fonctions de la base.
est fournie par des SVM d-rgression. Le taux derreur est de 9,6% avec la
matrice de confusion suivante :
Exemples
0
1
Comme pour les rseaux de neurones, loptimisation des SVM qui, en plus
FALSE 161 13
du choix de noyau, peut comporter de 1 3 paramtres (pnalisation et venTRUE
7 27
tuels paramtres du noyau) est dlicate. La figure 4 montre 3 rsultats de validation croise pour le simple noyau linaire dans le cas des donnes NIR.
Ce rsultat serait confirmer avec des estimations systmatiques de lerreur.
Les graphiques de la figure 5 montre le bon comportement de ce prdicteur.
5.1 Cancer du sein
Il souligne notamment leffet "tunnel" de lestimation qui accepte des erreurs
La prvision de lchantillon test par un Sparateur Vaste marge conduit autour de la diagonale pour se concentrer sur les observations plus loignes
donc plus difficiles ajuster.
la matrice de confusion :
123
07/15
Rsidus
200
150
0
100
50
50
100
Valeurs observees
50
250
100
300
50
100
150
200
250
300
Valeurs predites
50
100
150
200
250
300
Valeurs predites
F IGURE 5 Ozone : Valeurs observes et rsidus en fonction des valeurs prdites pour lchantillon test.
5.3
Donnes bancaires
Les donnes bancaires posent un problme car elles mixent variables quantitatives et qualitatives. Celles-ci ncessiteraient la construction de noyaux trs
spcifiques. Leur traitement par SVM nest pas dtaill ici.
Rfrences
[1] Y. Guermeur et H. Paugam-Moisy, Thorie de lapprentissage de Vapnik
et SVM, Support Vector Machines, Apprentissage automatique (M. Sebban
et G. Venturini, rds.), Hermes, 1999, p. 109138.
[2] B Schlkopf et A Smola, Learning with Kernels Support Vector Machines,
Regularization, Optimization and Beyond, MIT Press, 2002.
124
07/15
2.1
Rsum
Introduction
07/15
Yk seulement, si une observation yki est manquante, alors il ny aura plus 2.3 Probabilit dabsence
dobservation de cette variable. Une illustration est donne Figure 1a.
La probabilit dabsence selon le type de donnes manquantes (MCAR,
2. Les valeurs manquantes sont dites monotones si Yj manquante pour MAR, MNAR) peut alors tre exprim en fonction de M [13]. Les donun individu i implique que toutes les variables suivantes {Yk }k>j sont nes sont divises en deux selon la matrice M dindication des donnes
manquantes pour cet individu (Figure 1b). Lindicateur de donnes man- manquantes. On dfinit donc Yobs = Y 1{M =0} les donnes observes et
quantes M est alors un entier M (1, 2, . . . , p) pour chaque individu, Ymis = Y 1{M =1} les donnes manquantes telles que Y = {Yobs , Ymis }. Le
indiquant le plus grand j pour lequel Yj est observ.
mcanisme des donnes manquantes est caractris par la distribution conditionnelle de M sachant Y donne par p(M |Y ).
3. Les valeurs manquantes sont non monotones (ou arbitraires), comme
- Dans le cas des donnes MCAR labsence de donnes ne dpend pas des
le reprsente la Figure 1c Dans ce cas, on dfinit la matrice de valeurs
valeurs de Y donc
manquantes par M = (mij ) avec mij = 1 si yij est manquant et zro
sinon.
p(M |Y ) = p(M ) pour tout Y.
(1)
- Considrons prsent le cas MAR. Soit Yobs la partie observe du jeu de
donnes et Ymis les donnes manquantes. MAR signifie que labsence de
donnes dpend uniquement de Yobs :
p(M |Y ) = p(M |Yobs ) pour tout Ymis .
(2)
(b)
(c)
F IGURE 1 Rpartitions des donnes manquantes. (a) univaries, (b) monotones et (c) arbitraires/non monotones
i=1
o p(yi ) est la densit de yi et p(Mi |yi ) est la densit dune loi de Bernoulli
pour lindicateur binaire Mi avec la probabilit P(Mi = 1|yi ) que yi soit
manquante.
F IGURE 2 Rpartitions des donnes manquantes pour des variables longitudinales. (a) jeu complet, (b) arbitraires/non monotones et (c) monotones
126
07/15
3
3.1
3.2
Si la plupart des mthodes danalyse suppriment automatiquement les donnes manquantes, certaines les tolrent. Cest le cas par exemple des arbres
CART qui considrent des surrogate splits ou divisions de substitution : Au
moment du split dun nud, plusieurs couples variables / seuil optimaux
sont considrs et mmoriss. Au moment de lutilisation, si la donne est
manquante pour une observation, ce nest pas la meilleure division qui est utilise mais celle juste aprs lui est substitue [7].
Dans certains cas, lanalyse est possible sans imputer les donnes manquantes. En gnral, on se reporte deux mthodes classiques :
- Lanalyse des cas concrets, qui consiste ne considrer que les individus pour lesquels toutes les donnes sont disponibles, i.e. en supprimant
les lignes comportant des valeurs manquantes. Cest ce qui est fait automatiquement avec R (na.action=na.omit). Cette mthode, on le
voit bien Figure 3, risque de supprimer trop de donnes et daugmenter de 4 Mthodes dimputation
beaucoup la perte de prcision. De plus, si les donnes ne sont pas MCAR,
retirer des observations va induire un biais dans lanalyse puisque le sousCette section donne un aperu non exhaustif des mthodes de compltion
chantillon des cas reprsents par les donnes manquantes ne sont pas les plus courantes. On considre un jeu de donnes constitu de p variables
forcment reprsentatifs de lchantillon initial.
quantitatives ou qualitatives (Y1 , . . . , Yp ) observes sur un chantillon de n
individus. On dfinit la matrice M dindication des valeurs manquantes par
mij = 1{yij manquante}
4.1
(a)
(b)
Compltion stationnaire
F IGURE 3 Rpartitions des donnes manquantes. (a) donnes dorigine, va(yij )mis = yi? j ? = {yi? j |mi? j = 0, j < j ? }
(4)
leurs manquantes arbitraires, (b) observations restantes en analyse des cas
complets
Cette mthode peut sembler trop nave mais est souvent utilise pour poser
les bases dune comparaison entre mthodes de compltion.
- Lanalyse des cas disponibles. Afin dviter de supprimer trop de donnes, il est possible de faire de la suppression par paires (pairwise dele- 4.2 Compltion par une combinaison linaire des obtion) ou analyse des cas disponibles (available-case analysis). Diffrents
servations
aspects du problme sont alors tudis avec diffrents sous-chantillons.
Une autre technique rpandue consiste remplacer toutes les valeurs manCependant, les diffrentes analyses ne seront pas ncessairement compaquantes par une combinaison linaire des observations. On retiendra le cas
tibles entre elles.
Lanalyse des cas disponibles correspond aussi au cas o une variable est dimputation par la moyenne :
supprime du jeu de donnes cause de sa trop grande quantit de valeurs
manquantes.
(yij )mis = yi? j ? = Yj ?
(5)
127
07/15
tions.
Au lieu dutiliser toutes les valeurs disponibles, il est possible de se res- Algorithme LOESS
treindre des mthodes qui slectionnent les valeurs les plus influentes. Par
1. Obtention des k plus proches voisins Y(i1 ) , . . . , Y(ik )
exemple, on prsente ci-dessous des mthodes dagrgation locale ou de rgression ainsi que des algorithmes combinant diffrents aspects.
2. Cration des matrices A Rk(nq) , B Rkq et w R(nq)1 de
sorte que :
4.3 Mthode des plus proches voisins (KNN)
- Les lignes de A correspondent aux voisins privs des valeurs aux
indices des donnes manquantes de Yi?
- Les colonnes de B correspondent aux valeurs des voisins aux indices des donnes manquantes de Yi?
1
=
Y(i1 ) + . . . + Y(ik )
k
(8)
xRk
(7)
4.4
Rgression locale
(9)
4.5
Algorithme NIPALS
128
07/15
q
X
h uh
(10)
q
X
h (i)
uh (j)
(12)
h=1
h=1
o q = dimL2 (Y ) et {h }h=1,...,q sont les composantes principales et 4.6 Par dcomposition en valeurs singulires (SVD)
{uh }h=1,...,q les vecteurs principaux de lACP de Y . Donc pour chaque va4.6.1 Cas o il y a suffisamment de donnes observes
riable Yi on a
q
X
Sil y a bien plus de donnes observes que de donnes manquantes, on sYi =
h uh (i)
(11)
pare
le jeu de donnes Y en deux groupes : dun ct Y c avec les observations
h=1
compltes et de lautre Y m comprenant les individus pour lesquels certaines
Lide tant que pour chaque h, uh (i) reprsente la pente de la rgression
donnes manquent. On considre alors la dcomposition en valeurs singulires
linaire de Yi sur la composante h . Lalgorithme NIPALS va permettre
(SVD) tronque du jeu complet [6] :
dobtenir {h }h=1,...,q et {
uh }h=1,...,q les approximations de {h }h=1,...,q et
Yc = UJ DJ VJ>
(13)
{u }
.
h h=1,...,q
2
J
X
X
Yi?
min
vlj j
(14)
RJ
j=1
i observes
Algorithme NIPALS
1. Y 0 = Y
2. Pour h = 1, . . . , q faire
(a) h = Y1h1
(b) Tant que uh na pas converg faire
i. Pour i = 1, . . . , p faire
P
uh (i) =
h1
yji
h (j)
2
j:h (j) existe h (j)
ii. Normaliser uh
Soit VJ? la version tronque de VJ , cest dire pour laquelle les lignes correspondant aux donnes manquantes de la ligne Yi? sont supprimes. Une solution
du problme 14 est alors
= (V ?> V ? )1 V ?> Yi?
(15)
J
h (i) =
(c) Y h = Y h1 h u0h
h1
j:y existe yij uh (j)
Pij
2
j:yij existe uh (j)
o VJ
(16)
X de rang J
k Y c X kF
(17)
07/15
4.6.2
Si les donnes manquantes sont trop nombreuses, cela induira un biais important dans le calcul de la base de dcomposition. De plus, il arrive quil y ait
au moins une donne manquante pour toutes les observations. Dans ce cas, il
faut rsoudre le problme suivant :
min
UJ ,VJ ,DJ
k Y m UJ DJ VJ> k?
(18)
s
2. ymis
les valeurs manquantes dans Y s
3. X s = Y \ Y s lensemble des rgresseurs de Y s parmi lesquels on considre
(a) xsobs les rgresseurs observs pour isobs = {i, . . . , n} \ ismis
(b) xsmis les rgresseurs manquants pour ismis
4.7
(20)
07/15
4.8
Infrence Baysienne
paramtres du modle. Une autre hypothse est que les donnes sont MAR
donc
Soit la ralisation dune variable alatoire et soit p() sa distribution a
p(M |Y ) = p(M |Yobs )
(22)
priori. La distribution a posteriori est donc donne par :
La vraisemblance p(Yobs |) scrit alors
p(|Yobs ) p()f (Yobs ; )
(21)
p(Yobs , M |) = p(M |Yobs )p(Yobs |)
La mthode de data augmentation de Tanner et Wong (1987) [10] simule
de manire itrative des chantillons alatoires des valeurs manquantes et des Donc
paramtres du modle, compte tenu des donnes observes chaque itration,
L(|Yobs ) p(Yobs |)
constitue dune tape dimputation (I) et dune tape postrieure (P).
Or en utilisant la proprit itrative de lesprance
Soit (0) un tirage initial obtenu partir dune approximation de la distribuZ
tion a posteriori de . Pour une valeur (t) de un instant t
(t+1)
p(Y
|)
=
p(Y |)dYmis
(t)
obs
Imputation (I) : soit Y
avec une densit p(Y |Y , )
mis
(t+1)
(25)
4.9
(24)
mis
obs
(t)
p(|Yobs , Ymis )
(23)
Z
p(|Yobs ) p(Yobs |) =
p(Y |)dYmis
(26)
Imputation multiple
4.10
Amelia II
131
07/15
Ce jeu de donnes rel comporte au moins une valeur manquante par individu, et au total 50.4% des donnes sont manquantes. Si on ne considre que
la consommation mensuelle individuelle, sans variables exognes, on obtient
la rpartition des erreurs de chaque mthode reprsente Figure 4.
5.2
On sintresse aux cours des actifs boursiers sur la place de Paris de 2000
2009. On considre 252 cours dentreprises ou indices rgulirement cots
sur cette priode. En se limitant au cas MCAR, on cre artificiellement de plus
en plus de donnes manquantes imputer. Pour 10% de donnes manquantes,
une comparaison des mthodes dimputations est donnes Figure 5. Trois mthodes se dtachent visiblement : SVD, missForest et AmeliaII.
07/15
Rfrences
1987.
[1] Gelman A. et Hill J., Data Analysis Using Regression and Multilevel/Hierarchical Models, chap. 25, p. 529563, Cambridge University Press,
2007.
[2] K. Bache et M. Lichman, UCI Machine Learning Repository, 2013,
http://archive.ics.uci.edu/ml.
[3] Preda C., Saporta G. et Hedi Ben Hadj Mbarek M., The NIPALS algorithm for missing functional data, Romanian Journal of Pure and Applied
Mathematics 55 (2010), no 4, 315326.
[4] Rubin D.B., Multiple Imputation for Nonresponse in Surveys, Wiley,
133
10
[8] Honaker J., King G. et Blackwell M., Amelia II : A Program for Missing
Data, Journal of statistical software 45 (2011), no 7.
[9] Glasson Cicignani M. et Berchtold A., Imputation de Donnees Manquantes : Comparaison de Differentes Approches, 42e Journees de Statistique, 2010.
[10] Tanner M.A. et Wong W.H., The Calculation of Posterior Distributions
by Data Augmentation, Journal of the American Statistical Association
82 (1987), no 398, 528540.
[11] Setiawan N.A., Venkatachalam P.A. et Hani A.F.M., A Comparative
Study of Imputation Methods to Predict Missing Attribute Values in Coronary Heart Disease Data Set, 4th Kuala Lumpur International Conference on Biomedical Engineering 2008 (University of Malaya Department of Biomedical Engineering Faculty of Engineering, rd.), t. 21,
Springer Berlin Heidelberg, 2008, p. 266269.
[12] Detrano R., Janosi A., Steinbrunn W., Pfisterer M., Schmid J., Sandhu S.,
Guppy K., Lee S. et Froelicher V., International Application of a New
Probability Algorithm for the Diagnosis of Coronary Artery Disease,
American Journal of Cardiology 64 (1989), 304310.
[13] Little R.J.A. et Rubin D.B., Statistical Analysis with Missing Data, Wiley
series in probability and statistics, 1987.
[14] Grzymala Busse J. W., Grzymala Busse W. J. et Goodwin L. K., Coping With Missing Attribute Values Based on Closest Fit in Preterm Birth
Data : A Rough Set Approach, Computational Intelligence 17 (2001),
425434.
[15] Cleveland W.S. et Devlin S.J., Locally-Weighted Regression : An Approach to Regression Analysis by Local Fitting, Journal of the American
Statistical Association 83 (1988), no 403, 596610.
134
07/15
En guise de conclusion
Objectifs
En guise de conclusion
Rsum
1. Exploration multidimensionnelle ou rduction de dimension : production de graphes, dun sous-ensemble de variables reprsentatives Xr , dun
ensemble de composantes Cq pralables une autre technique.
Dautres mthodes plus spcifiques certaines problmatiques peuvent apparatre (analyse sensorielle, analyse conjointe, SARIMA. . . mais leur usage reste
limit des contextes bien particuliers.
Les chapitres prcdents dcrivent les outils de base du prospecteur de donnes tandis que les logiciels commerciaux en proposent une intgration plus ou Outils
moins complte, plus ou moins conviviale de mise en uvre. En pratique, lenLes mthodes utilisables se classent en fonction de leur objectif et des types
chanement de ces techniques permet la mise en place de stratgies de fouille de variables prdictives et cibles.
bien dfinies. Celles-ci dpendent essentiellement des types de variables consiExploration
drs et des objectifs poursuivis.
ACP
Types de variables
XR et
AFCM XE et
XR et
Modlisation
1. Modle linaire gnralis
RLM
XR et Y
ANOVA XE et Y
1. Une variables explicative qualitative 2 modalits (0,1) peut tre considre comme quantitative ; cest lindicatrice des modalits.
135
ACOVA XRE et Y
Rlogi XRE et Z
07/15
En guise de conclusion
Lglin XT et T
2. Analyse discriminante
ADpar/nopar XR et T
Comparer les distributions et moyennes des erreurs de prvision, ventuellement les courbes ROC.
Choisir une mthode et le modle associ de complexit optimale et le restimer sur lensemble de lchantillon.
percep XRE et Y ou T
5. Agrgation de modles
Bagging XRE et Y ou T
La procdure dcrite ci-dessus a t systmatiquement mise en uvre en automatisant dans R lextraction alatoire dun chantillon test et les estimations, optimisations des diffrents modles. Les codes sont disponibles sous forme de scnarios sur le
site wikiwtat. La librairie caret (Kuhn, 2008)[1] savre trs efficace pour mettre en
uvre cette dmarche. Loptimisation des paramtres est ralise par validation croise.
RandFor XRE et Y ou T
Boosting XRE et Y ou T
6. Support Vector Machine
SVM-R XRE et Y
SVM-C XRE et T
Stratgies
Les stratgies classiques de la fouille de donnes consistent enchaner les tapes
suivantes :
Chaque chantillon test fournit donc une estimation sans biais de lerreur de prvision. La distribution de ces erreurs est alors reprsente par des diagrammes en botes.
En discrimination binaire, des courbes ROC compltent les rsultats. Les figures suivantes synthtisent les rsultats pour les donnes de cancer du sein, de chromatographie
NIR (cookies), de prvision du pic dozone et enfin bancaires (apptence carte visa premier). dautres exemples sont traites sur le site wikiwtat.
2. Exploration
Tri plat, et tude des distributions : transformation, recodage ventuel des
variables quantitatives, regroupement de modalits des variables qualitatives,
limination de variables (trop de donnes manquantes, quasi constantes, redondantes. . . ). Gestion des donnes manquantes et valeurs atypiques.
tude bivarie, recherche dventuelles relations non linaires, de variables redondantes, dincohrences.
tude multivarie, reprsentations en dimension rduite (ACP, AFCM) et classification non-supervise par classification ascendante hirarchique (CAH) ou
kmeans ou stratgie mixte.
Les principaux piges qui peuvent tre rencontrs au cours dune prospection
peuvent tre le rsultat dun acharnement en qute de sens (data snooping). Cela signifie qu force de creuser, contrairement un prospecteur minier la recherche de
diamants bien rels, le prospecteur en donnes disposant dun grand nombre de variables finit bien, en mode exploratoire, par trouver des relations semblant hautement
significatives. Par exemple, au seuil classique, 5% des tests sont, tort, significatifs et
conduisent des "faux positifs" ou des fausses corrlations. Il suffit donc den faire
beaucoup, de croiser beaucoup de variables, pour ncessairement trouver du "sens"
dans des donnes. Encore une fois, il est prfrable dviter le fonctionnement "Shadock" (cf. figure 10) : je nai quune chance sur un milliard de russir ; je me dpche
donc de rater le plus dessais possibles.
Piges
07/15
En guise de conclusion
err.lm
err.tree
err.neur
err.bag
err.rf
err.svm
0.0
0.1
0.00
0.2
0.02
0.3
0.04
0.4
0.5
0.06
0.08
0.10
0.12
0.14
137
07/15
En guise de conclusion
07/15
En guise de conclusion
F IGURE 6 Ozone : Attention,lchantillon test est petit et les courbes ROC F IGURE 7 Ozone : Les courbes ROC moyennes, qui permettraient de dtersont fortement disperses. Il est important den calculer une moyenne sur les miner un seuil de dclenchement dalerte, soulignent les meilleures comportements des SVM et de Random forest aprs rgression.
50 chantillons tests.
139
07/15
En guise de conclusion
140
07/15
En guise de conclusion
4
4.1
Rle du statisticien
Des comptences multiples
Une bonne pratique du Data Mining ncessite de savoir articuler toutes les mthodes
entrevues dans ce document. Rude tche, qui ne peut tre entreprise qu la condition
davoir trs bien spcifi les objectifs de ltude. On peut noter que certaines mthodes
poursuivent les mmes objectifs prdictifs. Dans les bons cas, donnes bien structures,
elles fourniront des rsultats trs similaires, dans dautres une mthode peut se rvler
plus efficace compte tenu de la taille de lchantillon ou gomtriquement mieux adapte la topologie des groupes discriminer ou encore en meilleure interaction avec
les types des variables. Ainsi, il peut tre important et efficace de dcouper en classes
des variables prdictives quantitatives afin dapprocher de faon sommaire une version
non-linaire du modle par une combinaison de variables indicatrices. Cet aspect est par
exemple important en rgression logistique ou avec un perceptron mais inutile avec des
arbres de dcisions qui intgrent ce dcoupage en classes dans la construction du modle (seuils optimaux). Dautre part, les mthodes ne prsentent pas toutes les mmes
facilits dinterprtation. Il ny a pas de meilleur choix a priori, seule lexprience et un
protocole de test soign permettent de se dterminer. Cest la raison pour laquelle des
logiciels gnralistes comme SAS (module Enterprise Miner) ou la librairie caret de
R ne font pas de choix et offrent ces mthodes en parallle pour mieux sadapter aux
donnes, aux habitudes de chaque utilisateur (client potentiel) et la mode.
4.2
De lutilit du statisticien
4.3
Le travail demand dborde souvent du rle dun statisticien car la masse et la complexit des donnes peuvent ncessiter le dveloppement dinterfaces et doutils graphiques sophistiqus permettant un accs aiss aux donnes, comme des rsultats,
par lutilisateur finale laide par exemple dun simple navigateur sur lintranet de
lentreprise. Nanmoins, au del de ces aspects plus "informatiques", lobjectif principal reste une qute de sens en vue de faciliter les prises de dcision tout en en
prservant la fiabilit. Ainsi, la prsence ou le contrle dune expertise statistique reste
incontournable car la mconnaissance des limites et piges des mthodes employes
peut conduire des aberrations discrditant la dmarche et rendant caducs les investis-
Le volume des donnes gnres et stockes pas les entreprises industrielles et celles
du e-commerce font franchir une nouvelle tape. Nous passons du TraOctet au PtaOctet. Comme expliqu rapidement en introduction, cette nouvelle tape engendre de
nouvelles approches tant pour les architectures des bases de donnes, la paralllisation
des calculs, que pour les algorithmes et mthodes mises en uvre.
Dun point de vue informatique, une connaissance du nouveau standard Hadoop 2 est
2. Cr en 2009 et dvelopp en Java par Doug Cutting au sein des projets de la fondation des
logiciels libres Apache. Il est inspir des principes de MapReduce de Google.
141
07/15
En guise de conclusion
142
07/15
Rfrences
[1] Max Kuhn, Building Predictive Models in R Using the caret Package, Journal of
Statistical Software 28 (2008), no 5.
Introduction
Les exemples historiques montrent que le dbat sur les mauvais usages innocents ou intentionnels de la Statistique est ancien. Il ne faudrait nanmoins
Depuis ses dbuts ou tout du moins depuis le dbut du XIX-ime sicle, pas penser quavec le temps et laccroissement des connaissances, la place et
la Statistique bnficie dune renomme plus ou moins douteuse, certes par limage de cette discipline aient favorablement progress. Strasak et al. (2007)
publi Statistical errors in medical
mconnaissance dune discipline aux concepts difficiles mais aussi cause de de lUniversit mdicale dInnsbruck ont
research a review of common pitfalls 2 ; titre auquel nous aimerions ajouter :
nombreux abus.
pitfalls or fakes ?
Ainsi, en 1906 Mark Twain attribuait, sans doute tort, un premier ministre
britannique la trop clbre maxime : There are three kinds of lies: lies, damned 1.2 Motivations
lies, and statistics.
La rdaction de ce texte est motive par une concentration daffaires qui ont
videmment les statisticiens acadmiques se sont fortement alarms des
secou ou qui rgulirement secouent lenvironnement politico-mdiatique :
mauvais usages de leur discipline et donc des mauvais procs qui leur taient
affaire du Mediator de Servier, conflits rcurrents autour des OGM, crise fiintents. Ds dcembre 1938, Jerome B. Cohen publie un article dans le
nancire omniprsente depuis 2008. Contribuant former des professionnels
1
Journal of the American Statistical Association qui dcrit : The misuse of
de la Statistique actifs dans des domaines trs divers (figure 2), il me semble
statistics.
important de les sensibiliser aux difficults, voire aux pressions, auxquelles ils
Darrel Huff (1954) [4] est lauteur dun bestseller trs souvent rdit (figure vont se trouver professionnellement confronts :
1.1
143
07/15
des interrogs avaient manqu la dontologie. Parmi le top 10 des mauvaises pratiques se classent en premier : Falsifier ou arranger les donnes
et en septime : Omettre de prsenter des donnes parce quelles seraient en
contradiction avec vos prcdentes recherches. Dans le mme ordre dide, Fanelli (2009) [3] propose dans cet article une mta-analyse de 18 enqutes sur
les falsifications de la recherche et principalement des donnes. Pour rsumer
brivement, 2% de scientifiques admettent avoir eux-mmes falsifi ou modifi des donnes et ce pourcentage monte 14% propos du comportement
F IGURE 2 Les statisticiens travaillent dans des domaines sensibles dun des autres collgues. Cette tude retrouve le chiffre de 33% de manquement
point de vue thique et socitale : autorisation de mdicaments et veille sani- gnral dontologique, chiffre port 72% propos des autres collgues.
taire, critres daffectation de crdits, produits et risques financiers...
1.3
ques : crdit renouvelable ou revolving (en cause dans 80% des dossiers
de surendettement), instruments financiers douteux...,
justifier de linnocuit ou de lefficacit de produits industriels (mdicaments, agroalimentaire, bio et nanotechnologies...),
pressions politiques (sondages, statistiques publiques).
Un seuil dindignation tant largement dpass, notamment avec le scandale du Mediator, il nous a sembl important de mieux formaliser par crit le
contenu de ces questions dontologiques en plus des remarques et commentaires oraux intervenant en prsence des tudiants. Lobjectif est donc de faire
rflchir sur le rle de la Statistique et les responsabilits de ses principaux acteurs quand il sagit daider lvaluation des risques ou la prise de dcision.
La dontologie statistique nest quun lment du dbat beaucoup plus large
sur lthique de la recherche scientifique. Le texte de ce document est volontairement cibl sur le bon usage de la Statistique et galement dat par certains vnements de lanne 2011 mais son contenu restera malheureusement
dactualit compte tenu du sujet. Ainsi, dans le numro 36 de mars 2012, le
Contenu
Une premire section rappelle quelques fraudes clbres et videntes de falsifications ou dissimulations de donnes parmi celles qui ont videmment t
dceles dans diffrents domaines de la recherche ; celles-ci sont relativement
faciles mettre en vidence ou prouver ds que la supercherie est souponne.
En revanche, une section suivante aborde un exemple de malversation plus habile concernant une mauvaise utilisation de mthodes statistiques (i.e. les tests)
ou leur utilisation hors limite de validit ou encore sans contrle explicite dune
marge derreur. Alors que les falsifications de donnes ne laissent plus gure
de doute et se terminent mme devant les tribunaux, les mauvais usages de la
Statistique peuvent gnrer des querelles dexperts lourdes et sans conclusion
tranche ne serait-ce que par le cot des exprimentations quil faudrait entreprendre pour arriver une rponse significative. Une dernire section tche de
faire le tour des dmarches dassociations professionnelles soucieuses de ces
difficults et qui ont propos des codes de dontologie statistique.
Falsifications et dissimulations
Internet et plus prcisment Wikipedia regorgent dinformations sur les falsifications et fraudes scientifiques historiques ainsi que sur les mauvais usages
(misuse) de la Statistique.
2.1
Statistiques publiques
Nos collgues britanniques rappellent que leurs Politicians use statistics like
drunkards use lampposts : not for illumination, but for support. Nos homo-
144
07/15
Ce nest quau dbut des annes 70 que de srieux doutes furent mis ou de
logues franais nont rien leur envier. Les exemples sont malheureusement
trs, trop nombreux. Citons une affaire qui montre nettement les relations dif- violentes accusations prononces sur la pertinence de ces travaux : rfrence
ficiles entre monde politique et statistique officielle publique. Le 25 mai 2011, des publications inexistantes ou introuvables et surtout des corrlations identiques la 3me dcimales entre des tudes spares de plus de 20 ans ! Les
Claude Guant, Ministre de lIntrieur, sexprime sur Europe 1 :
carnets dexprience de Burt nont pas t retrouvs et des doutes plus que sles deux tiers des checs scolaires, cest lchec denfants dimmirieux ont t soulevs sur la ralit des expriences notamment celles de 1966.
grs.
Il a fallu un mois et une menace srieuse de grve de la part des syndicats de 2.3 Sciences du vivant
lINSEE pour obliger la direction de cet organisme public rtablir les chiffres
Lexemple suivant illustre la pression considrable qui pse sur la recherche
travers un communiqu officiel le 27/06/2011 :
scientifique, son financement, la renomme de ses acteurs et leur carrire. Il
La proportion denfants dimmigrs parmi les lves sortis sans quadborde largement le cadre dun mauvais usage de mthodes statistiques.
lification de lenseignement secondaire peut tre estime environ
Hwang Woo-suk est un sud-coren qui est (fut) trs rput dans la recherche
16% pour les enfants de familles immigres. Si on y ajoute les ensur
le clonage (le chien Snuppy) et les cellules souches. Lui et son quipe
fants de familles mixtes, cette proportion passe environ 22%.
publient 2 articles dans Science en 2004 sur le clonage dun embryon humain
Le ministre, accus par lopposition de stigmatiser les immigrs pour sduire
pour la production de cellules souches, et en 2005 sur la production de 11
les lecteurs dextrme droite, avait affirm sappuyer sur des tudes de lInsee
lignes de cellules souches partir de cellules de peau de patients adultes.
et a envoy plusieurs droits de rponse des mdias qui crivaient que ses
Les consquences thrapeutiques de tels rsultats seraient considrables. Ces
chiffres taient faux. (Le Monde du 28/06/2011).
rsultats lui valurent le titre de Supreme Scientist assorti de prix financiers
trs substantiels et de dons trs gnreux de fondations pour ses recherches.
2.2 Sciences humaines
Dans ce domaine aussi, les exemples seraient nombreux. Citons celui historique de laffaire Burt. Sir Cyril Burt, professeur de Psychologie Londres
en 1931 fut Prsident de la British Psychology Society puis diteur en chef du
Journal of Statistical Psychology. Il reste clbre pour des contributions la
Statistique (les tableaux de contingences multiples portent son nom) et aussi
pour son influence sur lorganisation du systme ducatif britannique : Burt
ayant prouv linfluence prpondrante de lhrdit sur lintelligence (mesure par le QI de Binet), cela justifierait dorienter par un examen (eleven
plus) les lves ds 11 ans vers une filire primaire, moyenne ou suprieure
(grammar-modern-technical) en fonction de leurs notes.
Burt affirme, au cours de 3 tudes (1955, 1958, 1966), que la corrlation des
QIs entre couples de jumeaux homozygotes levs dans des milieux diffrents
ds leur enfance est significativement plus leve que la corrlation entre les
QIs de couples de jumeaux htrozygotes levs dans un mme milieu social.
Il montrerait ainsi limportance de la notion de quotient intellectuel et leur
hritabilit.
A la suite de nombreuses pripties scientifico-mdiatiques, une commission denqute de lUniversit de Soul dnonce la falsification (fabrication de
donnes) en dcembre 2005 et ce chercheur est inculp le 12 mai 2006 pour
fraude, dtournements de fonds et violation des lois sur la biothique. Les
montants des dtournements, des corruptions, des achats illgaux dovocytes
se chiffrent en centaines de millions de dollars. Il a t dclar coupable en
octobre 2009 de dtournements de fonds et violation des lois sur la biothique,
mais pas de fraude, puis condamn 2 ans de prison avec sursis.
2.4
Sciences de la terre
145
07/15
gnrale, en modifier le trac partir de 1900 puis lextrapoler trs approximativement jusquen 2100 sans aucune justification et avec le seul objectif de
soutenir ses arguties plus polmiques que scientifiques.
Bien sr, la seule vue de la courbe rouge, un statisticien familier des sries chronologiques identifie une tendance, plutt la baisse, et une priodicit
de lordre de 250 ans. Tout laisse penser que Claude Allgre a prolong
la louche cette courbe sans videmment tenir compte de tous les travaux de
modlisation entrepris par la communaut scientifique active en climatologie
et les paramtres de forage (concentration de CO2) ou covariables susceptibles dintervenir. Cette communaut sest dailleurs mobilise (600 signataires) pour rclamer lorganisation dun vrai dbat sur le climat (Le Monde du
9 avril 2010).
146
07/15
Abus mthodologique
Les exemples prcdents mettent en vidence des cas de manquements dontologiques vidents par falsifications et/ou dissimulations de donnes qui
conduisent des procdures judiciaires. Dans dautres cas, la preuve de la
fraude ou du manquement thique nest pas aussi simple apporter et relve
dune valuation experte afin de mettre en vidence une utilisation abusive
dune mthode statistique. Lexemple du mas OGM MON810 va permettre
dillustrer cette situation. Le site de Marc Lavielle, membre du Haut Comit
pour les Biotechnologies, fournit des dtails prcis sur cette affaire politicoscientifico-mdiatique (fig. 4).
07/15
3.2
07/15
3.3
Test statistique
b
riances quil est dusage de vrifier pralablement par un test de Fisher), le test
de Student est un usage courant.
appele statistique de test, est la ralisation dune variable alatoire qui suit
Test de Student dgalit des moyennes
une loi dite de Student (2n 2) degrs de libert dont la fonction de densit
est reprsente figure 7. La zone rouge reprsente = 5% de la surface ou
Ce test sintresse lhypothse dite H0 : 1 = 2 ou = 1 2 = 0
probabilit tandis que le reste reprsente (1 ) = 95%. Si la statistique de
et lhypothse alternative H1 : 1 6= 2 .
test observe sur lchantillon est, en valeur absolue, suffisamment grande pour
Attention, la faon de poser lhypothse H0 nest pas neutre, elle prsume tomber dans la zone rouge de cette densit, la diffrence entre les moyennes
implicitement linnocence du mas et cest aux donnes, aux expriences, est juge significativement diffrente de 0 ; lhypothse H0 est rejete. Ou endapporter la preuve du contraire, le rejet de lhypothse H0 au profit de H1 . core, la probabilit de se tromper en rejetant H0 est infrieure au seuil pralaEn effet, le risque (not ) de se tromper ou de rejeter tort lhypothse H0 blement dtermin , et le test est jug significatif.
au profit de lhypothse alternative H1 et celui (not ) daccepter tort cette
mme hypothse ne sont pas identiques. Ceci se rsume de faon gnrale dans Puissance de test
le tableau ci-dessous :
Une autre question concerne le contrle de lerreur daccepter tord lhypothse
H0 (innocuit du mas MON810) alors que cest H1 qui est vraie (inAccepter H0
Rejeter H0
fluence
de
la consommation de MON810). Cette erreur (figure 8) ou risque de
H0 vraie Probabilit 1
Probabilit
2me
espce
dpend de plusieurs paramtres :
H1 vraie
Probabilit
Probabilit 1
du choix du seuil (en gnral = 5%),
Si H0 est vraie, la probabilit (1 ) est celle dune dcision correcte et
de lcart rel 1 2 (hypothse H1 vrifie),
est appel risque ou erreur de premire espce.
de la dispersion des valeurs ou variance 2 ,
Si H1 est vraie, la probabilit est le risque ou erreur de deuxime es et aussi de la taille n des groupes ou chantillons.
pce daccepter tort H0 tandis que la probabilit (1 ) est celle dune Plus prcisment, il est possible de montrer que plus n crot, plus dcrot.
dcision correcte, elle est appele puissance du test.
Ou encore, plus n est grand et plus il est possible de dtecter significativement
une diffrence relle mais faible entre les moyennes 1 et 2 .
Risque de premire espce
Voila toute la difficult du dbat autour dun test statistique li une exLe risque ou seuil est celui qui est plus particulirement contrl par lex- primentation. Si la taille n de lchantillon est suffisamment grande, il est
prience. Une fois observ un chantillon, les moyennes 1 et 2 sont respec- possible dobtenir un test statistiquement significatif alors que la diffrence
tivement estimes par les moyennes empiriques (calcules sur lchantillon) observe na pas de significativit biologique. Rciproquement, si la taille n
c1 et
c2 . La variance 2 est galement estime par la variance empirique
b2 . est trop petite, la puissance de test devient insuffisante et grand est le risque
La question se pose sous la forme suivante :
daccepter tort H0 .
149
07/15
07/15
Ces travaux ont valu en 1997 Robert Merton et Myron Scholes le prix
(Nobel dconomie) de la banque de Sude en honneur Alfred Nobel. Ce
modle et ses extensions ont permis le dveloppement considrable du march des options sur les places financires mais ils ncessitent explicitement
des hypothses trs simplificatrices dont certaines relatives la volatilit (variance), la normalit (mouvement brownien), la rationalit des investisseurs...
ne sont pas vrifies. Dans ses livres sur lapproche fractale des marchs, Benot Mandelbrot (2009, [5])dnonce ces simplifications abusives qui rendent
les modles, certes calculables, mais dconnects des ralits financires. La
succession des crash boursiers semblerait bien justifier ces critiques sur des
modles qui sous-estiment gravement les risques.
Depuis de nombreuses annes, les statisticiens regroups au sein de la Socit Franaise de Statistique et dans dautres associations professionnelles
(administrateurs INSEE) tentent de faire voluer la loi sur la publication des
sondages. Ce lobbying a permis, par le pass, dobliger les instituts prciser
le nombre de personnes enqutes et le mode dchantillonnage. Il serait en
effet trs fallacieux de chercher faire croire quune enqute auprs de lecteurs dun journal, de visiteurs dun site internet ou au mieux dabonns du
tlphone acceptant de rpondre... a la mme prcision quun sondage sur un
chantillon alatoire tir dans une liste lectorale.
Les mdias nont toujours pas obligation de publier conjointement aux rsultats dun sondage, les modes de redressement et les marges dincertitude.
151
07/15
10
Pour ragir aux drives constates dans lusage de leur discipline, les statisticiens professionnels se sont mobiliss pour rdiger des codes de bonne
pratique. Une des principales motivations de ce travail est aussi la structuration dun collectif afin que chaque statisticien puisse mieux se protger des
pressions auxquelles il pourrait tre soumis de la part de sa hirarchie, de son
commanditaire, du pouvoir politique. Dans ce contexte, il faudrait en fait distinguer la Statistique publique 5 dont la crainte principale est dtre infode
au pouvoir politique, la Statistique acadmique en relation avec la recherche
scientifique et enfin celle utilise dans la sphre conomique, industrielle ou
commerciale.
Voici une slection de quelques lments dinformations.
4.1
En france
En France, lassociation des administrateurs de lINSEE (AIS) et lassociation des statisticiens conomistes anciens lves de lENSAE (ASEC) ont
rdig un code dontologique accessible sur le site du syndicat CGT de lINSEE et introduit par Padieu (1991, [7]). Ce texte a t rdig pour rpondre
aux pressions exerces par le pouvoir politique sur la dfinition des chiffres
trs sensibles du chmage dans les annes soixante-dix. Cest pour dfendre
les positions de ce texte que ce syndicat sest mobilis contre les allgations de
Claude Guant (cf. section 1.1) sur la scolarit des enfants dimmigrs.
LAutorit de la Statistique publique veille au respect des principes dindpendance professionnelle, dimpartialit, dobjectivit, de pertinence et de
qualit dans son laboration et sa diffusion.
De son ct, lassociation des pidmiologistes de langue franaise propose
des Recommandations de Dontologie et bonnes pratiques en pidmiologie
(2007) dans un document de 37 pages.
4.2
Niveau europen
5. Voir ce propos le compte-rendu du sminaire organis par la Socit Franaise de Statistique sur lIndpendance de la Statistique publique le 15/12/2008
152
07/15
11
4.3
Niveau international
recherche et donc sur son financement et la promotion des chercheurs. Lvaluation de la recherche peut-elle reposer sur de seuls indicateurs bibliomPour les acteurs conomiques, la Chambre de Commerce Internationale triques ? Conduisant au seul objectif de publier (publish or perish) parfois en
(ICC), organisation mondiale des entreprises, sest associe avec lorganisme contradiction ou en conflit avec celui de lavancement des connaissances pour
ESOMAR qui regroupe les fournisseurs dtudes de marchs et enqutes le bien commun.
dopinion. Ils se rallient au Code International ICC/ESOMAR de pratiques
loyales en matire dtudes de march et dopinion (1995).
Rfrences
[2] Melissa Anderson, Vers un code dthique mondial de la recherche scientifique, 2011, Accs site.
Conclusion
[3] Daniele Fanelli, How Many Scientists Fabricate and Falsify Research ? A Systematic Review and Meta-Analysis of Survey Data, PLoS
ONE 4 (2009), no 5, e5738, http://dx.doi.org/10.1371%
2Fjournal.pone.0005738.
[4] Darrel Huff, How to lie with Statistics, Norton & Company, 1954.
[5] Benot Mandelbrot, Une approche fractale des marchs : risquer, perdre
et gagner, deuxime d., Odile Jacob, 2009.
[6] N. Oreskes et M. Conway, Les Marchands de doute, ou comment une poigne de scientifiques ont masqu la vrit sur des enjeux de socit tels
que le tabagisme et le rchauffement climatique, Le Pommier, 2012.
[7] Ren Padieu, La dontologie des statisticiens, Socits Contemporaines 7
(1991), 3561.
153
07/15
Introduction au bootstrap
1.1
Introduction au bootstrap
Principe du plug-in
Soit x = {x1 , . . . , xn } un chantillon de taille n issue dune loi inconnue F sur (, A). On appelle loi empirique Fb la loi discrte des singletons
(x1 , . . . , xn ) affects des poids 1/n :
Rsum
Prsentation succincte du principe du bootstrap.
Fb =
n
X
xi .
i=1
Introduction
n
X
1
La motivation du bootstrap 1 (Efron, 1982 ; Efron et Tibshirani, 1993) est
b(P )F (A) = P b (A) =
xi (A) = Cardxi A.
F
dapprocher par simulation (Monte Carlo) la distribution dun estimateur
n
i=1
lorsque lon ne connat pas la loi de lchantillon ou, plus souvent lorsque
lon ne peut pas supposer quelle est gaussienne. Lobjectif est de remplacer De manire plus gnrale, soit un paramtre dont on suppose que cest une
des hypothses probabilistes pas toujours vrifies ou mme invrifiables par fonction de la loi F . on crit donc = t(F ). Par exemple, = E(F ) est un
des simulations et donc beaucoup de calcul.
paramtre de F suivant ce modle. Une statistique est une fonction (mesurable)
Le principe fondamental de cette technique de r-chantillonnage est de sub- de lchantillon. Avec le mme exemple :
stituer la distribution de probabilit inconnue F , dont est issu lchantillon
n
1X
dapprentissage, la distribution empirique Fb qui donne un poids 1/n chaque
b=x=
xi
n i=1
ralisation. Ainsi on obtient un chantillon de taille n dit chantillon bootstrap
selon la distribution empirique Fb par n tirages alatoires avec remise parmi les
et x est la statistique qui estime . On dit que cest un estimateur plug-in et,
n observations initiales.
Il est facile de construire un grand nombre dchantillons bootstrap sur plus gnralement,
1.2
154
Ce qui scrit :
X
Introduction au bootstrap
(F , F2 ).
2.2
Soit (XP
1 , . . . , Xn ) n variables alatoires i.i.d. suivant aussi la loi F . Posons
n
b
X = n1 i=1 Xi . Cette variable alatoire a pour esprance F et pour variance D FINITION 3. On appelle estimation bootstrap de lcart-type c
F () de
2
F /n. On dit aussi que la statistique
b
b
, son estimation plug-in : Fb ().
X (F , F2 /n).
Mais, part dans le cas trs lmentaire o, comme dans lexemple ci-dessus,
Remarquons quen moyennant plusieurs valeurs ou observations, on rduit la est une moyenne, il ny a pas de formule explicite de cet estimateur. Une apb
variance inhrente une observation. De plus, sous certaines conditions sur la proximation de lestimateur bootstrap (ou plug-in) de lcart-type de est obtenue
par
une
simulation
(Monte-Carlo)
dcrite
dans
lalgorithme
ci-dessous.
loi F et comme rsultat du thorme de la limite centrale, X converge en loi
vers la loi normale.
Pour un paramtre et un chantillon x donns, on note b = s(x) lestimation obtenue sur cet chantillon. Une rplication bootstrap de b est donne
Lestimateur plug-in de F est dfini par :
par : b = s(x ).
2
2
b2 = c
=
Var
(X)
F = F
b
b
F
A LGORITHME 1 : Estimation de lcart-type
n
1X
= EFb [(X EFb (X))2 ] =
(Xi X)2 .
Soit x un chantillon et un paramtre.
n i=1
for b = 1 B do
b
Slectionner 1 chantillon bootstrap xb = {xb
1 , . . . , xn }. par tirage
Lestimateur plug-in de F est (lgrement) diffrent de celui du maximum de
avec
remise
dans
x.
vraisemblance. Lestimateur plug-in est en gnral biais mais il a lavantage
Estimer sur cet chantillon : b (b) = s(xb ).
dtre simple et de pouvoir sappliquer tout paramtre mme lorsque lon
end
for
ne peut pas calculer la vraisemblance du modle.
Calculer lcart-type de lchantillon ainsi construit :
bB
1 X b
( (b) b (.))2
B1
B
1 X b
( (b).
B
b=1
Soit b = s(x) un estimateur quelconque (M.V. ou autre) de pour un chantillon x donn. On cherche apprcier la prcision de b et donc estimer son
cart-type.
2.1
avec b (.)
b=1
chantillon bootstrap
2.3
Estimation du biais
Introduction au bootstrap
Le bootstrap rapidement dcrit ici est dit non-paramtrique car la loi empirique Fb est une estimation non-paramtrique de F . Dans le cas o F serait
connue un paramtre prs, il existe galement une version dite paramtrique
du bootstrap.
b
b
b
Bc
F () = BF
b () = EF
b [s(x )] t(F ).
observations. Ce sont les rsidus qui sont en effet supposs i.i.d. et qui vrifient
donc les hypothses ncessaires mais cette approche devient trs sensible
Comme pour lcart-type, il nexiste gnralement pas dexpression analytique
lhypothse sur la validit du modle. Il est finalement dusage de considrer
et il faut avoir recours une approximation par simulation.
un chantillon bootstrap issu des donnes initiales (Efron et Tibshirani) :
A LGORITHME 2 : Estimation bootstrap du biais
Soit x un chantillon et un paramtre.
for b = 1 B do
b
Slectionner 1 chantillon bootstrap xb = {xb
1 , . . . , xn }. par tirage
avec remise dans x.
Estimer sur cet chantillon la rplication bootstrap de b : b (b) = s(xb ).
end for
PB
Approcher EFb [s(x )] par b (.) = B1 b=1 (b (b)
b
b
b
Lapproximation bootstrap du biais est : Bc
B () = (.) .
b
b b
zb = {(xb
1 , y1 ), . . . , (xn , yn )};
Complments
En rsum, on peut dire que le bootstrap repose sur une hypothse trs lmentaire : b se comporte par rapport b comme b par rapport . La connaisb
sance de b (distribution, variance, biais. . . ) renseigne alors sur celle de .
Beaucoup dautres complments sont rechercher dans la littrature et en
particulier dans Efron et Tibshirani (1993). Il est ainsi possible de dfinir des
intervalles de confiance bootstrap en considrant la distribution et les quantiles de b ou mme encore des tests partir des versions bootstrap de leur
statistique.
156
07/15