Apprentissage Statistique Et Data Mining

Apprentissage Statistique & Data mining
P HILIPPE B ESSE
Version Octobre 2006
Institut de Math ematiques de Toulouse Laboratoire de Statistique et Probabilit es UMR CNRS C5583 Institut National des Sciences Appliqu ees de Toulouse 31077 Toulouse cedex 4.
Chapitre 1 Introduction
1 Objectif
Lobjet de ce cours est dintroduire, sous une forme homog` ene et synth etique, les techniques de mod elisation statistique et issues de la th eorise de lapprentissage utilis ees le plus couramment en fouille de donn ees ou data mining dans des champs dapplications tr` es divers : industriels, marketing, ou encore en relation avec emiologie... des th ematiques de recherche en Biologie, Epid La premi` ere partie ou premier objectif dune telle d emarche : lexploration statistique et la recherche de classes est d evelopp ee dans un autre document (Baccini et Besse 2000). Ce cours se focalise sur le deuxi` eme objectif de la fouille de donn ees qui est la recherche dinformations pertinentes (de p epites dinformation) ` la d pour laide a ecision et la pr evision. ` la fouille de donn La section 2 suivante de ce chapitre introduit a ees tandis que la section 3 reprend ces largir les champs dapplication. La section 4 objectifs dans le cadre g en eral de la mod elisation an den e d ecrit la strat egie tr` es g en eralement mise en place pour optimiser choix de m ethodes et choix de mod` eles ; la section 5 d ecrit bri` evement quelques exemples dapplication et notamment ceux utilis es pour illustrer ce ` ce cours. Enn, la section 6 liste rapidement les m ethodes qui sont abord ees et les raisons qui ont conduit a choix.
2 Motivations du data mining

2.1 Origine
Le d eveloppement des moyens informatiques et de calcul permet le stockage (bases de donn ees), le traitement et lanalyse densembles de donn ees tr` es volumineux. Plus r ecemment, le perfectionnement des logiciels et de leurs interfaces offrent aux utilisateurs, statisticiens ou non, des possibilit es de mise en uvre volution, ainsi que la popularisation de nouvelles techniques algorithtr` es simples de ces m ethodes. Cette e miques (r eseaux de neurones, support vector machine...) et outils graphiques, conduit au d eveloppement ` la commercialisation de logiciels (Enterprise miner, Clementine, Insightfull miner...) int et a egrant un sous-ensemble de m ethodes statistiques et algorithmiques utilis ees sous la terminologie de Data Mining g en eralement traduit par fouille de donn ees (voir Tuff ery 2007 pour un expos e plus complet et d etaill e). Cette approche, dont la pr esentation est principalement issue du marketing sp ecialis e dans la gestion de galement des d la relation client (GRC) (client relation management ou CRM), trouve e eveloppements et applications industrielles en contr ole de qualit e ou m eme dans certaines disciplines scientiques d` es lors ` un volume de donn que les ing enieurs et chercheurs sont confront es a ees important. Laccroche publicitaire diteurs de logiciels (SAS) est : souvent cit ee par les e Comment trouver un diamant dans un tas de charbon sans se salir les mains. ` un march Nous proposons d evaluer et dexp erimenter la r ealit e de cette annonce qui sadresse a e en pleine ` la d expansion. Les entreprises sont en effet tr` es motiv ees pour tirer parti et amortir, par une aide a ecision ` administrer. quanti ee, les co uts de stockage des teras octets que leur service informatique semploie a 3
Chapitre 1. Introduction
2.2
Environnement
Le contexte informationnel de la fouille de donn ees est celui des data wharehouses. Un entrep ot de donn ees, dont la mise en place est assur e par un gestionnaire de donn ees (data manager) est un ensemble ` une probl de bases relationnelles extraites des donn ees brutes de lentreprise et relatives a ematique : gestion des stocks (ux tendu), des ventes dun groupe an de pr evoir et anticiper au mieux les tendances du march e, ` des donn suivi des chiers clients dune banque, dune assurance, associ es a ees socio- economiques ` lannuaire, en vue de la constitution dune segmentation (typologie) pour cibler des (INSEE), a op erations de marketing ou des attributions de cr edit. La gestion de la relation client (GRC ou ` une individualisation ou personnalisation de la production et de la communication an CRM) vise a d evacuer la notion de client moyen. recherche, sp ecication puis ciblage de niches de march e les plus protables (banque) ou au contraire les plus risqu ees (assurance) ; suivi en ligne des param` etres de production (trac abilit e) en contr ole de qualit e pour d etecter au plus vite lorigine dune d efaillance ; prospection textuelle (text mining) et veille technologique ; web mining et comportement des internautes ; ... Cet environnement se caract erise par ` travers une informatique h et erog` ene faisant intervenir des sites distants (Unix, Dos, NT, VM. . . ) a le r eseau de lentreprise (intranet) ou m eme des acc` es ext erieurs (internet). Des contraintes defca` r ` la source plut cit e, de abilit e ou de s ecurit e conduisent a epartir, stocker linformation a ot qu` a la ` la centraliser. dupliquer syst ematiquement ou a chantillons diff Lincompatibilit e logique des informations observ ees sur des e erents ne pr esentant pas les m emes strates, les m emes codications. Des volumes et ux consid erables de donn ees issues de saisies automatis ees et chiffr es en t era-octets. ` une d Contrairement a emarche statistique traditionnelle (planication de lexp erience), les donn ees ` dautres ns (comptabilit ` analys ees sont stock ees a e, contr ole de qualit e...) et sont donc pr ealables a lanalyse. La n ecessit e de ne pas exclure a priori un traitement exhaustif des donn ees an de ne pas lais chapper, a ` travers le crible dun sondage, des groupes de faibles effectifs mais a ` fort impact ser e conomique. e
Apprentissage statistique
Un peu de recul permet dinscrire la d emarche de la fouille de donn ees dans un contexte plus large et ` dautres domaines dapplication. donc potentiellement plus propice a
3.1
Objectif g en eral
D` es quun ph enom` ene, quil soit physique, biologique ou autre, est trop complexe ou encore trop bruit e ` une description analytique d pour acc eder a ebouchant sur une mod elisation d eterministe, un ensemble dap t labor ` partir dune s proches ont e ee ees an den d ecrire au mieux le comportement a erie dobservations. Citons la reconnaissance de la parole ou de caract` eres manuscrits, limagerie m edicale ou satellitaire, la conomique, du comportement dun client. . . la plupart des discipr evision dune grandeur climatique ou e plines scientiques sont concern ees. Historiquement, la Statistique sest beaucoup d evelopp ee autour de ce type de probl` emes et a propos e des mod` eles incorporant dune part des variables explicatives ou pr edictives ` paret, dautre part, une composante al eatoire ou bruit. Il sagit alors destimer les param` etres du mod` ele a tir des observations en contr olant au mieux les propri et es et donc le comportement de de la partie al eatoire. Dans la m eme situation, la communaut e informatique parle plut ot dapprentissage visant le m eme objectif. Apprentissage machine (ou machine learning), reconnaissance de forme (pattern recognition) en sont les principaux mots-clefs.
3.2
Probl ematiques
3. Apprentissage statistique Supervis e vs. non-supervis e
` expliquer Y ou dune forme Distinguons deux types de probl` emes : la pr esence ou non dune variable a ` reconna t a tre qui a e e, conjointement avec X , observ ee sur les m emes objets. Dans le premier cas il sagit bien dun probl` eme de mod elisation ou apprentissage supervis e : trouver une fonction susceptible, au ` d mieux selon un crit` ere a enir, de reproduire Y ayant observ e X. Y = (X ) + o` u symbolise le bruit ou erreur de mesure avec le parti pris le plus commun que cette erreur est additive. En cas derreur multiplicative, une transformation logarithmique ram` ene au probl` eme pr ec edent. ` expliquer, il sagit alors dapprentissage dit nonDans le cas contraire, en labsence dune variable a supervis e. Lobjectif g en eralement poursuivi est la recherche dune typologie ou taxinomie des observations : comment regrouper celles-ci en classes homog` enes mais les plus dissemblables entre elles. Cest un probl` eme de classication (clustering). Attention, langlais classication se traduit plut ot en franc ais par discrimination ou classement (apprentissage supervis e) tandis que la recherche de classes (clustering) (apprentissage non-supervis e) fait appel ` des m ` des algorithmes de r a ethodes de classication ascendante hi erarchique ou a eallocation dynamique (k -means) ou de cartes auto-organisatrices (Kohonen). Ces m ethodes de classication ou clustering ne sont t pas abord ees ici, elles ont e e regroup ees avec les techniques exploratoires (Baccini et Besse 2000). Mod elisation vs. apprentissage Tout au long de ce document, les termes de mod elisation et dapprentissage sont utilis ees comme tude nont pas e t des synonymes ce qui est abusif tant que les objectifs dune e e clairement explicit es. Dans la tradition statistique, la notion de mod` ele est centrale surtout avec une nalit e explicative. Il sagit ventuellement bas alors dapprocher la r ealit e, le vrai mod` ele, suppos e exister, e e sur une th eorie physique, conomique... sous-jacente. Le choix du mod` e ele (cf. ci-dessous) est alors guid e par des crit` eres dajustement et les d ecisions de validit e, de pr esence deffets, bas ees sur des tests reposant eux-m emes sur des hypoth` eses probabilistes. Linterpr etation du r ole de chaque variable explicative est pr epond erante dans la d emarche. En revanche, si lobjectif est essenti` elment pr edictif, il appara t que le meilleur mod` ele nest pas n ecessairement celui qui ajusterait le mieux le vrai mod` ele. La th eorie de lapprentissage (Vapnik, 1999) montre alors que le cadre th eorique est diff erent et les majorations derreur requi` erent une autre approche. Les choix sont ` la recherche de mod` bas es sur des crit` eres de qualit e de pr evision visant a eles parcimonieux, cest-` a-dire de complexit e (nombre de param` etres ou exibilit e limit ee) dont linterpr etabilit e passe au deuxi` eme plan. La ` suivre en Statistique ! deuxi` eme devise des Shadoks (voir gure devshad) nest pas une r ef erence a Discrimination vs. r egression Le type des variables statistiques consid er ees diff` erent selon lespace dans lequel elles prennent leurs tre qualitatives a ` valeurs dans un ensemble de cardinal ni ou quantitatives a ` valeurs valeur. Elles peuvent e r eelles voire fonctionnelles (Besse et Cardot, 2003). Ce dernier cas est introduit en annexe par le chapitre ` tout type de variables explicatives ??. Certaines m ethodes dapprentissage ou de mod elisation sadaptent a ` expliquer est qualitative, on parle de discrimination, clastandis que dautres sont sp ecialis ees. Enn, si Y a sement ou reconnaissance de forme tandis que si Y est quantitative on parle, par habitude, dun probl` eme de r egression. Dans ce cas encore, certaines m ethodes sont sp eciques (r egression lin eaire, analyse discriminante) tandis que dautres sadaptent sans modication profonde remettant en cause leur principe (r eseaux de neurones, arbres de d ecision. . . ). ees Statistique, informatique et taille des donn Lorsque des hypoth` eses relatives au mod` ele (lin earit e) et aux distributions sont v eri ees cest-` a-dire, le plus souvent, lorsque l echantillon ou les r esidus sont suppos es suivre des lois se mettant sous la forme dune famille exponentielle (gaussienne, binomiale, poisson. . . ), les techniques statistiques de mod elisation tir ees du mod` ele lin eaire g en eral sont optimales (maximum de vraisemblance) et, surtout dans le cas d echantillons de taille restreinte, il semble difcile de faire beaucoup mieux. En revanche, d` es que les hypoth` eses distributionnelles ne sont pas v eri ees, d` es que les relations sup-
F IG . 1.1 Shadok : devise num ero 2 pos ees entre les variables ne sont pas lin eaires ou encore d` es que le volume des donn ees est important, dautre m ethodes viennent concurrencer lapproche statistique classique. Prenons un exemple simple : expliquer une variable quantitative Y par un ensemble {X 1 , . . . , X p } de galement quantitatives : variables e Y = (X 1 , . . . , X p ) + . chantillon (yi , xi ); i = 1, . . . , n de taille n Si est suppos observ ees sur un e ee lin eaire et p petit, de lordre dune dizaine ; le probl` eme est bien connu et largement d ebattu dans la litt erature. Dans le cas o` u nest pas franchement lin eaire et n grand, il est possible destimer pr ecis ement un nombre plus important de param` etres et donc denvisager des mod` eles plus sophistiqu es. Si on sen tient au mod` ele gaussien usuel, m eme le cas le plus simple dun mod` ele polyn omial devient vite probl ematique. En effet, lorsque est ` un ensemble de 210 mod` lin eaire, prenons p = 10, la proc edure de choix de mod` ele est confront ee a eles possibles et des algorithmes astucieux permettent encore de sen sortir. En revanche, consid erer pour ` consid un simple polyn ome du deuxi` eme voire troisi` eme degr e avec toutes ses interactions, am` ene a erer un nombre consid erable de param` etres et donc, par explosion combinatoire, un nombre astronomique de tre consid mod` eles possibles. Dautres m ethodes doivent alors e er ees en prenant en compte n ecessairement la complexit e algorithmique des calculs. Ceci explique limplication dune autre discipline, linformatique, dans cette probl ematique. Le souci de calculabilit e lemporte sur la d enition math ematique du probl` eme ` loptimisation dun crit` qui se ram` ene a ere dajustement de sur un ensemble de solutions plus ou moins t riche. Ces m ethodes ont souvent e e d evelopp ees dans un autre environnement disciplinaire : informatique, intelligence articielle. . . ; k plus proches voisins, r eseaux de neurones, arbres de d ecisions, support vector machine deviennent des alternatives cr edibles d` es lors que le nombre dobservations est sufsant ou le nombre de variables tr` es important.
3.3
Strat egies de choix
Choix de m ethode Avec lav` enement du data mining, de tr` es nombreux articles comparent et opposent les techniques sur des jeux de donn ees publics et proposent des am eliorations incr ementales de certains algorithmes. Apr` es tabli auune p eriode evreuse o` u chacun tentait dafcher la supr ematie de sa m ethode, un consensus sest e tour de lid ee quil ny a pas de meilleure m ethode. Chacune est plus ou moins bien adapt ee au probl` eme ` la nature des donn ` approcher ou estimer. Sur le plan pos e, a ees ou encore aux propri et es de la fonction a m ethodologique, il est alors important de savoir comparer des m ethodes an de choisir la plus pertinente. Cette comparaison repose sur une estimation derreur (de r egression ou de classement) quil est n ecessaire
3. Apprentissage statistique
F IG . 1.2 Sous-ajustement lin eaire et sur-ajustement local (proches voisins) dun mod` ele quadratique.
` ce point. de conduire avec soin. Un chapitre (5) est consacr ea Choix de mod` ele : e quilibre biais-variance ` construire des mod` Tous les auteurs saccordent pour souligner limportance quil y a a eles parcimonieux quelque soit la m ethode utilis ee. Toutes les m ethodes sont concern ees : nombre de variables explicatives, de feuilles dans un arbre ou de neurones dans une couche cach ee. . . . Seuls les algorithmes de tape au prix dun accroissement sensible combinaison de mod` eles (bagging, boosting) contournent cette e du volume des calculs et surtout de linterpr etabilit e des r esultats obtenus. Lalternative est claire, plus un mod` ele est complexe et donc plus il int` egre de param` etres et plus il est exible donc capable de sajuster aux donn ees engendrant ainsi une erreur faible dajustement. En revanche, un tel mod` ele peut sav erer d efaillant lorsquil sagira de pr evoir ou g en eraliser, cest-` a-dire de sappliquer ` des donn ` son estimation. a ees qui nont pas particip ea l Lexemple e ementaire de la gure 10.1 illustre ce point fondamental dans le cas dun probl` eme de ` cause derreurs de discrimination dans IR2 . Une fronti` ere dolnt le mod` ele vrai est quadratique est, a lev mesure sous-ajust ee par une r egression lin eaire mais surajust ee par un polyn ome de degr e plus e e ou lalgorithme local des k plus proches voisins. Ce probl` eme sillustre aussi facilement en r egression classique. Ajouter des variables explicatives dans un mod` ele ne peut que r eduire lerreur dajustement (le R2 ) et r eduit le biais si le vrai mod` ele est un mod` ele plus complet. Mais, ajouter des variables fait r edhibitoirement cro tre la variance des estimateurs et donc celle des pr evisions qui se d egradent, voire explose, avec la multicolin earit e des variables explicatives. Un risque pour le mod` ele, ou erreur quadratique de pr evision, sexprimant comme le carr e du biais plus la variance, il est important doptimiser le dosage entre biais et variance en contr olant le nombre de variables ` la d dans le mod` ele (sa complexit e) an de minimiser le risque. Ces remarques conduisent a enition de crit` eres de choix de mod` ele dont le Cp de Mallows fut un pr ecurseur en r egression suivi par dautres propositions : Aka ke (AIC), Schwartz (BIC). . . Parfois plus que celui de la m ethode, le choix du bon mod` ele dans une classe ou ensemble de mod` eles pour une m ethode donn ee est primordial. En cons equence, les probl` emes doptimisation consid er es doivent mettre en uvre un crit` ere qui prend en compte la complexit e du mod` ele, cest-` a-dire la complexit e de lespace ou de la classe dans lequel la solution est recherch ee. Choix de mod` ele : s election vs. r egularisation Selon la m ethode consid er ee, la complexit e du mod` ele sexprime de diff erentes fac ons. Simple lors ` la dimension de dune s election de variable en r egression lin eaire, la complexit e est directement li ee a lespace engendr e et donc au nombre de variables. Les choses se compliquent pour les mod` eles non-lin eaires ` dimension x tre p lorsque, a ee, cest la plus ou moins grande exibilit e des solutions qui doit e enalis ee.
Cest typiquement le cas en r egression non-param etrique ou fonctionnelle. Une p enalisation faisant intervenir la norme carr ee de la d eriv ee seconde contr ole la exibilit e dun lissage spline. La largeur de galement la r fen etre du noyau contr ole e egularit e de la solution. En r egression lin eaire, si le nombre et les variables sont d etermin es, la version ridge de la r egression p enalise la norme carr ee du vecteur des param` etres et restreint ainsi, par r egularisation, lespace des solutions pour limiter leffet de la multicolin earit e. Enn, pour aborder en toute g en eralit e les situations les plus compliqu ees, Vapnik (1999) a formalis e la th eorie de lapprentissage en introduisant une notion particuli` ere de dimension pour toute famille de mod` eles.
4
4.1
Strat egie du data mining

Les donn ees
Dans la majorit e des probl` emes rencontr es, des caract eristiques ou variables X = (X 1 , . . . , X p ) dites t explicatives ou pr edictives ont e e observ ees sur un ensemble de n objets, individus ou unit es statistiques. ` mener une exploration statistique de Un premier travail, souvent fastidieux mais incontournable, consiste a ces donn ees : allure des distributions, pr esence de donn ees atypiques, corr elations et coh erence, transfor ventuelles des donn mations e ees, description multidimensionnelle, r eduction de dimension, classication. Cest lobjet dun cours distinct dexploration statistique (Baccini et Besse 2000). La deuxi` eme partie d ecrit ` n de les outils de mod elisation statistique ou encore dapprentissage utilisables pour la mod elisation a pr evision dune variable cible Y par les variables explicatives X j . ventuellement it tapes (exploration puis apprentissage) constitue le fonLencha nement, e eratif, de ces e dement de la fouille de donn ees. Pour comprendre la structure et bien appr ehender le contenu de ce cours, il est important dint egrer ` mettre en uvre pour aboutir au bon apprentissage ou encore au bon rapidement ce quest la strat egie a ` partir des donn mod` ele pr edictif recherch ea ees observ ees. ` une d Attention, contrairement a emarche statistique traditionnelle dans laquelle lobservation des donn ees ` la m ` lanalyse. est int egr ee a ethodologie (planication de lexp erience), les donn ees sont ici pr ealables a ` leur analyse et a ` son objectif doivent intervenir le plus N eanmoins il est clair que les pr eoccupations li ees a en amont possible pour sassurer quelques chances de succ` es.
4.2
tapes de lapprentissage Les e
Les traitements sencha nent de fac on assez syst ematique selon le sch ema suivant et quelque soit le domaine dapplication : chantillonnage faisant r ` des techniques de sondage i. Extraction des donn ees avec ou sans e ef erence a ` des bases de donn appliqu ees ou applicables a ees. ii. Exploration des donn ees pour la d etection de valeurs aberrantes ou seulement atypiques, dincoh erences, pour l etude des distributions des structures de corr elation, recherche de typologies, pour des transformations des donn ees. . . iii. Partition al eatoire de l echantillon (apprentissage, validation, test) en fonction de sa taille et des tech tapes de choix de mod` niques qui seront utilis ees pour estimer une erreur de pr evision en vue des e ele, puis de choix et certication de m ethode. iv. Pour chacune des m ethodes consid er ees : mod` ele lin eaire g en eral (gaussien, binomial ou poissonien), discrimination param etrique (lin eaire ou quadratique) ou non param etrique, k plus proches voisins, arbre, r eseau de neurones (perceptron), support vecteur machine, combinaison de mod` eles (bagging, boosting). estimer le mod` ele pour une valeur donn ee dun param` etre de complexit e : nombre de variables, de voisins, de feuilles, de neurones, dur ee de lapprentissage, largeur de fen etre. . . ; optimiser ce param` etre (sauf pour les combinaisons de mod` eles affranchies des probl` emes de sur chantillon de valiapprentissage) en fonction de la technique destimation de lerreur retenue : e dation, validation crois ee, approximation par p enalisation de lerreur dajustement (crit` eres Cp ,
5. Exemples et jeux de donn ees AIC).
v. Comparaison des mod` eles optimaux obtenus (un par m ethode) par estimation de lerreur de pr evision chantillon test est impossible, sur le crit` sur l echantillon test ou, si la pr esence dun e ere de p enalisation de lerreur (AIC dAka ke par exemple) sil en existe une version pour chacune des m ethodes consid er ees. ventuelle de la d vi. It eration e emarche pr ec edente (validation crois ee), si l echantillon test est trop r eduit, depuis (iii). Partitions al eatoires successives de l echantillon pour moyenner sur plusieurs cas lestimation nale de lerreur de pr evision et sassurer de la robustesse du mod` ele obtenu. vii. Choix de la m ethode retenue en fonction de ses capacit es de pr evision, de sa robustesse mais aussi, ventuellement, de linterpr e etabillit e du mod` ele obtenu. ` l viii. R e-estimation du mod` ele avec la m ethode, le mod` eles et sa complexit ee optimis es a etape pr ec edente sur lensemble des donn ees. ix. exploitation du mod` ele sue la base.
Exemples et jeux de donn ees
tudi En plus des exemples p edagogiques permettant dillustre simplement les diff erentes m ethodes e ees, valuer r dautres exemples en vraie grandeur permettent den e eellement la pertinence mais aussi toute la complexit e de mise en uvre. Dautres exemples sont encore plus concr` etement propos es en travaux dirig es avec leur traitement informatique.
5.1
Banque, nance, assurance : Marketing
` chaque client. Lapplication la Lobjectif est une communication personnalis ee et adapt ee au mieux a chantillon de client` plus courante est la recherche dun score estim e sur un e ele pour lapprentissage puis ` lensemble en vu dun objectif commercial : extrapol ea App etence pour un nouveau produit nancier : mod elisation de la probabilit e de poss eder un bien ` lensemble de la base. Les clients, pour lesquels le mod` (contrat dassurance...) puis application a ele pr edit la possession de ce bien alors que ce nest pas le cas, sont d emarch es (t el e marketing, publipostage ou mailing, phoning,...) prioritairement. valuer les risques de d Attrition ; m eme chose pour e epart (churn) des clients par exemple chez un op erateur de t el ephonie. Les clients pour lesquels le risque pr edit est le plus important rec oivent des ` rester. incitations a Risque pour lattribution dun cr edit bancaire ou louverture de certains contrats dassurance. ... Lexemple trait e reprend les donn ees bancaires de Baccini et Besse 2000. Apr` es la phase exploratoire, il sagit de construire un score dapp etence de la carte Visa Premier dans lid ee de d eliser les meilleurs ` pr clients. La variable a edire est binaire : possession ou non de cette carte en fonction des avoirs et comportements bancaires d ecrits par 32 variables sur un millier de clients.
5.2
Environnement : pic dozone
Lobjectif est de pr evoir pour le lendemain les risques de d epassement de seuils de concentration ` partir de donn dozone dans les agglom erations a ees observ ees : concentrations en 03, NO3, NO2... du jour, et dautres pr edites par M et eo-France : temp erature, vent... Encore une fois, le mod` ele apprend sur les ` venir. d epassements observ es an de pr edire ceux a ` pr tre Il sagit dun probl` eme de r egression : la variable a edire est une concentration mais elle peut aussi e consid er ee comme binaire : d epassement ou non dun seuil. Il y a 8 variables explicatives dont une est d ej` a une pr evision de concentration dozone mais obtenue par un mod` ele d eterministe de m ecanique des uides ( equation de Navier et Stockes). Lapproche statistique vient am eliorer cette pr evision en mod elisant les erreurs et en tenant compte dobservations de concentration doxyde et dioxyde dazote, de vapeur deau, de la pr evision de la temp erature ainsi que de la force du vent.
10
5.3
Sant e : aide au diagnostic
Les outils statistiques sont largement utilis es dans le domaine de la sant e. Ils le sont syst ematiquement pid lors des essais cliniques dans un cadre l egislatif stricte mais aussi lors d etudes e emiologiques pour la recherche de facteurs de risques dans des grandes bases de donn ees ou encore pour laide au diagnostic. tudi ` partir de tests biologiques et Lexemple e e illustre ce dernier point : il sagit de pr evoir un diagnostic a l ` pr dexamens e ementaires. Bien entendu, la variable a edire, dont l evaluation n ecessite souvent une analyse ` lestimation des tr` es co uteuse voire une intervention chirurgicale, est connue sur l echantillon n ecessaire a mod` eles. tudi Dans lexemple e e (breast cancer), il sagit de pr evoir le type de la tumeur (b enigne, maligne) lors ` laide de 9 variables explicatives biologiques. dun cancer du sein a
5.4
Biologie : s election de g` enes
Les techniques de microbiologie permettent de mesurer simultan ement lexpression (la quantit e dARN messager produite) de milliers de g` enes dans des situations exp erimentales diff erentes, par exemple entre des tissus sains et dautres canc ereux. Lobjectif est donc de d eterminer quels g` enes sont les plus suscep tudi tibles de participer aux r eseaux de r egulation mis en cause dans la pathologie ou autre ph enom` ene e e. Le probl` eme s enonce simplement mais r ev` ele un redoutable niveau de complexit e et pose de nouveaux d es au statisticien. En effet, contrairement aux cas pr ec edents pour lesquels des centaines voire des milliers tre observ ` lapprentissage, dans le cas des biopuces, seuls quelques dindividus peuvent e es et participer a ` cause essentiellement du prix et de la complexit dizaines de tissus son analys es a e dune telle exp erience. Compte tenu du nombres de g` enes ou variables, le probl` eme de discrimination est s ev` erement ind etermin e. ` linsufsance des m Dautes approches, dautres techniques sont n ecessaires pour pallier a ethodes classiques de discrimination. Lexemple reprend les donn ees de Baccini et Besse (2000) concernant les diff erences dexpression des g` enes en croisant deux facteurs lors dune exp erience de r egime alimentaire (5 r egimes) chez des souris ` rechercher les g` (2 g enotypes). La suite de l etude conduit donc a enes expliquant au mieux les distinctions entre g enotypes et aussi entre r egimes.
5.5
Exemples industriels
` titre illustratif mais leur complexit ` beaucoup de Les exemples ci-dessous sont cit es a e, inh erente a ` des ns p probl` emes industriels, ne permet pas de les d etailler a edagogiques. Motorola : D etection de d efaillance Un proc ed e de fabrication de microprocesseurs comporte des centaines d etapes (photogravures, d ep ots, quipement et mesures physiques (temp cuissons, polissages, lavages...) dont tous les param` etres, e eratures, pressions...), sont enregistr es dans une grande base de donn ees permettant la trac abilit e des produits ma lectrique de chaque microprocesseur ne peut se faire quen n de fabrication lorsque nufactur es. Le test e videment important de pouvoir d ceux-ci sont achev es. Il est e eterminer, lors de lapparition dune baisse du rendement et en utilisant les donn ees de la base, l equipement ou la fourniture responsable de la d efaillance an dy rem edier le plus rapidement possible. Airbus : Aide au pilotage Les graphes de la gure 1.3 tracent les enregistrements des commandes et positions dun avion en vol. vidence un ph Ceux-ci mettent en e enom` ene de r esonance entre lappareil et le comportement du pilote qui est tr` es dangereux pour la s ecurit e. Lobjectif est de construire un mod` ele susceptible, en temps r eel, de lectriques. d etecter une telle situation an dy rem edier par exemple en durcissant les commandes de vol e Le probl` eme est tr` es sp ecique car les donn ees, ou signaux, sont mesur ees en temps r eel et constituent des discr etisations de courbes.
5. Exemples et jeux de donn ees
11
qm 10 0
0 8 6 4 2 10 0 0 2
10
12
10
12
14
0 1
Neural 6 PIO detector
10
12
0.5
10
12
F IG . 1.3 Airbus : Pompage pilot e r ev el e par lobservation des param` etres en temps r eel. De (haut en bas) : manche, assiette, gouverne comparer avec la pr evision quen fait un r eseau de neurones.
12
Contenu
Il a fallu faire des choix dans lensemble des techniques propos ees et leurs nombreux avatars. La forme tudiants du d et le contenu sont guid es par les besoins exprim es lors des stages r ealis ees par les e epartement G enie Math ematique de lINSA, du Master professionnel de Statistique & Econom etrie ou encore par les th` emes des collaborations industrielles et scientiques du laboratoire de Statistique et Probabilit es1 . Le lecteur peut se faire une id ee du nombre tr` es important de m ethodes et variantes concern ees par lapprentissage ` outil Mathlab de classication2 . Remarquons que les supervis ee ou non supervis e en consultant une bo te a principaux logiciels commerciaux (SAS, Splus, SPSS, Matlab. . . ) ou gratuits (R), performants et simposant par des interfaces tr` es conviviales (Enterprise Miner, Insightfull Miner, Clementine), contribuent largement ` la diffusion, voire la p ` une a en etration, de m ethodes tr` es sophistiqu ees dans des milieux imperm eables a conceptualisation math ematique trop abstraite. Chaque m ethode ou famille de m ethodes de mod elisation et dapprentissage parmi les plus r epandues, est pr esent ee de fac on plus ou moins succincte dans un chapitre distinct avec un objectif pr edictif. La ` titre p r egression lin eaire classique en statistique prend une place particuli` ere a edagogique. Tr` es ant erieure aux autres, elle donne lieu a une bibliographie abondante. Conceptuellement plus simple, elle permet dintroduire plus facilement les probl ematiques rencontr ees comme celle du choix dun mod` ele par ses deux approches types : la s election de variable ou la r egularisation (ridge). Pour une meilleure compr ehension des logiciels qui y font largement r ef erence, une introduction (annexe) au mod` ele lin eaire g en eral four` lunication des r nit le cadre th eorique n ecessaire a egressions lin eaire, loglin eaire et logistique ; cette derni` ere reste toujours tr` es utilis ee en scoring. La pr esentation de lanalyse discriminante d ecisionnelle, galement des notions param etrique ou non param etrique, les k plus proches voisins, permet dintroduire e de th eorie bay esienne de la d ecision. Un chapitre incontournable est consacr e aux techniques destimation dune erreur de pr evision sur lesquelles reposent les choix op erationnels d ecisifs : de mod` ele, de m ethode mais aussi l evaluation de la pr ecision des r esultats escompt es. Les chapitres suivants sont consacr ees aux techniques algorithmiques : arbres binaires de d ecision (classication and regression trees ou CART) et ` celles plus directement issues de la th a eorie de lapprentissage machine (machine learning) : r eseau de neurones et perceptron, agr egation de mod` eles (boosting, random forest), support vector machine (SVM). Enn un chapitre conclusif propose une comparaison syst ematique des m ethodes sur les diff erents jeux de donn ees. Des annexes apportent des compl ements th eoriques ou m ethodologiques : mod elisation de donn ees fonctionnelles, introduction au mod` ele lin eaire g en eral, bootstrap. t Le choix a e e fait de conserver et expliciter, dans la mesure du possible, les concepts originaux de chaque m ethode dans son cadre disciplinaire tout en t achant dhomog en eiser notations et terminologies. Lobjectif principal est de faciliter la compr ehension et linterpr etation des techniques des principaux logi tre dissoci ciels pour en faciliter une utilisation pertinente et r e echie. Ce cours ne peut e e de s eances de ` laide de logiciels (SAS, R...) pour traiter des donn travaux dirig es sur ordinateur a ees en vraie grandeur dans toute leur complexit e.
1 http 2 http
://www.lsp.ups-tlse.fr ://tiger.technion.ac.il/ eladyt/classication/
Chapitre 2 R egression lin eaire

1 Introduction
` sa d ` son estimation en Ce chapitre ne propose quune introduction au mod` ele gaussien, a enition et a privil egiant lobjectif de pr evision. Il sattarde donc sur le probl` eme d elicat du choix de mod` ele an, principalement, den introduire et den illustrer les grands principes dans le cas relativement simple dun mod` ele lin eaire. Une section introduit le mod` ele danalyse de covariance mais de nombreux aspects : colin earit e, points inuents, tests, analyse de variance, mod` ele multinomial ou poissonien (mod` ele log-lin eaire). . . sont ` rechercher dans la bibliographie de m n eglig es et a eme quune pr esentation globale du mod` ele lin eaire l g en eral incluant toutes ces approches et seulement r esum ee en annexe. Les statistiques des tests e emetaires sont explicit ees an de faciliter la lectures et linterpr etation des r esultats issus des logiciels. Le but premier de ce chapitre est donc lexplication ou plut ot, la mod elisation dans un but pr edictif, dune variable quantitative par plusieurs variables quantitatives (r egression lin eaire multiple) ou par un m elange de variables quantitatives et qualitatives (analyse de covariance).
2 Mod` ele
Le mod` ele de r egression lin eaire multiple est loutil statistique le plus habituellement mis en uvre pour l etude de donn ees multidimensionnelles. Cas particulier de mod` ele lin eaire, il constitue la g en eralisation naturelle de la r egression simple. Une variable quantitative Y dite a eponse, exog` ene, d ependante) est mise en ` expliquer (ou encore, r relation avec p variables quantitatives X 1 , . . . , X p dites explicatives (ou encore de contr ole, endog` enes, ind ependantes, r egresseurs). chantillon statistique de taille n (n > p +1) Les donn ees sont suppos ees provenir de lobservation dun e de IR(p+1) : j p (x1 i , . . . , xi , . . . , xi , yi ) i = 1, . . . , n. ` supposer que lesp L ecriture du mod` ele lin eaire dans cette situation conduit a erance de Y appartient au sous-espace de IRn engendr e par {1, X 1 , . . . , X p } o` u 1 d esigne le vecteur de IRn constitu e de 1 . Cest-` a-dire que les (p + 1) variables al eatoires v erient :
p 2 yi = 0 + 1 x1 i + 2 xi + + p xi + i i = 1, 2, . . . , n
avec les hypoth` eses suivantes : i. Les i sont des termes derreur ind ependants et identiquement distribu es ; E (i ) = 0, V ar() = 2 I. j ii. Les termes x sont suppos es d eterministes (facteurs contr ol es) ou bien lerreur est ind ependante de crit dans ce dernier cas que : la distribution conjointe de X 1 , . . . , X p . On e E (Y |X 1 , . . . , X p ) = 0 + 1 X 1 + 2 X 2 + + p X p et V ar(Y |X 1 , . . . , X p ) = 2 . iii. Les param` etres inconnus 0 , . . . , p sont suppos es constants. 13
14
Chapitre 2. R egression lin eaire iv. En option, pour l etude sp ecique des lois des estimateurs, une quatri` eme hypoth` ese consid` ere la normalit e de la variable derreur (N (0, 2 I)). Les i sont alors i.i.d. de loi N (0, 2 ).
Les donn ees sont rang ees dans une matrice X(n (p + 1)) de terme g en eral xj ere i , dont la premi` colonne contient le vecteur 1 (xi en eral yi . En notant les vecteurs 0 = 1), et dans un vecteur Y de terme g = [1 p ] et = [0 1 p ] , le mod` ele s ecrit matriciellement : y = X + .
Estimation
` la connaissance des valeurs des X j , les param` Conditionnellement a etres inconnus du mod` ele : le vec2 carts (M.C.) ou encore, teur et (param` etre de nuisance), sont estim es par minimisation des carr es des e en supposant (iv), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alors les m emes expres` ces derniers des propri sions, lhypoth` ese de normalit e et lutilisation de la vraisemblance conf erant a et es compl ementaires.
3.1
Estimation par M.C.

` minimiser sur IRp+1 s Lexpression a ecrit :
n p 2 2 (yi 0 1 x1 i 2 xi p xi ) i=1
y X
= (y X ) (y X ) = y y 2 X y + X X . quation on obtient les Par d erivation matricielle de la derni` ere e equations normales : X y X X = 0 ` un minimum car la matrice hessienne 2X X est semi d dont la solution correspond bien a enie-positive. Nous faisons lhypoth` ese suppl ementaire que la matrice X X est inversible, cest-` a-dire que la matrice X est de rang (p + 1) et donc quil nexiste pas de colin earit e entre ses colonnes. En pratique, si cette hypoth` ese nest pas v eri ee, il suft de supprimer des colonnes de X et donc des variables du mod` ele. Des diagnostics de colin earit e et des crit` eres aident au choix des variables. Alors, lestimation des param` etres j est donn ee par : b = (X X)1 X y et les valeurs ajust ees (ou estim ees, pr edites) de y ont pour expression : y = Xb = X(X X)
1
X y = Hy
1 ` y. G o` u H = X(X X) X est appel ee hat matrix ; elle met un chapeau a eom etriquement, cest la matrice de projection orthogonale dans IRn sur le sous-espace Vect(X) engendr e par les vecteurs colonnes de X.
On note e = y y = y Xb = (I H)y le vecteur des r esidus ; cest la projection de y sur le sous-espace orthogonal de Vect(X) dans IRn .
3.2
Propri et es
Les estimateurs des M.C. b0 , b1 , . . . , bp sont des estimateurs sans biais : E (b) = , et, parmi les estimateurs sans biais fonctions lin eaires des yi , ils sont de variance minimum (th eor` eme de Gauss-Markov) ; ils sont donc BLUE : best linear unbiaised estimators. Sous hypoth` ese de normalit e, les estimateurs du M.V. sont uniform ement meilleurs (efcaces) et co ncident avec ceux des M.C.
4. Inf erences dans le cas gaussien On montre que la matrice de covariance des estimateurs se met sous la forme E [(b )(b ) ] = 2 (X X)1 , celle des pr edicteurs est E [(y X )(y X ) ] = 2 H et celle des estimateurs des r esidus est E [(e u)((e u)) ] = 2 (I H) tandis quun estimateur sans biais de 2 est fourni par : s2 = e y X SSE = = . np1 np1 np1
2 2
15
Ainsi, les termes s2 hi edicteurs yi . i sont des estimations des variances des pr
3.3
Sommes des carr es

SSE est la somme des carr es des r esidus (sum of squared errors), SSE = y y
2
= e
galement la somme totale des carr On d enit e es (total sum of squares) par SST = y y 1
2
= y y ny 2
et la somme des carr es de la r egression (regression sum of squares) par SSR = y y 1

2
= y y ny 2 = y Hy ny 2 = b X y ny 2 .
On v erie alors : SST = SSR + SSE.
3.4
Coefcient de d etermination
On appelle coefcient de d etermination le rapport R2 = SSR SST
qui est donc la part de variation de Y expliqu ee par le mod` ele de r egression. G eom etriquement, cest un rapport de carr es de longueur de deux vecteurs. Cest donc le cosinus carr e de langle entre ces vecteurs : y et sa projection y sur Vect(X). Attention, dans le cas extr eme o` u n = (p + 1), cest-` a-dire si le nombre de variables explicatives est grand comparativement au nombre dobservations, R2 = 1. Ou encore, il est g eom etriquement facile de voir que lajout de variables explicatives ne peut que faire cro tre le coefcient de d etermination. La quantit e R est appel ee coefcient de corr elation multiple entre Y et les variables explicatives, cest le coefcient de corr elation usuel entre y et sa pr evision (ou projection) y.
Inf erences dans le cas gaussien
En principe, lhypoth` ese optionnelle (iv) de normalit e des erreurs est n ecessaire pour cette section. En chantillons, ainsi que des e tudes de pratique, des r esultats asymptotiques, donc valides pour de grands e simulation, montrent que cette hypoth` ese nest pas celle dont la violation est la plus p enalisante pour la abilit e des mod` eles.
16
Chapitre 2. R egression lin eaire
4.1
Inf erence sur les coefcients

Pour chaque coefcient j on montre que la statistique bj j bj
2 ` me terme diagonal de la matrice s2 (X X)1 , suit une loi de Student a ` o` u b , variance de bj est le j e j (n p 1) degr es de libert e. Cette statistique est donc utilis ee pour tester une hypoth` ese H0 : j = a ou pour construire un intervalle de conance de niveau 100(1 )% :
bj t/2;(np1) bj . Attention, cette statistique concerne un coefcient et ne permet pas dinf erer conjointement (cf. 3.4) sur dautres coefcients car ils sont corr el es entre eux ; de plus elle d epend des absences ou pr esences des autres variables X k dans le mod` ele. Par exemple, dans le cas particulier de deux variables X 1 et X 2 tr` es corr el ees, chaque variable, en labsence de lautre, peut appara tre avec un coefcient signicativement diff erent de 0 ; mais, si les deux sont pr esentes dans le mod` ele, elles peuvent chacune appara tre avec des coefcients insigniants. De fac on plus g en erale, si c d esigne un vecteur non nul de (p + 1) constantes r eelles, il est possible de tester la valeur dune combinaison lin eaire c b des param` etres en consid erant lhypoth` ese nulle H0 : c b = a ; a connu. Sous H0 , la statistique cba (s2 c (X X)
1
c)1/2
` (n p 1) degr suit une loi de Student a es de libert e.
4.2
Inf erence sur le mod` ele
tre test Le mod` ele peut e e globalement. Sous lhypoth` ese nulle H0 : 1 = 2 = . . . = p = 0, la statistique MSR SSR/p = SSE/(n p 1) MSE suit une loi de Fisher avec p et (n p 1) degr es de libert e. Les r esultats sont habituellement pr esent es dans un tableau danalyse de la variance sous la forme suivante : Source de variation R egression Erreur Total Somme des carr es SSR SSE SST
d.d.l. p np1 n1
Variance MSR=SSR/p MSE=SSE/(n p 1)
F MSR/MSE
4.3
Inf erence sur un mod` ele r eduit
` rejeter H0 d` ` Y . Il est donc dun Le test pr ec edent am` ene a es que lune des variables X j est li ee a int er et limit e. Il est souvent plus utile de tester un mod` ele r eduit cest-` a-dire dans lequel certains coef` lexception de la constante, sont nuls contre le mod` cients, a ele complet avec toutes les variables. En ayant ventuellement r e eordonn e les variables, on consid` ere lhypoth` ese nulle H0 : 1 = 2 = . . . = q = 0, q < p.
2 Notons respectivement SSRq , SSEq , Rq les sommes de carr es et le coefcient de d etermination du ` (p q ) variables. Sous H0 , la statistique mod` ele r eduit a 2 (R2 Rq )/q (SSR SSRq )/q = 2 SSE/(n p 1) (1 R )/(n p 1)
4. Inf erences dans le cas gaussien ` q et (n p 1) degr suit une loi de Fisher a es de libert e.
17
Dans le cas particulier o` u q = 1 (j = 0), la F -statistique est alors le carr e de la t-statistique de linf erence sur un param` etre et conduit donc au m eme test.
4.4
Pr evision
p 2 Connaissant les valeurs des variables X j pour une nouvelle observation : x0 = [x1 0 , x0 , . . . , x0 ] appartenant au domaine dans lequel lhypoth` ese de lin earit e reste valide, une pr evision, not ee y0 de Y ou E (Y ) est donn ee par : p y0 = b0 + b1 x1 0 + + bp x0 .
Les intervalles de conance des pr evisions de Y et E (Y ), pour une valeur x0 IRp et en posant v0 = p+1 (1|x0 ) IR , sont respectivement y0 y0 t/2;(np1) s(1 + v0 (X X)1 v0 )1/2 , t/2;(np1) s(v0 (X X)1 v0 )1/2 .
4.5
Exemple
` lexplication dune variable binaire comme dans Le mod` ele de r egression lin eaire nest pas adapt ea le cas des donn ees bancaires. Ceci est abord e dans le chapitre suivant en utilisant la r egression logistique tandis que dautres exemples de donn ees sont utilis ees dans ce chapitre. Les premi` eres sont extraites de Jobson (1991) et d ecrivent les r esultats comptables de 40 entreprises du Royaume Uni.
RETCAP WCFTDT LOGSALE LOGASST CURRAT QUIKRAT NFATAST FATTOT PAYOUT WCFTCL GEARRAT CAPINT INVTAST Return on capital employed Ratio of working capital ow to total debt Log to base 10 of total sales Log to base 10 of total assets Current ratio Quick ratio Ratio of net xed assets to total assets Gross sixed assets to total assets Payout ratio Ratio of working capital ow to total current liabilities Gearing ratio (debt-equity ratio) Capital intensity (ratio of total sales to total assets) Ratio of total inventories to total assets
Mod` ele complet La proc edure SAS/REG est utilis ee dans le programme suivant. Beaucoup doptions sont actives an de fournir la plupart des r esultats m eme si certains sont redondants ou peu utiles.
options linesize=110 pagesize=30 nodate nonumber; title; proc reg data=sasuser.ukcomp1 all; model RETCAP = WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT /dw covb Influence cli clm tol vif collin R P; output out=resout h=lev p=pred r=res student=resstu ; run; Analysis of Variance Source Model Error DF (1) 12 27 Sum of Squares 0.55868 (2) 0.14951 (3) Mean Square 0.04656 (5) 0.00554 (6) F Value 8.408 (7) Prob>F 0.0001 (8)
CURRAT
18
C Total Root MSE Dep Mean C.V. (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) 39 0.70820 (4) 0.07441 (9) R-square 0.14275 (10) Adj R-sq 52.12940 (11)
0.7889 (12) 0.6951 (13)
degr es de libert e de la loi de Fisher du test global SSR SSE ou d eviance SST=SSE+SSR SSR/DF s2 =MSE=SSE/DF est lestimation de 2 Statistique F du test de Fisher du mod` ele global P (fp;np1 > F ) ; H0 est rejet ee au niveau si P < s =racine de MSE ` expliqu moyenne empirique de la variable a ee Coefcient de variation 100 (9)/(10) Coefcient de d etermination R2 2 Coefcient de d etermination ajust eR
Parameter Estimates Parameter Variable DF Estimate (1) INTERCEP 1 0.188072 WCFTCL 1 0.215130 WCFTDT 1 0.305557 GEARRAT 1 -0.040436 LOGSALE 1 0.118440 LOGASST 1 -0.076960 ...
Standard Error (2) 0.13391661 0.19788455 0.29736579 0.07677092 0.03611612 0.04517414
T for H0: Parameter=0 Prob>|T| (3) (4) 1.404 0.1716 1.087 0.2866 1.028 0.3133 -0.527 0.6027 3.279 0.0029 -1.704 0.0999
Tolerance (5) . 0.03734409 0.02187972 0.45778579 0.10629382 0.21200778
Variance Inflation (6) 0.00000000 26.77799793 45.70441500 2.18442778 9.40788501 4.71680805
(1) (2) (3) (4) (5) (6)
estimations des param` etres (bj ) carts-types de ces estimations (sbj ) e statistique T du test de Student de H0 : bj = 0 P (tnp1 > T ) ; H0 est rejet ee au niveau si P < 2 1 R( j) 2 VIF=1/(1 R( j) )
` de grands e cartCes r esultats soulignent les probl` emes de colin earit es. De grands VIF sont associ es a types des estimations des param` etres. Dautre part les nombreux tests de Student non signicatifs montrent que trop de variables sont pr esentes dans le mod` ele. Cette id ee est renforc ee par le calcul de lindice de conditionnement (explicit e dans la section suivante : 8.76623/0.00125).
Choix de mod` ele
` trois objectifs De fac on un peu sch ematique, on peut associer la pratique de la mod elisation statistique a ventuellement e tre poursuivis en compl qui peuvent e ementarit e. ` rechercher de fac Descriptif : Il vise a on exploratoire les liaisons entre Y et dautres variables, potentiel tre nombreuses an, par exemple den s lement explicatives, X j qui peuvent e electionner un sous` cette strat ` laquelle peuvent contribuer des Analyses en Composantes Principales, ensemble. A egie, a ` pas) moins performants mais e conomiques en temps correspond des algorithmes de recherche (pas a de calcul si p est grand. Attention, si n est petit, et la recherche sufsamment longue avec beaucoup de variables explicatives, il sera toujours possible de trouver un bon mod` ele expliquant y ; cest leffet data mining dans les conom mod` eles e etriques appel e maintenant data snooping. Explicatif : Le deuxi` eme objectif est sous-tendu par une connaissance a priori du domaine concern e et tre conrm dont des r esultats th eoriques peuvent vouloir e es, inrm es ou pr ecis es par lestimation des param` etres. Dans ce cas, les r esultats inf erentiels pr ec edents permettent de construire le bon test
5. Choix de mod` ele
19
` la prise de d conduisant a ecision recherch ee. Utilis ees hors de ce contexte, les statistiques de test nont plus alors quune valeur indicative au m eme titre que dautres crit` eres plus empiriques. Pr edictif : Dans le troisi` eme cas, laccent est mis sur la qualit e des estimateurs et des pr edicteurs qui doivent, par exemple, minimiser une erreur quadratique moyenne. Cest la situation rencontr ee en ` rechercher des mod` apprentissage. Ceci conduit a eles parcimonieux cest-` a-dire avec un nombre volontairement restreint de variables explicatives. Le meilleur mod` ele ainsi obtenu peut donner des estimateurs l eg` erement biais es au prot dun compromis pour une variance plus faible. Un bon mod` ele nest donc plus celui qui explique le mieux les donn ees au sens dune d eviance (SSE) minimale (ou dun R2 max) au prix dun nombre important de variables pouvant introduire des colin earit es. Le bon mod` ele est celui qui conduit aux pr evisions les plus ables. Certes, le th eor` eme de Gauss-Markov indique que, parmi les estimateurs sans biais, celui des moindres tre important de pr carr es est de variance minimum. N eanmoins, il peut e ef erer un estimateur l eg` erement quilibre entre biais e si le gain en variance est lui plus signicatif. Cest tout le probl` eme de trouver un bon e biais et variance an de minimiser un risque quadratique de pr evision. Il y a principalement deux fac ons de biaiser un mod` ele dans le but de restreindre la variance : en r eduisant le nombre de variables explicatives et donc en simpliant le mod` ele, en contraignant les param` etres du mod` ele, en les r etr ecissant (schrinkage), en r egression ridge qui op` ere une r egularisation. Commenc ons par d ecrire les proc edures de s election.
5.1
Crit` eres
De nombreux crit` eres de choix de mod` ele sont pr esent es dans la litt erature sur la r egression lin eaire multiple. Citons le crit` ere dinformation dAka ke (AIC), celui bay esien de Sawa (BIC). . . (cf. chapitre 5). quivalents lorsque le nombre de variables a ` s Ils sont e electionner, ou niveau du mod` ele, est x e. Le choix du crit` ere est d eterminant lorsquil sagit de comparer des mod` eles de niveaux diff erents. Certains crit` eres ` lutilisation dune expression p se ram` enent, dans le cas gaussien, a enalis ee de la fonction de vraisemblance an de favoriser des mod` eles parcimonieux. En pratique, les plus utilis es ou ceux g en eralement fournis par les logiciels sont les suivants. Statistique du F de Fisher ` titre Ce crit` ere, justi e dans le cas explicatif car bas e sur une qualit e dajustement est aussi utilis ea indicatif pour comparer des s equences de mod` eles embo t es. La statistique partielle de Fisher est
2 )np1 (R2 Rq (SSR SSRq )/s = SSE/(n p 1) 1 R2 ) q
dans laquelle lindice q d esigne les expressions concernant le mod` ele r eduit avec (p q ) variables explica2 ) est sufsamment grand : tives. On consid` ere alors que si laccroissement (R2 Rq
2 R 2 RR >
q F;q,(np1) , (n p 1)
lajout des q variables au mod` ele est justi e. R2 et R2 ajust e ` la d Le coefcient de d etermination R2 = 1SSE/SST, directement li ea eviance (SSE) est aussi un indice de qualit e mais qui a la propri et e d etre monotone croissant en fonction du nombre de variables. Il ne peut donc servir qu` a comparer deux mod` eles de m eme niveau cest-` a-dire avec le m eme nombre de variables. En revanche, le R2 ajust e: R
2
=1
n1 SSE/(n p 1) (1 R2 ) = 1 . np1 SST/(n 1)
dans lequel le rapport SSE/SST est remplac e par un rapport des estimations sans biais des quantit es 2 et 2 ` estimer. y introduit une p enalisation li ee au nombre de param` etres a
20 Ce coefcient sexprime encore par 1 (n 1)MSE SST
ainsi dans la comparaison de deux mod` eles partageant la m eme SST, on observe que R > R j si et seulement si MSE<MSEj ; MSE et MSEj d esignant respectivement lerreur quadratique moyenne du mod` ele ` j variables explicatives. Maximiser le R2 ajust ` minimiser complet et celle dun mod` ele a e revient donc a lerreur quadratique moyenne. Cp de Mallows Cet indicateur est une estimation de lerreur quadratique moyenne de pr evision qui s ecrit aussi comme la somme dune variance et du carr e dun biais. Lerreur quadratique moyenne de pr evision s ecrit ainsi : : MSE(yi ) = Var(yi ) + [Biais(yi )]2 puis apr` es sommation et r eduction : 1 2
n
MSE(yi ) =
i=1
1 2
Var(yi ) +
i=1
1 2
[Biais(yi )]2 .
i=1
En supposant que les estimations du mod` ele complet sont sans biais et en utilisant des estimateurs de V ar(yi ) et 2 , lexpression de lerreur quadratique moyenne totale standardis ee (ou r eduite) pour un mod` ele ` j variables explicatives s a ecrit : Cp = (n q 1) MSEj [n 2(q + 1)] MSE
et d enit la valeur du Cp de Mallows pour les q variables consid er ees. Il est alors dusage de rechercher un ` mod` ele qui minimise le Cp tout en fournissant une valeur inf erieure et proche de (q + 1). Ceci revient a consid erer que le vrai mod` ele complet est moins able quun mod` ele r eduit donc biais e mais destimation plus pr ecise. Aka kes Information criterion (AIC) A compl eter PRESS de Allen Il sagit lintroduction historique de la validation crois ee. On d esigne par y(i) la pr evision de yi calcul ee p ` me observation (yi , x1 sans tenir compte de la ie evision i , . . . , xi ), la somme des erreurs quadratiques de pr (PRESS) est d enie par
n
PRESS =
i=1
(yi y(i) )2
etails sur ce et permet de comparer les capacit es pr edictives de deux mod` eles. Le chapitre 5 donne plus de d type destimation.
5.2
Algorithmes de s election
Lorsque p est grand, il nest pas raisonnable de penser explorer les 2p mod` eles possibles an de s electionner le meilleur au sens de lun des crit` eres ci-dessus. Diff erentes strat egies sont donc propos ees tre choisies en fonction de lobjectif recherch qui doivent e e et des moyens de calcul disponibles ! Trois types dalgorithmes sont r esum es ci-dessous par ordre croissant de temps de calcul n ecessaire cest-` a-dire par nombre croissant de mod` eles consid er es parmi les 2p et donc par capacit e croissante doptimalit e. On ` utiliser dans la proc donne pour chaque algorithme loption selection a edure REG de SAS. Pas a ` pas ` chaque pas, une variable est ajout S election (forward) A ee au mod` ele. Cest celle dont la valeur p (prob ` la statistique partielle du test de Fisher qui compare les deux mod` value)associ ee a eles est minimum.
21
La proc edure sarr ete lorsque toutes les variables sont introduites ou lorsque p reste plus grande ` 0, 50. quune valeur seuil x ee par d efaut a ` chaque e tape, la variable Elimination (backward) Lalgorithme d emarre cette fois du mod` ele complet. A ` la plus grande valeur p est e limin associ ee a ee du mod` ele. La proc edure sarr ete lorsque les variables ` 0, 10. restant dans le mod` ele ont des valeurs p plus petites quun seuil x e par d efaut a tape d tape de Mixte (stepwise) Cet algorithme introduit une e elimination de variable apr` es chaque e s election an de retirer du mod` ele d eventuels variables qui seraient devenues moins indispensables du fait de la pr esence de celles nouvellement introduites. Global ` Lalgorithme de Furnival et Wilson est utilis e pour comparer tous les mod` eles possibles en cherchant a optimiser lun des crit` eres : R2 , R2 ajust e, ou Cp de Mallows (rsquare, adjrsq, cp) choisi par luti vite de consid lisateur. Par souci d economie, cet algorithme e erer des mod` eles de certaines sous-branches de larborescence dont on peut savoir a priori quils ne sont pas comp etitifs. En g en eral les logiciels ex ecutant cet algorithme afchent le (best=1) ou les meilleurs mod` eles de chaque niveau.
5.3
Exemple
Parmi les trois types dalgorithmes et les diff erents crit` eres de choix, une des fac ons les plus efcaces ` choisir les options du programme ci-dessous. Tous les mod` consistent a eles (parmi les plus int eressants selon lalgorithme de Furnival et Wilson) sont consid er es. Seul le meilleur pour chaque niveau, cest-` a-dire pour chaque valeur p du nombre de variables explicatives sont donn es. Il est alors facile de choisir celui minimisant lun des crit` eres globaux (Cp ou BIC ou . . . ).
options linesize=110 pagesize=30 nodate nonumber; title; proc reg data=sasuser.ukcomp2 ; model RETCAP = WCFTCL WCFTDT GEARRAT LOGSALE NFATAST CAPINT FATTOT INVTAST PAYOUT / selection=rsquare cp rsquare bic best=1; run;
LOGASST QUIKRAT
CURRAT
N = 40 Regression Models for Dependent Variable: RETCAP R-sq. Adjust. C(p) BIC Variables in Model In R-sq 1 0.105 0.081 78.393 -163.2 WCFTCL 2 0.340 0.305 50.323 -173.7 WCFTDT QUIKRAT 3 0.615 0.583 17.181 -191.1 WCFTCL NFATAST CURRAT 4 0.720 0.688 5.714 -199.2 WCFTDT LOGSALE NFATAST CURRAT 5 0.731 0.692 6.304 -198.0 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT 6 0.748 0.702 6.187 -197.2 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT 7 0.760 0.707 6.691 -195.7 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT 8 0.769 0.709 7.507 -193.8 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT 9 0.776 0.708 8.641 -191.5 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT 10 0.783 0.708 9.744 -189.1 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST PAYOUT QUIKRAT CURRAT 11 0.786 0.702 11.277 -186.4 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT 12 0.788 0.695 13.000 -183.5 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT
Dans cet example, Cp et BIC se comportent de la m eme fac on. Avec peu de variables, le mod` ele est ` 4 variables explicatives puis croissent de nouveau trop biais e. Ils atteignent un minimum pour un mod` ele a ` une solution beaucoup moins selon la premi` ere bissectrice. La maximisation du R2 ajust e conduirait a parcimonieuse. On note par ailleurs que lalgorithme remplace WCFTCL par WCFTDT. Un algorithme par ` la solution optimale retenue. s election ne peut pas aboutir a
22
5.4
Choix de mod` ele par r egularisation
` conserver lensemble ou tout du moins la plupart des variables explicaLautre strat egie qui cherche a tives pose un probl` eme de multicolin earit e. Il est r esolu par une proc edure de r egularisation. Probl` eme cart-type (standard error) n Lestimation des param` etres ainsi que celle de leur e ecessite le calcul explicite de la matrice (X X)1 . Dans le cas dit mal conditionn e o` u le d eterminant de la matrice X X nest ` des estimateurs de variances importantes et m que l eg` erement diff erent de 0, les r esultats conduiront a eme, ventuellement, a ` des probl` e emes de pr ecision num erique. Il sagit donc de diagnostiquer ces situations ` laide des critiques puis dy rem edier. Dans les cas descriptif ou pr edictif on supprime des variables a proc edures de choix de mod` ele mais, pour un objectif explicatif n ecessitant toutes les variables, dautres tre envisag quations normales par transformations solutions doivent e ees : algorithme de r esolution des e orthogonales (proc edure orthoreg de SAS) sans calcul explicite de linverse pour limiter les probl` emes num eriques, r egression biais ee (ridge), r egression sur composantes principales. VIF La plupart des logiciels proposent des diagnostics de colin earit e. Le plus classique est le facteur dination de la variance (VIF) 1 Vj = 2 1 Rj
2 o` u Rj d esigne le coefcient de d etermination de la r egression de la variable X j sur les autres variables explicatives ; Rj est alors un coefcient de corr elation multiple, cest le cosinus de langle dans IRn entre j X et le sous-espace vectoriel engendr e par les variables {X 1 , . . . , X j 1 , X j +1 , . . . , X p }. Plus X j est lin eairement proche de ces variables et plus Rj est proche de 1 ; on montre alors que la variance de lesti lev mateur de j est dautant plus e ee. Evidemment, cette variance est minimum lorsque X j est orthogonal au sous-espace engendr e par les autres variables.
Conditionnement De fac on classique, les qualit es num eriques de linversion dune matrice sont quanti ees par son indice de conditionnement. On note 1 , . . . , p les valeurs propres de la matrice des corr elations R rang ees gal au produit des valeurs propres. Ainsi, des probl` par ordre d ecroissant. Le d eterminant de R est e emes num eriques, ou de variances excessives apparaissent d` es que les derni` eres valeurs propres sont relativement trop petites. Lindice de conditionnement est le rapport = 1 /p de la plus grande sur la plus petite valeur propre. En pratique, si < 100 on consid` ere quil ny a pas de probl` eme. Celui-ci devient s ev` ere pour > 1000. Cet indice de conditionnement donne un aperc u global des probl` emes de colin earit e tandis que les VIF, les tol erances ou encore l etude des vecteurs propres associ es au plus petites valeurs propres permettent didentier les variables les plus probl ematiques. R egression ridge Ayant diagnostiqu e un probl` eme mal conditionn e mais d esirant conserver toutes les variables, il est possible dam eliorer les propri et es num eriques et la variance des estimations en consid erant un estimateur l eg` erement biais e des param` etres. Lestimateur ridge est donn e par bR = (X X + k I)1 X y, ` inverser et, plus parqui a pour effet de d ecaler de la valeur k toutes les valeurs propres de la matrice a ` estimer le ticuli` erement, les plus petites qui re` etent la colin earit e. On montre que cela revient encore a mod` ele par les moindres carr es sous la contrainte que la norme du vecteur1 des param` etres ne soit pas
1 En
pratique, la contrainte ne sapplique pas au terme constant 0 mais seulement aux coefcients du mod` ele.
23
F IG . 2.1 Retour sur capital : Evolution des param` etres de la r egression ridge en fonction du param` etre de r egularisation. trop grande : bR = arg min
y X
<c .
Cest encore, en introduisant un multiplicateur de Lagrange dans le probl` eme de minimisation, un probl` eme de moindres carr es p enalis es : bR = arg min{ y X
2
+ }.
` p Cela revient a enaliser la norme de lestimateur pour emp echer les coefcients dexploser et donc pour ` r limiter la variance. On parle aussi destimateur a etr ecisseur (shrinkage). Comme dans tout probl` eme de tre utilis ` r egularisation, il est n ecessaire de xer la valeur du param` etre ; la validation crois ee peut e ee a cette n mais la lecture du graphique (cf. gure 2.1) montrant l evolution des param` etres en fonction du coefcient ridge est souvent sufsante. La valeur est choisie au point o` u la d ecroissance des param` etres devient faible et quasi-lin eaire. Une autre version (lasso) de r egression biais ee est obtenue en utilisant la norme en valeur absolue pour d enir la contrainte sur les param` etres. R egression sur composantes principales LAnalyse en Composantes Principales est, entre autres, la recherche de p variables dites principales qui sont des combinaisons lin eaires des variables initiales de variance maximale sous une contrainte dorthogonalit e (cf. Baccini et Besse (2000) pour des d etails). En d esignant par V la matrice des vecteurs propres de la matrice des corr elations R rang es dans lordre d ecroissant des valeurs propres, les valeurs prises par ces variables principales sont obtenues dans la matrice des composantes principales C = (X 1 x )V. Elles ont chacune pour variance la valeur propre j associ ee. Le sous-espace engendr e par ces variables quivalent principales est le m eme que celui engendr e par les variables initiales. Il est donc g eom etriquement e de r egresser Y sur les colonnes de C que sur celles de X. Les probl` emes de colin earit e sont alors r esolus en supprimant les variables principales de plus faibles variances cest-` a-dire associ ees aux plus petites valeurs propres ou encore en ex ecutant un algorithme de choix de mod` ele sur les composantes. La solution obtenue pr esente ainsi de meilleures qualit es pr edictives mais, les coefcients de la r egression sappliquant aux composantes principales, un calcul compl ementaire est n ecessaire an d evaluer et dinterpr eter les effets de chacune des variables initiales. R egression PLS Une dermi` ere approche est largement utilis ee, par exemple en chimiom etrie, an de pourvoir traiter les situations pr esentant une forte multicolin earit e et m eme, lorsque le nombre dobservations est inf erieur au nombre de pr edicteurs. Il sagit de la r egression PLS (partial least square).
24
Comme pour la r egression sur composantes principales, le principe est de rechercher un mod` ele de ` partir de combinaisons lin r egression lin eaire sur un ensemble de composantes orthogonales contruites a eaires des variables explicatives centr ees. Dans le cas de la PLS, la construction des composantes est optimis ee ` la variable Y a ` pr pour que celles-ci soient le plus li ees a edire au sens de la covariance empirique, alors que les composantes principales ne visent qu` a extraire une part de variance maximale sans tenir compte dune variable cible. tre inf ` p. On cherche une Soit X(n p) la matrice des pr edicteurs centr es avec n pouvant e erieur a matrice W de coefcients ou pond erations d enissant les q composantes Tk par combinaisons lin eaires des variables Xj : T = XW. La matrice W est solution du probl` eme suivant : Pour k = 1, . . . , q, wk = arg max Cov(Y, Tk )2
w w
= arg max w X YY Xw Avec wk wk = 1 et tk tk = w X YY Xw = 0, pour = 1 . . . , k 1.
La matrice W est obtenue par la d emarche it erative de lalgorithme 1 ; il suft ensuite de calculer la r egression de Y sur les q variables Tk centr ees ainsi construites. Le choix du nombre de composanteq q est optimis e par validation crois ee. ` une variable explicative multidimensionnelle (SIMPLS). Cet algorithme se g en eralise directement a ` optimiser devient une somme des carr Le crit` ere a es des covariances entre une composante et chacune des t variables r eponse. Plusieurs variantes de la r egression PLS multidimensionnelles ont e e propos es (NIPALS, Kernel-PLS...) ; le m eme crit` ere est optimis e mais sous des contraintes diff erentes. Algorithm 1 r egression PLS X matrice des variables explicatives centr ees, Calcul de W matrice des coefcients. Pour k = 1 ` a q Faire XY , wk = X Y tk = Xwk D eation de X : X = X tk tk X Fin Pour
6
6.1
Compl ements
Mod` eles polynomiaux
tre int En cas dinvalidation de lhypoth` ese de lin earit e, il peut e eressant de consid erer des mod` eles polyn omiaux, tr` es classiques pour d ecrire des ph enom` enes physiques, de la forme Y = 0 + + j X j + + kl X k X l + + j X j 2 ` qui sont encore appel es surfaces de r eponse en plannication exp erimentale. Ces mod` eles sont faciles a tudier dans le cadre lin e eaire, il suft dajouter des nouvelles variables constitu ees des produits ou des carr es des variables explicatives initiales. Les choix : pr esence ou non dune interaction entre deux variables, pr esence ou non dun terme quadratique se traitent alors avec les m emes outils que ceux des choix de variable mais en int egrant une contrainte lors de la lecture des r esultats : ne pas consid erer des mod` eles t incluant des termes quadratiques dont les composants lin eaires auraient e e exclus ou encore, ne pas supprimer dun mod` ele une variable dun effet lin eaire si elle intervient dans un terme quadratique. La proc edure rsreg de SAS est plus particuli` erement adapt ee aux mod` eles quadratiques. Elle ne comporte pas de proc edure de choix de mod` ele mais fournit des aides et diagnostics sur lajustement de la surface ainsi que sur la recherche des points optimaux.
6. Compl ements
25
Attention : Ce type de mod` ele accro t consid erablement les risques de colin earit e, il est peu recommand e de consid erer des termes cubiques.
6.2
Inuence, r esidus, validation
Avant toute tentative de mod elisation complexe, il est imp eratif davoir conduit des analyses uni et bivari ees an didentier des probl` emes sur les distributions de chacune des variables : dissym etrie, valeurs atypiques (outliers) ou sur les liaisons des variables prises deux par deux : non-lin earit e. Ces pr eliminaires ` la r acquis, des aides ou diagnostics associ es a egression lin eaire multiple permettent de d etecter des violations dhypoth` eses (homosc edasticit e, lin earit e) ou des points inuents dans ce contexte multidimensionnel (cf. gure 2.2). Points inuents ` la pr Comme toute m ethode quadratique, lestimation des param` etres est tr` es sensible a esence de points extr emes susceptibles de perturber gravement les r esultats. Une observation est inuente sur les param` etres ` la fois, dune r egression si, a loign ` une petite valeur elle est e ee du barycentre, et ce dans la direction dun vecteur propre associ ea propre (effet levier), elle provoque un grand r esidu. Lobservation de la diagonale de la matrice H (hat matrix) r ev` ele un effet levier potentiel tandis que lanalyse des r esidus studentis es pointe ceux susceptibles de poser des probl` emes (valeur absolue plus grande que 2). Les deux diagnostics pr ec edents sont combin es dans des mesures synth etiques propos ees par diff erents auteurs. La plus utilis ee est la distance de Cook
Di =
s2 (p
2 hi ri 1 i (y y(i) ) (y y(i) ) = i + 1) 1 hi (p + 1)
qui quantie linuence de la i-` eme observation sur l ecart entre le pr edicteur y et le pr edicteur y(i) calcul e ` me observation. On conclut a ` une inuence de lobservation i lorsque la valeur de Di d sans cette ie epasse 1. Tous ces crit` eres sont illustr es dans les graphiques de la gure 2.2. Les tableaux ci-dessous fournis pas SAS illustrent ces quantit es sur lexemple des donn ees comptables.
Obs 1 2 3 4 5 ... Obs 1 2 3 4 5
Dep Var RETCAP (1) 0.2600 0.5700 0.0900 0.3200 0.1700
Predict Value (2) 0.2716 0.3690 0.00897 0.2335 0.1164
Std Err Lower95 Predict Mean (3) (4) 0.053 0.1625 0.039 0.2882 0.063 -0.1205 0.021 0.1903 0.046 0.0215
Upper95 Mean (5) 0.3808 0.4497 0.1385 0.2768 0.2113 Hat Diag H (14) 0.5109 0.2795 0.7192 0.0803 0.3864
Lower95 Predict (6) 0.0839 0.1962 -0.1912 0.0748 -0.0634 Cov Ratio (15) 3.2603 0.0050 0.6375 0.8585 1.7591
Upper95 Std Err Student Predict Residual Residual Residual (7) (8) (9) (10) 0.4593 -0.0116 0.052 -0.223 0.5417 0.2010 0.063 3.183 0.2092 0.0810 0.039 2.055 0.3922 0.0865 0.071 1.212 0.2961 0.0536 0.058 0.920 INTERCEP Dfbetas (15) 0.0299 0.9316 0.5543 -0.0132 -0.0386 WCFTCL WCFTDT Dfbetas Dfbetas (15) (15) 0.0632 -0.0911 -0.3621 0.3705 2.1916 -2.0241 -0.0835 0.1207 0.0906 0.0060
| | | | |
-2-1-0 1 2 (11) | | |******| |**** | |** | |* | ...
Cooks D Rstudent (12) (13) 0.004 -0.2194 0.302 3.9515 0.832 2.1955 0.010 1.2228 0.041 0.9175
Dffits (15) -0.2242 2.4611 3.5134 0.3613 0.7280
26
F IG . 2.2 Retour sur capital : Graphe des r esidus studentis es, de la diagonale de la matrice H et de la distance de Cook en fonction des valeurs pr edites.
(1) (2) (3) (4)et (5) (6) et (7) (8) (9) (10) (11) (12) (13) (14) (15) ` expliquer yi variable a valeur ajust ee y bi cart-type de cette estimationsy e bi Intervalle de conance pour lestimation de E (yi ) Intervalle de conance pour lestimation de yi r esidus calcul es ei carts-types de ces estimations e r esidus standardis es (ou studentis es internes) ri rep erage graphique des r esidus standardis es : = 0.5. Distance de Cook r esidus studentis es (externes) ti Termes diagonaux de la matrice chapeau H autres indicateurs dinuence
Sum of Residuals Sum of Squared Residuals Predicted Resid SS (Press)
0 0.1495 1.0190
(SSE) (PRESS)
R egression partielle Un mod` ele de r egression multiple est une technique lin eaire. Il est raisonnable de sinterroger sur la ` lajustement du mod` pertinence du caract` ere lin eaire de la contribution dune variable explicative a ele. Ceci tre r peut e ealis e en consid erant une r egression partielle. On calcule alors deux r egressions : ` me variable est la r egression de Y sur les variables X 1 , . . . , X j 1 , X j +1 , . . . , X p , dans laquelle la j e omise, soit ry(j ) le vecteur des r esidus obtenus. La r egression de X j sur les variables X 1 , . . . , X j 1 , X j +1 , . . . , X p . Soit rx(j ) le vecteur des r esidus obtenus. La comparaison des r esidus par un graphe (nuage de points ry(j ) rx(j ) ) permet alors de repr esenter la ele. nature de la liaison entre X j et Y conditionnellement aux autres variables explicatives du mod` Graphes Diff erents graphiques permettent nalement de contr oler le bien fond e des hypoth` eses de lin earit e, ventuellement de normalit dhomosc edasticit e, e e des r esidus. Le premier consid` ere le nuage de points des r esidus studentis es crois es avec les valeurs pr edites. Les tre uniform points doivent e ement r epartis entre les bornes 2 et +2 et ne pas pr esenter de formes suspectes (cf. gure 2.2). Le deuxi` eme croise les valeurs observ ees de Y avec les valeurs pr edites. Il illustre le coefcient de d etermination R qui est aussi la corr elation lin eaire simple entre y et y. Les points doivent saligner
7. Analyse de variance a ` un facteur
27
F IG . 2.3 Retour sur capital : Graphe des valeurs observ ees en fonction des valeurs pr edites et droite de Henri des r esidus (normal qq-plot).
tre compl autour de la premi` ere bissectrice. Il peut e et e par lintervalle de conance des yi ou celui de leurs moyennes. (cf. gure 2.3). tudi La qualit e, en terme de lin earit e, de lapport de chaque variable est e ee par des r egressions par tre compl tielles. Chaque graphe de r esidus peut e et e par une estimation fonctionnelle ou r egression non-param etrique (loess, noyau, spline) an den facilit e la lecture. Le dernier trace la droite de Henri (Normal QQplot) des r esidus dont le caract` ere lin eaire de la repr esentation donne une id ee de la normalit e de la distribution. (cf. gure 2.3)
7
7.1
` un facteur Analyse de variance a

Introduction
Les techniques dites danalyse de variance sont des outils entrant dans le cadre g en eral du mod` ele lin eaire et o` u une variable quantitative est expliqu ee par une ou plusieurs variables qualitatives. Lobjectif essentiel est alors de comparer les moyennes empiriques de la variable quantitative observ ees pour diff erentes cat egories dunit es statistiques. Ces cat egories sont d enies par lobservation des variables qualitatives ou facteurs prenant diff erentes modalit es ou encore de variables quantitatives d ecoup ees en classes ou niveaux. Une combinaison de niveaux d enit une cellule, groupe ou traitement. Il sagit donc de savoir si un facteur ou une combinaison de facteurs (interaction) a un effet sur la variable quantitative en vue, par exemple, de d eterminer des conditions optimales de production ou de fabrication, une dose optimale de m edicaments. . . . Ces techniques apparaissent aussi comme des cas particuliers de ` chaque modalit la r egression lin eaire multiple en associant a e une variable indicatrice (dummy variable) ` expliquer une variable quantitative par ces variables indicatrices. Lappellation analyse et en cherchant a de variance vient de ce que les tests statistiques sont b atis sur des comparaisons de sommes de carr es de variations. Lanalyse de variance est souvent utilis ee pour analyser des donn ees issue dune planication exp erimentale au cours de laquelle lexp erimentateur a la possibilit e de contr oler a priori les niveaux des facteurs avec ` construire pour objectif dobtenir le maximum de pr ecision au moindre co ut. Ceci conduit en particulier a ` deux (variables explicatives non lin des facteurs orthogonaux deux a eairement corr el ees) an de minimiser la variance des estimateurs. On distingue le cas particulier important o` u les cellules ont le m eme effectif, ` des simplications on parle alors de plan orthogonal ou e ep et e ou e e (balanced), qui conduit a quir quilibr importantes de lanalyse de variance associ ee. On appelle plan complet un dispositif dans lequel toutes les t combinaisons de niveaux ont e e exp eriment ees. On distingue entre des mod` eles xes, al eatoires ou mixtes selon le caract` ere d eterministe (contr ol e) ou non des facteurs par exemple si les modalit es r esultent dun
28
` choix al eatoire parmi un grand nombre de possibles. Dans cette courte introduction seuls le mod` ele xe a un facteur est consid er e. ` un facteur est un cas particulier d Lanalyse de variance a etude de relations entre deux variables statistiques : une quantitative Y admettant une densit e et une qualitative X ou facteur qui engendre une partition ou classication de l echantillon en J groupes, cellules ou classes indic ees par j . Lobjectif est de comparer les distributions de Y pour chacune des classes en particulier les valeurs des moyennes et variances. Un ` r pr ealable descriptif consiste a ealiser un graphique constitu e de diagrammes boites parall` eles : une pour chaque modalit e. Cette repr esentation donne une premi` ere appr eciation de la comparaison des distributions ` chaque groupe. Les sp (moyenne, variance) internes a ecicit es de la planication dexp erience ne sont pas abord ees dans ce cours ax e sur la fouille de donn ees pour laquelle les donn ees sont justement pr ealablement fournies. Les plans dexp erience sont surtout utilis es en milieu industriel : contr ole de qualit e, optimisation des processus de production, ou en agronomie pour la s election de vari et es, la comparaison dengrais, dinsecticides. . . . La bibliographie est abondante sur ce sujet.
7.2
Mod` ele
J
Pour chaque niveau j de X , on observe nj valeurs y1j , . . . , ynj j de la variable Y et o` u n = j =1 nj (n > J ) est la taille de l echantillon. On suppose qu` a lint erieur de chaque cellule, les observations sont 2 quidistribu ind ependantes e ees de moyenne j et de variance homog` ene j = 2 . Ceci s ecrit : yij = j + ij o` u les ij sont i.i.d. suivant une loi centr ee de variance 2 qui sera suppos ee N (0, 2 ) pour la construction des tests. Cette derni` ere hypoth` ese n etant pas la plus sensible. Les esp erances j ainsi que le param` etre de ` estimer. nuisance 2 sont les param` etres inconnus a On note respectivement : y .j s2 j y .. = 1 nj
nj
yij ,
i=1 nj
1 nj 1 1 n
nj
(yij y .j )2 ,
i=1 J
yij ,
i=1 j =1
les moyennes et variances empiriques de chaque cellule, la moyenne g en erale de l echantillon. Les param` etres j sont estim es sans biais par les moyennes y .j et comme le mod` ele s ecrit alors : yij = y .j + (yij y .j ), lestimation des erreurs est eij = (yij y .j ) tandis que les valeurs pr edites sont yij = y .j . Sous lhypoth` ese dhomog en eit e des variances, la meilleure estimation sans biais de 2 est s =
2 J j =1 nj i=1 (yij
y .j )2
nJ
1 2 [(n 1)s2 1 + + (nJ 1)sJ ] nJ
qui s ecrit donc comme une moyenne pond er ee des variances empiriques de chaque groupe. Notons y le vecteur des observations [yij |i = 1, nj ; j = 1, J ] mis en colonne, = [ij |i = 1, nj ; j = ` me e l 1, J ] le vecteur des erreurs, 1j les variables indicatrices des niveaux et 1 la colonne de 1s. Le ie ement ` me observation yi est associ dune variable indicatrice (dummy variable) 1j prend la valeur 1 si la ie ee au ` me et 0 sinon. je è crire que lesp Comme dans le cas de la r egression lin eaire multiple, le mod` ele consiste a erance de la variable Y appartient au sous-espace lin eaire engendr e par les variables explicatives, ici les variables indicatrices : y = 0 1 + 1 11 + + J 1J + .
7. Analyse de variance a ` un facteur
29
La matrice X alors construite nest pas de plein rang p + 1 mais de rang p. La matrice X X nest pas inversible et le mod` ele admet une innit e de solutions. Nous disons que les param` etres j ne sont pas estimables ou identiables. En revanche, certaines fonctions (combinaisons lin eaires) de ces param` etres sont estimables et appel ees contrastes. ` un facteur, la solution la plus simple adopt ` Dans le cas du mod` ele danalyse de variance a ee consiste a consid erer un sous-ensemble des indicatrices ou de combinaisons des indicatrices engendrant le m eme sous` aboutir a ` une matrice inversible. Ceci conduit a ` consid ` espace de fac on a erer diff erents mod` eles associ es a ` chaque fois des diff erentes param etrisation. Attention, les param` etres j ainsi que la matrice X prennent a signications diff erentes. Un premier mod` ele (cell means model) s ecrit comme celui dune r egression lin eaire multiple sans terme constant avec = [1 , . . . , J ] le vecteur des param` etres : y y = 1 11 + + J 1J + = X + .
è tudier la nullit Les calculs se pr esentent simplement mais les tests d ecoulant de ce mod` ele conduiraient a e des param` etres alors que nous sommes int eress es par tester l egalit e des moyennes. Une autre param etrisation, consid erant cette fois le vecteur = [J , 1 J , . . . , J 1 J ] conduit è crire le mod` a ele (base cell model) de r egression avec terme constant : y = 0 1 + 1 11 + + J 1 1J 1 + . Cest celle de SAS alors que dautres logiciels consid` erent des param` etres deffet diff erentiel j . par rapJ ` leffet moyen . = 1/J j =1 j . Ce dernier est encore un mod` port a ele (group effect model) de r egression lin eaire avec terme constant mais dont les variables explicatives sont des diff erences dindicatrices et avec = [. , 1 . , . . . , J 1 . ] : y = 0 1 + 1 (11 1J ) + + J 1 (1J 1 1J ) + .
7.3
Test
On d esigne les diff erentes sommes des carr es des variations par :
J nj J nj 2 2 yij ny .. , j =1 i=1 J nj 2 yij j =1 i=1 J j =1 J 2 nj y .j ,
SST =
j =1 i=1 J nj
(yij y .. ) =
2
SSW =
j =1 i=1 J
(yij y .j ) = nj ( y.j y .. )2 =
j =1 j =1
SSB =
2 2 nj y .j ny .. ,
o` u T signie totale, W (within) intra ou r esiduelle, B (between) inter ou expliqu ee par la partition. Il est facile de v erier que SST=SSB+SSW. On consid` ere alors lhypoth` ese H0 : 1 = = J , ` dire que la moyenne est ind qui revient a ependante du niveau ou encore que le facteur na pas deffet, contre lhypoth` ese H1 : (j, k ) tel que j = k ` reconna qui revient a tre un effet ou une inuence du facteur sur la variable Y . ` comparer par un test de Fisher un Dans les mod` eles pr ec edents, l etude de cette hypoth` ese revient a mod` ele complet (les moyennes sont diff erentes) avec un mod` ele r eduit supposant la nullit e des param` etres ` celle de la derni` ` la moyenne g j et donc l egalit e des moyennes a ere cellule ou a en erale. ` la construction du test qui en d Les r esultats n ecessaires a ecoule sont r esum es dans la table danalyse de la variance :
30 Source de variation Mod` ele (inter) Erreur (intra) Total Somme des carr es SSB SSW SST
d.d.l. J 1 nJ n1
Variance MSB=SSB/(J 1) MSW=SSW/(n J )
F MSB/MSW
Pratiquement, un programme de r egression usuel permet de construire estimation et test de la nullit e des j sauf pour le premier mod` ele qui doit tester l egalit e au lieu de la nullit e des param` etres. quivalent au test de Student de comparaison Dans le cas de deux classes (J = 2) on retrouve un test e chantillons ind des moyennes de deux e ependants. Si lhypoth` ese nulle est rejet ee, la question suivante ` rechercher quelles sont les groupes ou cellules qui poss` consiste a edent des moyennes signicativement t ` cette diff erentes. De nombreux tests et proc edures ont e e propos es dans la litt erature pour r epondre a question. Enn, lhypoth` ese importante du mod` ele induit par lanalyse de variance est lhomog en eit e des ` lestimation du mod` variances de chaque groupe. Conjointement a ele et en supposant la normalit e, il peut tre instructif de contr e oler cette homog en eit e par un test.
Analyse de covariance
Lanalyse de covariance se situe encore dans le cadre g en eral du mod` ele lin eaire et o` u une variable ` la fois quantitatives et qualitatives. Dans les cas les quantitative est expliqu ee par plusieurs variables a plus complexes, ont peut avoir plusieurs facteurs (variables qualitatives) avec une structure crois ee ou hi erarchique ainsi que plusieurs variables quantitatives intervenant de mani` ere lin eaire ou polyn omiale. Le principe g en eral, dans un but explicatif ou d ecisionnel, est toujours destimer des mod` eles intra-groupes et de faire appara tre (tester) des effets diff erentiels inter-groupes des param` etres des r egressions. Ainsi, dans le cas plus simple o` u seulement une variable parmi les explicatives est quantitative, nous sommes ` tester lh amen es a et erog en eit e des constantes et celle des pentes (interaction) entre diff erents mod` eles de r egression lin eaire. ` la mod Ce type de mod` ele permet donc, toujours avec un objectif pr edictif, de sint eresser a elisation ` la fois quantitatives et qualitatives. dune variable quantitative par un ensemble de variables explicatives a La possible prise en compte dinteractions complique singuli` erement la proc edure de s election de variables.
8.1
Mod` ele
l Le mod` ele est explicit e dans le cas e ementaire o` u une variable quantitative Y est expliqu ee par une ` J niveaux et une variable quantitative, appel variable qualitative T a ee encore covariable, X . Pour chaque J niveau j de T , on observe nj valeurs x1j , . . . , xnj j de X et nj valeurs y1j , . . . , ynj j de Y ; n = j =1 nj est la taille de l echantillon. En pratique, avant de lancer une proc edure de mod elisation et tests, une d emarche exploratoire sappuyant sur une repr esentation en couleur (une par modalit e j de T) du nuage de points croisant Y et X et associant les droites de r egression permet de se faire une id ee sur les effets respectifs des variables : tirement, imbrication des sous-nuages. parall elisme des droites, e ` lint On suppose que les moyennes conditionnelles E [Y |T ], cest-` a-dire calcul ees a erieur de chaque cellule, sont dans le sous-espace vectoriel engendr e par les variables explicatives quantitatives, ici X . Ceci s ecrit : yij = 0j + 1j xij + ij ; j = 1, . . . , J ; i = 1, , nj o` u les ij sont i.i.d. suivant une loi centr ee de variance 2 qui sera suppos ee N (0, 2 ) pour la construction des tests. Notons y le vecteur des observations [yij |i = 1, nj ; j = 1, J ] mis en colonne, x le vecteur [xij |i = 1, nj ; j = 1, J ] , = [ij |i = 1, nj ; j = 1, J ] le vecteur des erreurs, 1j les variables indicatrices des ` terme des deux vecteurs, cest-` niveaux et 1 la colonne de 1s. On note encore x.1j le produit terme a a-dire le vecteur contenant les observations de X sur les individus prenant le niveau j de T et des z eros ailleurs. La r esolution simultan ee des J mod` eles de r egression est alors obtenue en consid erant globalement le
8. Analyse de covariance mod` ele : y = X +
31
dans lequel X est la matrice n 2J constitu ee des blocs [1j |x.1j ] ; j = 1, . . . , J . Lestimation de ce mod` ele ` estimer les mod` global conduit, par bloc, a eles de r egression dans chacune des cellules. Comme pour lanalyse de variance, les logiciels op` erent une reparam etrisation faisant appara tre des ` un effet effets diff erentiels par rapport au dernier niveau (SAS/GLM, SAS/INSIGHT) ou par rapport a moyen (Systat), an dobtenir directement les bonnes hypoth` eses dans les tests. Ainsi, dans le premier cas, ` me indicatrice) on consid` ere la matrice de m eme rang (sans la J e X = [1|x|11 | |1J 1 |x.11 | |x.1J 1 ] associ ee aux mod` eles : yij = 0J + (0j 0J ) + 1J xij + (1j 1J )xij + ij ; j = 1, . . . , J 1; i = 1, . . . , nj .
8.2
Tests
Diff erentes hypoth` eses sont alors test ees en comparant le mod` ele complet y = 0J 1 + (01 0J )11 + + (0J 1 0J )1J 1 + 1J x + + (11 1J )x.11 + + (1J 1 1J )x.1J 1 +
` chacun des mod` a eles r eduits : (i) (ii) (iii) y = 0J 1 + (01 0J )11 + + (0J 1 0J )1J 1 + 1J x + y = 0J 1 + (01 0J )11 + + (0J 1 0J )1J 1 + +(1j 1J )x.11 + + (1J 1 1J )x.1J 1 + y = 0J 1 + 1J x + (1j 1J )x.11 + + (1J 1 1J )x.1J 1 +
` consid par un test de Fisher. Ceci revient a erer les hypoth` eses suivantes : i H0 : pas dinteraction, 11 = = 1J , les droites partagent la m eme pente 1J , ii H0 : 1J =0, iii ` lorigine 0J . H0 :01 = = 0J , les droites partagent la m eme constante a valuer i), si le test nest pas signicatif, on regarde ii) qui, sil nest pas non On commence donc par e ` labsence deffet de la variable X . De m plus signicatif, conduit a eme, toujours si i) nest pas signicatif, ` iii) pour juger de leffet du facteur T . on sint eresse a
8.3
Choix de mod` ele
Ce cadre th eorique et les outils informatiques (SAS/GLM) permettent de consid erer des mod` eles beaucoup plus complexes incluant plusieurs facteurs, plusieurs variables quantitatives, voire des polyn omes de celles-ci, ainsi que les diverses interactions entre qualitatives et quantitatives. Le choix du bon mod` ele devient vite complexe dautant que la strat egie d epend, comme pour la r egression lin eaire multiple, de lobjectif vis e: descriptif : des outils multidimensionnels descriptifs (ACP, AFD, AFCM. . . ) sav` erent souvent plus efcaces pour s electionner, en premi` ere approche, un sous-ensemble de variables explicatives avant dop erer une mod elisation, tre e valu explicatif : de la prudence est requise dautant que les hypoth` eses ne peuvent e ees de fac on ind ependante surtout si, en plus, des cellules sont d es equilibr ees ou vides, ` n pr edictif : la recherche dun mod` ele efcace, donc parcimonieux, peut conduire a egliger des interactions ou effets principaux lorsquune faible am elioration du R2 le justie et m eme si le test correspondant appara t comme signicatif. Lutilisation du Cp est th eoriquement possible mais en g en eral ce crit` ere nest pas calcul e et dutilisation d elicate car n ecessite la consid eration dun vrai mod` ele de r ef erence ou tout du moins dun mod` ele de faible biais pour obtenir une estimation raisonnable de la variance de lerreur. En revanche AIC et PRESS donnent des indications plus pertinentes. Lalgorithme de recherche descendant est le plus couramment utilis e avec la contrainte suivante : un effet principal nest supprim e qu` a la condition quil napparaisse plus dans une interaction.
32
8.4
Exemple
tude marketing visant a è tudier limpact Les donn ees, extraites de Jobson (1991), sont issues dune e chantillon ou panel de de diff erentes campagnes publicitaires sur les ventes de diff erents aliments. Un e t familles a e e constitu e en tenant compte du lieu dhabitation ainsi que de la constitution de la famille. Chaque semaine, chacune de ces familles ont rempli un questionnaire d ecrivant les achats r ealis es. Nous ` l nous limitons ici a etude de limpact sur la consommation de lait de quatre campagnes diffus ees sur t des cha nes locales de t el evision. Quatre villes, une par campagne publicitaire, ont e e choisies dans cinq diff erentes r egions g eographiques. Les consommations en lait par chacune des six familles par ville alors t e e mesur ees (en dollars) apr` es deux mois de campagne. ` 6 variables : la r Les donn ees se pr esentent sous la forme dun tableau a egion g eographique, les 4 consommations pour chacune des villes ou campagnes publicitaires diffus ees, la taille de la famille. Cette situation est celle classique dun mod` ele danalyse de variance. Nous choisissons ici de conserver quantitative la variable taille de la famille et donc de mod eliser la consommation de lait par un mod` ele danalyse de ` estimer. covariance plus e es de libert e moins de param` etres sont a conomique en degr ` diff ` expliquer la consommation en fonction de la On sint eresse a erents mod` eles de r egression visant a taille de la famille conditionnellement au type de campagne publicitaire.
proc glm data=sasuser.milk; class pub; model consom=pub taille pub*taille; run;
` conclure a ` une forte inuence de la taille mais a ` labsence dinLes r esultats ci-dessous conduiraient a uence du type de campagne. Les droites de r egression ne semblent pas signicativement diff erentes.
Source PUB TAILLE TAILLE*PUB DF 3 1 3 Type III SS 227.1807 40926.0157 309.8451 Mean Square 75.7269 40926.0157 103.2817 F Value 0.57 306.57 0.77 Pr > F 0.6377 (1) 0.0001 (2) 0.5111 (3)
(1) (2) (3)
Test de la signicativit e des diff erences des termes constants. Test de linuence du facteur quantitatif. Test de la signicativit e des diff erences des pentes (interaction).
N eanmoins, pris dun doute, le m eme calcul est effectu e s epar ement pour chaque r egion :
proc glm data=sasuser.milk; by region; class pub; model consom=pub taille pub*taille; run;
R egion Source PUB TAILLE TAILLE*PUB PUB TAILLE TAILLE*PUB PUB TAILLE TAILLE*PUB PUB TAILLE TAILLE*PUB DF 3 1 3 3 1 3 3 1 3 3 1 3 Type III SS 72.02974 7178.32142 217.37048 231.73422 8655.25201 50.15069 79.54688 6993.30160 173.19305 415.66664 9743.37830 361.39556 Mean Square 24.00991 7178.32142 72.45683 77.24474 8655.25201 16.71690 26.51563 6993.30160 57.73102 138.55555 9743.37830 120.46519 F Value 4.62 1380.25 13.93 30.36 3402.34 6.57 6.01 1585.35 13.09 15.23 1071.32 13.25 Pr > F 0.0164 0.0001 0.0001 0.0001 0.0001 0.0042 0.0061 0.0001 0.0001 0.0001 0.0001 0.0001
9. Exemple : Pr evision de la concentration dozone
33
PUB TAILLE TAILLE*PUB
3 1 3
15.35494 8513.28516 52.75119
5.11831 8513.28516 17.58373
0.79 1314.71 2.72
0.5168 0.0001 0.0793
Il appara t alors qu` a lint erieur de chaque r egion (sauf r egion 5), les campagnes de publicit e ont un effet tant sur la constante que sur la pente. ` se m Ceci incite donc a eer des interactions (leffet r egion compense leffet publicit e) et encourage ` toujours conserver le facteur bloc (ici la r a egion) dans une analyse de variance. Une approche compl` ete, consid erant a priori toutes les variables (3 facteurs), est ici n ecessaire (cf. TP).
9
9.1
Exemple : Pr evision de la concentration dozone

Les donn ees
` la pr Les donn ees proviennent des services de M et eo-France et sint eresse a evision de la concentration t en Ozone dans 5 stations de mesure ; ces sites ont e e retenus pour le nombre impoprtant de pics de pollution t qui ont e e d etect es dans les p eriodes consid er ees ( et es 2002, 2003, 2005). Un pic de pollution est d eni ici par une concentration d epassant le seuil de 150g/m3 . M et eo-France dispose d ej` a dune pr edvision (MO` partir dum mod` quations du comportement dynamique de latmosph` CAGE), a ele physique bas e sur les e ere (Navier et Stockes). Cette pr evision fait partie du dispositif dalerte des pouvoirs publics et pr evoit donc une ` 17h locale pour le lendemain. Lobjet du travail est den faire une e valuation concentration de pollution a statistique puis de lam eliorer en tenant compte dautres variables ou plut ot dautres pr evisions faites par M et eo-France. Il sagit donc dint egrer ces informations dans un mod` ele statistique global. Les variables t Certaines variables de concentration ont e e transform ees an de rendre sym etrique (plus gaussienne) leur distribution. ` pr O3-o Concentration dozone effectivement observ ee ou variable a edire, 03-pr pr evision mocage qui sert de variable explicative ; Tempe Temp erature pr evue pour le lendemain, vmodule Force du vent pr evue pour le lendemain, lno Logarithme de la concentration observ ee en monoxyde dazote, lno2 Logarithme de la concentration observ ee en dioxyde dazote, rmh20 Racine de la concentration en vapeur deau, ` deux modalit Jour Variable a es pour distinguer les jours ouvrables (0) des jours f eri es-WE (1). Station Une variable qualitative indique la station concern ee : Aix-en-Provence, Rambouillet, Munchhausen, Cadarache, et Plan de Cuques. Mod` ele physique Les graphiques de la gure 2.4 repr esente la premi` ere pr evision de la concentration dozone observ ee, ainsi que ses r esidus, cest-` a-dire celle obtenue par le mod` ele physique MOCAGE. Ces graphes t emoignent de la mauvaise qualit e de ce mod` ele : les r esidus ne sont pas r epartis de fac on sym etrique et les deux nuages p esentent une l eg` ere forme de banane signiant que des composantes non lin eaires du mod` ele nont pas t e e prises en compte. Dautre part, la forme dentonnoir des r esidus montrent une forte h et erosc edasticit e. Cela signie que la variance des r esidus et donc des pr evisions cro t avec la valeur. En dautre terme, la lev qualit e de la pr evision se d egrade pour les concentrations e ees justgement dans la zone sensible. Mod` ele sans interaction Un premier mod` ele est estim e avec R :
fit.lm=lm(O3-oO3-pr+vmodule+lno2+lno+s-rmh2o+jour+station+TEMPE,data=donne)
34
Valeurs observees
250
Rsidus
150
50
100
200
300
100 50
50
50
100
50
100
200
300
Valeurs predites
Valeurs predites
F IG . 2.4 Ozone : pr evision et r esidus du mod` ele MOCAGE de M et eo-France pour 5 stations. Il introduit lensemble des variables explicatives mais sans interaction. Les r esultats num eriques sont fournis ci-dessous.
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -4.99738 7.87028 -0.635 0.52559 O3_pr 0.62039 0.05255 11.805 < 2e-16 *** vmodule -1.73179 0.35411 -4.891 1.17e-06 *** lno2 -48.17248 6.19632 -7.774 1.83e-14 *** lno 50.95171 5.98541 8.513 < 2e-16 *** s_rmh2o 135.88280 50.69567 2.680 0.00747 ** jour1 -0.34561 1.85389 -0.186 0.85215 stationAls 9.06874 3.37517 2.687 0.00733 ** stationCad 14.31603 3.07893 4.650 3.76e-06 *** stationPla 21.54765 3.74155 5.759 1.12e-08 *** stationRam 6.86130 3.05338 2.247 0.02484 * TEMPE 4.65120 0.23170 20.074 < 2e-16 *** Residual standard error: 27.29 on 1028 degrees of freedom Multiple R-Squared: 0.5616, Adjusted R-squared: 0.5569 F-statistic: 119.7 on 11 and 1028 DF, p-value: < 2.2e-16
A lexception de la variable indiquant la nature du jour, lensemble des coefcients sont jug es signicativement diff erent de z ero mais la qualit e de lajustement est faible (R2 ). Mod` ele avec interaction La qualit e dajustement du mod` ele pr ec edent n etant pas tr` es bonne, un autre mod` ele est consid er e en prenant en compte les interactions dordre 2 entgre les variables. Compte tenu de la complexit e du mod` ele limination successive des termes non signicatifs qui un d ecoule, un choix automatique est lanc e par e t limin (algotithme backward). Le crit` ere optimis e est celui (AIC) dAka ke. Plusieurs interactions ont e ee ees au cours de la proc edure mais beaucoup subsistent dans le mod` ele. Attention, les effets principaux lno2, tre retir vmodule ne peuvent e es car ces variables apparaissent dans une interaction. En revanche on peut sinterroger sur lopportunit e de conserver celle entre la force du vent et la concentration de dioxyde dazote.
Df Deviance Resid. Df Resid. Dev F Pr(>F) 1039 1745605 1 611680 1038 1133925 969.9171 < 2.2e-16 *** 4 39250 1034 1094674 15.5594 2.339e-12 *** 1 1151 1033 1093523 1.8252 0.1769957 1 945 1032 1092578 1.4992 0.2210886 1 24248 1031 1068330 38.4485 8.200e-10 ***
NULL O3_pr station vmodule lno2 s_rmh2o
9. Exemple : Pr evision de la concentration dozone
35
100
50
Rsidus
Rsidus
100 50
50
100
200
300
100 50
50
100
50
100
200
300
Valeurs predites
Valeurs predites
F IG . 2.5 Ozone : R esidus des mod` eles lin eaire et quadratique.
TEMPE O3_pr:station O3_pr:vmodule O3_pr:TEMPE station:vmodule station:lno2 station:s_rmh2o station:TEMPE vmodule:lno2 vmodule:s_rmh2o lno2:TEMPE s_rmh2o:TEMPE
1 4 1 1 4 4 4 4 1 1 1 1
248891 16911 8554 41129 7693 12780 19865 27612 1615 2407 4717 42982
1030 1026 1025 1024 1020 1016 1012 1008 1007 1006 1005 1004
819439 394.6568 < 2.2e-16 *** 802528 6.7038 2.520e-05 *** 793974 13.5642 0.0002428 *** 752845 65.2160 1.912e-15 *** 745152 3.0497 0.0163595 * 732372 5.0660 0.0004811 *** 712508 7.8746 2.997e-06 *** 684896 10.9458 1.086e-08 *** 683280 2.5616 0.1098033 680873 3.8163 0.0510351 . 676156 7.4794 0.0063507 ** 633175 68.1543 4.725e-16 ***
Ce sont surtout les graphes de la gure 2.5 qui renseignent sur lad equation des mod` eles. Le mod` ele quadratique fournit une forme plus lin eaire des r esidus et un meilleur ajustement avec un R2 de 0,64 mais lh et erosc edasticit e reste pr esente, dautres approches sav` erent n ecessaires an de r eduire la variance li ee ` la pr lev a evision des concentrations e ees.
9.2
Autres exemples
tudi ` une mod` Les autres jeux de donn ees e es dans ce cours ne se pr` etent pas a ele de r egression multiple ` pr ` un mod` classique ; soit la variable a edire est qualitative binaire et correspondent donc a ele de r egression ` un mod` logistique (cancer et donn ees bancaires), soit la situation est plus complexe car fait appel a ele mixte ` effet al ou a eatoire (r egime des souris).
36
Chapitre 3 R egression logistique

1 Introduction
Dans ce chapitre, nous d enissons le contexte pratique de la r egression logistique qui sint eressent plus ` la description ou lexplication dobservations constitu particuli` erement a es deffectifs comme, par exemple, le nombre de succ` es dune variable de Bernouilli lors dune s equence dessais. Contrairement aux mod` eles du chapitre pr ec edent bas es sur lhypoth` ese de normalit e des observations, les lois concern ees sont discr` etes ` des d ` la famille et associ ees a enombrements : binomiale, multinomiale. N eanmoins, ce mod` ele appartient a ` ce titre beaucoup daspects (estimation par maximum de du mod` ele lin eaire g en eral (annexe) et partagent a vraisemblance, tests, diagnostics) et dont la strat egie de mise en uvre, similaire au cas gaussien, nest pas reprise. ` l Une premi` ere section d enit quelques notions relatives a etude de la liaison entre variables qualitatives. Elles sont couramment utilis ees dans linterpr etation des mod` eles de r egression logistique.
Odds et odds ratio
Une variable ` J modalit ` me Soit Y une variable qualitative a es. On d esigne la chance (ou odds1 de voir se r ealiser la j e ` me par le rapport modalit e plut ot que la k e j jk = k ` me modalit o` u j est la probabilit e dapparition de la j e e. Cette quantit e est estim ee par le rapport nj /nk chantillon. Lorsque la variable est binaire et suit une loi de Bernouilli de des effectifs observ es sur un e param` etre , lodds est le rapport /(1 ) qui exprime une cote ou chance de gain. chec est 0.2. Lodds du succ` Par exemple, si la probabilit e dun succ` es est 0.8, celle dun e es est 0.8/0.2=4 tandis que lodds de l echec est 0.2/0.8=0.25. On dit encore que la chance de succ` es est de 4 contre 1 tandis que celle d echec est de 1 contre 4. Table de contingence On consid` ere maintenant une table de contingence 2 2 croisant deux variables qualitatives binaires X 1 et X 2 . les param` etres de la loi conjointe se mettent dans une matrice : 11 21 12 22
o` u ij = P [{X 1 = i} et {X 2 = j }] est la probabilit e doccurence de chaque combinaison. Dans la ligne 1, lodds que la colonne 1 soit prise plut ot que la colonne 2 est : 11 1 = . 12
1 Il
nexiste pas, m eme en Qu eb ecois, de traduction consensuelle de odds qui utilise n eanmoins souvent le terme cote.
37
38
Chapitre 3. R egression logistique
Dans la ligne 2, lodds que la colonne 1 soit prise plut ot que la colonne 2 est : 21 2 = . 22 On appelle odds ratio (rapport de cote) le rapport = 1 11 22 = . 2 12 21
` 1 si les sujets de la ligne Ce rapport prend la valeur 1 si les variables sont ind ependantes, il est sup erieur a ` 1 sinon. 1 ont plus de chances de prendre la premi` ere colonne que les sujets de la ligne 2 et inf erieur a cole ding Exemple : supposons qu` a lentr ee dans une e enieurs, 7 garc ons sur 10 sont rec us tandis que seulement 4 lles sur 10 le sont. Lodds des garc ons est alors de 0.7/0.3=2.33 tandis que celle des lles est de 0.4/0.6=0.67. Lodds ratio est de 2.33/0.67=3.5. La chance d etre rec u est 3.5 plus grande pour les garc ons que pour les lles. galement d Lodds ratio est e eni pour deux lignes (a, b) et deux colonnes (c, d) quelconques dune table ` J et K modalit de contingence croisant deux variables a es. Lodds ratio est le rapport abcd = ac bd a = b ad bc estim e par lodds ratio empirique abcd = nac nbd . nad nbc
3
3.1
R egression logistique
Type de donn ees
` 2 modalit Cette section d ecrit la mod elisation dune variable qualitative Z a es : 1 ou 0, succ` es ou chec, pr quipement, faillite dune entreprise, bon ou mauvais e esence ou absence de maladie, panne dun e ` lexplication dune variable quantitative ne sapclient. . . . Les mod` eles de r egression pr ec edents adapt es a pliquent plus directement car le r egresseur lin eaire usuel X ne prend pas des valeurs simplement binaires. ` cette situation en cherchant a ` expliquer les probabilit Lobjectif est adapt ea es = P (Z = 1) ou 1 = P (Z = 0),
ou plut ot une transformation de celles-ci, par lobservation conjointe des variables explicatives. Lid ee est en effet de faire intervenir une fonction r eelle monotone g op erant de [0, 1] dans IR et donc de chercher un mod` ele lin eaire de la forme : g (i ) = xi . Il existe de nombreuses fonctions, dont le graphe pr esente une forme sigmo dale et qui sont candidates pour remplir ce r ole, trois sont pratiquement disponibles dans les logiciels : probit : g est alors la fonction inverse de la fonction de r epartition dune loi normale, mais son expression nest pas explicite. log-log avec g d enie par g ( ) = ln[ ln(1 )] mais cette fonction est dissym etrique. logit est d enie par
ex avec g 1 (x) = . 1 1 + ex Plusieurs raisons, tant th eoriques que pratiques, font pr ef erer cette derni` ere solution. Le rapport /(1 ), qui exprime une cote, est lodds et la r egression logistique sinterpr` ete donc comme la recherche dune mod elisation lin eaire du log odds tandis que les coefcients de certains mod` eles expriment des chec (dun odds ratio cest-` a-dire linuence dun facteur qualitatif sur le risque (ou la chance) dun e succ` es) de Z . g ( ) = logit( ) = ln ` la description de lusage e l Cette section se limite a ementaire de la r egression logistique. Des compl ements concernant lexplication dune variable qualitative ordinale (plusieurs modalit es), lintervention de variables ` rechercher dans explicatives avec effet al eatoire, lutilisation de mesures r ep et ees donc d ependantes, sont a la bibliographie.
3. R egression logistique
39
3.2
Mod` ele binomial
q 1 q On consid` ere, pour i = 1, . . . , I , diff erentes valeurs x ees x1 i , . . . , xi des variables explicatives X , . . . , X . tre des variables quantitatives ou encore des variables qualitatives, cest-` Ces derni` eres pouvant e a-dire des facteurs issus dune planication exp erimentale.
Pour chaque groupe, cest-` a-dire pour chacune des combinaisons de valeurs ou facteurs, on r ealise ni I observations (n = i=1 ni ) de la variable Z qui se mettent sous la forme y1 /n1 , . . . , yI /nI o` u yi d esigne le nombre de succ` es observ es lors des ni essais. On suppose que toutes les observations sont ind ependantes et qu` a lint erieur dun m eme groupe, la probabilit e i de succ` es est constante. Alors, la variable Yi sachant ni et desp erance E (Yi ) = ni i suit une loi binomiale B (ni , i ) dont la fonction de densit e s ecrit : P (Y = yi ) = ni yi (1 i )(ni yi ) . yi i
On suppose que le vecteur des fonctions logit des probabilit es i appartient au sous-espace vect{X 1 , . . . , X q } engendr e par les variables explicatives : logit(i ) = xi ce qui s ecrit encore i = exi 1 + exi i = 1, . . . , I. i = 1, . . . , I
Le vecteur des param` etres est estim e par maximisation de la log-vraisemblance. Il ny a pas de solution analytique, celle-ci est obtenue par des m ethodes num eriques it eratives (par exemple Newton Raphson) ` it dont certaines reviennent a erer des estimations de mod` eles de r egression par moindres carr es g en eralis es ` chaque it avec des poids et des m etriques adapt es a eration. Loptimisation fournit une estimation b de , il est alors facile den d eduire les estimations ou pr evisions des probabilit es i : exi b i = 1 + exi b et ainsi celles des effectifs y i = n i i . Remarques i. La matrice X issue de la planication exp erimentale est construite avec les m emes r` egles que celles utilis ees dans le cadre de lanalyse de covariance mixant variables explicatives quantitatives et qualitatives. Ainsi, les logiciels g` erent avec plus ou moins de clart e le choix des variables indicatrices et donc des param` etres estimables ou contrastes associ es. ` lobservation de donn ii. La situation d ecrite pr ec edemment correspond a ees group ees. Dans de nombreuses situations concr` etes et souvent d` es quil y a des variables explicatives quantitatives, les obser` xer ni = 1; i = 1, . . . , I dans les expressions vations xi sont toutes distinctes. Ceci revient donc a pr ec edentes et la loi de Bernouilli remplace la loi binomiale. Certaines m ethodes ne sont alors plus applicables et les comportements asymptotiques des distributions des statistiques de test ne sont plus valides, le nombre de param` etres tendant vers linni. iii. Dans le cas dune variable explicative X dichotomique, un logiciel comme SAS fournit, en plus de lestimation dun param` etre b, celle des odds ratios ; b est alors le log odds ratio ou encore, eb est es (ou de maladie lodds ratio. Ceci sinterpr` ete en disant que Y a eb fois plus de chance de succ` comme par un exemple un cancer du poumon) quand X = 1 (par exemple pour un fumeur).
3.3
R egressions logistiques polytomique et ordinale
` la mod La r egression logistique adapt ee a elisation dune variable dichotomique se g en eralise au cas ` plusieurs modalit dune variable Y a es ou polytomique. Si ces modalit es sont ordonn es, on dit que la
40
pid variable est qualitative ordinale. Ces types de mod elisation sont tr` es souvent utilis es en e emiologie et permettent d evaluer ou comparer des risques par exemples sanitaires. Des estimations dodds ratio ou valuer et interpr ` diff rapports de cotes sont ainsi utilis es pour e eter les facteurs de risques associ es a erents types (r egression polytomique) ou seuils de gravit e (r egression ordinale) dune maladie ou, en marketing, ` lexplication, par exemple, dun niveau de satisfaction dun client. Il sagit de comparer cela sapplique a entre elles des estimations de fonctions logit. Dans une situation de data mining ou fouille de donn ees, ce type dapproche se trouve lourdement ` lint p enalis e lorsque, a erieur dun m eme mod` ele polytomique ou ordinal, plusieurs types de mod` eles sont ` diff en concurrence pour chaque fonction logit associ ee a erentes modalit es. Diff erents choix de variables, ` privil diff erents niveaux dinteraction rendent trop complexe et inefcace cette approche. Elle est a egier uniquement dans le cas dun nombre restreint de variables explicatives avec un objectif explicatif ou interpr etatif. ` titre illustratif, explicitons le cas simple dune variable Y a ` k modalit A es ordonn ees expliqu ee par une seule variable dichotomique X . Notons j (X ) = P (Y = j |X ) avec j =1 j (X ) = 1. Pour une variable ` k modalit Y a es, il faut, en toute rigueur, estimer k 1 pr edicteurs lin eaires : gj (X ) = j + j X pourj = 1, . . . , k 1
k
et, dans le cas dune variable ordinale, la fonction lien logit utilis ee doit tenir compte de cette situation particuli` ere. Dans la litt erature, trois types de fonction sont consid er ees d ependant de l echelle des rapports de cote adopt ee : chelle bas ` deux, e ee sur la comparaison des cat egories adjacentes deux a sur la comparaison des cat egories adjacentes sup erieures cumul ees, et enn sur la comparaison des cat egories adjacentes cumul ees. ` la m Pour k = 2, on retrouve les trois situations se ram` enent a eme dune variable dichotomique. Cest le ` d dernier cas qui est le plus souvent adopt e ; il conduit a enir les fonctions des logits cumulatifs de la forme : j +1 + + k log pourj = 1, . . . , k 1. 1 + + j ` ce seuil, cumul Pour un seuil donn e sur Y , les cat egories inf erieures a ees, sont compar ees aux cat egories chelle d sup erieures cumul ees. Les fonctions logit d enies sur cette e ependent chacune de tous les effectifs, ` une plus grande stabilit ce qui peut conduire a e des mesures qui en d ecoulent. Si les variables ind ependantes sont nombreuses dans le mod` ele ou si la variable r eponse Y comporte lev un nombre e e de niveaux, la description des fonctions logit devient fastidieuse. La pratique consiste ` d plut ot a eterminer un coefcient global b (mesure deffet) qui soit la somme pond er ee des coefcients bj . ` faire lhypoth` gaux), cest-` Ceci revient a ese que les coefcients sont homog` enes (id ealement tous e a-dire ` suppos a ee que les rapports de cotes sont proportionnels. Cest ce que calcule implicitement la proc edure ` une variable r LOGISTIC de SAS appliqu ee a eponse Y ordinale en estimant un seul param` etre b mais k 1 ` des translations de la fonctions logit. La proc termes constants correspondant a edure LOGISTIC fournit le r esultat du test du score sur lhypoth` ese H0 de lhomog en eit e des coefcients j . Le coefcient b mesure donc lassociation du facteur X avec la gravit e de la maladie et peut sinterpr eter ` ce comme suit : pour tout seuil de gravit e choisi sur Y , la cote des risques davoir une gravit e sup erieure a seuil est eb fois plus grande chez les expos es (X = 1) que chez les non expos es (X = 0). ` celle de Attention dans SAS, la proc edure LOGISTIC adopte une param etrisation (1, 1) analogue a la proc edure CATMOD mais diff erente de celle de GENMOD ou SAS/Insight (0, 1). Ceci explique les ` lautre mais les mod` diff erences observ ees dans lestimation des param` etre dune proc edure a eles sont identiques.
Choix de mod` ele
5. Illustration e ementaire l
41
DEBIT 4 3 2 1 0 0 DILAT 1 2 VOLUME 0 3 4 1
F IG . 3.1 Dilatation : Nuage des modalit es de Y dans les coordonn ees des variables explicatives.
4.1
` pas Recherche pas a
Principalement deux crit` eres (test du rapport de vraisemblance et test de Wald, cf. bibliographie), sont utilis es de fac on analogue au test de Fisher du mod` ele lin eaire gaussien. Ils permettent de comparer un mod` ele avec un sous-mod` ele et d evaluer lint er et de la pr esence des termes compl ementaires. On suit ` partir du mod` ` la fois, la ainsi une strat egie descendante a ele complet. Lid ee est de supprimer, un terme a composante dinteraction ou leffet principal qui appara t comme le moins signicatif au sens du rapport de vraisemblance ou du test de Wald. Les tests pr esentent une structure hi erarchis ee. SAS facilite cette recherche en produisant une d ecomposition (Type III) de ces indices permettant de comparer chacun des sous-mod` eles excluant un des termes avec le mod` ele les incluant tous. Attention, du fait de lutilisation dune transformation non lin eaire (logit), m eme si des facteurs sont or tre prise en compte pour l thogonaux, aucune propri et e dorthogonalit e ne peut e etude des hypoth` eses. Ceci impose l elimination des termes un par un et la r e-estimation du mod` ele. Dautre part, un terme principal tre supprim ne peut e e que sil nintervient plus dans des termes dinteraction.
4.2
Crit` ere
Lapproche pr ec edente favorise la qualit e dajustement du mod` ele. Dans un but pr edictif, certains logiciels, comme Splus/R ou Enterpirse Miner, proposent dautres crit` eres de choix (AIC, BIC). Une estimation de lerreur de pr evision par validation crois ee est aussi opportune dans une d emarche de choix de mod` ele.
5
5.1
l Illustration e ementaire
Les donn ees
tudie linuence du d On e ebit et du volume dair inspir e sur loccurence (cod ee 1) de la dilatation des l vaisseaux sanguins superciels des membres inf erieurs. Un graphique e ementaire repr esentant les modalit es de Y dans les coordonn ees de X 1 X 2 est toujours instructif. Il montre une s eparation raisonnable et de bon augure des deux nuages de points. Dans le cas de nombreuses variables explicatives quantitatives, une analyse en composantes principales simpose. Les formes des nuages repr esent es, ainsi que lallure ` consid des distributions ( etudi ees pr ealablement), incitent dans ce cas a erer par la suite les logarithmes des variables. Une variable un ne contenant que des 1 d enombrant le nombre dessais est n ecessaire dans la syntaxe de genmod. Les donn ees sont en effet non group ees.
proc logistic data=sasuser.debvol; model dilat=l_debit l_volume;
42
run; proc genmod data=sasuser.debvol; model dilat/un=l_debit l_volume/d=bin; run;
The LOGISTIC Procedure Intercept Only 56.040 57.703 54.040 . Parameter(2) Estimate 2.8782 -4.5649 -5.1796
Criterion AIC SC -2 LOG L Score
Intercept and Covariates Chi-Square for Covariates 35.216 . 40.206 . 29.216(1) 24.824 with 2 DF (p=0.0001) . 16.635 with 2 DF (p=0.0002) Standard Wald(3) Pr > Standardized Error Chi-Square Chi-Square Estimate 1.3214 4.7443 0.0294 . 1.8384 6.1653 0.0130 -2.085068 1.8653 7.7105 0.0055 -1.535372 Odds Ratio . 0.010 0.006
Variable INTERCPT L_DEBIT L_VOLUME
DF 1 1 1
Cette proc edure fournit des crit` eres de choix de mod` ele dont la d eviance (1), le vecteur b des param` etres (2) et les statistiques des tests (3) comparant le mod` ele excluant un terme par rapport au mod` ele complet tel quil est d ecrit dans la commande.
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 36 29.2156 0.8115 (1) Scaled Deviance 36 29.2156 0.8115 (2) Pearson Chi-Square 36 34.2516 0.9514 (3) Scaled Pearson X2 36 34.2516 0.9514 Log Likelihood . -14.6078 . Analysis Of Parameter Estimates DF Estimate (4) Std Err ChiSquare (5) Pr>Chi 1 -2.8782 1.3214 4.7443 0.0294 1 4.5649 1.8384 6.1653 0.0130 1 5.1796 1.8653 7.7105 0.0055 0 1.0000 0.0000 . .
Parameter INTERCEPT L_DEBIT L_VOLUME SCALE (6)
(1) (2) (3) (4) (5) (6)
D eviance du mod` ele par rapport au mod` ele satur e. D eviance pond er ee si le param` etre d echelle est diff erent de 1 en cas de sur-dispersion. Statistique de Pearson, voisine de la d eviance, comparant le mod` ele au mod` ele satur e. Param` etres du mod` ele. Statistique des tests comparant le mod` ele excluant un terme par rapport au mod` ele complet. Estimation du param` etre d echelle si la quasi-vraisemblance est utilis ee.
5.2
R egression logistique ordinale
tudie les r tude pr ` la l On e esultats dune e ealable a egislation sur le port de la ceinture de s ecurit e dans la ` Edmonton au Canada (Jobson, 1991). Un e chantillon de 86 769 rapports daccidents province de lAlberta a t de voitures ont e e compuls es an dextraire une table croisant : i. Etat du conducteur : Normal ou Alcoolis e ii. Sexe du conducteur iii. Port de la ceinture : Oui Non ` 3 : fatales iv. Gravit e des blessures : 0 : rien a ` expliquer concernant la gravit Les modalit es de la variable a e de laccident sont ordonn ees. /* r egression ordinale */ proc logistic data=sasuser.ceinture; class sexe alcool ceinture;
6. Autres exemples model gravite=sexe alcool ceinture ; weight effectif; run;

Standard Error 0.0236 0.0269 0.0576 0.0121 0.0190 0.0174 Wald Chi-Square 6264.9373 10914.3437 7917.0908 664.3353 697.0173 40.6681
43
Parameter Intercept Intercept Intercept sexe alcool ceinture
Gr0 Gr1 Gr2 Sfem A_bu Cnon
DF 1 1 1 1 1 1
Estimate 1.8699 2.8080 5.1222 -0.3118 -0.5017 -0.1110
Pr > ChiSq <.0001 <.0001 <.0001 <.0001 <.0001 <.0001
Odds Ratio Estimates Point Effect Estimate sexe Sfem vs Shom 0.536 alcool A_bu vs Ajeu 0.367 ceinture Cnon vs Coui 0.801
95% Wald Confidence Limits 0.511 0.562 0.340 0.395 0.748 0.858
Autres exemples
` titre illustratif avec SAS ou R, une comparaison syst Les exemples sont d ecrits dans cette section a ematique des performances de chaque m ethode est d evelopp ee dans le dernier chapitre conclusif.
6.1
Cancer du sein
Les donn ees (Wisconsin BreastCancer Database) sont disponibles dans la librairie mlbench ` des comparaisons de techniques dapprendu logiciel R. Elles servent tr` es souvent de base de r ef erence a tissage. Les variables consid er ees sont : Cl.thickness Clump Thickness Cell.size Uniformity of Cell Size Cell.shape Uniformity of Cell Shape Marg.adhesion Marginal Adhesion Epith.c.size Single Epithelial Cell Size Bare.nuclei Bare Nuclei Bl.cromatin Bland Chromatin Normal.nucleoli Normal Nucleoli Mitoses Mitoses Class benign et malignant. ` pr ` 10 classes. La derni` ere variable est celle a edire, les variables explicatives sont ordinales ou nominales a Il reste 683 observations apr` es la suppression de 16 pr esentant des valeurs manquantes. ` ajuster. Une estimation utilisant toutes les vaCe jeu de donn ees est assez particulier car plut ot facile a ` des messages critiques indiquant un d riables conduit a efaut de convergence et des probabilit es exactement ajust ees. En fait le mod` ele sajuste exactement aux donn ees en utilisant toutes les variables aussi lerreur de chantillon dapprentissage et un pr evision n ecessite une estimation plus soign ee. Une s eparation entre un e chantillon test ou une validation crois e ee permet une telle estimation (voir le chapitre 5). On trouve alors quun mod` ele plus parcimonieux et obtenu par une d emarche descendante, de sorte ` des erreurs de pr que les param` etres soient signicatifs au sens dun test du Chi2, conduit a evision plus chantillon test ind faibles sur un e ependant quun mod` ele ajustant exactement les donn ees. La qualit e de valuant les taux de bien et mal lajustement du mod` ele se r esume sous la forme dune matrice de confusion e ` partir de l class es sur l echantillon dapprentissage tandis que lerreur de pr evision est estim ee a echantillon test.
44
# erreur dajustement fitq.lm=glm(ClassCl.thickness+Cell.size+Cell.shape ,data=datapq,family=binomial) table(fitq.lm$fitted.values>0.5,datapq[,"Class"]) benign malignant 345 6 13 182
FALSE TRUE
# erreur de pr evision predq.lm=predict(fitq.lm,newdata=datestq) # prevision table(predq.lm>0.5,datestq[,"Class"]) benign malignant 84 5 2 46
FALSE TRUE
Le taux derreur apparent estim e sur l echantillon dapprentissage est de 3,5% (0% avec le mod` ele complet) tandis que le taux derreur estim e sans biais sur l echantillon test est de 5,1% (5,8 avec le mod` ele è tre afn complet). Ces estimations demanderont a ees an de comparer les m ethodes entre elles.
6.2
Pic dozone
ventuel dun seuil, il pourrait e tre Plut ot que de pr evoir la concentration de lozone puis un d epassement e plus efcace de pr evoir directement ce d epassement en mod elisant la variable binaire associ ee. Attention tant relativement peu nombreux (17%), il serait n toutefois, ces d epassements e ecessaire den accentuer limportance par lintroduction dune fonction co ut ou une pond eration sp ecique. Ceci est un probl` eme g en eral losquil sagit de pr evoir des ph enom` enes tr` es rares : un mod` ele trivial ne les pr evoyant jamais ne ` demander au sp commettrait nalement quune erreur relative faible. Ceci revient a ecialiste de quantier ` tord par rapport a ` celui de ne pas pr ` le risque de pr evoir un d epassement du seuil a evoir ce d epassement a ` des cons conomiques et sur le confort des usagers par des limitations de trac tord. Le premier a equences e tandis que le 2` eme a des cons equences sur lenvironnement et la sant e de certaines populations. Ce nest plus un probl` eme statistique. La recherche descendante dun meilleur mod` ele au sens du crit` ere dAka ke conduit au r esultat cidessous.
NULL O3_pr vmodule s_rmh2o station TEMPE Df Deviance Resid. Df Resid. Dev 831 744.34 1 132.89 830 611.46 1 2.42 829 609.04 1 33.71 828 575.33 4 16.59 824 558.74 1 129.39 823 429.35 P(>|Chi|) 9.576e-31 0.12 6.386e-09 2.324e-03 5.580e-30
On peut sinterroger sur lint er et de la pr esence de la variable vmodule dont la pr esence rend plus faible la pr evision de lerreur au sens dAka ke mais dont le coefcient nest pas signicatif au sens du test tant li ` une qualit du Chi2 ; ce crit` ere e ea e dajustement. Lerreur estim ee sur l echantillon test ne permet ` la m pas de d epartager ces mod` eles car les matrices de transition similaires conduisent a eme estimation du taux derreur de 11,5% tandis que la m eme erreur est de 13,2% pour le mod` ele MOCAGE. Un mod` ele de r egression logistique faisant intervenir les interactions dordre 2 et optimis e par algorithme descen` une erreur de 10,6% tandis que le mod` dant aboutit a ele quantitatif de r egression quadratique du chapitre ` une erreur de 10,1% avec le m chantillons dapprentissage pr ec edent conduit a eme protocole et les m emes e et de test.
Matrices de confusion de l echantillon test pour diff erents mod` eles : 0 1 0 1 0 1 0 1 FALSE 163 19 FALSE 162 18 FALSE 163 17 FALSE 160 13 TRUE 5 21 TRUE 6 22 TRUE 5 23 TRUE 8 27 logistique sans vmodule avec vmodule avec interactions quantitatif
Notons que les erreurs ne sont pas sym etriques et sont affect ees du m eme biais : tous ces mod` eles ` tord. Une analyse oublient syst ematiquement plus de d epassements de seuils quils nen pr evoient a
6. Autres exemples
45
videmment n plus pouss ee de lestimation de lerreur de pr ediction est e ecessaire et ce sera, sur le plan ` ce niveau de l m ethodologique, lobjet du prochain chapitre. A etude, ce qui est le plus utile au m et eorologue, cest lanalyse des coefcients les plus signicativements pr esents dans la r egression quadratique, cest-` adire avec les interactions. Ils fournissent des indications pr ecieuses sur les faiblesses ou insufsances de leur mod` ele physique.
6.3
Carte visa
Ces donn ees sont pr esent ees en d etail dans Baccini et Besse (2000). Il sagit de mod eliser une variable binaire repr esentant la possession ou non de la carte visa premier en fonction du comportement bancaire dun client. Comme dans lexemple pr ec edent, la possession de ce type de produit est rare ; aussi chantillon sp t un e ecique, non repr esentatif, a e e construit en surrepr esentant la possession de ce type de produit. tre mises en uvre sur ces donn Plusieurs strat egies peuvent e ees selon les transformations et codages r ealis es sur les variables qualitatives. Elles sont explor ees lors des diff erents TPs. La strat egie adopt ee ici ` rechercher un meilleur mod` ` laide de la proc consiste a ele a edure SAS/STAT logistic en association avec lun des trois algorithmes de s election (forward, backward ou stepwise). La s election de variables ainsi retenue est ensuite utilis ee avec la proc edure genmod aux sorties plus galement mise en uvre dans le module SAS Enterprise Miner. Le taux apparent derreur explicites qui est e valu ` partir du m chantillon dapprentissage et donc de mani` est e ea eme e ere n ecessairement biais ee par optimisme. Il mesure la qualit e dajustement du mod` ele illustr e par la matrice de confusion de l echantillon ` un taux derreur de 11,5%. ci-dessous associ ea
YVAR1(CARVPR) PREDY Frequency| Percent | 0| 1| Total ---------+--------+--------+ 0 | 659 | 53 | 712 | 61.65 | 4.96 | 66.60 ---------+--------+--------+ 1 | 70 | 287 | 357 | 6.55 | 26.85 | 33.40 ---------+--------+--------+ Total 729 340 1069 68.19 31.81 100.00
` un mmod` ` l La m eme d emarche avec le logiciel R (voir les TP) conduit a ele qui, appliqu ea echantillon ` celui sur l test, fournit la matrice de confusion suivante avec un taux derreur de 17% sup erieur a echantillon dapprentissage qui est de 16%. pred.vistest FALSE TRUE FALSE 125 22 TRUE 12 41 chantillons tir On remarque que les e es avec SAS ne conduisent pas du tout aux m emes estimations derreurs chantillons tir quavec les e es avec R. Ce nest pas une question de logiciel, juste le hasard des tirages. Ceci implique quil faudra estimer plus nement le taux derreur de pr evision an de comparer les m ethodes. Ceux-ci sont en effet ent ach es dune grande variance.
46
Chapitre 4 Mod` ele log-lin eaire

1 Introduction
Comme dans le chapitre pr ec edent, les mod` eles d ecrits dans ce chapitre sint eressent plus particuli` erement ` la description ou lexplication dobservations constitu a es deffectifs ; nombre de succ` es dune variable de Bernouilli lors dune s equence dessais dans la cas pr ec edent de la r egression logistique, nombre dindividus qui prennent une combinaison donn ee de modalit es de variables qualitatives ou niveaux de facteurs, dans galement partie de la famille du mod` tant associ le cas pr esent. Ce mod` ele fait e ele lin eaire g en eral en e e ` une loi de Poisson. Il est e galement appel a e aussi mod` ele log-lin eaire (voir Agresti (1990) pour un ex` la mod pos e d etaill e) et sapplique principalement a elisation dune table de contingence compl` ete. Comme pour la r egression logistique, les aspects au mod` ele lin eaire g en eral (estimation, tests, diagnostic) ont des strat egies de mise en uvreest similaire au cas gaussien ; ils ne sont pas repris.
2 Mod` ele log-lin eaire

2.1 Types de donn ees
Les donn ees se pr esentent g en eralement sous la forme dune table de contingence obtenue par le croi` sement de plusieurs variables qualitatives et dont chaque cellule contient un effectif ou une fr equence a ` l l mod eliser. Nous nous limiterons a etude dune table e ementaire en laissant de c ot e des structures plus complexes, par exemple lorsque des z eros structurels, des ind ependances conditionnelles, des propri et es de ` prendre en compte. Dautre part, sous sa forme la plus sym etrie ou quasi-sym etrie, une table creuse, sont a galement des variables quantitatives. g en erale, le mod` ele peut int egrer e Ce type de situation se retrouve en analyse des correspondances simple ou multiple mais ici, lobjectif est dexpliquer ou de mod eliser les effectifs en fonction des modalit es prises par les variables qualitatives. tre explicatif : tester une structure de d Lobjectif nal pouvant e ependance particuli` ere, ou pr edictif avec choix dun mod` ele parcimonieux.
2.2
Distributions
` partir de lobservation des variables qualitaOn consid` ere la table de contingence compl` ete constitu ee a chantillon de n individus. Les effectifs {yjk...l ; j = 1, J ; k = 1, K ; . . . ; l = tives X 1 , X 2 , . . . , X p sur un e ` I (I = J K L) composantes. Diff 1, L} de chaque cellule sont rang es dans un vecteur y a erentes hypoth` eses sur les distributions sont consid er ees en fonction du contexte exp erimental. Poisson ` supposer que les variables observ Le mod` ele le plus simple consiste a ees Yi suivent des lois de Poisson ind ependantes de param` etre i = E (Yi ). La distribution conjointe admet alors pour densit e: f (y, ) =
i i y i e . yi ! i=1
47
48
Chapitre 4. Mod` ele log-lin eaire
galement une La somme N (N = y+ = i yi ) des I variables al eatoires de Poisson ind ependantes est e variable de Poisson de param` etre + = i i . Multinomiale En pratique, le nombre total n dobservations est souvent x e a priori par lexp erimentateur et ceci induit une contrainte sur la somme des yi . La distribution conjointe des variables Yi est alors conditionn ee par n et la densit e devient : I + i i n y +e i e f (y, ) = . yi ! n! i=1 Comme n + =
i
i + = y + et e
i I
ei , en posant i =
I
i + ,
on obtient :
f (y, ) = n!
yi i y! i=1 i
avec
i=1
i = 1 et 0 i 1; i = 1, I.
On v erie donc que f (y, ) est la fonction de densit e dune loi multinomiale dans laquelle les param` etres ` chaque cellule. Dans ce cas, E (Yi ) = ni . i mod elisent les probabilit es doccurrence associ ees a Produit de multinomiales tre e galement Dans dautres circonstances, des effectifs marginaux lignes, colonnes ou sous-tables, peuvent e x es par lexp erimentateur comme dans le cas dun sondage strati e. Cela correspond au cas o` u une ou plusieurs variables sont contr ol ees et ont donc un r ole explicatif ; leurs modalit es sont connues a priori. Les lois de chacun des sous- el ements de la table, conditionn ees par leffectif marginal correspondant sont multinomiales. La loi conjointe de lensemble est alors un produit de multinomiales. Cons equence Trois mod` eles de distribution : Poisson, multinomial, produit de multinomiales, sont envisageables pour mod eliser Yi en fonction des conditions exp erimentales. Dun point de vue th eorique, on montre que ces mod` eles conduisent aux m emes estimations des param` etres par maximum de vraisemblance. La diff erence introduite par le conditionnement intervient par une contrainte qui impose la pr esence de certains param` etres dans le mod` ele, ceux reconstruisant les marges x ees.
2.3
` 2 variables Mod` eles a
` J Soit une table de contingence (J K ) issue du croisement de deux variables qualitatives X 1 a ` K modalit es et dont leffectif total n est x e. La loi conjointe des effectifs Yjk de chaque modalit es et X 2 a cellule est une loi multinomiale de param` etre jk et desp erance : E (Yjk ) = njk . Par d enition, les variables X 1 et X 2 sont ind ependantes si et seulement si : jk = +k j + o` u j + (resp. +k ) d esigne la loi marginale de X 1 (resp. X 2 ) :
K J
j + =
k=1
jk
et +k =
j =1
jk .
Si lind ependance nest pas v eri ee, on peut d ecomposer : E (Yjk ) = njk = nj + +k jk . j + +k
Notons jk = ln(E (Yjk )). Lintervention de la fonction logarithme permet de lin eariser la d ecomposition pr ec edente autour du mod` ele dind ependance : jk = ln n + ln j + + ln +k + ln jk j + +k .
2. Mod` ele log-lin eaire
49
Ce mod` ele est dit satur e car, pr esentant autant de param` etres que de donn ees, il explique exactement cellesci. Lind ependance est v eri ee si le dernier terme de cette expression, exprimant une d ependance ou interaction comme dans le mod` ele danalyse de variance, est nul pour tout couple (j, k ). Les logiciels mettent en place dautres param etrisations en faisant appara tre des effets diff erentiels, soit ` une moyenne, soit par rapport a ` la derni` par rapport a ere modalit e. Dans le premier cas, en posant : 0
1 j J K
1 JK 1 K 1 J
jk = .. ,
j =1 k=1 K
jk .. = j. .. ,
k=1 J
2 k 12 jk
jk .. = .k .. ,
j =1
= jk j. .k + .. ,
avec les relations : j, k,
J 1 j = j =1
K 2 k = k=1
J 12 jk = j =1
K 12 jk = 0, k=1
le mod` ele satur e s ecrit :

1 2 12 ln(E (Yjk )) = jk = 0 + j + k + jk .
Il se met sous la forme matricielle = X o` u X est la matrice exp erimentale (design matrix) contenant les indicatrices. Lind ependance est obtenue 12 lorsque tous les termes dinteraction jk sont nuls. La deuxi` eme param etrisation consid` ere la d ecomposition : Jk jK jk JK . jk = JK JK JK Jk jK En posant : 0 1 j
2 k 12 jk
= ln n + ln JK , = ln jK ln JK , = ln Jk ln JK , = ln jk ln jK ln Jk + ln JK ,
avec les m emes relations entre les param` etres. Le mod` ele se met encore sous la forme : = X
12 ` lind et se ram` ene a ependance si tous les param` etres jk sont nuls.
Si lhypoth` ese dind ependance est v eri ee, on peut encore analyser les effets principaux :
1 si, j, j =0
alors, jk = Jk =
1 +k . J
2 quiprobabilit Il y a e e des modalit es de X 1 . M eme chose avec X 2 si les termes k sont tous nuls.
Les param` etres du mod` ele log-lin eaire sont estim es en maximisant la log-vraisemblance dont lexplicitation est report ee au chapitre suivant comme cas particulier de mod` ele lin eaire g en eralis e. Pour les mod` eles simples, les estimations sont d eduites des effectifs marginaux mais comme, d` es que le mod` ele est plus compliqu e, des m ethodes it eratives sont n ecessaires, elles sont syst ematiquement mises en uvre.
50
2.4
` trois variables Mod` ele a
On consid` ere une table de contingence (J K L) obtenue par croisement de trois variables qualitatives X 1 , X 2 , X 3 . La d enition des param` etres est conduite de mani` ere analogue au cas de deux variables en faisant appara tre des effets principaux et des interactions. Le mod` ele satur e se met sous la forme :
1 2 12 13 23 123 ln(E (Yjkl )) = jkl = 0 + j + k + l3 + jk + jl + kl + jkl
et peut aussi est pr esent e sous forme matricielle. ` Nous allons expliciter les sous-mod` eles obtenus par nullit e de certains param` etres et qui correspondent a ` ne citer des structures particuli` eres dind ependance. Une fac on classique de nommer les mod` eles consiste a que les interactions retenues les plus complexes. Les autres, ainsi que les effets principaux, sont contenues de par la structure hi erarchique du mod` ele. Ainsi, le mod` ele satur e est d esign e par (X 1 X 2 X 3 ) correspon` la syntaxe X1|X2|X3 de SAS. dant a Cas poissonnien ou multinomial Seul le nombre total dobservations n est x e dans le cas multinomial, ceci impose simplement la pr esence de 0 dans le mod` ele. i. Mod` ele partiel dassociation ou de tout interaction dordre 2 : (X 1 X 2 , X 2 X 3 , X 1 X 3 ) 123 Les termes jkl sont tous nuls, seules les interactions dordre 2 sont pr esentes. Cest le mod` ele implicitement consid er e par lanalyse multiple des correspondances. Il s ecrit :
1 2 12 13 23 jk = 0 + j + k + l3 + jk + jl + kl .
ii. Ind ependance conditionnelle : (X 1 X 2 , X 1 X 3 ) Si, en plus, lun des termes dinteraction est nul, par exemple kl = 0 pour tout couple (k, l), on dit ` X 1 et le mod` que X 2 et X 3 sont ind ependantes conditionnellement a ele devient :
1 2 12 13 jk = 0 + j + k + l3 + jk + jl .
iii. Variable ind ependante : (X 1 , X 2 X 3 ) Si deux termes dinteraction sont nuls : jl jk = 0 pour tout triplet (j, k, l), alors X 1 est ind ependante de X 2 et X 3 . 1 2 23 jk = 0 + j + k + l3 + kl . iv. Ind ependance : (X 1 , X 2 , X 3 ) Tous les termes dinteraction sont nuls :
1 2 jk = 0 + j + k + l3
et les variables sont mutuellement ind ependantes. Produit de multinomiales Si une variable est explicative, par exemple X 3 , ses marges sont x ees, le mod` ele doit n ecessairement conserver les param` etres jk = 0 + l3 + Si deux variables sont explicatives, par exemple X 2 et X 3 , le mod` ele doit conserver les termes :
2 3 23 jk = 0 + k + l + kl +
` plus de trois variables ne pose pas de probl` La g en eralisation a eme th eorique. Les difcult es viennent de lexplosion combinatoire du nombre de termes dinteraction et de la complexit e des structures dind ependance. ` des tables de contingence Dautre part, si le nombre de variables est grand, on est souvent confront ea tude exploratoire creuses (beaucoup de cellules vides) qui rendent d efaillant le mod` ele log-lin eaire. Une e (correspondances multiples par exemple) pr ealable est n ecessaire an de r eduire le nombre des variables consid er ees et celui de leurs modalit es.
51
3
3.1
Choix de mod` ele

` pas Recherche pas a
Principalement deux crit` eres (test du rapport de vraisemblance et test de Wald), d ecrits en annexe pour un cadre plus g en eral, sont consid er es. Ces crit` eres sont utilis es comme le test de Fisher du mod` ele lin eaire gaussien. Ils permettent de comparer un mod` ele avec un sous-mod` ele et d evaluer lint er et de la pr esence ` partir du mod` des termes compl ementaires. On suit ainsi une strat egie descendante a ele complet ou satur e ` la fois, la composante dinteraction dans le cas du mod` ele log-lin eaire. Lid ee est de supprimer, un terme a ou leffet principal qui appara t comme le moins signicatif au sens du rapport de vraisemblance ou du test de Wald. Les tests pr esentent une structure hi erarchis ee. SAS facilite cette recherche en produisant une d ecomposition (Type III) de ces indices permettant de comparer chacun des sous-mod` eles excluant un des termes avec le mod` ele les incluant tous. Attention, du fait de lutilisation dune transformation non lin eaire (log), m eme si des facteurs sont or tre prise en compte pour l thogonaux, aucune propri et e dorthogonalit e ne peut e etude des hypoth` eses. Ceci impose l elimination des termes un par un et la r e-estimation du mod` ele. Dautre part, un terme principal tre supprim ne peut e e que sil nintervient plus dans des termes dinteraction. Enn, selon les conditions exp erimentales qui peuvent xer les marges dune table de contingence, la pr esence de certains param` etres est impos ee dans un mod` ele log-lin eaire.
4
4.1
Exemples
Mod` ele poissonien
tudie les r tude pr ` la l On e esultats dune e ealable a egislation sur le port de la ceinture de s ecurit e dans la ` Edmonton au Canada (Jobson, 1991). Un e chantillon de 86 769 rapports daccidents province de lAlberta a t de voitures ont e e compuls es an dextraire une table croisant : i. Etat du conducteur : Normal ou Alcoolis e ii. Port de la ceinture : Oui Non ` 3 : fatales iii. Gravit e des blessures : 0 : rien a La proc edure genmod est utilis ee : proc genmod data=sasuser.ceinture; class co ce b ; model effectif=co|ce|b @2 /type3 obstats dist=poisson; run; Une extraction des r esultats donnent :
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 3 5.0136 1.6712 LR Statistics For Type 3 Analysis Source DF ChiSquare Pr>Chi CO CE CO*CE B CO*B CE*B 1 1 1 3 3 3 3431.0877 3041.5499 377.0042 28282.8778 474.7162 42.3170 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001
Parameter INTERCEPT CO CE
A N
Analysis Of Parameter Estimates DF Estimate Std Err ChiSquare 1 3.6341 0.1550 550.0570 1 -2.2152 0.1438 237.3628 1 1.8345 0.1655 122.8289
Pr>Chi 0.0001 0.0001 0.0001
52
CO*CE B B B CO*B CO*B CO*B CE*B CE*B CE*B A 0 1 2 A A A N N N N 1 1 1 1 1 1 1 1 1 1 0.9343 5.7991 2.7848 2.1884 -1.4622 -0.6872 -0.5535 -0.2333 -0.0902 0.0741 0.0545 0.1552 0.1598 0.1637 0.1354 0.1423 0.1452 0.1658 0.1708 0.1748

293.9236 1396.7752 303.6298 178.7983 116.5900 23.3154 14.5293 1.9807 0.2786 0.1799 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.1593 0.5976 0.6715
0 1 2 0 1 2
EFFECTIF 12500 604 344 38 61971 ...
Pred 12497 613.3370 337.8089 37.8677 61974
Observation Statistics Xbeta Std HessWgt 9.4332 0.008930 12497 6.4189 0.0395 613.3370 5.8225 0.0530 337.8089 3.6341 0.1550 37.8677 11.0345 0.004016 61974
Lower 12280 567.6707 304.5010 27.9495 61488
Upper 12718 662.6770 374.7601 51.3053 62464
Les r esultats montrent que le mod` ele de toute interaction dordre 2 est acceptable (d eviance) et il semble tre pr que tous les termes soient n ecessaires, toutes les interactions doivent e esentes au sens du test de Wald.
Chapitre 5 Qualit e de pr evision

1 Introduction
La performance du mod` ele issu dune m ethode dapprentissage s evalue par sa capacit e de pr evision dite encore de capacit e de g en eralisation dans la communaut e informatique. La mesure de cette performance est tr` es importante puisque, dune part, elle permet dop erer une s election de mod` ele dans une ` la m famille associ ee a ethode dapprentissage utilis ee et, dautre part, elle guide le choix de la m ethode ` l en comparant chacun des mod` eles optimis es a etape pr ec edente. Enn, elle fournit, tous choix faits, une ` la pr mesure de la qualit e ou encore de la conance que lon peut accorder a evision en vue m eme, dans un cadre l egal, dune certication. En dehors dune situation exp erimentale plani ee classique en Statistique, cest-` a-dire sans le secours de mod` eles probabilistes, cest le cas, par principe, du data mining, trois types de strat egies sont propos es : i. un partage de l echantillon (apprentissage, validation, test) an de distinguer estimation du mod` ele et estimations de lerreur de pr evision, ii. une p enalisation de lerreur dajustement faisant intervenir la complexit e du mod` ele, iii. un usage intensif du calcul (computational statistics) par la mise en uvre de simulations. Le choix d epend de plusieurs facteurs dont la taille de l echantillon initial, la complexit e du mod` ele envisag e, la variance de lerreur, la complexit e des algorithmes cest-` a-dire le volume de calcul admissible. ` un e chantillon deffectif trop restreint pour Pour r epondre aux objectifs de la 2` eme strat egie adapt ee a tre e clater en trois partie, diff ` n pr e erents crit` eres sont utilis ees pour d enir une qualit e de mod` ele a edictive. Le plus ancien est naturellement une estimation dune erreur de pr evision : risque quadratique ou taux de mal class es, comme mesure dune distance moyenne entre le vrai ou le meilleur mod` ele et celui consid er e. Ce risque quadratique se d ecomposant grossi` erement en un carr e de biais et une variance, lenjeu est de trouver un bon compromis entre ces deux composantes en consid erant un mod` ele parcimonieux. Dautres crit` eres sont bas es sur la dissemblance de Kullback entre mesure de probabilit es. Ce crit` ere mesure la qualit e dun mod` ele en consid erant la dissemblance de Kullback entre la loi de la variable expliqu ee Y et celle de sa pr evision Y fournie par un mod` ele. ` proposer La derni` ere approche enn, issue de la th eorie de lapprentissage de Vapnik (1999), conduit a une majoration de lerreur de pr evision ou risque ne faisant pas intervenir la loie conjointe inconnue ou des consid erations asymtotiques mais une mesure de la compl exit e du mod` ele appel ee dimension de Vapnik-Chernovenkis. ` focaliser lattention sur la pr Les travaux de Vapnik en th eorie de lapprentissage ont conduit a esence ou labsence de propri et es th eoriques basiques dune technique dapprentissage ou de mod elisation : consistence qui garantit la capacit e de g en eralisation. Un processus dapprentissage est dit consistant si lerreur sur lensemble dapprentissage et lerreur sur un jeu de donn ees test convergent en probabilit e vers la m eme limite lorsque la taille de l echantillon dapprentissage augmente. valuation, quand elle est possible, de la vitesse de convergence de lerreur vitesse de convergence. Une e 53
54
Chapitre 5. Qualit e de pr evision lorsque la taille augmente, est une indication sur la fac on dont la g en eralisation sam eliore et informe sur la nature des param` etres, comme le nombre de variables explicatives, dont elle d epend.
` partir dun e chantillon dapprentissage de taille ni donc sans consid contr ole Est-il possible, a erations asymtotiques, de contr oler la capacit e de g en eralisation et donc de majorer le terme derreur de pr evision ou risque ? l Une estimation de la qualit e de la pr evision est donc un e ement central de la mise en place de la strat egie du data mining, telle quelle est d ecrite dans lintroduction (cf. chapitre 1 section 4) mais aussi ` souligner est dans beaucoup de disciplines concern ees par la mod elisation statistique. Le point important a que le meilleur mod` ele en un sens pr edictif nest pas n ecessairement celui qui ajuste le mieux les donn ees (cas de surajustement) ni m eme le vrai mod` ele si la variance des estimations est importante.
2
2.1
Erreur de pr evision
D enition
` pr Soit Y la variable a edire, X la variable p-dimensionnelle ou lensemble des variables explicatives, F chantillon et la loi conjointe de Y et X , z = {(x1 , y1 ), . . . , (xn , yn )} un e Y = (X ) + ` estimer avec E () = 0, Var() = 2 et ind le mod` ele a ependant de X ; X , comme chacun des xi , est de dimension p. Lerreur de pr evision est d enie par EP (z, F ) = EF [Q(Y, (X ))] o` u Q est une fonction perte. Si Y est quantitative, cette fonction perte est le plus g en eralement quadratique : Q(y, y ) = (y y )2 , ` lavantage d mais utilise parfois la valeur absolue : Q(y, y ) = |y y |. Cette derni` ere a etre plus robuste, car moins sensible aux valeurs extr emes, mais n ecessite des algorithmes doptimisation plus complexes et ` solution unique. pas n ecessairement a Si Y est qualitative Q est une indicatrice de mal class e : Q(y, y ) = 1{y=y} . ` une approximation de Dans le cas quantitatif, lestimation du mod` ele par minimisation de EP revient a la fonction et la solution est lesp erance conditionnelle (connaissant l echantillon) tandis que, dans la cas qualitatif, cest la classe la plus probable d esign ee par le mode conditionnel qui est pr edite.
2.2
D ecomposition
Lerreur de pr evision se d ecompose dans le cas quantitatif1 . Consid erons celle-ci en un point x0 . EP (x0 ) = EF [(Y (x0 ))2 | X = x0 ] = 2 + [EF (x0 ) (x)]2 + EF [(x0 ) EF (x0 )]2 = 2 + Biais2 + Variance.
Tr` es g en eralement, plus un mod` ele (la famille des fonctions admissibles) est complexe, plus il est exible et peu sajuster aux donn ees observ ees et donc plus le biais est r eduit. En revanche, la partie variance ` estimer et donc avec cette complexit augmente avec le nombre de param` etres a e. Lenjeu, pour minimiser le risque quadratique ainsi d eni, est donc de rechercher un meilleur compromis entre biais et variance : accepter de biaiser lestimation comme par exemple en r egression ridge pour r eduire plus favorablement la variance.
1 Plusieurs
t d ecompositions concurentes ont e e propos ees dans le cas qualitatif mais leur explicitation est moins claire.
3. Estimation avec p enalisation
55
2.3
Estimation
` consid Le premier type destimation a erer exprime la qualit e dajustement du mod` ele sur l echantillon observ e. Cest justement, dans le cas quantitatif, ce crit` ere qui est minimis e dans la recherche de moindres tre quune estimation biais carr es. Ce ne peut e ee, car trop optimiste, de lerreur de pr evision ; elle est li ee ` lajustement du mod` aux donn ees qui ont servi a ele et est dautant plus faible que le mod` ele est complexe. Cette estimation ne d epend que de la partie biais de lerreur de pr evision et ne prend pas en compte la partie variance de la d ecomposition. Cette estimation est not ee : EP = 1 n
n
Q(yi , (xi )).

i=1
Cest simplement le taux de mal class es dans le cas qualitatif. Des crit` eres de risque plus sophistiqu es sont envisag es dans un contexte bay esien si des probabilit es a priori sont connues sur les classes ou encore des co uts de mauvais classement (cf. chapitre 6). ` calculer EP sur un e chantillon La fac on la plus simple destimer sans biais lerreur de pr evision consiste a ` lestimation du mod` ind ependant nayant pas particip ea ele. Ceci n ecessite donc d eclater l echantillon en trois parties respectivement appel ees apprentissage, validation et test : z = zAppr zValid zTest . i. EP (zAppr ) est minimis ee pour estimer un mod` ele, ` la comparaison des mod` ii. EP (zValid ) sert a eles au sein dune m eme famille an de s electionner celui qui minimise cette erreur, iii. EP (zTest ) est utilis ee pour comparer entre eux les meilleurs mod` eles de chacune des m ethodes consid er ees. Cette solution nest acceptable que si la taille de l echantillon initiale est importante sinon : la qualit e dajustement est d egrad ee car n est plus petit, tre importante et ne peut e tre estim la variance de lestimation de lerreur peut e ee. Si la taille de l echantillon est insufsante, le point ii ci-dessus : la s election de mod` ele est bas ee sur un ` une p ` des simulations. autre type destimation de lerreur de pr evision faisant appel soit a enalisation soit a
3
3.1
Estimation avec p enalisation

Cp de Mallows
` une meilleure estimation de lerreur Le Cp de Mallows fut, historiquement, le premier crit` ere visant a de pr evision que la seule consid eration de lerreur dajustement (ou le R2 ) dans le mod` ele lin eaire. Il repose sur une mesure de la qualit e sur la base dun risque quadratique. Lerreur de pr evision se d ecompose en : EP = EP (zAppr ) + Optim qui est lestimation par resubstitution ou taux derreur apparent plus le biais par abus doptimisme. Il sagit donc destimer cette optimisme pour apporter une correction et ainsi une meilleure estimation de lerreur ` lestimation de la variance dans la recherch ee. cette correction peut prendre plusieurs formes. Elle est li ee a ` la complexit d ecomposition en biais et variance de lerreur ou cest encore une p enalisation associ ee a e du mod` ele. Son expression est d etaill ee dans le cas de la r egression lin eaire chapitre 2. On montre (cf. Hastie et col. ` des ns de comparaison quil peut aussi se mettre sous une forme e quivalente : 2001), a d Cp = EP + 2 s2 n o` u d est le nombre de param` etres du mod` eles (nombre de variables plus un)), n le nombre dobservations, s2 une estimation de la variance de lerreur par un mod` ele de faible biais. Ce dernier point est fondamental ` supposer que le mod` pour la qualit e du crit` ere, il revient a ele complet (avec toutes les variables) est le vrai ` une bonne estimation de de 2 . mod` ele ou tout du moins un mod` ele peu biais e an de conduire a
56
Chapitre 5. Qualit e de pr evision
3.2
AIC, AICc , BIC
` un risque quadratique, le crit` Contrairement au Cp associ ea ere dinformation dAka ke (AIC) d ecoule dune expression de la qualit e du mod` ele bas ee sur la dissemblance de Kullback. Il se pr esente sous une ` tout mod` forme similaire mais plus g en erale que le Cp de Mallows. Il sapplique en effet a ele estim e par maximisation dune log-vraisemblance L et suppose que la famille de densit es consid er ees pour mod eliser la loi de Y contient la vraie densit e de Y . Apr` es quelques d eveloppements incluant de nombreuses approximations (estimation de param` etres par maximum de vraisemblance, propri et es asymtotiques, formule de Taylor), le crit` ere dAka ke se met sous la forme : d AIC = 2L + 2 . n Dans le cas gaussien en supposant la variance connue, moindres carr es et d eviance coincident, AIC est quivalent au Cp . Ce crit` e ere poss` ede une version plus rafn ee (AICc ) dans le cas gaussien et plus parti chantillons et asymptotiquement e quivalente lorsque n est grand. culi` erement adapt ee aux petits e AIC = 2L + n+d . nd2
` un autre crit` Une argumentation de type bay esien conduit a ere BIC (Bayesian information criterion) qui ` la plus grande probabilit cherche, approximativement (asymptotiquement), le mod` ele associ ea e a posteriori. Dans le cas dun mod` ele issu de la maximisation dune log-vraisemblance, il se met sous la forme : d BIC = 2L + log(n) . n ` AIC avec On montre, dans le cas gaussien et en supposant la variance connue que BIC est proportionnel a ` p le facteur 2 remplac e par log n. Ainsi, d` es que n > e2 7, 4, BIC tend a enaliser plus lourdement les mod` eles complexes. Asymptotiquement, on montre que la probabilit e pour BIC de choisir le bon mod` ele ` choisir des tend vers 1 lorsque n tend vers linni. Ce nest pas le cas dAIC ni du Cp qui tendent alors a ` taille ni, petite, BIC risque de se limiter a ` des mod` mod` eles trop complexes. N eanmoins a eles trop simples. Quelque-soit le crit` ere adopt e, il est facile de choisir le mod` ele pr esentant le plus faible AIC, AICc ou BIC parmi ceux consid er es. Globalement, si lestimation du mod` ele d ecoule dune maximisation de la ` minimiser un crit` vraisemblance, estimation et choix de mod` ele reviennent a ere de vraisemblance p enalis ee s ecrit sous la forme : Crit = f (Vraisemblance) + P enalisation(d) o` u f est une fonction d ecroissante de la vraisemblance ( log) et la p enalisation une fonction croissante de la complexit e du mod` ele. t Les crit` eres ci-dessus ont pour la plupart e e d enis dans le cadre du mod` ele classique de r egression t ` dautres multiple pour lequel il existe de nombreuses r ef erences et certains e e g en eralis es ou adapt es a tendant la notion de nombre de degr ` des situations o` m ethodes en e es de libert es a u le nombre de param` etres du mod` ele nest pas explicite (lissage ou r egularisation). Ainsi, pour les mod` eles non-lin eaires voire plus complexes (non-param etriques en dimension innie), tre remplac le nombre d de param` etres doit e e par une mesure de complexit e p(). Par exemple, les mod` eles lin eaires se mettent sous une forme : y = Hy en incluant les m ethodes de r egularisation (ridge) ou de lissage (spline) o` u la matrice H d epend uniquement des xi . Dans ce cas, le nombre effectif de param` etres est d eni comme la trace de la matrice H : d(H) = tr(H). Cest encore d, le rang de X cest-` a-dire le nombre vecteurs de base (le nombre de variables + 1) si H est une matrice de projection orthogonale. Dans ` contr dautres situations (perceptron), ce nombre de param` etres est plus difcile a oler car il fait intervenir les valeurs propres dune matrice hessienne.
3.3
Dimension de Vapnik-Chernovenkis
` la d Cet indicateur mesure la complexit e dune famille de fonctions candidates a enition un mod` ele de pr evision. Cette complexit e est bas ee sur le pouvoir s eparateur de la famille de fonction.
3. Estimation avec p enalisation
57
chantillon (x1 , . . . , xn ) de IRp . Il existe 2n diff chantillon Consid erons un e erentes mani` eres de s eparer cet e en deux sous- echantillons. Par d enition, on dit quun ensemble F de fonctions hache ou mieux pulv erise tre construites par diff (shatters) l echantillon si les 2n s eparations peuvent e erents repr esentants de la famille de fonction F . Ainsi, par exemple, pour p = 2, les fonctions lin eaires (droites) peuvent pulv eriser 3 points mais pas 4. FINITION 5.1. Un ensemble de fonctions d DE enis de IRp dans IR est dit de VC dimension (VapnikChernovenkis) h si : tout jeu de h vecteurs de IRp peut e eris e. tre pulv Aucun ensemble de h + 1 vecteurs ne peut e eris e par cet ensemble de fonctions. tre pulv Exemples La VC dimension de lensemble des hyperplans dans IRp est p + 1. La VC dimension de lensemble des fonctions f (x, w) = sign(sin(w, x)) avec 0 < c < x < 1 o` uw est un param` etre libre, est innie. La VC dimension de lensemble des indicatrices lin eaires
p
f (x, w) = sign
j =1
(wj xj ) + 1
avec x
=1
et satisfaisant la condition : w
2
=
j =1
2 wj C
` p. d epend de la constante C et peut prendre toutes les valeurs de 0 a gales au nombre de param` ` Attention, les VC dimensions ne sont pas e etres libres et sont souvent difciles a exprimer pour une famille de fonctions donn ees. Vapnik (1999) prouve des r esultats fondamentaux pour la th eorie de lapprentissage : Un processus dapprentissage est consistant si et seulement si la famille de mod` eles consid er es a une VC dimension h nie. La majoration de la diff erence entre lerreur dapprentissage (ou par resubstitution ou erreur apparente) et lerreur de pr evision d epend du rapport entre la VC dimension h et la taille n de lensemble dapprentissage. ` un intervalle de conance, permet de Lin egalit e de Vapnik, qui s ecrit sous une forme analogue a contr oler lerreur de pr evision ou risque. Avec une probabilit e 1 rho : EP < EP +
n h(log( 2h ) + 1) log 4 . n
Il est important de souligner que cette in egalit e ne fait pas intervenir le nombre de variables explicatives p mais le rapport n/h. Elle ne fait pas intervenir non plus la loi conjointe inconnue du couple ` une (Y, X ). Le deuxi` eme terme est grand (mauvaise pr ecision) lorsque le rapport n/h est faible d ua trop grande VC dimension et donc une famille de mod` eles trop complexe. ` En pratique, il est important de minimiser simultan ement les deux termes de lin equation. La strat egie a ` faire de la VC dimension adopter est le principe de minimisation structur ee du risque (SRM) qui consiste a h une variable contr ol ee. Ayant d eni uen s equence ou structure de mod` eles embo t es au sens de la VC dimension : S1 S2 Sk si les VC dimensions associ ees v erient : h1 < h2 < < hk .
Il sagit de trouver la valeur h rendant le risque minimum et donc fournissant le meilleur compromis entre les deux termes de lin egalit e de Vapnik. tre control La complexit e de la famille des mod` eles peut e ee par diff erents param` etres de la technique dapprentissage consid er ee : le nombre de neurones dune couche dans un perceptron, le degr e dun polyn ome, la contrainte sur les param` etres comme en r egression ridge, une largeur de fen etre ou param` etre de lissage...
58
Le cas sp ecique de la discrimination
Les erreurs de pr evisions pr ec edentes ainsi que les crit` eres de choix de mod` eles sont plus particuli` erement ` une situation de r adapt es a egression et donc une variable Y quantitative. Dans une situation de discrimination le seul crit` ere de taux derreur de classement introduit pr ec edemment nest pas toujours bien adapt e surtout, par exemple, dans le cadre de classes d es equilibr ees : un mod` ele trivial qui ne pr edit jamais une classe peu repr esent ee ne commet pas un taux derreur sup erieur au pourcentage de cette classe. Cette situa` g tion est souvent d elicate a erer et n ecessite une pond erations des observations ou encore lintroduction de ` prendre en compte une petite classe. co uts de mauvais classement disym etrique an de forcer le mod` ele a
4.1
` deux classes Discrimination a
l ` deux classes, dautres crit` Dans le cas du probl` eme le plus e ementaire a eres sont propos es an d evaluer ` plus pr ecis ement une qualit e de discrimination. La plupart des m ethodes vues (r egression logistique), ou a valuent, pour chaque individu i, un score ou une probabilit venir dans les chapitre qui suivent, e e i que cette individu prenne la modalit e Y = 1 (ou succ` es, ou possession dun actif, ou pr esence dune maladie...). Cette probabilit e ou ce score compris entre 0 et 1 est compar e avec une valeur seuil s x ee a priori (en g en eral 0, 5) : Si i > c, yi = 1 sinon yi = 0.
chantillon de taille n dont lobservation de Y est connue ainsi que les scores i fournis par Pour un e un mod` ele, il est alors facile de construire la matrice dite de confusion croisant les modalit es de la variable pr edite au seuil s avec celles de la variable observ ee dans une table de contingence : Pr evision yi = 1 yi = 0 Total Observation Y =1 Y =0 n11 (s) n10 (s) n01 (s) n00 (s) n+ 1 n+ 0 Total n1+ (s) n0+ (s) n
Dans une situation classique de diagnostic m edical ou en marketing les quantit es suivantes sont consid er ees : Vrais positifs les n11 (s) observations biens class ees (yi = 1 et Y = 1), Vrais n egatifs les n00 (s) observations biens class ees (yi = 0 et Y = 0), Faux n egatifs les n01 (s) observations mal class ees (yi = 0 et Y = 1), Faux positifs les n10 (s) observations mal class ees (yi = 1 et Y = 0), n01 (s)+n10 (s) Le taux derreur : t(s) = , n 11 (s) Le taux de vrais positifs ou sensibilit e = nn ou taux de positifs pour les individus qui le sont +1 effectivement, 00 (s) Le taux de vrais n egatifs ou sp ecicit e = nn ou taux de n egatifs pour les individus qui le sont +0 effectivement, 00 (s) 10 (s) Le taux de faux positifs = 1 Sp ecicit e = 1 nn = nn . +0 +0 En revanche, en m et eorologie, dautres taux sont utilis es : n11 (s) Le taux de bonnes pr evisions : H = n , 1+ (s)
10 (s) Le taux de fausses alertes : H = nn , +0 value la qualit Le score de Pierce : PSS= H F , compris entre 1 et 1, e e dun mod` ele de pr evision. ` 0, le taux de bonnes pr ` celui des fausses alertes et Si ce score est sup erieur a evisions est sup erieur a plus il est proche de 1, meilleur est le mod` ele. t Le score de Pierce a e e conc u pour la pr evision d ev` enements climatiques rares an de p enaliser les v` mod` eles ne pr evoyant jamais ces e enements (H = 0) ou encore g en erant trop de fausses alertes (F = 1). v` Le mod` ele id eal pr evoyant tous les e enements critiques (H = 1) sans fausse alerte (F = 0). Des co uts de tre introduits pour pond mauvais classement peuvent e erer ce score.
4. Le cas sp ecique de la discrimination
59
F IG . 5.1 Banque : Courbes ROC estim ees sur l echantillon dapprentissage et sur l echantillon test ainsi que les aires sous ces courbes (AUC).
4.2
Courbe ROC et AUC
Les notions de sp ecicit e et de sensibilit e proviennent de la th eorie du signal ; leurs valeurs d ependent directement de celle du seuil s. En augmentant s, la sensibilit e diminue tandis que la sp ecicit e augmente car la r` egle de d ecision devient plus exigeante ; un bon mod` ele associe grande sensibilit e et grande sp ecicit e pour la d etection dun signal. Ce lien est repr esent e graphiquement par la courbe ROC (Receiver Operating Caracteristic) de la sensibilit e (probabilit e de d etecter un vrai signal) en fonction de 1 moins la sp ecicit e (probabilit e de d etecter un faux signal) pour chaque valeur s du seuil. Notons que la courbe ROC est une fonction monotone croissante : 1 n00 (s) n00 (s ) n11 (s) n11 (s ) <1 s<s < . n+0 n+1 n+1 n+0
ees au score dapp etence de la carte visa La gure 5.1 donne un exemple de courbes ROC pour associ ` la fois a ` premier. Plus la courbe se rapproche du carr e, meilleure est la discrimination, correspondant a une forte sensibilit e et une grande sp ecicit e. Laire sous la courbe : AUC (area under curve) mesure la qualit e de discrimination du mod` ele tandis quune analyse de la courbe aide au choix du seuil. Ainsi, dans norm cart lexemple consid er e, un seuil de 0, 6 ne p enalise pas e ement le nombre de positifs e es tout en conomisant des envois publicitaires par rapport a ` un seuil de 0, 5. e Laire sous la courbe est calcul ee en consid erant toutes les paires (i, i ) form ees dun premier individu avec yi = 1 et dun second avec yi = 0. Une paire est dite concordante si i > i ; discordante sinon. Le nombre dex quo est n+0 n+1 nc nd o` u nc est le nombre de paires concordantes et nd le nombre de paires discordantes. Alors, nc + 0, 5(n+0 n+1 nc nd ) AUC = . n+0 n+1 On montre par ailleurs (voir par exemple Tenenhaus 2007) que le num erateur de cette expression est encore la Statistique de test de Mann-Whitney tandis que le coefcient de Gini, qui est le double de la surface entre la diagonale et la courbe vaut 2AUC 1. tre Attention, pour comparer des mod` eles ou m ethodes de complexit es diff erentes, ces courbes doivent e chantillon test. Elles sont bien e videmment optimistes sur l estim ees sur un e echantillon dapprentissage. De plus, lAUC ne donne pas un ordre total pour classer des mod` eles car les courbes ROC peuvent se croiser.
60
Estimation par simulation
La validation crois ee est dun principe simple, efcace et largement utilis ee pour estimer une erreur chantillons de moyennant un surplus de calcul. Lid ee est dit erer lestimation de lerreur sur plusieurs e validation puis den calculer la moyenne. Cest indispensable pour r eduire la variance et ainsi am eliorer chantillons de la pr ecision lorsque la taille de l echantillon initial est trop r eduite pour en extraire des e validation et test de taille sufsante. Algorithm 2 Validation crois ee gales selon 1: D ecouper al eatoirement l echantillon en K parts (K -fold) de tailles approximativement e une loi uniforme ; ` K Faire 2: Pour k =1 a 3: mettre de c ot e lune des partie, 4: estimer le mod` ele sur les K 1 parties restantes, ` lestimation 5: calculer lerreur sur chacune des observations qui nont pas particip ea 6: Fin Pour ` lestimation par validation crois 7: moyenner toutes ces erreurs pour aboutir a ee.
Plus pr ecis ement, soit : {1, . . . , n} {1, . . . , K } la fonction dindexation qui,pour chaque observation, donne lattribution uniform ement al eatoire de sa classe. Lestimation par validation crois ee de lerreur de pr evision est : n 1 Q(yi , ( (i)) (xi )) ECV = n i=1 o` u (k) d esigne lestimation de sans prendre en compte la k i` eme partie de l echantillon. Le choix K = 10 est le plus courant, cest souvent celui par d efaut des logiciels (Splus). Historiquement, t la validation crois ee a e e introduite par Allen avec K = n (delete-one cross validation). Ce dernier choix ` cause du volume des calculs n nest possible que pour n relativement petit a ecessaires et lestimation de lerreur pr esente une variance souvent importante car chacun des mod` eles estim es est trop similaire au mod` ele estim e avec toutes les observations. En revanche, si K est petit (i.e. K = 5), la variance sera plus faible mais le biais devient un probl` eme d ependant de la fac on dont la qualit e de lestimation se d egrade avec la taille de l echantillon. Minimiser lerreur estim ee par validation crois ee est une approche largement utilis ee pour optimiser le choix dun mod` ele au sein dune famille param etr ee. est d eni par = arg min ECV ().
5.1
Bootstrap
Cette section plus technique d ecrit des outils encore peu pr esents dans les logiciels commerciaux, elle tre saut peut e ee en premi` ere lecture. Introduction Lid ee, dapprocher par simulation (Monte Carlo) la distribution dun estimateur lorsque lon ne conna t pas la loi de l echantillon ou, plus souvent, lorsque lon ne peut pas supposer quelle est gaussienne, est lobjectif m eme du bootstrap (Efron, 1982). chantillonnage est de substituer, a ` la distribution de Le principe fondamental de cette technique de r ee probabilit e inconnue F , dont est issu l echantillon dapprentissage, la distribution empirique Fn qui donne ` chaque r chantillon de taille n dit e un poids 1/n a ealisation. Ainsi on obtient un e chantillon bootstrap selon la distribution empirique Fn par n tirages al eatoires avec remise parmi les n observations initiales. Il est facile de construire un grand nombre d echantillons bootstrap (i.e. B = 100) sur lesquels calculer lestimateur concern e. La loi simul ee de cet estimateur est une approximation asymptotiquement convergente sous des hypoth` eses raisonnables2 de la loi de lestimateur. Cette approximation fournit ainsi des
2 Echantillon
ind ependant de m eme loi et estimateur ind ependant de lordre des observations.
5. Estimation par simulation
61
estimations du biais, de la variance, donc dun risque quadratique, et m eme des intervalles de conance (avec B beaucoup plus grand) de lestimateur sans hypoth` ese (normalit e) sur la vraie loi. Les grands principes de cette approche sont rappel es en annexe A. Estimateur na f chantillon bootstrap des donn Soit z un e ees :
z = {(x 1 , y1 ), . . . , (xn , yn )}.
Lestimateur plug-in de lerreur de pr evision EP (z, F ), pour lequel la distribution F est remplac ee par la distribution empirique F (cf. section A1.1) est d eni par : EP (z , F ) = 1 n nQ(yi , z (xi ))
i=1
` partir de l ` lestimation bootstrap de o` u z d esigne lestimation de a echantillon bootstrap. Il conduit a lerreur moyenne de pr evision EF [EP (z, F )] par EBoot = EF [EP (z , F )] = EF Cette estimation est approch ee par simulation : EBoot = 1 B
B
1 n
nQ(yi , z (xi )) .
i=1
b=1
1 n
nQ(yi , zb (xi )).

i=1
Lestimation ainsi construite de lerreur de pr evision est g en eralement biais ee par optimisme car, au gr e des ` la fois dans lestimation du mod` simulations, les m emes observations (xi , yi ) apparaissent a ele et dans celle ` corriger ce biais. de lerreur. Dautres approches visent a Estimateur out-of-bag La premi` ere sinspire simplement de la validation crois ee. Elle consid` ere dune part les observations tir ees dans l echantillon bootstrap et, dautre part, celles qui sont laiss ees de c ot e pour lestimation du mod` ele mais retenue pour lestimation de lerreur. Eoob = 1 n
n
i=1
1 Bi
Q(yi , zb (xi ))
bKi
chantillons bootstrap ne contenant pas la ie ` me observation a ` lissue o` u Ki est lensemble des indices b des e chantillons ; B doit e tre sufsamment grand pour que des B simulations et Bi = |Ki | le nombre de ces e t toute observation nait pas e e tir ee au moins une fois ou bien les termes avec Ki = 0 sont supprim es. Lestimation Eoob r esout le probl` eme dun biais optimiste auquel est confront ee EBoot mais n echappe pas au biais introduit pas la r eduction tel quil est signal e pour lestimation pas validation crois ee ECV . Cest ce qui a conduit Efron et Tibshirani (1997) a proposer des correctifs. Estimateur .632-bootstrap chantillon bootstrap est La probabilit e quune observation soit tir ee dans un e P [xi xb ] = 1 (1 1 1 n ) 1 0, 632. n e
Tr` es approximativement, la d egradation de lestimation provoqu ee par le bootstrap et donc la sur evaluation ` la suite dun raisonnement trop ` celle de la validation crois de lerreur sont analogues a ee avec K = 2. A tre reproduit ici, Efron et Tibshirani (1997) proposent de compenser exc` long pour e es doptimisme du taux apparent derreur et exc` es de pessimisme du bootstrap out-of-bag par une combinaison : E.632 = 0, 368 EP + 0, 632 Eoob .
62
5.2
Remarques
Toutes les estimations de lerreur de pr evision consid er ees (p enalisation, validation crois ee, boots quivalentes et il nest pas possible de savoir laquelle concr` trap) sont asymptotiquement e etement ` n ni, la plus pr sera, a ecise. Une large part darbitraire ou dexp erience pr eside donc le choix dune estimation plut ot quune autre. Conceptuellement, le bootstrap est plus compliqu e et pratiquement encore peu utilis e. N eanmoins, cet outil joue un r ole central dans les algorithmes r ecents de combinaison de mod` eles (cf. chapitre 9) tre n en association avec une estimation out-of-bag de lerreur. Il ne peut e eglig e. Lestimateur .632-bootstrap pose des probl` emes en situation de sur-ajustement aussi les m emes auteurs ont propos e un rectifcatif compl ementaire not e .632+bootstrap. Comme le signale Vapnik, la r esolution dun probl` eme de mod elisation : r egression ou discrimination ` n pr ` un probl` a edictive doit, dans la mesure du possible, d eviter de se ramener a eme nalement beaucouop plus complexe comme celui de lestimation dune densit e multidimensionnelle. Cest ainsi typiquement le cas en analyse discriminante non param etrique.
Ce quil faut retenir en conclusion, cest que lestimation dune erreur de pr evision est une op eration d elicate aux cons equences importantes. Il est donc n ecessaire dutiliser le m eme estimateur pour comparer lefcacit e de deux m ethodes, de se montrer tr` es prudent, en dehors de tout syst` eme dhypoth` eses probabilistes, sur le caract` ere absolu dune estimation dans lobjectif dune certication. ` un e chantillon test de bonne taille est difcilement contourDans ces deux derni` eres situations, le recours a chantillon nable alors quen situation de choix de mod` ele au sein dune m eme famille, un estimateur (petit e conomique est adapt de validation, validation crois ee) plus e e en supposant implicitement que le biais induit ` lautre. est identique dun mod` ele a
Chapitre 6 Analyse Discriminante D ecisionnelle

1 Introduction
` m modalit Lobjet de ce chapitre est lexplication dune variable qualitative Y a es par p variables quan chantillon de taille n. Lobjectif de lanalyse distitatives X j , j = 1, . . . , p observ ees sur unm eme e criminante d ecisionnelle d eborde le simple cadre descriprif de lanalyse facorielle discriminante (AFD). Disposant dun nouvel individu (ou de plusieurs, cest la m eme chose) sur lequel on a observ e les X j mais pas Y , il sagit maintenant de d ecider de la modalit e T de Y (ou de la classe correspondante) de ce nou galement a ` la situation vel individu. On parle aussi de probl` eme daffectation. LADD sapplique donc e pr ec edente de la r egression logistique (m = 2) mais aussi lorsque le nombre de classes est plus grand que 2. tudier dans ce chapitre des r` Pour cela, on va d enir et e egles de d ecision (ou daffectation) et donner en valuer sur un seul individu ; x = (x1 , . . . , xp ) d suite les moyens de les e esigne les observations des variables explicatives sur cet individu, {g ; = 1, . . . , m} les barycentres des classes calcul es sur l echantillon et x le barycentre global. La matrice de covariance empirique se d ecompose en S = Se + Sr . o` u Sr est appel ee variance intraclasse (within) ou r esiduelle :
m
Sr = Xr DXr =
=1 i
wi (xi g )(xi g ) ,
et Se la variance interclasse (between) ou expliqu ee :

m
Se = G DG = X e DX e =
=1
w (g x)(g x) .
2
2.1
R` egle de d ecision issue de lAFD

Cas g en eral : m quelconque
FINITION 6.1. On affectera lindividu x a DE e de Y minimisant : ` la modalit d2 (x, g ), = 1, . . . , m. S1

r
Cette distance se d ecompose en d2 (x, g ) = x g S 1

r
2 1 S r
1 = (x g ) S r (x g )
63
64 ` maximiser et le probl` eme revient donc a
Chapitre 6. Analyse Discriminante D ecisionnelle
1 1 1 g S r x g Sr g . 2 Il sagit bien dune r` egle lin eaire en x car elle peut s ecrire : A x + b .
2.2
Cas particulier : m = 2
Dans ce cas, la dimension r de lAFD vaut 1. Il ny a quune seule valeur propre non nulle 1 , un seul vecteur discriminant v 1 et un seul axe discriminant 1 . Les 2 barycentres g1 et g2 sont sur 1 , de sorte ` g1 g2 . que v 1 est colin eaire a ` T1 si : Lapplication de la r` egle de d ecision permet daffecter x a 1 1 1 1 1 1 g1 S r x g1 Sr g1 > g2 Sr x g2 Sr g2 2 2 cest-` a-dire encore si
1 1 (g1 g2 ) S r x > (g1 g2 ) Sr
g1 + g2 . 2
Remarque
` lAFD est simple mais elle est limit La r` egle de d ecision li ee a ee et insufsante notamment si les variances des classes ne sont pas identiques. De plus, elle ne tient pas compte de l echantillonnage pour x : tous les groupes nont pas n ecessairement la m eme probabilit e doccurence.
3
3.1
R` egle de d ecision bay esienne

Introduction
Dans cette optique, on consid` ere que la variable Y , qui indique le groupe dappartenance dun individu, prend ses valeurs dans {T1 , . . . , Tm } et est munie dune loi de probabilit e 1 , . . . , m . Les probabilit es = P [T ] repr esentent les probabilit es a priori des classes ou groupes . On suppose que les vecteurs x des observations des variables explicatives suivent, connaissant leur classe, une loi de densit e f (x) = P [x | T ] ` une mesure de r par rapport a ef erence1 .
3.2
D enition
` tout individu, lui affecte une Une r` egle de d ecision est une application de dans {T1 , . . . , Tm } qui, a classe connaissant x. Sa d enition d epend du contexte de l etude et prend en compte la connaissance ou non de co uts de mauvais classement, connaissance ou non des lois a priori sur les classes, nature al eatoire ou non de l echantillon. On d esigne par c | k le co ut du classement dans T dun individu de Tk . Le risque de Bayes dune r` egle de d ecision exprime alors le co ut moyen :
m m
R =
k=1
k
=1
|k {x | (x)=T }
fk (x)dx
o` u
{x | (x)=T }
1 La
` T alors quil est dans Tk . fk (x)dx repr esente la probabilit e daffect exa
mesure de Lebesgues pour des variables r eelles, celle de comptage pour des variables qualitatives
4. R` egle bay esienne avec mod` ele normal
65
3.3
inconnus Couts
Lestimation des co uts nest pas du ressort de la Statistique et, sils ne sont pas connus, on suppose gaux. La minimisation du risque ou r` ` affecter tout simplement quils sont tous e egle de Bayes revient alors a ` la classe la plus probable cest-` ` celle qui maximise la probabilit xa a-dire a e conditionnelle a posteriori : P [T | x]. Par le th eor` eme de Bayes, on a : P [T | x] = P [T ].P [x | T ] P [T et x] = P [x] P [x]
m =1
avec le principe des probabilit es totales : P [x] =
P [T ].P [x | T ].
` choisir T maximisant Comme P [x] ne d epend pas de , la r` egle consistera a P [T ].P [x | T ] = .P [x | T ]; P [x | T ] est la probabilit e dobserver x au sein de la classe T . Pour une loi discr` ete, il sagit dune probabilit e du type P [x = xl | T ] et dune densit e f ( x | T ) pour une loi continue. Dans tous les cas nous k utiliserons la notation f (x). La r` egle de d ecision s ecrit nalement sous la forme : (x) = arg max f (x).
=1,...,m
3.4
D etermination des a priori
tre connues a priori : proportions de divers groupes Les probabilit es a priori peuvent effectivement e dans une population, de diverses maladies. . . ; sinon elles sont estim ees sur l echantillon dapprentissage : n (si tous les individus ont le m eme poids) =w = n ` condition quil soit bien un e chantillon al a eatoire susceptible de fournir des estimations correctes des ` consid gaux. fr equences. Dans le cas contraire il reste a erer tous les e
3.5
Cas particuliers
gales, cest par exemple le cas du choix de probabilit Dans le cas o` u les probabilit es a priori sont e es ` maximiser f (x) qui est la vraisemnon informatives, la r` egle de d ecision bay esienne revient alors a ` choisir la classe pour laquelle cette blance, au sein de T , de lobservation x. La r` egle consiste alors a vraisemblance est maximum. ` T1 si : Dans le cas o` u m = 2, on affecte x a f1 (x) 2 > f2 (x) 1 faisant ainsi appara tre un rapport de vraisemblance. Dautre part, lintroduction de co uts de mauvais ` modier la valeur limite 2 /1 . classement diff erents selon les classes am` ene a
` estimer les densit Finalement, il reste a es conditionnelles f (x). Les diff erentes m ethodes destimation consid er ees conduisent aux m ethodes classiques de discrimination bay esienne objets des sections suivantes.
R` egle bay esienne avec mod` ele normal
` T , x = (x1 , . . . , xp ) est lobservation dun On suppose dans cette section que, conditionnellement a vecteur al eatoire gaussien N ( , ) ; est un vecteur de IRp et une matrice (p p) sym etrique et d enie-positive. La densit e de la loi, au sein de la classe T , s ecrit donc : f (x) = 1 1 exp (x ) 1 (x ) . 1 / 2 2 2 (det( )) 1 1 ln(det( )) (x ) 1 (x ). 2 2
` une classe se fait en maximisant .f (x) par rapport a ` l soit encore la quantit Laffectation de x a e: ln( )
66
4.1
H et erosc edasticit e
Dans le cas g en eral, il ny a pas dhypoth` ese suppl ementaire sur la loi de x et donc les matrices sont fonction de . Le crit` ere daffectation est alors quadratique en x. Les probabilit es sont suppos ees connues mais il est n ecessaire destimer les moyennes ainsi que les covariances en maximisant, ` estimer la moyenne compte tenu de lhypoth` ese de normalit e, la vraisemblance. Ceci conduit a =g par la moyenne empirique de x dans la classe l pour l echantillon dapprentissage et par la matrice de covariance empirique S : Rl 1 (xi g )(xi g ) S Rl = n 1
i
chantillon. pour ce m eme e
4.2
Homosc edasticit e
On suppose dans ce cas que les lois de chaque classe partagent la m eme structure de covariance = . ` maximiser devient Supprimant les termes ind ependants de l, le crit` ere a 1 ln( ) 1 + 1 x 2 qui est cette fois lin eaire en x. Les moyennes sont estim ees comme pr ec edemment tandis que est estim ee par la matrice de covariance intra empirique : S R = 1 nm
m
(xi g )(xi g ) .
=1 i
gales, apr` Si, de plus, les probabilit es sont e es estimation le crit` ere s ecrit : 1 1 1 x S R x x SR x . 2 On retrouve alors le crit` ere de la section 2 issu de lAFD.
4.3
Commentaire
ventuellement lhomosc tre v Les hypoth` eses : normalit e, e edasticit e, doivent e eri ees par la connais tude pr sance a priori du ph enom` ene ou par une e ealable de l echantillon dapprentissage. Lhypoth` ese dhomosc edasticit e, lorquelle est v eri ee, permet de r eduire tr` es sensiblement le nombre de param` etres ` estimer et daboutir a ` des estimateurs plus ables car de variance moins e lev a ee. Dans le cas contraire, tre de taille importante. l echantillon dapprentissage doit e
5
5.1
R` egle bay esienne avec estimation non param etrique

Introduction
En Statistique, on parle destimation non param etrique ou fonctionnelle lorsque le nombre de param` etres ` estimer est inni. Lobjet statistique a ` estimer est alors une fonction par exemple de r a egression y = f (x) ` une densit ou encore une densit e de probabilit e. Dans ce cas, au lieu de supposer quon a affaire a e de type connu (normale) dont on estime les param` etres, on cherche une estimation f de la fonction de densit e f. Pour tout x de IR, f (x) est donc estim ee par f (x). Cette approche tr` es souple a lavantage de ne pas n ecessiter dhypoth` ese particuli` ere sur la loi (seulement la r egularit e de f pour de bonnes propri et es de convergence), en revanche elle nest applicable quavec chantillons de grande taille dautant plus que le nombre de dimensions p est grand (curse of dimensiodes e nality). Dans le cadre de lanalyse discriminante, ces m ethodes permettent destimer directement les densit es f (x). On consid` ere ici deux approches : la m ethode du noyau et celle des k plus proches voisins.
5. R` egle bay esienne avec estimation non param etrique
67
5.2
M ethode du noyau
Estimation de densit e quipond Soit y1 , . . . , yn n observations e er ees dune v.a.r. continue Y de densit e f inconnue. Soit K (y ) (le noyau) une densit e de probabilit e unidimensionnelle (sans rapport avec f ) et h un r eel strictement positif. On appelle estimation de f par la m ethode du noyau la fonction f (y ) = Il est imm ediat de v erier que
+
1 nh
K
i=1
y yi h
y IR, f (y ) 0 et
f (y )dy = 1;
h est appel e largeur de fen etre ou param` etre de lissage ; plus h est grand, plus lestimation f de f est r eguli` ere. Le noyau K est choisi centr e en 0, unimodal et sym etrique. Les cas les plus usuels sont la densit e gaussienne, celle uniforme sur [1, 1] ou triangulaire : K (x) = [1 |x|]1[1,1] (x). La forme du noyau ` la valeur de h. nest pas tr` es d eterminante sur la qualit e de lestimation contrairement a Application a ` lanalyse discriminante La m ethode du noyau est utilis ee pour calculer une estimation non param etrique de chaque densit e tre choisi multidimensionnel f (x) qui sont alors des fonctions d enies dans IRp . Le noyau K dont donc e et 1 x xi f (x) = K . n hp h
i
tre d ` partir de la densit Un noyau multidimensionnel peut e eni a e usuelle de lois : multinormale Np (0, p ) ou uniforme sur la sph` ere unit e ou encore par produit de noyaux unidimensionnels :
p
K (x) =
j =1
K (xj ).
5.3
k plus proches voisins
` encha tapes d Cette m ethode daffectation dun vecteur x consiste a ner les e ecrites dans lalgorithme ` la classe du plus proche e l ci-dessous. Pour k = 1, x est affect ea ement. Algorithm 3 k-nn Choix dun entier k : 1 k n. Calculer les distances dM (x, xi ) , i = 1, . . . , n o` u M est la m etrique de Mahalanobis cest-` a-dire la matrice inverse de la matrice de variance (ou de variance intra). Retenir les k observations x(1) , . . . , x(k) pour lesquelles ces distances sont les plus petites. Compter les nombres de fois k1 , . . . , km que ces k observations apparaissent dans chacune des classes. Estimer les densit es par k f (x) = ; kVk (x) o` u Vk (x) est le volume de lellipso de {z|(z x) M(z x) = dM (x, x(k) )}. Comme toute technique, celles pr esent ees ci-dessus n ecessitent le r eglage dun param` etre (largeur de ` un choix de mod` fen etre, nombre de voisins consid er es). Ce choix sapparente a ele et n ecessite le m eme ` savoir loptiomisation dun crit` type dapproche a ere (erreur de classement, validation crois ee (cf. chapitre 5).
68
TAB . 6.1 Cancer : estimations des taux derreurs de pr evision obtenus par diff erents types danalyse discriminante M ethode lin eaire k NN apprentissage 1,8 2,5 validations crois ee 3,8 2,7 test 3,6 2,9
TAB . 6.2 Cancer : estimations des taux derreurs de pr evision obtenus par diff erents types danalyse discriminante M ethode lin eaire quadratique apprentissage 11,9 12,7 validations crois ee 12,5 14,8 test 12,0 12,5
6
6.1
Exemples
Cancer du sein
` des variables explicativers quantitatives. Ce nest pas Par principe, lanalyse discriminante sapplique a le cas des donn ees qui sont au mieux ordinales. Il est clair que contruire une fonction de disrimination ` la qualit comme combinaison de ces variables na gu` ere de sens. N eanmoins, en sattachant uniquement a e de pr evision sans essayer de constuire une interpr etation du plan ou de la surface de discrimination, il est dusage dutiliser lanalyse discriminante de fac on sauvage. Les r esultats obtenus sont r esum es dans le tableau 6.2. Lanalyse dicriminante quadratique, avec matrice de variance estim ee pour chaque classe na tre calcul pas pu e ee. Une des matrices nest pas inversible.
6.2
Concentration dozone
` 2 modalit Dans cet exemple aussi, deux variables sont qualitatives : le type de jour a es ne pose pas de probl` eme mais remplacer la station par un entier est plut ot abusif. Dailleurs, les plus proches voisins ne lacceptent, une transformation des donn ees seraient n ecessaire.
6.3
Carte visa
Comme pour les donn ees sur le cancer, les donn ees bancaires posent un probl` eme car elles associent diff erents types de variables. Il est possible de le contourner, pour celles binaires, en consid erant quantitative, lindicatrice de la modalit e (0 ou 1). Pour les autres, certaines proc edures (DISQUAL pour discrimination sur variables qualitatives) proposent de passer par une analyse factorielle multiple des correspondances pour rendre tout quantitatif mais ceci nest pas impl ement e de fac on standard dans les logiciels dorigine am ericaine. Pour lanalyse discriminante, R ne propose pas de s election automatique de variable mais inclut une estimation de lerreur par validation crois ee. Les r esultats trouv es sont r esum es dans le tableau 6.3. Seule une discimination lin eaire semble fournir des r esultats raisonnables, la recherche dune discrimination quadratique napporte rien pour cs donn ees. De son c ot e, SAS propose une s election automatique (proc edure stepdisc) mais les r esultats obtenus ne sont pas sensiblement meilleurs apr` es s election.
6. Exemples
69
TAB . 6.3 Banque : estimations des taux derreurs de pr evision obtenus par diff erents types danalyse discriminante M ethode lin eaire quadratique k NN apprentissage 16,5 17,8 23,5 validations crois ee 18,3 22,0 29,8 test 18 30 29
70
Chapitre 7 Arbres binaires

1 Introduction
Ce chapitre sint eresse aux m ethodes ayant pour objectif la construction darbres binaires de d ecision, mod elisant une discrimination ou une r egression. Compl ementaires des m ethodes statistiques plus classiques : analyse discriminante, r egression lin eaire, les solutions obtenues sont pr esent ees sous une forme ` interpr ` la graphique simple a eter, m eme pour des n eophytes, et constituent une aide efcace pour laide a d ecision. Elles sont bas ees sur un d ecoupage, par des hyperplans, de lespace engendr e par les variables explicatives. Nomm ees initialement partitionnement r ecursif ou segmentation, les d eveloppements importants de Breiman et col. (1984) les ont fait conna tre sous lacronyme de CART : Classication and Regression ` deux Tree ou encore de C4.5 (Quinlan, 1993) dans la communaut e informatique. Lacronyme correspond a ` expliquer, mod situations bien distinctes selon que la variable a eliser ou pr evoir est qualitative (discrimination ou en anglais classication) ou quantitative (r egression). Ces m ethodes ne sont efcaces que pour des tailles d echantillons importantes et elles sont tr` es calcula` interpr toires. Les deux raisons : mod` ele graphique de d ecision simple a eter, puissance de calcul n ecessaire, ` expliquer leur popularit sufsent a e r ecente. De plus, elles requi` erent plut ot moins dhypoth` eses que des m ethodes statistiques classiques et semblent particuli` erement adapt ees au cas o` u les variables explicatives ` lalgorithme construisant sont nombreuses. En effet, la proc edure de s election des variables est int egr ee a larbre, dautre part, les interactions sont prises en compte. N eanmoins, cet algorithme suivant une strat egie ` pas hi ` cot pas a erarchis ee, il peut, comme dans le cas du choix de mod` ele en r egression, passer a e dun ` des uctuations d optimum global ; il se montre par ailleurs tr` es sensible a echantillon rt n ecessite une op lagage. Ceci souligne encore limportance de timisation d elicate de loptimisation de la complexit e par e confronter plusieurs approches sur les m emes donn ees.
2 Construction dun arbre binaire

2.1 Principe
Les donn ees sont constitu ees de lobservation de p variables quantitatives ou qualitatives explicatives ` expliquer Y qualitative a ` m modalit X j et dune variable a es {T ; = 1 . . . , m} ou quantitative r eelle, chantillon de n individus. observ ees sur un e ` d La construction dun arbre de discrimination binaire (cf. gure 2.1) consiste a eterminer une s equence de nuds. Un nud est d eni par le choix conjoint dune variable parmi les explicatives et dune division qui in` chaque nud correspond donc un sous-ensemble duit une partition en deux classes. Implicitement, a de l echantillon auquel est appliqu ee une dichotomie. Une division est elle-m eme d enie par une valeur seuil de la variable quantitative s electionn ee ou un partage en deux groupes des modalit es si la variable est qualitative. ` la racine ou nud initial correspond lensemble de l A echantillon ; la proc edure est ensuite it er ee sur chacun des sous-ensembles. 71
72
Chapitre 7. Arbres binaires Revenu < 10000 d Revenu > 10000 d d d d d d Age > 50 Sexe=H d Sexe=F Age < 50 d d d d d d d d Tj T T j
l F IG . 7.1 Exemple e ementaire darbre de classication.
Lalgorithme consid er e n ecessite : i. la d enition dun crit` ere permettant de s electionner la meilleure division parmi toutes celles admissibles pour les diff erentes variables ; ii. une r` egle permettant de d ecider quun nud est terminal : il devient ainsi une feuille ; ` lune des classes ou a ` une valeur de la variable a ` expliquer. iii. laffectation de chaque feuille a ` la recherche dun mod` Le point (ii) est le plus d elicat. Il correspond encore a ele parcimonieux. Un arbre trop ` une surparam d etaill e, associ ea etrisation, est instable et donc probablement plus d efaillant pour la pr evision dautres observations. La contribution majeure de Breiman et col. (1984) est justement une strat egie de ` recherche darbre optimal. Elle consiste a i. construire larbre maximal Amax , ii. ordonner les sous-arbres selon une s equence embo t ee suivant la d ecroissance dun crit` ere p enalis e de d eviance ou de taux de mal-class es, ` s iii. puis a electionner le sous-arbre optimal ; cest la proc edure de lagage. Tous ces points sont d etaill es ci-dessous.
2.2
Crit` ere de division
Une division est dite admissible si aucun des deux nuds descendants qui en d ecoulent nest vide. Si la variable explicative est qualitative ordinale avec m modalit es, elle fournit (m 1) divisions binaires admis` 2(m1) 1. Une variable quantitative sibles. Si elle est seulement nominale le nombre de divisions passe a se ram` ene au cas ordinal. Le crit` ere de division repose sur la d enition dune fonction dh et erog en eit e ou de d esordre explicit ee tant de partager les individus en deux groupes les plus homog` dans la section suivante. Lobjectif e enes au ` expliquer. Lh sens de la variable a et erog en eit e dun nud se mesure par une fonction non n egative qui doit tre e ` la m i. nulle si, et seulement si, le nud est homog` ene : tous les individus appartiennent a eme modalit e ou prennent la m eme valeur de Y . quiprobables ou tr` ii. Maximale lorsque les valeurs de Y sont e es dispers ees. La division du nud k cr ee deux ls, gauche et droit. Pour simplier, ils sont not es (k + 1) et (k + 2) mais une re-num erotation est n ecessaire pour respecter la s equence de sous-arbres qui sera d ecrite dans la section suivante. Parmi toutes les divisions admissibles du nud k , lalgorithme retient celle qui rend la somme D(k+1) + ` r ` chaque e tape k de construcD(k+2) des d esordres des nuds ls minimales. Ceci revient encore a esoudre a
3. Crit` eres dhomog en eit e tion de larbre :

{divisions deX j ;j =1,p}
73
max
Dk (D(k+1) + D(k+2) )
tre repr ` la r Graphiquement, la longueur de chaque branche peut e esent ee proportionnellement a eduction de lh et erog en eit e occasionn ee par la division.
2.3
R` egle darr et
` un nud donn La croissance de larbre sarr ete a e, qui devient donc terminal ou feuille, lorsquil est ho viter un d mog` ene cest-` a-dire lorsquil nexiste plus de partition admissible ou, pour e ecoupage inutilement ` une valeur seuil a ` choisir en g n, si le nombre dobservations quil contient est inf erieur a en eral entre 1 et 5.
2.4
Affectation
` chaque feuille est associ Dans le cas Y quantitative, a ee une valeur : la moyenne des observations ` cette feuille. Dans le cas qualitatif, chaque feuille ou nud terminal est affect ` une classe T associ ees a ea de Y en consid erant le mode conditionnel : celle la mieux repr esent ee dans le nud et il est ensuite facile de compter le nombre dobjets mal class es ; la classe a posteriori la plus probable au sens bayesien si des probabilit es a priori sont connues ; la classe la moins co uteuse si des co uts de mauvais classement sont donn es.
3
3.1
Crit` eres dhomog en eit e

` consid Deux cas sont a erer.
Y quantitative
On consid` ere le cas plus g en eral dune division en J classes. Soit n individus et une partition en J J ` me classes de tailles nj ; j = 1, . . . , J avec n = j =1 nj . On num erote i = 1, . . . , nj les individus de la j e ` me de classe. Soit ij (resp.yij ) la valeur th eorique (resp. lobservation) de Y sur lindividu (i, j ) : le ie ` me classe. Lh la j e et erog en eit e de la classe j est d enie par :
nj nj
Dj =
i=1
(ij .j )2
avec .j =
i=1
ij .
Lh et erog en eit e de la partition est d enie par :

J J nj
D=
j =1
Dj =
j =1 i=1
(ij .j )2 ;
` la variance intraclasse) qui vaut D = 0 si et seulement si ij = .j pour cest linertie intra (homog` ene a tout i et tout j . La diff erence dh et erog en eit e entre lensemble non partag e et lensemble partag e selon la partition J est = 1 (ij .. ) (ij .j ) o` u .. = n j =1 i=1 j =1 i=1
2 2 J J nj J nj J nj
ij .
j =1 i=1
=
j =1
nj (.. .j )2 ;
` la variance inter classe ou d cest encore homog` ene a esordre des barycentres qui vaut = n1 n2 ((.1 .2 )2 pour J = 2 dans le cas qui nous int eresse.
74
Chapitre 7. Arbres binaires
` chaque e tape, est de maximiser cest-` Lobjectif, a a-dire de trouver la variable induisant une partition ` une inertie (variance) intraclasse minimale ou encore qui rend linertie (la variance) en 2 classes associ ee a interclasse la plus grande. Les quantit es sont estim ees :
nj
Dj
par Dj
=
i=1 J
(yij y.j )2
J nj
(7.1) (yij y.j )2 .
D Sous hypoth` ese gaussienne :
par D
=
j =1
Dj =
j =1 i=1
(7.2)
Yij = .j + uij la log-vraisemblance
avec
+ uij N (0, 2 ),
J nj
n 1 log L = Cste log( 2 ) 2 2 2 est rendue maximale pour
(yij .j )2
j =1 i=1
1 n L = sup log L = Cste log( 2 ) 2 2 2
nj
(yij y.j )2 .
j =1 i=1
Pour le mod` ele satur e (une classe par individu) : yij = ij + uij , cet optimum devient : Ls = sup log L = Cste
n log( 2 ). 2
La d eviance (par rapport au mod` ele satur e) sexprime alors comme : D = 2 2 (Ls L ) = D. ` une d Le rafnement de larbre est donc associ ea ecroissance, la plus rapide possible, de la d eviance. Cest loptique retenue dans le logiciel Splus. On peut encore dire que la division retenue est celle qui rend le test de Fisher (analyse de variance), comparant les moyennes entre les deux classes, le plus signicatif possible.
3.2
Y qualitative
` partir de la notion Dans ce cas, la fonction dh et erog en eit e, ou de d esordre dun nud, est d enie a dentropie, du crit` ere de concentration de Gini ou encore dune statistique de test du 2 . En pratique, il sav` ere que le choix du crit` ere importe moins que celui du niveau d elagage. Le premier crit` ere (entropie) est souvent pr ef er e (Splus) car il sinterpr` ete encore comme un terme de d eviance mais dun mod` ele multinomial cette fois. Entropie ` expliquer qualitative, Y a ` m modalit On consid` ere une variable a es ou cat egories T num erot ees = ` me classe ou k e ` me nud. 1, . . . , m. Larbre induit une partition pour laquelle n+k d esigne leffectif de la k e Soit
m
= P [T | k ] avec
=1
=1
l ` me nud appartienne a ` la e ` me classe. la probabilit e quun e ement du k e ` me nud, d ` partir de lentropie, s Le d esordre du k e eni a ecrit avec la convention 0 log(0) = 0. :
m
Dk = 2
=1
n+k p k log(p k )
4. Elagage tandis que lh et erog en eit e ou d esordre de la partition est encore :

K K m
75
D=
k=1
Dk = 2
k=1 =1
n+k p k log(p k ).
Remarques : Cette quantit e est positive ou nulle, elle est nulle si et seulement si les probabilit es p k ne prennent gale a ` 1 correspondant a ` labsence de m que des valeurs 0 sauf une e elange. m 2 tre remplac ` une autre d Elle peut e ee par lindice de Gini 1 enition de =1 p k qui conduit a galement utilis lh et erog en eit ee ee mais qui ne sinterpr` ete pas en terme de d eviance dun mod` ele comme dans le cas de lentropie. ` me classe dans le k e ` me nud. Un nud k de larbre D esignons par n k leffectif observ e de la e m repr esente un sous-ensemble de l echantillon deffectif n+k = n k. =1 Les quantit es sont estim ees :
m
Dk
parDk
= 2
=1 K
n+k
nk nk log n+k n+k

K m
(7.3) nk . n+k
par D
=
k=1
Dk = 2
k=1 =1
n k log
(7.4)
` m cat Consid erons, pour chaque classe ou nud k , un mod` ele multinomial a egories de param` etre :
m
pk = (p1k , . . . , pmk ), Pour ce mod` ele, la logvraisemblance :

K
avec
=1
= 1.
log L = Cste +
k=1 =1
n k log(p k )
est rendue maximale pour

K m
L = sup log L = Cste +

p
k
n k log
k=1 =1
nk . n+k
Pour le mod` ele satur e (une cat egorie par objet), cet optimum prend la valeur de la constante et la d eviance (par rapport au mod` ele satur e) sexprime comme :
K m
D = 2
k=1 =1
n k log
nk = D. n+k
Comme pour lanalyse discriminante d ecisionnelle, les probabilit es conditionnelles sont d enies par la ` la e ` me classe sont connues. Dans r` egle de Bayes lorsque les probabilit es a priori dappartenance a le cas contraire, les probabilit es de chaque classe sont estim ees sur l echantillon et donc les probabilit es conditionnelles sestiment simplement par des rapports deffectifs : p k est estim ee par n k /n+k . Enn, il est toujours possible dintroduire, lorsquils sont connus, des co uts de mauvais classement et donc de se ` la minimisation dun risque bay ramener a esien.
Elagage
` des arbres extr Dans des situations complexes, la d emarche propos ee conduit a emement rafn es et ` des mod` chantillons qui ont permis donc a eles de pr evision tr` es instables car fortement d ependants des e
76
è viter au prot de mod` leur estimation. On se trouve donc dans une situation de sur-ajustement a eles plus parcimonieux donc plus robuste au moment de la pr evision. Cet objectif est obtenu par une proc edure de lagage (pruning) de larbre. ` construire une suite Le principe de la d emarche, introduite par Breiman et col. (1984), consiste a lagage successif puis a ` choisir, parmi cette suite, larbre embo t ee de sous-arbres de larbre maximum par e ` pas nest pas n optimal au sens dun crit` ere. La solution ainsi obtenue par un algorithme pas a ecessairement ` loptimalit globalement optimale mais lefcacit e et la abilit e sont pr ef er ees a e.
4.1
Construction de la s equence darbres
Pour un arbre A donn e, on note K le nombre de feuilles ou nuds terminaux de A ; la valeur de K exprime la complexit e de A. La mesure de qualit e de discrimination dun arbre A sexprime par un crit` ere
K
D(A) =
k=1
Dk (A)
` me feuille o` u Dk (A) est le nombre de mal class es ou la d eviance ou le co ut de mauvais classement de la k e de larbre A. La construction de la s equence darbres embo t es repose sur une p enalisation de la complexit e de larbre : C (A) = D(A) + K. Pour = 0, Amax = AK minimise C (A). En faisant cro tre , lune des divisions de AK , celle pour ` ), appara laquelle lam elioration de D est la plus faible (inf erieure a t comme superue et les deux feuilles obtenues sont regroup ees ( elagu ees) dans le nud p` ere qui devient terminal ; AK devient AK 1 . Le proc ed e est it er e pour la construction de la s equence embo t ee : Amax = AK AK 1 A1 o` u A1 , le nud racine, regroupe lensemble de l echantillon. boulis de la d Un graphe repr esente la d ecroissance ou e eviance (ou du taux de mal class es) en fonction quivalent, en fonction de la valeur d du nombre croissant de feuilles dans larbre ou, cest e ecroissante du coefcient de p enalisation .
4.2
Recherche de larbre optimal
Les proc edures d elagage diff` erent par la fac on destimer lerreur de pr ediction. Le graphe pr ec edemment boulis de valeur propre. Quand lam obtenu peut se lire comme un e elioration du crit` ere est jug e trop petite lague larbre au nombre de feuilles obtenues. L ou n egligeable, on e evaluation de la d eviance ou du taux de mauvais classement estim ee par resubstitution sur l echantillon dapprentissage est biais ee (trop optimiste). chantillon (validation) ou encore par vaUne estimation sans biais est obtenue par lutilisation dun autre e lidation crois ee. La proc edure de validation crois ee pr esente dans ce cas une particularit e car la s equence darbres obtenue est diff erente pour chaque estimation sur lun des sous- echantillons. Lerreur moyenne nest pas, dans ce cas, calcul ee pour chaque sous-arbre avec un nombre de feuilles donn e mais pour chaque ` la valeur de minimisant ` une valeur x sous-arbre correspondant a ee du coefcient de p enalisation. A lestimation de lerreur de pr evision, correspond ensuite larbre jug e optimal dans la s equence estim ee sur tout l echantillon dapprentissage. Le principe de s election dun arbre optimal est donc d ecrit dans lalgorithme ci-dessous.
5
5.1
Exemples
Cancer du sein
lagu Un arbre de discrimination est estim e sur l echantillon dapprentissage, e e par validation crois ee ` la matrice de et repr esent e dans la gure 7.2. La pr evision de l echantillon test par cet arbre conduit a confusion :
5. Exemples
77
Algorithm 4 S election darbre Construction de larbre maximal Amax . Construction de la s equence AK . . . A1 darbres embo t es. Estimation sans biais ( echantillon de validation ou validation crois ee) des d eviances D(AK ), . . . , D(A1 ). Repr esentation de D(Ak ) en fonction de k ou de . Choix de k rendant D(Ak ) minimum.
benign | 358/188
Cell.shape=1,2 Cell.shape=3,4,5,6,7,8,9,10 benign 318/4 malignant 40/184
Bare.nuclei=1,2 Bare.nuclei=3,4,5,6,7,8,9,10 benign 32/20 malignant 8/164
Epith.c.size=1,2,3 Epith.c.size=4,5,6,7,8,9,10 benign 30/1 malignant 2/19
F IG . 7.2 Cancer : arbre de d ecision e e par validation crois ee (R). lagu
predq.tree benign malignant benign 83 5 malignant 3 46
` 5,8%. avec un taux derreur estim ea
5.2
Arbre de r egression Un arbre de r egression est estim e pour pr evoir la concentration dozone. La librairie rpart du logiciel R pr evoit une proc edure d elagage par validation crois ee an doprimiser le coefcient de p enalisation. Larbre (gure 7.3) montre bien quelles sont les variables importantes intervenant dans la pr evision. Mais, ` la structure arborescente du mod` compte tenu de la hi erarchisation de celles-ci, due a ele, cette liste nest pas ` celle mise en e vidence dans le mod` similaire a ele gaussien. On voit plus pr ecis ement ici la compexit e des interactions entre la pr ediction par MOCAGE et leffet important de la temp erature dans diff erentes situations. Les r esidus de l ecchantillon test du mod` ele darbre de r egression prennent une structure particuli` ere ` une feuille terminale sont affect ees de la m eme valeur. Il y (gure 7.4) car les observations communes a a donc une colonne par feuille. La pr ecision de lajustement peut sen trouver alt er ee (R2 = 0, 68) mais il appara t que ce mod` ele est moins soumis au probl` eme dh et erosc edasticit e tr` es pr esent dans le mod` ele gaussien.
78
F IG . 7.3 Ozone : arbre de r egression e e par validation crois ee (R). lagu
5. Exemples
79
Valeurs observees
250
Rsidus
150
50
100
200
300
100 50
50
50
100
50
100
200
300
Valeurs predites
Valeurs predites
F IG . 7.4 Ozone : Valeurs observ ees et r esidus de l echantillon test en fonction des valeurs pr edites. Arbre de discrimination Un mod` ele est estim e an de pr evoir directement le d epassement dun seuil. Il est de complexit e si` larbre de r milaire a egression mais ne fait pas jouer le m eme r ole aux variables. La temp erature remplace la pr evision MOCAGE de lozone comme variable la plus importante. Les pr evisions de d epassement de seuil sur l echantillon test sont sensiblement moins bonnes que celle de la r egression, les taux sont de 14,4% avec larbre de r egression et de 14,5% directement avec larbre de discrimination. Les matrices de confusion pr esentent les m emes biais que les mod` eles de r egression en omettant un nombre important de d epassements.
5.3
Carte Visa Premier
` celles-ci apr` L etude des donn ees bancaires sint eresse soit aux donn ees quantitatives brutes soient a es d ecoupage en classes des variables quantitatives. Ce d ecoupage rend des services en r egression logistique car le mod` ele construit sen trouve plus exible : plus de param` etres mais moins de degr es de libert e, comme t lapproximation par des indicatrices (des classes) de transformations non lin eaires des variables. Il a e e fait ` a la main en prenant les quantiles comme bornes de classe ; Cest un usage courant pour obtenir des gaux et r classes deffectifs e epartit ainsi au mieux la pr ecision de lestimation des param` etres mais ce choix ` partir dun arbre nest pas optimal au regard de lobjectif de pr evision. Dans le cas dun mod` ele construit a binaire, il est nalement pr ef erable de laisser faire celui-ci le d ecoupage en classe cest-` a-dire de trouver les valeurs seuils de d ecision. Cest la raison pour laquelle, larbre est pr ef erablement estim e sur els variables quantitatives et qualitatives initiales. Le module SAS/STAT ne fournit pas destimation darbre de d ecision, il faut faire appel au module SAS Enterprise Miner. Celui-ci, par principe, propose le d ecoupage de l echantillon en trois parties apprentissage, validation et test. L elagage de larbre estim e sur l echantillon dapprentissage est optimis e pour minimiser lerreur estim ee sur l echantillon de validation. Cest le graphique de la gure ??. En revanche, la librairie rpart de R propose doptimiser l elagation par validation crois ee. Larbre ainsi obtenu est repr esent e dans la gure ?? ` la matrice de confusion suivante sur l Cet arbre conduit a echantillon test vistest Cnon Coui Cnon 127 Coui 10
6 57
` 8%. avec un taux derreur estim ea
80
chantillon de validation (SEM, 2001). F IG . 7.5 Banque : choix du nombre de feuilles par e
5. Exemples
81
Endpoint = CARVP
Cnon 569/294 | MOYRVL< 3.02 Cnon 475/90 RELAT>=5.5 Cnon 462/61 FACANL< 11.44 Cnon 457/51 DMVTPL>=2.602 DMVTPL< 2.602 Cnon Cnon 381/28 76/23 DMVTPL< 1.199 DMVTPL>=1.199 Cnon Coui 76/3 0/20 FACANL>=11.44 Coui 5/10 RELAT< 5.5 Coui 13/29 MOYRVL>=3.02 Coui 94/204 DMVTPL>=2.602 DMVTPL< 2.602 Coui Coui 93/121 1/83
DMVTPL< 2.674 AGER< 26 AGER>=26 DMVTPL>=2.674 Cnon Cnon Coui Coui 8/0 70/17 5/29 23/104 FACANL< 11.32 FACANL>=11.32 Cnon Coui 67/10 3/7
lagu F IG . 7.6 Banque : arbre de d ecision e e par validation crois ee dans R.
82
Chapitre 8 M ethodes connexionistes

1 Historique
` une branche de lInformatique fondamentale qui, sous lappellation dIntelligence Nous nous int eressons ici a Articielle, a pour objectif de simuler des comportements du cerveau humain. Les premi` eres tentatives de mod elisation du cerveau sont anciennes et pr ec` edent m eme l` ere informatique. Cest en 1943 que Mc Culloch (neurophysiologiste) et Pitts (logicien) ont propos e les premi` eres notions de neurone formel. Ce concept fut ensuite mis en r eseau avec une couche dentr ee et une sortie par Rosenblatt en 1959 pour simuler le fonctionnement r etinien et tacher de reconna tre des formes. Cest lorigine du perceptron. Cette approche dite connexioniste a atteint ses limites technologiques, compte tenu de la puissance de calcul de l epoque, mais aussi th eoriques au d ebut des ann ees 70. ` connaissance r t Lapproche connexioniste a epartie a alors e e supplant ee par lapproche symbolique ou ` connaissance localis tait alors dautomas equentielle qui promouvait les syst` emes experts a ee. Lobjectif e tiser le principe de lexpertise humaine en associant trois concepts : taient regroup une base de connaissance dans laquelle e ees toutes les connaissances dexperts hu l labor mains sous forme de propositions logiques e ementaires ou plus e ees en utilisant des quanticateurs (logique du premier ordre). ` traiter comme, par exemple, des r une base de faits contenant les observations du cas a esultats dexamens, danalyses de sang, de salive pour des applications biom edicales de choix dun antibiotique, un moteur dinf erence charg e dappliquer les r` egles expertes sur la base de faits an den d eduire de nouveaux faits jusqu` a la r ealisation dun objectif comme l elaboration du traitement dun infection bact erienne. Face aux difcult es rencontr ees lors de la mod elisation des connaissances dun expert humain, au volume consid erable des bases de connaissance qui en d ecoulait et au caract` ere exponentiel de la complexit e des al teinte avec les ann gorithmes dinf erence mis en jeu, cette approche sest e ees 80. En effet, pour les syst` emes ` base de calcul des pr ` les plus compliqu es a edicats du premier ordre, on a pu montrer quils conduisaient a tre atteinte mais pas n des probl` emes N P complets et donc dont la solution pouvait e ecessairement en un temps ni ! Lessor technologique et surtout quelques avanc ees th eoriques : algorithme destimation par r etropropagation de lerreur par Hopkins en 1982, analogie de la phase dapprentissage avec les mod` eles markoviens de syst` emes de particules de la m ecanique statistique (verres de spin) par Hopeld en 1982, au d ebut des ann ees 80 ont permis de relancer lapproche connexioniste. Celle-ci a connu au d ebut des ann ees 90 un d eveloppement consid erable si lon consid` ere le nombre de publications et de congr` es qui t lui ont e e consacr es mais aussi les domaines dapplications tr` es divers o` u elle appara t. Sur de nombreux objectifs, justement ceux propres au data mining, les r eseaux neuronaux ne rentrent pas n ecessairement en concurrence avec des m ethodes statistiques bient ot centenaires mais apportent un point de vue compl ementaire quil est important de consid erer (Thiria et col. 1997).
83
84
Chapitre 8. M ethodes connexionistes
x1 x2 s q E xj . . Q . p x
| f
Ey
F IG . 8.1 Repr esentation dun neurone formel.
R eseaux de neurones
l Un r eseau neuronal est lassociation, en un graphe plus ou moins complexe, dobjets e ementaires, les neurones formels. Les principaux r eseaux se distinguent par lorganisation du graphe (en couches, complets. . . ), cest-` a-dire leur architecture, son niveau de complexit e (le nombre de neurones) et par le type des neurones (leurs fonctions de transition).
2.1
Neurone formel
De fac on tr` es r eductrice, un neurone biologique est une cellule qui se caract erise par des synapses, les points de connexion avec les autres neurones, bres nerveuses ou musculaires ; des dentrites, les entr ees du neurones ; laxone, la sortie du neurone vers dautres neurones ou bres musculaires ; le noyau qui active la sortie en fonction des stimuli en entr ee. tat interne s S , des signaux Par analogie, le neurone formel est un mod` ele qui se caract erise par un e dentr ee x1 , . . . , xp et une fonction de transition d etat
p
s = h(x1 , . . . , xp ) = f 0 +
j =1
j xj .
tant La fonction de transition op` ere une transformation dune combinaison afne des signaux dentr ee, 0 e appel e le biais du neurone. Cette combinaison afne est d etermin ee par un vecteur de poids [0 , . . . , p ] ` chaque neurone et dont les valeurs sont estim associ ea ees dans la phase dapprentissage. Ils constituent la m emoire ou connaissance r epartie du r eseau. Les diff erents types de neurones se distinguent par la nature f de leur fonction de transition. Les principaux types sont : lin eaire f est la fonction identit e, sigmo de f (x) = 1/(1 + ex ), seuil f (x) = 1[0,+[ (x), stochastiques f (x) = 1 avec la probabilit e 1/(1 + ex/H ), 0 sinon (H intervient comme une temp erature dans un algorithme de recuit simul e), ... Les mod` eles lin eaires et sigmo daux sont bien adapt es aux algorithmes dapprentissage comme celui de r etropropagation du gradient car leur fonction de transition est diff erentiable. Ce sont les plus utilis es. Le ` seuil est sans doute plus conforme a ` la r mod` ele a ealit e biologique mais pose des probl` emes dapprentissage. Enn le mod` ele stochastique est utilis e pour des probl` emes doptimisation globale de fonctions perturb ees ou encore pour les analogies avec les syst` emes de particules. On ne le rencontre pas en data mining.
Perceptron multicouche
3. Perceptron multicouche
85
x1 E
x2 E . . . xj E . . . xp E
r v tr vt rr j|f r B v t d 0 v t d r v t d t rr t d tv r |f Ey d t j r E B|f v t 0 v . tv . . r t r v rt t v j r r B|f
l F IG . 8.2 Exemple de perceptron multicouche e ementaire avec une couche cach ee et une couche de sortie.
3.1
Architecture
Le perceptron multicouche (PMC) est un r eseau compos e de couches successives. Une couche est un ensemble de neurones nayant pas de connexion entre eux. Une couche dentr ee lit les signaux entrant, un neurone par entr ee xj , une couche en sortie fournit la r eponse du syst` eme. Selon les auteurs, la couche dentr ee qui nintroduit aucune modication nest pas comptablis ee. Une ou plusieurs couches cach ees ` chacun des neurones de participent au transfert. Un neurone dune couche cach ee est connect e en entr ee a ` chaque neurone de la couche suivante. la couche pr ec edente et en sortie a Un perceptron multicouche r ealise donc une transformation y = (x1 , . . . , xp ; ) ` me entr ` me neurone de la e ` me o` u est le vecteur contenant chacun des param` etres jk de la j e ee du k e couche ; la couche dentr ee ( = 0) nest pas param etr ee, elle ne fait que distribuer les entr ees sur tous les neurones de la couche suivante. ` travers les diff Par souci de coh erence, nous avons t ach e de conserver les m emes notations a erents chapitres. Ainsi, les entr ees dun r eseau sont encore not ees x1 , . . . , xp comme les variables explicatives dun ` estimer lors de la proc mod` ele tandis que les poids des entr ees sont des param` etres a edure dapprentissage ` expliquer ou cible du mod` et que la sortie est la variable a ele.
3.2
Apprentissage
p Supposons que lon dispose dune base dapprentissage de taille n dobservations (x1 i , . . . , xi ; yi ) des ` pr variables explicatives X 1 , . . . , X p et de la variable a evoir Y . Lapprentissage est lestimation des param` etres du mod` ele solutions du probl` eme des moindres carr es1 :
= arg min Q(b) avec Q(b) =

b
1 n
n p 2 [yi (x1 i , . . . , xi ; (b))] . i=1
Lalgorithme doptimisation le plus utilis e est celui de r etropropagation du gradient bas e sur lid ee suivante : en tout point b, le vecteur gradient de Q pointe dans la direction de lerreur croissante. Pour faire d ecro tre Q il suft donc de se d eplacer en sens contraire. Il sagit dun algorithme it eratif modiant les poids de chaque neurone selon : bjk (i) = bjk (i 1) + bjk (i)
1 Equivalent
` une maximisation de la vraisemblance dans le cas gaussien. a
86
` lerreur attribu ` lentr o` u la correction bjk (i) est proportionnelle au gradient et a ee a ee concern ee jk (i) et incorpore un terme dinertie bjk (i 1) permettant damortir les oscillations du syst` eme : bjk (i) = jk (i) Q + bjk (i 1). bjk
tre xe a ` d Le coefcient de proportionnalit e est appel e le taux dapprentissage. Il peut e eterminer par lutilisateur ou encore varier en cours dex ecution selon certaines r` egles param etr ees par lutilisateur. Il para t en effet intuitivement raisonnable que, grand au d ebut pour aller plus vite, ce taux d ecroisse pour ` un r ` mesure que le syst` aboutir a eglage plus n au fur et a eme sapproche dune solution. La formule de ` partir des erreurs observ r etropropagation de lerreur fournit, a ees sur les sorties, lexpression de lerreur ` chaque entr ` la couche dentr attribu ee a ee de la couche de sortie a ee. ` am La litt erature sur le sujet propose quantit es de recettes destin ees a eliorer la vitesse de convergence viter de rester coll ` une solution locale d de lalgorithme ou bien lui e ea efavorable. Des propri et es (dynamique markovienne ergodique et convergence vers la mesure stationnaire) de cet algorithme impliquent une convergence presque s ure ; la probabilit e datteindre une pr ecision x ee a priori tend vers 1 lorsque la taille de l echantillon dapprentissage tend vers linni. ` introduire une terme de p Une am elioration importante consiste a enalisation ou r egularisation comme ` optimiser. Celui-ci devient alors : en ridge dans le crit` ere a = arg min Q(b) + b 2 .
b
tre x Le param` etre (decay) doit e e par lutilisateur ; plus il est important et moins les param` etres ou poids ` limiter les risques de surapprentissage. peuvent prendre des valeurs cahotiques contribuant ainsi a Algorithm 5 R etropropagation du gradient Initialisation Les poids bjk par tirage al eatoire selon une loi uniforme sur [0, 1]. Normaliser dans [0, 1] les donn ees dapprentissage. Tant que Q > errmax ou niter<itermax Faire Ranger la base dapprentissage dans un nouvel ordre al eatoire. l Pour chaque e ement i = 1, . . . , n de la base Faire p Calculer (i) = yi (x1 ees vers lavant. i , . . . , xi ; (b)(i 1)) en propageant les entr ` chaque entr Lerreur est r etropropag ee dans les diff erentes couches an daffecter a ee une responsabilit e dans lerreur globale. ` jour de chaque poids bjk (i) = bjk (i i) + bjk (i) Mise a Fin Pour Fin Tant que
3.3
Utilisation
` labondante litt On pourra se reporter a erature sur le sujet (Haykin, 1994) pour obtenir des pr ecisions sur les algorithme dapprentissage et leurs nombreuses variantes. Il est important de rappeler la liste des ` lutilisateur. En effet, m choix qui sont laiss es a eme si les logiciels proposent des valeurs par d efaut, il est fr equent que cet algorithme connaisse quelques soucis de convergence. Lutilisateur doit donc d eterminer i. les variables dentr ee et la variable de sortie ; leur faire subir comme pour toutes m ethodes statistiques, d eventuelles transformations. ` ii. Larchitecture du r eseau : le nombre de couches cach ees (en g en eral une ou deux) qui correspond a ` traiter des probl` une aptitude a emes de non-lin earit e, le nombre de neurones par couche cach ee. Ces ` estimer. Ils participent a ` la deux choix conditionnent directement le nombre de param` etres (de poids) a ` l recherche dun bon compromis biais/variance cest-` a-dire a equilibre entre qualit e dapprentissage ` la louche, on consid` chantillon dapprentissage et qualit e de pr evision. A ere en pratique quil faut un e ` estimer. au moins dix fois plus grand que le nombre de param` etres a
4. Exemples
87
galement sur ce compromis : le nombre maximum dit iii. Trois autres param` etres interviennent e erations, ventuel de r lerreur maximum tol er ee et un terme e egularisation (decay). En renforc ant ces crit` eres on am eliore la qualit e de lapprentissage ce qui peut se faire au d etriment de celle de la pr evision. ventuelle strat iv. Le taux dapprentissage ainsi quune e egie d evolution de celui-ci. En pratique, tous ces param` etres ne sont pas r egl es simultan ement par lutilisateur. Celui-ci est confront e ` des choix concernant principalement le contr a ole du sur-apprentissage ; choix du param` etre : limiter le nombre de neurones ou la dur ee dapprentissage ou encore augmenter le coefcient de p enalisation de chantillon test, validation crois la norme des param` etres ; choix du mode destimation de lerreur : e ee ou bootstrap. Ces choix sont souvent pris par d efaut dans la plupart des logiciels commerciaux. Il est important den conna tre les implications. Le nombre de couches reste restreint. On montre en effet que toute fonction que toute fonction conti tre approch ` nue dun compact de IRP dans IRq peut e ee avec une pr ecision arbitraire par un r eseau a une couche cach ee en adaptant le nombre de neurones. Leccontr ole de la complexit e du mod` ele ou plus ` laide de plusieurs param` g en eralement dun sur-apprentissage peut se faire a etres : le nombre de neurones, une p enalisation de la norne du vecteur des poids ou param` etres comme en ridge (r egularisation) ou encore chantillon de validation par la dur ee de lapprentissage. Ces param` etres sont optimis es en consid erant un e ` arr et le plus simple consiste a et e lapprentissage lorsque lerreur sur l echantillon de validation commence ` se d ` d a egrader tandis que celle sur l echantillon dapprentissage ne peut que continuer a ecro tre. Les champs dapplication des PMC sont tr` es nombreux : discrimination, pr evision dune s erie temporelle, reconnaissance de forme. . . Ils sont en g en eral bien explicit es dans les documentations des logiciels sp ecialis es. nonc ` lencontre du PMC concernent les difcult ` lapprentisLes critiques principales e ees a es li es a sage (temps de calcul, taille de l echantillon, localit e de loptimum obtenu) ainsi que son statut de bo te ` un mod` noir. En effet, contrairement a ele de discrimination ou un arbre, il est a priori impossible de conna tre linuence effective dune entr ee (une variable) sur le syst` eme d` es quune couche cach ee inter` chacune des entr vient. N eanmoins, des techniques de recherche de sensibilit e du syst` eme a ees permettent ventuellement de simplier le syst` de pr eciser les id ees et, e eme en supprimant certaines des entr ees. En revanche, ils poss` edent dind eniables qualit es lorsque labsence de lin earit e et/ou le nombre de va` une riables explicatives rendent les mod` eles statistiques traditionnelles inutilisables. Leur exibilit e alli ee a proc edure dapprentissage int egrant la pond eration (le choix) des variables comme de leurs interactions peuvent les rendre tr` es efcaces (Besse et col. 2001).
Exemples
tant des bo Les r eseaux de neurones e tes noires, les r esultats fournis ne sont gu` ere explicites et ne ` des interpr tude des erreurs de conduisent donc pas a etations peu informatives du mod` ele. Seule une e tude des r pr evisions et, dans le cas dune r egression, une e esidus, permet de se faire une id ee de la qualit e du mod` ele.
4.1
Cancer du sein
` la matrice de confusion : La pr evision de l echantillon test par un r eseau de neurones conduit a benign malignant 83 1 3 50
FALSE TRUE
et donc une erreur estim ee de 3%.
4.2
La comparaison des r esidus (gure 8.3 montre que le probl` eme de non-lin earit e qui apparaissait sur les mod` eles simples (MOCAGE, r egression lin eaire) est bien r esolu et que ces r esidus sont plut ot moins tendus, mais le ph e enom` ene dh et erosc edasticit e est toujours pr esent quelque soit le nombre de neurones
88
Valeurs observees
250
Rsidus
150
50
100
200
300
100 50
50
50
100
50
100
200
300
Valeurs predites
Valeurs predites
F IG . 8.3 Ozone : Valeurs observ ees et r esidus de l echantillon test en fonction des valeurs pr edites par un r eseau de 10 neurones t ` un bon ajustement (R2 = 0, 77) mais utilis es. Il a e e choisi relativement important (10) et conduit donc a tre r devra e eduit pour optimiser la pr evision. Comme pour les arbres de d ecision, les r eseaux de neurones ne proposent pas de mod` eles tr` es efcaces ` partir du mod` sur cet exemple. Les taux derreur de pr evision du d epassement du seuil sont de 14,4% a ele quantitatif et de 15,6% avec une pr evision qualitative.
4.3
Carte visa
Une fonction de la librairie e1071, pratique mais tr` es consomatrice de calculs, propose une automatisation de loptimisation des param` etres (decay, nombre de neurones). plot(tune.nnet(CARVP .,data=visapptq,size=2 :4,decay=0 :2)) Elle produit une carte de type contour permettant d evaluer ` a lil les valeurs optimales. La pr evision de ` la matrice de confusion : l echantillon test par ce r eseau de neurones conduit a pred.vistest FALSE TRUE FALSE 110 16 TRUE 27 47 et donc une erreur estim ee de 21,5%.
Chapitre 9 Agr egation de mod` eles

1 Introduction
Ce chapitre d ecrit des algorithmes plus r ecemment apparus dans la litt erature. Ils sont bas es sur des strat egies adaptatives (boosting) ou al eatoires (bagging) permettant dam eliorer lajustement par une com vitant un sur-ajustement. Ces algorithmes binaison ou agr egation dun grand nombre de mod` eles tout en e ` la fronti` se sont d evelopp es a ere entre apprentissage machine (machine learning) et Statistique. De nombreux articles comparatifs montrent leur efcacit e sur des exemples de donn ees simul ees et surtout pour des probl` emes r eels complexes (voir par exemple Ghattas 2000) tandis que leurs propri et es th eoriques sont un th` eme de recherche actif. Deux types dalgorithmes sont d ecrits sch ematiquement dans ce chapitre. Ceux reposants sur une construction al eatoires dune famille de mod` ele : bagging pour bootstrap aggregating (Breiman 1996), les for ets al eatoires (random forests) de Breiman (2001) qui propose une am elioration du bagging sp ecique aux mod` eles d enis par des arbres binaires (CART). Ceux bas es sur le boosting (Freund et Shapiro,1996), reposent sur une construction adaptative, d eterministe ou al eatoire, dune famille de mod` eles. ` toute m Les principes du bagging ou du boosting sappliquent a ethode de mod elisation (r egression, CART, r eseaux de neurones) mais nont dint er et, et r eduisent sensiblement lerreur de pr evision, que dans le cas de mod` eles instables, donc plut ot non lin eaires. Ainsi, lutilisation de ces algorithmes na gu` ere de sens avec la r egression multilin eaire ou lanalyse discriminante. Ils sont surtout mis en uvre en association avec des arbres binaires comme mod` eles de base.
2 Famille de mod` eles al eatoires

2.1 Bagging
Principe et algorithme ` expliquer quantitative ou qualitative, X 1 , . . . , X p les variables explicatives et Soit Y une variable a (x) un mod` ele fonction de x = {x1 , . . . , xp } IRp . On note n le nombre dobservations et z = {(x1 , y1 ), . . . , (xn , yn )} chantillon de loi F . un e Lesp erance (.) = EF (z ) de lestimateur d enie sur l echantillon z, est un estimateur sans biais de variance nulle. Consid erons B e ependants not es {zb }b=1,B et construisons une agr egation chantillons ind ` expliquer Y est : des mod` eles dans le cas o` u la variable a B 1 quantitative : B (.) = B b=1 zb (.), qualitative : B (.) = arg maxj card b | zb (.) = j . ` Dans le premier cas, il sagit dune simple moyenne des r esultats obtenus pour les mod` eles associ es a chantillon, dans le deuxi` chaque e eme, un comit e de mod` eles est constitu e pour voter et e eponse lire la r 89
90
Chapitre 9. Agr egation de mod` eles
` chaque modalit la plus probable. Dans ce dernier cas, si le mod` ele retourne des probabilit es associ ees a e comme en r egression logistique ou avec les arbres de d ecision, il est aussi simple de calculer des moyennes de ces probabilit es. l Le principe est e ementaire, moyenner les pr evisions de plusieurs mod` eles ind ependants permet de r eduire la variance et donc de r eduire lerreur de pr evision. chantillons ind Cependant, il nest pas r ealiste de consid erer B e ependants. Cela n ecessiterait g en eralement chantillons sont donc remplac trop de donn ees. Ces e es par B r eplications d echantillons bootstrap (cf. An` lalgorithme nexe A) obtenus chacun par n tirages avec remise selon la mesure empirique F . Ceci conduit a ci-dessous. Algorithm 6 Bagging ` pr Soit x0 a evoir et chantillon z = {(x1 , y1 ), . . . , (xn , yn )} un e Pour b = 1 ` a B Faire chantillon bootstrap z Tirer un e b. Estimer zb (x0 ) sur l echantillon bootstrap. Fin Pour 1 Calculer lestimation moyenne B (x0 ) = B
B b=1
zb (x0 ) ou le r esultat du vote.
Utilisation Il est naturel et techniquement facile daccompagner ce calcul par une estimation bootstrap out-of-bag (cf. chapitre 5 section 5.1) de lerreur de pr evision. Elle est une mesure de la qualit e de g en eralisation du ventuelle tendance au sur-ajustement. Cest, pour e viter un biais, la mod` ele et permet de pr evenir une e tant estim moyenne des erreurs de pr evision commises par chaque estimateur ; chacune des erreurs e ee sur t les observations qui nont pas e e s electionn ees par l echantillon bootstrap correspondant. En pratique, CART est souvent utilis ee comme m ethode de base pour construire une famille de mod` eles cest-` a-dire darbres binaires. Trois strat egies d elagage sont alors possibles : chantillons, i. laisser construire et garder un arbre complet pour chacun des e ii. construire un arbre dau plus q feuilles, ` chaque fois larbre complet puis l iii. construire a elaguer par validation crois ee. La premi` ere strat egie semble en pratique un bon compromis entre volume des calculs et qualit e de pr evision. Chaque arbre est alors affect e dun faible biais et dune grande variance mais la moyenne des arbres r eduit avantageusement celle-ci. En revanche, l elagage par validation crois ee p enalise lourdement les calculs sans gain substantiel de qualit e. Cet algorithme a lavantage de la simplicit e, il sadapte et se programme facilement quelque soit la m ethode de mod elisation mise en uvre. Il pose n eanmoins quelques probl` emes : valuer un nombre sufsant darbres jusqu` temps de calcul important pour e a ce que lerreur de chantillon validation se stabilise et arr ` augmenter ; pr evisionout-of-bag ou sur un e et si elle tend a n ecessiter de stocker tous les mod` eles de la combinaison an de pouvoir utiliser cet outil de pr evisionsur dautres donn ees, lam elioration de la qualit e de pr evisionse fait au d etriment de linterpr etabilit e. Le mod` ele nalement obtenu devient une bo te noire comme dans le cas du perceptron.
2.2
For ets al eatoires
Algorithme Dans les cas sp ecique des mod` eles CART (arbres binaires), Breiman (2001) propose une am elioration du bagging par lajout dune randomisation. Lobjectif est donc de rendre plus ind ependants les arbres de lagr egation en ajoutant du hasard dans le choix des variables qui interviennent dans les mod` eles. Cette approche semble plus particuli` erement fructueuse dans des situations hautement multidimensionnelles, cest-
2. Famille de mod` eles al eatoires
91
` -dire lorsque le nombre de variables explicatives p est tr` a es important. Cest le cas lorsquil sagit, par exemple, de discriminer des courbes, spectres, signaux, biopuces. Algorithm 7 For ets al eatoires ` pr Soit x0 a evoir et chantillon z = {(x1 , y1 ), . . . , (xn , yn )} un e Pour b = 1 ` a B Faire chantillon bootstrap z Tirer un e b chantillon avec randomisation des variables : la recherche de chaque nud Estimer un arbre sur cet e optimal est pr ec ed e dun tirage al eatoire dun sous-ensemble de q pr edicteurs. Fin Pour B 1 Calculer lestimation moyenne B (x0 ) = B esultat du vote. b=1 zb (x0 ) ou le r
Elagage tre plus e l La strat egie d elagage peut, dans le cas des for ets al eatoires, e ementaire quavec le bagging ` des arbres de taille q relativement r en se limitant a eduite voire m eme triviale avec q = 2 (stump). En ` une seule fourche risquent d effet, avec le seul bagging, des arbres limit es a etre tr` es semblables (fortement corr el es) car impliquant les m emes quelques variables apparaissant comme les plus explicatives. ` chaque e tape de construction dun La s election al eatoire dun nombre r eduit de pr edicteurs potentiels a arbre, accro t signicativement la variabilit e en mettant en avant n ecessairement dautres variables. Chaque videmment moins performant mais, lunion faisant la force, lagr mod` ele de base est e egation conduit na` de bons r lement a esultats. Le nombre de variables tir ees al eatoirement nest pas un param` etre sensible un er e par Breiman (2001). Comme pour le bagging, l evaluation it erative choix par d efaut de q = p est sugg ventuel sur-ajustement si celle-ci vient a ` se d de lerreur out-of-bag pr evient dun e egrader. Interpr etation Comme pour tout mod` eles construit par agr egation ou bo te noire, il ny a pas dinterpr etation directe. N eanmoins des informations pertinentes sont obtenues par le calcul et la repr esentation graphique dindices ` limportance de chaque variable dans le mod` ` la proportionnels a ele agr eg e et donc de sa participation a ` la discrimination. Cest e videmment dautant plus utile que les variables sont tr` r egression ou a es nom valuer limportance de la j e ` me variable. breuses. Plusieurs crit` eres sont ainsi propos es pour e Le premier (Mean Decrease Accuracy repose sur une permutation al eatoire des valeurs de cette va` calculer la moyenne sur les observations out-of-bag de la d riable. Il consiste a ecroissance de leur marge lorsque la variable est al eatoirement perturb ee. La marge est ici la proportion de votes pour la vraie classe dune observation moins le maximum des proportions des votes pour les autres classes. Il sagit donc dune mesure globale mais indirecte de linuence dune variable sur la qualit e des pr evisions. Plus la pr evision est d egrad ee par la permutation des valeurs dune variable, plus celle-ci est importante. Le deuxi` eme (Mean Decrease Gini) est local, bas e sur la d ecroissance dentropie ou encore la ` partir du crit` d ecroissance de lh et erog en eit e d enie a ere de Gini. Limportance dune variable est alors une somme pond er ee des d ecroissances dh et erog en eit e induites lorquelle est utilis ee pour ` un nud. d enir la division associ ee a t ` la Le troisi` eme, qui na pas e e retenu par Breiman, est plus rudimentaire, il sint eresse simplement a fr equence de chacune des variables apparaissant dans les arbres de la for et. Selon Breiman les deux premiers sont tr` es proches, limportance dune variable d epend donc se sa fr equence dapparition mais aussi des places quelle occupe dans chaque arbre. Ces crit` eres sont pertinents pour une discrimination de deux classes ou, lorsquil y a plus de deux classes, si celles-ci sont relativement quilibr ` e ees. Dans le cas contraire, cest-` a-dire si une des classes est moins fr equente et plus difcile a discriminer, lexp erience montre que le troisi` eme crit` ere relativement simpliste pr esente un avantage : il ` la discrimination dune classe difcile donne une certaine importance aux variables qui sont n ecessaires a alors que celles-ci sont n eglig ees par les deux autres crit` eres.
92
3
3.1
Famille de mod` eles adaptatifs

Principes du Boosting
Le boosting diff` ere des approches pr ec edentes par ses origines et ses principes. Lid ee initiale, en ap tait dam prentissage machine, e eliorer les comp etences dun faible classieur cest-` a-dire celle dun mod` ele de discrimination dont la probabilit e de succ` es sur la pr evision dune variable qualitative est l eg` erement ` celle dun choix al t sup erieure a eatoire. Lid ee originale de Schapire (1990) a e e afn ee par Freund et Schapire (1996) qui ont d ecrit lalgorithme original AdaBoost (Adaptative boosting) pour la pr evision dune tudes ont ensuite e t ` dautres variable binaire. De nombreuses e e publi ees pour adapter cet algorithme a situations : k classes, r egression et rendre dompte de ses performances sur diff erents jeux de donn ees (cf. Schapire, 2002) pour une bibliographie). Ces tests ont montr e le r eel int er et pratique de ce type dalgorithme pour r eduire sensiblement la variance (comme le bagging) mais aussi le biais de pr evision comparative` dautres approches. Cet algorithme est m ment a eme consid er e comme la meilleure m ethode off-the-shelf cest-` a-dire ne n ecessitant pas un long pr etraitement des donn ees ni un r eglage n de param` etres lors de la proc edure dapprentissage. Le boosting adopte le m eme principe g en eral que le bagging : construction dune famille de mod` eles qui sont ensuite agr eg es par une moyenne pond er e des estimations ou un vote. Il diff` ere nettement sur la fac on de construire la famille qui est dans ce cas r ecurrente : chaque mod` ele est une version adaptative du pr ec edent en donnant plus de poids, lors de lestimation suivante, aux observations mal ajust ees ou mal ` pr edites. Intuitivement, cet algorithme concentre donc ses efforts sur les observations les plus difciles a ajuster tandis que lagr egation de lensemble des mod` eles permet d echapper au sur-ajustement. Les algorithmes de boosting propos es diff` erent par diff erentes caract eristiques : la fac on de pond erer cest-` a-dire de renforcer limportance des observations mal estim ees lors de lit eration pr ec edente, ` pr ` k classes, r leur objectif selon le type de la variable a edire Y : binaire, qualitative a eelles ; tre choisie plus ou moins robuste aux valeurs atypiques, pour mesurer la fonction perte, qui peut e lerreur dajustement ; la fac on dagr eger, ou plut ot pond erer, les mod` eles de base successifs. La litt erature sur le sujet pr esente donc de tr` es nombreuses versions de cet algorithme et il est encore difcile de dire lesquelles sont les plus efcaces et si une telle diversit e est bien n ecessaire. Il serait fastidieux de vouloir expliciter toutes les versions, ce chapitre en propose un choix arbitraire.
3.2
Algorithme de base
l ` deux D ecrivons la version originale du boosting pour un probl` eme de discrimination e ementaire a ` valeurs dans {1, 1}. Dans cette version, le mod` classes en notant la fonction de discrimination a ele de ` des base retourne lidentit e dune classe, il est encore nomm e Adaboost discret. Il est facile de ladapter a ` une classe. mod` eles retournant une valeur r eelle comme une probabilit e dappartenance a ` 1/n pour lestimation du premier mod` Les poids de chaque observations sont initialis es a ele puis voluent a ` chaque it e eration donc pour chaque nouvelle estimation. Limportance dune observation wi est inchang ee si elle est bien class ee, elle cro t sinon proportionnellement au d efaut dajustement du mod` ele. M Lagr egation nale des pr evisions : m=1 cm m (x0 ) est une combinaison pond er ee par les qualit es dajus` la conance que lon peut tement de chaque mod` ele. Sa valeur absolue appel ee marge est proportionnelle a ` son signe qui fournit le r attribuer a esultat de la pr evision. Ce type dalgorithme est largement utilis e avec un arbre (CART) comme mod` ele de base. De nom` deux feuilles (stump), breuses applications montrent que si le classieur faible est un arbre trivial a AdaBoost fait mieux quun arbre sophistiqu e pour un volume de calcul comparable : autant de feuilles dans larbre que dit erations dans AdaBoost. Hastie et col. (2001) discutent la meilleure strat egie d elagage ` chaque mod` applicable a ele de base. Ils le comparent avec le niveau dinteraction requis dans un mod` ele ` la seule prise en compte des effets principaux. Empidanalyse de variance. Le cas q = 2 correspondant a riquement ils recommandent une valeur comprise entre 4 et 8.
3. Famille de mod` eles adaptatifs Algorithm 8 AdaBoost (adaptative boosting) ` pr Soit x0 a evoir et chantillon z = {(x1 , y1 ), . . . , (xn , yn )} un e Initialiser les poids w = {wi = 1/n ; i = 1, . . . , n}. Pour m = 1 ` a M Faire Estimer m sur l echantillon pond er e par w. Calculer le taux derreur apparent : Ep =
n i=1
93
wi 1{m (xi ) = yi } . n i=1 wi
Calculer les logit : cm = log((1 Ep )/Ep ). Calculer les nouvelles pond erations : wi wi . exp [cm 1{m (xi ) = yi }] ; i = 1, . . . , n. Fin Pour M R esultat du vote : M (x0 ) = signe m=1 cm m (x0 ) .
3.3
Version al eatoire
` la suite de Freund et Schapire (1996), Breiman (1998) d A eveloppe aussi, sous le nom dArcing (adaptively resample and combine), une version al eatoire, et en pratique tr` es proche, du boosting. Elle sadapte ` des classieurs pour lesquels il est difcile voire impossible dint a egrer une pond eration des observations ` chaque it chantillon dans lestimation. Ainsi plut ot que de jouer sur les pond erations, a eration, un nouvel e ` la est tir e avec remise, comme pour le bootstrap, mais selon des probabilit es inversement proportionnelles a ` ajuster est ainsi renqualit e dajustement de lit eration pr ec edente. La pr esence des observations difciles a ` adapter forc ee pour que le mod` ele y consacre plus dattention. Lalgorithme adaboost pr ec edent est facile a en ce sens en regardant celui d evelopp e ci-dessous pour la r egression et qui adopte ce point de vue.
3.4
Pour la r egression
t Diff erentes adaptations du boosting ont e e propos ees pour le cas de la r egression, cest-` a-dire lorsque ` pr la variable a edire est quantitative. Voici lalgorithme de Drucker (1997) dans la pr esentation de Gey tudient les performances empiriques en relation avec CART. Freund et Schapire et Poggi (2002) qui en e (1996) ont propos e Adaboost.R avec le m eme objectif tandis que le point de vue de Friedman (2002) est d ecrit plus loin dans lalgorithme 10. Pr ecisions : tre exponentielle, quadratique ou, plus robuste, la Dans cet algorithme la fonction perte Q peut e valeur absolue. Le choix usuel de la fonction quadratique est retenu par Gey et Poggi (2002). Notons Lm = supi=1,...,n lm (i) le maximum de lerreur observ ee par le mod` ele m sur l echantillon initial. La fonction g est d enie par : g (lm (i)) avec m
1lm (i)/Lm = m
(9.1) (9.2)
Em Lm Em
` lalgorithme. Il est arr Selon les auteurs, une condition suppl ementaire est ajout ee a et e ou r einitialis e ` des poids uniformes si lerreur se d a egrade trop : si Em < 0.5Lm . chantillons bootstrap z Lalgorithme g en` ere M pr edicteurs construits sur des e epend m dont le tirage d ` jour a ` chaque it ` jour est fonction dun param` de probabilit es p mises a eration. Cette mise a etre m qui est un indicateur de la performance, sur l echantillon z, du mi` eme pr edicteur estim e sur l echantillon z m. ` jour des probabilit ` la fois de cet indicateur global m et de la qualit La mise a es d epend donc a e relative ` me individu. Lestimation nale est enn obtenue a ` la suite dune moyenne lm (i)/Lm de lestimation du ie ou m ediane des pr evisions pond er ees par la qualit e respective de chacune de ces pr evisions. Gey et Poggi (2002) conseille la m ediane an de saffranchir de linuence de pr edicteurs tr` es atypiques.
94
Algorithm 9 Boosting pour la r egression ` pr Soit x0 a evoir et chantillon z = {(x1 , y1 ), . . . , (xn , yn )} un e Initialiser p par la distribution uniforme p = {pi = 1/n ; i = 1, . . . , n}. ` M Faire Pour m = 1 a chantillon z Tirer avec remise dans z un e m suivant p. Estimer m sur l echantillon z . m ` partir de l Calculer a echantillon initial z : lm (i) Em wi = Q yi , m (xi )
n
i = 1, . . . , n;
(Q : fonction perte)
=
i=1
pi lm (i);
= g (lm (i))pi . (g continue non d ecroissante)
wi Calculer les nouvelles probabilit es : p i n . i=1 wi Fin Pour ). Calculer (x0 ) moyenne ou m ediane des pr evisions m (x0 ) pond er ees par des coefcients log( 1 m
3.5
` pas Mod` ele additif pas a
` dautres techniques de discrimination est difcile a ` Le bon comportement du boosting par rapport a t expliquer ou justier par des arguments th eoriques. Un premier pas important en ce sens a e e franchi par Breiman (1999) qui propose de consid erer le boosting comme un algorithme global doptimisation. Cette approche est reprise par Hastie et col. (2001) qui pr esentent le boosting dans le cas binaire sous la forme ` pas : dune approximation de la fonction par un mod` ele additif construit pas a
M
(x) =
m=1
cm (x; m )
est cette combinaison o` u cm est un param` etre, le classieur (faible) de base fonction de x et d ependant ` chaque e tape, de r dun param` etre m . Si Q est une fonction perte, il sagit, a esoudre :
n
(cm , m ) = arg min
(c, )
Q(yi , m1 (xi ) + c (xi ; ));

i=1
m (x) = m1 (x) + cm (x; m ) est alors une am elioration de lajustement pr ec edent. Dans le cas dadaboost pour lajustement dune fonction binaire, la fonction perte utilis ee est Q(y, (x)) = exp[y(x)]. il sagit donc de r esoudre :
n
(cm , m )
= arg min = arg min
(c, )
exp yi (m1 (xi ) + c (xi ; )) ;

i=1 n m wi exp [cyi (xi ; )] i=1
(c, )
avec
m wi
exp[yi m1 (xi )];
m wi ne d ependant ni de c ni de , il joue le r ole dun poids fonction de la qualit e de lajustement pr ec edent. Quelques d eveloppements compl ementaires montrent que la solution du probl` eme de minimisation est ob-
3. Famille de mod` eles adaptatifs tapes : recherche du classieur optimal puis optimisation du param` tenue en deux e etre cm .
n
95
m cm
= arg min
i=1
1{yi = (xi ; )},
1 1 Ep log 2 Ep
` jour avec : avec Ep erreur apparente de pr evision tandis que les wi sont mis a wi
(m)
= wi
(m1)
exp[cm ].
` pas par un mod` On montre ainsi quadaboost approche pas a ele additif en utilisant une fonction perte exponentielle tandis que daubres types de boosting sont d enis sur la base dune autre fonction perte : AdaBoost Q(y, (x)) = exp[y(x)], LogitBoost Q(y, (x)) = log2 (1 + exp[2y(x)], L2 Boost Q(y, (x)) = (y (x))2 /2. ` un Dautres fonctions pertes sont envisageables pour, en particulier, un algorithme plus robuste face a chantillon dapprentissage pr e esentant des erreurs de classement dans le cas de la discrimination ou encore des valeurs atypiques (outliers) dans le cas de la r egression. Hastie et col. (2001) comparent les int er ets respectifs de plusieurs fonctions pertes. Celles jug ees robustes (entropie en discrimination, valeur absolue ` des algorithmes plus compliqu ` mettre en uvre. en r egression) conduisent a es a
3.6
R egression et boosting
Dans le m eme esprit dapproximation adaptative, Friedman (2002) propose sous lacronyme MART (multiple additive regression trees) un algorithme bas e sur des arbres de r egression pour trait e le cas quantitatif en supposant la fonction perte seulement diff erentiable. Le principe de base est le m eme que pour tape, chaque mod` ` la comAdaboost, construire une s equence de mod` eles de sorte que chaque e ele ajout ea binaison, apparaisse comme un pas vers une meilleure solution. Ce pas est franchi dans la direction du gradient, approch e par un arbre de r egression, de la fonction perte. Algorithm 10 MART (Multiple additive regression trees) ` pr Soit x0 a evoir n Initialiser 0 = arg min i=1 Q(yi , ) Pour m = 1 ` a M Faire yi ,(xi )) , Calculer ri m = Q( (xi )
=m1
Ajuster un arbre de r egression aux rm i donnant les feuilles ou r egions terminales Rjm ; j = 1, . . . , Jm . Pour m = 1 ` a M Faire Calculer jm = arg min xi Rjm Q(yi , m1 + ). Fin Pour m ` jour : m (x) = m (x) J Mise a j =1 jm 1{x Rjm }. Fin Pour R esultat : M (x0 ).
` une feuille. Les exLalgorithme est initialis e par un terme constant cest-` a-dire encore un arbre a ` calculer les r ` l pressions du gradient reviennent simplement a esidus rmj du mod` ele a etape pr ec edente. Les termes correctifs jm sont ensuite optimis es pour chacune des r egions Rjm d enies par larbre de r egression ajustant les r esidus. Un algorithme de discrimination est similaire calculant autant de probabilit es que de ` pr classes a evoir.
96
3.7
Compl ements
t ` partir de lalgorithme initial. Elles font intervenir De nombreuses adaptations ont e e propos ees a ` une variable cible Y quantidiff erentes fonctions pertes offrant des propri et es de robustesse ou adapt ees a ` plusieurs classes : Adaboost M1, M2, MH ou encore MR. Schapire (2002) liste une tative ou qualitative a bibliographie d etaill ee. Sur-ajustement tre contr chantillon de validation. Dans le dernier algorithme, le nombre dit erations peut e ol e par un e Comme pour dautres m ethodes (perceptron), il suft darr eter la proc edure lorsque lerreur estim ee sur chantillon arrive a ` se d ` ajouter un coefcient de r cet e egrader. Une autre possibilit e consiste a etr ecissement (shrinkage comme en r egression ridge). Compris entre 0 et 1, celui-ci p enalise lajout dun nouveau mod` ele dans lagr egation. Il joue le r ole du coefcient decay du perceptron) et, si sa valeur est petite (< 0, 1) ` accro cela conduit a tre le nombre darbres mais entra ne des am eliorations de la qualit e de pr evision. Le boosting est un algorithme qui peut effectivement converger exactement, donc vers une situation de sur tre rendue sufsamment lente pour e tre facilement apprentissage. En pratique, cette convergence peut e contr ol ee. Interpr etation Linterpr etabilit e des arbres de d ecision sont une des raisons de leur succ` es. Leur lecture ne n ecessite pas videmment perdue par lagr de comp etences particuli` eres en statistique. Cette propri et e est e egation darbres ou de tout autre mod` ele. N eanmoins, surtout si le nombre de variables est tr` es grand, il est important davoir une indication de limportance relative des variables entrant dans la mod elisation. ` calculer comme dans le cas des for Des crit` eres dimportance des variables sont n eanmoins faciles a ets al eatoires. Instabilit e ` base darbres : une l Tous les auteurs ont remarqu e la grande instabilit e des mod` eles construits a eg` ere modication des donn ees est susceptible dengendrer de grandes modications dans les param` etres (les ` une seuils et feuilles) du mod` ele. Cest justement cette propri et e qui rend cette technique tr` es appropri ee a am elioration par agr egation. Breiman (1998), pour les arbres de classication, puis Gey et Poggi (2002), pour les arbres de r egression, d etaillent et quantient en pratique linuence de cette instabilit e ainsi que celle de lapport potentiel du boosting par rapport au bagging. Propri et es Les justications th eoriques des bons r esultats du boosting et principalement la r esistance au surajustement sont encore lobjet de travaux intenses suivant diff erentes pistes. La difcult e vient de ce que lapplication de ce type dalgorithme sur une m ethode donn ee, fait g en eralement mieux que lasymptotique (en faisant cro tre la taille de l echantillon) pour cette m eme m ethode. Les approches usuelles de la statistique asymptotique sont mises en d efaut et les bornes obtenues pour majorer les erreurs destimations ou de pr evision sont trop grossi` eres pour rendre compte de lefcacit e effective de la m ethode. On trouve ` d ainsi, empiriquement, que lerreur de pr evision ou de g en eralisation peut continuer a ecro tre longtemps apr` es que lerreur dajustement se soit annul ee. Parmi les pistes explor ees, une approche stochastique consid` ere que, m eme d eterministe, lalgorithme simule une dynamique markovienne (Blanchard, 2001). Une deuxi` eme, rappel ee ci-dessus, pr esente le boosting comme une proc edure doptimisation globale par une m ethode de gradient (Friedman, 2001). Dautres enn (par exemple Lugosi et Vayatis, 2001), plus probantes, utilisent des in egalit es de Vapnik pour montrer que, sous des hypoth` eses raisonnables et v eri ees dans les cas usuels : convexit e et r egularit e de la fonction perte (exponentielle), arbres binaires, la probabilit e derreur du boosting converge avec la taille n de l echantillon vers celle du classieur bay esien cest-` a-dire celui, optimal, obtenu en supposant connue la loi conjointe de X et Y .
4. Exemples
97
3.0
Err.app
2.0
Err.test
1.0
0.0
10
15
10
15
chantillons dapprentissage et de test en fonction F IG . 9.1 Cancer : Evolution des taux derreur (%) sur les e du nombre darbres dans le mod` ele avec adaboost.
Logiciels ` programmer dans R mais il existe une librairie (ipred) qui en propose Le bagging est tr` es facile a des impl ementations efcaces. Lalgorithme de boosting (Freund et Schapire, 1996), ou plut ot la version de t Friedman et col. (2000) a e e d evelopp ee et interfac ee avec R dans la librairie gbm tandis que Friedman fait commercialiser ses outils par la soci et e Salford System. Schapire diffuse lui le logiciel Boost texter sur sa page pour des utilisations non commerciales. crit en fortran interfac Les for ets al eatoires (Breiman, 2001), sont estim ees par un programme e e avec R et distribu ees avec la librairie randomForest de R. ` outils mathlab. Dautres impl ementations sont accessibles dans des bo tes a
4
4.1
Exemples
Cancer du sein
La pr evision de l echantillon test par ces algorithmes conduit aux matrices de confusion : bagging(ipred) benign malignant 83 3 3 48 adaboost(gbm) benign malignant 84 1 2 50 random forest benign malignant 83 0 3 51
benign malignant
chantillons (apprentiset, respectivement, des erreurs estim ees de 4,4 et 2,2% pour cet exemple et avec les e sage et test) tir es. Il est remarquable de noter l evolution des erreurs dajustement et de test sur cet exemple (gure 9.1) ` 0 tandis en fonction du nombre darbres estim es par adaboost. Lerreur dapprentissage arrive rapidement a ` d que celle de test continue a ecro tre avant datteindre un seuil. Cet algorithme est donc relativement ro ventuellement, de se d buste au sur-apprentissage avant, e egrader pour des raisons, sans doute, de pr ecision è t num erique. Ce comportement a e relev e dans beaucoup dexemples dans la litt erature.
98
Valeurs observees
250
Rsidus
150
50
50
100
200
300
100
50
50
100
50
100
150
200
250
300
Valeurs predites
Valeurs predites
F IG . 9.2 Ozone : Valeurs observ ees et r esidus de l echantillon test en fonction des valeurs pr edites par une for et al eatoire
4.2
Magr e une bonne pr evision quantitative, la pr evision du d epassement de seuil reste difcile pour lalgorithme des for ets al eatoires. Par une r egression ou une discrimination, le taux derreur obtenu est le m eme chantillon test et dautres exp (12,5%) sur le m eme e erimentations sont n ecessaires pour d epartager, ou non, ` travers plusieurs exemples, lam ` la pr les diff erentes m ethodes. Il semble que, a elioration apport ee a evision par des algorithmes dagr egation de mod` eles soit nettement plus probante dans des situations difciles cest-` a-dire avec beaucoup de variables explicatives et des probl` emes de multicolin earit e. Comme les r eseaux de neurones, les algorithmes dagr egation de mod` eles sont des bo tes noires. N eanmoins dans le cas des for ets, les crit` eres dimportance donnent des indications sur le r ole de celles-ci. Les voici ordonn ees par ordre croissant du crit` ere bas e sur celui de Gini pour la construction des arbres. jour station 2.54 13.58 lno 21.78 lno2 vmodule s_rmh2o 23.33 24.77 31.19 O3_pr 43.87 TEMPE 67.66
Les variables pr epond erantes sont celles apparues dans la construction dun seul arbre.
4.3
Carte visa
` la fois des variables explicatives qualitatives et quantitatives en optimisant Les arbres, qui acceptent a le d ecoupage des variables quantitatives, se pr etent bien au traitement des donn ees bancaires. on a vu quun seul arbre donnait des r esultats semble-t-il tr` es corrects. Naturellement les for ets constitu es darbres se galement performantes sur ces donn trouvent e ees en gagnant en stabilit e et sans trop se poser de probl` eme galement les r concernant loptimisation de param` etres. Les TPs d ecrivent e esultats propos es par les algorithmes de bagging et de boosting sur les arbres en faisant varier certains param` etres comme le shrinkage dans le cas du boosting. e des for ets au sur-apprentissage. Les taux Les graphiques de la gure 9.3 montrent bien linsensibilit chantillon test, se stabilisent au bout de derreurs estim es, tant par bootstrap (out-of-bag), que sur un e quelques centaines dit erations. Il est m eme possible dintroduire dans le mod` ele toutes les variables quantitatives et qualitatives, avec certaines dupliqu ees, en laissant lalgorithme faire son choix. Cet algorithme ` un taux derreur de 10,5% sur l conduit a echantillon test avec la matrice de confusion : Cnon Coui 126 11 10 53
Cnon Coui
tandis que les coefcients dimportance :
4. Exemples
99
0.24
0.20
Err.oob
0.16
Err.test
0.12
100
200
300
400
500
0.10 0
0.15
0.20
0.25
100
200
300
400
500
Index
Index
F IG . 9.3 Banque : Evolution du taux de mal class es estim es out-of-bag et sur l echantillon test en fonction du nombre darbres intervenant dans la combinaison de mod` eles. QSMOY FACANL 20.97 26.77 RELAT DMVTPL QCREDL MOYRVL 29.98 36.81 40.31 50.01
vidence les variables les plus discriminantes. De son c mettent en e ot e, le boosting (sans schrinkage) fournit ` fait comparables avec un taux derreur de 11%. des r esultats tout a
4.4
R egime des souris
Lexemple reprend les donn ees de Baccini et col. (2005) concernant les diff erences dexpression des g` enes en croisant deux facteurs lors dune exp erience de r egime alimentaire (5 r egimes) chez des souris (2 g enotypes). Ces donn ees sont aussi introduites dans Baccini et Besse (2000). Lobjectif des biologistes est de rechercher les g` enes dont le comportement est le plus perturb e par les diff erentes situations t de lexp erience : les g enotypes ou les r egimes. Il a e e vu, par une simple analyse en composantes principales, que la distinction entre g enotypes se visualise facilement ainsi que la caract erisation des g` enes qui y participent. La discrimination des r egimes est nettement plus difcile. Deux approches sont possibles pour ` cet objectif, la premi` ` ex r epondre a ere consiste a ecuter une batterie de tests pour chercher les g` enes signi` cause de leur cativement diff erentiellement exprim es en contr olant soigneusement le niveau des tests a multiplicit e et donc de lapparition factuelle de faux positifs. La deuxi` eme (wrapper method) recherche le ` la meilleure discrimination a ` laide dun classieur donn sous-ensemble de g` enes conduisant a e. Compte ` discriminer les r t tenu du nombre de g` enes dans l etude et de la difcult ea egimes, les for ets al eatoires ont e e privil egi ees. Lavantage important de cette approche est sa robustesse aux probl` eme de sur-apprentissage. Lindice dimportance est ensuite utilis e pour lister les g` enes ou les repr esenter selon ce crit` ere cest-` a-dire ` pour faire appara tre ceux qui, en moyenne sur lensemble des tirages bootstrap, contribuent le mieux a discriminer les modalit es du facteur r egime. l Dans le cas e ementaire de la discrimination des g enotypes des souris, les g` enes qui apparaissent les plus signicatifs sont, par ordre d ecroissant : PMDCI, CAR1, THIOL, L.FABP, ALDH3, CYP3A11, PECI, GK, CYP4A10, ACBP, FAS, CPT2, BSEP, mHMGCoAS, ACOTH. La pr evisiondes g enotypes est presque s ure avec une estimation (out of bag) de lerreur de pr evisionde 2En revanche, la discrimination des r egimes, t beaucoup plus d elicate, a e e trait ee conditionnellement au g enotype. Le r egime de r er erence est dans les ` reconna deux cas le plus difcile a tre. Le taux derreur obtenu est peu performant mais sans grande si` cause du nombre de classes concern gnication a ees. La gure 9.4 repr esente les g` enes en fonction de leur importance pour la discrimination des r egimes pour chacun des g enotypes. Cest pour les souris PPAR que la discrimination des r egimes est la plus difcile. Ce r esultat sinterpr` etent sur le plan biologique comme une implication du r ecepteur PPAR dans les r egulations g eniques provoqu ees par les r egimes alimentaires.
100
5 4 3
PPAR
TRb PPARa
Lpin1 Lpin GSTmu
2 1 0 1 2
Lpin2 THIOL CYP2c29 HPNCL BSEP PMDCI FDFT ALDH3 BIEN PDK4 apoC3 SHP1 GSTpi2 CPT2 NURR1 ACBP i.BAT FAS CYP3A11 GS apoE RARa Tpalpha UCP3 C16SR CACP LPK CYP27a1 eif2g COX2 ACOTH COX1 apoB UCP2 CYP4A14 MDR2 LDLr Waf1 TRa ADSS1 CYP4A10 MS LXRa PXR VLDLrG6Pase GK SPI1.1 PECI CYP7a Pex11a CYP26 SIAT4c ACC1 CYP2b13 cMOAT RXRg1 PPARg cHMGCoAS THB MDR1 PLTP CYP24 AM2R GSTa ACC2 RARb2 CIDEA MTHFR i.NOS PAL L.FABP CYP27b1 c.fos PON apoA.I ACAT1 LXRb i.BABP i.FABP Tpbeta MCAD RXRa IL.2 X36b4 MRP6 FXR CYP8b1 LPL FAT Lpin3 BACT hABC1 CAR1 HMGCoAred Bcl.3 CBS mHMGCoAS ADISP NGFiB Ntcp M.CPT1 ap2 CYP2b10 mABC1 VDR LCE S14 OCTN2 SR.BI AOX PPARd RXRb2 G6PDH 2 0 2 Wild 4 6 8
F IG . 9.4 Souris : repr esentation des g` enes en fonction de leur importance pour la discrimination des ` g r egimes a enotype x e (WT sur laxe horizontal et PPAR sur laxe vertical).
Chapitre 10 Les Support Vector Machines (SVM)

1 Introduction
` Vaste Marge (SVM) sont Les Support Vector Machines souvent traduit par lappellation de S eparateur a une classe dalgorithmes dapprentissage initialement d enis pour la discrimination cest-` a-dire la pr evision t ` la pr dune variable qualitative initialement binaire. Ils ont e e ensuite g en eralis es a evision dune variable quantitative. Dans le cas de la discrimination dune variable dichotomique, ils sont bas es sur la recherche de lhyperplan de marge optimale qui, lorsque cest possible, classe ou s epare correctement les donn ees tout tant le plus e loign en e e possible de toutes les observations. Le principe est donc de trouver un classieur, ou une fonction de discrimination, dont la capacit e de g en eralisation (qualit e de pr evision) est la plus grande possible. ` partir de Cette approche d ecoule directement des travaux de Vapnik en th eorie de lapprentissage a 1995. Elle sest focalis ee sur les propri et es de g en eralisation (ou pr evision) dun mod` ele en contr olant sa ` ce sujet le chapitre 5 section 3.3 concernant la dimension de Vapnik Chernovenkis qui complexit e. Voir a ` un mod` est un indicateur du pouvoir s eparateur dune famille de fonctions associ ea ele et qui en contr ole la ` lestimation le contr qualit e de pr evision. Le principe fondateur des SVM est justement dint egrer a ole de la complexit e cest-` a-dire le nombre de param` etres qui est associ e dans ce cas au nombre de vecteurs supports. ` lobjectif initial : la disLautre id ee directrice de Vapnik dans ce d eveloppement, est d eviter de substituer a ` r crimination, un ou des probl` emes qui sav` erent nalement plus complexes a esoudre comme par exemple lestimation non-param etrique de la densit e dune loi multidimensionnelle en analyse discriminante. ` celui, lin Le principe de base des SVM consiste de ramener le probl` eme de la discrimination a eaire, de la recherche dun hyperplan optimal. Deux id ees ou astuces permettent datteindre cet objectif : ` d La premi` ere consiste a enir lhyperplan comme solution dun probl` eme doptimisation sous contraintes dont la fonction objectif ne sexprime qu` a laide de produits scalaires entre vecteurs et dans lequel le nombre de contraintes actives ou vecteurs supports contr ole la complexit e du mod` ele. ` la recherche de surfaces s Le passage a eparatrices non lin eaires est obtenu par lintroduction dune fonction noyau (kernel) dans le produit scalaire induisant implicitement une transformation non lin eaire des donn ees vers un espace interm ediaire (feature space) de plus grande dimension. Do` u ` noyau ou kernel machine. Sur le plan th lappellation couramment rencontr ee de machine a eorique, la fonction noyau d enit un espace hilbertien, dit auto-reproduisant et isom etrique par la transformation non lin eaire de lespace initial et dans lequel est r esolu le probl` eme lin eaire. Cet outil devient largement utilis e dans de nombreux types dapplication et sav` ere un concurrent s erieux des algorithmes les plus performants (agr egation de mod` eles). Lintroduction de noyaux, sp eciquement ` une probl ` des situations tr` adapt es a ematique donn ee, lui conf` ere une grande exibilit e pour sadapter a es diverses (reconnaissance de formes, de s equences g enomiques, de caract` eres, d etection de spams, diagnos` noter que, sur le plan algorithmique, ces algorithmes sont plus p tics...). A enalis es par le nombre dobservations, cest-` a-dire le nombre de vecteurs supports potentiels, que par le nombre de variables. N eanmoins, des versions performantes des algorithmes permettent de prendre en compte des bases de donn ees volumineuses dans des temps de calcul acceptables.
101
102
Chapitre 10. Les Support Vector Machines (SVM)
F IG . 10.1 Sous-ajustement lin eaire et sur-ajustement local (proches voisins) dun mod` ele quadratique. Le livre de r ef erence sur ce sujet est celui de Sch olkopf et Smola (2002). De nombreuses introduction et pr esentations des SVM sont accessibles sur des sites comme par exemple : www.kernel-machines.org. Guermeur et Paugam-Moisy (1999) en proposent une en franc ais.
2
2.1
Principes
Probl` eme
` pr Comme dans toute situation dapprentissage, on consid` ere une variable Y a edire mais qui, pour l ` valeurs dans {1, 1}. Soit X = simplier cette introduction e ementaire, est suppos ee dichotomique a X 1 , . . . , X p les variables explicatives ou pr edictives et (x) un mod` ele pour Y , fonction de x = {x1 , . . . , xp } p ` valeurs dans un ensemble F . IR . Plus g en eralement on peut simplement consid erer la variable X a On note z = {(x1 , y1 ), . . . , (xn , yn )} chantillon statistique de taille n et de loi F inconnue. Lobjectif est donc de construire une estimation un e de , fonction de F dans {1, 1}, de sorte que la probabilit e: P ((X ) = Y ) soit minimale. Dans ce cas (Y dichotomique), le probl` eme se pose comme la recherche dune fronti` ere de d ecision tre trouv dans lespace F des valeurs de X . De fac on classique, un compromis doit e e entre la complexit e ` pulv de cette fronti` ere, qui peut sexprimer aussi comme sa capacit ea eriser un nuage de points par la VC dimension, donc la capacit e dajustement du mod` ele, et les qualit es de g en eralisation ou pr evision de ce mod` ele. Ce principe est illustr e par la gure 10.1.
2.2
Marge
` rechercher, plut ` valeurs dans {1, 1}, une fonction r La d emarche consiste a ot quune fonction a eelle f dont le signe fournira la pr evision : = signe(f ). Lerreur sexprime alors comme la quantit e: P ((X ) = Y ) = P (Y f (X ) 0). ` accorder au De plus, la valeur absolue de cette quantit e |Y f (X )| fournit une indication sur la conance a r esultat du classement. On dit que Y f (X ) est la marge de f en (X , Y ).
3. S eparateur lin eaire
103
F IG . 10.2 Recherche dun hyperplan de s eparation optimal au sens de la marge maximale.
2.3
Espace interm ediaire
tape consiste a ` transformer les valeurs de X , cest-` Une premi` ere e a-dire les objets de F par une fonction ` valeurs dans un espace H interm a ediaire (feature space) muni dun produit scalaire. Cette transformation est fondamentale dans le principe des SVM, elle prend en compte l eventuelle non lin earit e du probl` eme ` la r pos e et le ram` ene a esolution dune s eparation lin eaire. Ce point est d etaill e dans une section ult erieure. Traitons tout dabord le cas lin eaire cest-` a-dire le cas o` u est la fonction identit e.
3
3.1
S eparateur lin eaire

Hyperplan s eparateur
La r esolution dun probl` eme de s eparation lin eaire est illustr e par la gure 10.2. Dans le cas o` u la s eparation est possible, parmi tous les hyperplans solutions pour la s eparation des observations, on choisit celui qui se trouve le plus loin possible de tous les exemples, on dit encore, de marge maximale. ` laide du produit scalaire de H par son e quation : Dans le cas lin eaire, un hyperplan est d eni a w, x + b = 0 o` u w est un vecteur orthogonal au plan tandis que le signe de la fonction f (x) = w, x + b ` pr indique de quel c ot e se trouve le point x a edire. Plus pr ecis ement, un point est bien class e si et seulement si : yf (x) > 0 ` un coefcient multiplicatif pr` mais, comme le couple (w, b) qui caract erise le plan est d eni a es, on simpose : yf (x) 1. Un plan (w, b) est un s eparateur si : yi f (xi ) 1 i {1, . . . , n}. La distance dun point x au plan (w, b) est donn ee par : d(x) = |f (x)| | w, x + b| = w w
104
2 et, dans ces conditions, la marge du plan a pour valeur w eparateur de marge maximale 2 . Chercher le plan s ` r revient a esoudre le probl` eme ci-dessous doptimisation sous contraintes (probl` eme primal) : 2 minw 1 2 w
avec i, yi (< w, xi > +b) 1.
Le probl` eme dual est obtenu en introduisant des multiplicateurs de Lagrange. La solution est fournie par un point-selle (w , b , ) du lagrangien :
n
L(w, b, ) = 1/2 w
2 2
i=1
i [yi (< w, xi > +b) 1] .
Ce point-selle v erie en particulier les conditions :

i [yi (< w , xi > +b ) 1] = 0 i {1, . . . , n}.
Les vecteurs support sont les vecteurs xi pour lesquels la contrainte est active, cest-` a-dire les plus proches du plan, et v eriant donc : yi (< w , xi > +b ) = 1. Les conditions dannulation des d eriv ees partielles du lagrangien permettent d ecrire les relations que v erient le plan optimal, avec les i non nuls seulement pour les points supports :
n n
w =
i=1
i y i xi
et
i=1
i yi = 0 .
Ces contraintes d egalit e permettent dexprimer la formule duale du lagrangien :

n
W () =
i=1
1 i j y i y j < xi , xj > . 2 i,j =1
Pour trouver le point-selle, il suft alors de maximiser W () avec i 0 pour tout i {1, ...n}. La r esolution de ce probl` eme doptimisation quadratique de taille n, le nombre dobservations, fournit l equation de lhyperplan optimal : 1 0 i yi < x, xi > +b = 0 avec b = [< w , svclass+1 > + < w , svclass1 >] . 2 i=1 Pour une nouvelle observation x non apprise pr esent ee au mod` ele, il suft de regarder le signe de lexpression :
n n
f (x) =
i=1
i y i x, xi + b
pour savoir dans quel demi-espace cette forme se trouve, et donc quelle classe il faut lui attribuer.
3.2
Cas non s eparable
Lorsque les observations ne sont pas s eparables par un plan, il est n ecessaire dassouplir les contraintes par lintroduction de termes derreur i qui en contr olent le d epassement : yi w, xi + b +1 i i {1, . . . , n}.
` un vecteur xi si le i correspondant est sup ` 1. La Le mod` ele attribue ainsi une r eponse fausse a erieur a somme de tous les i repr esente donc une borne du nombre derreurs. crit en introduisant une p Le probl` eme de minimisation est r ee enalisation par le d epassement de la contrainte : 2 n 1 min 2 w + i=1 i i, yi w, xi + b +1 i
4. S eparateur non lin eaire Remarques
105
` r ` attribuer Le param` etre contr olant la p enalisation est a egler. Plus il est grand et plus cela revient a ` lajustement. Il est le param` une forte importance a etre qui ajuste le compromis entre bon ajustement et bonne g en eralisation. Le probl` eme dans le cas non s eparable se met sous la m eme forme duale que dans la cas s eparable ` une diff a erence pr` es : les coefcients i sont tous born es par la constante de contr ole de la p enalisation. De nombreux algorithmes sont propos es pour r esoudre ces probl` emes doptimisation quadratique. Certains, proposant une d ecomposition de lensemble dapprentissage, sont plus particuli` erement ` prendre en compte un nombre important de contraintes lorsque n, le nombre dobservation, adapt es a est grand. On montre par ailleurs que la recherche des hyperplans optimaux r epond bien au probl` eme de la tre construit a ` partir dun bonne g en eralisation. On montre aussi que, si lhyperplan optimal peut e ` la taille de la base dapprentissage, alors la capacit petit nombre de vecteurs supports, par rapport a e en g en eralisation du mod` ele sera grande, ind ependamment de la taille de lespace. Plus pr ecis ement, on montre que, si les X sont dans une boule de rayon R, lensemble des hyperplans de marge x ee a une VC-dimension born ee par R2 avec x R. 2 Lerreur par validation crois ee (leave-one-out) et born ee en moyenne par le nombre de vecteurs supports. Ces bornes derreur sont bien relativement pr edictives mais n eanmoins trop pessimistes pour tre utiles en pratique. e
4
4.1
S eparateur non lin eaire

Noyau
` la pr Revenons a esentation initiale du probl` eme. Les observations faites dans lensemble F (en g en eral tant transform IRp ) sont consid er ees comme e ees par une application non lin eaire de F dans H muni dun produit scalaire et de plus grande dimension. ` remarquer, cest que la formulation du probl` Le point important a eme de minimisation ainsi que celle de sa solution :
n
f (x) =
i=1
i yi x, xi + b
l ne fait intervenir les e ements x et x que par linterm ediaire de produits scalaires : x, x . En cons equence, ` condition de il nest pas n ecessaire dexpliciter la transformation , ce qui serait souvent impossible, a ` laide dune fonction k : F F IR sym savoir exprimer les produits scalaires dans H a etrique appel ee noyau de sorte que : k (x, x ) = (x), (x ) . Bien choisi, le noyau permet de mat erialiser une notion de proximit e adapt ee au probl` eme de discrimina` sa structure de donn tion et a ees. Exemple 2 Prenons le cas trivial o` u x = (x1 , x2 ) dans IR2 et (x) = (x2 1 , 2x1 x2 , x2 ) est explicite. Dans ce cas, H est de dimension 3 et le produit scalaire s ecrit : (x), (x )
2 2 2 = x2 1 x1 + 2x1 x2 x1 x2 + x2 x2 = (x1 x1 + x2 x2 )2
= x, x = k (x, x ). Le calcul du produit scalaire dans H ne n ecessite pas l evaluation explicite de . Dautre part, le plongement dans H = IR peut rendre possible la s eparation lin eaire de certaines structures de donn ees (cf. gure 10.3).
106
F IG . 10.3 R ole de lespace interm ediaire dans la s eparation des donn ees.
4.2
Condition de Mercer
Une fonction k (., .) sym etrique est un noyau si, pour tous les xi possibles, la matrice de terme g en eral k (xi , xj ) est une matrice d enie positive cest-` a-dire quelle d enit une matrice de produit scalaire. Dans ce cas, on montre quil existe un espace H et une fonction tels que : k (x, x ) = (x), (x ) . ` v Malheureusement, cette condition th eorique dexistence est difcile a erier et, de plus, elle ne donne aucune indication sur la construction de la fonction noyau ni sur la transformation . La pratique consiste ` combiner des noyaux simples pour en obtenir des plus complexes (multidimensionnels) associ ` la a es a situation rencontr ee.
4.3
Exemples de noyaux
Lin eaire k (x, x ) = x, x Polyn omial k (x, x ) = (c + x, x )d Gaussien k (x, x ) = e
xx 2 2 2
` la construction dun noyau plus ou moins exotique et adapt ` une Beaucoup darticles sont consacr es a ea probl ematique pos ee : reconnaissance de s equences, de caract` eres, lanalyse de textes... La grande exibilit e dans la d enition des noyaux, permettant de d enir une notion adapt ee de similitude, conf` ere beaucoup ` cette approche a ` condition bien sur de construire et tester le bon noyau. Do` defcacit ea u appara t encore valuer des erreurs de pr limportance de correctement e evision par exemple par validation crois ee. ` noyaux RBF gaussiens, pour lesquels, soit on est dans le cas s Attention, les SVM a eparable, soit la ` prendre nimporte quelle valeur, ont une VC-dimension innie. p enalit e attribu ee aux erreurs est autoris ee a
4.4
SVM pour la r egression
galement e tre mis en oeuvre en situation de r Les SVM peuvent e egression, cest-` a-dire pour lapproxi` rechercher une mation de fonctions quand Y est quantitative. Dans le cas non lin eaire, le principe consiste a estimation de la fonction par sa d ecomposition sur une base fonctionnelle. la forme g en erale des fonctions calcul ees par les SVM se met sous la forme :
(x, w) =
i=1
wi vi (x).
5. Exemples
107
Le probl` eme se pose toujours comme la minimisation dune fonction co ut, mais, plut ot que d etre bas ee sur un crit` ere derreur quadratique (moindres carr es), celle-ci sinspire des travaux de Huber sur la recherche carts absolus. de mod` eles robustes et utilise des e On note |.| la fonction qui est paire, continue, identiquement nulle sur lintervalle [0, ] et qui croit lin eairement sur [ , +]. La fonction co ut est alors d enie par : E (w, ) = 1 n
n
|yi (xi , w)| + w

i=1
o` u est, comme en r egression ridge, un param` etre de r egularisation assurant le compromis entre g en eralisation crire les solutions du probl` et ajustement. De m eme que pr ec edemment, on peut e emes doptimisation. Pour ` Sch ` un plus de d etails, se reporter a olkopf et Smola (2002). Les points de la base dapprentissage associ es a coefcient non nul sont l` a encore nomm es vecteurs support. ` la d Dans cette situation, les noyaux k utilis es sont ceux naturellement associ es a enition de bases de ` un d fonctions. Noyaux de splines ou encore noyau de D ericlet associ ea eveloppement en s erie de Fourier sont des grands classiques. Ils expriment les produits scalaires des fonctions de la base.
Exemples
` un probl` M eme si les SVM sappliquent a eme de r egression, nous nillustrons que le cas plus classique de la discrimination.
5.1
Cancer du sein
` Vaste marge conduit a ` la matrice de confusion : La pr evision de l echantillon test par un S eparateur a
ign malignant benign malignant
83 3
1 50
et donc une erreur estim ee de 3%.
5.2
l ` une erreur Un mod` ele e ementaire avec noyau par d efaut (gaussien) et une p enalisation de 2 conduit a ` 12,0% sur l de pr evision estim ee a echantillon test. La meilleure pr evision de d epassement de seuil sur l echantillon test initial est fournie par des SVM d-r egression. Le taux derreur est de 9,6% avec la matrice de confusion suivante : 0 FALSE 161 TRUE 7 1 13 27
` conrmer avec des estimations syt Ce r esultat serait a ematiques de lerreur. Les graphiques de la gure 10.4 montre le bon comportement de ce pr edicteur. Il souligne notamment leffet tunnel de lestimation qui loign accepte des erreurs autour de la diagonale pour se concentrer sur les observations plus e ees donc plus ` ajuster. difciles a
5.3
Carte Visa
Les donn ees bancaires posent un probl` eme car elles mixent variables quantitatives et qualitatives. Cellesci n ecessiteraient la construction de noyaux tr` es sp eciques. Leur traitement par SVM nest pas d etaill e ici.
108
300
250
Valeurs observees
200
Rsidus
150
100
50
50
100
150
200
250
300
100
50
50
100
50
100
150
200
250
300
Valeurs predites
Valeurs predites
F IG . 10.4 Ozone : Valeurs observ ees et r esidus en fonction des valeurs pr edites pour l echantillon test.
Chapitre 11 Conclusion
Ce chapitre se propose de r esumer les grandes lignes de ce cours dans une vue synth etique : m ethodes et strat egies dans lobjectif dune comparaison globale des m ethodes sur les diff erents jeux de donn ees voque enn les pi` (cancer, pollution, carte visa). Il e eges fr equents de telles d emarches et revient sur la place du statisticien.
Strat egies du data mining
Les chapitres pr ec edents d ecrivent les outils de base du prospecteur de donn ees tandis que les logiciels commerciaux en proposent une int egration plus ou moins compl` ete, plus ou moins conviviale de mise en uvre. En pratique, lencha nement de ces techniques permet la mise en place de strat egies de fouille bien d enies. Celles-ci d ependent essentiellement des types de variables consid er es et des objectifs poursuivis.
Types de variables
Explicatives Lensemble des p variables explicatives ou pr edictives est not e X , il est constitu e de variables XIR toutes quantitatives1 , XE toutes qualitatives, XIRE un m elange de qualitatives et quantitatives. ` expliquer La variable a ` expliquer ou a ` pr tre A edire ou cible (target) peut e Y quantitative, ` 2 modalit Z qualitative a es, T qualitative.
Objectifs
Trois objectifs principaux sont poursuivis dans les applications classiques de data mining : i. Exploration multidimensionnelle ou r eduction de dimension : production de graphes, dun sous` une autre ensemble de variables repr esentatives Xr , dun ensemble de composantes Cq pr ealables a technique. ii. Classication (clustering) ou segmentation : production dune variable qualitative Tr . iii. Mod elisation (Y ou Z )/Discrimination (Z ou T ) production dun mod` ele de pr evision de Y (resp. Z , T ). ` certaines probl Dautres m ethodes plus sp eciques a ematiques peuvent appara tre (analyse sensorielle, ana` des contextes bien particuliers. lyse conjointe, SARIMA. . . mais leur usage reste limit ea
Outils
Les m ethodes utilisables se classent en fonction de leur objectif et des types de variables pr edictives et cibles.
1 Une variables explicative qualitative a ` 2 modalit tre consid es (0,1) peut e er ee comme quantitative ; cest lindicatrice des modalit es.
109
110
Exploration ACP XIR et AFCM XE et AFD XIR et T Mod elisation i. Mod` ele lin eaire g en eralis e XIR et Y ANOVA XE et Y RLM ACOVA XIRE et Y Rlogi XIRE et Z Lglin XT et T ii. Analyse discriminante ADpar/nopar XIR et T iii. Classication and regression Tree ArbReg XIRE et Y Classication XIR et Nu eeDyn XIR et CAH RNKoho XIR et
Chapitre 11. Conclusion
ArbCla XIRE et T iv. R eseaux neuronaux percep XIRE et Y ou T v. Agr egation de mod` eles Bagging XIRE et Y ou T RandFor XIRE et Y ou T Boosting XIRE et Y ou T vi. Support Vector Machine SVM-R XIRE et Y SVM-C XIRE et T
Strat egies
` encha tapes suivantes : Les strat egies classiques de la fouille de donn ees consistent a ner les e ventuellement par sondage pour renforcer leffort sur la qualit i. Extraction de lentrep ot des donn ees e e des donn ees plut ot que sur la quantit e. ii. Exploration ` plat, e tape e l Tri a ementaire mais essentielle de v erication des donn ees, de leur coh erence. Etude ventuel des variables quantitatives, regroupement de des distributions, transformation, recodage e limination de certaines variables (trop de donn modalit es des variables qualitatives, e ees manquantes, quasi constantes, redondantes. . . ). G erer rigoureusement les codes des variables et de leurs modalit es. bivari ee Recherche d eventuelles relations non lin eaires. Si les variables sont trop nom Etude ` la variable cible. Compl breuses, s electionner les plus li ees a etion des donn ees manquantes. iii. Analyse
Classication : Pas de variable a ` expliquer En cas de variables XIRE ou XT , la classication est ex ecut ee sur les Cq issues dune AFCM des variables cod ees en classes. Caract erisation des classes par les variables ` laide des outils de discrimination. initiales a Mod elisation/Discrimination : Une variable a ` expliquer Y , Z ou T chantillon test, Extraction dun e Estimation, optimisation (validation crois ee) des mod` eles pour chacune des m ethodes utilisables. Comparaison des performances des mod` eles optimaux de chaque m ethode sur l echantillon test.
iv. Exploitation du mod` ele et diffusion des r esultats. Finalement, une fois que la bonne m ethode associ e t au bon mod` ele ont e e choisie, tout l echantillon est regroup e pour faire une derni` ere estimation du mod` ele qui sera utilis e en exploitation.
2
2.1
Comparaison des r esultats

Cancer du sein
crit en R a e t Le programme destimation des mod` eles e e automatis e an de r ep eter 50 fois lop eration ` extraire al chantillon test ; le reste consticonsistant a eatoirement 20% des observations pour constituer un e tuant l echantillon dapprentissage. Loptimisation des param` etres est r ealis ee par validation crois ee. Chaque
2. Comparaison des r esultats
111
0.06
0.08
0.10
0.12
0.14
0.04
0.02
0.00
err.lm
err.tree
err.neur
err.bag
err.rf
err.svm
chantillons tests et pour chaque F IG . 11.1 Cancer : Diagrammes bo tes des taux derreurs observ es sur 50 e m ethode : r egression logistique, arbre de d ecision, r eseau de neurones, bagging, random forest, svm. Le boosting est mis de c ot e pour des probl` emes d echelle et de comportement erratique. chantillons test pour TAB . 11.1 Banque : Moyennes des taux derreurs de classement calcul es sur 30 e chaque mod` ele de pr evision M ethode Moyenne Ecart-type Adaboost 9.7 2.0 Arbre 11.8 2.3 R egression 12.5 2.0 Perceptron 13.4 2.3 For et 10.6 2.2
chantillon test fournit donc une estimation sans biais de lerreur de pr e evision. La distribution de ces erreurs est alors repr esent ee par des diagrammes en bo tes (cf ; g. 11.1). Les r esultats montrent le bon comportement des for ets al eatoires et les tr` es bons r esultats du boosting en g en eral mais cet algorithme, sur cet exemple, peut r eserver des surprises mal contr ol ees et ici pas encore expliqu ees.
2.2
chantillons tests on e t Toujours avec le m eme protocole, 50 e e successivement tir es an destimer sans biais les erreurs de pr evision. Les r esultats sont pr esent es dans la gure 11.2. Les techniques dagr egation (random forest) sont performantes mais pas de fac on tr` es signicative. En fait, le probl` eme ne pr esentant que peu de variables explicatives, une simple r egression quadratique donne des r esultats tr` es satisfaisants et surtout facilement interpr etables ; ils sont en effet charg es dun sens physique pour le m et eorologue ` la base de MOCAGE. Il semble qui peut donc directement relever les faiblesses du mod` ele physique a bien que dans cet exemple, le nombre de variables explicatives nest pas tr` es important et le vrai mod` ele physique sous-jacent peu exotique. Dans ce cas, la r egression quadratique est la plus appropri ee. Remarque : ` dautres choix de m la pr evision des d epassements peut conduire a ethode ou de strat egie en pr evoyant directement le d epassement sans passer par la r egression de la concentration. Ce point est laiss e en attente car le nombre de d epassements observ es (plus de 180) dans les stations est relativement rare donc difciles ` pr a evoir. Ceci n ecessite plus de pr ecautions : repond eration des d epassements.
2.3
Carte visa
chantillons tests ont successivement e t Trente e e tir es an dobserver les distributions des taux de mauvais classement obtenus par diff erentes m ethodes : arbre de d ecision, r egression logistique, r eseaux de neurones, boosting et for et al eatoire. Les algorithmes dagr egation de mod` eles fournissent des r esultats qui, en moyenne, se montrent sensi-
0.0
0.1
0.2
0.3
0.4
0.5
112
BOITES A MOUSTACHES DES ERREURSTYPES DES PREVISIONS DOZONE
25
30
35
40
MOCAGE
ANCOVA
ANCOVA+INT
CART
BAGGING
FORET
SVM
NEURONE
chantillons tests et pour chaque F IG . 11.2 Ozone : Diagrammes bo tes des taux derreurs observ es sur 50 e m ethode : mocage, r egression lin eaire, quadratique, arbre de d ecision, bagging, random forest, svm r eseau de neurones.
17.5 15.0 t a u 12.5 x m c 10.0 7.5 5.0 Aboos Arbre Logit ResNe Methode Rfor
chantillons tests et pour chaque F IG . 11.3 Banque : Diagrammes bo tes des taux derreurs observ es sur 30 e m ethode.
3. Pi` eges
113
chantillon test. Les e carts-types, d blement plus performants (cf. gure 11.3 et tableau 11.1) sur un e ependant de la taille de l echantillon test, y sont relativement stables. Les moyennes montrent, sur cet exemple, que le boosting pr edit un peu mieux que les for ets al eatoires sans que des raisons bien sp eciques viennent ` un mod` lexpliquer. Bien s ur, ce qui est gagn e en pr edictibilit e est perdu en interpr etabilit e par rapport a ele tonnant et des indices dimportance des variables restent classique. N eanmoins le gain r ealis e est souvent e disponibles.
Pi` eges
tre rencontr tre le r Les principaux pi` eges qui peuvent e es au cours dune prospection peuvent e esultat ` un dun acharnement en qu ete de sens (data snooping). Cela signie qu` a force de creuser, contrairement a ` la recherche de diamants bien r prospecteur minier a eels, le prospecteur en donn ees disposant dun grand nombre de variables nit bien, en mode exploratoire, par trouver des relations semblant hautement signi` tord, signicatifs et conduisent a ` des faux catives. Par exemple, au seuil classique, 5% des tests sont, a positifs ou des fausses corr elations. Il suft donc den faire beaucoup, de croiser beaucoup de variables, pour n ecessairement trouver du sens dans des donn ees. Encore une fois, il est pr ef erable d eviter le fonceussir ; je me d ep` eche tionnement Shadock (cf. gure 11.4) : je nai quune chance sur un milliard de r donc de rater le plus dessais possibles. En phase de mod elisation, une sur-param etrisation ou un sur-ajustement du mod` ele peut parfaitement ` dautres expliquer des donn ees sans pour autant que les r esultats soient extrapolables ou g en eralisables a tudi donn ees que celles e ees. Les r esultats de pr evision seront donc entach es dune forte erreur relative li ee ` la variance des estimations des param` a etres. Cest toujours le probl` eme de trouver un bon compromis entre le biais dun mod` ele plus ou moins faux et la variance des estimateurs. Nous insistons donc sur les indispensables phases de choix de mod` eles et comparaison des m ethodes.
4
4.1
R ole du statisticien
Des comp etences multiples
Une bonne pratique du Data Mining n ecessite de savoir articuler toutes les m ethodes entrevues dans ce tre entreprise qu` document. Rude t ache, qui ne peut e a la condition davoir tr` es bien sp eci e les objectifs de l etude. On peut noter que certaines m ethodes poursuivent les m emes objectifs pr edictifs. Dans les bons cas, donn ees bien structur ees, elles fourniront des r esultats tr` es similaires, dans dautres une m ethode peut ` la se r ev eler plus efcace compte tenu de la taille de l echantillon ou g eom etriquement mieux adapt ee a ` discriminer ou encore en meilleure interaction avec les types des variables. Ainsi, il topologie des groupes a tre important et efcace de d peut e ecouper en classes des variables pr edictives quantitatives an dapprocher de fac on sommaire une version non-lin eaire du mod` ele par une combinaison de variables indicatrices. Cet aspect est par exemple important en r egression logistique ou avec un perceptron mais inutile avec des arbres de d ecisions qui int` egrent ce d ecoupage en classes dans la construction du mod` ele (seuils optimaux). Dautre part, les m ethodes ne pr esentent pas toutes les m emes facilit es dinterpr etation. Il ny a pas de meilleur choix a priori, seul lexp erience et un protocole de test soign e permettent de se d eterminer. Cest la raison pour laquelle des logiciels g en eralistes comme SAS (module Enterprise Miner) ne font pas de choix et offrent ces m ethodes en parall` ele pour mieux sadapter aux donn ees, aux habitudes de chaque ` la mode. utilisateur (client potentiel) et a
4.2
De lutilit e du statisticien
Le travail demand e d eborde souvent du r ole dun statisticien car la masse et la complexit e des donn ees peuvent n ecessiter le d eveloppement dinterfaces et doutils graphiques sophistiqu es permettant un acc` es ` des r ` laide par exemple dun simple navigateur ais es aux donn ees, comme a esultats, par lutilisateur nale a sur lintranet de lentreprise. N eanmoins, au del` a de ces aspects plus informatiques, lobjectif principal reste une qu ete de sens en vue de faciliter les prises de d ecision tout en en pr eservant la abilit e. Ainsi, la pr esence ou le contr ole dune expertise statistique reste incontournable car la m econnaissance des limites et ` des aberrations discr pi` eges des m ethodes employ ees peut conduire a editant la d emarche et rendant caducs les investissements consentis. En effet, il faut bien admettre, et faire admettre, que, m eme si un petit quart
114
` quelque chose ! F IG . 11.4 Shadoks : Tant qu` a pomper, autant que cela serve a dheure suft pour se familiariser avec une interface graphique conviviale, la bonne compr ehension des ` Bac+5. Il devient tellement simple, m ethodes employ ees n ecessite plusieurs heures de cours ou r eexion a ` comparer prospecteur de avec les outils disponibles, de lancer des calculs, que certains nh esitent pas a donn ees et chauffeur de voiture en arguant quil nest pas n ecessaire d etre un m ecanicien accompli pour savoir conduire. N eanmoins, la conduite dune mod elisation, dune segmentation, dune discrimination, ` son auteur des choix plus ou moins implicites qui sont loin d imposent a etre neutres et qui d epassent ` la pompe. largement en complexit e celui du choix dun carburant par le conducteur a
Bibliographie
[1] A. AGRESTI : Categorical data analysis. Wiley, 1990. [2] A. A NTONIADIS, J. B ERRUYER et R. C ARMONA : R egression non lin eaire et applications. Economica, 1992. [3] J.-M. A ZA I S et J.-M. BARDET : Le mod` ele lin eaire par lexemple : r egression, analyse de la variance et plans dexp ereinces illustr es avec R, SAS et Splus. Dunod, 2005. [4] A. BACCINI et P. B ESSE : tlse.fr/Besse/enseignement.html. Data mining : 1. exploration statistique, 2000. www.ups-
JEAN, P. M ARTIN, C. ROBERT-G RANI E et M. S AN C RISTOBAL : [5] A. BACCINI, P. B ESSE, S. D E Strat egies pour lanalyse statistique de donn ees transcriptomiques. Journal de la Soci et e Franc aise de Statistique, 146:444, 2005. [6] P.C. B ESSE, C. L E G ALL, N. R AIMBAULT et S. S ARPY : Statistique et data mining. Journal de la Soci et e Franc aise de Statistique, 142:536, 2001. [7] G. B LANCHARD : Generalization error bounds for aggregate classiers. In Proceedings of the MSRI international conference on nonparametric estimation and classication, page , 2001. [8] L. B REIMAN : Bagging predictors. Machine Learning, 26(2):123140, 1996. [9] L. B REIMAN : Arcing classiers. Annals of Statistics, 26:801849, 1998. [10] L. B REIMAN : Prediction games and arcing algorithms. Neural Computation, 11:14931517, 1999. [11] L. B REIMAN : Random forests. Machine Learning, 45:532, 2001. [12] L. B REIMAN, J. F RIEDMAN, R. O LSHEN et C. S TONE : Classication and regression trees. Wadsworth & Brooks, 1984. [13] P.-A. C ORNILLON et E. M ATZNER -L BER : R egression, Th eorie et applications. Springer, 2007. diteur : Pro[14] H. D RUCKER : Improving regressors using boosting techniques. In M. K AUFMANN, e ceedings of th 14th International Conference on Machine Learning, pages 107115, 1997. [15] B. E FRON : The Jackknife, the Bootstrap and other Resampling Methods. SIAM, 1982. [16] B. E FRON et R. T IBSHIRANI : Improvements on cross-validation : The .632+ bootstrap method. Journal of the American Statistical Association, 92(438):548560, 1997. [17] B. E FRON et R.J. T IBSHIRANI : An introduction to the bootstrap. Chapman and Hall, 1993. [18] Y. F REUND et R.E. S CHAPIRE : Experiments with a new boosting algorithm. In Machine Learning : proceedings of the Thirteenth International Conference, pages 148156. Morgan Kaufman, 1996. San Francisco. [19] Y. F REUND et R.E. S CHAPIRE : Experiments with a new boosting algorithm. Journal of Computer and System Sciences, 55:119139, 1997. [20] J. H. F RIEDMAN : Greedy function approximation : a gradient boosting machine. Annals of Statistics, 29:11891232., 2001. [21] J. H. F RIEDMAN : Stochastic gradient boosting. Computational Statisrics and Data Analysis, 38: , 2002. 115
116
BIBLIOGRAPHIE
[22] J. H. F RIEDMAN, H. H ASTIE et R. T IBSHIRANI : Additive logistic regression : a statistical view of boosting. The Annals of Statistics, 28:337407, 2000. [23] S. G EY et J.-M. P OGGI : Boosting and instabillity for regression trees. Rapport technique 36, Universit e de Paris Sud, Math ematiques, 2002. [24] B. G HATTAS : Agr egation darbres de classication. Revue de Statistique Appliqu ee, 48(2):8598, 2000. [25] Y. G UERMEUR et H. PAUGAM -M OISY : Th eorie de lapprentissage de vapnik et svm, support vector diteurs : Apprentissage automatique, pages 109138. machines. In M. S EBBAN et G. V ENTURINI, e Hermes, 1999. [26] T. H ASTIE, R. T IBSHIRANI et J F RIEDMAN : The elements of statistical learning : data mining, inference, and prediction. Springer, 2001. [27] T.J. H AYKIN : Neural network, a comprehensive foundation. Prentice-Hall, 1994. [28] J.D. J OBSON : Applied Multivariate Data Analysis, volume I : Regression and experimental design. Springer-Verlag, 1991. [29] G. L UGOSI et N. VAYATIS : On the bayes-risk consistency of boosting methods. Preprint, : , 2001. [30] P. M C C ULLAGH et J.A. N ELDER : Generalized Linear Models. Chapman & Hall, 1983. [31] J.R. Q UINLAN : C4.5 Programs for machine learning. Morgan Kaufmann, 1993. [32] B.D. R IPLEY : Pattern recognition and neural networks. Cambridge University Press, 1996. dition, 2006. [33] G. S APORTA : Probabilit es, Analyse des Donn ees et Statistique. Technip, deuxi` eme e dition, 1989. version 6. [34] SAS : SAS/STAT Users Guide, volume 2. Sas Institute Inc., fourth e dition, 1995. version 6. [35] SAS : SAS/INSIGHT Users Guide. Sas Institute Inc., third e [36] R. S CHAPIRE : The strength of weak learnability. Machine Learning, 5:197227, 1990. [37] R. S CHAPIRE : The boosting approach to machine learning. an overview. In MSRI workshop on non linear estimation and classication, page , 2002. [38] B S CH OLKOPF et A S MOLA : Learning with Kernels Support Vector Machines, Regularization, Optimization and Beyond. MIT Press, 2002. [39] SEM : SAS/ Enterprise Miner Users Guide. Sas Institute Inc., 2001. version 8. [40] M. T ENENHAUS : Statistique : m ethodes pour d ecrire, expliquer et pr evoir. Dunod, 2007. [41] S. T HIRIA, Y. L ECHEVALLIER, O. G ASCUEL et S. C ANU : Statistique et m ethodes neuronales. Dunod, 1997. RY : Data Mining et Statistique d [42] S. T UFF E ecisionnelle : lintelligence des donn ees. Technip, 2007. [43] V.N. VAPNIK : Statistical learning theory. Wiley Inter science, 1999.
Annexes
117
118
BIBLIOGRAPHIE
Chapitre A Introduction au bootstrap

1 Introduction
La motivation du bootstrap1 (Efron, 1982 ; Efron et Tibshirani, 1993) est dapprocher par simulation (Monte Carlo) la distribution dun estimateur lorsque lon ne conna t pas la loi de l echantillon ou, plus souvent lorsque lon ne peut pas supposer quelle est gaussienne. Lobjectif est de remplacer des hypoth` ess probabilistes pas toujours v eri ees ou m eme inv eriables par des simulations et donc beaucoup de calcul. chantillonnage est de substituer a ` la distribution de Le principe fondamental de cette technique de r ee probabilit e inconnue F , dont est issu l echantillon dapprentissage, la distribution empirique F qui donne ` chaque r chantillon de taille n dit e un poids 1/n a ealisation. Ainsi on obtient un e chantillon bootstrap selon la distribution empirique F par n tirages al eatoires avec remise parmi les n observations initiales. Il est facile de construire un grand nombre d echantillons bootstrap sur lesquels calculer lestimateur concern e. La loi simul ee de cet estimateur est une approximation asymptotiquement convergente sous des hypoth` eses raisonnables2 de la loi de lestimateur. Cette approximation fournit ainsi des estimations du biais, de la variance, donc dun risque quadratique, et m eme des intervalles de conance de lestimateur sans hypoth` ese (normalit e) sur la vraie loi.
1.1
Principe du plug-in
chantillon de taille n issue dune loi inconnue F sur (, A). On appelle loi Soit x = {x1 , . . . , xn } un e empirique F la loi discr` ete des singletons (x1 , . . . , xn ) affect es des poids 1/n :
n
F =
i=1
xi .
Soit A A, PF (A) est estim ee par : (P )F (A) = PF (A) =

i=1
xi (A) =
1 Cardxi A. n
crit De mani` ere plus g en erale, soit un param` etre dont on suppose que cest une fonction de la loi F . on e donc = t(F ). Par exemple, = E (F ) est un param` etre de F suivant ce mod` ele. Une statistique est une fonction (mesurable) de l echantillon. Avec le m eme exemple : =x= 1 n
n
xi
i=1
et x est la statistique qui estime . On dit que cest un estimateur plug-in et, plus g en eralement,
1 Cette appellation est inspir ee du baron de M unchhausen (Rudolph Erich Raspe) qui se sortit de sables mouvants par traction sur ` ce h ses tirants de bottes. En France bootstrap est parfois traduit par a ene 13) en r ef erence a eros qui pr evoyait ` la Cyrano (acte III, sc` datteindre la lune en se plac ant sur une plaque de fer et en it erant le jet dun aimant. 2 Echantillon ind ependant de m eme loi et estimateur ind ependant de lordre des observations.
119
120
Chapitre A. Introduction au bootstrap
FINITION A.1. On appelle estimateur plug-in dun param` DE etre de F , lestimateur obtenu en remplac ant la loi F par la loi empirique : = t(F ). comme dans le cas de lestimation de : = E (F ) = x.
1.2
Estimation de l ecart-type de la moyenne

Soit X une variable al eatoire r eelle de loi F . On pose : F = EF (X ),
2 et F = VarF (X ) = EF [(X F )2 ]; 2 X (F , F ).
Ce qui s ecrit :
1 Soit (X1 , . . . , Xn ) n variables al eatoires i.i.d. suivant aussi la loi F . Posons X = n 2 al eatoire a pour esp erance F et pour variance F /n. On dit aussi que la statistique 2 X (F , F /n). n i=1
Xi . Cette variable
` une Remarquons quen moyennant plusieurs valeurs ou observations, on r eduit la variance inh erente a observation. De plus, sous certaines conditions sur la loi F et comme r esultat du th eor` eme de la limite centrale, X converge en loi vers la loi normale. Lestimateur plug-in de F est d eni par : 2
2 = F = F = VarF (X ) 2
1 = EF [(X EF (X )) ] = n
2
(Xi X )2 .
i=1
Lestimateur plug-in de F est (l eg` erement) diff erent de celui du maximum de vraisemblance. Lestimateur ` tout param` plug-in est en g en eral biais e mais il a lavantage d etre simple et de pouvoir sappliquer a etre m eme lorsque lon ne peut pas calculer la vraisemblance du mod` ele.
cart-type Estimation bootstrap dun e
chantillon x donn Soit = s(x) un estimateur quelconque (M.V. ou autre) de pour un e e. On cherche ` appr ` estimer son e cart-type. a ecier la pr ecision de et donc a
2.1
Echantillon bootstrap
chantillon x = {x1 , . . . , xn }. Avec les m emes notation, F est la distribution empirique dun e
FINITION A.2. On appelle e chantillon bootstrap de x un e DE e chantillon de taille n not

x = {x 1 , . . . , xn }
suivant la loi F ; x est un r e- echantillon de x avec remise.
2.2
cart-type Estimation dun e
FINITION A.3. On appelle estimation bootstrap de l DE ecart-type F () de , son estimation plug-in : F ().
` part dans le cas tr` l Mais, a es e ementaire o` u, comme dans lexemple ci-dessus, est une moyenne, il ny a pas de formule explicite de cet estimateur. Une approximation de lestimateur bootstrap (ou plug-in) de l ecart-type de est obtenue par une simulation (Monte-Carlo) d ecrite dans lalgorithme ci-dessous. chantillon x donn Pour un param` etre et un e es, on note = s(x) lestimation obtenue sur cet chantillon. Une r e eplication bootstrap de est donn ee par : = s(x ). B est lapproximation bootstrap de lestimation plug-in recherch ee de l ecart-type de .
3. Compl ements Algorithm 11 Estimation bootstrap de l ecart-type chantillon et un param` Soit x un e etre. Pour b = 1 ` a B Faire b b chantillon bootstrap xb = {x S electionner 1 e 1 , . . . , xn }. par tirage avec remise dans x. b chantillon : (b) = s(x ). Estimer sur cet e Fin Pour Calculer l ecart-type de l echantillon ainsi construit :
2 B
121
1 B1 1 B
B
( (b) (.))2
b=1
avec (.)
( (b).
b=1
2.3
Estimation du biais
Avec les m emes notations : = t(F ) et = s(x),
le biais dun estimateur sexprime comme BF () = EF [s(x)] t(F ). Un estimateur est sans biais si E [] = . Le biais est aussi une mesure de la pr ecision dun estimateur et on taient biais a vu que, g en eralement, les estimateurs plug-in e es. FINITION A.4. On appelle estimateur bootstrap du biais, lestimateur plug-in : DE BF () = BF () = EF [s(x )] t(F ). ` une Comme pour l ecart-type, il nexiste g en eralement pas dexpression analytique et il faut avoir recours a approximation par simulation. Algorithm 12 Estimation bootstrap du biais chantillon et un param` Soit x un e etre. Pour b = 1 ` a B Faire b b chantillon bootstrap xb = {x S electionner 1 e 1 , . . . , xn }. par tirage avec remise dans x. chantillon la r Estimer sur cet e eplication bootstrap de : (b) = s(xb ). Fin Pour B 1 Approcher EF [s(x )] par (.) = B b=1 ( (b) Lapproximation bootstrap du biais est : BB () = (.) .
Compl ements
l En r esum e, on peut dire que le bootstrap repose sur une hypoth` ese tr` es e ementaire : se comporte par ` comme par rapport a ` . La connaissance de (distribution, variance, biais. . . ) renseigne alors rapport a sur celle de . ` rechercher dans la litt Beaucoup dautres compl ements sont a erature et en particulier dans Efron et Tibshirani (1993). Il est ainsi possible de d enir des intervalles de conance bootstrap en consid erant la ` partir des versions bootstrap de leur statistique. distribution et les quantiles de ou m eme encore des tests a
122
Chapitre A. Introduction au bootstrap
Le bootstrap rapidement d ecrit ici est dit non-param etrique car la loi empirique F est une estimation ` un param` galement une version non-param etrique de F . Dans le cas o` u F serait connue a etre pr` es, il existe e dite param etrique du bootstrap. Pour des estimateurs plus compliqu es (fonctionnels) comme dans le cas de la r egression non-param etrique ` parpar noyau ou spline, il est facile de construire graphiquement une enveloppe bootstrap de lestimateur a tir de r eplications de l echantillon. Celle-ci fournit g en eralement une bonne appr eciation de la qualit e de lestimateur obtenu. Attention, dans le cas de la r egression il est en principe plus justi e de r epliquer le tirage sur les r esidus plut ot que sur les observations. Ce sont les r esidus qui sont en effet suppos es i.i.d. ` lhypoth` et qui v erient donc les hypoth` eses n ecessaires mais cette approche devient tr` es sensible a ese sur chantillon bootstrap issu des donn la validit e du mod` ele. Il est nalement dusage de consid erer un e ees initiales (Efron et Tibshirani) : b b b b zb = {(x 1 , y1 ), . . . , (xn , yn )}; t cest ce qui a e e choisi dans ce document. Enn, lestimation bootstrap est justi ee par des propri et es asymptotiques (convergence en loi) lorsque le nombre de r eplications (B ) croit conjointement avec la taille de l echantillon (n).
Table des mati` eres

1 Introduction 1 2 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Motivations du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 2.2 3 3.1 3.2 3.3 4 4.1 4.2 5 5.1 5.2 5.3 5.4 5.5 6 2 Origine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Environnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Objectif g en eral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Probl ematiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Strat egies de choix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . tapes de lapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les e Banque, nance, assurance : Marketing . . . . . . . . . . . . . . . . . . . . . . . Environnement : pic dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sant e : aide au diagnostic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Biologie : s election de g` enes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemples industriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 3 4 4 4 4 6 8 8 8 9 9 9 10 10 10 12 13 13 13 14 14 14 15 15 15 16 16 16 17
Apprentissage statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Strat egie du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemples et jeux de donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
R egression lin eaire 1 2 3 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 3.2 3.3 3.4 4 4.1 4.2 4.3 4.4 Estimation par M.C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Propri et es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sommes des carr es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coefcient de d etermination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inf erence sur les coefcients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inf erence sur le mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inf erence sur un mod` ele r eduit . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pr evision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Inf erences dans le cas gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
124 4.5 5 5.1 5.2 5.3 5.4 6 6.1 6.2 7 7.1 7.2 7.3 8 8.1 8.2 8.3 8.4 9 9.1 9.2 3
` TABLE DES MATIERES Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Crit` eres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Algorithmes de s election . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Choix de mod` ele par r egularisation . . . . . . . . . . . . . . . . . . . . . . . . . Mod` eles polynomiaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inuence, r esidus, validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Choix de mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Autres exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 18 19 20 21 22 24 24 25 27 27 28 29 30 30 31 31 32 33 33 35 37 37 37 38 38 39 39 40 41 41 41 41 42 43 43 44 45 47 47 47
Choix de mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Compl ements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
` un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analyse de variance a
Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemple : Pr evision de la concentration dozone . . . . . . . . . . . . . . . . . . . . . . .
R egression logistique 1 2 3 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Odds et odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . R egression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 3.2 3.3 4 4.1 4.2 5 5.1 5.2 6 6.1 6.2 6.3 Type de donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mod` ele binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . R egressions logistiques polytomique et ordinale . . . . . . . . . . . . . . . . . . . ` pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Recherche pas a Crit` ere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . R egression logistique ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pic dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Carte visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Choix de mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
l Illustration e ementaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Autres exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mod` ele log-lin eaire 1 2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mod` ele log-lin eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
` TABLE DES MATIERES 2.1 2.2 2.3 2.4 3 4 3.1 4.1 5 Types de donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ` 2 variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mod` eles a ` trois variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mod` ele a ` pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Recherche pas a Mod` ele poissonien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
125 47 47 48 50 51 51 51 51 53 53 54 54 54 55 55 55 56 56 58 58 59 60 60 62 63 63 63 63 64 64 64 64 65 65 65 65 66 66 66 66 66
Choix de mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Qualit e de pr evision 1 2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erreur de pr evision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 2.2 2.3 3 3.1 3.2 3.3 4 4.1 4.2 5 5.1 5.2 D enition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . D ecomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cp de Mallows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . AIC, AICc , BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dimension de Vapnik-Chernovenkis . . . . . . . . . . . . . . . . . . . . . . . . . ` deux classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . Discrimination a Courbe ROC et AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation avec p enalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Le cas sp ecique de la discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation par simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Analyse Discriminante D ecisionnelle 1 2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . R` egle de d ecision issue de lAFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 2.2 3 3.1 3.2 3.3 3.4 3.5 4 4.1 4.2 4.3 5 5.1 Cas g en eral : m quelconque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cas particulier : m = 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . D enition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Co uts inconnus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . D etermination des a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . H et erosc edasticit e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Homosc edasticit e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Commentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
R` egle de d ecision bay esienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
R` egle bay esienne avec mod` ele normal . . . . . . . . . . . . . . . . . . . . . . . . . . . .
R` egle bay esienne avec estimation non param etrique . . . . . . . . . . . . . . . . . . . . .
126 5.2 5.3 6 6.1 6.2 6.3 7
` TABLE DES MATIERES M ethode du noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . k plus proches voisins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Concentration dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Carte visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 67 68 68 68 68 71 71 71 71 72 73 73 73 73 74 75 76 76 76 76 77 79 83 83 84 84 84 85 85 86 87 87 87 88 89 89 89 89 90
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Arbres binaires 1 2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Construction dun arbre binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 2.2 2.3 2.4 3 3.1 4 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Crit` ere de division . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . R` egle darr et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Affectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Y quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Crit` eres dhomog en eit e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Y qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Elagage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 4.2 Construction de la s equence darbres . . . . . . . . . . . . . . . . . . . . . . . . Recherche de larbre optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Concentration dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Carte Visa Premier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 5.2 5.3
M ethodes connexionistes 1 2 3 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . R eseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 3.1 3.2 3.3 4 4.1 4.2 4.3 Neurone formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Concentration dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Carte visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Perceptron multicouche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Agr egation de mod` eles 1 2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Famille de mod` eles al eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 2.2 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . For ets al eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
` TABLE DES MATIERES 3 Famille de mod` eles adaptatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 3.2 3.3 3.4 3.5 3.6 3.7 4 4.1 4.2 4.3 4.4 Principes du Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Algorithme de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Version al eatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pour la r egression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ` pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mod` ele additif pas a R egression et boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Compl ements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Concentration dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Carte visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . R egime des souris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
127 92 92 92 93 93 94 95 96 97 97 98 98 99 101
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10 Les Support Vector Machines (SVM) 1 2
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 2.1 2.2 2.3 Probl` eme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Marge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Espace interm ediaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Hyperplan s eparateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Cas non s eparable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 Condition de Mercer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Exemples de noyaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 SVM pour la r egression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Concentration dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Carte Visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 109
S eparateur lin eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 3.1 3.2
S eparateur non lin eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.1 4.2 4.3 4.4
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.1 5.2 5.3
11 Conclusion 1 2
Strat egies du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Comparaison des r esultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 2.1 2.2 2.3 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Concentration dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Carte visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3 4
Pi` eges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 R ole du statisticien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 4.1 4.2 Des comp etences multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 De lutilit e du statisticien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
128 A Introduction au bootstrap 1 1.1 1.2 2
` TABLE DES MATIERES 117
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Principe du plug-in . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Estimation de l ecart-type de la moyenne . . . . . . . . . . . . . . . . . . . . . . 118
cart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Estimation bootstrap dun e 2.1 Echantillon bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 2.2 2.3 cart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Estimation dun e Estimation du biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Compl ements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

Apprentissage Statistique Et Data Mining

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apprentissage Statistique Et Data Mining

Transféré par

Droits d'auteur :

Formats disponibles

Apprentissage Statistique & Data mining

Version Octobre 2006

2 Motivations du data mining

3. Apprentissage statistique Supervis e vs. non-supervis e

Strat egies de choix

Strat egie du data mining

tapes de lapprentissage Les e

5. Exemples et jeux de donn ees AIC).

Exemples et jeux de donn ees

Banque, nance, assurance : Marketing

Environnement : pic dozone

Sant e : aide au diagnostic

Biologie : s election de g` enes

5. Exemples et jeux de donn ees

Neural 6 PIO detector

://www.lsp.ups-tlse.fr ://tiger.technion.ac.il/ eladyt/classication/

Chapitre 2 R egression lin eaire

Estimation par M.C.

Sommes des carr es

et la somme des carr es de la r egression (regression sum of squares) par SSR = y y 1

On v erie alors : SST = SSR + SSE.

Inf erences dans le cas gaussien

Chapitre 2. R egression lin eaire

Inf erence sur les coefcients

` (n p 1) degr suit une loi de Student a es de libert e.

Inf erence sur le mod` ele

Variance MSR=SSR/p MSE=SSE/(n p 1)

Inf erence sur un mod` ele r eduit

Chapitre 2. R egression lin eaire

0.7889 (12) 0.6951 (13)

Standard Error (2) 0.13391661 0.19788455 0.29736579 0.07677092 0.03611612 0.04517414

Tolerance (5) . 0.03734409 0.02187972 0.45778579 0.10629382 0.21200778

Variance Inflation (6) 0.00000000 26.77799793 45.70441500 2.18442778 9.40788501 4.71680805

(1) (2) (3) (4) (5) (6)

Choix de mod` ele

5. Choix de mod` ele

n1 SSE/(n p 1) (1 R2 ) = 1 . np1 SST/(n 1)

20 Ce coefcient sexprime encore par 1 (n 1)MSE SST

Chapitre 2. R egression lin eaire

5. Choix de mod` ele

Chapitre 2. R egression lin eaire

Choix de mod` ele par r egularisation

5. Choix de mod` ele

Chapitre 2. R egression lin eaire

= arg max w X YY Xw Avec wk wk = 1 et tk tk = w X YY Xw = 0, pour = 1 . . . , k 1.

Inuence, r esidus, validation

Obs 1 2 3 4 5 ... Obs 1 2 3 4 5

Dep Var RETCAP (1) 0.2600 0.5700 0.0900 0.3200 0.1700

Predict Value (2) 0.2716 0.3690 0.00897 0.2335 0.1164

-2-1-0 1 2 (11) | | |******| |**** | |** | |* | ...

Dffits (15) -0.2242 2.4611 3.5134 0.3613 0.7280

Chapitre 2. R egression lin eaire

Sum of Residuals Sum of Squared Residuals Predicted Resid SS (Press)

7. Analyse de variance a ` un facteur

` un facteur Analyse de variance a

Chapitre 2. R egression lin eaire

1 2 [(n 1)s2 1 + + (nJ 1)sJ ] nJ

7. Analyse de variance a ` un facteur

Chapitre 2. R egression lin eaire

Variance MSB=SSB/(J 1) MSW=SSW/(n J )

8. Analyse de covariance mod` ele : y = X +

Choix de mod` ele

Chapitre 2. R egression lin eaire

-2-1-0 1 2 (11) | | |****| | | | | |* | ...