Vous êtes sur la page 1sur 128

Apprentissage Statistique

&
Data mining
P HILIPPE B ESSE

Version Juillet 2008

Institut de Mathematiques de Toulouse


Laboratoire de Statistique et Probabilites UMR CNRS C5583
Institut National des Sciences Appliquees de Toulouse 31077 Toulouse cedex 4.

Chapitre 1
Introduction
1

Objectif

Lobjet de ce cours est dintroduire, sous une forme homog`ene et synthetique, les techniques de modelisation
statistique et issues de la theorise de lapprentissage utilisees le plus couramment en fouille de donnees ou
data mining dans des champs dapplications tr`es divers : industriels, marketing, ou encore en relation avec
emiologie...
des thematiques de recherche en Biologie, Epid
La premi`ere partie ou premier objectif dune telle demarche : lexploration statistique et la recherche de
classes est developpee dans un autre document (Baccini et Besse 2000). Ce cours se focalise sur le deuxi`eme
objectif de la fouille de donnees qui est la recherche dinformations pertinentes (de pepites dinformation)
pour laide a` la decision et la prevision.
La section 2 suivante de ce chapitre introduit a` la fouille de donnees tandis que la section 3 reprend ces
objectifs dans le cadre general de la modelisation afin den e largir les champs dapplication. La section 4
decrit la strategie tr`es generalement mise en place pour optimiser choix de methodes et choix de mod`eles ;
la section 5 decrit bri`evement quelques exemples dapplication et notamment ceux utilises pour illustrer ce
cours. Enfin, la section 6 liste rapidement les methodes qui sont abordees et les raisons qui ont conduit a` ce
choix.

2
2.1

Motivations du data mining


Origine

Le developpement des moyens informatiques et de calcul permet le stockage (bases de donnees), le


traitement et lanalyse densembles de donnees tr`es volumineux. Plus recemment, le perfectionnement des
logiciels et de leurs interfaces offrent aux utilisateurs, statisticiens ou non, des possibilites de mise en uvre
tr`es simples de ces methodes. Cette e volution, ainsi que la popularisation de nouvelles techniques algorithmiques (reseaux de neurones, support vector machine...) et outils graphiques, conduit au developpement
et a` la commercialisation de logiciels (Enterprise miner, Clementine, Insightfull miner...) integrant un
sous-ensemble de methodes statistiques et algorithmiques utilisees sous la terminologie de Data Mining
generalement traduit par fouille de donnees (voir Tuffery 2007 pour un expose plus complet et detaille).
Cette approche, dont la presentation est principalement issue du marketing specialise dans la gestion de
la relation client (GRC) (client relation management ou CRM), trouve e galement des developpements et
applications industrielles en controle de qualite ou meme dans certaines disciplines scientifiques d`es lors
que les ingenieurs et chercheurs sont confrontes a` un volume de donnees important. Laccroche publicitaire
souvent citee par les e diteurs de logiciels (SAS) est :
Comment trouver un diamant dans un tas de charbon sans se salir les mains.
Nous proposons devaluer et dexperimenter la realite de cette annonce qui sadresse a` un marche en pleine
expansion. Les entreprises sont en effet tr`es motivees pour tirer parti et amortir, par une aide a` la decision
quantifiee, les couts de stockage des teras octets que leur service informatique semploie a` administrer.
3

2.2

Chapitre 1. Introduction

Environnement

Le contexte informationnel de la fouille de donnees est celui des data wharehouses. Un entrepot de
donnees, dont la mise en place est assure par un gestionnaire de donnees (data manager) est un ensemble
de bases relationnelles extraites des donnees brutes de lentreprise et relatives a` une problematique :
gestion des stocks (flux tendu), des ventes dun groupe afin de prevoir et anticiper au mieux les
tendances du marche,
suivi des fichiers clients dune banque, dune assurance, associes a` des donnees socio-economiques
(INSEE), a` lannuaire, en vue de la constitution dune segmentation (typologie) pour cibler des
operations de marketing ou des attributions de credit. La gestion de la relation client (GRC ou
CRM) vise a` une individualisation ou personnalisation de la production et de la communication afin
devacuer la notion de client moyen.
recherche, specification puis ciblage de niches de marche les plus profitables (banque) ou au contraire
les plus risquees (assurance) ;
suivi en ligne des param`etres de production (tracabilite) en controle de qualite pour detecter au plus
vite lorigine dune defaillance ;
prospection textuelle (text mining) et veille technologique ;
web mining et comportement des internautes ;
...
Cet environnement se caracterise par
une informatique heterog`ene faisant intervenir des sites distants (Unix, Dos, NT, VM. . . ) a` travers
le reseau de lentreprise (intranet) ou meme des acc`es exterieurs (internet). Des contraintes defficacite, de fiabilite ou de securite conduisent a` repartir, stocker linformation a` la source plutot qu`a la
dupliquer systematiquement ou a` la centraliser.
Lincompatibilite logique des informations observees sur des e chantillons differents ne presentant pas
les memes strates, les memes codifications.
Des volumes et flux considerables de donnees issues de saisies automatisees et chiffres en tera-octets.
Contrairement a` une demarche statistique traditionnelle (planification de lexperience), les donnees
analysees sont stockees a` dautres fins (comptabilite, controle de qualite...) et sont donc prealables a`
lanalyse.
La necessite de ne pas exclure a priori un traitement exhaustif des donnees afin de ne pas laisser e chapper, a` travers le crible dun sondage, des groupes de faibles effectifs mais a` fort impact
e conomique.

Apprentissage statistique

Un peu de recul permet dinscrire la demarche de la fouille de donnees dans un contexte plus large et
donc potentiellement plus propice a` dautres domaines dapplication.

3.1

Objectif general

D`es quun phenom`ene, quil soit physique, biologique ou autre, est trop complexe ou encore trop bruite
pour acceder a` une description analytique debouchant sur une modelisation deterministe, un ensemble dapproches ont e te e laborees afin den decrire au mieux le comportement a` partir dune serie dobservations.
Citons la reconnaissance de la parole ou de caract`eres manuscrits, limagerie medicale ou satellitaire, la
prevision dune grandeur climatique ou e conomique, du comportement dun client. . . la plupart des disciplines scientifiques sont concernees. Historiquement, la Statistique sest beaucoup developpee autour de ce
type de probl`emes et a propose des mod`eles incorporant dune part des variables explicatives ou predictives
et, dautre part, une composante aleatoire ou bruit. Il sagit alors destimer les param`etres du mod`ele a` partir des observations en controlant au mieux les proprietes et donc le comportement de de la partie aleatoire.
Dans la meme situation, la communaute informatique parle plutot dapprentissage visant le meme objectif.
Apprentissage machine (ou machine learning), reconnaissance de forme (pattern recognition) en sont les
principaux mots-clefs.

3.2

Problematiques

3. Apprentissage statistique

Supervise vs. non-supervise


Distinguons deux types de probl`emes : la presence ou non dune variable a` expliquer Y ou dune forme
a` reconnatre qui a e te, conjointement avec X, observee sur les memes objets. Dans le premier cas il sagit
bien dun probl`eme de modelisation ou apprentissage supervise : trouver une fonction susceptible, au
mieux selon un crit`ere a` definir, de reproduire Y ayant observe X.
Y = (X) +
o`u symbolise le bruit ou erreur de mesure avec le parti pris le plus commun que cette erreur est additive.
En cas derreur multiplicative, une transformation logarithmique ram`ene au probl`eme precedent.
Dans le cas contraire, en labsence dune variable a` expliquer, il sagit alors dapprentissage dit nonsupervise. Lobjectif generalement poursuivi est la recherche dune typologie ou taxinomie des observations : comment regrouper celles-ci en classes homog`enes mais les plus dissemblables entre elles. Cest un
probl`eme de classification (clustering).
Attention, langlais classification se traduit plutot en francais par discrimination ou classement (apprentissage supervise) tandis que la recherche de classes (clustering) (apprentissage non-supervise) fait appel
a` des methodes de classification ascendante hierarchique ou a` des algorithmes de reallocation dynamique
(k-means) ou de cartes auto-organisatrices (Kohonen). Ces methodes de classification ou clustering ne sont
pas abordees ici, elles ont e te regroupees avec les techniques exploratoires (Baccini et Besse 2000).
Modelisation vs. apprentissage
Tout au long de ce document, les termes de modelisation et dapprentissage sont utilisees comme
des synonymes ce qui est abusif tant que les objectifs dune e tude nont pas e te clairement explicites.
Dans la tradition statistique, la notion de mod`ele est centrale surtout avec une finalite explicative. Il sagit
alors dapprocher la realite, le vrai mod`ele, suppose exister, e ventuellement base sur une theorie physique,
e conomique... sous-jacente. Le choix du mod`ele (cf. ci-dessous) est alors guide par des crit`eres dajustement
et les decisions de validite, de presence deffets, basees sur des tests reposant eux-memes sur des hypoth`eses
probabilistes. Linterpretation du role de chaque variable explicative est preponderante dans la demarche.
En revanche, si lobjectif est essenti`elment predictif, il apparat que le meilleur mod`ele nest pas necessairement
celui qui ajusterait le mieux le vrai mod`ele. La theorie de lapprentissage (Vapnik, 1999) montre alors que
le cadre theorique est different et les majorations derreur requi`erent une autre approche. Les choix sont
bases sur des crit`eres de qualite de prevision visant a` la recherche de mod`eles parcimonieux, cest-`a-dire de
complexite (nombre de param`etres ou flexibilite limitee) dont linterpretabilite passe au deuxi`eme plan. La
deuxi`eme devise des Shadoks (voir figure devshad) nest pas une reference a` suivre en Statistique !
Discrimination vs. regression
Le type des variables statistiques considerees diff`erent selon lespace dans lequel elles prennent leurs
valeur. Elles peuvent e tre qualitatives a` valeurs dans un ensemble de cardinal fini ou quantitatives a` valeurs
reelles voire fonctionnelles (Besse et Cardot, 2003). Ce dernier cas est introduit en annexe par le chapitre
??. Certaines methodes dapprentissage ou de modelisation sadaptent a` tout type de variables explicatives
tandis que dautres sont specialisees. Enfin, si Y a` expliquer est qualitative, on parle de discrimination, classement ou reconnaissance de forme tandis que si Y est quantitative on parle, par habitude, dun probl`eme de
regression. Dans ce cas encore, certaines methodes sont specifiques (regression lineaire, analyse discriminante) tandis que dautres sadaptent sans modification profonde remettant en cause leur principe (reseaux
de neurones, arbres de decision. . . ).
Statistique, informatique et taille des donnees
Lorsque des hypoth`eses relatives au mod`ele (linearite) et aux distributions sont verifiees cest-`a-dire,
le plus souvent, lorsque lechantillon ou les residus sont supposes suivre des lois se mettant sous la forme
dune famille exponentielle (gaussienne, binomiale, poisson. . . ), les techniques statistiques de modelisation
tirees du mod`ele lineaire general sont optimales (maximum de vraisemblance) et, surtout dans le cas
dechantillons de taille restreinte, il semble difficile de faire beaucoup mieux.
En revanche, d`es que les hypoth`eses distributionnelles ne sont pas verifiees, d`es que les relations sup-

Chapitre 1. Introduction

F IG . 1.1 Shadok : devise numero 2


posees entre les variables ne sont pas lineaires ou encore d`es que le volume des donnees est important,
dautre methodes viennent concurrencer lapproche statistique classique.
Prenons un exemple simple : expliquer une variable quantitative Y par un ensemble {X 1 , . . . , X p } de
variables e galement quantitatives :
Y = (X 1 , . . . , X p ) + .
observees sur un e chantillon (yi , xi ); i = 1, . . . , n de taille n Si est supposee lineaire et p petit, de lordre
dune dizaine ; le probl`eme est bien connu et largement debattu dans la litterature. Dans le cas o`u nest
pas franchement lineaire et n grand, il est possible destimer precisement un nombre plus important de
param`etres et donc denvisager des mod`eles plus sophistiques. Si on sen tient au mod`ele gaussien usuel,
meme le cas le plus simple dun mod`ele polynomial devient vite problematique. En effet, lorsque est
lineaire, prenons p = 10, la procedure de choix de mod`ele est confrontee a` un ensemble de 210 mod`eles
possibles et des algorithmes astucieux permettent encore de sen sortir. En revanche, considerer pour
un simple polynome du deuxi`eme voire troisi`eme degre avec toutes ses interactions, am`ene a` considerer
un nombre considerable de param`etres et donc, par explosion combinatoire, un nombre astronomique de
mod`eles possibles. Dautres methodes doivent alors e tre considerees en prenant en compte necessairement
la complexite algorithmique des calculs. Ceci explique limplication dune autre discipline, linformatique,
dans cette problematique. Le souci de calculabilite lemporte sur la definition mathematique du probl`eme
qui se ram`ene a` loptimisation dun crit`ere dajustement de sur un ensemble de solutions plus ou moins
riche. Ces methodes ont souvent e te developpees dans un autre environnement disciplinaire : informatique,
intelligence artificielle. . . ; k plus proches voisins, reseaux de neurones, arbres de decisions, support vector
machine deviennent des alternatives credibles d`es lors que le nombre dobservations est suffisant ou le
nombre de variables tr`es important.

3.3

Strategies de choix

Choix de methode
Avec lav`enement du data mining, de tr`es nombreux articles comparent et opposent les techniques sur
des jeux de donnees publics et proposent des ameliorations incrementales de certains algorithmes. Apr`es
une periode fievreuse o`u chacun tentait dafficher la suprematie de sa methode, un consensus sest e tabli autour de lidee quil ny a pas de meilleure methode. Chacune est plus ou moins bien adaptee au probl`eme
pose, a` la nature des donnees ou encore aux proprietes de la fonction a` approcher ou estimer. Sur le plan
methodologique, il est alors important de savoir comparer des methodes afin de choisir la plus pertinente.
Cette comparaison repose sur une estimation derreur (de regression ou de classement) quil est necessaire

3. Apprentissage statistique

F IG . 1.2 Sous-ajustement lineaire et sur-ajustement local (proches voisins) dun mod`ele quadratique.

de conduire avec soin. Un chapitre (5) est consacre a` ce point.


Choix de mod`ele : e quilibre biais-variance
Tous les auteurs saccordent pour souligner limportance quil y a a` construire des mod`eles parcimonieux quelque soit la methode utilisee. Toutes les methodes sont concernees : nombre de variables explicatives, de feuilles dans un arbre ou de neurones dans une couche cachee. . . . Seuls les algorithmes de
combinaison de mod`eles (bagging, boosting) contournent cette e tape au prix dun accroissement sensible
du volume des calculs et surtout de linterpretabilite des resultats obtenus.
Lalternative est claire, plus un mod`ele est complexe et donc plus il int`egre de param`etres et plus il est
flexible donc capable de sajuster aux donnees engendrant ainsi une erreur faible dajustement. En revanche,
un tel mod`ele peut saverer defaillant lorsquil sagira de prevoir ou generaliser, cest-`a-dire de sappliquer
a` des donnees qui nont pas participe a` son estimation.
Lexemple e lementaire de la figure 10.1 illustre ce point fondamental dans le cas dun probl`eme de
discrimination dans IR2 . Une fronti`ere dolnt le mod`ele vrai est quadratique est, a` cause derreurs de
mesure sous-ajustee par une regression lineaire mais surajustee par un polynome de degre plus e leve ou
lalgorithme local des k plus proches voisins.
Ce probl`eme sillustre aussi facilement en regression classique. Ajouter des variables explicatives dans
un mod`ele ne peut que reduire lerreur dajustement (le R2 ) et reduit le biais si le vrai mod`ele est un
mod`ele plus complet. Mais, ajouter des variables fait redhibitoirement crotre la variance des estimateurs et
donc celle des previsions qui se degradent, voire explose, avec la multicolinearite des variables explicatives.
Un risque pour le mod`ele, ou erreur quadratique de prevision, sexprimant comme le carre du biais plus la
variance, il est important doptimiser le dosage entre biais et variance en controlant le nombre de variables
dans le mod`ele (sa complexite) afin de minimiser le risque. Ces remarques conduisent a` la definition de
crit`eres de choix de mod`ele dont le Cp de Mallows fut un precurseur en regression suivi par dautres
propositions : Akake (AIC), Schwartz (BIC). . .
Parfois plus que celui de la methode, le choix du bon mod`ele dans une classe ou ensemble de mod`eles
pour une methode donnee est primordial. En consequence, les probl`emes doptimisation consideres doivent
mettre en uvre un crit`ere qui prend en compte la complexite du mod`ele, cest-`a-dire la complexite de
lespace ou de la classe dans lequel la solution est recherchee.
Choix de mod`ele : selection vs. regularisation
Selon la methode consideree, la complexite du mod`ele sexprime de differentes facons. Simple lors
dune selection de variable en regression lineaire, la complexite est directement liee a` la dimension de
lespace engendre et donc au nombre de variables. Les choses se compliquent pour les mod`eles non-lineaires
lorsque, a` dimension fixee, cest la plus ou moins grande flexibilite des solutions qui doit e tre penalisee.

Chapitre 1. Introduction

Cest typiquement le cas en regression non-parametrique ou fonctionnelle. Une penalisation faisant intervenir la norme carree de la derivee seconde controle la flexibilite dun lissage spline. La largeur de
fenetre du noyau controle e galement la regularite de la solution. En regression lineaire, si le nombre et
les variables sont determines, la version ridge de la regression penalise la norme carree du vecteur des
param`etres et restreint ainsi, par regularisation, lespace des solutions pour limiter leffet de la multicolinearite.
Enfin, pour aborder en toute generalite les situations les plus compliquees, Vapnik (1999) a formalise
la theorie de lapprentissage en introduisant une notion particuli`ere de dimension pour toute famille de
mod`eles.

Strategie du data mining

4.1

Les donnees

Dans la majorite des probl`emes rencontres, des caracteristiques ou variables X = (X 1 , . . . , X p ) dites


explicatives ou predictives ont e te observees sur un ensemble de n objets, individus ou unites statistiques.
Un premier travail, souvent fastidieux mais incontournable, consiste a` mener une exploration statistique de
ces donnees : allure des distributions, presence de donnees atypiques, correlations et coherence, transformations e ventuelles des donnees, description multidimensionnelle, reduction de dimension, classification.
Cest lobjet dun cours distinct dexploration statistique (Baccini et Besse 2000). La deuxi`eme partie decrit
les outils de modelisation statistique ou encore dapprentissage utilisables pour la modelisation a` fin de
prevision dune variable cible Y par les variables explicatives X j .
Lenchanement, e ventuellement iteratif, de ces e tapes (exploration puis apprentissage) constitue le fondement de la fouille de donnees.
Pour comprendre la structure et bien apprehender le contenu de ce cours, il est important dintegrer
rapidement ce quest la strategie a` mettre en uvre pour aboutir au bon apprentissage ou encore au bon
mod`ele predictif recherche a` partir des donnees observees.
Attention, contrairement a` une demarche statistique traditionnelle dans laquelle lobservation des donnees
est integree a` la methodologie (planification de lexperience), les donnees sont ici prealables a` lanalyse.
Neanmoins il est clair que les preoccupations liees a` leur analyse et a` son objectif doivent intervenir le plus
en amont possible pour sassurer quelques chances de succ`es.

4.2

Les e tapes de lapprentissage

Les traitements senchanent de facon assez systematique selon le schema suivant et quelque soit le
domaine dapplication :
i. Extraction des donnees avec ou sans e chantillonnage faisant reference a` des techniques de sondage
appliquees ou applicables a` des bases de donnees.
ii. Exploration des donnees pour la detection de valeurs aberrantes ou seulement atypiques, dincoherences,
pour letude des distributions des structures de correlation, recherche de typologies, pour des transformations des donnees. . .
iii. Partition aleatoire de lechantillon (apprentissage, validation, test) en fonction de sa taille et des techniques qui seront utilisees pour estimer une erreur de prevision en vue des e tapes de choix de mod`ele,
puis de choix et certification de methode.
iv. Pour chacune des methodes considerees : mod`ele lineaire general (gaussien, binomial ou poissonien),
discrimination parametrique (lineaire ou quadratique) ou non parametrique, k plus proches voisins,
arbre, reseau de neurones (perceptron), support vecteur machine, combinaison de mod`eles (bagging,
boosting).
estimer le mod`ele pour une valeur donnee dun param`etre de complexite : nombre de variables, de
voisins, de feuilles, de neurones, duree de lapprentissage, largeur de fenetre. . . ;
optimiser ce param`etre (sauf pour les combinaisons de mod`eles affranchies des probl`emes de surapprentissage) en fonction de la technique destimation de lerreur retenue : e chantillon de validation, validation croisee, approximation par penalisation de lerreur dajustement (crit`eres Cp ,

5. Exemples et jeux de donnees

AIC).
v. Comparaison des mod`eles optimaux obtenus (un par methode) par estimation de lerreur de prevision
sur lechantillon test ou, si la presence dun e chantillon test est impossible, sur le crit`ere de penalisation
de lerreur (AIC dAkake par exemple) sil en existe une version pour chacune des methodes considerees.
vi. Iteration e ventuelle de la demarche precedente (validation croisee), si lechantillon test est trop reduit,
depuis (iii). Partitions aleatoires successives de lechantillon pour moyenner sur plusieurs cas lestimation finale de lerreur de prevision et sassurer de la robustesse du mod`ele obtenu.
vii. Choix de la methode retenue en fonction de ses capacites de prevision, de sa robustesse mais aussi,
e ventuellement, de linterpretabillite du mod`ele obtenu.
viii. Re-estimation du mod`ele avec la methode, le mod`eles et sa complexitee optimises a` letape precedente
sur lensemble des donnees.
ix. exploitation du mod`ele sue la base.

Exemples et jeux de donnees

En plus des exemples pedagogiques permettant dillustre simplement les differentes methodes e tudiees,
dautres exemples en vraie grandeur permettent den e valuer reellement la pertinence mais aussi toute la
complexite de mise en uvre. Dautres exemples sont encore plus concr`etement proposes en travaux diriges
avec leur traitement informatique.

5.1

Banque, finance, assurance : Marketing

Lobjectif est une communication personnalisee et adaptee au mieux a` chaque client. Lapplication la
plus courante est la recherche dun score estime sur un e chantillon de client`ele pour lapprentissage puis
extrapole a` lensemble en vu dun objectif commercial :
Appetence pour un nouveau produit financier : modelisation de la probabilite de posseder un bien
(contrat dassurance...) puis application a` lensemble de la base. Les clients, pour lesquels le mod`ele
predit la possession de ce bien alors que ce nest pas le cas, sont demarches (tele marketing, publipostage ou mailing, phoning,...) prioritairement.
Attrition ; meme chose pour e valuer les risques de depart (churn) des clients par exemple chez un
operateur de telephonie. Les clients pour lesquels le risque predit est le plus important recoivent des
incitations a` rester.
Risque pour lattribution dun credit bancaire ou louverture de certains contrats dassurance.
...
Lexemple traite reprend les donnees bancaires de Baccini et Besse 2000. Apr`es la phase exploratoire,
il sagit de construire un score dappetence de la carte Visa Premier dans lidee de fideliser les meilleurs
clients. La variable a` predire est binaire : possession ou non de cette carte en fonction des avoirs et comportements bancaires decrits par 32 variables sur un millier de clients.

5.2

Environnement : pic dozone

Lobjectif est de prevoir pour le lendemain les risques de depassement de seuils de concentration
dozone dans les agglomerations a` partir de donnees observees : concentrations en 03, NO3, NO2... du
jour, et dautres predites par Meteo-France : temperature, vent... Encore une fois, le mod`ele apprend sur les
depassements observes afin de predire ceux a` venir.
Il sagit dun probl`eme de regression : la variable a` predire est une concentration mais elle peut aussi e tre
consideree comme binaire : depassement ou non dun seuil. Il y a 8 variables explicatives dont une est dej`a
une prevision de concentration dozone mais obtenue par un mod`ele deterministe de mecanique des fluides
(equation de Navier et Stockes). Lapproche statistique vient ameliorer cette prevision en modelisant les
erreurs et en tenant compte dobservations de concentration doxyde et dioxyde dazote, de vapeur deau,
de la prevision de la temperature ainsi que de la force du vent.

10

5.3

Chapitre 1. Introduction

Sante : aide au diagnostic

Les outils statistiques sont largement utilises dans le domaine de la sante. Ils le sont systematiquement
lors des essais cliniques dans un cadre legislatif stricte mais aussi lors detudes e pidemiologiques pour la
recherche de facteurs de risques dans des grandes bases de donnees ou encore pour laide au diagnostic.
Lexemple e tudie illustre ce dernier point : il sagit de prevoir un diagnostic a` partir de tests biologiques et
dexamens e lementaires. Bien entendu, la variable a` predire, dont levaluation necessite souvent une analyse
tr`es couteuse voire une intervention chirurgicale, est connue sur lechantillon necessaire a` lestimation des
mod`eles.
Dans lexemple e tudie (breast cancer), il sagit de prevoir le type de la tumeur (benigne, maligne) lors
dun cancer du sein a` laide de 9 variables explicatives biologiques.

5.4

Biologie : selection de g`enes

Les techniques de microbiologie permettent de mesurer simultanement lexpression (la quantite dARN
messager produite) de milliers de g`enes dans des situations experimentales differentes, par exemple entre
des tissus sains et dautres cancereux. Lobjectif est donc de determiner quels g`enes sont les plus susceptibles de participer aux reseaux de regulation mis en cause dans la pathologie ou autre phenom`ene e tudie. Le
probl`eme senonce simplement mais rev`ele un redoutable niveau de complexite et pose de nouveaux defis
au statisticien. En effet, contrairement aux cas precedents pour lesquels des centaines voire des milliers
dindividus peuvent e tre observes et participer a` lapprentissage, dans le cas des biopuces, seuls quelques
dizaines de tissus son analyses a` cause essentiellement du prix et de la complexite dune telle experience.
Compte tenu du nombres de g`enes ou variables, le probl`eme de discrimination est sev`erement indetermine.
Dautes approches, dautres techniques sont necessaires pour pallier a` linsuffisance des methodes classiques de discrimination.
Lexemple reprend les donnees de Baccini et Besse (2000) concernant les differences dexpression des
g`enes en croisant deux facteurs lors dune experience de regime alimentaire (5 regimes) chez des souris
(2 genotypes). La suite de letude conduit donc a` rechercher les g`enes expliquant au mieux les distinctions
entre genotypes et aussi entre regimes.

5.5

Exemples industriels

Les exemples ci-dessous sont cites a` titre illustratif mais leur complexite, inherente a` beaucoup de
probl`emes industriels, ne permet pas de les detailler a` des fins pedagogiques.
Motorola : Detection de defaillance
Un procede de fabrication de microprocesseurs comporte des centaines detapes (photogravures, depots,
cuissons, polissages, lavages...) dont tous les param`etres, e quipement et mesures physiques (temperatures,
pressions...), sont enregistres dans une grande base de donnees permettant la tracabilite des produits manufactures. Le test e lectrique de chaque microprocesseur ne peut se faire quen fin de fabrication lorsque
ceux-ci sont acheves. Il est e videment important de pouvoir determiner, lors de lapparition dune baisse du
rendement et en utilisant les donnees de la base, lequipement ou la fourniture responsable de la defaillance
afin dy remedier le plus rapidement possible.
Airbus : Aide au pilotage
Les graphes de la figure 1.3 tracent les enregistrements des commandes et positions dun avion en vol.
Ceux-ci mettent en e vidence un phenom`ene de resonance entre lappareil et le comportement du pilote qui
est tr`es dangereux pour la securite. Lobjectif est de construire un mod`ele susceptible, en temps reel, de
detecter une telle situation afin dy remedier par exemple en durcissant les commandes de vol e lectriques.
Le probl`eme est tr`es specifique car les donnees, ou signaux, sont mesurees en temps reel et constituent des
discretisations de courbes.

5. Exemples et jeux de donnees

11

qm
10
0

10

12

8
6
4
2

10

12

14

10
0

Neural 6
PIO detector

10

12

10

12

0.5

F IG . 1.3 Airbus : Pompage pilote revele par lobservation des param`etres en temps reel. De (haut en bas) :
manche, assiette, gouverne comparer avec la prevision quen fait un reseau de neurones.

12

Chapitre 1. Introduction

Contenu

Il a fallu faire des choix dans lensemble des techniques proposees et leurs nombreux avatars. La forme
et le contenu sont guides par les besoins exprimes lors des stages realisees par les e tudiants du departement

Genie Mathematique de lINSA, du Master professionnel de Statistique & Econom


etrie ou encore par les
th`emes des collaborations industrielles et scientifiques du laboratoire de Statistique et Probabilites1 . Le lecteur peut se faire une idee du nombre tr`es important de methodes et variantes concernees par lapprentissage
supervisee ou non supervise en consultant une bote a` outil Mathlab de classification2 . Remarquons que les
principaux logiciels commerciaux (SAS, Splus, SPSS, Matlab. . . ) ou gratuits (R), performants et simposant
par des interfaces tr`es conviviales (Enterprise Miner, Insightfull Miner, Clementine), contribuent largement
a` la diffusion, voire la penetration, de methodes tr`es sophistiquees dans des milieux impermeables a` une
conceptualisation mathematique trop abstraite.
Chaque methode ou famille de methodes de modelisation et dapprentissage parmi les plus repandues,
est presentee de facon plus ou moins succincte dans un chapitre distinct avec un objectif predictif. La
regression lineaire classique en statistique prend une place particuli`ere a` titre pedagogique. Tr`es anterieure
aux autres, elle donne lieu a une bibliographie abondante. Conceptuellement plus simple, elle permet dintroduire plus facilement les problematiques rencontrees comme celle du choix dun mod`ele par ses deux
approches types : la selection de variable ou la regularisation (ridge). Pour une meilleure comprehension
des logiciels qui y font largement reference, une introduction (annexe) au mod`ele lineaire general fournit le cadre theorique necessaire a` lunification des regressions lineaire, loglineaire et logistique ; cette
derni`ere reste toujours tr`es utilisee en scoring. La presentation de lanalyse discriminante decisionnelle,
parametrique ou non parametrique, les k plus proches voisins, permet dintroduire e galement des notions
de theorie bayesienne de la decision. Un chapitre incontournable est consacre aux techniques destimation
dune erreur de prevision sur lesquelles reposent les choix operationnels decisifs : de mod`ele, de methode
mais aussi levaluation de la precision des resultats escomptes. Les chapitres suivants sont consacrees aux
techniques algorithmiques : arbres binaires de decision (classification and regression trees ou CART) et
a` celles plus directement issues de la theorie de lapprentissage machine (machine learning) : reseau de
neurones et perceptron, agregation de mod`eles (boosting, random forest), support vector machine (SVM).
Enfin un chapitre conclusif propose une comparaison systematique des methodes sur les differents jeux
de donnees. Des annexes apportent des complements theoriques ou methodologiques : modelisation de
donnees fonctionnelles, introduction au mod`ele lineaire general, bootstrap.
Le choix a e te fait de conserver et expliciter, dans la mesure du possible, les concepts originaux de
chaque methode dans son cadre disciplinaire tout en tachant dhomogeneiser notations et terminologies.
Lobjectif principal est de faciliter la comprehension et linterpretation des techniques des principaux logiciels pour en faciliter une utilisation pertinente et reflechie. Ce cours ne peut e tre dissocie de seances de
travaux diriges sur ordinateur a` laide de logiciels (SAS, R...) pour traiter des donnees en vraie grandeur
dans toute leur complexite.

1 http
2 http

://www.lsp.ups-tlse.fr
://tiger.technion.ac.il/ eladyt/classification/

Chapitre 2
Regression lineaire
1

Introduction

Ce chapitre ne propose quune introduction au mod`ele gaussien, a` sa definition et a` son estimation


en privilegiant lobjectif de prevision. Il sattarde donc sur le probl`eme delicat du choix de mod`ele afin,
principalement, den introduire et den illustrer les grands principes dans le cas relativement simple dun
mod`ele lineaire. Une section introduit le mod`ele danalyse de covariance mais de nombreux aspects :
colinearite, points influents, tests, analyse de variance, mod`ele multinomial ou poissonien (mod`ele loglineaire). . . sont negliges et a` rechercher dans la bibliographie de meme quune presentation globale du
mod`ele lineaire general incluant toutes ces approches et seulement resumee en annexe. Les statistiques
des tests e lementaires sont explicitees afin de faciliter la lectures et linterpretation des resultats issus des
logiciels.
Le but premier de ce chapitre est donc lexplication ou plutot, la modelisation dans un but predictif,
dune variable quantitative par plusieurs variables quantitatives (regression lineaire multiple) ou par un
melange de variables quantitatives et qualitatives (analyse de covariance). Dans ce cadre, la question majeure est la recherche dun mod`ele parcimonieux assurant un bon e quilibre entre la qualite de lajustement
et la variance des param`etres afin de minimiser lerreur de prevision. Ceci necessite le reglage fin de la
complexite du mod`ele a` savoir le nombre de variables.

Mod`ele

Le mod`ele de regression lineaire multiple est loutil statistique le plus habituellement mis en uvre pour
letude de donnees multidimensionnelles. Cas particulier de mod`ele lineaire, il constitue la generalisation
naturelle de la regression simple.
Une variable quantitative Y dite a` expliquer (ou encore, reponse, exog`ene, dependante) est mise en
relation avec p variables quantitatives X 1 , . . . , X p dites explicatives (ou encore de controle, endog`enes,
independantes, regresseurs).
Les donnees sont supposees provenir de lobservation dun e chantillon statistique de taille n (n > p+1)
de IR(p+1) :
(x1i , . . . , xji , . . . , xpi , yi ) i = 1, . . . , n.
Lecriture du mod`ele lineaire dans cette situation conduit a` supposer que lesperance de Y appartient
au sous-espace de IRn engendre par {1, X 1 , . . . , X p } o`u 1 designe le vecteur de IRn constitue de 1 .
Cest-`a-dire que les (p + 1) variables aleatoires verifient :
yi = 0 + 1 x1i + 2 x2i + + p xpi + i i = 1, 2, . . . , n
avec les hypoth`eses suivantes :
i. Les i sont des termes derreur independants et identiquement distribues ; E(i ) = 0, V ar() = 2 I.
13

14

Chapitre 2. Regression lineaire


ii. Les termes xj sont supposes deterministes (facteurs controles) ou bien lerreur est independante de
la distribution conjointe de X 1 , . . . , X p . On e crit dans ce dernier cas que :
E(Y |X 1 , . . . , X p ) = 0 + 1 X 1 + 2 X 2 + + p X p et V ar(Y |X 1 , . . . , X p ) = 2 .

iii. Les param`etres inconnus 0 , . . . , p sont supposes constants.


iv. En option, pour letude specifique des lois des estimateurs, une quatri`eme hypoth`ese consid`ere la
normalite de la variable derreur (N (0, 2 I)). Les i sont alors i.i.d. de loi N (0, 2 ).
Les donnees sont rangees dans une matrice X(n (p + 1)) de terme general xji , dont la premi`ere
colonne contient le vecteur 1 (xi0 = 1), et dans un vecteur Y de terme general yi . En notant les vecteurs
= [1 p ]0 et = [0 1 p ]0 , le mod`ele secrit matriciellement :
y = X + .

Estimation

Conditionnellement a` la connaissance des valeurs des X j , les param`etres inconnus du mod`ele : le vecteur et 2 (param`etre de nuisance), sont estimes par minimisation des carres des e carts (M.C.) ou encore,
en supposant (iv), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alors les memes expressions, lhypoth`ese de normalite et lutilisation de la vraisemblance conferant a` ces derniers des proprietes
complementaires.

3.1

Estimation par M.C.


Lexpression a` minimiser sur IRp+1 secrit :
n
X
(yi 0 1 x1i 2 x2i p xpi )2

= ky Xk

i=1

(y X)0 (y X)

= y0 y 2 0 X0 y + 0 X0 X.
Par derivation matricielle de la derni`ere e quation on obtient les equations normales :
X0 y X0 X = 0
dont la solution correspond bien a` un minimum car la matrice hessienne 2X0 X est semi definie-positive.
Nous faisons lhypoth`ese supplementaire que la matrice X0 X est inversible, cest-`a-dire que la matrice
X est de rang (p + 1) et donc quil nexiste pas de colinearite entre ses colonnes. En pratique, si cette
hypoth`ese nest pas verifiee, il suffit de supprimer des colonnes de X et donc des variables du mod`ele. Des
diagnostics de colinearite et des crit`eres aident au choix des variables.
Alors, lestimation des param`etres j est donnee par :
b = (X0 X)1 X0 y
et les valeurs ajustees (ou estimees, predites) de y ont pour expression :
1

b = Xb = X(X0 X)
y

X0 y = Hy

1
o`u H = X(X0 X) X0 est appelee hat matrix ; elle met un chapeau a` y. Geometriquement, cest la
matrice de projection orthogonale dans IRn sur le sous-espace Vect(X) engendre par les vecteurs colonnes
de X.

On note
b = y Xb = (I H)y
e=yy
le vecteur des residus ; cest la projection de y sur le sous-espace orthogonal de Vect(X) dans IRn .

4. Inferences dans le cas gaussien

3.2

15

Proprietes

Les estimateurs des M.C. b0 , b1 , . . . , bp sont des estimateurs sans biais : E(b) = , et, parmi les estimateurs sans biais fonctions lineaires des yi , ils sont de variance minimum (theor`eme de Gauss-Markov) ;
ils sont donc BLUE : best linear unbiaised estimators. Sous hypoth`ese de normalite, les estimateurs du
M.V. sont uniformement meilleurs (efficaces) et concident avec ceux des M.C.
On montre que la matrice de covariance des estimateurs se met sous la forme
E[(b )(b )0 ] = 2 (X0 X)1 ,
celle des predicteurs est
E[(b
y X)(b
y X)0 ] = 2 H
et celle des estimateurs des residus est
E[(e u)((e u))0 ] = 2 (I H)
tandis quun estimateur sans biais de 2 est fourni par :
2

s2 =

ky Xk
kek
SSE
=
=
.
np1
np1
np1

Ainsi, les termes s2 hii sont des estimations des variances des predicteurs ybi .

3.3

Sommes des carres


SSE est la somme des carres des residus (sum of squared errors),
2

b k = kek .
SSE = ky y
On definit e galement la somme totale des carres (total sum of squares) par
2

SST = ky y1k = y0 y n
y2
et la somme des carres de la regression (regression sum of squares) par
2

b0 y
b n
SSR = kb
y y1k = y
y 2 = y0 Hy n
y 2 = b0 X0 y n
y2 .
On verifie alors : SST = SSR + SSE.

3.4

Coefficient de determination
On appelle coefficient de determination le rapport

SSR
SST
qui est donc la part de variation de Y expliquee par le mod`ele de regression. Geometriquement, cest un
rapport de carres de longueur de deux vecteurs. Cest donc le cosinus carre de langle entre ces vecteurs : y
b sur Vect(X).
et sa projection y
R2 =

Attention, dans le cas extreme o`u n = (p + 1), cest-`a-dire si le nombre de variables explicatives est
grand comparativement au nombre dobservations, R2 = 1. Ou encore, il est geometriquement facile de
voir que lajout de variables explicatives ne peut que faire crotre le coefficient de determination.
La quantite R est appelee coefficient de correlation multiple entre Y et les variables explicatives, cest
b.
le coefficient de correlation usuel entre y et sa prevision (ou projection) y

Inferences dans le cas gaussien

En principe, lhypoth`ese optionnelle (iv) de normalite des erreurs est necessaire pour cette section. En
pratique, des resultats asymptotiques, donc valides pour de grands e chantillons, ainsi que des e tudes de
simulation, montrent que cette hypoth`ese nest pas celle dont la violation est la plus penalisante pour la
fiabilite des mod`eles.

16

4.1

Chapitre 2. Regression lineaire

Inference sur les coefficients


Pour chaque coefficient j on montre que la statistique
bj j
bj

o`u b2j , variance de bj est le j e` me terme diagonal de la matrice s2 (X0 X)1 , suit une loi de Student a`
(n p 1) degres de liberte. Cette statistique est donc utilisee pour tester une hypoth`ese H0 : j = a ou
pour construire un intervalle de confiance de niveau 100(1 )% :
bj t/2;(np1) bj .
Attention, cette statistique concerne un coefficient et ne permet pas dinferer conjointement (cf. 3.4)
sur dautres coefficients car ils sont correles entre eux ; de plus elle depend des absences ou presences des
autres variables X k dans le mod`ele. Par exemple, dans le cas particulier de deux variables X 1 et X 2 tr`es
correlees, chaque variable, en labsence de lautre, peut apparatre avec un coefficient significativement
different de 0 ; mais, si les deux sont presentes dans le mod`ele, elles peuvent chacune apparatre avec des
coefficients insignifiants.
De facon plus generale, si c designe un vecteur non nul de (p + 1) constantes reelles, il est possible
de tester la valeur dune combinaison lineaire c0 b des param`etres en considerant lhypoth`ese nulle H0 :
c0 b = a ; a connu. Sous H0 , la statistique
c0 b a
1

(s2 c0 (X0 X)

c)1/2

suit une loi de Student a` (n p 1) degres de liberte.

4.2

Inference sur le mod`ele

Le mod`ele peut e tre teste globalement. Sous lhypoth`ese nulle H0 : 1 = 2 = . . . = p = 0, la


statistique
SSR/p
MSR
=
SSE/(n p 1)
MSE
suit une loi de Fisher avec p et (n p 1) degres de liberte. Les resultats sont habituellement presentes
dans un tableau danalyse de la variance sous la forme suivante :

4.3

Source de
variation

d.d.l.

Regression
Erreur
Total

p
np1
n1

Somme
des
carres
SSR
SSE
SST

Variance
MSR=SSR/p
MSE=SSE/(n p 1)

F
MSR/MSE

Inference sur un mod`ele reduit

Le test precedent am`ene a` rejeter H0 d`es que lune des variables X j est liee a` Y . Il est donc dun
interet limite. Il est souvent plus utile de tester un mod`ele reduit cest-`a-dire dans lequel certains coefficients, a` lexception de la constante, sont nuls contre le mod`ele complet avec toutes les variables. En ayant
e ventuellement reordonne les variables, on consid`ere lhypoth`ese nulle H0 : 1 = 2 = . . . = q = 0, q <
p.
Notons respectivement SSRq , SSEq , Rq2 les sommes de carres et le coefficient de determination du
mod`ele reduit a` (p q) variables. Sous H0 , la statistique
(R2 Rq2 )/q
(SSR SSRq )/q
=
SSE/(n p 1)
(1 R2 )/(n p 1)

4. Inferences dans le cas gaussien

17

suit une loi de Fisher a` q et (n p 1) degres de liberte.


Dans le cas particulier o`u q = 1 (j = 0), la F -statistique est alors le carre de la t-statistique de
linference sur un param`etre et conduit donc au meme test.

4.4

Prevision

Connaissant les valeurs des variables X j pour une nouvelle observation : x00 = [x10 , x20 , . . . , xp0 ] appartenant au domaine dans lequel lhypoth`ese de linearite reste valide, une prevision, notee yb0 de Y ou E(Y )
est donnee par :
yb0 = b0 + b1 x10 + + bp xp0 .
Les intervalles de confiance des previsions de Y et E(Y ), pour une valeur x0 IRp et en posant v0 =
(1|x00 )0 IRp+1 , sont respectivement

4.5

yb0

t/2;(np1) s(1 + v00 (X0 X)1 v0 )1/2 ,

yb0

t/2;(np1) s(v00 (X0 X)1 v0 )1/2 .

Exemple

Les donnees sont extraites de Jobson (1991) et decrivent les resultats comptables de 40 entreprises du
Royaume Uni.
RETCAP
WCFTDT
LOGSALE
LOGASST
CURRAT
QUIKRAT
NFATAST
FATTOT
PAYOUT
WCFTCL
GEARRAT
CAPINT
INVTAST

Return on capital employed


Ratio of working capital flow to total debt
Log to base 10 of total sales
Log to base 10 of total assets
Current ratio
Quick ratio
Ratio of net fixed assets to total assets
Gross sixed assets to total assets
Payout ratio
Ratio of working capital flow to total current liabilities
Gearing ratio (debt-equity ratio)
Capital intensity (ratio of total sales to total assets)
Ratio of total inventories to total assets

Mod`ele complet
La procedure SAS/REG est utilisee dans le programme suivant. Beaucoup doptions sont actives afin de
fournir la plupart des resultats meme si certains sont redondants ou peu utiles.
options linesize=110 pagesize=30 nodate nonumber;
title;
proc reg data=sasuser.ukcomp1 all;
model RETCAP = WCFTCL
WCFTDT
GEARRAT
LOGSALE
LOGASST
NFATAST CAPINT
FATTOT
INVTAST
PAYOUT
QUIKRAT
/dw covb Influence cli clm tol vif collin R P;
output out=resout h=lev p=pred r=res student=resstu ;
run;

CURRAT

Analysis of Variance
Source
Model
Error
C Total
Root MSE

Sum of
Mean
DF
Squares
Square
F Value
(1)
12
0.55868 (2)
0.04656 (5)
8.408 (7)
27
0.14951 (3)
0.00554 (6)
39
0.70820 (4)
0.07441 (9)
R-square
0.7889 (12)

Prob>F
0.0001 (8)

18

Chapitre 2. Regression lineaire


Dep Mean
C.V.
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)

0.14275 (10)
52.12940 (11)

0.6951 (13)

degres de liberte de la loi de Fisher du test global


SSR
SSE ou deviance
SST=SSE+SSR
SSR/DF
s2 =MSE=SSE/DF est lestimation de 2
Statistique F du test de Fisher du mod`ele global
P (fp;np1 > F ) ; H0 est rejetee au niveau si P <
s =racine de MSE
moyenne empirique de la variable a` expliquee
Coefficient de variation 100 (9)/(10)
Coefficient de determination R2
2
Coefficient de determination ajuste R0

Parameter Estimates
Parameter
Variable DF
Estimate
(1)
INTERCEP
1
0.188072
WCFTCL
1
0.215130
WCFTDT
1
0.305557
GEARRAT
1
-0.040436
LOGSALE
1
0.118440
LOGASST
1
-0.076960
...

(1)
(2)
(3)
(4)
(5)
(6)

Adj R-sq

Standard
Error
(2)
0.13391661
0.19788455
0.29736579
0.07677092
0.03611612
0.04517414

T for H0:
Parameter=0 Prob>|T|
(3)
(4)
1.404
0.1716
1.087
0.2866
1.028
0.3133
-0.527
0.6027
3.279
0.0029
-1.704
0.0999

Tolerance
(5)
.
0.03734409
0.02187972
0.45778579
0.10629382
0.21200778

Variance
Inflation
(6)
0.00000000
26.77799793
45.70441500
2.18442778
9.40788501
4.71680805

estimations des param`etres (bj )


e carts-types de ces estimations (sbj )
statistique T du test de Student de H0 : bj = 0
P (tnp1 > T ) ; H0 est rejetee au niveau si P <
2
1 R(j)
2
)
VIF=1/(1 R(j)

Ces resultats soulignent les probl`emes de colinearites. De grands VIF sont associes a` de grands e carttypes des estimations des param`etres. Dautre part les nombreux tests de Student non significatifs montrent
que trop de variables sont presentes dans le mod`ele. Cette idee est renforcee par le calcul de lindice de
conditionnement (explicite dans la section suivante : 8.76623/0.00125).

Choix de mod`ele

De facon un peu schematique, on peut associer la pratique de la modelisation statistique a` trois objectifs
qui peuvent e ventuellement e tre poursuivis en complementarite.
Descriptif : Il vise a` rechercher de facon exploratoire les liaisons entre Y et dautres variables, potentiellement explicatives, X j qui peuvent e tre nombreuses afin, par exemple den selectionner un sous` cette strategie, a` laquelle peuvent contribuer des Analyses en Composantes Principales,
ensemble. A
correspond des algorithmes de recherche (pas a` pas) moins performants mais e conomiques en temps
de calcul si p est grand.
Attention, si n est petit, et la recherche suffisamment longue avec beaucoup de variables explicatives,
il sera toujours possible de trouver un bon mod`ele expliquant y ; cest leffet data mining dans les
mod`eles e conometriques appele maintenant data snooping.
Explicatif : Le deuxi`eme objectif est sous-tendu par une connaissance a priori du domaine concerne et
dont des resultats theoriques peuvent vouloir e tre confirmes, infirmes ou precises par lestimation
des param`etres. Dans ce cas, les resultats inferentiels precedents permettent de construire le bon test
conduisant a` la prise de decision recherchee. Utilisees hors de ce contexte, les statistiques de test
nont plus alors quune valeur indicative au meme titre que dautres crit`eres plus empiriques.

5. Choix de mod`ele

19

Predictif : Dans le troisi`eme cas, laccent est mis sur la qualite des estimateurs et des predicteurs qui
doivent, par exemple, minimiser une erreur quadratique moyenne. Cest la situation rencontree en
apprentissage. Ceci conduit a` rechercher des mod`eles parcimonieux cest-`a-dire avec un nombre volontairement restreint de variables explicatives. Le meilleur mod`ele ainsi obtenu peut donner des estimateurs leg`erement biaises au profit dun compromis pour une variance plus faible. Un bon mod`ele
nest donc plus celui qui explique le mieux les donnees au sens dune deviance (SSE) minimale (ou
dun R2 max) au prix dun nombre important de variables pouvant introduire des colinearites. Le bon
mod`ele est celui qui conduit aux previsions les plus fiables.
Certes, le theor`eme de Gauss-Markov indique que, parmi les estimateurs sans biais, celui des moindres
carres est de variance minimum. Neanmoins, il peut e tre important de preferer un estimateur leg`erement
biaise si le gain en variance est lui plus significatif. Cest tout le probl`eme de trouver un bon e quilibre entre
biais et variance afin de minimiser un risque quadratique de prevision. Il y a principalement deux facons de
biaiser un mod`ele dans le but de restreindre la variance :
en reduisant le nombre de variables explicatives et donc en simplifiant le mod`ele,
en contraignant les param`etres du mod`ele, en les retrecissant (schrinkage), en regression ridge qui
op`ere une regularisation.
Commencons par decrire les procedures de selection.

5.1

Crit`eres

De nombreux crit`eres de choix de mod`ele sont presentes dans la litterature sur la regression lineaire
multiple. Citons le crit`ere dinformation dAkake (AIC), celui bayesien de Sawa (BIC). . . (cf. chapitre 5).
Ils sont e quivalents lorsque le nombre de variables a` selectionner, ou niveau du mod`ele, est fixe. Le choix
du crit`ere est determinant lorsquil sagit de comparer des mod`eles de niveaux differents. Certains crit`eres
se ram`enent, dans le cas gaussien, a` lutilisation dune expression penalisee de la fonction de vraisemblance
afin de favoriser des mod`eles parcimonieux. En pratique, les plus utilises ou ceux generalement fournis par
les logiciels sont les suivants.
Statistique du F de Fisher
Ce crit`ere, justifie dans le cas explicatif car base sur une qualite dajustement est aussi utilise a` titre
indicatif pour comparer des sequences de mod`eles embotes. La statistique partielle de Fisher est
(R2 Rq2 ) n p 1
(SSR SSRq )/s
=
SSE/(n p 1)
1 R2 )
q
dans laquelle lindice q designe les expressions concernant le mod`ele reduit avec (p q) variables explicatives. On consid`ere alors que si laccroissement (R2 Rq2 ) est suffisamment grand :
2
R2 RR
>

q
F;q,(np1) ,
(n p 1)

lajout des q variables au mod`ele est justifie.


R2 et R2 ajuste
Le coefficient de determination R2 = 1SSE/SST, directement lie a` la deviance (SSE) est aussi un
indice de qualite mais qui a la propriete detre monotone croissant en fonction du nombre de variables. Il
ne peut donc servir qu`a comparer deux mod`eles de meme niveau cest-`a-dire avec le meme nombre de
variables.
En revanche, le R2 ajuste :
2

R0 = 1

n1
SSE/(n p 1)
(1 R2 ) = 1
.
np1
SST/(n 1)

dans lequel le rapport SSE/SST est remplace par un rapport des estimations sans biais des quantites 2 et
y2 introduit une penalisation liee au nombre de param`etres a` estimer.

20

Chapitre 2. Regression lineaire


Ce coefficient sexprime encore par
1

(n 1)MSE
SST
2

ainsi dans la comparaison de deux mod`eles partageant la meme SST, on observe que R0 > R0 j si et seulement si MSE<MSEj ; MSE et MSEj designant respectivement lerreur quadratique moyenne du mod`ele
complet et celle dun mod`ele a` j variables explicatives. Maximiser le R2 ajuste revient donc a` minimiser
lerreur quadratique moyenne.
Cp de Mallows
Cet indicateur est une estimation de lerreur quadratique moyenne de prevision qui secrit aussi comme
la somme dune variance et du carre dun biais. Lerreur quadratique moyenne de prevision secrit ainsi : :
MSE(b
yi ) = Var(b
yi ) + [Biais(b
yi )]2
puis apr`es sommation et reduction :
n
n
n
1 X
1 X
1 X
MSE(b
y
)
=
Var(b
y
)
+
[Biais(b
yi )]2 .
i
i
2 i=1
2 i=1
2 i=1

En supposant que les estimations du mod`ele complet sont sans biais et en utilisant des estimateurs de
V ar(b
yi ) et 2 , lexpression de lerreur quadratique moyenne totale standardisee (ou reduite) pour un mod`ele
a` j variables explicatives secrit :
Cp = (n q 1)

MSEj
[n 2(q + 1)]
MSE

et definit la valeur du Cp de Mallows pour les q variables considerees. Il est alors dusage de rechercher un
mod`ele qui minimise le Cp tout en fournissant une valeur inferieure et proche de (q + 1). Ceci revient a`
considerer que le vrai mod`ele complet est moins fiable quun mod`ele reduit donc biaise mais destimation
plus precise.
Akakes Information criterion (AIC)
A completer
PRESS de Allen
Il sagit lintroduction historique de la validation croisee. On designe par yb(i) la prevision de yi calculee
sans tenir compte de la i`eme observation (yi , x1i , . . . , xpi ), la somme des erreurs quadratiques de prevision
(PRESS) est definie par
n
X
PRESS =
(yi yb(i) )2
i=1

et permet de comparer les capacites predictives de deux mod`eles. Le chapitre 5 donne plus de details sur ce
type destimation.

5.2

Algorithmes de selection

Lorsque p est grand, il nest pas raisonnable de penser explorer les 2p mod`eles possibles afin de
selectionner le meilleur au sens de lun des crit`eres ci-dessus. Differentes strategies sont donc proposees
qui doivent e tre choisies en fonction de lobjectif recherche et des moyens de calcul disponibles ! Trois
types dalgorithmes sont resumes ci-dessous par ordre croissant de temps de calcul necessaire cest-`a-dire
par nombre croissant de mod`eles consideres parmi les 2p et donc par capacite croissante doptimalite. On
donne pour chaque algorithme loption selection a` utiliser dans la procedure REG de SAS.
Pas a` pas
` chaque pas, une variable est ajoutee au mod`ele. Cest celle dont la valeur p (prob
Selection (forward) A
value)associee a` la statistique partielle du test de Fisher qui compare les deux mod`eles est minimum.

5. Choix de mod`ele

21

La procedure sarrete lorsque toutes les variables sont introduites ou lorsque p reste plus grande
quune valeur seuil fixee par defaut a` 0, 50.
` chaque e tape, la variable

Elimination
(backward) Lalgorithme demarre cette fois du mod`ele complet. A
associee a` la plus grande valeur p est e liminee du mod`ele. La procedure sarrete lorsque les variables
restant dans le mod`ele ont des valeurs p plus petites quun seuil fixe par defaut a` 0, 10.
Mixte (stepwise) Cet algorithme introduit une e tape delimination de variable apr`es chaque e tape de
selection afin de retirer du mod`ele deventuels variables qui seraient devenues moins indispensables
du fait de la presence de celles nouvellement introduites.
Global
Lalgorithme de Furnival et Wilson est utilise pour comparer tous les mod`eles possibles en cherchant a`
optimiser lun des crit`eres : R2 , R2 ajuste, ou Cp de Mallows (rsquare, adjrsq, cp) choisi par lutilisateur. Par souci deconomie, cet algorithme e vite de considerer des mod`eles de certaines sous-branches de
larborescence dont on peut savoir a priori quils ne sont pas competitifs. En general les logiciels executant
cet algorithme affichent le (best=1) ou les meilleurs mod`eles de chaque niveau.

5.3

Exemple

Parmi les trois types dalgorithmes et les differents crit`eres de choix, une des facons les plus efficaces
consistent a` choisir les options du programme ci-dessous. Tous les mod`eles (parmi les plus interessants
selon lalgorithme de Furnival et Wilson) sont consideres. Seul le meilleur pour chaque niveau, cest-`a-dire
pour chaque valeur p du nombre de variables explicatives sont donnes. Il est alors facile de choisir celui
minimisant lun des crit`eres globaux (Cp ou BIC ou . . . ).

options linesize=110 pagesize=30 nodate nonumber;


title;
proc reg data=sasuser.ukcomp2 ;
model RETCAP = WCFTCL
WCFTDT
GEARRAT
LOGSALE
NFATAST CAPINT
FATTOT
INVTAST
PAYOUT
/ selection=rsquare cp rsquare bic best=1;
run;

LOGASST
QUIKRAT

CURRAT

N = 40
Regression Models for Dependent Variable: RETCAP
R-sq. Adjust. C(p)
BIC
Variables in Model
In
R-sq
1 0.105 0.081 78.393 -163.2 WCFTCL
2 0.340 0.305 50.323 -173.7 WCFTDT QUIKRAT
3 0.615 0.583 17.181 -191.1 WCFTCL NFATAST CURRAT
4 0.720 0.688 5.714 -199.2 WCFTDT LOGSALE NFATAST CURRAT
5 0.731 0.692 6.304 -198.0 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT
6 0.748 0.702 6.187 -197.2 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT
7 0.760 0.707 6.691 -195.7 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT
8 0.769 0.709 7.507 -193.8 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT
9 0.776 0.708 8.641 -191.5 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT
CURRAT
10 0.783 0.708 9.744 -189.1 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST PAYOUT
QUIKRAT CURRAT
11 0.786 0.702 11.277 -186.4 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST
PAYOUT QUIKRAT CURRAT
12 0.788 0.695 13.000 -183.5 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT
INVTAST PAYOUT QUIKRAT CURRAT

Dans cet exemple, Cp et BIC se comportent de la meme facon. Avec peu de variables, le mod`ele est
trop biaise. Ils atteignent un minimum pour un mod`ele a` 4 variables explicatives puis croissent de nouveau
selon la premi`ere bissectrice. La maximisation du R2 ajuste conduirait a` une solution beaucoup moins
parcimonieuse. On note par ailleurs que lalgorithme remplace WCFTCL par WCFTDT. Un algorithme par
selection ne peut pas aboutir a` la solution optimale retenue.

22

Chapitre 2. Regression lineaire

5.4

Choix de mod`ele par regularisation

Lautre strategie qui cherche a` conserver lensemble ou tout du moins la plupart des variables explicatives pose un probl`eme de multicolinearite. Il est resolu par une procedure de regularisation.
Probl`eme
Lestimation des param`etres ainsi que celle de leur e cart-type (standard error) necessite le calcul explicite de la matrice (X0 X)1 . Dans le cas dit mal conditionne o`u le determinant de la matrice X0 X nest
que leg`erement different de 0, les resultats conduiront a` des estimateurs de variances importantes et meme,
e ventuellement, a` des probl`emes de precision numerique. Il sagit donc de diagnostiquer ces situations
critiques puis dy remedier. Dans les cas descriptif ou predictif on supprime des variables a` laide des
procedures de choix de mod`ele mais, pour un objectif explicatif necessitant toutes les variables, dautres
solutions doivent e tre envisagees : algorithme de resolution des e quations normales par transformations
orthogonales (procedure orthoreg de SAS) sans calcul explicite de linverse pour limiter les probl`emes
numeriques, regression biaisee (ridge), regression sur composantes principales.
VIF
La plupart des logiciels proposent des diagnostics de colinearite. Le plus classique est le facteur dinflation de la variance (VIF)
1
Vj =
1 Rj2
o`u Rj2 designe le coefficient de determination de la regression de la variable X j sur les autres variables
explicatives ; Rj est alors un coefficient de correlation multiple, cest le cosinus de langle dans IRn entre
X j et le sous-espace vectoriel engendre par les variables {X 1 , . . . , X j1 , X j+1 , . . . , X p }. Plus X j est
lineairement proche de ces variables et plus Rj est proche de 1 ; on montre alors que la variance de lesti
mateur de j est dautant plus e levee. Evidemment,
cette variance est minimum lorsque X j est orthogonal
au sous-espace engendre par les autres variables.
Conditionnement
De facon classique, les qualites numeriques de linversion dune matrice sont quantifiees par son indice de conditionnement. On note 1 , . . . , p les valeurs propres de la matrice des correlations R rangees
par ordre decroissant. Le determinant de R est e gal au produit des valeurs propres. Ainsi, des probl`emes
numeriques, ou de variances excessives apparaissent d`es que les derni`eres valeurs propres sont relativement
trop petites. Lindice de conditionnement est le rapport
= 1 /p
de la plus grande sur la plus petite valeur propre.
En pratique, si < 100 on consid`ere quil ny a pas de probl`eme. Celui-ci devient sev`ere pour >
1000. Cet indice de conditionnement donne un apercu global des probl`emes de colinearite tandis que les
VIF, les tolerances ou encore letude des vecteurs propres associes au plus petites valeurs propres permettent
didentifier les variables les plus problematiques.
Regression ridge
Ayant diagnostique un probl`eme mal conditionne mais desirant conserver toutes les variables, il est
possible dameliorer les proprietes numeriques et la variance des estimations en considerant un estimateur
leg`erement biaise des param`etres. Lestimateur ridge est donne par
bR = (X0 X + kI)1 X0 y,
qui a pour effet de decaler de la valeur k toutes les valeurs propres de la matrice a` inverser et, plus particuli`erement, les plus petites qui refl`etent la colinearite. On montre que cela revient encore a` estimer le
mod`ele par les moindres carres sous la contrainte que la norme du vecteur1 des param`etres ne soit pas
1 En

pratique, la contrainte ne sapplique pas au terme constant 0 mais seulement aux coefficients du mod`ele.

5. Choix de mod`ele

23

F IG . 2.1 Retour sur capital : Evolution des param`etres de la regression ridge en fonction du param`etre
de regularisation.
trop grande :
n
o
2
2
bR = arg min ky Xk ; kk < c .

Cest encore, en introduisant un multiplicateur de Lagrange dans le probl`eme de minimisation, un probl`eme


de moindres carres penalises :
2

bR = arg min{ky Xk + kk }.

Cela revient a` penaliser la norme de lestimateur pour empecher les coefficients dexploser et donc pour
limiter la variance. On parle aussi destimateur a` retrecisseur (shrinkage). Comme dans tout probl`eme de
regularisation, il est necessaire de fixer la valeur du param`etre ; la validation croisee peut e tre utilisee a`
cette fin mais la lecture du graphique (cf. figure 2.1) montrant levolution des param`etres en fonction du coefficient ridge est souvent suffisante. La valeur est choisie au point o`u la decroissance des param`etres devient
faible et quasi-lineaire. Une autre version (lasso) de regression biaisee est obtenue en utilisant la norme en
valeur absolue pour definir la contrainte sur les param`etres. Dautres approches ont e te developpees plus
recemment en integrant dautres types de penalite comme celles de de type L1 (LASSO) plutot que L2 ,
cest-`a-dire basees sur la somme des valeurs absolues des param`etres, plutot que sur la somme de leurs
carres, ou encore une combinaison de contraintes de types L1 et L2 . Des contraintes L1 compliquent la
resolution numerique du probl`eme doptimisation mais ont lavantage dintegrer la selection de variables a`
la resolution. Cette contrainte a en effet comme resultat de forcer certains param`etres a` prendre des valeurs
nulles aboutissant a` lelimination des variables concernees.
Regression sur composantes principales
LAnalyse en Composantes Principales est, entre autres, la recherche de p variables dites principales qui
sont des combinaisons lineaires des variables initiales de variance maximale sous une contrainte dorthogonalite (cf. Baccini et Besse (2000) pour des details). En designant par V la matrice des vecteurs propres de
la matrice des correlations R ranges dans lordre decroissant des valeurs propres, les valeurs prises par ces
variables principales sont obtenues dans la matrice des composantes principales
C = (X 1
x0 )V.
Elles ont chacune pour variance la valeur propre j associee. Le sous-espace engendre par ces variables
principales est le meme que celui engendre par les variables initiales. Il est donc geometriquement e quivalent
de regresser Y sur les colonnes de C que sur celles de X. Les probl`emes de colinearite sont alors resolus en
supprimant les variables principales de plus faibles variances cest-`a-dire associees aux plus petites valeurs
propres ou encore en executant un algorithme de choix de mod`ele sur les composantes.
La solution obtenue presente ainsi de meilleures qualites predictives mais, les coefficients de la regression
sappliquant aux composantes principales, un calcul complementaire est necessaire afin devaluer et dinterpreter les effets de chacune des variables initiales.

24

Chapitre 2. Regression lineaire

Regression PLS
Une derni`ere approche est largement utilisee, par exemple en chimiometrie, afin de pourvoir traiter les
situations presentant une forte multicolinearite et meme, lorsque le nombre dobservations est inferieur au
nombre de predicteurs. Il sagit de la regression PLS (partial least square).
Comme pour la regression sur composantes principales, le principe est de rechercher un mod`ele de
regression lineaire sur un ensemble de composantes orthogonales construites a` partir de combinaisons
lineaires des variables explicatives centrees. Dans le cas de la PLS, la construction des composantes est
optimisee pour que celles-ci soient le plus liees a` la variable Y a` predire au sens de la covariance empirique, alors que les composantes principales ne visent qu`a extraire une part de variance maximale sans
tenir compte dune variable cible.
Soit X(n p) la matrice des predicteurs centres avec n pouvant e tre inferieur a` p. On cherche une
matrice W de coefficients ou ponderations definissant les q composantes Tk par combinaisons lineaires des
variables Xj :
T = XW.
La matrice W est solution du probl`eme suivant :
Pour

k = 1, . . . , q,

wk

= arg max Cov(Y, Tk )2


w

= arg max w0 X0 YY0 Xw


w

Avec wk0 wk = 1

et

t0k tk = w0 X0 YY0 Xw = 0,

pour ` = 1 . . . , k 1.

La matrice W est obtenue par la demarche iterative de lalgorithme 1 ; il suffit ensuite de calculer la
regression de Y sur les q variables Tk centrees ainsi construites. Le choix du nombre de composanteq q est
optimise par validation croisee.
Cet algorithme se generalise directement a` une variable explicative multidimensionnelle (SIMPLS).
Le crit`ere a` optimiser devient une somme des carres des covariances entre une composante et chacune des
variables reponse. Plusieurs variantes de la regression PLS multidimensionnelles ont e te proposes (NIPALS,
Kernel-PLS...) ; le meme crit`ere est optimise mais sous des contraintes differentes.
Algorithm 1 regression PLS
X matrice des variables explicatives centrees,
Calcul de W matrice des coefficients.
Pour k = 1 `
a q Faire
X0 Y
wk = X
,
k 0Y k
tk = Xwk
Deflation de X : X = X tk t0k X
Fin Pour

6
6.1

Complements
Mod`eles polynomiaux

En cas dinvalidation de lhypoth`ese de linearite, il peut e tre interessant de considerer des mod`eles
polynomiaux, tr`es classiques pour decrire des phenom`enes physiques, de la forme
Y = 0 + + j X j + + kl X k X l + + j X j2
qui sont encore appeles surfaces de reponse en plannification experimentale. Ces mod`eles sont faciles a`
e tudier dans le cadre lineaire, il suffit dajouter des nouvelles variables constituees des produits ou des
carres des variables explicatives initiales. Les choix : presence ou non dune interaction entre deux variables, presence ou non dun terme quadratique se traitent alors avec les memes outils que ceux des choix

6. Complements

25

de variable mais en integrant une contrainte lors de la lecture des resultats : ne pas considerer des mod`eles
incluant des termes quadratiques dont les composants lineaires auraient e te exclus ou encore, ne pas supprimer dun mod`ele une variable dun effet lineaire si elle intervient dans un terme quadratique.
La procedure rsreg de SAS est plus particuli`erement adaptee aux mod`eles quadratiques. Elle ne comporte pas de procedure de choix de mod`ele mais fournit des aides et diagnostics sur lajustement de la
surface ainsi que sur la recherche des points optimaux.
Attention : Ce type de mod`ele accrot considerablement les risques de colinearite, il est peu recommande
de considerer des termes cubiques.

6.2

Influence, residus, validation

Avant toute tentative de modelisation complexe, il est imperatif davoir conduit des analyses uni et
bi-dimensionnelles afin didentifier des probl`emes sur les distributions de chacune des variables : dissymetrie, valeurs atypiques (outliers) ou sur les liaisons des variables prises deux par deux : non-linearite.
Ces preliminaires acquis, des aides ou diagnostics associes a` la regression lineaire multiple permettent de
detecter des violations dhypoth`eses (homoscedasticite, linearite) ou des points influents dans ce contexte
multidimensionnel (cf. figure 2.2).
Points influents
Comme toute methode quadratique, lestimation des param`etres est tr`es sensible a` la presence de points
extremes susceptibles de perturber gravement les resultats. Une observation est influente sur les param`etres
dune regression si, a` la fois,
elle est e loignee du barycentre, et ce dans la direction dun vecteur propre associe a` une petite valeur
propre (effet levier),
elle provoque un grand residu.
Lobservation de la diagonale de la matrice H (hat matrix) rev`ele un effet levier potentiel tandis que lanalyse des residus studentises pointe ceux susceptibles de poser des probl`emes (valeur absolue plus grande
que 2).
Les deux diagnostics precedents sont combines dans des mesures synthetiques proposees par differents
auteurs. La plus utilisee est la distance de Cook
Di =



hii
ri2
1
0
b
b
(b
y

y
)
(b
y

y
)
=
(i)
(i)
i
2
s (p + 1)
1 hi (p + 1)

b et le predicteur y
b(i) calcule
qui quantifie linfluence de la i-`eme observation sur lecart entre le predicteur y
sans cette i`eme observation. On conclut a` une influence de lobservation i lorsque la valeur de Di depasse
1.
Tous ces crit`eres sont illustres dans les graphiques de la figure 2.2. Les tableaux ci-dessous fournis pas
SAS illustrent ces quantites sur lexemple des donnees comptables.

Obs
1
2
3
4
5
...

Dep Var
RETCAP
(1)
0.2600
0.5700
0.0900
0.3200
0.1700

Obs
1
2
3
4
5

|
|
|
|
|

Predict
Value
(2)
0.2716
0.3690
0.00897
0.2335
0.1164

-2-1-0 1 2
(11)
|
|
|******|
|**** |
|**
|
|*
|
...

Std Err Lower95


Predict
Mean
(3)
(4)
0.053
0.1625
0.039
0.2882
0.063
-0.1205
0.021
0.1903
0.046
0.0215

Cooks
D
Rstudent
(12)
(13)
0.004
-0.2194
0.302
3.9515
0.832
2.1955
0.010
1.2228
0.041
0.9175

Upper95
Mean
(5)
0.3808
0.4497
0.1385
0.2768
0.2113

Hat Diag
H
(14)
0.5109
0.2795
0.7192
0.0803
0.3864

Lower95
Predict
(6)
0.0839
0.1962
-0.1912
0.0748
-0.0634
Cov
Ratio
(15)
3.2603
0.0050
0.6375
0.8585
1.7591

Upper95
Std Err Student
Predict Residual Residual Residual
(7)
(8)
(9)
(10)
0.4593 -0.0116
0.052 -0.223
0.5417
0.2010
0.063
3.183
0.2092
0.0810
0.039
2.055
0.3922
0.0865
0.071
1.212
0.2961
0.0536
0.058
0.920

Dffits
(15)
-0.2242
2.4611
3.5134
0.3613
0.7280

INTERCEP
Dfbetas
(15)
0.0299
0.9316
0.5543
-0.0132
-0.0386

WCFTCL
WCFTDT
Dfbetas
Dfbetas
(15)
(15)
0.0632 -0.0911
-0.3621 0.3705
2.1916 -2.0241
-0.0835 0.1207
0.0906 0.0060

26

Chapitre 2. Regression lineaire

F IG . 2.2 Retour sur capital : Graphe des residus studentises, de la diagonale de la matrice H et de la
distance de Cook en fonction des valeurs predites.
(1)
(2)
(3)
(4)et (5)
(6) et (7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)

variable a` expliquer yi
valeur ajustee ybi
e cart-type de cette estimationsybi
Intervalle de confiance pour lestimation de E(yi )
Intervalle de confiance pour lestimation de yi
residus calcules ei
e carts-types de ces estimations
residus standardises (ou studentises internes) ri
reperage graphique des residus standardises : = 0.5.
Distance de Cook
residus studentises (externes) ti
Termes diagonaux de la matrice chapeau H
autres indicateurs dinfluence

Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)

0
0.1495
1.0190

(SSE)
(PRESS)

Regression partielle
Un mod`ele de regression multiple est une technique lineaire. Il est raisonnable de sinterroger sur la
pertinence du caract`ere lineaire de la contribution dune variable explicative a` lajustement du mod`ele. Ceci
peut e tre realise en considerant une regression partielle.
On calcule alors deux regressions :
la regression de Y sur les variables X 1 , . . . , X j1 , X j+1 , . . . , X p , dans laquelle la j e` me variable est
omise, soit ry(j) le vecteur des residus obtenus.
La regression de X j sur les variables X 1 , . . . , X j1 , X j+1 , . . . , X p . Soit rx(j) le vecteur des residus
obtenus.
La comparaison des residus par un graphe (nuage de points ry(j) rx(j) ) permet alors de representer la
nature de la liaison entre X j et Y conditionnellement aux autres variables explicatives du mod`ele.
Graphes
Differents graphiques permettent finalement de controler le bien fonde des hypoth`eses de linearite,
dhomoscedasticite, e ventuellement de normalite des residus.
Le premier consid`ere le nuage de points des residus studentises croises avec les valeurs predites. Les
points doivent e tre uniformement repartis entre les bornes 2 et +2 et ne pas presenter de formes suspectes (cf. figure 2.2). Une forme particuli`ere est lindication dun probl`eme. Par exemple, un nuage
des residus en forme de croissant ou banane indique quune composante quadratique a e te probablement e te negligee ; une forme dentonnoir est un signe que lhypoth`ese dhomoscedastiscite nest

7. Analyse de variance a` un facteur

27

F IG . 2.3 Retour sur capital : Graphe des valeurs observees en fonction des valeurs predites et droite de
Henri des residus (normal qq-plot).

pas verifiee. dans tous les cas, le mod`ele nest pas valide et des mesures simposent. recherche dun
mod`ele plus complexe, recherche de transformations non lineaires de certaines variables (logarithme,
puissance...), ou encore lutilisation dune estimation par moindres carres ponderes (heteroscedasticite).
Si la variance des residus nest pas constante dun groupe dobservations a` lautre, des ponderations
(inverses des variances de chaque groupe) sont introduites pour se ramener a` lhomoscedasticite. Ceci
nest en generale utilisable que dans certaines circonstances o`u lexperience est planifiee.
Le deuxi`eme croise les valeurs observees de Y avec les valeurs predites. Il illustre le coefficient de
b et y. Les points doivent saligner
determination R qui est aussi la correlation lineaire simple entre y
autour de la premi`ere bissectrice. Il peut e tre complete par lintervalle de confiance des yi ou celui de
leurs moyennes. (cf. figure 2.3).
La qualite, en terme de linearite, de lapport de chaque variable est e tudiee par des regressions partielles. Chaque graphe de residus peut e tre complete par une estimation fonctionnelle ou regression
non-parametrique (loess, noyau, spline) afin den facilite la lecture.
Le dernier trace la droite de Henri (Normal QQplot) des residus dont le caract`ere lineaire de la
representation donne une idee de la normalite de la distribution. (cf. figure 2.3)

7
7.1

Analyse de variance a` un facteur


Introduction

Les techniques dites danalyse de variance sont des outils entrant dans le cadre general du mod`ele
lineaire et o`u une variable quantitative est expliquee par une ou plusieurs variables qualitatives. Lobjectif essentiel est alors de comparer les moyennes empiriques de la variable quantitative observees pour
differentes categories dunites statistiques. Ces categories sont definies par lobservation des variables qualitatives ou facteurs prenant differentes modalites ou encore de variables quantitatives decoupees en classes
ou niveaux. Une combinaison de niveaux definit une cellule, groupe ou traitement.
Il sagit donc de savoir si un facteur ou une combinaison de facteurs (interaction) a un effet sur la variable
quantitative en vue, par exemple, de determiner des conditions optimales de production ou de fabrication,
une dose optimale de medicaments. . . . Ces techniques apparaissent aussi comme des cas particuliers de
la regression lineaire multiple en associant a` chaque modalite une variable indicatrice (dummy variable)
et en cherchant a` expliquer une variable quantitative par ces variables indicatrices. Lappellation analyse
de variance vient de ce que les tests statistiques sont batis sur des comparaisons de sommes de carres de
variations.
Lanalyse de variance est souvent utilisee pour analyser des donnees issue dune planification experimentale

28

Chapitre 2. Regression lineaire

au cours de laquelle lexperimentateur a la possibilite de controler a priori les niveaux des facteurs avec
pour objectif dobtenir le maximum de precision au moindre cout. Ceci conduit en particulier a` construire
des facteurs orthogonaux deux a` deux (variables explicatives non lineairement correlees) afin de minimiser
la variance des estimateurs. On distingue le cas particulier important o`u les cellules ont le meme effectif,
on parle alors de plan orthogonal ou e quirepete ou e quilibre (balanced), qui conduit a` des simplifications
importantes de lanalyse de variance associee. On appelle plan complet un dispositif dans lequel toutes les
combinaisons de niveaux ont e te experimentees. On distingue entre des mod`eles fixes, aleatoires ou mixtes
selon le caract`ere deterministe (controle) ou non des facteurs par exemple si les modalites resultent dun
choix aleatoire parmi un grand nombre de possibles. Dans cette courte introduction seuls le mod`ele fixe a`
un facteur est considere.
Lanalyse de variance a` un facteur est un cas particulier detude de relations entre deux variables statistiques : une quantitative Y admettant une densite et une qualitative X ou facteur qui engendre une partition
ou classification de lechantillon en J groupes, cellules ou classes indicees par j. Lobjectif est de comparer
les distributions de Y pour chacune des classes en particulier les valeurs des moyennes et variances. Un
prealable descriptif consiste a` realiser un graphique constitue de diagrammes boites parall`eles : une pour
chaque modalite. Cette representation donne une premi`ere appreciation de la comparaison des distributions
(moyenne, variance) internes a` chaque groupe. Les specificites de la planification dexperience ne sont pas
abordees dans ce cours axe sur la fouille de donnees pour laquelle les donnees sont justement prealablement
fournies. Les plans dexperience sont surtout utilises en milieu industriel : controle de qualite, optimisation
des processus de production, ou en agronomie pour la selection de varietes, la comparaison dengrais, dinsecticides. . . . La bibliographie est abondante sur ce sujet.

7.2

Mod`ele

PJ
Pour chaque niveau j de X, on observe nj valeurs y1j , . . . , ynj j de la variable Y et o`u n = j=1 nj
(n > J) est la taille de lechantillon. On suppose qu`a linterieur de chaque cellule, les observations sont
independantes e quidistribuees de moyenne j et de variance homog`ene j2 = 2 . Ceci secrit :
yij = j + ij
o`u les ij sont i.i.d. suivant une loi centree de variance 2 qui sera supposee N (0, 2 ) pour la construction
des tests. Cette derni`ere hypoth`ese netant pas la plus sensible. Les esperances j ainsi que le param`etre de
nuisance 2 sont les param`etres inconnus a` estimer.
On note respectivement :
y.j

nj
1 X
yij ,
nj i=1

s2j

1 X
(yij y.j )2 ,
nj 1 i=1

y..

1 XX
yij ,
n i=1 j=1

nj

nj

les moyennes et variances empiriques de chaque cellule, la moyenne generale de lechantillon.


Les param`etres j sont estimes sans biais par les moyennes y.j et comme le mod`ele secrit alors :
yij = y.j + (yij y.j ),
lestimation des erreurs est eij = (yij y.j ) tandis que les valeurs predites sont ybij = y.j .
Sous lhypoth`ese dhomogeneite des variances, la meilleure estimation sans biais de 2 est
PJ Pnj
.j )2
1
i=1 (yij y
j=1
2
s =
=
[(n 1)s21 + + (nJ 1)s2J ]
nJ
nJ
qui secrit donc comme une moyenne ponderee des variances empiriques de chaque groupe.

7. Analyse de variance a` un facteur

29

Notons y le vecteur des observations [yij |i = 1, nj ; j = 1, J]0 mis en colonne, = [ij |i = 1, nj ; j =


1, J]0 le vecteur des erreurs, 1j les variables indicatrices des niveaux et 1 la colonne de 1s. Le i`eme e lement
dune variable indicatrice (dummy variable) 1j prend la valeur 1 si la i`eme observation yi est associee au
j e` me et 0 sinon.
Comme dans le cas de la regression lineaire multiple, le mod`ele consiste a` e crire que lesperance de
la variable Y appartient au sous-espace lineaire engendre par les variables explicatives, ici les variables
indicatrices :
y = 0 1 + 1 11 + + J 1J + .
La matrice X alors construite nest pas de plein rang p + 1 mais de rang p. La matrice X0 X nest pas
inversible et le mod`ele admet une infinite de solutions. Nous disons que les param`etres j ne sont pas
estimables ou identifiables. En revanche, certaines fonctions (combinaisons lineaires) de ces param`etres
sont estimables et appelees contrastes.
Dans le cas du mod`ele danalyse de variance a` un facteur, la solution la plus simple adoptee consiste a`
considerer un sous-ensemble des indicatrices ou de combinaisons des indicatrices engendrant le meme sousespace de facon a` aboutir a` une matrice inversible. Ceci conduit a` considerer differents mod`eles associes a`
differentes parametrisation. Attention, les param`etres j ainsi que la matrice X prennent a` chaque fois des
significations differentes.
Un premier mod`ele (cell means model) secrit comme celui dune regression lineaire multiple sans
terme constant avec = [1 , . . . , J ]0 le vecteur des param`etres :
y

= 1 1 1 + + J 1 J +

= X + .

Les calculs se presentent simplement mais les tests decoulant de ce mod`ele conduiraient a` e tudier la nullite
des param`etres alors que nous sommes interesses par tester legalite des moyennes.
Une autre parametrisation, considerant cette fois le vecteur = [J , 1 J , . . . , J1 J ]0 conduit
a` e crire le mod`ele (base cell model) de regression avec terme constant :
y = 0 1 + 1 11 + + J1 1J1 + .
Cest celle de SAS alors que dautres logiciels consid`erent des param`etres deffet differentiel j . par rapPJ
port a` leffet moyen . = 1/J j=1 j . Ce dernier est encore un mod`ele (group effect model) de regression
lineaire avec terme constant mais dont les variables explicatives sont des differences dindicatrices et avec
= [. , 1 . , . . . , J1 . ]0 :
y = 0 1 + 1 (11 1J ) + + J1 (1J1 1J ) + .

7.3

Test
On designe les differentes sommes des carres des variations par :
SST =

nj
J X
X

(yij y.. ) =

j=1 i=1

SSW

nj
J X
X

SSB =

j=1

2
yij
n
y..2 ,

j=1 i=1
2

(yij y.j ) =

j=1 i=1
J
X

nj
J X
X

nj (
y.j y.. )2 =

nj
J X
X
j=1 i=1

J
X

2
yij

J
X

2
nj y.j
,

j=1

2
nj y.j
n
y..2 ,

j=1

o`u T signifie totale, W (within) intra ou residuelle, B (between) inter ou expliquee par la partition. Il
est facile de verifier que SST=SSB+SSW.
On consid`ere alors lhypoth`ese
H0 : 1 = = J ,

30

Chapitre 2. Regression lineaire

qui revient a` dire que la moyenne est independante du niveau ou encore que le facteur na pas deffet, contre
lhypoth`ese
H1 : (j, k) tel que j 6= k
qui revient a` reconnatre un effet ou une influence du facteur sur la variable Y .
Dans les mod`eles precedents, letude de cette hypoth`ese revient a` comparer par un test de Fisher un
mod`ele complet (les moyennes sont differentes) avec un mod`ele reduit supposant la nullite des param`etres
j et donc legalite des moyennes a` celle de la derni`ere cellule ou a` la moyenne generale.
Les resultats necessaires a` la construction du test qui en decoule sont resumes dans la table danalyse
de la variance :
Source de
variation

d.d.l.

Mod`ele (inter)
Erreur (intra)
Total

J 1
nJ
n1

Somme
des carres
SSB
SSW
SST

Variance
MSB=SSB/(J 1)
MSW=SSW/(n J)

F
MSB/MSW

Pratiquement, un programme de regression usuel permet de construire estimation et test de la nullite des j
sauf pour le premier mod`ele qui doit tester legalite au lieu de la nullite des param`etres.
Dans le cas de deux classes (J = 2) on retrouve un test e quivalent au test de Student de comparaison
des moyennes de deux e chantillons independants. Si lhypoth`ese nulle est rejetee, la question suivante
consiste a` rechercher quelles sont les groupes ou cellules qui poss`edent des moyennes significativement
differentes. De nombreux tests et procedures ont e te proposes dans la litterature pour repondre a` cette
question. Enfin, lhypoth`ese importante du mod`ele induit par lanalyse de variance est lhomogeneite des
variances de chaque groupe. Conjointement a` lestimation du mod`ele et en supposant la normalite, il peut
e tre instructif de controler cette homogeneite par un test.

Analyse de covariance

Lanalyse de covariance se situe encore dans le cadre general du mod`ele lineaire et o`u une variable
quantitative est expliquee par plusieurs variables a` la fois quantitatives et qualitatives. Dans les cas les
plus complexes, ont peut avoir plusieurs facteurs (variables qualitatives) avec une structure croisee ou
hierarchique ainsi que plusieurs variables quantitatives intervenant de mani`ere lineaire ou polynomiale. Le
principe general, dans un but explicatif ou decisionnel, est toujours destimer des mod`eles intra-groupes
et de faire apparatre (tester) des effets differentiels inter-groupes des param`etres des regressions. Ainsi,
dans le cas plus simple o`u seulement une variable parmi les explicatives est quantitative, nous sommes
amenes a` tester lheterogeneite des constantes et celle des pentes (interaction) entre differents mod`eles de
regression lineaire.
Ce type de mod`ele permet donc, toujours avec un objectif predictif, de sinteresser a` la modelisation
dune variable quantitative par un ensemble de variables explicatives a` la fois quantitatives et qualitatives.
La possible prise en compte dinteractions complique singuli`erement la procedure de selection de variables.

8.1

Mod`ele

Le mod`ele est explicite dans le cas e lementaire o`u une variable quantitative Y est expliquee par une
variable qualitative T a` J niveaux et une variable quantitative, appelee encore covariable, X. Pour
Pchaque
J
niveau j de T , on observe nj valeurs x1j , . . . , xnj j de X et nj valeurs y1j , . . . , ynj j de Y ; n = j=1 nj
est la taille de lechantillon.
En pratique, avant de lancer une procedure de modelisation et tests, une demarche exploratoire sappuyant sur une representation en couleur (une par modalite j de T) du nuage de points croisant Y et X
et associant les droites de regression permet de se faire une idee sur les effets respectifs des variables :
parallelisme des droites, e tirement, imbrication des sous-nuages.
On suppose que les moyennes conditionnelles E[Y |T ], cest-`a-dire calculees a` linterieur de chaque
cellule, sont dans le sous-espace vectoriel engendre par les variables explicatives quantitatives, ici X. Ceci

8. Analyse de covariance

31

secrit :
yij = 0j + 1j xij + ij ;

j = 1, . . . , J;

i = 1, , nj

o`u les ij sont i.i.d. suivant une loi centree de variance 2 qui sera supposee N (0, 2 ) pour la construction
des tests.
Notons y le vecteur des observations [yij |i = 1, nj ; j = 1, J]0 mis en colonne, x le vecteur [xij |i =
1, nj ; j = 1, J]0 , = [ij |i = 1, nj ; j = 1, J]0 le vecteur des erreurs, 1j les variables indicatrices des
niveaux et 1 la colonne de 1s. On note encore x.1j le produit terme a` terme des deux vecteurs, cest-`a-dire
le vecteur contenant les observations de X sur les individus prenant le niveau j de T et des zeros ailleurs.
La resolution simultanee des J mod`eles de regression est alors obtenue en considerant globalement le
mod`ele :
y = X +
dans lequel X est la matrice n2J constituee des blocs [1j |x.1j ] ; j = 1, . . . , J. Lestimation de ce mod`ele
global conduit, par bloc, a` estimer les mod`eles de regression dans chacune des cellules.
Comme pour lanalyse de variance, les logiciels op`erent une reparametrisation faisant apparatre des
effets differentiels par rapport au dernier niveau (SAS/GLM, SAS/INSIGHT) ou par rapport a` un effet
moyen (Systat), afin dobtenir directement les bonnes hypoth`eses dans les tests. Ainsi, dans le premier cas,
on consid`ere la matrice de meme rang (sans la J e` me indicatrice)
X = [1|x|11 | |1J1 |x.11 | |x.1J1 ]
associee aux mod`eles :
yij = 0J + (0j 0J ) + 1J xij + (1j 1J )xij + ij ;

8.2

j = 1, . . . , J 1; i = 1, . . . , nj .

Tests
Differentes hypoth`eses sont alors testees en comparant le mod`ele complet
y = 0J 1

(01 0J )11 + + (0J1 0J )1J1 + 1J x +

(11 1J )x.11 + + (1J1 1J )x.1J1 +

a` chacun des mod`eles reduits :


(i)
(ii)

y = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 + 1J x +


y = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 +
+(1j 1J )x.11 + + (1J1 1J )x.1J1 +

(iii)

y = 0J 1 + 1J x + (1j 1J )x.11 + + (1J1 1J )x.1J1 +

par un test de Fisher. Ceci revient a` considerer les hypoth`eses suivantes :


H0i : pas dinteraction, 11 = = 1J , les droites partagent la meme pente 1J ,
H0ii : 1J =0,
H0iii :01 = = 0J , les droites partagent la meme constante a` lorigine 0J .
On commence donc par e valuer i), si le test nest pas significatif, on regarde ii) qui, sil nest pas non
plus significatif, conduit a` labsence deffet de la variable X. De meme, toujours si i) nest pas significatif,
on sinteresse a` iii) pour juger de leffet du facteur T .

8.3

Choix de mod`ele

Ce cadre theorique et les outils informatiques (SAS/GLM) permettent de considerer des mod`eles beaucoup plus complexes incluant plusieurs facteurs, plusieurs variables quantitatives, voire des polynomes de
celles-ci, ainsi que les diverses interactions entre qualitatives et quantitatives. Le choix du bon mod`ele
devient vite complexe dautant que la strategie depend, comme pour la regression lineaire multiple, de
lobjectif vise :

32

Chapitre 2. Regression lineaire

descriptif : des outils multidimensionnels descriptifs (ACP, AFD, AFCM. . . ) sav`erent souvent plus efficaces pour selectionner, en premi`ere approche, un sous-ensemble de variables explicatives avant
doperer une modelisation,
explicatif : de la prudence est requise dautant que les hypoth`eses ne peuvent e tre e valuees de facon
independante surtout si, en plus, des cellules sont desequilibrees ou vides,
predictif : la recherche dun mod`ele efficace, donc parcimonieux, peut conduire a` negliger des interactions
ou effets principaux lorsquune faible amelioration du R2 le justifie et meme si le test correspondant apparat comme significatif. Lutilisation du Cp est theoriquement possible mais en general ce
crit`ere nest pas calcule et dutilisation delicate car necessite la consideration dun vrai mod`ele de
reference ou tout du moins dun mod`ele de faible biais pour obtenir une estimation raisonnable de
la variance de lerreur. En revanche AIC et PRESS donnent des indications plus pertinentes. Lalgorithme de recherche descendant est le plus couramment utilise avec la contrainte suivante : un effet
principal nest supprime qu`a la condition quil napparaisse plus dans une interaction.

8.4

Exemple

Les donnees, extraites de Jobson (1991), sont issues dune e tude marketing visant a` e tudier limpact
de differentes campagnes publicitaires sur les ventes de differents aliments. Un e chantillon ou panel de
familles a e te constitue en tenant compte du lieu dhabitation ainsi que de la constitution de la famille.
Chaque semaine, chacune de ces familles ont rempli un questionnaire decrivant les achats realises. Nous
nous limitons ici a` letude de limpact sur la consommation de lait de quatre campagnes diffusees sur
des chanes locales de television. Quatre villes, une par campagne publicitaire, ont e te choisies dans cinq
differentes regions geographiques. Les consommations en lait par chacune des six familles par ville alors
e te mesurees (en dollars) apr`es deux mois de campagne.
Les donnees se presentent sous la forme dun tableau a` 6 variables : la region geographique, les 4
consommations pour chacune des villes ou campagnes publicitaires diffusees, la taille de la famille. Cette
situation est celle classique dun mod`ele danalyse de variance. Nous choisissons ici de conserver quantitative la variable taille de la famille et donc de modeliser la consommation de lait par un mod`ele danalyse de
covariance plus e conomique en degres de liberte moins de param`etres sont a` estimer.
On sinteresse a` differents mod`eles de regression visant a` expliquer la consommation en fonction de la
taille de la famille conditionnellement au type de campagne publicitaire.
proc glm data=sasuser.milk;
class pub;
model consom=pub taille pub*taille;
run;

Les resultats ci-dessous conduiraient a` conclure a` une forte influence de la taille mais a` labsence dinfluence du type de campagne. Les droites de regression ne semblent pas significativement differentes.
Source
PUB
TAILLE
TAILLE*PUB

(1)
(2)
(3)

DF
3
1
3

Type III SS
227.1807
40926.0157
309.8451

Mean Square
75.7269
40926.0157
103.2817

F Value
0.57
306.57
0.77

Pr > F
0.6377 (1)
0.0001 (2)
0.5111 (3)

Test de la significativite des differences des termes constants.


Test de linfluence du facteur quantitatif.
Test de la significativite des differences des pentes (interaction).

Neanmoins, pris dun doute, le meme calcul est effectue separement pour chaque region :
proc glm data=sasuser.milk;
by region;
class pub;
model consom=pub taille pub*taille;
run;

9. Exemple : Prevision de la concentration dozone


R
egion

Source

DF

Type III SS

Mean Square

33
F Value

Pr > F

PUB
TAILLE
TAILLE*PUB

3
1
3

72.02974
7178.32142
217.37048

24.00991
7178.32142
72.45683

4.62
1380.25
13.93

0.0164
0.0001
0.0001

PUB
TAILLE
TAILLE*PUB

3
1
3

231.73422
8655.25201
50.15069

77.24474
8655.25201
16.71690

30.36
3402.34
6.57

0.0001
0.0001
0.0042

PUB
TAILLE
TAILLE*PUB

3
1
3

79.54688
6993.30160
173.19305

26.51563
6993.30160
57.73102

6.01
1585.35
13.09

0.0061
0.0001
0.0001

PUB
TAILLE
TAILLE*PUB

3
1
3

415.66664
9743.37830
361.39556

138.55555
9743.37830
120.46519

15.23
1071.32
13.25

0.0001
0.0001
0.0001

PUB
TAILLE
TAILLE*PUB

3
1
3

15.35494
8513.28516
52.75119

5.11831
8513.28516
17.58373

0.79
1314.71
2.72

0.5168
0.0001
0.0793

Il apparat alors qu`a linterieur de chaque region (sauf region 5), les campagnes de publicite ont un
effet tant sur la constante que sur la pente.
Ceci incite donc a` se mefier des interactions (leffet region compense leffet publicite) et encourage
a` toujours conserver le facteur bloc (ici la region) dans une analyse de variance. Une approche compl`ete,
considerant a priori toutes les variables (3 facteurs), est ici necessaire (cf. TP).

9
9.1

Exemple : Prevision de la concentration dozone


Les donnees

Les donnees proviennent des services de Meteo-France et sinteresse a` la prevision de la concentration


en Ozone dans 5 stations de mesure ; ces sites ont e te retenus pour le nombre impoprtant de pics de pollution
qui ont e te detectes dans les periodes considerees (etes 2002, 2003, 2005). Un pic de pollution est defini ici
par une concentration depassant le seuil de 150g/m3 . Meteo-France dispose dej`a dune predvision (MOCAGE), a` partir dum mod`ele physique base sur les e quations du comportement dynamique de latmosph`ere
(Navier et Stockes). Cette prevision fait partie du dispositif dalerte des pouvoirs publics et prevoit donc une
concentration de pollution a` 17h locale pour le lendemain. Lobjet du travail est den faire une e valuation
statistique puis de lameliorer en tenant compte dautres variables ou plutot dautres previsions faites par
Meteo-France. Il sagit donc dintegrer ces informations dans un mod`ele statistique global.
Les variables
Certaines variables de concentration ont e te transformees afin de rendre symetrique (plus gaussienne)
leur distribution.
O3-o Concentration dozone effectivement observee ou variable a` predire,
03-pr prevision mocage qui sert de variable explicative ;
Tempe Temperature prevue pour le lendemain,
vmodule Force du vent prevue pour le lendemain,
lno Logarithme de la concentration observee en monoxyde dazote,
lno2 Logarithme de la concentration observee en dioxyde dazote,
rmh20 Racine de la concentration en vapeur deau,
Jour Variable a` deux modalites pour distinguer les jours ouvrables (0) des jours feries-WE (1).
Station Une variable qualitative indique la station concernee : Aix-en-Provence, Rambouillet, Munchhausen, Cadarache, et Plan de Cuques.

Chapitre 2. Regression lineaire

100 50

Rsidus

50

250
150
50
0

Valeurs observees

100

34

50

100

200

300

50

Valeurs predites

100

200

300

Valeurs predites

F IG . 2.4 Ozone : prevision et residus du mod`ele MOCAGE de Meteo-France pour 5 stations.

Mod`ele physique
Les graphiques de la figure 2.4 represente la premi`ere prevision de la concentration dozone observee,
ainsi que ses residus, cest-`a-dire celle obtenue par le mod`ele physique MOCAGE. Ces graphes temoignent
de la mauvaise qualite de ce mod`ele : les residus ne sont pas repartis de facon symetrique et les deux nuages
pesentent une leg`ere forme de banane signifiant que des composantes non lineaires du mod`ele nont pas
e te prises en compte. Dautre part, la forme dentonnoir des residus montrent une forte heteroscedasticite.
Cela signifie que la variance des residus et donc des previsions crot avec la valeur. En dautre terme, la
qualite de la prevision se degrade pour les concentrations e levees justgement dans la zone sensible.
Mod`ele sans interaction
Un premier mod`ele est estime avec R :
fit.lm=lm(O3-oO3-pr+vmodule+lno2+lno+s-rmh2o+jour+station+TEMPE,data=donne)

Il introduit lensemble des variables explicatives mais sans interaction. Les resultats numeriques sont
fournis ci-dessous.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.99738
7.87028 -0.635 0.52559
O3_pr
0.62039
0.05255 11.805 < 2e-16 ***
vmodule
-1.73179
0.35411 -4.891 1.17e-06 ***
lno2
-48.17248
6.19632 -7.774 1.83e-14 ***
lno
50.95171
5.98541
8.513 < 2e-16 ***
s_rmh2o
135.88280
50.69567
2.680 0.00747 **
jour1
-0.34561
1.85389 -0.186 0.85215
stationAls
9.06874
3.37517
2.687 0.00733 **
stationCad
14.31603
3.07893
4.650 3.76e-06 ***
stationPla
21.54765
3.74155
5.759 1.12e-08 ***
stationRam
6.86130
3.05338
2.247 0.02484 *
TEMPE
4.65120
0.23170 20.074 < 2e-16 ***
Residual standard error: 27.29 on 1028 degrees of freedom
Multiple R-Squared: 0.5616,
Adjusted R-squared: 0.5569
F-statistic: 119.7 on 11 and 1028 DF, p-value: < 2.2e-16

A lexception de la variable indiquant la nature du jour, lensemble des coefficients sont juges significativement different de zero mais la qualite de lajustement est faible (R2 ).

50

100

35

100 50

Rsidus

0
100 50

Rsidus

50

100

9. Exemple : Prevision de la concentration dozone

50

100

200

Valeurs predites

300

50

100

200

300

Valeurs predites

F IG . 2.5 Ozone : Residus des mod`eles lineaire et quadratique.


Mod`ele avec interaction
La qualite dajustement du mod`ele precedent netant pas tr`es bonne, un autre mod`ele est considere en
prenant en compte les interactions dordre 2 entgre les variables. Compte tenu de la complexite du mod`ele
qui un decoule, un choix automatique est lance par e limination successive des termes non significatifs
(algotithme backward). Le crit`ere optimise est celui (AIC) dAkake. Plusieurs interactions ont e te e liminees
au cours de la procedure mais beaucoup subsistent dans le mod`ele. Attention, les effets principaux lno2,
vmodule ne peuvent e tre retires car ces variables apparaissent dans une interaction. En revanche on peut
sinterroger sur lopportunite de conserver celle entre la force du vent et la concentration de dioxyde dazote.
NULL
O3_pr
station
vmodule
lno2
s_rmh2o
TEMPE
O3_pr:station
O3_pr:vmodule
O3_pr:TEMPE
station:vmodule
station:lno2
station:s_rmh2o
station:TEMPE
vmodule:lno2
vmodule:s_rmh2o
lno2:TEMPE
s_rmh2o:TEMPE

Df Deviance Resid. Df Resid. Dev


F
Pr(>F)
1039
1745605
1
611680
1038
1133925 969.9171 < 2.2e-16 ***
4
39250
1034
1094674 15.5594 2.339e-12 ***
1
1151
1033
1093523
1.8252 0.1769957
1
945
1032
1092578
1.4992 0.2210886
1
24248
1031
1068330 38.4485 8.200e-10 ***
1
248891
1030
819439 394.6568 < 2.2e-16 ***
4
16911
1026
802528
6.7038 2.520e-05 ***
1
8554
1025
793974 13.5642 0.0002428 ***
1
41129
1024
752845 65.2160 1.912e-15 ***
4
7693
1020
745152
3.0497 0.0163595 *
4
12780
1016
732372
5.0660 0.0004811 ***
4
19865
1012
712508
7.8746 2.997e-06 ***
4
27612
1008
684896 10.9458 1.086e-08 ***
1
1615
1007
683280
2.5616 0.1098033
1
2407
1006
680873
3.8163 0.0510351 .
1
4717
1005
676156
7.4794 0.0063507 **
1
42982
1004
633175 68.1543 4.725e-16 ***

Ce sont surtout les graphes de la figure 2.5 qui renseignent sur ladequation des mod`eles. Le mod`ele
quadratique fournit une forme plus lineaire des residus et un meilleur ajustement avec un R2 de 0,64 mais
lheteroscedasticite reste presente, dautres approches sav`erent necessaires afin de reduire la variance liee
a` la prevision des concentrations e levees.

9.2

Autres exemples

Les autres jeux de donnees e tudies dans ce cours ne se pr`etent pas a` une mod`ele de regression multiple
classique ; soit la variable a` predire est qualitative binaire et correspondent donc a` un mod`ele de regression
logistique (cancer et donnees bancaires), soit la situation est plus complexe car fait appel a` un mod`ele mixte
ou a` effet aleatoire (regime des souris).

36

Chapitre 2. Regression lineaire

Chapitre 3
Regression logistique
1

Introduction

Dans ce chapitre, nous definissons le contexte pratique de la regression logistique qui sinteressent plus
particuli`erement a` la description ou lexplication dobservations constitues deffectifs comme, par exemple,
le nombre de succ`es dune variable de Bernouilli lors dune sequence dessais. Contrairement aux mod`eles
du chapitre precedent bases sur lhypoth`ese de normalite des observations, les lois concernees sont discr`etes
et associees a` des denombrements : binomiale, multinomiale. Neanmoins, ce mod`ele appartient a` la famille
du mod`ele lineaire general (annexe) et partagent a` ce titre beaucoup daspects (estimation par maximum de
vraisemblance, tests, diagnostics) et dont la strategie de mise en uvre, similaire au cas gaussien, nest pas
reprise.
Une premi`ere section definit quelques notions relatives a` letude de la liaison entre variables qualitatives.
Elles sont couramment utilisees dans linterpretation des mod`eles de regression logistique.

Odds et odds ratio

Une variable
Soit Y une variable qualitative a` J modalites. On designe la chance (ou odds1 de voir se realiser la j e` me
modalite plutot que la k`eme par le rapport
j
jk =
k
o`u j est la probabilite dapparition de la j e` me modalite. Cette quantite est estimee par le rapport nj /nk
des effectifs observes sur un e chantillon. Lorsque la variable est binaire et suit une loi de Bernouilli de
param`etre , lodds est le rapport /(1 ) qui exprime une cote ou chance de gain.
Par exemple, si la probabilite dun succ`es est 0.8, celle dun e chec est 0.2. Lodds du succ`es est 0.8/0.2=4
tandis que lodds de lechec est 0.2/0.8=0.25. On dit encore que la chance de succ`es est de 4 contre 1 tandis
que celle dechec est de 1 contre 4.
Table de contingence
On consid`ere maintenant une table de contingence 2 2 croisant deux variables qualitatives binaires
X 1 et X 2 . les param`etres de la loi conjointe se mettent dans une matrice :


11 12
21 22
o`u ij = P [{X 1 = i} et {X 2 = j}] est la probabilite doccurence de chaque combinaison.
Dans la ligne 1, lodds que la colonne 1 soit prise plutot que la colonne 2 est :
11
.
1 =
12
1 Il

nexiste pas, meme en Quebecois, de traduction consensuelle de odds qui utilise neanmoins souvent le terme cote.

37

38

Chapitre 3. Regression logistique

Dans la ligne 2, lodds que la colonne 1 soit prise plutot que la colonne 2 est :
21
2 =
.
22
On appelle odds ratio (rapport de cote) le rapport
=

1
11 22
=
.
2
12 21

Ce rapport prend la valeur 1 si les variables sont independantes, il est superieur a` 1 si les sujets de la ligne
1 ont plus de chances de prendre la premi`ere colonne que les sujets de la ligne 2 et inferieur a` 1 sinon.
Exemple : supposons qu`a lentree dans une e cole dingenieurs, 7 garcons sur 10 sont recus tandis que
seulement 4 filles sur 10 le sont. Lodds des garcons est alors de 0.7/0.3=2.33 tandis que celle des filles
est de 0.4/0.6=0.67. Lodds ratio est de 2.33/0.67=3.5. La chance detre recu est 3.5 plus grande pour les
garcons que pour les filles.
Lodds ratio est e galement defini pour deux lignes (a, b) et deux colonnes (c, d) quelconques dune table
de contingence croisant deux variables a` J et K modalites. Lodds ratio est le rapport
abcd =

3
3.1

ac bd
a
=
b
ad bc

b abcd = nac nbd .


estime par lodds ratio empirique
nad nbc

Regression logistique
Type de donnees

Cette section decrit la modelisation dune variable qualitative Z a` 2 modalites : 1 ou 0, succ`es ou


e chec, presence ou absence de maladie, panne dun e quipement, faillite dune entreprise, bon ou mauvais
client. . . . Les mod`eles de regression precedents adaptes a` lexplication dune variable quantitative ne sappliquent plus directement car le regresseur lineaire usuel X ne prend pas des valeurs simplement binaires.
Lobjectif est adapte a` cette situation en cherchant a` expliquer les probabilites
= P (Z = 1)

ou

1 = P (Z = 0),

ou plutot une transformation de celles-ci, par lobservation conjointe des variables explicatives. Lidee est
en effet de faire intervenir une fonction reelle monotone g operant de [0, 1] dans IR et donc de chercher un
mod`ele lineaire de la forme :
g(i ) = x0i .
Il existe de nombreuses fonctions, dont le graphe presente une forme sigmodale et qui sont candidates
pour remplir ce role, trois sont pratiquement disponibles dans les logiciels :
probit : g est alors la fonction inverse de la fonction de repartition dune loi normale, mais son expression
nest pas explicite.
log-log avec g definie par
g() = ln[ ln(1 )]
mais cette fonction est dissymetrique.
logit est definie par

ex
avec g 1 (x) =
.
1
1 + ex
Plusieurs raisons, tant theoriques que pratiques, font preferer cette derni`ere solution. Le rapport /(1
), qui exprime une cote, est lodds et la regression logistique sinterpr`ete donc comme la recherche
dune modelisation lineaire du log odds tandis que les coefficients de certains mod`eles expriment des
odds ratio cest-`a-dire linfluence dun facteur qualitatif sur le risque (ou la chance) dun e chec (dun
succ`es) de Z.
g() = logit() = ln

Cette section se limite a` la description de lusage e lementaire de la regression logistique. Des complements
concernant lexplication dune variable qualitative ordinale (plusieurs modalites), lintervention de variables
explicatives avec effet aleatoire, lutilisation de mesures repetees donc dependantes, sont a` rechercher dans
la bibliographie.

3. Regression logistique

3.2

39

Mod`ele binomial

On consid`ere, pour i = 1, . . . , I, differentes valeurs fixees x1i , . . . , xqi des variables explicatives X 1 , . . . , X q .
Ces derni`eres pouvant e tre des variables quantitatives ou encore des variables qualitatives, cest-`a-dire des
facteurs issus dune planification experimentale.
Pour chaque groupe,
PI cest-`a-dire pour chacune des combinaisons de valeurs ou facteurs, on realise ni
observations (n = i=1 ni ) de la variable Z qui se mettent sous la forme y1 /n1 , . . . , yI /nI o`u yi designe le
nombre de succ`es observes lors des ni essais. On suppose que toutes les observations sont independantes
et qu`a linterieur dun meme groupe, la probabilite i de succ`es est constante. Alors, la variable Yi sachant
ni et desperance E(Yi ) = ni i suit une loi binomiale B(ni , i ) dont la fonction de densite secrit :
 
ni yi
P (Y = yi ) =
(1 i )(ni yi ) .
yi i
On suppose que le vecteur des fonctions logit des probabilites i appartient au sous-espace vect{X 1 , . . . , X q }
engendre par les variables explicatives :
logit(i ) = x0i

i = 1, . . . , I

ce qui secrit encore


0

exi
i =
0
1 + exi

i = 1, . . . , I.

Le vecteur des param`etres est estime par maximisation de la log-vraisemblance. Il ny a pas de solution
analytique, celle-ci est obtenue par des methodes numeriques iteratives (par exemple Newton Raphson)
dont certaines reviennent a` iterer des estimations de mod`eles de regression par moindres carres generalises
avec des poids et des metriques adaptes a` chaque iteration.
Loptimisation fournit une estimation b de , il est alors facile den deduire les estimations ou previsions
des probabilites i :
0
exi b

bi =
0
1 + exi b
et ainsi celles des effectifs
ybi = ni
bi .
Remarques
i. La matrice X issue de la planification experimentale est construite avec les memes r`egles que celles
utilisees dans le cadre de lanalyse de covariance mixant variables explicatives quantitatives et qualitatives. Ainsi, les logiciels g`erent avec plus ou moins de clarte le choix des variables indicatrices et
donc des param`etres estimables ou contrastes associes.
ii. La situation decrite precedemment correspond a` lobservation de donnees groupees. Dans de nombreuses situations concr`etes et souvent d`es quil y a des variables explicatives quantitatives, les observations xi sont toutes distinctes. Ceci revient donc a` fixer ni = 1; i = 1, . . . , I dans les expressions
precedentes et la loi de Bernouilli remplace la loi binomiale. Certaines methodes ne sont alors plus
applicables et les comportements asymptotiques des distributions des statistiques de test ne sont plus
valides, le nombre de param`etres tendant vers linfini.
iii. Dans le cas dune variable explicative X dichotomique, un logiciel comme SAS fournit, en plus de
lestimation dun param`etre b, celle des odds ratios ; b est alors le log odds ratio ou encore, eb est
lodds ratio. Ceci sinterpr`ete en disant que Y a eb fois plus de chance de succ`es (ou de maladie
comme par un exemple un cancer du poumon) quand X = 1 (par exemple pour un fumeur).

3.3

Regressions logistiques polytomique et ordinale

La regression logistique adaptee a` la modelisation dune variable dichotomique se generalise au cas


dune variable Y a` plusieurs modalites ou polytomique. Si ces modalites sont ordonnes, on dit que la

40

Chapitre 3. Regression logistique

variable est qualitative ordinale. Ces types de modelisation sont tr`es souvent utilises en e pidemiologie et
permettent devaluer ou comparer des risques par exemples sanitaires. Des estimations dodds ratio ou
rapports de cotes sont ainsi utilises pour e valuer et interpreter les facteurs de risques associes a` differents
types (regression polytomique) ou seuils de gravite (regression ordinale) dune maladie ou, en marketing,
cela sapplique a` lexplication, par exemple, dun niveau de satisfaction dun client. Il sagit de comparer
entre elles des estimations de fonctions logit.
Dans une situation de data mining ou fouille de donnees, ce type dapproche se trouve lourdement
penalise lorsque, a` linterieur dun meme mod`ele polytomique ou ordinal, plusieurs types de mod`eles sont
en concurrence pour chaque fonction logit associee a` differentes modalites. Differents choix de variables,
differents niveaux dinteraction rendent trop complexe et inefficace cette approche. Elle est a` privilegier
uniquement dans le cas dun nombre restreint de variables explicatives avec un objectif explicatif ou interpretatif.
` titre illustratif, explicitons le cas simple dune variable Y a` k modalites ordonnees expliquee par une
A
Pk
seule variable dichotomique X. Notons j (X) = P (Y = j|X) avec j=1 j (X) = 1. Pour une variable
Y a` k modalites, il faut, en toute rigueur, estimer k 1 predicteurs lineaires :
gj (X) = j + j X

pourj = 1, . . . , k 1

et, dans le cas dune variable ordinale, la fonction lien logit utilisee doit tenir compte de cette situation
particuli`ere.
Dans la litterature, trois types de fonction sont considerees dependant de lechelle des rapports de cote
adoptee :
e chelle basee sur la comparaison des categories adjacentes deux a` deux,
sur la comparaison des categories adjacentes superieures cumulees,
et enfin sur la comparaison des categories adjacentes cumulees.
Pour k = 2, on retrouve les trois situations se ram`enent a` la meme dune variable dichotomique. Cest le
dernier cas qui est le plus souvent adopte ; il conduit a` definir les fonctions des logits cumulatifs de la
forme :
j+1 + + k
pourj = 1, . . . , k 1.
log
1 + + j
Pour un seuil donne sur Y , les categories inferieures a` ce seuil, cumulees, sont comparees aux categories
superieures cumulees. Les fonctions logit definies sur cette e chelle dependent chacune de tous les effectifs,
ce qui peut conduire a` une plus grande stabilite des mesures qui en decoulent.
Si les variables independantes sont nombreuses dans le mod`ele ou si la variable reponse Y comporte
un nombre e leve de niveaux, la description des fonctions logit devient fastidieuse. La pratique consiste
plutot a` determiner un coefficient global b (mesure deffet) qui soit la somme ponderee des coefficients bj .
Ceci revient a` faire lhypoth`ese que les coefficients sont homog`enes (idealement tous e gaux), cest-`a-dire
a` supposee que les rapports de cotes sont proportionnels. Cest ce que calcule implicitement la procedure
LOGISTIC de SAS appliquee a` une variable reponse Y ordinale en estimant un seul param`etre b mais k 1
termes constants correspondant a` des translations de la fonctions logit. La procedure LOGISTIC fournit le
resultat du test du score sur lhypoth`ese H0 de lhomogeneite des coefficients j .
Le coefficient b mesure donc lassociation du facteur X avec la gravite de la maladie et peut sinterpreter
comme suit : pour tout seuil de gravite choisi sur Y , la cote des risques davoir une gravite superieure a` ce
seuil est eb fois plus grande chez les exposes (X = 1) que chez les non exposes (X = 0).
Attention dans SAS, la procedure LOGISTIC adopte une parametrisation (1, 1) analogue a` celle de
la procedure CATMOD mais differente de celle de GENMOD ou SAS/Insight (0, 1). Ceci explique les
differences observees dans lestimation des param`etre dune procedure a` lautre mais les mod`eles sont
identiques.

Choix de mod`ele

5. Illustration e lementaire

41

DEBIT
4
3
2
1
0
0
DILAT

2
VOLUME
0

4
1

F IG . 3.1 Dilatation : Nuage des modalites de Y dans les coordonnees des variables explicatives.

4.1

Recherche pas a` pas

Principalement deux crit`eres (test du rapport de vraisemblance et test de Wald, cf. bibliographie), sont
utilises de facon analogue au test de Fisher du mod`ele lineaire gaussien. Ils permettent de comparer un
mod`ele avec un sous-mod`ele et devaluer linteret de la presence des termes complementaires. On suit
ainsi une strategie descendante a` partir du mod`ele complet. Lidee est de supprimer, un terme a` la fois, la
composante dinteraction ou leffet principal qui apparat comme le moins significatif au sens du rapport
de vraisemblance ou du test de Wald. Les tests presentent une structure hierarchisee. SAS facilite cette
recherche en produisant une decomposition (Type III) de ces indices permettant de comparer chacun des
sous-mod`eles excluant un des termes avec le mod`ele les incluant tous.
Attention, du fait de lutilisation dune transformation non lineaire (logit), meme si des facteurs sont orthogonaux, aucune propriete dorthogonalite ne peut e tre prise en compte pour letude des hypoth`eses. Ceci
impose lelimination des termes un par un et la re-estimation du mod`ele. Dautre part, un terme principal
ne peut e tre supprime que sil nintervient plus dans des termes dinteraction.

4.2

Crit`ere

Lapproche precedente favorise la qualite dajustement du mod`ele. Dans un but predictif, certains logiciels, comme Splus/R ou Enterpirse Miner, proposent dautres crit`eres de choix (AIC, BIC). Une estimation
de lerreur de prevision par validation croisee est aussi opportune dans une demarche de choix de mod`ele.

5
5.1

Illustration e lementaire
Les donnees

On e tudie linfluence du debit et du volume dair inspire sur loccurence (codee 1) de la dilatation des
vaisseaux sanguins superficiels des membres inferieurs. Un graphique e lementaire representant les modalites de Y dans les coordonnees de X 1 X 2 est toujours instructif. Il montre une separation raisonnable et
de bon augure des deux nuages de points. Dans le cas de nombreuses variables explicatives quantitatives,
une analyse en composantes principales simpose. Les formes des nuages representes, ainsi que lallure
des distributions (etudiees prealablement), incitent dans ce cas a` considerer par la suite les logarithmes des
variables. Une variable un ne contenant que des 1 denombrant le nombre dessais est necessaire dans la
syntaxe de genmod. Les donnees sont en effet non groupees.
proc logistic data=sasuser.debvol;
model dilat=l_debit l_volume;

42

Chapitre 3. Regression logistique

run;
proc genmod data=sasuser.debvol;
model dilat/un=l_debit l_volume/d=bin;
run;
The LOGISTIC Procedure
Intercept
Only
56.040
57.703
54.040
.

Criterion
AIC
SC
-2 LOG L
Score

Variable
INTERCPT
L_DEBIT
L_VOLUME

DF
1
1
1

Parameter(2)
Estimate
2.8782
-4.5649
-5.1796

Intercept
and
Covariates
Chi-Square for Covariates
35.216
.
40.206
.
29.216(1)
24.824 with 2 DF (p=0.0001)
.
16.635 with 2 DF (p=0.0002)
Standard
Wald(3)
Pr >
Standardized
Error
Chi-Square Chi-Square Estimate
1.3214
4.7443
0.0294
.
1.8384
6.1653
0.0130
-2.085068
1.8653
7.7105
0.0055
-1.535372

Odds
Ratio
.
0.010
0.006

Cette procedure fournit des crit`eres de choix de mod`ele dont la deviance (1), le vecteur b des param`etres
(2) et les statistiques des tests (3) comparant le mod`ele excluant un terme par rapport au mod`ele complet tel
quil est decrit dans la commande.
Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Value/DF
Deviance
36
29.2156
0.8115 (1)
Scaled Deviance
36
29.2156
0.8115 (2)
Pearson Chi-Square
36
34.2516
0.9514 (3)
Scaled Pearson X2
36
34.2516
0.9514
Log Likelihood
.
-14.6078
.

Parameter
INTERCEPT
L_DEBIT
L_VOLUME
SCALE (6)

(1)
(2)
(3)
(4)
(5)
(6)

5.2

Analysis Of Parameter Estimates


DF
Estimate (4) Std Err
ChiSquare (5) Pr>Chi
1
-2.8782
1.3214
4.7443
0.0294
1
4.5649
1.8384
6.1653
0.0130
1
5.1796
1.8653
7.7105
0.0055
0
1.0000
0.0000
.
.

Deviance du mod`ele par rapport au mod`ele sature.


Deviance ponderee si le param`etre dechelle est different de 1 en cas de sur-dispersion.
Statistique de Pearson, voisine de la deviance, comparant le mod`ele au mod`ele sature .
Param`etres du mod`ele.
Statistique des tests comparant le mod`ele excluant un terme par rapport au mod`ele complet.
Estimation du param`etre dechelle si la quasi-vraisemblance est utilisee.

Regression logistique ordinale

On e tudie les resultats dune e tude prealable a` la legislation sur le port de la ceinture de securite dans la
province de lAlberta a` Edmonton au Canada (Jobson, 1991). Un e chantillon de 86 769 rapports daccidents
de voitures ont e te compulses afin dextraire une table croisant :
i. Etat du conducteur : Normal ou Alcoolise
ii. Sexe du conducteur
iii. Port de la ceinture : Oui Non
iv. Gravite des blessures : 0 : rien a` 3 : fatales
Les modalites de la variable a` expliquer concernant la gravite de laccident sont ordonnees.
/* r
egression ordinale */
proc logistic data=sasuser.ceinture;
class sexe alcool ceinture;

6. Autres exemples

43

model gravite=sexe alcool ceinture ;


weight effectif;
run;

Parameter
Intercept
Intercept
Intercept
sexe
alcool
ceinture

Gr0
Gr1
Gr2
Sfem
A_bu
Cnon

DF
1
1
1
1
1
1

Estimate
1.8699
2.8080
5.1222
-0.3118
-0.5017
-0.1110

Standard
Error
0.0236
0.0269
0.0576
0.0121
0.0190
0.0174

Odds Ratio Estimates


Point
Effect
Estimate
sexe
Sfem vs Shom
0.536
alcool
A_bu vs Ajeu
0.367
ceinture Cnon vs Coui
0.801

Wald
Chi-Square
6264.9373
10914.3437
7917.0908
664.3353
697.0173
40.6681

Pr > ChiSq
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001

95% Wald
Confidence Limits
0.511
0.562
0.340
0.395
0.748
0.858

Autres exemples

Les exemples sont decrits dans cette section a` titre illustratif avec SAS ou R, une comparaison systematique
des performances de chaque methode est developpee dans le dernier chapitre conclusif.

6.1

Cancer du sein

Les donnees (Wisconsin BreastCancer Database) sont disponibles dans la librairie mlbench
du logiciel R. Elles servent tr`es souvent de base de reference a` des comparaisons de techniques dapprentissage. Les variables considerees sont :
Cl.thickness Clump Thickness
Cell.size Uniformity of Cell Size
Cell.shape Uniformity of Cell Shape
Marg.adhesion Marginal Adhesion
Epith.c.size Single Epithelial Cell Size
Bare.nuclei Bare Nuclei
Bl.cromatin Bland Chromatin
Normal.nucleoli Normal Nucleoli
Mitoses Mitoses
Class benign et malignant.
La derni`ere variable est celle a` predire, les variables explicatives sont ordinales ou nominales a` 10 classes.
Il reste 683 observations apr`es la suppression de 16 presentant des valeurs manquantes.
Ce jeu de donnees est assez particulier car plutot facile a` ajuster. Une estimation utilisant toutes les variables conduit a` des messages critiques indiquant un defaut de convergence et des probabilites exactement
ajustees. En fait le mod`ele sajuste exactement aux donnees en utilisant toutes les variables aussi lerreur de
prevision necessite une estimation plus soignee. Une separation entre un e chantillon dapprentissage et un
e chantillon test ou une validation croisee permet une telle estimation (voir le chapitre 5).
On trouve alors quun mod`ele plus parcimonieux et obtenu par une demarche descendante, de sorte
que les param`etres soient significatifs au sens dun test du Chi2, conduit a` des erreurs de prevision plus
faibles sur un e chantillon test independant quun mod`ele ajustant exactement les donnees. La qualite de
lajustement du mod`ele se resume sous la forme dune matrice de confusion e valuant les taux de bien et mal
classes sur lechantillon dapprentissage tandis que lerreur de prevision est estimee a` partir de lechantillon
test.

44

Chapitre 3. Regression logistique

# erreur dajustement
fitq.lm=glm(ClassCl.thickness+Cell.size+Cell.shape ,data=datapq,family=binomial)
table(fitq.lm$fitted.values>0.5,datapq[,"Class"])

FALSE
TRUE

benign malignant
345
6
13
182

# erreur de pr
evision
predq.lm=predict(fitq.lm,newdata=datestq) # prevision
table(predq.lm>0.5,datestq[,"Class"])

FALSE
TRUE

benign malignant
84
5
2
46

Le taux derreur apparent estime sur lechantillon dapprentissage est de 3,5% (0% avec le mod`ele
complet) tandis que le taux derreur estime sans biais sur lechantillon test est de 5,1% (5,8 avec le mod`ele
complet). Ces estimations demanderont a` e tre affinees afin de comparer les methodes entre elles.

6.2

Pic dozone

Plutot que de prevoir la concentration de lozone puis un depassement e ventuel dun seuil, il pourrait e tre
plus efficace de prevoir directement ce depassement en modelisant la variable binaire associee. Attention
toutefois, ces depassements e tant relativement peu nombreux (17%), il serait necessaire den accentuer
limportance par lintroduction dune fonction cout ou une ponderation specifique. Ceci est un probl`eme
general losquil sagit de prevoir des phenom`enes tr`es rares : un mod`ele trivial ne les prevoyant jamais ne
commettrait finalement quune erreur relative faible. Ceci revient a` demander au specialiste de quantifier
le risque de prevoir un depassement du seuil a` tord par rapport a` celui de ne pas prevoir ce depassement a`
tord. Le premier a` des consequences e conomiques et sur le confort des usagers par des limitations de trafic
tandis que le 2`eme a des consequences sur lenvironnement et la sante de certaines populations. Ce nest
plus un probl`eme statistique.
La recherche descendante dun meilleur mod`ele au sens du crit`ere dAkake conduit au resultat cidessous.
NULL
O3_pr
vmodule
s_rmh2o
station
TEMPE

Df Deviance Resid. Df Resid. Dev


831
744.34
1
132.89
830
611.46
1
2.42
829
609.04
1
33.71
828
575.33
4
16.59
824
558.74
1
129.39
823
429.35

P(>|Chi|)
9.576e-31
0.12
6.386e-09
2.324e-03
5.580e-30

On peut sinterroger sur linteret de la presence de la variable vmodule dont la presence rend plus
faible la prevision de lerreur au sens dAkake mais dont le coefficient nest pas significatif au sens du test
du Chi2 ; ce crit`ere e tant lie a` une qualite dajustement. Lerreur estimee sur lechantillon test ne permet
pas de departager ces mod`eles car les matrices de transition similaires conduisent a` la meme estimation
du taux derreur de 11,5% tandis que la meme erreur est de 13,2% pour le mod`ele MOCAGE. Un mod`ele
de regression logistique faisant intervenir les interactions dordre 2 et optimise par algorithme descendant aboutit a` une erreur de 10,6% tandis que le mod`ele quantitatif de regression quadratique du chapitre
precedent conduit a` une erreur de 10,1% avec le meme protocole et les memes e chantillons dapprentissage
et de test.
Matrices de confusion de l
echantillon test pour diff
erents mod`
eles :
0
1
0
1
0
1
0
1
FALSE 163 19
FALSE 162 18
FALSE 163 17
FALSE 160
13
TRUE
5 21
TRUE
6 22
TRUE
5 23
TRUE
8
27
logistique sans vmodule
avec vmodule
avec interactions
quantitatif

Notons que les erreurs ne sont pas symetriques et sont affectees du meme biais : tous ces mod`eles
oublient systematiquement plus de depassements de seuils quils nen prevoient a` tord. Une analyse

6. Autres exemples

45

plus poussee de lestimation de lerreur de prediction est e videmment necessaire et ce sera, sur le plan
` ce niveau de letude, ce qui est le plus utile au meteorologue,
methodologique, lobjet du prochain chapitre. A
cest lanalyse des coefficients les plus significativements presents dans la regression quadratique, cest-`adire avec les interactions. Ils fournissent des indications precieuses sur les faiblesses ou insuffisances de
leur mod`ele physique.

6.3

Carte visa

Ces donnees sont presentees en detail dans Baccini et Besse (2000). Il sagit de modeliser une variable binaire representant la possession ou non de la carte visa premier en fonction du comportement
bancaire dun client. Comme dans lexemple precedent, la possession de ce type de produit est rare ; aussi
un e chantillon specifique, non representatif, a e te construit en surrepresentant la possession de ce type de
produit.
Plusieurs strategies peuvent e tre mises en uvre sur ces donnees selon les transformations et codages
realises sur les variables qualitatives. Elles sont explorees lors des differents TPs. La strategie adoptee ici
consiste a` rechercher un meilleur mod`ele a` laide de la procedure SAS/STAT logistic en association
avec lun des trois algorithmes de selection (forward, backward ou stepwise).
La selection de variables ainsi retenue est ensuite utilisee avec la procedure genmod aux sorties plus
explicites qui est e galement mise en uvre dans le module SAS Enterprise Miner. Le taux apparent derreur
est e value a` partir du meme e chantillon dapprentissage et donc de mani`ere necessairement biaisee par
optimisme. Il mesure la qualite dajustement du mod`ele illustre par la matrice de confusion de lechantillon
ci-dessous associe a` un taux derreur de 11,5%.
YVAR1(CARVPR)
PREDY
Frequency|
Percent |
0|
1| Total
---------+--------+--------+
0 |
659 |
53 |
712
| 61.65 |
4.96 | 66.60
---------+--------+--------+
1 |
70 |
287 |
357
|
6.55 | 26.85 | 33.40
---------+--------+--------+
Total
729
340
1069
68.19
31.81
100.00

La meme demarche avec le logiciel R (voir les TP) conduit a` un mmod`ele qui, applique a` lechantillon
test, fournit la matrice de confusion suivante avec un taux derreur de 17% superieur a` celui sur lechantillon
dapprentissage qui est de 16%.
pred.vistest FALSE TRUE
FALSE
125
22
TRUE
12
41
On remarque que les e chantillons tires avec SAS ne conduisent pas du tout aux memes estimations derreurs
quavec les e chantillons tires avec R. Ce nest pas une question de logiciel, juste le hasard des tirages. Ceci
implique quil faudra estimer plus finement le taux derreur de prevision afin de comparer les methodes.
Ceux-ci sont en effet entaches dune grande variance.

46

Chapitre 3. Regression logistique

Chapitre 4
Mod`ele log-lineaire
1

Introduction

Comme dans le chapitre precedent, les mod`eles decrits dans ce chapitre sinteressent plus particuli`erement
a` la description ou lexplication dobservations constitues deffectifs ; nombre de succ`es dune variable de
Bernouilli lors dune sequence dessais dans la cas precedent de la regression logistique, nombre dindividus
qui prennent une combinaison donnee de modalites de variables qualitatives ou niveaux de facteurs, dans
le cas present. Ce mod`ele fait e galement partie de la famille du mod`ele lineaire general en e tant associe
a` une loi de Poisson. Il est e galement appele aussi mod`ele log-lineaire (voir Agresti (1990) pour un expose detaille) et sapplique principalement a` la modelisation dune table de contingence compl`ete. Comme
pour la regression logistique, les aspects au mod`ele lineaire general (estimation, tests, diagnostic) ont des
strategies de mise en uvreest similaire au cas gaussien ; ils ne sont pas repris.

2
2.1

Mod`ele log-lineaire
Types de donnees

Les donnees se presentent generalement sous la forme dune table de contingence obtenue par le croisement de plusieurs variables qualitatives et dont chaque cellule contient un effectif ou une frequence a`
modeliser. Nous nous limiterons a` letude dune table e lementaire en laissant de cote des structures plus
complexes, par exemple lorsque des zeros structurels, des independances conditionnelles, des proprietes de
symetrie ou quasi-symetrie, une table creuse, sont a` prendre en compte. Dautre part, sous sa forme la plus
generale, le mod`ele peut integrer e galement des variables quantitatives.
Ce type de situation se retrouve en analyse des correspondances simple ou multiple mais ici, lobjectif
est dexpliquer ou de modeliser les effectifs en fonction des modalites prises par les variables qualitatives.
Lobjectif final pouvant e tre explicatif : tester une structure de dependance particuli`ere, ou predictif avec
choix dun mod`ele parcimonieux.

2.2

Distributions

On consid`ere la table de contingence compl`ete constituee a` partir de lobservation des variables qualitatives X 1 , X 2 , . . . , X p sur un e chantillon de n individus. Les effectifs {yjk...l ; j = 1, J; k = 1, K; . . . ; l =
1, L} de chaque cellule sont ranges dans un vecteur y a` I(I = J K L) composantes. Differentes
hypoth`eses sur les distributions sont considerees en fonction du contexte experimental.
Poisson
Le mod`ele le plus simple consiste a` supposer que les variables observees Yi suivent des lois de Poisson
independantes de param`etre i = E(Yi ). La distribution conjointe admet alors pour densite :
f (y, ) =

I
Y
yi ei
i

i=1

47

yi !

48

Chapitre 4. Mod`ele log-lineaire

P
La somme N (N = y+ = i yi ) des IPvariables aleatoires de Poisson independantes est e galement une
variable de Poisson de param`etre + = i i .
Multinomiale
En pratique, le nombre total n dobservations est souvent fixe a priori par lexperimentateur et ceci
induit une contrainte sur la somme des yi . La distribution conjointe des variables Yi est alors conditionnee
par n et la densite devient :
 n +
I
Y
+ e
yi i ei
.
f (y, ) =
y
!
n!
i
i=1
Q
P
Comme n+ = i y+i et e+ = i ei , en posant i = +i , on obtient :
f (y, ) = n!

I
Y
yi
i

i=1

yi !

avec

I
X

i = 1 et 0 i 1; i = 1, I.

i=1

On verifie donc que f (y, ) est la fonction de densite dune loi multinomiale dans laquelle les param`etres
i modelisent les probabilites doccurrence associees a` chaque cellule. Dans ce cas, E(Yi ) = ni .
Produit de multinomiales
Dans dautres circonstances, des effectifs marginaux lignes, colonnes ou sous-tables, peuvent e tre e galement
fixes par lexperimentateur comme dans le cas dun sondage stratifie. Cela correspond au cas o`u une ou plusieurs variables sont controlees et ont donc un role explicatif ; leurs modalites sont connues a priori. Les
lois de chacun des sous-elements de la table, conditionnees par leffectif marginal correspondant sont multinomiales. La loi conjointe de lensemble est alors un produit de multinomiales.
Consequence
Trois mod`eles de distribution : Poisson, multinomial, produit de multinomiales, sont envisageables pour
modeliser Yi en fonction des conditions experimentales. Dun point de vue theorique, on montre que ces
mod`eles conduisent aux memes estimations des param`etres par maximum de vraisemblance. La difference
introduite par le conditionnement intervient par une contrainte qui impose la presence de certains param`etres
dans le mod`ele, ceux reconstruisant les marges fixees.

2.3

Mod`eles a` 2 variables

Soit une table de contingence (J K) issue du croisement de deux variables qualitatives X 1 a` J


modalites et X 2 a` K modalites et dont leffectif total n est fixe. La loi conjointe des effectifs Yjk de chaque
cellule est une loi multinomiale de param`etre jk et desperance :
E(Yjk ) = njk .
Par definition, les variables X 1 et X 2 sont independantes si et seulement si :
jk = +k j+
o`u j+ (resp. +k ) designe la loi marginale de X 1 (resp. X 2 ) :
j+ =

K
X

jk

et +k =

k=1

J
X

jk .

j=1

Si lindependance nest pas verifiee, on peut decomposer :


E(Yjk ) = njk = nj+ +k

jk
.
j+ +k

Notons jk = ln(E(Yjk )). Lintervention de la fonction logarithme permet de lineariser la decomposition


precedente autour du mod`ele dindependance :


jk
jk = ln n + ln j+ + ln +k + ln
.
j+ +k

2. Mod`ele log-lineaire

49

Ce mod`ele est dit sature car, presentant autant de param`etres que de donnees, il explique exactement cellesci. Lindependance est verifiee si le dernier terme de cette expression, exprimant une dependance ou interaction comme dans le mod`ele danalyse de variance, est nul pour tout couple (j, k).
Les logiciels mettent en place dautres parametrisations en faisant apparatre des effets differentiels, soit
par rapport a` une moyenne, soit par rapport a` la derni`ere modalite.
Dans le premier cas, en posant :
0

J
K
1 XX
jk = .. ,
JK j=1

K
1 X
jk .. = j. .. ,
K

J
1X
jk .. = .k .. ,
J j=1

k=1

j1

k=1

k2
12
jk

avec les relations :


j, k,

J
X
j=1

= jk j. .k + .. ,

j1 =

K
X
k=1

k2 =

J
X
j=1

12
jk
=

K
X

12
jk
= 0,

k=1

le mod`ele sature secrit :


12
ln(E(Yjk )) = jk = 0 + j1 + k2 + jk
.

Il se met sous la forme matricielle


= X
o`u X est la matrice experimentale (design matrix) contenant les indicatrices. Lindependance est obtenue
12
lorsque tous les termes dinteraction jk
sont nuls.
La deuxi`eme parametrisation consid`ere la decomposition :
Jk jK jk JK
.
jk = JK
JK JK Jk jK
En posant :
0

ln n + ln JK ,

j1

ln jK ln JK ,

k2

ln Jk ln JK ,

12
jk

ln jk ln jK ln Jk + ln JK ,

avec les memes relations entre les param`etres. Le mod`ele se met encore sous la forme :
= X
12
et se ram`ene a` lindependance si tous les param`etres jk
sont nuls.

Si lhypoth`ese dindependance est verifiee, on peut encore analyser les effets principaux :
si, j, j1 = 0 alors, jk = Jk =

1
+k .
J

Il y a e quiprobabilite des modalites de X 1 . Meme chose avec X 2 si les termes k2 sont tous nuls.
Les param`etres du mod`ele log-lineaire sont estimes en maximisant la log-vraisemblance dont lexplicitation est reportee au chapitre suivant comme cas particulier de mod`ele lineaire generalise. Pour les mod`eles
simples, les estimations sont deduites des effectifs marginaux mais comme, d`es que le mod`ele est plus complique, des methodes iteratives sont necessaires, elles sont systematiquement mises en uvre.

50

Chapitre 4. Mod`ele log-lineaire

2.4

Mod`ele a` trois variables

On consid`ere une table de contingence (J KL) obtenue par croisement de trois variables qualitatives
X 1 , X 2 , X 3 . La definition des param`etres est conduite de mani`ere analogue au cas de deux variables en
faisant apparatre des effets principaux et des interactions. Le mod`ele sature se met sous la forme :
12
13
23
123
ln(E(Yjkl )) = jkl = 0 + j1 + k2 + l3 + jk
+ jl
+ kl
+ jkl

et peut aussi est presente sous forme matricielle.


Nous allons expliciter les sous-mod`eles obtenus par nullite de certains param`etres et qui correspondent a`
des structures particuli`eres dindependance. Une facon classique de nommer les mod`eles consiste a` ne citer
que les interactions retenues les plus complexes. Les autres, ainsi que les effets principaux, sont contenues
de par la structure hierarchique du mod`ele. Ainsi, le mod`ele sature est designe par (X 1 X 2 X 3 ) correspondant a` la syntaxe X1|X2|X3 de SAS.
Cas poissonnien ou multinomial
Seul le nombre total dobservations n est fixe dans le cas multinomial, ceci impose simplement la
presence de 0 dans le mod`ele.
i. Mod`ele partiel dassociation ou de tout interaction dordre 2 : (X 1 X 2 , X 2 X 3 , X 1 X 3 )
123
Les termes jkl
sont tous nuls, seules les interactions dordre 2 sont presentes. Cest le mod`ele
implicitement considere par lanalyse multiple des correspondances. Il secrit :
12
13
23
jk = 0 + j1 + k2 + l3 + jk
+ jl
+ kl
.

ii. Independance conditionnelle : (X 1 X 2 , X 1 X 3 )


Si, en plus, lun des termes dinteraction est nul, par exemple kl = 0 pour tout couple (k, l), on dit
que X 2 et X 3 sont independantes conditionnellement a` X 1 et le mod`ele devient :
12
13
jk = 0 + j1 + k2 + l3 + jk
+ jl
.

iii. Variable independante : (X 1 , X 2 X 3 )


Si deux termes dinteraction sont nuls : jl jk = 0 pour tout triplet (j, k, l), alors X 1 est independante
de X 2 et X 3 .
23
jk = 0 + j1 + k2 + l3 + kl
.
iv. Independance : (X 1 , X 2 , X 3 )
Tous les termes dinteraction sont nuls :
jk = 0 + j1 + k2 + l3
et les variables sont mutuellement independantes.
Produit de multinomiales
Si une variable est explicative, par exemple X 3 , ses marges sont fixees, le mod`ele doit necessairement
conserver les param`etres
jk = 0 + l3 +
Si deux variables sont explicatives, par exemple X 2 et X 3 , le mod`ele doit conserver les termes :
23
jk = 0 + k2 + l3 + kl
+

La generalisation a` plus de trois variables ne pose pas de probl`eme theorique. Les difficultes viennent de
lexplosion combinatoire du nombre de termes dinteraction et de la complexite des structures dindependance.
Dautre part, si le nombre de variables est grand, on est souvent confronte a` des tables de contingence
creuses (beaucoup de cellules vides) qui rendent defaillant le mod`ele log-lineaire. Une e tude exploratoire
(correspondances multiples par exemple) prealable est necessaire afin de reduire le nombre des variables
considerees et celui de leurs modalites.

3. Choix de mod`ele

51

Choix de mod`ele

3.1

Recherche pas a` pas

Principalement deux crit`eres (test du rapport de vraisemblance et test de Wald), decrits en annexe pour
un cadre plus general, sont consideres. Ces crit`eres sont utilises comme le test de Fisher du mod`ele lineaire
gaussien. Ils permettent de comparer un mod`ele avec un sous-mod`ele et devaluer linteret de la presence
des termes complementaires. On suit ainsi une strategie descendante a` partir du mod`ele complet ou sature
dans le cas du mod`ele log-lineaire. Lidee est de supprimer, un terme a` la fois, la composante dinteraction
ou leffet principal qui apparat comme le moins significatif au sens du rapport de vraisemblance ou du
test de Wald. Les tests presentent une structure hierarchisee. SAS facilite cette recherche en produisant une
decomposition (Type III) de ces indices permettant de comparer chacun des sous-mod`eles excluant un des
termes avec le mod`ele les incluant tous.
Attention, du fait de lutilisation dune transformation non lineaire (log), meme si des facteurs sont orthogonaux, aucune propriete dorthogonalite ne peut e tre prise en compte pour letude des hypoth`eses. Ceci
impose lelimination des termes un par un et la re-estimation du mod`ele. Dautre part, un terme principal
ne peut e tre supprime que sil nintervient plus dans des termes dinteraction. Enfin, selon les conditions
experimentales qui peuvent fixer les marges dune table de contingence, la presence de certains param`etres
est imposee dans un mod`ele log-lineaire.

Exemples

4.1

Mod`ele poissonien

On e tudie les resultats dune e tude prealable a` la legislation sur le port de la ceinture de securite dans la
province de lAlberta a` Edmonton au Canada (Jobson, 1991). Un e chantillon de 86 769 rapports daccidents
de voitures ont e te compulses afin dextraire une table croisant :
i. Etat du conducteur : Normal ou Alcoolise
ii. Port de la ceinture : Oui Non
iii. Gravite des blessures : 0 : rien a` 3 : fatales
La procedure genmod est utilisee :
proc genmod data=sasuser.ceinture;
class co ce b ;
model effectif=co|ce|b @2 /type3 obstats dist=poisson;
run;
Une extraction des resultats donnent :
Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Value/DF
Deviance
3
5.0136
1.6712
LR Statistics For Type 3 Analysis
Source
DF
ChiSquare Pr>Chi
CO
CE
CO*CE
B
CO*B
CE*B

Parameter
INTERCEPT
CO
CE

A
N

1
1
1
3
3
3

3431.0877
3041.5499
377.0042
28282.8778
474.7162
42.3170

0.0001
0.0001
0.0001
0.0001
0.0001
0.0001

Analysis Of Parameter Estimates


DF
Estimate
Std Err
ChiSquare
1
3.6341
0.1550
550.0570
1
-2.2152
0.1438
237.3628
1
1.8345
0.1655
122.8289

Pr>Chi
0.0001
0.0001
0.0001

52

Chapitre 4. Mod`ele log-lineaire


CO*CE
B
B
B
CO*B
CO*B
CO*B
CE*B
CE*B
CE*B

EFFECTIF
12500
604
344
38
61971
...

A
0
1
2
A
A
A
N
N
N

0
1
2
0
1
2

Pred
12497
613.3370
337.8089
37.8677
61974

1
1
1
1
1
1
1
1
1
1

0.9343
5.7991
2.7848
2.1884
-1.4622
-0.6872
-0.5535
-0.2333
-0.0902
0.0741

0.0545
0.1552
0.1598
0.1637
0.1354
0.1423
0.1452
0.1658
0.1708
0.1748

293.9236
1396.7752
303.6298
178.7983
116.5900
23.3154
14.5293
1.9807
0.2786
0.1799

Observation Statistics
Xbeta
Std
HessWgt
9.4332
0.008930
12497
6.4189
0.0395
613.3370
5.8225
0.0530
337.8089
3.6341
0.1550
37.8677
11.0345
0.004016
61974

0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.1593
0.5976
0.6715

Lower
12280
567.6707
304.5010
27.9495
61488

Upper
12718
662.6770
374.7601
51.3053
62464

Les resultats montrent que le mod`ele de toute interaction dordre 2 est acceptable (deviance) et il semble
que tous les termes soient necessaires, toutes les interactions doivent e tre presentes au sens du test de Wald.

Chapitre 5
Qualite de prevision
1

Introduction

La performance du mod`ele issu dune methode dapprentissage sevalue par sa capacite de prevision
dite encore de capacite de generalisation dans la communaute informatique. La mesure de cette performance est tr`es importante puisque, dune part, elle permet doperer une selection de mod`ele dans une
famille associee a` la methode dapprentissage utilisee et, dautre part, elle guide le choix de la methode
en comparant chacun des mod`eles optimises a` letape precedente. Enfin, elle fournit, tous choix faits, une
mesure de la qualite ou encore de la confiance que lon peut accorder a` la prevision en vue meme, dans un
cadre legal, dune certification.
En dehors dune situation experimentale planifiee classique en Statistique, cest-`a-dire sans le secours
de mod`eles probabilistes, cest le cas, par principe, du data mining, trois types de strategies sont proposes :
i. un partage de lechantillon (apprentissage, validation, test) afin de distinguer estimation du mod`ele et
estimations de lerreur de prevision,
ii. une penalisation de lerreur dajustement faisant intervenir la complexite du mod`ele,
iii. un usage intensif du calcul (computational statistics) par la mise en uvre de simulations.
Le choix depend de plusieurs facteurs dont la taille de lechantillon initial, la complexite du mod`ele envisage, la variance de lerreur, la complexite des algorithmes cest-`a-dire le volume de calcul admissible.
Pour repondre aux objectifs de la 2`eme strategie adaptee a` un e chantillon deffectif trop restreint pour
e tre e clater en trois partie, differents crit`eres sont utilisees pour definir une qualite de mod`ele a` fin predictive.
Le plus ancien est naturellement une estimation dune erreur de prevision : risque quadratique ou
taux de mal classes, comme mesure dune distance moyenne entre le vrai ou le meilleur mod`ele
et celui considere. Ce risque quadratique se decomposant grossi`erement en un carre de biais et une
variance, lenjeu est de trouver un bon compromis entre ces deux composantes en considerant un
mod`ele parcimonieux.
Dautres crit`eres sont bases sur la dissemblance de Kullback entre mesure de probabilites. Ce crit`ere
mesure la qualite dun mod`ele en considerant la dissemblance de Kullback entre la loi de la variable
expliquee Y et celle de sa prevision Yb fournie par un mod`ele.
La derni`ere approche enfin, issue de la theorie de lapprentissage de Vapnik (1999), conduit a` proposer
une majoration de lerreur de prevision ou risque ne faisant pas intervenir la loi conjointe inconnue
ou des considerations asymptotiques mais une mesure de la complexite du mod`ele appelee dimension
de Vapnik-Chernovenkis.
Les travaux de Vapnik en theorie de lapprentissage ont conduit a` focaliser lattention sur la presence
ou labsence de proprietes theoriques basiques dune technique dapprentissage ou de modelisation :
consistance qui garantit la capacite de generalisation. Un processus dapprentissage est dit consistant si
lerreur sur lensemble dapprentissage et lerreur sur un jeu de donnees test convergent en probabilite
vers la meme limite lorsque la taille de lechantillon dapprentissage augmente.
vitesse de convergence. Une e valuation, quand elle est possible, de la vitesse de convergence de lerreur
53

54

Chapitre 5. Qualite de prevision


lorsque la taille augmente, est une indication sur la facon dont la generalisation sameliore et informe
sur la nature des param`etres, comme le nombre de variables explicatives, dont elle depend.

controle Est-il possible, a` partir dun e chantillon dapprentissage de taille fini donc sans considerations
asymptotiques, de controler la capacite de generalisation et donc de majorer le terme derreur de
prevision ou risque ?
Une estimation de la qualite de la prevision est donc un e lement central de la mise en place de la
strategie du data mining, telle quelle est decrite dans lintroduction (cf. chapitre 1 section 4) mais aussi
dans beaucoup de disciplines concernees par la modelisation statistique. Le point important a` souligner est
que le meilleur mod`ele en un sens predictif nest pas necessairement celui qui ajuste le mieux les donnees
(cas de sur-ajustement) ni meme le vrai mod`ele si la variance des estimations est importante.

Erreur de prevision

2.1

Definition

Soit Y la variable a` predire, X la variable p-dimensionnelle ou lensemble des variables explicatives, F


la loi conjointe de Y et X, z = {(x1 , y1 ), . . . , (xn , yn )} un e chantillon et
Y = (X) +
le mod`ele a` estimer avec E() = 0, Var() = 2 et independant de X ; X, comme chacun des xi , est de
dimension p.
Lerreur de prevision est definie par
b
EP (z, F ) = EF [Q(Y, (X))]
o`u Q est une fonction perte.
Si Y est quantitative, cette fonction perte est le plus generalement quadratique : Q(y, yb) = (y yb)2 ,
mais utilise parfois la valeur absolue : Q(y, yb) = |y yb|. Cette derni`ere a` lavantage detre plus robuste,
car moins sensible aux valeurs extremes, mais necessite des algorithmes doptimisation plus complexes et
pas necessairement a` solution unique.
Si Y est qualitative Q est une indicatrice de mal classe : Q(y, yb) = 1{y6=yb} .
Dans le cas quantitatif, lestimation du mod`ele par minimisation de EP revient a` une approximation de
la fonction et la solution est lesperance conditionnelle (connaissant lechantillon) tandis que, dans la cas
qualitatif, cest la classe la plus probable designee par le mode conditionnel qui est predite.

2.2

Decomposition
Lerreur de prevision se decompose dans le cas quantitatif1 . Considerons celle-ci en un point x0 .
EP (x0 )

b 0 ))2 | X = x0 ]
= EF [(Y (x
b 0 ) (x)]2 + EF [(x
b 0 ) EF (x
b 0 )]2
= 2 + [EF (x
= 2 + Biais2 + Variance.

Tr`es generalement, plus un mod`ele (la famille des fonctions admissibles) est complexe, plus il est flexible
et peu sajuster aux donnees observees et donc plus le biais est reduit. En revanche, la partie variance
augmente avec le nombre de param`etres a` estimer et donc avec cette complexite. Lenjeu, pour minimiser
le risque quadratique ainsi defini, est donc de rechercher un meilleur compromis entre biais et variance :
accepter de biaiser lestimation comme par exemple en regression ridge pour reduire plus favorablement la
variance.
1 Plusieurs

decompositions concurrentes ont e te proposees dans le cas qualitatif mais leur explicitation est moins claire.

3. Estimation avec penalisation

2.3

55

Estimation

Le premier type destimation a` considerer exprime la qualite dajustement du mod`ele sur lechantillon
observe. Cest justement, dans le cas quantitatif, ce crit`ere qui est minimise dans la recherche de moindres
carres. Ce ne peut e tre quune estimation biaisee, car trop optimiste, de lerreur de prevision ; elle est liee
aux donnees qui ont servi a` lajustement du mod`ele et est dautant plus faible que le mod`ele est complexe.
Cette estimation ne depend que de la partie biais de lerreur de prevision et ne prend pas en compte la
partie variance de la decomposition.
Cette estimation est notee :

1X
b i )).
Q(yi , (x
Ec
P =
n i=1
Cest simplement le taux de mal classes dans le cas qualitatif. Des crit`eres de risque plus sophistiques sont
envisages dans un contexte bayesien si des probabilites a priori sont connues sur les classes ou encore des
couts de mauvais classement (cf. chapitre 6).
chantillon
La facon la plus simple destimer sans biais lerreur de prevision consiste a` calculer Ec
P sur un e
independant nayant pas participe a` lestimation du mod`ele. Ceci necessite donc declater lechantillon en
trois parties respectivement appelees apprentissage, validation et test :
z = zAppr zValid zTest .
i. Ec
ee pour estimer un mod`ele,
P (zAppr ) est minimis
` la comparaison des mod`eles au sein dune meme famille afin de selectionner celui
ii. Ec
P (zValid ) sert a
qui minimise cette erreur,
iii. Ec
ee pour comparer entre eux les meilleurs mod`eles de chacune des methodes considerees.
P (zTest ) est utilis
Cette solution nest acceptable que si la taille de lechantillon initiale est importante sinon :
la qualite dajustement est degradee car n est plus petit,
la variance de lestimation de lerreur peut e tre importante et ne peut e tre estimee.
Si la taille de lechantillon est insuffisante, le point ii ci-dessus : la selection de mod`ele est basee sur un
autre type destimation de lerreur de prevision faisant appel soit a` une penalisation soit a` des simulations.

Estimation avec penalisation

3.1 Cp de Mallows
Le Cp de Mallows fut, historiquement, le premier crit`ere visant a` une meilleure estimation de lerreur
de prevision que la seule consideration de lerreur dajustement (ou le R2 ) dans le mod`ele lineaire. Il repose
sur une mesure de la qualite sur la base dun risque quadratique. Lerreur de prevision se decompose en :
EP = Ec
P (zAppr ) + Optim
qui est lestimation par resubstitution ou taux derreur apparent plus le biais par abus doptimisme. Il sagit
donc destimer cette optimisme pour apporter une correction et ainsi une meilleure estimation de lerreur
recherchee. cette correction peut prendre plusieurs formes. Elle est liee a` lestimation de la variance dans la
decomposition en biais et variance de lerreur ou cest encore une penalisation associee a` la complexite du
mod`ele.
Son expression est detaillee dans le cas de la regression lineaire chapitre 2. On montre (cf. Hastie et col.
2001), a` des fins de comparaison quil peut aussi se mettre sous une forme e quivalente :
d 2
Cp = Ec
P +2 s
n
o`u d est le nombre de param`etres du mod`eles (nombre de variables plus un)), n le nombre dobservations,
s2 une estimation de la variance de lerreur par un mod`ele de faible biais. Ce dernier point est fondamental
pour la qualite du crit`ere, il revient a` supposer que le mod`ele complet (avec toutes les variables) est le vrai
mod`ele ou tout du moins un mod`ele peu biaise afin de conduire a` une bonne estimation de de 2 .

56

3.2

Chapitre 5. Qualite de prevision

AIC, AICc , BIC

Contrairement au Cp associe a` un risque quadratique, le crit`ere dinformation dAkake (AIC) decoule


dune expression de la qualite du mod`ele basee sur la dissemblance de Kullback. Il se presente sous une
forme similaire mais plus generale que le Cp de Mallows. Il sapplique en effet a` tout mod`ele estime par
maximisation dune log-vraisemblance L et suppose que la famille de densites considerees pour modeliser
la loi de Y contient la vraie densite de Y .
Apr`es quelques developpements incluant de nombreuses approximations (estimation de param`etres par
maximum de vraisemblance, proprietes asymtotiques, formule de Taylor), le crit`ere dAkake se met sous
la forme :
d
AIC = 2L + 2 .
n
Dans le cas gaussien en supposant la variance connue, moindres carres et deviance concident, AIC est
e quivalent au Cp . Ce crit`ere poss`ede une version plus raffinee (AICc ) dans le cas gaussien et plus particuli`erement adaptee aux petits e chantillons et asymptotiquement e quivalente lorsque n est grand.
AIC = 2L +

n+d
.
nd2

Une argumentation de type bayesien conduit a` un autre crit`ere BIC (Bayesian information criterion) qui
cherche, approximativement (asymptotiquement), le mod`ele associe a` la plus grande probabilite a posteriori. Dans le cas dun mod`ele issu de la maximisation dune log-vraisemblance, il se met sous la forme :
d
BIC = 2L + log(n) .
n
On montre, dans le cas gaussien et en supposant la variance connue que BIC est proportionnel a` AIC avec
le facteur 2 remplace par log n. Ainsi, d`es que n > e2 7, 4, BIC tend a` penaliser plus lourdement les
mod`eles complexes. Asymptotiquement, on montre que la probabilite pour BIC de choisir le bon mod`ele
tend vers 1 lorsque n tend vers linfini. Ce nest pas le cas dAIC ni du Cp qui tendent alors a` choisir des
mod`eles trop complexes. Neanmoins a` taille fini, petite, BIC risque de se limiter a` des mod`eles trop simples.
Quelque soit le crit`ere adopte, il est facile de choisir le mod`ele presentant le plus faible AIC, AICc
ou BIC parmi ceux consideres. Globalement, si lestimation du mod`ele decoule dune maximisation de la
vraisemblance, estimation et choix de mod`ele reviennent a` minimiser un crit`ere de vraisemblance penalisee
secrit sous la forme :
Crit = f (Vraisemblance) + Penalisation(d)
o`u f est une fonction decroissante de la vraisemblance ( log) et la penalisation une fonction croissante de
la complexite du mod`ele.
Les crit`eres ci-dessus ont pour la plupart e te definis dans le cadre du mod`ele classique de regression
multiple pour lequel il existe de nombreuses references et certains e te generalises ou adaptes a` dautres
methodes en e tendant la notion de nombre de degres de libertes a` des situations o`u le nombre de param`etres
du mod`ele nest pas explicite (lissage ou regularisation).
Ainsi, pour les mod`eles non-lineaires voire plus complexes (non-parametriques en dimension infinie),
le nombre d de param`etres doit e tre remplace par une mesure de complexite p(). Par exemple, les mod`eles
b = Hy en incluant les methodes de regularisation (ridge) ou de
lineaires se mettent sous une forme : y
lissage (spline) o`u la matrice H depend uniquement des xi . Dans ce cas, le nombre effectif de param`etres
est defini comme la trace de la matrice H : d(H) = tr(H). Cest encore d, le rang de X cest-`a-dire le
nombre vecteurs de base (le nombre de variables + 1) si H est une matrice de projection orthogonale. Dans
dautres situations (perceptron), ce nombre de param`etres est plus difficile a` controler car il fait intervenir
les valeurs propres dune matrice hessienne.

3.3

Dimension de Vapnik-Chernovenkis

Cet indicateur mesure la complexite dune famille de fonctions candidates a` la definition un mod`ele de
prevision. Cette complexite est basee sur le pouvoir separateur de la famille de fonction.

3. Estimation avec penalisation

57

Considerons un e chantillon (x1 , . . . , xn ) de IRp . Il existe 2n differentes mani`eres de separer cet e chantillon
en deux sous-echantillons. Par definition, on dit quun ensemble F de fonctions hache ou mieux pulverise
(shatters) lechantillon si les 2n separations peuvent e tre construites par differents representants de la famille de fonction F . Ainsi, par exemple, pour p = 2, les fonctions lineaires (droites) peuvent pulveriser 3
points mais pas 4.
D E FINITION 5.1. Un ensemble de fonctions definis de IRp dans IR est dit de VC dimension (VapnikChernovenkis) h si :
tout jeu de h vecteurs de IRp peut e tre pulverise.
Aucun ensemble de h + 1 vecteurs ne peut e tre pulverise par cet ensemble de fonctions.
Exemples
La VC dimension de lensemble des hyperplans dans IRp est p + 1.
La VC dimension de lensemble des fonctions f (x, w) = sign(sin(w, x)) avec 0 < c < x < 1 o`u w
est un param`etre libre, est infinie.
La VC dimension de lensemble des indicatrices lineaires

p
X
f (x, w) = sign (wj xj ) + 1 avec kxk = 1
j=1

et satisfaisant la condition :
2

kwk =

p
X

wj2 C

j=1

depend de la constante C et peut prendre toutes les valeurs de 0 a` p.


Attention, les VC dimensions ne sont pas e gales au nombre de param`etres libres et sont souvent difficiles a`
exprimer pour une famille de fonctions donnees.
Vapnik (1999) prouve des resultats fondamentaux pour la theorie de lapprentissage :
Un processus dapprentissage est consistant si et seulement si la famille de mod`eles consideres a une
VC dimension h finie.
La majoration de la difference entre lerreur dapprentissage (ou par resubstitution ou erreur apparente) et lerreur de prevision depend du rapport entre la VC dimension h et la taille n de lensemble
dapprentissage.
Linegalite de Vapnik, qui secrit sous une forme analogue a` un intervalle de confiance, permet de
controler lerreur de prevision ou risque. Avec une probabilite 1 rho :
s

h(log( 2n
h ) + 1) log 4
.
EP < Ec
P +
n
Il est important de souligner que cette inegalite ne fait pas intervenir le nombre de variables explicatives p mais le rapport n/h. Elle ne fait pas intervenir non plus la loi conjointe inconnue du couple
(Y, X). Le deuxi`eme terme est grand (mauvaise precision) lorsque le rapport n/h est faible du a` une
trop grande VC dimension et donc une famille de mod`eles trop complexe.
En pratique, il est important de minimiser simultanement les deux termes de linequation. La strategie a`
adopter est le principe de minimisation structuree du risque (SRM) qui consiste a` faire de la VC dimension
h une variable controlee. Ayant defini une sequence ou structure de mod`eles embotes au sens de la VC
dimension :
S1 S2 Sk

si les VC dimensions associees verifient : h1 < h2 < < hk .

Il sagit de trouver la valeur h rendant le risque minimum et donc fournissant le meilleur compromis entre
les deux termes de linegalite de Vapnik.
La complexite de la famille des mod`eles peut e tre controlee par differents param`etres de la technique
dapprentissage consideree : le nombre de neurones dune couche dans un perceptron, le degre dun polynome, la contrainte sur les param`etres comme en regression ridge, une largeur de fenetre ou param`etre de
lissage...

58

Chapitre 5. Qualite de prevision

Le cas specifique de la discrimination

Les erreurs de previsions precedentes ainsi que les crit`eres de choix de mod`eles sont plus particuli`erement
adaptes a` une situation de regression et donc une variable Y quantitative. Dans une situation de discrimination le seul crit`ere de taux derreur de classement introduit precedemment nest pas toujours bien adapte
surtout, par exemple, dans le cadre de classes desequilibrees : un mod`ele trivial qui ne predit jamais une
classe peu representee ne commet pas un taux derreur superieur au pourcentage de cette classe. Cette situation est souvent delicate a` gerer et necessite une ponderations des observations ou encore lintroduction de
couts de mauvais classement disymetrique afin de forcer le mod`ele a` prendre en compte une petite classe.

4.1

Discrimination a` deux classes

Dans le cas du probl`eme le plus e lementaire a` deux classes, dautres crit`eres sont proposes afin devaluer
plus precisement une qualite de discrimination. La plupart des methodes vues (regression logistique), ou a`
venir dans les chapitre qui suivent, e valuent, pour chaque individu i, un score ou une probabilite
bi que cette
individu prenne la modalite Y = 1 (ou succ`es, ou possession dun actif, ou presence dune maladie...). Cette
probabilite ou ce score compris entre 0 et 1 est compare avec une valeur seuil s fixee a priori (en general
0, 5) :
Si
bi > s, ybi = 1 sinon

ybi = 0.

Pour un e chantillon de taille n dont lobservation de Y est connue ainsi que les scores
bi fournis par
un mod`ele, il est alors facile de construire la matrice dite de confusion croisant les modalites de la variable
predite au seuil s avec celles de la variable observee dans une table de contingence :
Prevision
ybi = 1
ybi = 0
Total

Observation
Y =1 Y =0
n11 (s) n10 (s)
n01 (s) n00 (s)
n+ 1
n+ 0

Total
n1+ (s)
n0+ (s)
n

Dans une situation classique de diagnostic medical ou en marketing les quantites suivantes sont considerees :
Vrais positifs les n11 (s) observations biens classees (b
yi = 1 et Y = 1),
Vrais negatifs les n00 (s) observations biens classees (b
yi = 0 et Y = 0),
Faux negatifs les n01 (s) observations mal classees (b
yi = 0 et Y = 1),
Faux positifs les n10 (s) observations mal classees (b
yi = 1 et Y = 0),
n01 (s)+n10 (s)
Le taux derreur : t(s) =
,
n
Le taux de vrais positifs ou sensibilite = nn11+(s)
1 ou taux de positifs pour les individus qui le sont
effectivement,
Le taux de vrais negatifs ou specificite = nn00+(s)
egatifs pour les individus qui le sont
0 ou taux de n
effectivement,
n10 (s)
Le taux de faux positifs = 1 Specificite = 1 nn00+(s)
0 = n+ 0 .
En revanche, en meteorologie, dautres taux sont utilises :
11 (s)
Le taux de bonnes previsions : H = nn1+
(s) ,
(s)
Le taux de fausses alertes : H = nn10+0
,
Le score de Pierce : PSS= H F , compris entre 1 et 1, e value la qualite dun mod`ele de prevision.
Si ce score est superieur a` 0, le taux de bonnes previsions est superieur a` celui des fausses alertes et
plus il est proche de 1, meilleur est le mod`ele.
Le score de Pierce a e te concu pour la prevision dev`enements climatiques rares afin de penaliser les
mod`eles ne prevoyant jamais ces e v`enements (H = 0) ou encore generant trop de fausses alertes (F = 1).
Le mod`ele ideal prevoyant tous les e v`enements critiques (H = 1) sans fausse alerte (F = 0). Des couts de
mauvais classement peuvent e tre introduits pour ponderer ce score.

4. Le cas specifique de la discrimination

59

F IG . 5.1 Banque : Courbes ROC estimees sur lechantillon dapprentissage et sur lechantillon test ainsi
que les aires sous ces courbes (AUC).

4.2

Courbe ROC et AUC

Les notions de specificite et de sensibilite proviennent de la theorie du signal ; leurs valeurs dependent
directement de celle du seuil s. En augmentant s, la sensibilite diminue tandis que la specificite augmente car
la r`egle de decision devient plus exigeante ; un bon mod`ele associe grande sensibilite et grande specificite
pour la detection dun signal. Ce lien est represente graphiquement par la courbe ROC (Receiver Operating Caracteristic) de la sensibilite (probabilite de detecter un vrai signal) en fonction de 1 moins la
specificite (probabilite de detecter un faux signal) pour chaque valeur s du seuil. Notons que la courbe
ROC est une fonction monotone croissante :
1

n00 (s)
n00 (s0 )
n11 (s)
n11 (s0 )
<1
s < s0
<
.
n+0
n+0
n+1
n+1

La figure 5.1 donne un exemple de courbes ROC pour associees au score dappetence de la carte visa
premier. Plus la courbe se rapproche du carre, meilleure est la discrimination, correspondant a` la fois a`
une forte sensibilite et une grande specificite. Laire sous la courbe : AUC (area under curve) mesure la
qualite de discrimination du mod`ele tandis quune analyse de la courbe aide au choix du seuil. Ainsi, dans
lexemple considere, un seuil de 0, 6 ne penalise pas e normement le nombre de positifs e cartes tout en
e conomisant des envois publicitaires par rapport a` un seuil de 0, 5.
Laire sous la courbe est calculee en considerant toutes les paires (i, i0 ) formees dun premier individu
avec yi = 1 et dun second avec yi0 = 0. Une paire est dite concordante si
bi >
bi0 ; discordante sinon. Le
nombre dex quo est n+0 n+1 nc nd o`u nc est le nombre de paires concordantes et nd le nombre de
paires discordantes. Alors,
nc + 0, 5(n+0 n+1 nc nd )
AUC =
.
n+0 n+1
On montre par ailleurs (voir par exemple Tenenhaus 2007) que le numerateur de cette expression est
encore la Statistique de test de Mann-Whitney tandis que le coefficient de Gini, qui est le double de la
surface entre la diagonale et la courbe vaut 2AUC 1.
Attention, pour comparer des mod`eles ou methodes de complexites differentes, ces courbes doivent e tre
estimees sur un e chantillon test. Elles sont bien e videmment optimistes sur lechantillon dapprentissage.
De plus, lAUC ne donne pas un ordre total pour classer des mod`eles car les courbes ROC peuvent se
croiser.

60

Chapitre 5. Qualite de prevision

Estimation par simulation

La validation croisee est dun principe simple, efficace et largement utilisee pour estimer une erreur
moyennant un surplus de calcul. Lidee est diterer lestimation de lerreur sur plusieurs e chantillons de
validation puis den calculer la moyenne. Cest indispensable pour reduire la variance et ainsi ameliorer
la precision lorsque la taille de lechantillon initial est trop reduite pour en extraire des e chantillons de
validation et test de taille suffisante.
Algorithm 2 Validation croisee
1: Decouper aleatoirement lechantillon en K parts (K-fold) de tailles approximativement e gales selon
une loi uniforme ;
2: Pour k=1 a` K Faire
3:
mettre de cote lune des partie,
4:
estimer le mod`ele sur les K 1 parties restantes,
5:
calculer lerreur sur chacune des observations qui nont pas participe a` lestimation
6: Fin Pour
7: moyenner toutes ces erreurs pour aboutir a` lestimation par validation croisee.

Plus precisement, soit : {1, . . . , n} 7 {1, . . . , K} la fonction dindexation qui,pour chaque observation, donne lattribution uniformement aleatoire de sa classe. Lestimation par validation croisee de lerreur
de prevision est :
n
1X
Q(yi , b( (i)) (xi ))
Ed
CV =
n i=1
o`u b(k) designe lestimation de sans prendre en compte la ki`eme partie de lechantillon.
Le choix K = 10 est le plus courant, cest souvent celui par defaut des logiciels (Splus). Historiquement,
la validation croisee a e te introduite par Allen avec K = n (delete-one cross validation). Ce dernier choix
nest possible que pour n relativement petit a` cause du volume des calculs necessaires et lestimation de
lerreur presente une variance souvent importante car chacun des mod`eles estimes est trop similaire au
mod`ele estime avec toutes les observations. En revanche, si K est petit (i.e. K = 5), la variance sera plus
faible mais le biais devient un probl`eme dependant de la facon dont la qualite de lestimation se degrade
avec la taille de lechantillon.
Minimiser lerreur estimee par validation croisee est une approche largement utilisee pour optimiser le
d
choix dun mod`ele au sein dune famille parametree. b est defini par b = arg min E
CV ().

5.1

Bootstrap

Cette section plus technique decrit des outils encore peu presents dans les logiciels commerciaux, elle
peut e tre sautee en premi`ere lecture.
Introduction
Lidee, dapprocher par simulation (Monte Carlo) la distribution dun estimateur lorsque lon ne connat
pas la loi de lechantillon ou, plus souvent, lorsque lon ne peut pas supposer quelle est gaussienne, est
lobjectif meme du bootstrap (Efron, 1982).
Le principe fondamental de cette technique de ree chantillonnage est de substituer, a` la distribution de
probabilite inconnue F , dont est issu lechantillon dapprentissage, la distribution empirique Fn qui donne
un poids 1/n a` chaque realisation. Ainsi on obtient un e chantillon de taille n dit e chantillon bootstrap selon
la distribution empirique Fn par n tirages aleatoires avec remise parmi les n observations initiales.
Il est facile de construire un grand nombre dechantillons bootstrap (i.e. B = 100) sur lesquels calculer
lestimateur concerne. La loi simulee de cet estimateur est une approximation asymptotiquement convergente sous des hypoth`eses raisonnables2 de la loi de lestimateur. Cette approximation fournit ainsi des
2 Echantillon

independant de meme loi et estimateur independant de lordre des observations.

5. Estimation par simulation

61

estimations du biais, de la variance, donc dun risque quadratique, et meme des intervalles de confiance
(avec B beaucoup plus grand) de lestimateur sans hypoth`ese (normalite) sur la vraie loi. Les grands principes de cette approche sont rappeles en annexe A.
Estimateur naf
Soit z un e chantillon bootstrap des donnees :
z = {(x1 , y1 ), . . . , (xn , yn )}.
Lestimateur plug-in de lerreur de prevision EP (z, F ), pour lequel la distribution F est remplacee par la
distribution empirique Fb (cf. section A1.1) est defini par :
1X
EP (z , Fb) =
nQ(yi , z (xi ))
n i=1
o`u z designe lestimation de a` partir de lechantillon bootstrap. Il conduit a` lestimation bootstrap de
lerreur moyenne de prevision EF [EP (z, F )] par
#
"
1X
b
nQ(yi , z (xi )) .
EBoot = EFb [EP (z , F )] = EFb
n i=1
Cette estimation est approchee par simulation :
B
1 X1X
nQ(yi , zb (xi )).
Ed
=
Boot
B
n i=1
b=1

Lestimation ainsi construite de lerreur de prevision est generalement biaisee par optimisme car, au gre des
simulations, les memes observations (xi , yi ) apparaissent a` la fois dans lestimation du mod`ele et dans celle
de lerreur. Dautres approches visent a` corriger ce biais.
Estimateur out-of-bag
La premi`ere sinspire simplement de la validation croisee. Elle consid`ere dune part les observations
tirees dans lechantillon bootstrap et, dautre part, celles qui sont laissees de cote pour lestimation du
mod`ele mais retenue pour lestimation de lerreur.
n
1X 1 X
Ed
Q(yi , zb (xi ))
oob =
n i=1 Bi
bKi

o`u Ki est lensemble des indices b des e chantillons bootstrap ne contenant pas la i`eme observation a` lissue
des B simulations et Bi = |Ki | le nombre de ces e chantillons ; B doit e tre suffisamment grand pour que
toute observation nait pas e te tiree au moins une fois ou bien les termes avec Ki = 0 sont supprimes.
Lestimation Ed
esout le probl`eme dun biais optimiste auquel est confrontee Ed
echappe
oob r
Boot mais n
d
pas au biais introduit pas la reduction tel quil est signale pour lestimation pas validation croisee ECV . Cest
ce qui a conduit Efron et Tibshirani (1997) a proposer des correctifs.
Estimateur .632-bootstrap
La probabilite quune observation soit tiree dans un e chantillon bootstrap est
P [xi xb ] = 1 (1

1
1 n
) 1 0, 632.
n
e

Tr`es approximativement, la degradation de lestimation provoquee par le bootstrap et donc la surevaluation


` la suite dun raisonnement trop
de lerreur sont analogues a` celle de la validation croisee avec K = 2. A
long pour e tre reproduit ici, Efron et Tibshirani (1997) proposent de compenser exc`es doptimisme du taux
apparent derreur et exc`es de pessimisme du bootstrap out-of-bag par une combinaison :
c
d
E[
.632 = 0, 368 EP + 0, 632 Eoob .

62

5.2

Chapitre 5. Qualite de prevision

Remarques
Toutes les estimations de lerreur de prevision considerees (penalisation, validation croisee, bootstrap) sont asymptotiquement e quivalentes et il nest pas possible de savoir laquelle concr`etement
sera, a` n fini, la plus precise. Une large part darbitraire ou dexperience preside donc le choix
dune estimation plutot quune autre.
Conceptuellement, le bootstrap est plus complique et pratiquement encore peu utilise. Neanmoins,
cet outil joue un role central dans les algorithmes recents de combinaison de mod`eles (cf. chapitre 9)
en association avec une estimation out-of-bag de lerreur. Il ne peut e tre neglige.
Lestimateur .632-bootstrap pose des probl`emes en situation de sur-ajustement aussi les memes auteurs ont propose un rectifcatif complementaire note .632+bootstrap.
Comme le signale Vapnik, la resolution dun probl`eme de modelisation : regression ou discrimination
a` fin predictive doit, dans la mesure du possible, deviter de se ramener a` un probl`eme finalement
beaucouop plus complexe comme celui de lestimation dune densite multidimensionnelle. Cest ainsi
typiquement le cas en analyse discriminante non parametrique.

Ce quil faut retenir en conclusion, cest que lestimation dune erreur de prevision est une operation delicate
aux consequences importantes. Il est donc necessaire
dutiliser le meme estimateur pour comparer lefficacite de deux methodes,
de se montrer tr`es prudent, en dehors de tout syst`eme dhypoth`eses probabilistes, sur le caract`ere
absolu dune estimation dans lobjectif dune certification.
Dans ces deux derni`eres situations, le recours a` un e chantillon test de bonne taille est difficilement contournable alors quen situation de choix de mod`ele au sein dune meme famille, un estimateur (petit e chantillon
de validation, validation croisee) plus e conomique est adapte en supposant implicitement que le biais induit
est identique dun mod`ele a` lautre.

Chapitre 6
Analyse Discriminante Decisionnelle
1

Introduction

Lobjet de ce chapitre est lexplication dune variable qualitative Y a` m modalites par p variables quantitatives X j , j = 1, . . . , p observees sur unmeme e chantillon de taille n. Lobjectif de lanalyse discriminante decisionnelle deborde le simple cadre descriprif de lanalyse facorielle discriminante (AFD).
Disposant dun nouvel individu (ou de plusieurs, cest la meme chose) sur lequel on a observe les X j mais
pas Y , il sagit maintenant de decider de la modalite T` de Y (ou de la classe correspondante) de ce nouvel individu. On parle aussi de probl`eme daffectation. LADD sapplique donc e galement a` la situation
precedente de la regression logistique (m = 2) mais aussi lorsque le nombre de classes est plus grand que
2.
Pour cela, on va definir et e tudier dans ce chapitre des r`egles de decision (ou daffectation) et donner ensuite les moyens de les e valuer sur un seul individu ; x = (x1 , . . . , xp ) designe les observations des variables
explicatives sur cet individu, {g` ; ` = 1, . . . , m} les barycentres des classes calcules sur lechantillon et x
le barycentre global.
La matrice de covariance empirique se decompose en
S = Se + Sr .
o`u Sr est appelee variance intraclasse (within) ou residuelle :
0

Sr = Xr DXr =

m X
X

wi (xi g` )(xi g` )0 ,

`=1 i`

et Se la variance interclasse (between) ou expliquee :


0

Se = G DG = X e DX e =

m
X

w` (g` x)(g` x)0 .

`=1

2
2.1

R`egle de decision issue de lAFD


Cas general : m quelconque

D E FINITION 6.1. On affectera lindividu x a` la modalite de Y minimisant :


d2S1 (x, g` ), ` = 1, . . . , m.
r

Cette distance se decompose en


2

d2S1 (x, g` ) = kx g` kS1


= (x g` )0 S1
r (x g` )
r
r

63

64

Chapitre 6. Analyse Discriminante Decisionnelle

et le probl`eme revient donc a` maximiser


1 0 1
g`0 S1
r x g` Sr g` .
2
Il sagit bien dune r`egle lineaire en x car elle peut secrire : A` x + b` .

Cas particulier : m = 2

2.2

Dans ce cas, la dimension r de lAFD vaut 1. Il ny a quune seule valeur propre non nulle 1 , un seul
vecteur discriminant v 1 et un seul axe discriminant 1 . Les 2 barycentres g1 et g2 sont sur 1 , de sorte
que v 1 est colineaire a` g1 g2 .
Lapplication de la r`egle de decision permet daffecter x a` T1 si :
1 0 1
1 0 1
0 1
g10 S1
r x g1 Sr g1 > g2 Sr x g2 Sr g2
2
2
cest-`a-dire encore si
0 1
(g1 g2 )0 S1
r x > (g1 g2 ) Sr

g1 + g2
.
2

Remarque
La r`egle de decision liee a` lAFD est simple mais elle est limitee et insuffisante notamment si les
variances des classes ne sont pas identiques. De plus, elle ne tient pas compte de lechantillonnage pour x :
tous les groupes nont pas necessairement la meme probabilite doccurence.

R`egle de decision bayesienne

3.1

Introduction

Dans cette optique, on consid`ere que la variable Y , qui indique le groupe dappartenance dun individu,
prend ses valeurs dans {T1 , . . . , Tm } et est munie dune loi de probabilite 1 , . . . , m . Les probabilites
` = P [T` ] representent les probabilites a priori des classes ou groupes ` . On suppose que les vecteurs x
des observations des variables explicatives suivent, connaissant leur classe, une loi de densite
f` (x) = P [x | T` ]
par rapport a` une mesure de reference1 .

3.2

Definition

Une r`egle de decision est une application de dans {T1 , . . . , Tm } qui, a` tout individu, lui affecte une
classe connaissant x. Sa definition depend du contexte de letude et prend en compte la
connaissance ou non de couts de mauvais classement,
connaissance ou non des lois a priori sur les classes,
nature aleatoire ou non de lechantillon.
On designe par c` | k le cout du classement dans T` dun individu de Tk . Le risque de Bayes dune r`egle de
decision exprime alors le cout moyen :
R =

m
X
k=1

o`u

R
{x | (x)=T` }
1 La

m
X
`=1

Z
c` | k

fk (x)dx
{x | (x)=T` }

fk (x)dx represente la probabilite daffecte x a` T` alors quil est dans Tk .

mesure de Lebesgues pour des variables reelles, celle de comptage pour des variables qualitatives

4. R`egle bayesienne avec mod`ele normal

65

inconnus
Couts

3.3

Lestimation des couts nest pas du ressort de la Statistique et, sils ne sont pas connus, on suppose
simplement quils sont tous e gaux. La minimisation du risque ou r`egle de Bayes revient alors a` affecter tout
x a` la classe la plus probable cest-`a-dire a` celle qui maximise la probabilite conditionnelle a posteriori :
P [T` | x]. Par le theor`eme de Bayes, on a :
P [T` ].P [x | T` ]
P [T` et x]
=
P [x]
P [x]
Pm
avec le principe des probabilites totales : P [x] = `=1 P [T` ].P [x | T` ].
P [T` | x] =

Comme P [x] ne depend pas de `, la r`egle consistera a` choisir T` maximisant


P [T` ].P [x | T` ] = ` .P [x | T` ];
P [x | T` ] est la probabilite dobserver x au sein de la classe T` . Pour une loi discr`ete, il sagit dune
probabilite du type P [x = xlk | T` ] et dune densite f (x | T` ) pour une loi continue. Dans tous les cas nous
utiliserons la notation f` (x).
La r`egle de decision secrit finalement sous la forme :
(x) = arg max ` f` (x).
`=1,...,m

3.4

Determination des a priori

Les probabilites a priori ` peuvent effectivement e tre connues a priori : proportions de divers groupes
dans une population, de diverses maladies. . . ; sinon elles sont estimees sur lechantillon dapprentissage :
n`
(si tous les individus ont le meme poids)

b` = w` =
n
a` condition quil soit bien un e chantillon aleatoire susceptible de fournir des estimations correctes des
frequences. Dans le cas contraire il reste a` considerer tous les ` e gaux.

3.5

Cas particuliers
Dans le cas o`u les probabilites a priori sont e gales, cest par exemple le cas du choix de probabilites
non informatives, la r`egle de decision bayesienne revient alors a` maximiser f` (x) qui est la vraisemblance, au sein de T` , de lobservation x. La r`egle consiste alors a` choisir la classe pour laquelle cette
vraisemblance est maximum.
Dans le cas o`u m = 2, on affecte x a` T1 si :
f1 (x)
2
>
f2 (x)
1
faisant ainsi apparatre un rapport de vraisemblance. Dautre part, lintroduction de couts de mauvais
classement differents selon les classes am`ene a` modifier la valeur limite 2 /1 .

Finalement, il reste a` estimer les densites conditionnelles f` (x). Les differentes methodes destimation
considerees conduisent aux methodes classiques de discrimination bayesienne objets des sections suivantes.

R`egle bayesienne avec mod`ele normal

On suppose dans cette section que, conditionnellement a` T` , x = (x1 , . . . , xp ) est lobservation dun
vecteur aleatoire gaussien N (` , ` ) ; ` est un vecteur de IRp et ` une matrice (p p) symetrique et
definie-positive. La densite de la loi, au sein de la classe T` , secrit donc :


1
1
0 1
f` (x) =
exp (x ` ) ` (x ` ) .
2
2(det(` ))1/2
Laffectation de x a` une classe se fait en maximisant ` .f` (x) par rapport a` l soit encore la quantite :
ln(` )

1
1
ln(det(` )) (x ` )0 1
` (x ` ).
2
2

66

4.1

Chapitre 6. Analyse Discriminante Decisionnelle

Heteroscedasticite

Dans le cas general, il ny a pas dhypoth`ese supplementaire sur la loi de x et donc les matrices `
sont fonction de `. Le crit`ere daffectation est alors quadratique en x. Les probabilites ` sont supposees
connues mais il est necessaire destimer les moyennes ` ainsi que les covariances ` en maximisant,
compte tenu de lhypoth`ese de normalite, la vraisemblance. Ceci conduit a` estimer la moyenne
c` = g`

par la moyenne empirique de x dans la classe l pour lechantillon dapprentissage et ` par la matrice de
covariance empirique SRl :
X
1
(xi g` )(xi g` )0
SRl =
n` 1
i`

pour ce meme e chantillon.

4.2

Homoscedasticite

On suppose dans ce cas que les lois de chaque classe partagent la meme structure de covariance ` = .
Supprimant les termes independants de l, le crit`ere a` maximiser devient
1
0 1
ln(` ) 0` 1
` ` + ` ` x
2
qui est cette fois lineaire en x. Les moyennes ` sont estimees comme precedemment tandis que est
estimee par la matrice de covariance intra empirique :
SR =

m
1 XX
(xi g` )(xi g` )0 .
nm
`=1 i`

Si, de plus, les probabilites ` sont e gales, apr`es estimation le crit`ere secrit :
1 0 1
x` 0 S1
R x x` SR x` .
2
On retrouve alors le crit`ere de la section 2 issu de lAFD.

4.3

Commentaire

Les hypoth`eses : normalite, e ventuellement lhomoscedasticite, doivent e tre verifiees par la connaissance a priori du phenom`ene ou par une e tude prealable de lechantillon dapprentissage. Lhypoth`ese
dhomoscedasticite, lorquelle est verifiee, permet de reduire tr`es sensiblement le nombre de param`etres
a` estimer et daboutir a` des estimateurs plus fiables car de variance moins e levee. Dans le cas contraire,
lechantillon dapprentissage doit e tre de taille importante.

5
5.1

R`egle bayesienne avec estimation non parametrique


Introduction

En Statistique, on parle destimation non parametrique ou fonctionnelle lorsque le nombre de param`etres


a` estimer est infini. Lobjet statistique a` estimer est alors une fonction par exemple de regression y = f (x)
ou encore une densite de probabilite. Dans ce cas, au lieu de supposer quon a affaire a` une densite de type
connu (normale) dont on estime les param`etres, on cherche une estimation fb de la fonction de densite f .
Pour tout x de IR, f (x) est donc estimee par fb(x).
Cette approche tr`es souple a lavantage de ne pas necessiter dhypoth`ese particuli`ere sur la loi (seulement la regularite de f pour de bonnes proprietes de convergence), en revanche elle nest applicable quavec
des e chantillons de grande taille dautant plus que le nombre de dimensions p est grand (curse of dimensionality).
Dans le cadre de lanalyse discriminante, ces methodes permettent destimer directement les densites
f` (x). On consid`ere ici deux approches : la methode du noyau et celle des k plus proches voisins.

5. R`egle bayesienne avec estimation non parametrique

5.2

67

Methode du noyau

Estimation de densite
Soit y1 , . . . , yn n observations e quiponderees dune v.a.r. continue Y de densite f inconnue. Soit K(y)
(le noyau) une densite de probabilite unidimensionnelle (sans rapport avec f ) et h un reel strictement positif.
On appelle estimation de f par la methode du noyau la fonction
n

1 X
K
fb(y) =
nh i=1

y yi
h


.

Il est immediat de verifier que


Z
y IR, fb(y) 0

fb(y)dy = 1;

et

h est appele largeur de fenetre ou param`etre de lissage ; plus h est grand, plus lestimation fb de f est
reguli`ere. Le noyau K est choisi centre en 0, unimodal et symetrique. Les cas les plus usuels sont la densite
gaussienne, celle uniforme sur [1, 1] ou triangulaire : K(x) = [1 |x|]1[1,1] (x). La forme du noyau
nest pas tr`es determinante sur la qualite de lestimation contrairement a` la valeur de h.
Application a` lanalyse discriminante
La methode du noyau est utilisee pour calculer une estimation non parametrique de chaque densite
f` (x) qui sont alors des fonctions definies dans IRp . Le noyau K dont donc e tre choisi multidimensionnel
et


1 X x xi
b
f` (x) =
K
.
n` hp
h
i`

Un noyau multidimensionnel peut e tre defini a` partir de la densite usuelle de lois : multinormale Np (0, p )
ou uniforme sur la sph`ere unite ou encore par produit de noyaux unidimensionnels :
K (x) =

p
Y

K(xj ).

j=1

5.3 k plus proches voisins


Cette methode daffectation dun vecteur x consiste a` enchaner les e tapes decrites dans lalgorithme
ci-dessous. Pour k = 1, x est affecte a` la classe du plus proche e lement.
Algorithm 3 k-nn
Choix dun entier k : 1 k n.
Calculer les distances dM (x, xi ) , i = 1, . . . , n o`u M est la metrique de Mahalanobis cest-`a-dire la
matrice inverse de la matrice de variance (ou de variance intra).
Retenir les k observations x(1) , . . . , x(k) pour lesquelles ces distances sont les plus petites.
Compter les nombres de fois k1 , . . . , km que ces k observations apparaissent dans chacune des classes.
Estimer les densites par
k`
fb` (x) =
;
kVk (x)
o`u Vk (x) est le volume de lellipsode {z|(z x)0 M(z x) = dM (x, x(k) )}.
Comme toute technique, celles presentees ci-dessus necessitent le reglage dun param`etre (largeur de
fenetre, nombre de voisins consideres). Ce choix sapparente a` un choix de mod`ele et necessite le meme
type dapproche a` savoir loptiomisation dun crit`ere (erreur de classement, validation croisee (cf. chapitre
5).

68

Chapitre 6. Analyse Discriminante Decisionnelle

TAB . 6.1 Cancer : estimations des taux derreurs de prevision obtenus par differents types danalyse
discriminante
Methode
lineaire
kNN

apprentissage
1,8
2,5

validations croisee
3,8
2,7

test
3,6
2,9

TAB . 6.2 Cancer : estimations des taux derreurs de prevision obtenus par differents types danalyse
discriminante
Methode
lineaire
quadratique

6
6.1

apprentissage
11,9
12,7

validations croisee
12,5
14,8

test
12,0
12,5

Exemples
Cancer du sein

Par principe, lanalyse discriminante sapplique a` des variables explicativers quantitatives. Ce nest pas
le cas des donnees qui sont au mieux ordinales. Il est clair que contruire une fonction de disrimination
comme combinaison de ces variables na gu`ere de sens. Neanmoins, en sattachant uniquement a` la qualite
de prevision sans essayer de constuire une interpretation du plan ou de la surface de discrimination, il est
dusage dutiliser lanalyse discriminante de facon sauvage. Les resultats obtenus sont resumes dans le
tableau 6.2. Lanalyse dicriminante quadratique, avec matrice de variance estimee pour chaque classe na
pas pu e tre calculee. Une des matrices nest pas inversible.

6.2

Concentration dozone

Dans cet exemple aussi, deux variables sont qualitatives : le type de jour a` 2 modalites ne pose pas de
probl`eme mais remplacer la station par un entier est plutot abusif. Dailleurs, les plus proches voisins ne
lacceptent, une transformation des donnees seraient necessaire.

6.3

Carte visa

Comme pour les donnees sur le cancer, les donnees bancaires posent un probl`eme car elles associent
differents types de variables. Il est possible de le contourner, pour celles binaires, en considerant quantitative, lindicatrice de la modalite (0 ou 1). Pour les autres, certaines procedures (DISQUAL pour discrimination sur variables qualitatives) proposent de passer par une analyse factorielle multiple des correspondances
pour rendre tout quantitatif mais ceci nest pas implemente de facon standard dans les logiciels dorigine
americaine.
Pour lanalyse discriminante, R ne propose pas de selection automatique de variable mais inclut une
estimation de lerreur par validation croisee. Les resultats trouves sont resumes dans le tableau 6.3. Seule
une discimination lineaire semble fournir des resultats raisonnables, la recherche dune discrimination quadratique napporte rien pour cs donnees. De son cote, SAS propose une selection automatique (procedure
stepdisc) mais les resultats obtenus ne sont pas sensiblement meilleurs apr`es selection.

6. Exemples

69

TAB . 6.3 Banque : estimations des taux derreurs de prevision obtenus par differents types danalyse
discriminante
Methode
lineaire
quadratique
kNN

apprentissage
16,5
17,8
23,5

validations croisee
18,3
22,0
29,8

test
18
30
29

70

Chapitre 6. Analyse Discriminante Decisionnelle

Chapitre 7
Arbres binaires
1

Introduction

Ce chapitre sinteresse aux methodes ayant pour objectif la construction darbres binaires de decision,
modelisant une discrimination ou une regression. Complementaires des methodes statistiques plus classiques : analyse discriminante, regression lineaire, les solutions obtenues sont presentees sous une forme
graphique simple a` interpreter, meme pour des neophytes, et constituent une aide efficace pour laide a` la
decision. Elles sont basees sur un decoupage, par des hyperplans, de lespace engendre par les variables explicatives. Nommees initialement partitionnement recursif ou segmentation, les developpements importants
de Breiman et col. (1984) les ont fait connatre sous lacronyme de CART : Classification and Regression
Tree ou encore de C4.5 (Quinlan, 1993) dans la communaute informatique. Lacronyme correspond a` deux
situations bien distinctes selon que la variable a` expliquer, modeliser ou prevoir est qualitative (discrimination ou en anglais classification) ou quantitative (regression).
Ces methodes ne sont efficaces que pour des tailles dechantillons importantes et elles sont tr`es calculatoires. Les deux raisons : mod`ele graphique de decision simple a` interpreter, puissance de calcul necessaire,
suffisent a` expliquer leur popularite recente. De plus, elles requi`erent plutot moins dhypoth`eses que des
methodes statistiques classiques et semblent particuli`erement adaptees au cas o`u les variables explicatives
sont nombreuses. En effet, la procedure de selection des variables est integree a` lalgorithme construisant
larbre, dautre part, les interactions sont prises en compte. Neanmoins, cet algorithme suivant une strategie
pas a` pas hierarchisee, il peut, comme dans le cas du choix de mod`ele en regression, passer a` cote dun
optimum global ; il se montre par ailleurs tr`es sensible a` des fluctuations dechantillon rt necessite une optimisation delicate de loptimisation de la complexite par e lagage. Ceci souligne encore limportance de
confronter plusieurs approches sur les memes donnees.

2
2.1

Construction dun arbre binaire


Principe

Les donnees sont constituees de lobservation de p variables quantitatives ou qualitatives explicatives


X j et dune variable a` expliquer Y qualitative a` m modalites {T` ; ` = 1 . . . , m} ou quantitative reelle,
observees sur un e chantillon de n individus.
La construction dun arbre de discrimination binaire (cf. figure 2.1) consiste a` determiner une sequence
de nuds.
Un nud est defini par le choix conjoint dune variable parmi les explicatives et dune division qui induit une partition en deux classes. Implicitement, a` chaque nud correspond donc un sous-ensemble
de lechantillon auquel est appliquee une dichotomie.
Une division est elle-meme definie par une valeur seuil de la variable quantitative selectionnee ou un
partage en deux groupes des modalites si la variable est qualitative.
` la racine ou nud initial correspond lensemble de lechantillon ; la procedure est ensuite iteree sur
A
chacun des sous-ensembles.
71

72

Chapitre 7. Arbres binaires




Revenu < 10000

Revenu > 10000


@
@
@
@
@ 





Sexe=H @ Sexe=F Age < 50 @ Age > 50
@
@
@
@
@
@
@
@ 

Tj
T
T`
j

F IG . 7.1 Exemple e lementaire darbre de classification.

Lalgorithme considere necessite :


i. la definition dun crit`ere permettant de selectionner la meilleure division parmi toutes celles admissibles pour les differentes variables ;
ii. une r`egle permettant de decider quun nud est terminal : il devient ainsi une feuille ;
iii. laffectation de chaque feuille a` lune des classes ou a` une valeur de la variable a` expliquer.
Le point (ii) est le plus delicat. Il correspond encore a` la recherche dun mod`ele parcimonieux. Un arbre trop
detaille, associe a` une surparametrisation, est instable et donc probablement plus defaillant pour la prevision
dautres observations. La contribution majeure de Breiman et col. (1984) est justement une strategie de
recherche darbre optimal. Elle consiste a`
i. construire larbre maximal Amax ,
ii. ordonner les sous-arbres selon une sequence embotee suivant la decroissance dun crit`ere penalise
de deviance ou de taux de mal-classes,
iii. puis a` selectionner le sous-arbre optimal ; cest la procedure delagage.
Tous ces points sont detailles ci-dessous.

2.2

Crit`ere de division

Une division est dite admissible si aucun des deux nuds descendants qui en decoulent nest vide. Si la
variable explicative est qualitative ordinale avec m modalites, elle fournit (m 1) divisions binaires admissibles. Si elle est seulement nominale le nombre de divisions passe a` 2(m1) 1. Une variable quantitative
se ram`ene au cas ordinal.
Le crit`ere de division repose sur la definition dune fonction dheterogeneite ou de desordre explicitee
dans la section suivante. Lobjectif e tant de partager les individus en deux groupes les plus homog`enes au
sens de la variable a` expliquer. Lheterogeneite dun nud se mesure par une fonction non negative qui doit
e tre
i. nulle si, et seulement si, le nud est homog`ene : tous les individus appartiennent a` la meme modalite
ou prennent la meme valeur de Y .
ii. Maximale lorsque les valeurs de Y sont e quiprobables ou tr`es dispersees.
La division du nud k cree deux fils, gauche et droit. Pour simplifier, ils sont notes (k + 1) et (k + 2)
mais une re-numerotation est necessaire pour respecter la sequence de sous-arbres qui sera decrite dans la
section suivante.
Parmi toutes les divisions admissibles du nud k, lalgorithme retient celle qui rend la somme D(k+1) +
D(k+2) des desordres des nuds fils minimales. Ceci revient encore a` resoudre a` chaque e tape k de construc-

3. Crit`eres dhomogeneite

73

tion de larbre :
max

{divisions deX j ;j=1,p}

Dk (D(k+1) + D(k+2) )

Graphiquement, la longueur de chaque branche peut e tre representee proportionnellement a` la reduction de


lheterogeneite occasionnee par la division.

2.3

R`egle darret

La croissance de larbre sarrete a` un nud donne, qui devient donc terminal ou feuille, lorsquil est homog`ene cest-`a-dire lorsquil nexiste plus de partition admissible ou, pour e viter un decoupage inutilement
fin, si le nombre dobservations quil contient est inferieur a` une valeur seuil a` choisir en general entre 1 et
5.

2.4

Affectation

Dans le cas Y quantitative, a` chaque feuille est associee une valeur : la moyenne des observations
associees a` cette feuille. Dans le cas qualitatif, chaque feuille ou nud terminal est affecte a` une classe T`
de Y en considerant le mode conditionnel :
celle la mieux representee dans le nud et il est ensuite facile de compter le nombre dobjets mal
classes ;
la classe a posteriori la plus probable au sens bayesien si des probabilites a priori sont connues ;
la classe la moins couteuse si des couts de mauvais classement sont donnes.

Crit`eres dhomogeneite
Deux cas sont a` considerer.

3.1 Y quantitative
On consid`ere le cas plus general dune P
division en J classes. Soit n individus et une partition en J
J
classes de tailles nj ; j = 1, . . . , J avec n = j=1 nj . On numerote i = 1, . . . , nj les individus de la j e` me
classe. Soit ij (resp.yij ) la valeur theorique (resp. lobservation) de Y sur lindividu (i, j) : le i`eme de
la j e` me classe. Lheterogeneite de la classe j est definie par :
Dj =

nj
X

(ij .j )2

avec

.j =

i=1

nj
X

ij .

i=1

Lheterogeneite de la partition est definie par :


D=

J
X
j=1

Dj =

nj
J X
X
(ij .j )2 ;
j=1 i=1

cest linertie intra (homog`ene a` la variance intraclasse) qui vaut D = 0 si et seulement si ij = .j pour
tout i et tout j.
La difference dheterogeneite entre lensemble non partage et lensemble partage selon la partition J
est

nj
J X
X

nj
J X
X

nj

1 XX
ij .
(ij .. )
(ij .j ) o`u .. =
n j=1 i=1
j=1 i=1
j=1 i=1

J
X

nj (.. .j )2 ;

j=1

cest encore homog`ene a` la variance inter classe ou desordre des barycentres qui vaut = n1 n2 ((.1
.2 )2 pour J = 2 dans le cas qui nous interesse.

74

Chapitre 7. Arbres binaires

Lobjectif, a` chaque e tape, est de maximiser cest-`a-dire de trouver la variable induisant une partition
en 2 classes associee a` une inertie (variance) intraclasse minimale ou encore qui rend linertie (la variance)
interclasse la plus grande.
Les quantites sont estimees :
cj
par D

Dj

nj
X
(yij y.j )2

(7.1)

i=1

b
par D

J
X

cj =
D

j=1

nj
J X
X
(yij y.j )2 .

(7.2)

j=1 i=1

Sous hypoth`ese gaussienne :


Yij = .j + uij

avec

+ uij N (0, 2 ),

la log-vraisemblance
J nj
1 XX
n
2
(yij .j )2
log L = Cste log( ) 2
2
2 j=1 i=1

est rendue maximale pour


J nj
1 XX
n
2
(yij y.j )2 .
L = sup log L = Cste log( ) 2
2
2 j=1 i=1

Pour le mod`ele sature (une classe par individu) : yij = ij + uij , cet optimum devient :
Ls = sup log L = Cste

n
log( 2 ).
2

La deviance (par rapport au mod`ele sature) sexprime alors comme :


b
D = 2 2 (Ls L ) = D.
Le raffinement de larbre est donc associe a` une decroissance, la plus rapide possible, de la deviance. Cest
loptique retenue dans le logiciel Splus. On peut encore dire que la division retenue est celle qui rend le test
de Fisher (analyse de variance), comparant les moyennes entre les deux classes, le plus significatif possible.

3.2 Y qualitative
Dans ce cas, la fonction dheterogeneite, ou de desordre dun nud, est definie a` partir de la notion
dentropie, du crit`ere de concentration de Gini ou encore dune statistique de test du 2 . En pratique, il
sav`ere que le choix du crit`ere importe moins que celui du niveau delagage. Le premier crit`ere (entropie) est souvent prefere (Splus) car il sinterpr`ete encore comme un terme de deviance mais dun mod`ele
multinomial cette fois.
Entropie
On consid`ere une variable a` expliquer qualitative, Y a` m modalites ou categories T numerotees ` =
1, . . . , m. Larbre induit une partition pour laquelle n+k designe leffectif de la k`eme classe ou k`eme nud.
Soit
m
X
p`k = P [T` | k] avec
p`k = 1
`=1

la probabilite quun e lement du k`eme nud appartienne a` la ``eme classe.


Le desordre du k`eme nud, defini a` partir de lentropie, secrit avec la convention 0 log(0) = 0. :
Dk = 2

m
X
`=1

n+k p`k log(p`k )


4. Elagage

75

tandis que lheterogeneite ou desordre de la partition est encore :


D=

K
X

K X
m
X

Dk = 2

k=1

n+k p`k log(p`k ).

k=1 `=1

Remarques :
Cette quantite est positive ou nulle, elle est nulle si et seulement si les probabilites p`k ne prennent
que des valeurs 0 sauf une e gale a` 1 correspondant a`P
labsence de melange.
m
Elle peut e tre remplacee par lindice de Gini 1 `=1 p2`k qui conduit a` une autre definition de
lheterogeneite e galement utilisee mais qui ne sinterpr`ete pas en terme de deviance dun mod`ele
comme dans le cas de lentropie.
Designons par n`k leffectif observe de la ``eme classe dans
Pmle k`eme nud. Un nud k de larbre
represente un sous-ensemble de lechantillon deffectif n+k = `=1 n`k .
Les quantites sont estimees :
Dk

ck
parD

= 2

m
X

n+k

`=1

par

b
D

K
X

n`k
n`k
log
n+k
n+k

ck = 2
D

k=1

K X
m
X

(7.3)

n`k log

k=1 `=1

n`k
.
n+k

(7.4)

Considerons, pour chaque classe ou nud k, un mod`ele multinomial a` m categories de param`etre :


pk = (p1k , . . . , pmk ),

avec

m
X

p`k = 1.

`=1

Pour ce mod`ele, la logvraisemblance :


log L = Cste +

K X
m
X

n`k log(p`k )

k=1 `=1

est rendue maximale pour


L = sup log L = Cste +
p`k

m
K X
X

n`k log

k=1 `=1

n`k
.
n+k

Pour le mod`ele sature (une categorie par objet), cet optimum prend la valeur de la constante et la deviance
(par rapport au mod`ele sature) sexprime comme :
D = 2

K X
m
X
k=1 `=1

n`k log

n`k
b
= D.
n+k

Comme pour lanalyse discriminante decisionnelle, les probabilites conditionnelles sont definies par la
r`egle de Bayes lorsque les probabilites a priori ` dappartenance a` la ``eme classe sont connues. Dans
le cas contraire, les probabilites de chaque classe sont estimees sur lechantillon et donc les probabilites
conditionnelles sestiment simplement par des rapports deffectifs : p`k est estimee par n`k /n+k . Enfin, il
est toujours possible dintroduire, lorsquils sont connus, des couts de mauvais classement et donc de se
ramener a` la minimisation dun risque bayesien.

4 Elagage
Dans des situations complexes, la demarche proposee conduit a` des arbres extremement raffines et
donc a` des mod`eles de prevision tr`es instables car fortement dependants des e chantillons qui ont permis

76

Chapitre 7. Arbres binaires

leur estimation. On se trouve donc dans une situation de sur-ajustement a` e viter au profit de mod`eles plus
parcimonieux donc plus robuste au moment de la prevision. Cet objectif est obtenu par une procedure
delagage (pruning) de larbre.
Le principe de la demarche, introduite par Breiman et col. (1984), consiste a` construire une suite
embotee de sous-arbres de larbre maximum par e lagage successif puis a` choisir, parmi cette suite, larbre
optimal au sens dun crit`ere. La solution ainsi obtenue par un algorithme pas a` pas nest pas necessairement
globalement optimale mais lefficacite et la fiabilite sont preferees a` loptimalite.

4.1

Construction de la sequence darbres

Pour un arbre A donne, on note K le nombre de feuilles ou nuds terminaux de A ; la valeur de K


exprime la complexite de A. La mesure de qualite de discrimination dun arbre A sexprime par un crit`ere
D(A) =

K
X

Dk (A)

k=1

o`u Dk (A) est le nombre de mal classes ou la deviance ou le cout de mauvais classement de la k`eme feuille
de larbre A.
La construction de la sequence darbres embotes repose sur une penalisation de la complexite de
larbre :
C(A) = D(A) + K.
Pour = 0, Amax = AK minimise C(A). En faisant crotre , lune des divisions de AK , celle pour
laquelle lamelioration de D est la plus faible (inferieure a` ), apparat comme superflue et les deux feuilles
obtenues sont regroupees (elaguees) dans le nud p`ere qui devient terminal ; AK devient AK1 .
Le procede est itere pour la construction de la sequence embotee :
Amax = AK AK1 A1
o`u A1 , le nud racine, regroupe lensemble de lechantillon.
Un graphe represente la decroissance ou e boulis de la deviance (ou du taux de mal classes) en fonction
du nombre croissant de feuilles dans larbre ou, cest e quivalent, en fonction de la valeur decroissante du
coefficient de penalisation .

4.2

Recherche de larbre optimal

Les procedures delagage diff`erent par la facon destimer lerreur de prediction. Le graphe precedemment
obtenu peut se lire comme un e boulis de valeur propre. Quand lamelioration du crit`ere est juge trop petite
ou negligeable, on e lague larbre au nombre de feuilles obtenues. Levaluation de la deviance ou du taux de
mauvais classement estimee par resubstitution sur lechantillon dapprentissage est biaisee (trop optimiste).
Une estimation sans biais est obtenue par lutilisation dun autre e chantillon (validation) ou encore par validation croisee. La procedure de validation croisee presente dans ce cas une particularite car la sequence
darbres obtenue est differente pour chaque estimation sur lun des sous-echantillons. Lerreur moyenne
nest pas, dans ce cas, calculee pour chaque sous-arbre avec un nombre de feuilles donne mais pour chaque
` la valeur de minimisant
sous-arbre correspondant a` une valeur fixee du coefficient de penalisation. A
lestimation de lerreur de prevision, correspond ensuite larbre juge optimal dans la sequence estimee sur
tout lechantillon dapprentissage.
Le principe de selection dun arbre optimal est donc decrit dans lalgorithme ci-dessous.

5
5.1

Exemples
Cancer du sein

Un arbre de discrimination est estime sur lechantillon dapprentissage, e lague par validation croisee
et represente dans la figure 7.2. La prevision de lechantillon test par cet arbre conduit a` la matrice de
confusion :

5. Exemples

77

Algorithm 4 Selection darbre


Construction de larbre maximal Amax .
Construction de la sequence AK . . . A1 darbres embotes.
Estimation sans biais (echantillon de validation ou validation croisee) des deviances D(AK ), . . . , D(A1 ).
Representation de D(Ak ) en fonction de k ou de .
Choix de k rendant D(Ak ) minimum.

benign
|
358/188

Cell.shape=1,2
Cell.shape=3,4,5,6,7,8,9,10
benign
318/4

malignant
40/184

Bare.nuclei=1,2
Bare.nuclei=3,4,5,6,7,8,9,10
benign
32/20

malignant
8/164

Epith.c.size=1,2,3
Epith.c.size=4,5,6,7,8,9,10
benign
30/1

malignant
2/19

F IG . 7.2 Cancer : arbre de decision e lague par validation croisee (R).

predq.tree benign malignant


benign
83
5
malignant
3
46

avec un taux derreur estime a` 5,8%.

5.2

Concentration dozone

Arbre de regression
Un arbre de regression est estime pour prevoir la concentration dozone. La librairie rpart du logiciel
R prevoit une procedure delagage par validation croisee afin doprimiser le coefficient de penalisation.
Larbre (figure 7.3) montre bien quelles sont les variables importantes intervenant dans la prevision. Mais,
compte tenu de la hierarchisation de celles-ci, due a` la structure arborescente du mod`ele, cette liste nest pas
similaire a` celle mise en e vidence dans le mod`ele gaussien. On voit plus precisement ici la compexite des
interactions entre la prediction par MOCAGE et leffet important de la temperature dans differentes situations. Les residus de lecchantillon test du mod`ele darbre de regression prennent une structure particuli`ere
(figure 7.4) car les observations communes a` une feuille terminale sont affectees de la meme valeur. Il y
a donc une colonne par feuille. La precision de lajustement peut sen trouver alteree (R2 = 0, 68) mais
il apparat que ce mod`ele est moins soumis au probl`eme dheteroscedasticite tr`es present dans le mod`ele
gaussien.

78

Chapitre 7. Arbres binaires

F IG . 7.3 Ozone : arbre de regression e lague par validation croisee (R).

79

50

50

100 50

Rsidus

150

Valeurs observees

250

100

5. Exemples

50

100

200

300

Valeurs predites

50

100

200

300

Valeurs predites

F IG . 7.4 Ozone : Valeurs observees et residus de lechantillon test en fonction des valeurs predites.
Arbre de discrimination
Un mod`ele est estime afin de prevoir directement le depassement dun seuil. Il est de complexite similaire a` larbre de regression mais ne fait pas jouer le meme role aux variables. La temperature remplace
la prevision MOCAGE de lozone comme variable la plus importante. Les previsions de depassement de
seuil sur lechantillon test sont sensiblement moins bonnes que celle de la regression, les taux sont de
14,4% avec larbre de regression et de 14,5% directement avec larbre de discrimination. Les matrices de
confusion presentent les memes biais que les mod`eles de regression en omettant un nombre important de
depassements.

5.3

Carte Visa Premier

Letude des donnees bancaires sinteresse soit aux donnees quantitatives brutes soient a` celles-ci apr`es
decoupage en classes des variables quantitatives. Ce decoupage rend des services en regression logistique
car le mod`ele construit sen trouve plus flexible : plus de param`etres mais moins de degres de liberte, comme
lapproximation par des indicatrices (des classes) de transformations non lineaires des variables. Il a e te fait
`a la main en prenant les quantiles comme bornes de classe ; Cest un usage courant pour obtenir des
classes deffectifs e gaux et repartit ainsi au mieux la precision de lestimation des param`etres mais ce choix
nest pas optimal au regard de lobjectif de prevision. Dans le cas dun mod`ele construit a` partir dun arbre
binaire, il est finalement preferable de laisser faire celui-ci le decoupage en classe cest-`a-dire de trouver les
valeurs seuils de decision. Cest la raison pour laquelle, larbre est preferablement estime sur els variables
quantitatives et qualitatives initiales.
Le module SAS/STAT ne fournit pas destimation darbre de decision, il faut faire appel au module
SAS Enterprise Miner. Celui-ci, par principe, propose le decoupage de lechantillon en trois parties apprentissage, validation et test. Lelagage de larbre estime sur lechantillon dapprentissage est optimise pour
minimiser lerreur estimee sur lechantillon de validation. Cest le graphique de la figure ??.
En revanche, la librairie rpart de R propose doptimiser lelagation par validation croisee. Larbre
ainsi obtenu est represente dans la figure ??
Cet arbre conduit a` la matrice de confusion suivante sur lechantillon test
vistest Cnon Coui
Cnon 127
Coui
10

6
57

avec un taux derreur estime a` 8%.

80

Chapitre 7. Arbres binaires

F IG . 7.5 Banque : choix du nombre de feuilles par e chantillon de validation (SEM, 2001).

5. Exemples

81

Endpoint = CARVP

Cnon
569/294
|
MOYRVL< 3.02
MOYRVL>=3.02
Coui
94/204

Cnon
475/90
RELAT>=5.5
Cnon
462/61
FACANL< 11.44
Cnon
457/51

FACANL>=11.44
Coui
5/10

DMVTPL>=2.602
DMVTPL< 2.602
Cnon
Cnon
381/28
76/23

RELAT< 5.5
Coui
13/29

DMVTPL>=2.602
DMVTPL< 2.602
Coui
Coui
93/121
1/83

AGER< 26DMVTPL< 2.674


AGER>=26 DMVTPL>=2.674
Cnon
CnonCoui
Coui
8/0
70/175/29
23/104
FACANL< 11.32
FACANL>=11.32
Cnon
Coui
67/10
3/7

DMVTPL< 1.199
DMVTPL>=1.199
Cnon
Coui
76/3
0/20

F IG . 7.6 Banque : arbre de decision e lague par validation croisee dans R.

82

Chapitre 7. Arbres binaires

Chapitre 8
Methodes connexionistes
1

Historique

Nous nous interessons ici a` une branche de lInformatique fondamentale qui, sous lappellation dIntelligence
Artificielle, a pour objectif de simuler des comportements du cerveau humain. Les premi`eres tentatives
de modelisation du cerveau sont anciennes et prec`edent meme l`ere informatique. Cest en 1943 que Mc
Culloch (neurophysiologiste) et Pitts (logicien) ont propose les premi`eres notions de neurone formel. Ce
concept fut ensuite mis en reseau avec une couche dentree et une sortie par Rosenblatt en 1959 pour simuler le fonctionnement retinien et tacher de reconnatre des formes. Cest lorigine du perceptron. Cette
approche dite connexioniste a atteint ses limites technologiques, compte tenu de la puissance de calcul de
lepoque, mais aussi theoriques au debut des annees 70.
Lapproche connexioniste a` connaissance repartie a alors e te supplantee par lapproche symbolique ou
sequentielle qui promouvait les syst`emes experts a` connaissance localisee. Lobjectif e tait alors dautomatiser le principe de lexpertise humaine en associant trois concepts :
une base de connaissance dans laquelle e taient regroupees toutes les connaissances dexperts humains sous forme de propositions logiques e lementaires ou plus e laborees en utilisant des quantificateurs (logique du premier ordre).
une base de faits contenant les observations du cas a` traiter comme, par exemple, des resultats dexamens, danalyses de sang, de salive pour des applications biomedicales de choix dun antibiotique,
un moteur dinference charge dappliquer les r`egles expertes sur la base de faits afin den deduire de
nouveaux faits jusqu`a la realisation dun objectif comme lelaboration du traitement dun infection
bacterienne.
Face aux difficultes rencontrees lors de la modelisation des connaissances dun expert humain, au volume
considerable des bases de connaissance qui en decoulait et au caract`ere exponentiel de la complexite des algorithmes dinference mis en jeu, cette approche sest e teinte avec les annees 80. En effet, pour les syst`emes
les plus compliques a` base de calcul des predicats du premier ordre, on a pu montrer quils conduisaient a`
des probl`emes N P complets et donc dont la solution pouvait e tre atteinte mais pas necessairement en un
temps fini !
Lessor technologique et surtout quelques avancees theoriques :
algorithme destimation par retropropagation de lerreur par Hopkins en 1982,
analogie de la phase dapprentissage avec les mod`eles markoviens de syst`emes de particules de la
mecanique statistique (verres de spin) par Hopfield en 1982,
au debut des annees 80 ont permis de relancer lapproche connexioniste. Celle-ci a connu au debut des
annees 90 un developpement considerable si lon consid`ere le nombre de publications et de congr`es qui
lui ont e te consacres mais aussi les domaines dapplications tr`es divers o`u elle apparat. Sur de nombreux
objectifs, justement ceux propres au data mining, les reseaux neuronaux ne rentrent pas necessairement en
concurrence avec des methodes statistiques bientot centenaires mais apportent un point de vue complementaire
quil est important de considerer (Thiria et col. 1997).

83

84

Chapitre 8. Methodes connexionistes

x1
Q
x2 PQQ
s
PP
q
xj
..
3
. 
xp 

| f

-y

F IG . 8.1 Representation dun neurone formel.

Reseaux de neurones

Un reseau neuronal est lassociation, en un graphe plus ou moins complexe, dobjets e lementaires, les
neurones formels. Les principaux reseaux se distinguent par lorganisation du graphe (en couches, complets. . . ), cest-`a-dire leur architecture, son niveau de complexite (le nombre de neurones) et par le type des
neurones (leurs fonctions de transition).

2.1

Neurone formel

De facon tr`es reductrice, un neurone biologique est une cellule qui se caracterise par
des synapses, les points de connexion avec les autres neurones, fibres nerveuses ou musculaires ;
des dentrites, les entrees du neurones ;
laxone, la sortie du neurone vers dautres neurones ou fibres musculaires ;
le noyau qui active la sortie en fonction des stimuli en entree.
Par analogie, le neurone formel est un mod`ele qui se caracterise par un e tat interne s S, des signaux
dentree x1 , . . . , xp et une fonction de transition detat

p
X
s = h(x1 , . . . , xp ) = f 0 +
j x j .
j=1

La fonction de transition op`ere une transformation dune combinaison affine des signaux dentree, 0 e tant
appele le biais du neurone. Cette combinaison affine est determinee par un vecteur de poids [0 , . . . , p ]
associe a` chaque neurone et dont les valeurs sont estimees dans la phase dapprentissage. Ils constituent la
memoire ou connaissance repartie du reseau.
Les differents types de neurones se distinguent par la nature f de leur fonction de transition. Les principaux types sont :
lineaire f est la fonction identite,
sigmode f (x) = 1/(1 + ex ),
seuil f (x) = 1[0,+[ (x),
stochastiques f (x) = 1 avec la probabilite 1/(1 + ex/H ), 0 sinon (H intervient comme une
temperature dans un algorithme de recuit simule),
...
Les mod`eles lineaires et sigmodaux sont bien adaptes aux algorithmes dapprentissage comme celui de
retropropagation du gradient car leur fonction de transition est differentiable. Ce sont les plus utilises. Le
mod`ele a` seuil est sans doute plus conforme a` la realite biologique mais pose des probl`emes dapprentissage. Enfin le mod`ele stochastique est utilise pour des probl`emes doptimisation globale de fonctions
perturbees ou encore pour les analogies avec les syst`emes de particules. On ne le rencontre pas en data
mining.

Perceptron multicouche

3. Perceptron multicouche

85

x1 -

x2 ..
.
xj ..
.
xp -

H
LJ H
LJ HH
j|f
H
*

L J
@



L
J
@


H L J
@
J HH

J
@
J
L H
R|f -y
@
^
J
j
H
L 
*|f


J



L

..


J
L
.
H
J
H

JL
H
^
JL
j
H

H
*|f







F IG . 8.2 Exemple de perceptron multicouche e lementaire avec une couche cachee et une couche de sortie.

3.1

Architecture

Le perceptron multicouche (PMC) est un reseau compose de couches successives. Une couche est un
ensemble de neurones nayant pas de connexion entre eux. Une couche dentree lit les signaux entrant, un
neurone par entree xj , une couche en sortie fournit la reponse du syst`eme. Selon les auteurs, la couche
dentree qui nintroduit aucune modification nest pas comptablisee. Une ou plusieurs couches cachees
participent au transfert. Un neurone dune couche cachee est connecte en entree a` chacun des neurones de
la couche precedente et en sortie a` chaque neurone de la couche suivante.
Un perceptron multicouche realise donc une transformation
y = (x1 , . . . , xp ; )
o`u est le vecteur contenant chacun des param`etres jk` de la j e` me entree du k`eme neurone de la ``eme
couche ; la couche dentree (` = 0) nest pas parametree, elle ne fait que distribuer les entrees sur tous les
neurones de la couche suivante.
Par souci de coherence, nous avons tache de conserver les memes notations a` travers les differents chapitres. Ainsi, les entrees dun reseau sont encore notees x1 , . . . , xp comme les variables explicatives dun
mod`ele tandis que les poids des entrees sont des param`etres a` estimer lors de la procedure dapprentissage
et que la sortie est la variable a` expliquer ou cible du mod`ele.

3.2

Apprentissage

Supposons que lon dispose dune base dapprentissage de taille n dobservations (x1i , . . . , xpi ; yi ) des
b des
variables explicatives X 1 , . . . , X p et de la variable a` prevoir Y . Lapprentissage est lestimation
param`etres du mod`ele solutions du probl`eme des moindres carres1 :
n

b = arg min Q(b) avec

Q(b) =

1X
[yi (x1i , . . . , xpi ; (b))]2 .
n i=1

Lalgorithme doptimisation le plus utilise est celui de retropropagation du gradient base sur lidee suivante :
en tout point b, le vecteur gradient de Q pointe dans la direction de lerreur croissante. Pour faire decrotre
Q il suffit donc de se deplacer en sens contraire. Il sagit dun algorithme iteratif modifiant les poids de
chaque neurone selon :
bjk` (i) = bjk` (i 1) + bjk` (i)
1 Equivalent

a` une maximisation de la vraisemblance dans le cas gaussien.

86

Chapitre 8. Methodes connexionistes

o`u la correction bjk` (i) est proportionnelle au gradient et a` lerreur attribuee a` lentree concernee jk` (i)
et incorpore un terme dinertie bjk` (i 1) permettant damortir les oscillations du syst`eme :
bjk` (i) = jk` (i)

Q
+ bjk` (i 1).
bjk`

Le coefficient de proportionnalite est appele le taux dapprentissage. Il peut e tre fixe a` determiner
par lutilisateur ou encore varier en cours dexecution selon certaines r`egles parametrees par lutilisateur.
Il parat en effet intuitivement raisonnable que, grand au debut pour aller plus vite, ce taux decroisse pour
aboutir a` un reglage plus fin au fur et a` mesure que le syst`eme sapproche dune solution. La formule de
retropropagation de lerreur fournit, a` partir des erreurs observees sur les sorties, lexpression de lerreur
attribuee a` chaque entree de la couche de sortie a` la couche dentree.
La litterature sur le sujet propose quantites de recettes destinees a` ameliorer la vitesse de convergence
de lalgorithme ou bien lui e viter de rester colle a` une solution locale defavorable. Des proprietes (dynamique markovienne ergodique et convergence vers la mesure stationnaire) de cet algorithme impliquent une
convergence presque sure ; la probabilite datteindre une precision fixee a priori tend vers 1 lorsque la taille
de lechantillon dapprentissage tend vers linfini.
Une amelioration importante consiste a` introduire une terme de penalisation ou regularisation comme
en ridge dans le crit`ere a` optimiser. Celui-ci devient alors :
b = arg min Q(b) + kbk2 .

Le param`etre (decay) doit e tre fixe par lutilisateur ; plus il est important et moins les param`etres ou poids
peuvent prendre des valeurs cahotiques contribuant ainsi a` limiter les risques de surapprentissage.
Algorithm 5 Retropropagation du gradient
Initialisation
Les poids bjk` par tirage aleatoire selon une loi uniforme sur [0, 1].
Normaliser dans [0, 1] les donnees dapprentissage.
Tant que Q > errmax ou niter<itermax Faire
Ranger la base dapprentissage dans un nouvel ordre aleatoire.
Pour chaque e lement i = 1, . . . , n de la base Faire
Calculer (i) = yi (x1i , . . . , xpi ; (b)(i 1)) en propageant les entrees vers lavant.
Lerreur est retropropagee dans les differentes couches afin daffecter a` chaque entree une responsabilite dans lerreur globale.
Mise a` jour de chaque poids bjk` (i) = bjk` (i i) + bjk` (i)
Fin Pour
Fin Tant que

3.3

Utilisation

On pourra se reporter a` labondante litterature sur le sujet (Haykin, 1994) pour obtenir des precisions
sur les algorithme dapprentissage et leurs nombreuses variantes. Il est important de rappeler la liste des
choix qui sont laisses a` lutilisateur. En effet, meme si les logiciels proposent des valeurs par defaut, il est
frequent que cet algorithme connaisse quelques soucis de convergence.
Lutilisateur doit donc determiner
i. les variables dentree et la variable de sortie ; leur faire subir comme pour toutes methodes statistiques,
deventuelles transformations.
ii. Larchitecture du reseau : le nombre de couches cachees (en general une ou deux) qui correspond a`
une aptitude a` traiter des probl`emes de non-linearite, le nombre de neurones par couche cachee. Ces
deux choix conditionnent directement le nombre de param`etres (de poids) a` estimer. Ils participent a` la
recherche dun bon compromis biais/variance cest-`a-dire a` lequilibre entre qualite dapprentissage
` la louche, on consid`ere en pratique quil faut un e chantillon dapprentissage
et qualite de prevision. A
au moins dix fois plus grand que le nombre de param`etres a` estimer.

4. Exemples

87

iii. Trois autres param`etres interviennent e galement sur ce compromis : le nombre maximum diterations,
lerreur maximum toleree et un terme e ventuel de regularisation (decay). En renforcant ces crit`eres
on ameliore la qualite de lapprentissage ce qui peut se faire au detriment de celle de la prevision.
iv. Le taux dapprentissage ainsi quune e ventuelle strategie devolution de celui-ci.
En pratique, tous ces param`etres ne sont pas regles simultanement par lutilisateur. Celui-ci est confronte
a` des choix concernant principalement le controle du sur-apprentissage ; choix du param`etre : limiter le
nombre de neurones ou la duree dapprentissage ou encore augmenter le coefficient de penalisation de
la norme des param`etres ; choix du mode destimation de lerreur : e chantillon test, validation croisee ou
bootstrap. Ces choix sont souvent pris par defaut dans la plupart des logiciels commerciaux. Il est important
den connatre les implications.
Le nombre de couches reste restreint. On montre en effet que toute fonction que toute fonction continue dun compact de IRP dans IRq peut e tre approchee avec une precision arbitraire par un reseau a`
une couche cachee en adaptant le nombre de neurones. Leccontrole de la complexite du mod`ele ou plus
generalement dun sur-apprentissage peut se faire a` laide de plusieurs param`etres : le nombre de neurones,
une penalisation de la norne du vecteur des poids ou param`etres comme en ridge (regularisation) ou encore
par la duree de lapprentissage. Ces param`etres sont optimises en considerant un e chantillon de validation
et le plus simple consiste a` arrete lapprentissage lorsque lerreur sur lechantillon de validation commence
a` se degrader tandis que celle sur lechantillon dapprentissage ne peut que continuer a` decrotre.
Les champs dapplication des PMC sont tr`es nombreux : discrimination, prevision dune serie temporelle, reconnaissance de forme. . . Ils sont en general bien explicites dans les documentations des logiciels
specialises.
Les critiques principales e noncees a` lencontre du PMC concernent les difficultes lies a` lapprentissage (temps de calcul, taille de lechantillon, localite de loptimum obtenu) ainsi que son statut de bote
noir. En effet, contrairement a` un mod`ele de discrimination ou un arbre, il est a priori impossible de
connatre linfluence effective dune entree (une variable) sur le syst`eme d`es quune couche cachee intervient. Neanmoins, des techniques de recherche de sensibilite du syst`eme a` chacune des entrees permettent
de preciser les idees et, e ventuellement de simplifier le syst`eme en supprimant certaines des entrees.
En revanche, ils poss`edent dindeniables qualites lorsque labsence de linearite et/ou le nombre de variables explicatives rendent les mod`eles statistiques traditionnelles inutilisables. Leur flexibilite alliee a` une
procedure dapprentissage integrant la ponderation (le choix) des variables comme de leurs interactions
peuvent les rendre tr`es efficaces (Besse et col. 2001).

Exemples

Les reseaux de neurones e tant des botes noires, les resultats fournis ne sont gu`ere explicites et ne
conduisent donc pas a` des interpretations peu informatives du mod`ele. Seule une e tude des erreurs de
previsions et, dans le cas dune regression, une e tude des residus, permet de se faire une idee de la qualite
du mod`ele.

4.1

Cancer du sein
La prevision de lechantillon test par un reseau de neurones conduit a` la matrice de confusion :

FALSE
TRUE

benign malignant
83
1
3
50

et donc une erreur estimee de 3%.

4.2

Concentration dozone

La comparaison des residus (figure 8.3 montre que le probl`eme de non-linearite qui apparaissait sur
les mod`eles simples (MOCAGE, regression lineaire) est bien resolu et que ces residus sont plutot moins
e tendus, mais le phenom`ene dheteroscedasticite est toujours present quelque soit le nombre de neurones

Chapitre 8. Methodes connexionistes

100 50

Rsidus

50

250
150
50
0

Valeurs observees

100

88

50

100

200

300

Valeurs predites

50

100

200

300

Valeurs predites

F IG . 8.3 Ozone : Valeurs observees et residus de lechantillon test en fonction des valeurs predites par un
reseau de 10 neurones
utilises. Il a e te choisi relativement important (10) et conduit donc a` un bon ajustement (R2 = 0, 77) mais
devra e tre reduit pour optimiser la prevision.
Comme pour les arbres de decision, les reseaux de neurones ne proposent pas de mod`eles tr`es efficaces
sur cet exemple. Les taux derreur de prevision du depassement du seuil sont de 14,4% a` partir du mod`ele
quantitatif et de 15,6% avec une prevision qualitative.

4.3

Carte visa

Une fonction de la librairie e1071, pratique mais tr`es consomatrice de calculs, propose une automatisation de loptimisation des param`etres (decay, nombre de neurones).
plot(tune.nnet(CARVP .,data=visapptq,size=2 :4,decay=0 :2))
Elle produit une carte de type contour permettant devaluer `a lil les valeurs optimales. La prevision de
lechantillon test par ce reseau de neurones conduit a` la matrice de confusion :
pred.vistest FALSE TRUE
FALSE
110
16
TRUE
27
47
et donc une erreur estimee de 21,5%.

Chapitre 9
Agregation de mod`eles
1

Introduction

Ce chapitre decrit des algorithmes plus recemment apparus dans la litterature. Ils sont bases sur des
strategies adaptatives (boosting) ou aleatoires (bagging) permettant dameliorer lajustement par une combinaison ou agregation dun grand nombre de mod`eles tout en e vitant un sur-ajustement. Ces algorithmes
se sont developpes a` la fronti`ere entre apprentissage machine (machine learning) et Statistique. De nombreux articles comparatifs montrent leur efficacite sur des exemples de donnees simulees et surtout pour des
probl`emes reels complexes (voir par exemple Ghattas 2000) tandis que leurs proprietes theoriques sont un
th`eme de recherche actif.
Deux types dalgorithmes sont decrits schematiquement dans ce chapitre. Ceux reposants sur une
construction aleatoires dune famille de mod`ele : bagging pour bootstrap aggregating (Breiman 1996), les
forets aleatoires (random forests) de Breiman (2001) qui propose une amelioration du bagging specifique
aux mod`eles definis par des arbres binaires (CART). Ceux bases sur le boosting (Freund et Shapiro,1996),
reposent sur une construction adaptative, deterministe ou aleatoire, dune famille de mod`eles.
Les principes du bagging ou du boosting sappliquent a` toute methode de modelisation (regression,
CART, reseaux de neurones) mais nont dinteret, et reduisent sensiblement lerreur de prevision, que dans
le cas de mod`eles instables, donc plutot non lineaires. Ainsi, lutilisation de ces algorithmes na gu`ere de
sens avec la regression multilineaire ou lanalyse discriminante. Ils sont surtout mis en uvre en association
avec des arbres binaires comme mod`eles de base.

Famille de mod`eles aleatoires

2.1 Bagging
Principe et algorithme
Soit Y une variable a` expliquer quantitative ou qualitative, X 1 , . . . , X p les variables explicatives et
(x) un mod`ele fonction de x = {x1 , . . . , xp } IRp . On note n le nombre dobservations et
z = {(x1 , y1 ), . . . , (xn , yn )}
un e chantillon de loi F .
Lesperance (.) = EF (bz ) de lestimateur definie sur lechantillon z, est un estimateur sans biais de
variance nulle. Considerons B e chantillons independants notes {zb }b=1,B et construisons une agregation
des mod`eles dans le cas o`u la variable a` expliquer Y est :
PB
quantitative : bB (.) = B1 b=1 bzb (.),
n
o
qualitative : bB (.) = arg maxj card b | bz (.) = j .
b

Dans le premier cas, il sagit dune simple moyenne des resultats obtenus pour les mod`eles associes a`
chaque e chantillon, dans le deuxi`eme, un comite de mod`eles est constitue pour voter et e lire la reponse
89

90

Chapitre 9. Agregation de mod`eles

la plus probable. Dans ce dernier cas, si le mod`ele retourne des probabilites associees a` chaque modalite
comme en regression logistique ou avec les arbres de decision, il est aussi simple de calculer des moyennes
de ces probabilites.
Le principe est e lementaire, moyenner les previsions de plusieurs mod`eles independants permet de
reduire la variance et donc de reduire lerreur de prevision.
Cependant, il nest pas realiste de considerer B e chantillons independants. Cela necessiterait generalement
trop de donnees. Ces e chantillons sont donc remplaces par B replications dechantillons bootstrap (cf. Annexe A) obtenus chacun par n tirages avec remise selon la mesure empirique Fb. Ceci conduit a` lalgorithme
ci-dessous.
Algorithm 6 Bagging
Soit x0 a` prevoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un e chantillon
Pour b = 1 `
a B Faire
Tirer un e chantillon bootstrap zb .
Estimer bzb (x0 ) sur lechantillon bootstrap.
Fin Pour
PB
Calculer lestimation moyenne bB (x0 ) = B1 b=1 bzb (x0 ) ou le resultat du vote.

Utilisation
Il est naturel et techniquement facile daccompagner ce calcul par une estimation bootstrap out-of-bag
(cf. chapitre 5 section 5.1) de lerreur de prevision. Elle est une mesure de la qualite de generalisation du
mod`ele et permet de prevenir une e ventuelle tendance au sur-ajustement. Cest, pour e viter un biais, la
moyenne des erreurs de prevision commises par chaque estimateur ; chacune des erreurs e tant estimee sur
les observations qui nont pas e te selectionnees par lechantillon bootstrap correspondant.
En pratique, CART est souvent utilisee comme methode de base pour construire une famille de mod`eles
cest-`a-dire darbres binaires. Trois strategies delagage sont alors possibles :
i. laisser construire et garder un arbre complet pour chacun des e chantillons,
ii. construire un arbre dau plus q feuilles,
iii. construire a` chaque fois larbre complet puis lelaguer par validation croisee.
La premi`ere strategie semble en pratique un bon compromis entre volume des calculs et qualite de prevision.
Chaque arbre est alors affecte dun faible biais et dune grande variance mais la moyenne des arbres reduit
avantageusement celle-ci. En revanche, lelagage par validation croisee penalise lourdement les calculs sans
gain substantiel de qualite.
Cet algorithme a lavantage de la simplicite, il sadapte et se programme facilement quelque soit la
methode de modelisation mise en uvre. Il pose neanmoins quelques probl`emes :
temps de calcul important pour e valuer un nombre suffisant darbres jusqu`a ce que lerreur de
previsionout-of-bag ou sur un e chantillon validation se stabilise et arret si elle tend a` augmenter ;
necessiter de stocker tous les mod`eles de la combinaison afin de pouvoir utiliser cet outil de previsionsur
dautres donnees,
lamelioration de la qualite de previsionse fait au detriment de linterpretabilite. Le mod`ele finalement
obtenu devient une bote noire comme dans le cas du perceptron.

2.2

Forets aleatoires

Algorithme
Dans les cas specifique des mod`eles CART (arbres binaires), Breiman (2001) propose une amelioration
du bagging par lajout dune randomisation. Lobjectif est donc de rendre plus independants les arbres de
lagregation en ajoutant du hasard dans le choix des variables qui interviennent dans les mod`eles. Cette approche semble plus particuli`erement fructueuse dans des situations hautement multidimensionnelles, cest-

2. Famille de mod`eles aleatoires

91

a` -dire lorsque le nombre de variables explicatives p est tr`es important. Cest le cas lorsquil sagit, par
exemple, de discriminer des courbes, spectres, signaux, biopuces.
Algorithm 7 Forets aleatoires
Soit x0 a` prevoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un e chantillon
Pour b = 1 `
a B Faire
Tirer un e chantillon bootstrap zb
Estimer un arbre sur cet e chantillon avec randomisation des variables : la recherche de chaque nud
optimal est precede dun tirage aleatoire dun sous-ensemble de q predicteurs.
Fin Pour
PB
Calculer lestimation moyenne bB (x0 ) = B1 b=1 bzb (x0 ) ou le resultat du vote.

Elagage
La strategie delagage peut, dans le cas des forets aleatoires, e tre plus e lementaire quavec le bagging
en se limitant a` des arbres de taille q relativement reduite voire meme triviale avec q = 2 (stump). En
effet, avec le seul bagging, des arbres limites a` une seule fourche risquent detre tr`es semblables (fortement correles) car impliquant les memes quelques variables apparaissant comme les plus explicatives.
La selection aleatoire dun nombre reduit de predicteurs potentiels a` chaque e tape de construction dun
arbre, accrot significativement la variabilite en mettant en avant necessairement dautres variables. Chaque
mod`ele de base est e videmment moins performant mais, lunion faisant la force, lagregation conduit finalement a` de bons resultats. Le nombre de variables tirees aleatoirement nest pas un param`etre sensible un

choix par defaut de q = p est suggere par Breiman (2001). Comme pour le bagging, levaluation iterative
de lerreur out-of-bag previent dun e ventuel sur-ajustement si celle-ci vient a` se degrader.
Interpretation
Comme pour tout mod`eles construit par agregation ou bote noire, il ny a pas dinterpretation directe.
Neanmoins des informations pertinentes sont obtenues par le calcul et la representation graphique dindices
proportionnels a` limportance de chaque variable dans le mod`ele agrege et donc de sa participation a` la
regression ou a` la discrimination. Cest e videmment dautant plus utile que les variables sont tr`es nombreuses. Plusieurs crit`eres sont ainsi proposes pour e valuer limportance de la j e` me variable.
Le premier (Mean Decrease Accuracy repose sur une permutation aleatoire des valeurs de cette variable. Il consiste a` calculer la moyenne sur les observations out-of-bag de la decroissance de leur
marge lorsque la variable est aleatoirement perturbee. La marge est ici la proportion de votes pour la
vraie classe dune observation moins le maximum des proportions des votes pour les autres classes.
Il sagit donc dune mesure globale mais indirecte de linfluence dune variable sur la qualite des
previsions. Plus la prevision est degradee par la permutation des valeurs dune variable, plus celle-ci
est importante.
Le deuxi`eme (Mean Decrease Gini) est local, base sur la decroissance dentropie ou encore la
decroissance de lheterogeneite definie a` partir du crit`ere de Gini. Limportance dune variable est
alors une somme ponderee des decroissances dheterogeneite induites lorquelle est utilisee pour
definir la division associee a` un nud.
Le troisi`eme, qui na pas e te retenu par Breiman, est plus rudimentaire, il sinteresse simplement a` la
frequence de chacune des variables apparaissant dans les arbres de la foret.
Selon Breiman les deux premiers sont tr`es proches, limportance dune variable depend donc se sa frequence
dapparition mais aussi des places quelle occupe dans chaque arbre. Ces crit`eres sont pertinents pour
une discrimination de deux classes ou, lorsquil y a plus de deux classes, si celles-ci sont relativement
e quilibrees. Dans le cas contraire, cest-`a-dire si une des classes est moins frequente et plus difficile a`
discriminer, lexperience montre que le troisi`eme crit`ere relativement simpliste presente un avantage : il
donne une certaine importance aux variables qui sont necessaires a` la discrimination dune classe difficile
alors que celles-ci sont negligees par les deux autres crit`eres.

92

3
3.1

Chapitre 9. Agregation de mod`eles

Famille de mod`eles adaptatifs


Principes du Boosting

Le boosting diff`ere des approches precedentes par ses origines et ses principes. Lidee initiale, en apprentissage machine, e tait dameliorer les competences dun faible classifieur cest-`a-dire celle dun mod`ele
de discrimination dont la probabilite de succ`es sur la prevision dune variable qualitative est leg`erement
superieure a` celle dun choix aleatoire. Lidee originale de Schapire (1990) a e te affinee par Freund et Schapire (1996) qui ont decrit lalgorithme original AdaBoost (Adaptative boosting) pour la prevision dune
variable binaire. De nombreuses e tudes ont ensuite e te publiees pour adapter cet algorithme a` dautres
situations : k classes, regression et rendre dompte de ses performances sur differents jeux de donnees (cf.
Schapire, 2002) pour une bibliographie). Ces tests ont montre le reel interet pratique de ce type dalgorithme
pour reduire sensiblement la variance (comme le bagging) mais aussi le biais de prevision comparativement a` dautres approches. Cet algorithme est meme considere comme la meilleure methode off-the-shelf
cest-`a-dire ne necessitant pas un long pretraitement des donnees ni un reglage fin de param`etres lors de la
procedure dapprentissage.
Le boosting adopte le meme principe general que le bagging : construction dune famille de mod`eles
qui sont ensuite agreges par une moyenne pondere des estimations ou un vote. Il diff`ere nettement sur la
facon de construire la famille qui est dans ce cas recurrente : chaque mod`ele est une version adaptative
du precedent en donnant plus de poids, lors de lestimation suivante, aux observations mal ajustees ou mal
predites. Intuitivement, cet algorithme concentre donc ses efforts sur les observations les plus difficiles a`
ajuster tandis que lagregation de lensemble des mod`eles permet dechapper au sur-ajustement.
Les algorithmes de boosting proposes diff`erent par differentes caracteristiques :
la facon de ponderer cest-`a-dire de renforcer limportance des observations mal estimees lors de
literation precedente,
leur objectif selon le type de la variable a` predire Y : binaire, qualitative a` k classes, reelles ;
la fonction perte, qui peut e tre choisie plus ou moins robuste aux valeurs atypiques, pour mesurer
lerreur dajustement ;
la facon dagreger, ou plutot ponderer, les mod`eles de base successifs.
La litterature sur le sujet presente donc de tr`es nombreuses versions de cet algorithme et il est encore difficile
de dire lesquelles sont les plus efficaces et si une telle diversite est bien necessaire. Il serait fastidieux de
vouloir expliciter toutes les versions, ce chapitre en propose un choix arbitraire.

3.2

Algorithme de base

Decrivons la version originale du boosting pour un probl`eme de discrimination e lementaire a` deux


classes en notant la fonction de discrimination a` valeurs dans {1, 1}. Dans cette version, le mod`ele de
base retourne lidentite dune classe, il est encore nomme Adaboost discret. Il est facile de ladapter a` des
mod`eles retournant une valeur reelle comme une probabilite dappartenance a` une classe.
Les poids de chaque observations sont initialises a` 1/n pour lestimation du premier mod`ele puis
e voluent a` chaque iteration donc pour chaque nouvelle estimation. Limportance dune observation wi est
inchangee si elle est bien classee, elle
PMcrot sinon proportionnellement au defaut dajustement du mod`ele.
Lagregation finale des previsions : m=1 cm m (x0 ) est une combinaison ponderee par les qualites dajustement de chaque mod`ele. Sa valeur absolue appelee marge est proportionnelle a` la confiance que lon peut
attribuer a` son signe qui fournit le resultat de la prevision.
Ce type dalgorithme est largement utilise avec un arbre (CART) comme mod`ele de base. De nombreuses applications montrent que si le classifieur faible est un arbre trivial a` deux feuilles (stump),
AdaBoost fait mieux quun arbre sophistique pour un volume de calcul comparable : autant de feuilles
dans larbre que diterations dans AdaBoost. Hastie et col. (2001) discutent la meilleure strategie delagage
applicable a` chaque mod`ele de base. Ils le comparent avec le niveau dinteraction requis dans un mod`ele
danalyse de variance. Le cas q = 2 correspondant a` la seule prise en compte des effets principaux. Empiriquement ils recommandent une valeur comprise entre 4 et 8.

3. Famille de mod`eles adaptatifs

93

Algorithm 8 AdaBoost (adaptative boosting)


Soit x0 a` prevoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un e chantillon
Initialiser les poids w = {wi = 1/n ; i = 1, . . . , n}.
Pour m = 1 `
a M Faire
Estimer m sur lechantillon pondere par w.
Calculer le taux derreur apparent :
Pn
wi 1{m (xi ) 6= yi }
b
.
Ep = i=1 Pn
i=1 wi
Calculer les logit : cm = log((1 Ebp )/Ebp ).
Calculer les nouvelles ponderations : wi wi . exp [cm 1{m (xi ) 6= yi }] ; i = 1, . . . , n.
Fin Pour
hP
i
M
Resultat du vote : bM (x0 ) = signe
m=1 cm m (x0 ) .

3.3

Version aleatoire

` la suite de Freund et Schapire (1996), Breiman (1998) developpe aussi, sous le nom dArcing (adapA
tively resample and combine), une version aleatoire, et en pratique tr`es proche, du boosting. Elle sadapte
a` des classifieurs pour lesquels il est difficile voire impossible dintegrer une ponderation des observations
dans lestimation. Ainsi plutot que de jouer sur les ponderations, a` chaque iteration, un nouvel e chantillon
est tire avec remise, comme pour le bootstrap, mais selon des probabilites inversement proportionnelles a` la
qualite dajustement de literation precedente. La presence des observations difficiles a` ajuster est ainsi renforcee pour que le mod`ele y consacre plus dattention. Lalgorithme adaboost precedent est facile a` adapter
en ce sens en regardant celui developpe ci-dessous pour la regression et qui adopte ce point de vue.

3.4

Pour la regression

Differentes adaptations du boosting ont e te proposees pour le cas de la regression, cest-`a-dire lorsque
la variable a` predire est quantitative. Voici lalgorithme de Drucker (1997) dans la presentation de Gey
et Poggi (2002) qui en e tudient les performances empiriques en relation avec CART. Freund et Schapire
(1996) ont propose Adaboost.R avec le meme objectif tandis que le point de vue de Friedman (2002) est
decrit plus loin dans lalgorithme 10.
Precisions :
Dans cet algorithme la fonction perte Q peut e tre exponentielle, quadratique ou, plus robuste, la
valeur absolue. Le choix usuel de la fonction quadratique est retenu par Gey et Poggi (2002).
Notons Lm = supi=1,...,n lm (i) le maximum de lerreur observee par le mod`ele bm sur lechantillon
initial. La fonction g est definie par :
g(lm (i))
avec

1lm (i)/Lm
= m
Ec
m
=
.
Lm Ec
m

(9.1)
(9.2)

Selon les auteurs, une condition supplementaire est ajoutee a` lalgorithme. Il est arrete ou reinitialise
a` des poids uniformes si lerreur se degrade trop : si Ec
m < 0.5Lm .
Lalgorithme gen`ere M predicteurs construits sur des e chantillons bootstrap zm dont le tirage depend
de probabilites p mises a` jour a` chaque iteration. Cette mise a` jour est fonction dun param`etre m qui
est un indicateur de la performance, sur lechantillon z, du mi`eme predicteur estime sur lechantillon zm .
La mise a` jour des probabilites depend donc a` la fois de cet indicateur global m et de la qualite relative
lm (i)/Lm de lestimation du i`eme individu. Lestimation finale est enfin obtenue a` la suite dune moyenne
ou mediane des previsions ponderees par la qualite respective de chacune de ces previsions. Gey et Poggi
(2002) conseille la mediane afin de saffranchir de linfluence de predicteurs tr`es atypiques.

94

Chapitre 9. Agregation de mod`eles

Algorithm 9 Boosting pour la regression


Soit x0 a` prevoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un e chantillon
Initialiser p par la distribution uniforme p = {pi = 1/n ; i = 1, . . . , n}.
Pour m = 1 a` M Faire
Tirer avec remise dans z un e chantillon zm suivant p.
Estimer bm sur lechantillon zm .
Calculer a` partir de lechantillon initial z :


lm (i) = Q yi , bm (xi )
i = 1, . . . , n; (Q : fonction perte)
Ec
m

n
X

pi lm (i);

i=1

wi

= g(lm (i))pi . (g continue non decroissante)

Calculer les nouvelles probabilites : pi Pnwi wi .


i=1
Fin Pour
b 0 ) moyenne ou mediane des previsions bm (x0 ) ponderees par des coefficients log( 1 ).
Calculer (x
m

3.5

Mod`ele additif pas a` pas

Le bon comportement du boosting par rapport a` dautres techniques de discrimination est difficile a`
expliquer ou justifier par des arguments theoriques. Un premier pas important en ce sens a e te franchi par
Breiman (1999) qui propose de considerer le boosting comme un algorithme global doptimisation. Cette
approche est reprise par Hastie et col. (2001) qui presentent le boosting dans le cas binaire sous la forme
dune approximation de la fonction par un mod`ele additif construit pas a` pas :
M
X

b
(x)
=

cm (x; m )

m=1

est cette combinaison o`u cm est un param`etre, le classifieur (faible) de base fonction de x et dependant
dun param`etre m . Si Q est une fonction perte, il sagit, a` chaque e tape, de resoudre :
(cm , m ) = arg min

(c,)

n
X

Q(yi , bm1 (xi ) + c(xi ; ));

i=1

bm (x) = bm1 (x) + cm (x; m ) est alors une amelioration de lajustement precedent.
Dans le cas dadaboost pour lajustement dune fonction binaire, la fonction perte utilisee est Q(y, (x)) =
exp[y(x)]. il sagit donc de resoudre :
(cm , m )

arg min

(c,)

arg min

(c,)

avec

wim

n
X

h
i
exp yi (bm1 (xi ) + c(xi ; )) ;

i=1
n
X

wim exp [cyi (xi ; )]

i=1

exp[yi bm1 (xi )];

wim ne dependant ni de c ni de , il joue le role dun poids fonction de la qualite de lajustement precedent.
Quelques developpements complementaires montrent que la solution du probl`eme de minimisation est ob-

3. Famille de mod`eles adaptatifs

95

tenue en deux e tapes : recherche du classifieur optimal puis optimisation du param`etre cm .


m
cm

arg min

n
X

1{yi 6= (xi ; )},

i=1

1
1 Ebp
log
2
Ep

avec Ebp erreur apparente de prevision tandis que les wi sont mis a` jour avec :
(m)

wi

(m1)

= wi

exp[cm ].

On montre ainsi quadaboost approche pas a` pas par un mod`ele additif en utilisant une fonction perte
exponentielle tandis que daubres types de boosting sont definis sur la base dune autre fonction perte :
AdaBoost Q(y, (x)) = exp[y(x)],
LogitBoost Q(y, (x)) = log2 (1 + exp[2y(x)],
L2 Boost Q(y, (x)) = (y (x))2 /2.
Dautres fonctions pertes sont envisageables pour, en particulier, un algorithme plus robuste face a` un
e chantillon dapprentissage presentant des erreurs de classement dans le cas de la discrimination ou encore
des valeurs atypiques (outliers) dans le cas de la regression. Hastie et col. (2001) comparent les interets
respectifs de plusieurs fonctions pertes. Celles jugees robustes (entropie en discrimination, valeur absolue
en regression) conduisent a` des algorithmes plus compliques a` mettre en uvre.

3.6

Regression et boosting

Dans le meme esprit dapproximation adaptative, Friedman (2002) propose sous lacronyme MART
(multiple additive regression trees) un algorithme base sur des arbres de regression pour traite le cas quantitatif en supposant la fonction perte seulement differentiable. Le principe de base est le meme que pour
Adaboost, construire une sequence de mod`eles de sorte que chaque e tape, chaque mod`ele ajoute a` la combinaison, apparaisse comme un pas vers une meilleure solution. Ce pas est franchi dans la direction du
gradient, approche par un arbre de regression, de la fonction perte.
Algorithm 10 MART (Multiple additive regression trees)
Soit x0 a` prevoir
Pn
Initialiser b0 = arg min i=1 Q(yi , )
Pour m = 1 `
a M Faire
i
h
i ,(xi ))
Calculer ri m = Q(y
,
(xi )
=m1

Ajuster un arbre de regression aux rm i donnant les feuilles ou regions terminales Rjm ; j = 1, . . . , Jm .
Pour m = 1 `
a M Faire
P
Calculer jm = arg min xi Rjm Q(yi , bm1 + ).
Fin Pour
PJm
Mise a` jour : bm (x) = bm (x) j=1
jm 1{x Rjm }.
Fin Pour
Resultat : bM (x0 ).
Lalgorithme est initialise par un terme constant cest-`a-dire encore un arbre a` une feuille. Les expressions du gradient reviennent simplement a` calculer les residus rmj du mod`ele a` letape precedente. Les
termes correctifs jm sont ensuite optimises pour chacune des regions Rjm definies par larbre de regression
ajustant les residus. Un algorithme de discrimination est similaire calculant autant de probabilites que de
classes a` prevoir.

96

3.7

Chapitre 9. Agregation de mod`eles

Complements

De nombreuses adaptations ont e te proposees a` partir de lalgorithme initial. Elles font intervenir
differentes fonctions pertes offrant des proprietes de robustesse ou adaptees a` une variable cible Y quantitative ou qualitative a` plusieurs classes : Adaboost M1, M2, MH ou encore MR. Schapire (2002) liste une
bibliographie detaillee.
Sur-ajustement
Dans le dernier algorithme, le nombre diterations peut e tre controle par un e chantillon de validation.
Comme pour dautres methodes (perceptron), il suffit darreter la procedure lorsque lerreur estimee sur
cet e chantillon arrive a` se degrader. Une autre possibilite consiste a` ajouter un coefficient de retrecissement
(shrinkage comme en regression ridge). Compris entre 0 et 1, celui-ci penalise lajout dun nouveau mod`ele
dans lagregation. Il joue le role du coefficient decay du perceptron) et, si sa valeur est petite (< 0, 1)
cela conduit a` accrotre le nombre darbres mais entrane des ameliorations de la qualite de prevision. Le
boosting est un algorithme qui peut effectivement converger exactement, donc vers une situation de surapprentissage. En pratique, cette convergence peut e tre rendue suffisamment lente pour e tre facilement
controlee.
Interpretation
Linterpretabilite des arbres de decision sont une des raisons de leur succ`es. Leur lecture ne necessite pas
de competences particuli`eres en statistique. Cette propriete est e videmment perdue par lagregation darbres
ou de tout autre mod`ele. Neanmoins, surtout si le nombre de variables est tr`es grand, il est important davoir
une indication de limportance relative des variables entrant dans la modelisation.
Des crit`eres dimportance des variables sont neanmoins faciles a` calculer comme dans le cas des forets
aleatoires.
Instabilite
Tous les auteurs ont remarque la grande instabilite des mod`eles construits a` base darbres : une leg`ere
modification des donnees est susceptible dengendrer de grandes modifications dans les param`etres (les
seuils et feuilles) du mod`ele. Cest justement cette propriete qui rend cette technique tr`es appropriee a` une
amelioration par agregation. Breiman (1998), pour les arbres de classification, puis Gey et Poggi (2002),
pour les arbres de regression, detaillent et quantifient en pratique linfluence de cette instabilite ainsi que
celle de lapport potentiel du boosting par rapport au bagging.
Proprietes
Les justifications theoriques des bons resultats du boosting et principalement la resistance au surajustement sont encore lobjet de travaux intenses suivant differentes pistes. La difficulte vient de ce que
lapplication de ce type dalgorithme sur une methode donnee, fait generalement mieux que lasymptotique
(en faisant crotre la taille de lechantillon) pour cette meme methode. Les approches usuelles de la statistique asymptotique sont mises en defaut et les bornes obtenues pour majorer les erreurs destimations
ou de prevision sont trop grossi`eres pour rendre compte de lefficacite effective de la methode. On trouve
ainsi, empiriquement, que lerreur de prevision ou de generalisation peut continuer a` decrotre longtemps
apr`es que lerreur dajustement se soit annulee. Parmi les pistes explorees, une approche stochastique
consid`ere que, meme deterministe, lalgorithme simule une dynamique markovienne (Blanchard, 2001).
Une deuxi`eme, rappelee ci-dessus, presente le boosting comme une procedure doptimisation globale par
une methode de gradient (Friedman, 2001). Dautres enfin (par exemple Lugosi et Vayatis, 2001), plus probantes, utilisent des inegalites de Vapnik pour montrer que, sous des hypoth`eses raisonnables et verifiees
dans les cas usuels : convexite et regularite de la fonction perte (exponentielle), arbres binaires, la probabilite derreur du boosting converge avec la taille n de lechantillon vers celle du classifieur bayesien
cest-`a-dire celui, optimal, obtenu en supposant connue la loi conjointe de X et Y .

97

5
4

0.0

Err.test

2.0
1.0

Err.app

3.0

4. Exemples

10

15

10

15

F IG . 9.1 Cancer : Evolution


des taux derreur (%) sur les e chantillons dapprentissage et de test en fonction
du nombre darbres dans le mod`ele avec adaboost.

Logiciels
Le bagging est tr`es facile a` programmer dans R mais il existe une librairie (ipred) qui en propose
des implementations efficaces. Lalgorithme de boosting (Freund et Schapire, 1996), ou plutot la version de
Friedman et col. (2000) a e te developpee et interfacee avec R dans la librairie gbm tandis que Friedman fait
commercialiser ses outils par la societe Salford System. Schapire diffuse lui le logiciel Boost texter sur sa
page pour des utilisations non commerciales.
Les forets aleatoires (Breiman, 2001), sont estimees par un programme e crit en fortran interface avec R
et distribuees avec la librairie randomForest de R.
Dautres implementations sont accessibles dans des botes a` outils mathlab.

Exemples

4.1

Cancer du sein
La prevision de lechantillon test par ces algorithmes conduit aux matrices de confusion :

benign
malignant

bagging(ipred)
benign malignant
83
3
3
48

adaboost(gbm)
benign malignant
84
1
2
50

random forest
benign malignant
83
0
3
51

et, respectivement, des erreurs estimees de 4,4 et 2,2% pour cet exemple et avec les e chantillons (apprentissage et test) tires.
Il est remarquable de noter levolution des erreurs dajustement et de test sur cet exemple (figure 9.1)
en fonction du nombre darbres estimes par adaboost. Lerreur dapprentissage arrive rapidement a` 0 tandis
que celle de test continue a` decrotre avant datteindre un seuil. Cet algorithme est donc relativement robuste au sur-apprentissage avant, e ventuellement, de se degrader pour des raisons, sans doute, de precision
numerique. Ce comportement a` e te releve dans beaucoup dexemples dans la litterature.

Chapitre 9. Agregation de mod`eles

50

Rsidus

50

250
150
50

50

100

200

300

100

Valeurs observees

100

98

50

100

Valeurs predites

150

200

250

300

Valeurs predites

F IG . 9.2 Ozone : Valeurs observees et residus de lechantillon test en fonction des valeurs predites par
une foret aleatoire

4.2

Concentration dozone

Magre une bonne prevision quantitative, la prevision du depassement de seuil reste difficile pour lalgorithme des forets aleatoires. Par une regression ou une discrimination, le taux derreur obtenu est le meme
(12,5%) sur le meme e chantillon test et dautres experimentations sont necessaires pour departager, ou non,
les differentes methodes. Il semble que, a` travers plusieurs exemples, lamelioration apportee a` la prevision
par des algorithmes dagregation de mod`eles soit nettement plus probante dans des situations difficiles
cest-`a-dire avec beaucoup de variables explicatives et des probl`emes de multicolinearite.
Comme les reseaux de neurones, les algorithmes dagregation de mod`eles sont des botes noires. Neanmoins
dans le cas des forets, les crit`eres dimportance donnent des indications sur le role de celles-ci. Les voici
ordonnees par ordre croissant du crit`ere base sur celui de Gini pour la construction des arbres.
jour station
2.54
13.58

lno
21.78

lno2 vmodule s_rmh2o


23.33
24.77
31.19

O3_pr
43.87

TEMPE
67.66

Les variables preponderantes sont celles apparues dans la construction dun seul arbre.

4.3

Carte visa

Les arbres, qui acceptent a` la fois des variables explicatives qualitatives et quantitatives en optimisant
le decoupage des variables quantitatives, se pretent bien au traitement des donnees bancaires. on a vu quun
seul arbre donnait des resultats semble-t-il tr`es corrects. Naturellement les forets constitues darbres se
trouvent e galement performantes sur ces donnees en gagnant en stabilite et sans trop se poser de probl`eme
concernant loptimisation de param`etres. Les TPs decrivent e galement les resultats proposes par les algorithmes de bagging et de boosting sur les arbres en faisant varier certains param`etres comme le shrinkage
dans le cas du boosting.
Les graphiques de la figure 9.3 montrent bien linsensibilite des forets au sur-apprentissage. Les taux
derreurs estimes, tant par bootstrap (out-of-bag), que sur un e chantillon test, se stabilisent au bout de
quelques centaines diterations. Il est meme possible dintroduire dans le mod`ele toutes les variables quantitatives et qualitatives, avec certaines dupliquees, en laissant lalgorithme faire son choix. Cet algorithme
conduit a` un taux derreur de 10,5% sur lechantillon test avec la matrice de confusion :

Cnon
Coui

Cnon Coui
126
11
10
53

tandis que les coefficients dimportance :

99

0.25
0.20
0.10

0.15

Err.test

0.20
0.16
0.12

Err.oob

0.24

4. Exemples

100

200

300

400

500

Index

100

200

300

400

500

Index

F IG . 9.3 Banque : Evolution


du taux de mal classes estimes out-of-bag et sur lechantillon test en
fonction du nombre darbres intervenant dans la combinaison de mod`eles.
QSMOY FACANL
20.97 26.77

RELAT DMVTPL QCREDL MOYRVL


29.98 36.81 40.31 50.01

mettent en e vidence les variables les plus discriminantes. De son cote, le boosting (sans schrinkage) fournit
des resultats tout a` fait comparables avec un taux derreur de 11%.

4.4

Regime des souris

Lexemple reprend les donnees de Baccini et col. (2005) concernant les differences dexpression des
g`enes en croisant deux facteurs lors dune experience de regime alimentaire (5 regimes) chez des souris (2 genotypes). Ces donnees sont aussi introduites dans Baccini et Besse (2000). Lobjectif des biologistes est de rechercher les g`enes dont le comportement est le plus perturbe par les differentes situations
de lexperience : les genotypes ou les regimes. Il a e te vu, par une simple analyse en composantes principales, que la distinction entre genotypes se visualise facilement ainsi que la caracterisation des g`enes qui y
participent. La discrimination des regimes est nettement plus difficile. Deux approches sont possibles pour
repondre a` cet objectif, la premi`ere consiste a` executer une batterie de tests pour chercher les g`enes significativement differentiellement exprimes en controlant soigneusement le niveau des tests a` cause de leur
multiplicite et donc de lapparition factuelle de faux positifs. La deuxi`eme (wrapper method) recherche le
sous-ensemble de g`enes conduisant a` la meilleure discrimination a` laide dun classifieur donne. Compte
tenu du nombre de g`enes dans letude et de la difficulte a` discriminer les regimes, les forets aleatoires ont e te
privilegiees. Lavantage important de cette approche est sa robustesse aux probl`eme de sur-apprentissage.
Lindice dimportance est ensuite utilise pour lister les g`enes ou les representer selon ce crit`ere cest-`a-dire
pour faire apparatre ceux qui, en moyenne sur lensemble des tirages bootstrap, contribuent le mieux a`
discriminer les modalites du facteur regime.
Dans le cas e lementaire de la discrimination des genotypes des souris, les g`enes qui apparaissent les plus
significatifs sont, par ordre decroissant : PMDCI, CAR1, THIOL, L.FABP, ALDH3, CYP3A11, PECI, GK,
CYP4A10, ACBP, FAS, CPT2, BSEP, mHMGCoAS, ACOTH. La previsiondes genotypes est presque sure
avec une estimation (out of bag) de lerreur de previsionde 2En revanche, la discrimination des regimes,
beaucoup plus delicate, a e te traitee conditionnellement au genotype. Le regime de rererence est dans les
deux cas le plus difficile a` reconnatre. Le taux derreur obtenu est peu performant mais sans grande signification a` cause du nombre de classes concernees. La figure 9.4 represente les g`enes en fonction de leur
importance pour la discrimination des regimes pour chacun des genotypes. Cest pour les souris PPAR que
la discrimination des regimes est la plus difficile. Ce resultat sinterpr`etent sur le plan biologique comme
une implication du recepteur PPAR dans les regulations geniques provoquees par les regimes alimentaires.

100

Chapitre 9. Agregation de mod`eles

5
4

PPAR

3
2
1
0
1
2

Lpin1 Lpin
GSTmu

TRb
PPARa

Lpin2 THIOL
CYP2c29
HPNCL
BSEP
FDFT ALDH3PMDCI
BIEN
PDK4 apoC3 SHP1 GSTpi2
CPT2
NURR1
ACBP
i.BAT FAS
CYP3A11
GS apoE
RARa
Tpalpha
UCP3
LPK
CYP27a1
eif2gC16SR CACP
COX2
ACOTH
COX1
apoB
UCP2
CYP4A14
Waf1MDR2 LDLr
TRa ADSS1
CYP4A10
MS LXRa
PXR
VLDLrG6Pase
GK SPI1.1
PECI
CYP7a
Pex11a
CYP26
SIAT4c
ACC1
CYP2b13
cMOAT
RXRg1
PPARg
cHMGCoAS
THB
MDR1
PLTP
CYP24
AM2R
GSTa
ACC2
RARb2
CIDEA
MTHFR
i.NOS
PAL
L.FABP
CYP27b1
c.fos
PON
apoA.I
ACAT1
LXRb
i.BABP
i.FABP Tpbeta MCAD
RXRa
IL.2
X36b4
MRP6
FXR
CYP8b1
LPL FAT
Lpin3
BACT
hABC1
CAR1
HMGCoAred
CBSBcl.3
mHMGCoAS
ADISP
NGFiB
Ntcp
M.CPT1
ap2
CYP2b10
mABC1
VDR LCE
S14
OCTN2 SR.BI
AOX
PPARd RXRb2
G6PDH
2

Wild

F IG . 9.4 Souris : representation des g`enes en fonction de leur importance pour la discrimination des
regimes a` genotype fixe (WT sur laxe horizontal et PPAR sur laxe vertical).

Chapitre 10
Les Support Vector Machines (SVM)
1

Introduction

Les Support Vector Machines souvent traduit par lappellation de Separateur a` Vaste Marge (SVM) sont
une classe dalgorithmes dapprentissage initialement definis pour la discrimination cest-`a-dire la prevision
dune variable qualitative initialement binaire. Ils ont e te ensuite generalises a` la prevision dune variable
quantitative. Dans le cas de la discrimination dune variable dichotomique, ils sont bases sur la recherche de
lhyperplan de marge optimale qui, lorsque cest possible, classe ou separe correctement les donnees tout
en e tant le plus e loigne possible de toutes les observations. Le principe est donc de trouver un classifieur, ou
une fonction de discrimination, dont la capacite de generalisation (qualite de prevision) est la plus grande
possible.
Cette approche decoule directement des travaux de Vapnik en theorie de lapprentissage a` partir de
1995. Elle sest focalisee sur les proprietes de generalisation (ou prevision) dun mod`ele en controlant sa
complexite. Voir a` ce sujet le chapitre 5 section 3.3 concernant la dimension de Vapnik Chernovenkis qui
est un indicateur du pouvoir separateur dune famille de fonctions associe a` un mod`ele et qui en controle la
qualite de prevision. Le principe fondateur des SVM est justement dintegrer a` lestimation le controle de la
complexite cest-`a-dire le nombre de param`etres qui est associe dans ce cas au nombre de vecteurs supports.
Lautre idee directrice de Vapnik dans ce developpement, est deviter de substituer a` lobjectif initial : la discrimination, un ou des probl`emes qui sav`erent finalement plus complexes a` resoudre comme par exemple
lestimation non-parametrique de la densite dune loi multidimensionnelle en analyse discriminante.
Le principe de base des SVM consiste de ramener le probl`eme de la discrimination a` celui, lineaire, de
la recherche dun hyperplan optimal. Deux idees ou astuces permettent datteindre cet objectif :
La premi`ere consiste a` definir lhyperplan comme solution dun probl`eme doptimisation sous contraintes
dont la fonction objectif ne sexprime qu`a laide de produits scalaires entre vecteurs et dans lequel
le nombre de contraintes actives ou vecteurs supports controle la complexite du mod`ele.
Le passage a` la recherche de surfaces separatrices non lineaires est obtenu par lintroduction dune
fonction noyau (kernel) dans le produit scalaire induisant implicitement une transformation non
lineaire des donnees vers un espace intermediaire (feature space) de plus grande dimension. Do`u
lappellation couramment rencontree de machine a` noyau ou kernel machine. Sur le plan theorique,
la fonction noyau definit un espace hilbertien, dit auto-reproduisant et isometrique par la transformation non lineaire de lespace initial et dans lequel est resolu le probl`eme lineaire.
Cet outil devient largement utilise dans de nombreux types dapplication et sav`ere un concurrent
serieux des algorithmes les plus performants (agregation de mod`eles). Lintroduction de noyaux, specifiquement
adaptes a` une problematique donnee, lui conf`ere une grande flexibilite pour sadapter a` des situations tr`es
diverses (reconnaissance de formes, de sequences genomiques, de caract`eres, detection de spams, diagnos` noter que, sur le plan algorithmique, ces algorithmes sont plus penalises par le nombre dobsertics...). A
vations, cest-`a-dire le nombre de vecteurs supports potentiels, que par le nombre de variables. Neanmoins,
des versions performantes des algorithmes permettent de prendre en compte des bases de donnees volumineuses dans des temps de calcul acceptables.

101

102

Chapitre 10. Les Support Vector Machines (SVM)

F IG . 10.1 Sous-ajustement lineaire et sur-ajustement local (proches voisins) dun mod`ele quadratique.
Le livre de reference sur ce sujet est celui de Scholkopf et Smola (2002). De nombreuses introduction et
presentations des SVM sont accessibles sur des sites comme par exemple : www.kernel-machines.org.
Guermeur et Paugam-Moisy (1999) en proposent une en francais.

2
2.1

Principes
Probl`eme

Comme dans toute situation dapprentissage, on consid`ere une variable Y a` predire mais qui, pour
simplifier cette introduction e lementaire, est supposee dichotomique a` valeurs dans {1, 1}. Soit X =
X 1 , . . . , X p les variables explicatives ou predictives et (x) un mod`ele pour Y , fonction de x = {x1 , . . . , xp }
IRp . Plus generalement on peut simplement considerer la variable X a` valeurs dans un ensemble F.
On note
z = {(x1 , y1 ), . . . , (xn , yn )}
un e chantillon statistique de taille n et de loi F inconnue. Lobjectif est donc de construire une estimation
b de , fonction de F dans {1, 1}, de sorte que la probabilite :
P ((X) 6= Y )
soit minimale.
Dans ce cas (Y dichotomique), le probl`eme se pose comme la recherche dune fronti`ere de decision
dans lespace F des valeurs de X. De facon classique, un compromis doit e tre trouve entre la complexite
de cette fronti`ere, qui peut sexprimer aussi comme sa capacite a` pulveriser un nuage de points par la VC
dimension, donc la capacite dajustement du mod`ele, et les qualites de generalisation ou prevision de ce
mod`ele. Ce principe est illustre par la figure 10.1.

2.2

Marge

La demarche consiste a` rechercher, plutot quune fonction b a` valeurs dans {1, 1}, une fonction reelle
f dont le signe fournira la prevision :
b = signe(f ).
Lerreur sexprime alors comme la quantite :
P ((X) 6= Y ) = P (Y f (X) 0).
De plus, la valeur absolue de cette quantite |Y f (X)| fournit une indication sur la confiance a` accorder au
resultat du classement.
On dit que Y f (X) est la marge de f en (X, Y ).

3. Separateur lineaire

103

F IG . 10.2 Recherche dun hyperplan de separation optimal au sens de la marge maximale.

2.3

Espace intermediaire

Une premi`ere e tape consiste a` transformer les valeurs de X, cest-`a-dire les objets de F par une fonction
a` valeurs dans un espace H intermediaire (feature space) muni dun produit scalaire. Cette transformation
est fondamentale dans le principe des SVM, elle prend en compte leventuelle non linearite du probl`eme
pose et le ram`ene a` la resolution dune separation lineaire. Ce point est detaille dans une section ulterieure.
Traitons tout dabord le cas lineaire cest-`a-dire le cas o`u est la fonction identite.

3
3.1

Separateur lineaire
Hyperplan separateur

La resolution dun probl`eme de separation lineaire est illustre par la figure 10.2. Dans le cas o`u la
separation est possible, parmi tous les hyperplans solutions pour la separation des observations, on choisit
celui qui se trouve le plus loin possible de tous les exemples, on dit encore, de marge maximale.
Dans le cas lineaire, un hyperplan est defini a` laide du produit scalaire de H par son e quation :
hw, xi + b = 0
o`u w est un vecteur orthogonal au plan tandis que le signe de la fonction
f (x) = hw, xi + b
indique de quel cote se trouve le point x a` predire. Plus precisement, un point est bien classe si et seulement
si :
yf (x) > 0
mais, comme le couple (w, b) qui caracterise le plan est defini a` un coefficient multiplicatif pr`es, on simpose :
yf (x) 1.
Un plan (w, b) est un separateur si :
yi f (xi ) 1

i {1, . . . , n}.

La distance dun point x au plan (w, b) est donnee par :


d(x) =

|f (x)|
| hw, xi + b|
=
kwk
kwk

104

Chapitre 10. Les Support Vector Machines (SVM)

2
et, dans ces conditions, la marge du plan a pour valeur kwk
eparateur de marge maximale
2 . Chercher le plan s
revient a` resoudre le probl`eme ci-dessous doptimisation sous contraintes (probl`eme primal) :

minw 12 kwk2

avec i, yi (< w, xi > +b) 1.

Le probl`eme dual est obtenu en introduisant des multiplicateurs de Lagrange. La solution est fournie
par un point-selle (w , b , ) du lagrangien :
L(w, b, ) = 1/2kwk22

n
X

i [yi (< w, xi > +b) 1] .

i=1

Ce point-selle verifie en particulier les conditions :


i [yi (< w , xi > +b ) 1] = 0 i {1, . . . , n}.
Les vecteurs support sont les vecteurs xi pour lesquels la contrainte est active, cest-`a-dire les plus proches
du plan, et verifiant donc :
yi (< w , xi > +b ) = 1.
Les conditions dannulation des derivees partielles du lagrangien permettent decrire les relations que
verifient le plan optimal, avec les i non nuls seulement pour les points supports :
w =

n
X

i yi xi

et

n
X

i yi = 0.

i=1

i=1

Ces contraintes degalite permettent dexprimer la formule duale du lagrangien :


W () =

n
X
i=1

n
1 X
i j yi yj < xi , xj > .
2 i,j=1

Pour trouver le point-selle, il suffit alors de maximiser W () avec i 0 pour tout i {1, ...n}.
La resolution de ce probl`eme doptimisation quadratique de taille n, le nombre dobservations, fournit
lequation de lhyperplan optimal :
n
X

1
i yi < x, xi > +b = 0 avec b0 = [< w , svclass+1 > + < w , svclass1 >] .
2
i=1

Pour une nouvelle observation x non apprise presentee au mod`ele, il suffit de regarder le signe de lexpression :
n
X
i yi hx, xi i + b
f (x) =
i=1

pour savoir dans quel demi-espace cette forme se trouve, et donc quelle classe il faut lui attribuer.

3.2

Cas non separable

Lorsque les observations ne sont pas separables par un plan, il est necessaire dassouplir les contraintes
par lintroduction de termes derreur i qui en controlent le depassement :
yi hw, xi i + b +1 i

i {1, . . . , n}.

Le mod`ele attribue ainsi une reponse fausse a` un vecteur xi si le i correspondant est superieur a` 1. La
somme de tous les i represente donc une borne du nombre derreurs.
Le probl`eme de minimisation est ree crit en introduisant une penalisation par le depassement de la
contrainte :

Pn
2
min 21 kwk + i=1 i
i, yi hw, xi i + b +1 i

4. Separateur non lineaire

105

Remarques
Le param`etre controlant la penalisation est a` regler. Plus il est grand et plus cela revient a` attribuer
une forte importance a` lajustement. Il est le param`etre qui ajuste le compromis entre bon ajustement
et bonne generalisation.
Le probl`eme dans le cas non separable se met sous la meme forme duale que dans la cas separable
a` une difference pr`es : les coefficients i sont tous bornes par la constante de controle de la
penalisation.
De nombreux algorithmes sont proposes pour resoudre ces probl`emes doptimisation quadratique.
Certains, proposant une decomposition de lensemble dapprentissage, sont plus particuli`erement
adaptes a` prendre en compte un nombre important de contraintes lorsque n, le nombre dobservation,
est grand.
On montre par ailleurs que la recherche des hyperplans optimaux repond bien au probl`eme de la
bonne generalisation. On montre aussi que, si lhyperplan optimal peut e tre construit a` partir dun
petit nombre de vecteurs supports, par rapport a` la taille de la base dapprentissage, alors la capacite
en generalisation du mod`ele sera grande, independamment de la taille de lespace.
Plus precisement, on montre que, si les X sont dans une boule de rayon R, lensemble des hyperplans
de marge fixee a une VC-dimension bornee par
R2
avec kxk R.
2
Lerreur par validation croisee (leave-one-out) et bornee en moyenne par le nombre de vecteurs supports. Ces bornes derreur sont bien relativement predictives mais neanmoins trop pessimistes pour
e tre utiles en pratique.

4
4.1

Separateur non lineaire


Noyau

Revenons a` la presentation initiale du probl`eme. Les observations faites dans lensemble F (en general
IRp ) sont considerees comme e tant transformees par une application non lineaire de F dans H muni dun
produit scalaire et de plus grande dimension.
Le point important a` remarquer, cest que la formulation du probl`eme de minimisation ainsi que celle
de sa solution :
n
X
i yi hx, xi i + b
f (x) =
i=1

ne fait intervenir les e lements x et x0 que par lintermediaire de produits scalaires : hx, x0 i. En consequence,
il nest pas necessaire dexpliciter la transformation , ce qui serait souvent impossible, a` condition de
savoir exprimer les produits scalaires dans H a` laide dune fonction k : F F IR symetrique appelee
noyau de sorte que :
k(x, x0 ) = h(x), (x0 )i .
Bien choisi, le noyau permet de materialiser une notion de proximite adaptee au probl`eme de discrimination et a` sa structure de donnees.
Exemple

Prenons le cas trivial o`u x = (x1 , x2 ) dans IR2 et (x) = (x21 , 2x1 x2 , x22 ) est explicite. Dans ce cas,
H est de dimension 3 et le produit scalaire secrit :
0 0
2 02
h(x), (x0 )i = x21 x02
1 + 2x1 x2 x1 x2 + x2 x2

(x1 x01 + x2 x02 )2


2

= hx, x0 i

= k(x, x0 ).
Le calcul du produit scalaire dans H ne necessite pas levaluation explicite de . Dautre part, le plongement
dans H = IR3 peut rendre possible la separation lineaire de certaines structures de donnees (cf. figure 10.3).

106

Chapitre 10. Les Support Vector Machines (SVM)

F IG . 10.3 Role de lespace intermediaire dans la separation des donnees.

4.2

Condition de Mercer

Une fonction k(., .) symetrique est un noyau si, pour tous les xi possibles, la matrice de terme general
k(xi , xj ) est une matrice definie positive cest-`a-dire quelle definit une matrice de produit scalaire.
Dans ce cas, on montre quil existe un espace H et une fonction tels que :
k(x, x0 ) = h(x), (x0 )i .
Malheureusement, cette condition theorique dexistence est difficile a` verifier et, de plus, elle ne donne
aucune indication sur la construction de la fonction noyau ni sur la transformation . La pratique consiste
a` combiner des noyaux simples pour en obtenir des plus complexes (multidimensionnels) associes a` la
situation rencontree.

4.3

Exemples de noyaux
Lineaire
k(x, x0 ) = hx, x0 i

Polynomial
k(x, x0 ) = (c + hx, x0 i)d
Gaussien
k(x, x0 ) = e

kxx0 k2
2 2

Beaucoup darticles sont consacres a` la construction dun noyau plus ou moins exotique et adapte a` une
problematique posee : reconnaissance de sequences, de caract`eres, lanalyse de textes... La grande flexibilite
dans la definition des noyaux, permettant de definir une notion adaptee de similitude, conf`ere beaucoup
defficacite a` cette approche a` condition bien sur de construire et tester le bon noyau. Do`u apparat encore
limportance de correctement e valuer des erreurs de prevision par exemple par validation croisee.
Attention, les SVM a` noyaux RBF gaussiens, pour lesquels, soit on est dans le cas separable, soit la
penalite attribuee aux erreurs est autorisee a` prendre nimporte quelle valeur, ont une VC-dimension infinie.

4.4

SVM pour la regression

Les SVM peuvent e galement e tre mis en oeuvre en situation de regression, cest-`a-dire pour lapproximation de fonctions quand Y est quantitative. Dans le cas non lineaire, le principe consiste a` rechercher une
estimation de la fonction par sa decomposition sur une base fonctionnelle. la forme generale des fonctions
calculees par les SVM se met sous la forme :
(x, w) =

X
i=1

wi vi (x).

5. Exemples

107

Le probl`eme se pose toujours comme la minimisation dune fonction cout, mais, plutot que detre basee sur
un crit`ere derreur quadratique (moindres carres), celle-ci sinspire des travaux de Huber sur la recherche
de mod`eles robustes et utilise des e carts absolus.
On note |.| la fonction qui est paire, continue, identiquement nulle sur lintervalle [0, ] et qui croit
lineairement sur [, +]. La fonction cout est alors definie par :
n

E(w, ) =

1X
|yi (xi , w)| + kwk2
n i=1

o`u est, comme en regression ridge, un param`etre de regularisation assurant le compromis entre generalisation
et ajustement. De meme que precedemment, on peut e crire les solutions du probl`emes doptimisation. Pour
plus de details, se reporter a` Scholkopf et Smola (2002). Les points de la base dapprentissage associes a` un
coefficient non nul sont l`a encore nommes vecteurs support.
Dans cette situation, les noyaux k utilises sont ceux naturellement associes a` la definition de bases de
fonctions. Noyaux de splines ou encore noyau de Dericlet associe a` un developpement en serie de Fourier
sont des grands classiques. Ils expriment les produits scalaires des fonctions de la base.

Exemples

Meme si les SVM sappliquent a` un probl`eme de regression, nous nillustrons que le cas plus classique
de la discrimination.

5.1

Cancer du sein
La prevision de lechantillon test par un Separateur a` Vaste marge conduit a` la matrice de confusion :

ign malignant
benign
malignant

83
3

1
50

et donc une erreur estimee de 3%.

5.2

Concentration dozone

Un mod`ele e lementaire avec noyau par defaut (gaussien) et une penalisation de 2 conduit a` une erreur
de prevision estimee a` 12,0% sur lechantillon test. La meilleure prevision de depassement de seuil sur
lechantillon test initial est fournie par des SVM d-regression. Le taux derreur est de 9,6% avec la matrice
de confusion suivante :
0
FALSE 161
TRUE
7

1
13
27

Ce resultat serait a` confirmer avec des estimations sytematiques de lerreur. Les graphiques de la figure 10.4
montre le bon comportement de ce predicteur. Il souligne notamment leffet tunnel de lestimation qui
accepte des erreurs autour de la diagonale pour se concentrer sur les observations plus e loignees donc plus
difficiles a` ajuster.

5.3

Carte Visa

Les donnees bancaires posent un probl`eme car elles mixent variables quantitatives et qualitatives. Cellesci necessiteraient la construction de noyaux tr`es specifiques. Leur traitement par SVM nest pas detaille ici.

Chapitre 10. Les Support Vector Machines (SVM)

Rsidus

200
150
0

100

50

50

100

Valeurs observees

50

250

100

300

108

50

100

150

200

Valeurs predites

250

300

50

100

150

200

250

300

Valeurs predites

F IG . 10.4 Ozone : Valeurs observees et residus en fonction des valeurs predites pour lechantillon test.

Chapitre 11
Conclusion
Ce chapitre se propose de resumer les grandes lignes de ce cours dans une vue synthetique : methodes
et strategies dans lobjectif dune comparaison globale des methodes sur les differents jeux de donnees
(cancer, pollution, carte visa). Il e voque enfin les pi`eges frequents de telles demarches et revient sur la place
du statisticien.

Strategies du data mining

Les chapitres precedents decrivent les outils de base du prospecteur de donnees tandis que les logiciels
commerciaux en proposent une integration plus ou moins compl`ete, plus ou moins conviviale de mise en
uvre. En pratique, lenchanement de ces techniques permet la mise en place de strategies de fouille bien
definies. Celles-ci dependent essentiellement des types de variables consideres et des objectifs poursuivis.

Types de variables
Explicatives Lensemble des p variables explicatives ou predictives est note X, il est constitue de variables
XIR toutes quantitatives1 ,
XE toutes qualitatives,
XIRE un melange de qualitatives et quantitatives.
` expliquer La variable a` expliquer ou a` predire ou cible (target) peut e tre
A
Y quantitative,
Z qualitative a` 2 modalites,
T qualitative.

Objectifs
Trois objectifs principaux sont poursuivis dans les applications classiques de data mining :
i. Exploration multidimensionnelle ou reduction de dimension : production de graphes, dun sousensemble de variables representatives Xr , dun ensemble de composantes Cq prealables a` une autre
technique.
ii. Classification (clustering) ou segmentation : production dune variable qualitative Tr .
iii. Modelisation (Y ou Z)/Discrimination (Z ou T ) production dun mod`ele de prevision de Y (resp.
Z, T ).
Dautres methodes plus specifiques a` certaines problematiques peuvent apparatre (analyse sensorielle, analyse conjointe, SARIMA. . . mais leur usage reste limite a` des contextes bien particuliers.

Outils
Les methodes utilisables se classent en fonction de leur objectif et des types de variables predictives et
cibles.
1 Une variables explicative qualitative a
` 2 modalites (0,1) peut e tre consideree comme quantitative ; cest lindicatrice des modalites.

109

110

Chapitre 11. Conclusion

Exploration

Classification

ACP XIR et
AFCM XE et
AFD XIR et T

CAH

XIR et
Nu
eeDyn XIR et
RNKoho

XIR et

Modelisation
i. Mod`ele lineaire generalise
XIR et Y
ANOVA XE et Y
RLM

ACOVA XIRE et Y
Rlogi XIRE et Z
Lglin XT et T
ii. Analyse discriminante
ADpar/nopar XIR et T
iii. Classification and regression Tree
ArbReg XIRE et Y

ArbCla XIRE et T
iv. Reseaux neuronaux
percep XIRE et Y ou T
v. Agregation de mod`eles
Bagging XIRE et Y ou T
RandFor XIRE et Y ou T
Boosting XIRE et Y ou T
vi. Support Vector Machine
SVM-R XIRE et Y
SVM-C XIRE et T

Strategies
Les strategies classiques de la fouille de donnees consistent a` enchaner les e tapes suivantes :
i. Extraction de lentrepot des donnees e ventuellement par sondage pour renforcer leffort sur la qualite
des donnees plutot que sur la quantite.
ii. Exploration

Tri a` plat, e tape e lementaire mais essentielle de verification des donnees, de leur coherence. Etude
des distributions, transformation, recodage e ventuel des variables quantitatives, regroupement de
modalites des variables qualitatives, e limination de certaines variables (trop de donnees manquantes, quasi constantes, redondantes. . . ). Gerer rigoureusement les codes des variables et de
leurs modalites.

Etude
bivariee Recherche deventuelles relations non lineaires. Si les variables sont trop nombreuses, selectionner les plus liees a` la variable cible. Completion des donnees manquantes.
iii. Analyse
Classification :
Pas de variable a` expliquer
En cas de variables XIRE ou XT , la classification est executee sur les Cq issues dune
AFCM des variables codees en classes.
Caracterisation des classes par les variables
initiales a` laide des outils de discrimination.

Modelisation/Discrimination :
Une variable a` expliquer Y , Z ou T
Extraction dun e chantillon test,
Estimation, optimisation (validation croisee)
des mod`eles pour chacune des methodes utilisables.
Comparaison des performances des
mod`eles optimaux de chaque methode
sur lechantillon test.

iv. Exploitation du mod`ele et diffusion des resultats. Finalement, une fois que la bonne methode associe
au bon mod`ele ont e te choisie, tout lechantillon est regroupe pour faire une derni`ere estimation du
mod`ele qui sera utilise en exploitation.

2
2.1

Comparaison des resultats


Cancer du sein

Le programme destimation des mod`eles e crit en R a e te automatise afin de repeter 50 fois loperation
consistant a` extraire aleatoirement 20% des observations pour constituer un e chantillon test ; le reste constituant lechantillon dapprentissage. Loptimisation des param`etres est realisee par validation croisee. Chaque

111

err.lm

err.tree

err.neur

err.bag

err.rf

err.svm

0.0

0.1

0.00

0.2

0.02

0.3

0.04

0.4

0.5

0.06

0.08

0.10

0.12

0.14

2. Comparaison des resultats

F IG . 11.1 Cancer : Diagrammes botes des taux derreurs observes sur 50 e chantillons tests et pour chaque
methode : regression logistique, arbre de decision, reseau de neurones, bagging, random forest, svm. Le
boosting est mis de cote pour des probl`emes dechelle et de comportement erratique.
TAB . 11.1 Banque : Moyennes des taux derreurs de classement calcules sur 30 e chantillons test pour
chaque mod`ele de prevision
Methode
Moyenne

Ecart-type

Adaboost
9.7
2.0

Arbre
11.8
2.3

Regression
12.5
2.0

Perceptron
13.4
2.3

Foret
10.6
2.2

e chantillon test fournit donc une estimation sans biais de lerreur de prevision. La distribution de ces erreurs
est alors representee par des diagrammes en botes (cf ; fig. 11.1). Les resultats montrent le bon comportement des forets aleatoires et les tr`es bons resultats du boosting en general mais cet algorithme, sur cet
exemple, peut reserver des surprises mal controlees et ici pas encore expliquees.

2.2

Concentration dozone

Toujours avec le meme protocole, 50 e chantillons tests on e te successivement tires afin destimer sans
biais les erreurs de prevision. Les resultats sont presentes dans la figure 11.2. Les techniques dagregation
(random forest) sont performantes mais pas de facon tr`es significative. En fait, le probl`eme ne presentant
que peu de variables explicatives, une simple regression quadratique donne des resultats tr`es satisfaisants
et surtout facilement interpretables ; ils sont en effet charges dun sens physique pour le meteorologue
qui peut donc directement relever les faiblesses du mod`ele physique a` la base de MOCAGE. Il semble
bien que dans cet exemple, le nombre de variables explicatives nest pas tr`es important et le vrai mod`ele
physique sous-jacent peu exotique. Dans ce cas, la regression quadratique est la plus appropriee. Remarque :
la prevision des depassements peut conduire a` dautres choix de methode ou de strategie en prevoyant
directement le depassement sans passer par la regression de la concentration. Ce point est laisse en attente
car le nombre de depassements observes (plus de 180) dans les stations est relativement rare donc difficiles
a` prevoir. Ceci necessite plus de precautions : reponderation des depassements.

2.3

Carte visa

Trente e chantillons tests ont successivement e te tires afin dobserver les distributions des taux de mauvais classement obtenus par differentes methodes : arbre de decision, regression logistique, reseaux de
neurones, boosting et foret aleatoire.
Les algorithmes dagregation de mod`eles fournissent des resultats qui, en moyenne, se montrent sensi-

112

Chapitre 11. Conclusion

25

30

35

40

BOITES A MOUSTACHES DES ERREURSTYPES DES PREVISIONS DOZONE

MOCAGE

ANCOVA

ANCOVA+INT

CART

BAGGING

FORET

SVM

NEURONE

F IG . 11.2 Ozone : Diagrammes botes des taux derreurs observes sur 50 e chantillons tests et pour chaque
methode : mocage, regression lineaire, quadratique, arbre de decision, bagging, random forest, svm reseau
de neurones.

17.5
15.0
t
a
u 12.5
x
m
c
10.0
7.5
5.0
Aboos Arbre Logit ResNe
Methode

Rfor

F IG . 11.3 Banque : Diagrammes botes des taux derreurs observes sur 30 e chantillons tests et pour chaque
methode.

3. Pi`eges

113

blement plus performants (cf. figure 11.3 et tableau 11.1) sur un e chantillon test. Les e carts-types, dependant
de la taille de lechantillon test, y sont relativement stables. Les moyennes montrent, sur cet exemple, que
le boosting predit un peu mieux que les forets aleatoires sans que des raisons bien specifiques viennent
lexpliquer. Bien sur, ce qui est gagne en predictibilite est perdu en interpretabilite par rapport a` un mod`ele
classique. Neanmoins le gain realise est souvent e tonnant et des indices dimportance des variables restent
disponibles.

Pi`eges

Les principaux pi`eges qui peuvent e tre rencontres au cours dune prospection peuvent e tre le resultat
dun acharnement en quete de sens (data snooping). Cela signifie qu`a force de creuser, contrairement a` un
prospecteur minier a` la recherche de diamants bien reels, le prospecteur en donnees disposant dun grand
nombre de variables finit bien, en mode exploratoire, par trouver des relations semblant hautement significatives. Par exemple, au seuil classique, 5% des tests sont, a` tord, significatifs et conduisent a` des faux
positifs ou des fausses correlations. Il suffit donc den faire beaucoup, de croiser beaucoup de variables,
pour necessairement trouver du sens dans des donnees. Encore une fois, il est preferable deviter le fonctionnement Shadock (cf. figure 11.4) : je nai quune chance sur un milliard de reussir ; je me dep`eche
donc de rater le plus dessais possibles.
En phase de modelisation, une sur-parametrisation ou un sur-ajustement du mod`ele peut parfaitement
expliquer des donnees sans pour autant que les resultats soient extrapolables ou generalisables a` dautres
donnees que celles e tudiees. Les resultats de prevision seront donc entaches dune forte erreur relative liee
a` la variance des estimations des param`etres. Cest toujours le probl`eme de trouver un bon compromis
entre le biais dun mod`ele plus ou moins faux et la variance des estimateurs. Nous insistons donc sur les
indispensables phases de choix de mod`eles et comparaison des methodes.

4
4.1

Role du statisticien
Des competences multiples

Une bonne pratique du Data Mining necessite de savoir articuler toutes les methodes entrevues dans ce
document. Rude tache, qui ne peut e tre entreprise qu`a la condition davoir tr`es bien specifie les objectifs
de letude. On peut noter que certaines methodes poursuivent les memes objectifs predictifs. Dans les bons
cas, donnees bien structurees, elles fourniront des resultats tr`es similaires, dans dautres une methode peut
se reveler plus efficace compte tenu de la taille de lechantillon ou geometriquement mieux adaptee a` la
topologie des groupes a` discriminer ou encore en meilleure interaction avec les types des variables. Ainsi, il
peut e tre important et efficace de decouper en classes des variables predictives quantitatives afin dapprocher
de facon sommaire une version non-lineaire du mod`ele par une combinaison de variables indicatrices. Cet
aspect est par exemple important en regression logistique ou avec un perceptron mais inutile avec des
arbres de decisions qui int`egrent ce decoupage en classes dans la construction du mod`ele (seuils optimaux).
Dautre part, les methodes ne presentent pas toutes les memes facilites dinterpretation. Il ny a pas de
meilleur choix a priori, seul lexperience et un protocole de test soigne permettent de se determiner. Cest
la raison pour laquelle des logiciels generalistes comme SAS (module Enterprise Miner) ne font pas de
choix et offrent ces methodes en parall`ele pour mieux sadapter aux donnees, aux habitudes de chaque
utilisateur (client potentiel) et a` la mode.

4.2

De lutilite du statisticien

Le travail demande deborde souvent du role dun statisticien car la masse et la complexite des donnees
peuvent necessiter le developpement dinterfaces et doutils graphiques sophistiques permettant un acc`es
aises aux donnees, comme a` des resultats, par lutilisateur finale a` laide par exemple dun simple navigateur
sur lintranet de lentreprise. Neanmoins, au del`a de ces aspects plus informatiques, lobjectif principal
reste une quete de sens en vue de faciliter les prises de decision tout en en preservant la fiabilite. Ainsi, la
presence ou le controle dune expertise statistique reste incontournable car la meconnaissance des limites et
pi`eges des methodes employees peut conduire a` des aberrations discreditant la demarche et rendant caducs
les investissements consentis. En effet, il faut bien admettre, et faire admettre, que, meme si un petit quart

114

Chapitre 11. Conclusion

F IG . 11.4 Shadoks : Tant qu`a pomper, autant que cela serve a` quelque chose !
dheure suffit pour se familiariser avec une interface graphique conviviale, la bonne comprehension des
methodes employees necessite plusieurs heures de cours ou reflexion a` Bac+5. Il devient tellement simple,
avec les outils disponibles, de lancer des calculs, que certains nhesitent pas a` comparer prospecteur de
donnees et chauffeur de voiture en arguant quil nest pas necessaire detre un mecanicien accompli pour
savoir conduire. Neanmoins, la conduite dune modelisation, dune segmentation, dune discrimination,
imposent a` son auteur des choix plus ou moins implicites qui sont loin detre neutres et qui depassent
largement en complexite celui du choix dun carburant par le conducteur a` la pompe.

Bibliographie
[1] A. AGRESTI : Categorical data analysis. Wiley, 1990.
[2] A. A NTONIADIS, J. B ERRUYER et R. C ARMONA : Regression non lineaire et applications. Economica, 1992.
[3] J.-M. A ZAI S et J.-M. BARDET : Le mod`ele lineaire par lexemple : regression, analyse de la variance
et plans dexpereinces illustres avec R, SAS et Splus. Dunod, 2005.
[4] A. BACCINI et P. B ESSE :
tlse.fr/Besse/enseignement.html.

Data mining : 1. exploration statistique, 2000.

www.ups-

[5] A. BACCINI, P. B ESSE, S. D E JEAN, P. M ARTIN, C. ROBERT-G RANI E et M. S AN C RISTOBAL :


Strategies pour lanalyse statistique de donnees transcriptomiques. Journal de la Societe Francaise de
Statistique, 146:444, 2005.
[6] P.C. B ESSE, C. L E G ALL, N. R AIMBAULT et S. S ARPY : Statistique et data mining. Journal de la
Societe Francaise de Statistique, 142:536, 2001.
[7] G. B LANCHARD : Generalization error bounds for aggregate classifiers. In Proceedings of the MSRI
international conference on nonparametric estimation and classification, page , 2001.
[8] L. B REIMAN : Bagging predictors. Machine Learning, 26(2):123140, 1996.
[9] L. B REIMAN : Arcing classifiers. Annals of Statistics, 26:801849, 1998.
[10] L. B REIMAN : Prediction games and arcing algorithms. Neural Computation, 11:14931517, 1999.
[11] L. B REIMAN : Random forests. Machine Learning, 45:532, 2001.
[12] L. B REIMAN, J. F RIEDMAN, R. O LSHEN et C. S TONE : Classification and regression trees. Wadsworth & Brooks, 1984.
[13] P.-A. C ORNILLON et E. M ATZNER -L BER : Regression, Theorie et applications. Springer, 2007.
[14] H. D RUCKER : Improving regressors using boosting techniques. In M. K AUFMANN, e diteur : Proceedings of th 14th International Conference on Machine Learning, pages 107115, 1997.
[15] B. E FRON : The Jackknife, the Bootstrap and other Resampling Methods. SIAM, 1982.
[16] B. E FRON et R. T IBSHIRANI : Improvements on cross-validation : The .632+ bootstrap method.
Journal of the American Statistical Association, 92(438):548560, 1997.
[17] B. E FRON et R.J. T IBSHIRANI : An introduction to the bootstrap. Chapman and Hall, 1993.
[18] Y. F REUND et R.E. S CHAPIRE : Experiments with a new boosting algorithm. In Machine Learning :
proceedings of the Thirteenth International Conference, pages 148156. Morgan Kaufman, 1996. San
Francisco.
[19] Y. F REUND et R.E. S CHAPIRE : Experiments with a new boosting algorithm. Journal of Computer
and System Sciences, 55:119139, 1997.
[20] J. H. F RIEDMAN : Greedy function approximation : a gradient boosting machine. Annals of Statistics,
29:11891232., 2001.
[21] J. H. F RIEDMAN : Stochastic gradient boosting. Computational Statisrics and Data Analysis, 38: ,
2002.
115

116

BIBLIOGRAPHIE

[22] J. H. F RIEDMAN, H. H ASTIE et R. T IBSHIRANI : Additive logistic regression : a statistical view of


boosting. The Annals of Statistics, 28:337407, 2000.
[23] S. G EY et J.-M. P OGGI : Boosting and instabillity for regression trees. Rapport technique 36, Universite de Paris Sud, Mathematiques, 2002.
[24] B. G HATTAS : Agregation darbres de classification. Revue de Statistique Appliquee, 48(2):8598,
2000.
[25] Y. G UERMEUR et H. PAUGAM -M OISY : Theorie de lapprentissage de vapnik et svm, support vector
machines. In M. S EBBAN et G. V ENTURINI, e diteurs : Apprentissage automatique, pages 109138.
Hermes, 1999.
[26] T. H ASTIE, R. T IBSHIRANI et J F RIEDMAN : The elements of statistical learning : data mining,
inference, and prediction. Springer, 2001.
[27] T.J. H AYKIN : Neural network, a comprehensive foundation. Prentice-Hall, 1994.
[28] J.D. J OBSON : Applied Multivariate Data Analysis, volume I : Regression and experimental design.
Springer-Verlag, 1991.
[29] G. L UGOSI et N. VAYATIS : On the bayes-risk consistency of boosting methods. Preprint, : , 2001.
[30] P. M C C ULLAGH et J.A. N ELDER : Generalized Linear Models. Chapman & Hall, 1983.
[31] J.R. Q UINLAN : C4.5 Programs for machine learning. Morgan Kaufmann, 1993.
[32] B.D. R IPLEY : Pattern recognition and neural networks. Cambridge University Press, 1996.
[33] G. S APORTA : Probabilites, Analyse des Donnees et Statistique. Technip, deuxi`eme e dition, 2006.
[34] SAS : SAS/STAT Users Guide, volume 2. Sas Institute Inc., fourth e dition, 1989. version 6.
[35] SAS : SAS/INSIGHT Users Guide. Sas Institute Inc., third e dition, 1995. version 6.
[36] R. S CHAPIRE : The strength of weak learnability. Machine Learning, 5:197227, 1990.
[37] R. S CHAPIRE : The boosting approach to machine learning. an overview. In MSRI workshop on non
linear estimation and classification, page , 2002.

[38] B S CH OLKOPF
et A S MOLA : Learning with Kernels Support Vector Machines, Regularization, Optimization and Beyond. MIT Press, 2002.
[39] SEM : SAS/ Enterprise Miner Users Guide. Sas Institute Inc., 2001. version 8.
[40] M. T ENENHAUS : Statistique : methodes pour decrire, expliquer et prevoir. Dunod, 2007.
[41] S. T HIRIA, Y. L ECHEVALLIER, O. G ASCUEL et S. C ANU : Statistique et methodes neuronales. Dunod, 1997.
[42] S. T UFF E RY : Data Mining et Statistique decisionnelle : lintelligence des donnees. Technip, 2007.
[43] V.N. VAPNIK : Statistical learning theory. Wiley Inter science, 1999.

Annexes

117

118

BIBLIOGRAPHIE

Chapitre A
Introduction au bootstrap
1

Introduction

La motivation du bootstrap1 (Efron, 1982 ; Efron et Tibshirani, 1993) est dapprocher par simulation
(Monte Carlo) la distribution dun estimateur lorsque lon ne connat pas la loi de lechantillon ou, plus
souvent lorsque lon ne peut pas supposer quelle est gaussienne. Lobjectif est de remplacer des hypoth`ess
probabilistes pas toujours verifiees ou meme inverifiables par des simulations et donc beaucoup de calcul.
Le principe fondamental de cette technique de ree chantillonnage est de substituer a` la distribution de
probabilite inconnue F , dont est issu lechantillon dapprentissage, la distribution empirique Fb qui donne
un poids 1/n a` chaque realisation. Ainsi on obtient un e chantillon de taille n dit e chantillon bootstrap selon
la distribution empirique Fb par n tirages aleatoires avec remise parmi les n observations initiales.
Il est facile de construire un grand nombre dechantillons bootstrap sur lesquels calculer lestimateur
concerne. La loi simulee de cet estimateur est une approximation asymptotiquement convergente sous des
hypoth`eses raisonnables2 de la loi de lestimateur. Cette approximation fournit ainsi des estimations du
biais, de la variance, donc dun risque quadratique, et meme des intervalles de confiance de lestimateur
sans hypoth`ese (normalite) sur la vraie loi.

1.1

Principe du plug-in

Soit x = {x1 , . . . , xn } un e chantillon de taille n issue dune loi inconnue F sur (, A). On appelle loi
empirique Fb la loi discr`ete des singletons (x1 , . . . , xn ) affectes des poids 1/n :
Fb =

n
X

xi .

i=1

Soit A A, PF (A) est estimee par :


b(P )F (A) = P b (A) =
F

n
X

xi (A) =

i=1

1
Cardxi A.
n

De mani`ere plus generale, soit un param`etre dont on suppose que cest une fonction de la loi F . on e crit
donc = t(F ). Par exemple, = E(F ) est un param`etre de F suivant ce mod`ele. Une statistique est une
fonction (mesurable) de lechantillon. Avec le meme exemple :
n

b=x=

1X
xi
n i=1

et x est la statistique qui estime . On dit que cest un estimateur plug-in et, plus generalement,
1 Cette appellation est inspir
ee du baron de Munchhausen (Rudolph Erich Raspe) qui se sortit de sables mouvants par traction sur
ses tirants de bottes. En France bootstrap est parfois traduit par a` la Cyrano (acte III, sc`ene 13) en reference a` ce heros qui prevoyait
datteindre la lune en se placant sur une plaque de fer et en iterant le jet dun aimant.
2 Echantillon

independant de meme loi et estimateur independant de lordre des observations.

119

120

Chapitre A. Introduction au bootstrap

D E FINITION A.1. On appelle estimateur plug-in dun param`etre de F , lestimateur obtenu en remplacant
la loi F par la loi empirique :
b = t(Fb).
comme dans le cas de lestimation de :
b = E(Fb) = x.

1.2

Estimation de lecart-type de la moyenne


Soit X une variable aleatoire reelle de loi F . On pose :
et F2 = VarF (X) = EF [(X F )2 ];

F = EF (X),
Ce qui secrit :

X (F , F2 ).
Pn
Soit (X1 , . . . , Xn ) n variables aleatoires i.i.d. suivant aussi la loi F . Posons X = n1 i=1 Xi . Cette variable
aleatoire a pour esperance F et pour variance F2 /n. On dit aussi que la statistique
X (F , F2 /n).
Remarquons quen moyennant plusieurs valeurs ou observations, on reduit la variance inherente a` une
observation. De plus, sous certaines conditions sur la loi F et comme resultat du theor`eme de la limite
centrale, X converge en loi vers la loi normale.
Lestimateur plug-in de F est defini par :

b2

2
= c
F = F
b (X)
b = VarF
n

1X
= EFb [(X EFb (X)) ] =
(Xi X)2 .
n i=1
2

Lestimateur plug-in de F est (leg`erement) different de celui du maximum de vraisemblance. Lestimateur


plug-in est en general biaise mais il a lavantage detre simple et de pouvoir sappliquer a` tout param`etre
meme lorsque lon ne peut pas calculer la vraisemblance du mod`ele.

Estimation bootstrap dun e cart-type

Soit b = s(x) un estimateur quelconque (M.V. ou autre) de pour un e chantillon x donne. On cherche
a` apprecier la precision de b et donc a` estimer son e cart-type.

2.1 Echantillon
bootstrap
Avec les memes notation, Fb est la distribution empirique dun e chantillon x = {x1 , . . . , xn }.
D E FINITION A.2. On appelle e chantillon bootstrap de x un e chantillon de taille n note
x = {x1 , . . . , xn }
suivant la loi Fb ; x est un re-echantillon de x avec remise.

2.2

Estimation dun e cart-type

b
b
D E FINITION A.3. On appelle estimation bootstrap de lecart-type c
F () de , son estimation plug-in :
b
Fb ().
Mais, a` part dans le cas tr`es e lementaire o`u, comme dans lexemple ci-dessus, est une moyenne, il ny
a pas de formule explicite de cet estimateur. Une approximation de lestimateur bootstrap (ou plug-in) de
lecart-type de b est obtenue par une simulation (Monte-Carlo) decrite dans lalgorithme ci-dessous.
Pour un param`etre et un e chantillon x donnes, on note b = s(x) lestimation obtenue sur cet
e chantillon. Une replication bootstrap de b est donnee par : b = s(x ).
b

bB est lapproximation bootstrap de lestimation plug-in recherchee de lecart-type de .

3. Complements

121

Algorithm 11 Estimation bootstrap de lecart-type


Soit x un e chantillon et un param`etre.
Pour b = 1 `
a B Faire
b
Selectionner 1 e chantillon bootstrap xb = {xb
1 , . . . , xn }. par tirage avec remise dans x.

b
Estimer sur cet e chantillon : b (b) = s(x ).
Fin Pour
Calculer lecart-type de lechantillon ainsi construit :
B

bB

1 X b
( (b) b (.))2
B1
b=1

avec

2.3

b (.)

1
B

B
X

(b (b).

b=1

Estimation du biais
Avec les memes notations :
= t(F ) et

b = s(x),

le biais dun estimateur sexprime comme


b = EF [s(x)] t(F ).
BF ()
b = . Le biais est aussi une mesure de la precision dun estimateur et on
Un estimateur est sans biais si E[]
a vu que, generalement, les estimateurs plug-in e taient biaises.
D E FINITION A.4. On appelle estimateur bootstrap du biais, lestimateur plug-in :

b
b
b
Bc
F () = BF
b () = EF
b [s(x )] t(F ).

Comme pour lecart-type, il nexiste generalement pas dexpression analytique et il faut avoir recours a` une
approximation par simulation.
Algorithm 12 Estimation bootstrap du biais
Soit x un e chantillon et un param`etre.
Pour b = 1 `
a B Faire
b
Selectionner 1 e chantillon bootstrap xb = {xb
1 , . . . , xn }. par tirage avec remise dans x.
b
Estimer sur cet e chantillon la replication bootstrap de : b (b) = s(xb ).
Fin Pour
PB
Approcher EFb [s(x )] par b (.) = B1 b=1 (b (b)
b
b
b
Lapproximation bootstrap du biais est : Bc
B () = (.) .

Complements

En resume, on peut dire que le bootstrap repose sur une hypoth`ese tr`es e lementaire : b se comporte par
rapport a` b comme b par rapport a` . La connaissance de b (distribution, variance, biais. . . ) renseigne alors
b
sur celle de .
Beaucoup dautres complements sont a` rechercher dans la litterature et en particulier dans Efron et
Tibshirani (1993). Il est ainsi possible de definir des intervalles de confiance bootstrap en considerant la
distribution et les quantiles de b ou meme encore des tests a` partir des versions bootstrap de leur statistique.

122

Chapitre A. Introduction au bootstrap

Le bootstrap rapidement decrit ici est dit non-parametrique car la loi empirique Fb est une estimation
non-parametrique de F . Dans le cas o`u F serait connue a` un param`etre pr`es, il existe e galement une version
dite parametrique du bootstrap.
Pour des estimateurs plus compliques (fonctionnels) comme dans le cas de la regression non-parametrique
par noyau ou spline, il est facile de construire graphiquement une enveloppe bootstrap de lestimateur a` partir de replications de lechantillon. Celle-ci fournit generalement une bonne appreciation de la qualite de
lestimateur obtenu. Attention, dans le cas de la regression il est en principe plus justifie de repliquer le
tirage sur les residus plutot que sur les observations. Ce sont les residus qui sont en effet supposes i.i.d.
et qui verifient donc les hypoth`eses necessaires mais cette approche devient tr`es sensible a` lhypoth`ese sur
la validite du mod`ele. Il est finalement dusage de considerer un e chantillon bootstrap issu des donnees
initiales (Efron et Tibshirani) :
b
b b
zb = {(xb
1 , y1 ), . . . , (xn , yn )};
cest ce qui a e te choisi dans ce document.
Enfin, lestimation bootstrap est justifiee par des proprietes asymptotiques (convergence en loi) lorsque
le nombre de replications (B) croit conjointement avec la taille de lechantillon (n).

Table des mati`eres


1

Introduction

Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Motivations du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1

Origine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2
3

6
2

Environnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Apprentissage statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1

Objectif general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2

Problematiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3

Strategies de choix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Strategie du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.1

Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2

Les e tapes de lapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Exemples et jeux de donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.1

Banque, finance, assurance : Marketing . . . . . . . . . . . . . . . . . . . . . . .

5.2

Environnement : pic dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.3

Sante : aide au diagnostic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

5.4

Biologie : selection de g`enes . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

5.5

Exemples industriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

Regression lineaire

13

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

Mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

3.1

Estimation par M.C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

3.2

Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

3.3

Sommes des carres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

3.4

Coefficient de determination . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

Inferences dans le cas gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

4.1

Inference sur les coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

4.2

Inference sur le mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

4.3

Inference sur un mod`ele reduit . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

4.4

Prevision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

123

`
TABLE DES MATIERES

124
4.5
5

17

Choix de mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

5.1

Crit`eres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

5.2

Algorithmes de selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

5.3

Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

5.4

Choix de mod`ele par regularisation . . . . . . . . . . . . . . . . . . . . . . . . .

22

Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

6.1

Mod`eles polynomiaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

6.2

Influence, residus, validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

Analyse de variance a` un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

7.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

7.2

Mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

7.3

Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

8.1

Mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

8.2

Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

8.3

Choix de mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

8.4

Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

Exemple : Prevision de la concentration dozone . . . . . . . . . . . . . . . . . . . . . . .

33

9.1

Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

9.2

Autres exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

Regression logistique

37

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

Odds et odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

Regression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

3.1

Type de donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

3.2

Mod`ele binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

3.3

Regressions logistiques polytomique et ordinale . . . . . . . . . . . . . . . . . . .

39

Choix de mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

40

4.1

Recherche pas a` pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

4.2

Crit`ere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

Illustration e lementaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

5.1

Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

5.2

Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Regression logistique ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

Autres exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

6.1

Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

6.2

Pic dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

6.3

Carte visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

Mod`ele log-lineaire

47

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

Mod`ele log-lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

`
TABLE DES MATIERES

2.1

Types de donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

2.2

Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

2.3

Mod`eles a` 2 variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

2.4

Mod`ele a` trois variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

50

Choix de mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

51

Recherche pas a` pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

51

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

51

4.1

51

3.1
4

Mod`ele poissonien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Qualite de prevision

53

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

Erreur de prevision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

54

2.1

Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

54

2.2

Decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

54

2.3

Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

Estimation avec penalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

3.1

Cp de Mallows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

3.2

AIC, AICc , BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56

3.3

Dimension de Vapnik-Chernovenkis . . . . . . . . . . . . . . . . . . . . . . . . .

56

Le cas specifique de la discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

4.1

Discrimination a` deux classes . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

4.2

Courbe ROC et AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

59

Estimation par simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

5.1

Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

5.2

Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

125

Analyse Discriminante Decisionnelle

63

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

R`egle de decision issue de lAFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

2.1

Cas general : m quelconque . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

2.2
3

Cas particulier : m = 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

R`egle de decision bayesienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

3.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

3.2

Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

3.3

Couts inconnus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

3.4

Determination des a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

3.5

Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

R`egle bayesienne avec mod`ele normal . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

4.1

Heteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

4.2

Homoscedasticite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

4.3

Commentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

R`egle bayesienne avec estimation non parametrique . . . . . . . . . . . . . . . . . . . . .

66

5.1

66

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

`
TABLE DES MATIERES

126

5.2

Methode du noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67

5.3

k plus proches voisins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

68

6.1

Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

68

6.2

Concentration dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

68

6.3

Carte visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

68

Arbres binaires

71

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

71

Construction dun arbre binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

71

2.1

Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

71

2.2

Crit`ere de division . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72

2.3

R`egle darret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

2.4

Affectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

Crit`eres dhomogeneite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

Y quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

3.2
Y qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Elagage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

74

4.1

Construction de la sequence darbres . . . . . . . . . . . . . . . . . . . . . . . .

76

4.2

Recherche de larbre optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

5.1

Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

5.2

Concentration dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

77

5.3

Carte Visa Premier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

79

3.1
4

Methodes connexionistes

83

Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

83

Reseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84

2.1

Neurone formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84

Perceptron multicouche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84

3.1

Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

85

3.2

Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

85

3.3

Utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

87

4.1

Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

87

4.2

Concentration dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

87

4.3

Carte visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

88

75

Agregation de mod`eles

89

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

Famille de mod`eles aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

2.1

Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

2.2

Forets aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

90

`
TABLE DES MATIERES
3

127

Famille de mod`eles adaptatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

92

3.1

Principes du Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

92

3.2

Algorithme de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

92

3.3

Version aleatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

93

3.4

Pour la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

93

3.5

Mod`ele additif pas a` pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

94

3.6

Regression et boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

95

3.7

Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

96

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

97

4.1

Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

97

4.2

Concentration dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

98

4.3

Carte visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

98

4.4

Regime des souris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

99

10 Les Support Vector Machines (SVM)

101

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

2.1

Probl`eme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

2.2

Marge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

2.3

Espace intermediaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

Separateur lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103


3.1

Hyperplan separateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

3.2

Cas non separable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

Separateur non lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105


4.1

Noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

4.2

Condition de Mercer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

4.3

Exemples de noyaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

4.4

SVM pour la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.1

Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5.2

Concentration dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5.3

Carte Visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

11 Conclusion

109

Strategies du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Comparaison des resultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110


2.1

Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

2.2

Concentration dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

2.3

Carte visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Pi`eges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

Role du statisticien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113


4.1

Des competences multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

4.2

De lutilite du statisticien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

`
TABLE DES MATIERES

128
A Introduction au bootstrap
1

119

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
1.1

Principe du plug-in . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

1.2

Estimation de lecart-type de la moyenne . . . . . . . . . . . . . . . . . . . . . . 120

Estimation bootstrap dun e cart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

2.1
Echantillon
bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
2.2

Estimation dun e cart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

2.3

Estimation du biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121