Vous êtes sur la page 1sur 115

Publications du Laboratoire

de
Statistique et Probabilit
es

Data mining
II. Mod
elisation Statistique
&
Apprentissage
Philippe BESSE

Version janvier 2003 mises a


` jour : www.lsp.ups-tlse.fr/Besse
Laboratoire de Statistique et Probabilites UMR CNRS C5583
Universite Paul Sabatier 31062 Toulouse cedex 4.

Avant-propos
Motivations du data mining
Le developpement des moyens informatiques de stockage (bases de donnees) et de
calcul permet le traitement et lanalyse densembles de donnees tr`es volumineux. Plus
recemment, le perfectionnement des interfaces offrent aux utilisateurs, statisticiens ou non,
des possibilites de mise en uvre tr`es simples des outils logiciels. Cette evolution, ainsi
que la popularisation de nouvelles methodes algorithmiques (reseaux de neurones) et outils
graphiques, conduit au developpement et a` la commercialisation de logiciels integrant un
sous-ensemble de methodes statistiques et algorithmiques sous la terminologie de Data Mining : la prospection ou fouille de donnees. Cette approche, issue du marketing specialise
dans la gestion de la relation client (client relation management ou CRM) trouve egalement
des developpements et applications industrielles en controle de qualite ou meme dans certaines disciplines scientifiques d`es lors que les ingenieurs et chercheurs sont confrontes a`
un volume de donnees important. Besse et col. (2001) presente une introduction detaillee
de cette demarche et des relations quelle entretien avec les disciplines traditionnelles Statistique et Informatique. Laccroche publicitaire souvent citee par les editeurs de logiciels
(SAS) est :
Comment trouver un diamant dans un tas de charbon sans se salir les mains.
Nous proposons devaluer et dexperimenter la realite de cette annonce qui sadresse a` un
marche en pleine expansion. Les entreprises sont en effet tr`es motivees pour tirer parti et
amortir, par une aide a` la decision quantifiee, les co
uts de stockage des teras octets que
leur service informatique semploie a` administrer.
Le contexte informationnel de la fouille de donnees est celui des data wharehouses.
Un entrepot de donnees, dont la mise en place est assure par un gestionnaire de donnees
(data manager) est un ensemble de bases relationnelles extraites des donnees brutes de
lentreprise et relatives a` une problematique :
gestion des stocks (flux tendu), des ventes dun groupe afin de prevoir et anticiper
au mieux les tendances du marche,
suivi des fichiers clients dune banque, dune assurance, associes a` des donnees socioeconomiques (INSEE), a` lannuaire, en vue de la constitution dune segmentation
(typologie) pour cibler des operations de marketing ou des attributions de credit.
La gestion de la relation client vise a` une individualisation ou personnalisation de
la production et de la communication afin devacuer la notion de client moyen.
recherche, specification puis ciblage de niches de marche les plus profitables (banque)
ou au contraire les plus risquees (assurance) ;
suivi en ligne des param`etres de production en controle de qualite pour detecter au
3

4
plus vite lorigine dune defaillance ;
prospection textuelle (text mining) et veille technologique ;
web mining et comportement des internautes ;
...
Cet environnement se caracterise par
une informatique heterog`ene faisant intervenir des sites distants (Unix, Dos, NT,
VM. . . ) a` travers le reseau de lentreprise (intranet) ou meme des acc`es exterieurs (internet). Des contraintes defficacite, de fiabilite ou de securite conduisent a` repartir,
stocker linformation a` la source plutot qu`a la dupliquer systematiquement ou a` la
centraliser.
Lincompatibilite logique des informations observees sur des echantillons differents
ne presentant pas les memes strates, les memes codifications.
Des volumes et flux considerables de donnees issues de saisies automatisees et chiffres
en tera-octets.
La necessite de ne pas exclure a priori un traitement exhaustif des donnees afin de ne
pas laisser echapper, a` travers le crible dun sondage, des groupes de faibles effectifs
mais a` fort impact economique.

Strat
egie du data mining
Dans tout ce qui suit, nous disposons dun ensemble dobservations. Les caracteristiques
ou variables X = (X 1 , . . . , X p ) dites explicatives ont ete observees sur un ensemble de
n objets, individus ou unites statistiques. Un premier travail, souvent fastidieux mais
incontournable, consiste a` mener une exploration statistique de ces donnees : allure des
distributions, presence de donnees atypiques, correlations et coherence, transformations
eventuelles des donnees, description multidimensionnelle, classification. Cest lobjet de
la premi`ere partie de ce document. La deuxi`eme partie decrit les outils de modelisation
statistique ou encore dapprentissage utilisables pour la prediction dune variable cible Y
par les variables explicatives X j .
Lenchanement de ces etapes (exploration puis apprentissage) constitue le fondement
de la fouille de donnees.
Pour comprendre la structure et bien apprehender le contenu de ce cours, il est important dintegrer rapidement ce quest la strategie a` mettre en uvre pour aboutir au bon
apprentissage ou encore au bon mod`ele predictif recherche a` partir des donnees observees.
Attention, il faut bien noter que, contrairement a` une demarche statistique traditionnelle dans laquelle lobservation des donnees est integree a` la methodologie (plannification
de lexperience), les donnees sont ici prealables a` lanalyse. Neanmoins il est clair que les
preoccupations liees a` leur analyse et a` son objectif doivent intervenir le plus en amont
possible pour sassurer quelques chances de succ`es.
Les etapes de la fouille de donnees :
i. Extraction des donnees avec ou sans echantillonnage faisant reference a` des techniques de sondage appliquees ou applicables a` des bases de donnees.
ii. Exploration des donnees pour la detection de valeurs aberrantes ou seulement atypiques, dincoherences, pour letude des distributions des structures de correlation,
recherche de typologies, pour des transformations des donnees. . .

5
iii. Partition aleatoire de lechantillon (apprentissage, validation, test) en fonction de sa
taille et des techniques qui seront utilisees pour estimer une erreur de prediction en
vue des choix de mod`ele, choix et certification de methode.
iv. Pour chacune des methodes considerees : mod`ele lineaire general (gaussien,binomial
ou poissonien), discrimination parametrique (lineaire ou quadratique) ou non parametrique, k plus proches voisins, arbre, reseau de neurones (perceptron), support
vecteur machine, combinaison de mod`eles (bagging, boosting).
estimer le mod`ele pour une valeur donnee dun param`etre de complexite : nombre
de variables, de voisins, de feuilles, de neurones, , duree de lapprentissage, largeur
de fenetre. . . ;
optimiser ce param`etre (sauf pour les combinaisons de mod`eles affranchies des
probl`emes de sur-apprentissage) en fonction de la technique destimation de lerreur retenue : echantillon de validation, validation croisee, approximation par
penalisation de lerreur dajustement.
v. Comparaison des mod`eles optimaux obtenus (un par methode) par estimation de
lerreur de prevision sur lechantillon test ou, si la presence dun echantillon test
est impossible, sur le crit`ere de penalisation de lerreur (Akake par exemple) sil en
existe une version pour chacune des methodes considerees.
vi. Iteration eventuelle de la demarche precedente (valisation croisee), si lechantillon
test est trop reduit, depuis (iii). Partitions aleatoires successives de lechantillon pour
moyenner sur plusieurs cas lestimation finale de lerreur de prediction et sassurer
de la robustesse du mod`ele obtenu.
vii. Choix de la methode retenue en fonction de ses capacites de prediction, de sa robustesse mais aussi, eventuellement, de linterpretabillite du mod`ele obtenu.

Objectif
Lobjet de ce cours est dintroduire, sous une forme homog`ene et synthetique, les principales techniques dexploration, de modelisation ou encore dapprentissage utilisees le plus
couramment en fouille de donnees et citees dans la section precedente. Il a fallu faire des
choix dans lensemble des techniques proposees et leurs nombreux avatars. La forme et
le contenu sont guides par les besoins exprimes lors des stages realisees par les etudiants
du DESS de Statistique et Econometrie 1 ou encore par les th`emes des collaborations industrielles du laboratoire de Statistique et Probabilites 2 . Remarquons que les principaux
logiciels commerciaux (SAS, Splus, SPSS) ou gratuits (R), performants et simposant par
des interfaces tr`es conviviales (Enterprise Miner, Insightfull Miner, Clementine), contribuent largement a` la diffusion, voire la penetration, de methodes tr`es sophistiquees dans
des milieux impermeables a` une conceptualisation mathematique trop abstraite.
Le choix a ete fait de conserver et expliciter, dans la mesure du possible, les concepts
originaux de chaque methode dans son cadre disciplinaire tout en tachant dhomogeneiser
notations et terminologies. Lobjectif principal est de faciliter la comprehension et linterpretation des techniques des principaux logiciels pour en faciliter une utilisation pertinente et reflechie. Un exemple elementaire de recherche dun score dappetance issu du
1
2

http ://www.univ-tlse1.fr/formation/DESS/DESS-StatEconometrie.html
http ://www.lsp.ups-tlse.fr

6
marketing bancaire illustre les differents points abordes. Traite avec les logiciels SAS, Splus
ou R, il sert de fil rouge tout au long du cours.

Chapitre 1

Introduction
1

Objectif

D`es quun phenom`ene, quil soit physique, biologique ou autre, est trop complexe
ou encore trop bruite pour acceder a` une description analytique debouchant sur une
modelisation deterministe, un ensemble dapproches ont ete elaborees afin den decrire
au mieux le comportement a` partir dune serie dobservations. Citons la reconnaissance
de la parole ou de caract`eres manuscrits, limagerie medicale ou satellitaire, la prevision
dune grandeur climatique ou economique, du comportement dun client. . . la plupart des
disciplines scientifiques sont concernees. Historiquement, la Statistique sest beaucoup
developpee autour de ce type de probl`emes et a propose des mod`eles incorporant dune part
des variables explicatives et, dautre part, une composante aleatoire ou bruit. Il sagit alors
destimer les param`etres du mod`ele a` partir des observations. Dans la meme situation, la
communaute informatique parle plutot dapprentissage visant le meme objectif. Apprentissage machine (machine learning) ou reconnaissance de forme (pattern recognition) en
sont les principaux mots-clefs.

2
2.1

Probl
ematique
Supervis
e vs. non-supervis
e

Distinguons ensuite deux types de probl`emes : la presence ou non dune variable a`


expliquer Y ou dune forme a` reconnatre qui a ete, conjointement avec X, observee sur
les memes objets. Dans le premier cas il sagit bien dun probl`eme de modelisation ou
apprentissage supervise : trouver une fonction susceptible, au mieux selon un crit`ere a`
definir, de reproduire Y ayant observe X.
Y = (X) +
o`
u symbolise le bruit ou erreur de mesure avec le parti pris le plus commun que cette
erreur est additive.
Dans le cas contraire, en labsence dune variable a` expliquer, il sagit alors dapprentissage dit non-supervise. Lojectif generalement poursuivi est la recherche dune typologie
ou taxinomie des observations : comment regrouper celles-ci en classes homog`enes mais
les plus dissemblables entre elles. Cest un probl`eme de classification (clustering).
7

Chapitre 1. Introduction

Attention, langlais classification se traduit plutot en francais par discrimination ou


classement (apprentissage supervise) tandis que la recherche de classes (clustering) (apprentissage non-supervise) fait appel a` des methodes de classification ascendante hierarchique
ou a` des algorithmes de reallocation dynamique (k-means) ou de carte auto-organisatrices
(Kohonen). Ces methodes de classification ou clustering ne sont pas abordees ici, elles ont
ete regroupees avec les techniques exploratoires de la premi`ere partie (Baccini et Besse
2000).

2.2

Mod
elisation vs. apprentissage

Tout au long de ce document, les termes de modelisation et dapprentissage sont utilisees comme des synonymes ce qui est abusif tant que les objectifs dune etude nont pas
ete clairement explicites. Dans la tradition statistique, la notion de mod`ele est centrale
surtout avec une finalite explicative. Il sagit alors dapprocher la realite, le vrai mod`ele,
eventuellement base sur une theotie physique, economique... sous-jacente. Le choix du
mod`ele (cf. ci-dessous) est alors guide par des crit`eres dajustement et les decisions de validite, de presence deffets, basees sur des tests reposant des des hypoth`eses probabilistes.
Linterpreation du role de chaque variable explicative est preponderante dans la demarche.
En revanche, dans un but predictif il apparat que le meilleur mod`ele nest pas necessairement
le vrai. La theorie de lapprentissage (Vapnik, 1999) montre alors que le cadre theorique est
different et les majorations derreur requierent une autre approche. Les choix sont bases
sur des crit`eres de qualite de prediction visant a` la recherche de mod`eles parcimonieux
dont linterpretatbilite passe au deuxi`eme plan.

2.3

Discrimination vs. r
egression

Le type des variables statistiques considerees diff`erent selon lespace dans lequel elles
prennent leurs valeur. Elles peuvent etre quantitatives a` valeurs reelles 1 ou qualitatives
a` valeurs dans un ensemble de cardinal fini. Certaines methodes dapprentissage ou de
modelisation sadaptent a` tout type de variables explicatives tandis que dautres sont
specialisees. Enfin, si Y a` expliquer est qualitative, on parle de discrimination, classement
ou reconnaissance de forme tandis que si Y est quantitative on parle, par habitude, dun
probl`eme de regression. Dans ce cas encore, certaines methodes sont specifiques (regression
lineaire, analyse discriminante) tandis que dautres sadaptent sans modification profonde
remettant en cause leur principe (reseaux de neurones, arbres. . . ).

2.4

Statistique, informatique et taille des donn


ees

Lorsque des hypoth`eses relatives au mod`ele (linearite) et aux distributions sont verifiees
cest-`a-dire, le plus souvent, lorsque lechantillon ou les residus sont supposes suivre des lois
se mettant sous la forme dune famille exponentielle (gaussienne, binomiale, poisson. . . ),
les techniques statistiques de modelisation tirees du mod`ele lineaire general sont optimales
et, surtout dans le cas dechantillons de taille restreinte, il semble difficile de faire mieux.
1

Le traitement de donnees fonctionnelles (Besse et Cardot, 2003), cest-`


a-dire letude de courbes,
necessite generalement une decomposition prealable sur une base appropriee (vecteurs propres, fourier,
ondelettes) avec, selon le cas, lissage ou interpolation avant de pouvoir mettre en uvre les techniques
specifiques dapprentissage. Ces aspects ne sont pas abordes.

2. Probl
ematique

En revanche, d`es que les hypoth`eses distributionnelles ne sont pas verifiees, d`es que les
relations supposees entre les variables ne sont pas lineaires ou encore d`es que le volume
des donnees est important, dautre methodes viennent concurrencer lapproche statistique
classique.
Prenons un exemple simple : expliquer une variable quantitative Y par un ensemble
{X 1 , . . . , X p } de variables egalement quantitatives :
Y = (X 1 , . . . , X p ) + .
observees sur un echantillon (yi , xi ); i = 1, . . . , n de taille n Si est supposee lineaire et p
petit, de lordre dune dizaine ; le probl`eme est bien connu et largement debattu dans la
litterature. Dans le cas o`
u nest pas franchement lineaire et n grand, il est possible destimer precisement un nombre plus important de param`etres et donc denvisager des mod`eles
plus sophistiques. Si on sen tient au mod`ele gaussien usuel, meme le cas le plus simple
dun mod`ele polynomial devient vite problematique. En effet, lorsque est lineaire, prenons p = 10, la procedure de choix de mod`ele est confrontee a` un ensemble de 2 10 mod`eles
possibles et des algorithmes astucieux permettent encore de sen sortir. En revanche,
considerer pour un simple polynome du deuxi`eme voire troisi`eme degre avec toutes
ses interactions, am`ene a` considerer un nombre considerable de param`etres et donc, par
explosion combinatoire, un nombre astronomique de mod`eles possibles. Dautres methodes
doivent alors etre considerees en prenant en compte necessairement la complexite algorithmique des calculs. Ceci explique limplication dune autre discipline, linformatique, dans
cette problematique. Le souci de calculabilite lemporte sur la definition mathematique du
probl`eme qui se ram`ene a` loptimisation dun crit`ere dajustement de sur un ensemble
de solutions plus ou moins riche. Ces methodes ont souvent ete developpees dans un autre
environnement disciplinaire : informatique, intelligence artificielle. . . ; k plus proches voisins, reseaux de neurones, arbres de decisions, support vector machine deviennent des
alternatives credibles d`es lors que le nombre dobservations est suffisant.

2.5

Choix de m
ethode

Avec lav`enement du data mining, de tr`es nombreux articles comparent et opposent les
techniques sur des jeux de donnees publics et proposent des ameliorations incrementales de
certains algorithmes. Apr`es une periode fievreuse o`
u chacun tentait dafficher la suprematie
de sa methode, un consensus sest etabli autour de lidee quil ny a pas de meilleure
methode. Chacune est plus ou moins bien adaptee au probl`eme pose, a` la nature des
donnees ou encore aux proprietes de la fonction a` approcher ou estimer. Sur le plan
methodologique, il est alors important de savoir comparer des methodes afin de choisir la
plus pertinente. Cette comparaison repose sur une estimation derreur (de regression ou
de classement) quil est necessaire de conduire avec soin. Un chapitre (3) est consacre a` ce
point.

2.6

Choix de mod`
ele :
equilibre biais-variance

Tous les auteurs saccordent pour souligner limportance quil y a a` construire des
mod`eles parcimonieux quelque soit la methode utilisee. Toutes les methodes sont concernees :
nombre de variables explicatives, de feuilles dans un arbre ou de neurones dans une
couche cachee. . . . Seuls les algorithmes de combinaison de mod`eles (bagging, boosting)

10

Chapitre 1. Introduction

contournent cette etape au prix dun accroissement sensible du volume des calculs et de
linterpretabilite des resultats obtenus.
Lalternative est claire, plus un mod`ele est complexe et donc plus il int`egre de param`etres et plus il est capable de sajuster aux donnees et donc dengendrer une erreur
faible dajustement. En revanche, un tel mod`ele peut saverer defaillant lorsquil sagira
de prevoir ou generaliser, cest-`a-dire de sappliquer a` des donnees qui nont pas participe a` son estimation. Exemple : discriminer dans IR 2 une fronti`ere quadratique par une
regression lineaire ou par un polynome de debre plus eleve.
Ce probl`eme sillustre aussi facilement en regression classique. Ajouter des variables
explicatives dans un mod`ele ne peut que reduire lerreur dajustement (le R 2 ) et reduit
le biais si le vrai mod`ele est un mod`ele plus complet. Mais, ajouter des variables fait
egalement crote la variance des estimateurs et donc celle des predictions qui se degradent
rapidement avec la multicolinearite des variables explicatives. Un risque pour le mod`ele,
ou erreur quadratique de prediction, sexprimant comme le carre du biais plus la variance,
il est important doptimiser le dosage entre biais et variance en controlant le nombre
de variables dans le mod`ele afin de minimiser le risque. Ces remarques conduisent a` la
definition de crit`eres de choix de mod`ele dont le C p de Mallows fut un precurseur en
regression suivi par dautres propositions : Akake (AIC), Schwartz (BIC). . .
Plus que celui de la methode, le choix du bon mod`ele ou de la bonne complexite de
celui-ci dans une classe de methodes donnees est primordial. En consequence, les probl`emes
doptimisation consideres doivent mettre en uvre un crit`ere qui prend en compte la
complexite du mod`ele, cest-`a-dire la complexite de lespace dans lequel la solution est
recherchee.

2.7

Choix de mod`
ele : s
election vs. r
egularisation

Selon la methode consideree, la complexite du mod`ele sexprime de differentes facons.


Simple par selection de variable en regression lineaire, la complexite est directement liee a` la
dimension de lespace engendre et donc au nombre de variables. Les choses se compliquent
pour les mod`eles non-lineaires lorsque, a` dimension fixee, cest la plus ou moins grande
flexibilite des solutions qui doit etre penalisee.
Cest typiquement le cas en regression non-parametrique ou fonctionnelle. Une penalisation
faisant intervenir la norme carree de la derivee seconde controle la flexibilite dun lissage
spline. La largeur de fenetre du noyau controle egalement la regularite de la solution.
En regression lineaire, si le nombre et les variables sont determines, la version ridge de
la regression penalise la norme carree du vecteur des param`etres et restreint ainsi, par
regularisation, lespace des solutions pour limiter leffet de la multicolinearite.
Enfin, pour aborder en toute generalite les situations les plus compliquees, Vapnik
(1999) a formalise la theorie de lapprentissage en introduisant une notion particuli`ere de
dimension pour toute famille de mod`eles.

2.8

Contenu

Chaque methode ou famille de methodes de modelisation et dapprentissage parmi


les plus repandues, est presentee de facon plus ou moins succincte dans un chapitre distinct avec un objectif predictif. La regression lineaire classique en statistique prend une

2. Probl
ematique

11

place particuli`ere a` titre pedagogique. Tr`es anterieure aux autres, elle donne lieu a une
bibliographie abondante. Conceptuellement plus simple, elle permet dintroduire plus facilement les problematiques rencontrees comme celle du choix dun mod`ele par ses deux
approches types : la selection de variable ou la regularisation (ridge). Pour une meilleure
comprehension des logiciels qui y font largement reference, une introduction (annexe) au
mod`ele lineaire general fournit le cadre theorique necessaire a` lunification des regressions
lineaire et logistique ; cette derni`ere reste toujours tr`es utilisee en scoring. La presentation
de lanalyse discriminante decisionnelle, parametrique ou non parametrique, les k plus
proches voisins, permet dintroduire egalement des notions de theorie bayesienne de la
decision. Un chapitre incontournable est consacre aux techniques destimation dune erreur de prediction sur lesquelles reposent les choix operationnels decisifs : de mod`ele, de
methode mais aussi levaluation de la precision des resultats escomptes. Les chapitres
suivants sont consacrees aux techniques algorithmiques : arbres binaires de decision (classification and regression trees ou CART) et a` celles plus directement issues de la theorie de
lapprentissage machine (machine learning) : reseau de neurones et perceptron, agregation
de mod`eles (boosting, random forest). Des annexes apportent des complements theoriques :
introduction au mod`ele lineaire general, le bootstrap.

12

Chapitre 1. Introduction

Chapitre 2

R
egression lin
eaire
1

Introduction

Ce chapitre ne propose quune introduction au mod`ele gaussien, a` sa definition et a` son


estimation en privilegiant lobjectif de prediction. Il sattarde donc sur le probl`eme delicat
du choix de mod`ele afin, principalement, den introduire les grands principes pour les
adapter au cas de la regression logistique largement utilisee en prospection de donnees. Une
derni`ere section introduit le mod`ele danalyse de covariance mais de nombreux aspects :
colinearite, points influents, tests, analyse de variance, mod`ele multinomial ou poissonien
(mod`ele log-lineaire). . . sont negliges et a` rechercher dans la bibliographie de meme quune
presentation globale du mod`ele lineaire general incluant toutes ces approches et seulement
resumee en annexe. Les statistiques des tests elemetaires sont explicitees afin de faciliter
la lectures et linterpretation des resultats issus des logiciels.
Le but premier de ce chapitre est donc lexplication ou plutot, la modelisation dans un
but predictif, dune variable quantitative par plusieurs variables quantitatives (regression
lineaire multiple) ou par un melange de variables quantitatives et qualitatives (analyse de
covariance).

Mod`
ele

Le mod`ele de regression lineaire multiple est loutil statistique le plus habituellement


mis en uvre pour letude de donnees multidimensionnelles. Cas particulier de mod`ele
lineaire, il constitue la generalisation naturelle de la regression simple.
Une variable quantitative Y dite a
` expliquer (ou encore, reponse, exog`ene, dependante)
est mise en relation avec p variables quantitatives X 1 , . . . , X p dites explicatives (ou encore
de controle, endog`enes, independantes, regresseurs).
Les donnees sont supposees provenir de lobservation dun echantillon statistique de
taille n (n > p + 1) de IR(p+1) :
(x1i , . . . , xji , . . . , xpi , yi )

i = 1, . . . , n.

Lecriture du mod`ele lineaire dans cette situation conduit a` supposer que lesperance de
Y appartient au sous-espace de IRn engendre par {1, X 1 , . . . , X p } o`
u 1 designe le vecteur
13

14

Chapitre 2. R
egression lin
eaire

de IRn constitue de 1 . Cest-`a-dire que les (p + 1) variables aleatoires verifient :


yi = 0 + 1 x1i + 2 x2i + + p xpi + i

i = 1, 2, . . . , n

avec les hypoth`eses suivantes :


i. Les i sont des termes derreur, dune variable U , non observes, independants et
identiquement distribues ; E(i ) = 0, V ar() = 2 I.
ii. Les termes xj sont supposes deterministes (facteurs controles) ou bien lerreur U
est independante de la distribution conjointe de X 1 , . . . , X p . On ecrit dans ce dernier
cas que :
E(Y |X 1 , . . . , X p ) = 0 + 1 X 1 + 2 X 2 + + p X p et V ar(Y |X 1 , . . . , X p ) = 2 .
iii. Les param`etres inconnus 0 , . . . , p sont supposes constants.
iv. En option, pour letude specifique des lois des estimateurs, une quatri`eme hypoth`ese
consid`ere la normalite de la variable derreur U (N (0, 2 I)). Les i sont alors i.i.d.
de loi N (0, 2 ).

Les donnees sont rangees dans une matrice X(n (p + 1)) de terme general x ji , dont
la premi`ere colonne contient le vecteur 1 (x i0 = 1), et dans un vecteur Y de terme general
yi . En notant les vecteurs = [1 p ]0 et = [0 1 p ]0 , le mod`ele secrit matriciellement :
y = X + .

Estimation

Conditionnellement a` la connaissance des valeurs des X j , les param`etres inconnus du


mod`ele : le vecteur et 2 (param`etre de nuisance), sont estimes par minimisation du
crit`ere des moindres carres (M.C.) ou encore, en supposant (iv), par maximisation de
la vraisemblance (M.V.). Les estimateurs ont alors les memes expressions, lhypoth`ese
de normalite et lutilisation de la vraisemblance conferant a` ces derniers des proprietes
complementaires.

3.1

Estimation par M.C.

Lexpression a` minimiser sur IR p+1 secrit :


n
X
i=1

(yi 0 1 x1i 2 x2i p xpi )2 = ky Xk2


= (y X)0 (y X)

= y0 y 2 0 X0 y + 0 X0 X.

Par derivation matricielle de la derni`ere equation on obtient les equations normales :


X0 y X0 X = 0
dont la solution correspond bien a` un minimum car la matrice hessienne 2X 0 X est definiepositive.

3. Estimation

15

Nous faisons lhypoth`ese supplementaire que la matrice X 0 X est inversible, cest-`adire que la matrice X est de rang (p + 1) et donc quil nexiste pas de colinearite entre
ses colonnes. En pratique, si cette hypoth`ese nest pas verifiee, il suffit de supprimer des
colonnes de X et donc des variables du mod`ele. Des diagnostics de colinearite et des crit`eres
aident au choix des variables.
Alors, lestimation des param`etres j est donnee par :
b = (X0 X)1 X0 y
et les valeurs ajustees (ou estimees, predites) de y ont pour expression :
b = Xb = X(X0 X)
y

X0 y = Hy

o`
u H = X(X0 X)1 X0 est appelee hat matrix ; elle met un chapeau a` y. Geometriquement,
cest la matrice de projection orthogonale dans IR n sur le sous-espace Vect(X) engendre
par les vecteurs colonnes de X.
On note
b = y Xb = (I H)y
e=yy

le vecteur des residus ; cest la projection de y sur le sous-espace orthogonal de Vect(X)


dans IRn .

3.2

Propri
et
es

Les estimateurs des M.C. b0 , b1 , . . . , bp sont des estimateurs sans biais : E(b) = , et,
parmi les estimateurs sans biais fonctions lineaires des y i , ils sont de variance minimum
(theor`eme de Gauss-Markov) ; ils sont donc BLUE : best linear unbiaised estimators.
Sous hypoth`ese de normalite, les estimateurs du M.V. sont uniformement meilleurs (efficaces) et concident avec ceux des M.C.
On montre que la matrice de covariance des estimateurs se met sous la forme
E[(b )(b )0 ] = 2 (X0 X)1 ,
celle des predicteurs est
E[(b
y X)(b
y X)0 ] = 2 H
et celle des estimateurs des residus est
E[(e u)((e u))0 ] = 2 (I H)
tandis quun estimateur sans biais de 2 est fourni par :
s2 =

ky Xk2
kek2
SSE
=
=
.
np1
np1
np1

Ainsi, les termes s2 hii sont des estimations des variances des predicteurs ybi .

16

Chapitre 2. R
egression lin
eaire

3.3

Sommes des carr


es

SSE est la somme des carres des residus (sum of squared errors),
bk2 = kek2 .
SSE = ky y

On definit egalement la somme totale des carres (total sum of squares) par
SST = ky y1k2 = y0 y n
y2
et la somme des carres de la regression (regression sum of squares) par
b0 y
b n
SSR = kb
y y1k2 = y
y 2 = y0 Hy n
y 2 = b0 X0 y n
y2.

On verifie alors : SST = SSR + SSE.

3.4

Coefficient de d
etermination

On appelle coefficient de determination le rapport


R2 =

SSR
SST

qui est donc la part de variation de Y expliquee par le mod`ele de regression. Geometriquement,
cest un rapport de carres de longueur de deux vecteurs. Cest donc le cosinus carre de
b sur Vect(X).
langle entre ces vecteurs : y et sa projection y
Attention, dans le cas extreme o`
u n = (p + 1), cest-`a-dire si le nombre de variables
explicatives est grand comparativement au nombre dobservations, R 2 = 1. Ou encore, il
est geometriquement facile de voir que lajout de variables explicatives ne peut que faire
crotre le coefficient de determination.

La quantite R est appelee coefficient de correlation multiple entre Y et les variables


explicatives, cest le coefficient de correlation usuel entre y et sa prediction (ou projection)
b.
y

Inf
erences dans le cas gaussien

En principe, lhypoth`ese optionnelle (iv) de normalite des erreurs est necessaire pour
cette section. En pratique, des resultats asymptotiques, donc valides pour de grands
echantillons, ainsi que des etudes de simulation, montrent que cette hypoth`ese nest pas
celle dont la violation est la plus penalisante pour la fiabilite des mod`eles.

4.1

Inf
erence sur les coefficients

Pour chaque coefficient j on montre que la statistique


bj j
bj
o`
u b2j , variance de bj est le j`eme terme diagonal de la matrice s 2 (X0 X)1 , suit une loi
de Student a` (n p 1) degres de liberte. Cette statistique est donc utilisee pour tester

4. Inf
erences dans le cas gaussien
une hypoth`ese H0
100(1 )% :

17

: j = a ou pour construire un intervalle de confiance de niveau


bj t/2;(np1) bj .

Attention, cette statistique concerne un coefficient et ne permet pas dinferer conjointement (cf. 3.4) sur dautres coefficients car ils sont correles entre eux ; de plus elle depend
des absences ou presences des autres variables X k dans le mod`ele. Par exemple, dans le
cas particulier de deux variables X 1 et X 2 tr`es correlees, chaque variable, en labsence
de lautre, peut apparatre avec un coefficient significativement different de 0 ; mais, si les
deux sont presentes dans le mod`ele, elles peuvent chacune apparatre avec des coefficients
insignifiants.
De facon plus generale, si c designe un vecteur non nul de (p+1) constantes reelles, il est
possible de tester la valeur dune combinaison lineaire c 0 b des param`etres en considerant
lhypoth`ese nulle H0 : c0 b = a ; a connu. Sous H0 , la statistique
c0 b a

(s2 c0 (X0 X)1 c)1/2


suit une loi de Student a` (n p 1) degres de liberte.

4.2

Inf
erence sur le mod`
ele

Le mod`ele peut etre teste globalement. Sous lhypoth`ese nulle H 0 : 1 = 2 = . . . =


p = 0, la statistique
MSR
SSR/p
=
SSE/(n p 1)
MSE
suit une loi de Fisher avec p et (np1) degres de liberte. Les resultats sont habituellement
presentes dans un tableau danalyse de la variance sous la forme suivante :
Source
de
variation
Regression
Erreur
Total

4.3

d.d.l.
p
np1
n1

Somme
des
carres
SSR
SSE
SST

Variance
MSR=SSR/p
MSE=SSE/(n p 1)

F
MSR/MSE

Inf
erence sur un mod`
ele r
eduit

Le test precedent am`ene a` rejeter H 0 d`es que lune des variables X j est liee a` Y . Il
est donc dun interet limite. Il est souvent plus utile de tester un mod`ele reduit cesta`-dire dans lequel certains coefficients, a` lexception de la constante, sont nuls contre le
mod`ele complet avec toute les variables. En ayant eventuellement reordonne les variables,
on consid`ere lhypoth`ese nulle H 0 : 1 = 2 = . . . = q = 0, q < p.
Notons respectivement SSRq , SSEq , Rq2 les sommes de carres et le coefficient de determination
du mod`ele reduit a` (p q) variables. Sous H 0 , la statistique
(R2 Rq2 )/q
(SSR SSRq )/q
=
SSE/(n p 1)
(1 R2 )/(n p 1)

18

Chapitre 2. R
egression lin
eaire

suit une loi de Fisher a` q et (n p 1) degres de liberte.

Dans le cas particulier o`


u q = 1 (j = 0), la F -statistique est alors le carre de la
t-statistique de linference sur un param`etre et conduit donc au meme test.

4.4

Pr
evision

Connaissant les valeurs des variables X j pour une nouvelle observation : x00 = [x10 , x20 , . . . , xp0 ]
appartenant au domaine dans lequel lhypoth`ese de linearite reste valide, une prevision,
notee yb0 de Y ou E(Y ) est donnee par :
yb0 = b0 + b1 x10 + + bp xp0 .

Les intervalles de confiance des previsions de Y et E(Y ), pour une valeur x 0 IRp et en
posant v0 = (1|bmx00 )0 IRp+1 , sont respectivement
yb0 t/2;(np1) s(1 + v00 (X0 X)1 v0 )1/2 ,

4.5

yb0 t/2;(np1) s(v00 (X0 X)1 v0 )1/2 .

Exemple

Le mod`ele de regression lineaire nest pas adapte a` lexplication dune variable binaire
comme dans le cas des donnees bancaires. Ceci est aborde dans le chapitre suivant en
utilisant la regression logistique tandis que dautres exemples de donnees sont utilisees
dans ce chapitre. Les premi`eres sont extraites de Jobson (1991) et decrivent les resultats
comptables de 40 entreprises du Royaume Uni.
RETCAP
WCFTDT
LOGSALE
LOGASST
CURRAT
QUIKRAT
NFATAST
FATTOT
PAYOUT
WCFTCL
GEARRAT
CAPINT
INVTAST

Return on capital employed


Ratio of working capital flow to total debt
Log to base 10 of total sales
Log to base 10 of total assets
Current ratio
Quick ratio
Ratio of net fixed assets to total assets
Gross sixed assets to total assets
Payout ratio
Ratio of working capital flow to total current liabilities
Gearing ratio (debt-equity ratio)
Capital intensity (ratio of total sales to total assets)
Ratio of total inventories to total assets

Mod`
ele complet
La procedure SAS/REG est utilisee dans le programme suivant. Beaucoup doptions
sont actives afin de fournir la plupart des resultats meme si certains sont redondants ou
peu utiles.
options linesize=110 pagesize=30 nodate nonumber;
title;
proc reg data=sasuser.ukcomp1 all;

4. Inf
erences dans le cas gaussien

19

model RETCAP = WCFTCL


WCFTDT
GEARRAT
LOGSALE
LOGASST
NFATAST CAPINT
FATTOT
INVTAST
PAYOUT
QUIKRAT
/dw covb Influence cli clm tol vif collin R P;
output out=resout h=lev p=pred r=res student=resstu ;
run;

CURRAT

Analysis of Variance
Source
Model
Error
C Total
Root MSE
Dep Mean
C.V.
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)

Sum of
Mean
DF
Squares
Square
F Value
(1)
12
0.55868 (2)
0.04656 (5)
8.408 (7)
27
0.14951 (3)
0.00554 (6)
39
0.70820 (4)
0.07441 (9)
R-square
0.7889 (12)
0.14275 (10)
Adj R-sq
0.6951 (13)
52.12940 (11)

0.0001 (8)

degres de liberte de la loi de Fisher du test global


SSR
SSE ou deviance
SST=SSE+SSR
SSR/DF
s2 =MSE=SSE/DF est lestimation de 2
Statistique F du test de Fisher du mod`ele global
P (fp;np1 > F ) ; H0 est rejetee au niveau si P <
s =racine de MSE
moyenne empirique de la variable a
` expliquee
Coefficient de variation 100 (9)/(10)
Coefficient de determination R2
2
Coefficient de determination ajuste R0

Parameter Estimates
Parameter
Variable DF
Estimate
(1)
INTERCEP
1
0.188072
WCFTCL
1
0.215130
WCFTDT
1
0.305557
GEARRAT
1
-0.040436
LOGSALE
1
0.118440
LOGASST
1
-0.076960
...

(1)
(2)
(3)
(4)
(5)
(6)

Prob>F

Standard
Error
(2)
0.13391661
0.19788455
0.29736579
0.07677092
0.03611612
0.04517414

T for H0:
Parameter=0 Prob>|T|
(3)
(4)
1.404
0.1716
1.087
0.2866
1.028
0.3133
-0.527
0.6027
3.279
0.0029
-1.704
0.0999

Tolerance
(5)
.
0.03734409
0.02187972
0.45778579
0.10629382
0.21200778

Variance
Inflation
(6)
0.00000000
26.77799793
45.70441500
2.18442778
9.40788501
4.71680805

estimations des param`etres (bj )


ecarts-types de ces estimations (sbj )
statistique T du test de Student de H0 : bj = 0
P (tnp1 > T ) ; H0 est rejetee au niveau si P <
2
1 R(j)
2
VIF=1/(1 R(j)
)

Ces resultats soulignent les probl`emes de colinearites. De grands VIF sont associes
a` de grands ecart-types des estimations des param`etres. Dautre part les nombreux tests
de Student non significatifs montrent que trop de variables sont presentes dans le mod`ele.
Cette idee est renforcee par le calcul de lindice de conditionnement (explicite dans la
section suivante : 8.76623/0.00125).

20

Chapitre 2. R
egression lin
eaire

Choix de mod`
ele

De facon un peu schematique, on peut associer la pratique de la modelisation statistique


a` trois objectifs qui peuvent eventuellement etre poursuivis en complementarite.
Descriptif : Il vise a` rechercher de facon exploratoire les liaisons entre Y et dautres
variables, potentiellement explicatives, X j qui peuvent etre nombreuses afin, par
` cette strategie, a` laquelle peuvent
exemple den selectionner un sous-ensemble. A
contribuer des Analyses en Composantes Principales, correspond des algorithmes de
recherche (pas a` pas) moins performants mais economiques en temps de calcul si p
est grand.
Attention, si n est petit, et la recherche suffisamment longue avec beaucoup de variables explicatives, il sera toujours possible de trouver un bon mod`ele expliquant
y ; cest leffet data mining dans les mod`eles econometriques appele maintenant data
snooping.
Explicatif : Le deuxi`eme objectif est sous-tendu par une connaissance a priori du domaine concerne et dont des resultats theoriques peuvent vouloir etre confirmes,
infirmes ou precises par lestimation des param`etres. Dans ce cas, les resultats
inferentiels precedents permettent de construire le bon test conduisant a` la prise de
decision recherchee. Utilisees hors de ce contexte, les statistiques de test nont plus
alors quune valeur indicative au meme titre que dautres crit`eres plus empiriques.
Pr
edictif : Dans le troisi`eme cas, laccent est mis sur la qualite des estimateurs et des
predicteurs qui doivent, par exemple, minimiser une erreur quadratique moyenne.
Cest la situation rencontree en apprentissage. Ceci conduit a` rechercher des mod`eles
parcimonieux cest-`a-dire avec un nombre volontairement restreint de variables explicatives. Le meilleur mod`ele ainsi obtenu peut donner des estimateurs leg`erement
biaises au profit dun compromis pour une variance plus faible. Un bon mod`ele nest
donc plus celui qui explique le mieux les donnees au sens dune deviance (SSE)
minimale (ou dun R2 max) au prix dun nombre important de variables pouvant
introduire des colinearites. Le bon mod`ele est celui qui conduit aux predictions les
plus fiables.
Certes, le theor`eme de Gauss-Markov indique que, parmi les estimateurs sans biais, celui des moindres carres est de variance minimum. Neanmoins, il peut etre important de
preferer un estimateur leg`erement biaise si le gain en variance est lui plus significatif. Cest
tout le probl`eme de trouver un bon equilibre entre biais et variance afin de minimiser un
risque quadratique de prediction. Il y a principalement deux facons de biaiser un mod`ele
dans le but de restreindre la variance :
en reduisant le nombre de variables explicatives et donc en simplifiant le mod`ele,
en contraignant les param`etres du mod`ele, en les retrecissant (schrinkage), en regression
ridge qui op`ere une regularisation.
Commencons par decrire les procedures de selection.

5.1

Crit`
eres

De nombreux crit`eres de choix de mod`ele sont presentes dans la litterature sur la


regression lineaire multiple. Citons le crit`ere dinformation dAkake (AIC), celui bayesien
de Sawa (BIC). . . (cf. chapitre 3). Ils sont equivalents lorsque le nombre de variables a`
selectionner, ou niveau du mod`ele, est fixe. Le choix du crit`ere est determinant lorsquil

5. Choix de mod`
ele

21

sagit de comparer des mod`eles de niveaux differents. Certains crit`eres se ram`enent, dans le
cas gaussien, a` lutilisation dune expression penalisee de la fonction de vraisemblance afin
de favoriser des mod`eles parcimonieux. En pratique, les plus utilises ou ceux generalement
fournis par les logiciels sont les suivants.
Statistique du F de Fisher
Ce crit`ere, justifie dans le cas explicatif car base sur une qualite dajustement est aussi
utilise a` titre indicatif pour comparer des sequences de mod`eles embotes. La statistique
partielle de Fisher est
(R2 Rq2 ) n p 1
(SSR SSRq )/s
=
SSE/(n p 1)
1 R2 )
q
dans laquelle lindice q designe les expressions concernant le mod`ele reduit avec (p q)
variables explicatives. On consid`ere alors que si laccroissement (R 2 Rq2 ) est suffisamment
grand :
q
2
F
,
R 2 RR
>
(n p 1) ;q,(np1)
lajout des q variables au mod`ele est justifie.
R2 et R2 ajust
e
Le coefficient de determination R 2 = 1SSE/SST, directement lie a` la deviance (SSE)
est aussi un indice de qualite mais qui a la propriete detre monotone croissant en fonction
du nombre de variables. Il ne peut donc servir qu`a comparer deux mod`eles de meme
niveau cest-`a-dire avec le meme nombre de variables.
En revanche, le R2 ajuste :
2

R0 = 1

n1
SSE/(n p 1)
(1 R2 ) = 1
.
np1
SST/(n 1)

dans lequel le rapport SSE/SST est remplace par un rapport des estimations sans biais
des quantites 2 et y2 introduit une penalisation liee au nombre de param`etres a` estimer.
Ce coefficient sexprime encore par
(n 1)MSE
SST
ainsi dans la comparaison de deux mod`eles partageant la meme SST, on observe que
R0 2 > R0 2j si et seulement si MSE<MSEj ; MSE et MSEj designant respectivement lerreur
quadratique moyenne du mod`ele complet et celle dun mod`ele a` j variables explicatives.
Maximiser le R2 ajuste revient donc a` minimiser lerreur quadratique moyenne.
1

Cp de Mallow
Cet indicateur est une estimation de lerreur quadratique moyenne de prediction qui
secrit aussi comme la somme dune variance et du carre dun biais. Lerreur quadratique
moyenne de prediction secrit ainsi : :
MSE(b
yi ) = Var(b
yi ) + [Biais(b
yi )]2

22

Chapitre 2. R
egression lin
eaire

puis apr`es sommation et reduction :


n
n
n
1 X
1 X
1 X
MSE(b
yi ) = 2
Var(b
yi ) + 2
[Biais(b
yi )]2 .
2

i=1

i=1

i=1

En supposant que les estimations du mod`ele complet sont sans biais et en utilisant des estimateurs de V ar(b
yi ) et 2 , lexpression de lerreur quadratique moyenne totale standardisee
(ou reduite) pour un mod`ele a` j variables explicatives secrit :
Cp = (n q 1)

MSEj
[n 2(q + 1)]
MSE

et definit la valeur du Cp de Mallow pour les q variables considerees. Il est alors dusage
de rechercher un mod`ele qui minimise le C p tout en fournissant une valeur inferieure et
proche de (q + 1). Ceci revient a` considerer que le vrai mod`ele complet est moins fiable
quun mod`ele reduit donc biaise mais destimation plus precise.
Akakes Information criterion (AIC)
A completer
PRESS de Allen
Il sagit lintroduction historique de la validation croisee. On designe par yb(i) la prediction
de yi calculee sans tenir compte de la i`eme observation (y i , x1i , . . . , xpi ), la somme des erreurs quadratiques de prediction (PRESS) est definie par
PRESS =

n
X
i=1

(yi yb(i) )2

et permet de comparer les capacites predictives de deux mod`eles. Le chapitre 3 donne plus
de details sur ce type destimation.

5.2

Algorithmes de s
election

Lorsque p est grand, il nest pas raisonnable de penser explorer les 2 p mod`eles possibles afin de selectionner le meilleur au sens de lun des crit`eres ci-dessus. Differentes
strategies sont donc proposees qui doivent etre choisies en fonction de lobjectif recherche
et des moyens de calcul disponibles ! Trois types dalgorithmes sont resumes ci-dessous par
ordre croissant de temps de calcul necessaire cest-`a-dire par nombre croissant de mod`eles
consideres parmi les 2p et donc par capacite croissante doptimalite. On donne pour chaque
algorithme loption selection a` utiliser dans la procedure REG de SAS.
Pas a
` pas
` chaque pas, une variable est ajoutee au mod`ele. Cest celle dont
S
election (forward) A
la valeur p (prob value)associee a` la statistique partielle du test de Fisher qui
compare les deux mod`eles est minimum. La procedure sarrete lorsque toutes les
variables sont introduites ou lorsque p reste plus grande quune valeur seuil fixee par
defaut a` 0, 50.

5. Choix de mod`
ele

23

` chaque

Elimination
(backward) Lalgorithme demarre cette fois du mod`ele complet. A
etape, la variable associee a` la plus grande valeur p est eliminee du mod`ele. La
procedure sarrete lorsque les variables restant dans le mod`ele ont des valeurs p plus
petites quun seuil fixe par defaut a` 0, 10.
Mixte (stepwise) Cet algorithme introduit une etape delimination de variable apr`es
chaque etape de selection afin de retirer du mod`ele deventuels variables qui seraient devenues moins indispensables du fait de la presence de celles nouvellement
introduites.
Global
Lalgorithme de Furnival et Wilson est utilise pour comparer tous les mod`eles possibles
en cherchant a` optimiser lun des crit`eres : R 2 , R2 ajuste, ou Cp de Mallow (rsquare,
adjrsq, cp) choisi par lutilisateur. Par souci deconomie, cet algorithme evite de considerer
des mod`eles de certaines sous-branches de larborescence dont on peut savoir a priori
quils ne sont pas competitifs. En general les logiciels executant cet algorithme affichent le
(best=1) ou les meilleurs mod`eles de chaque niveau.

5.3

Exemple

Parmi les trois types dalgorithmes et les differents crit`eres de choix, une des facons les
plus efficaces consistent a` choisir les options du programme ci-dessous. Tous les mod`eles
(parmi les plus interessants selon lalgorithme de Furnival et Wilson) sont consideres. Seul
le meilleur pour chaque niveau, cest-`a-dire pour chaque valeur p du nombre de variables
explicatives sont donnes. Il est alors facile de choisir celui minimisant lun des crit`eres
globaux (Cp ou BIC ou . . . ).
options linesize=110 pagesize=30 nodate nonumber;
title;
proc reg data=sasuser.ukcomp2 ;
model RETCAP = WCFTCL
WCFTDT
GEARRAT
LOGSALE
NFATAST CAPINT
FATTOT
INVTAST
PAYOUT
/ selection=rsquare cp rsquare bic best=1;
run;

LOGASST
QUIKRAT

CURRAT

N = 40
Regression Models for Dependent Variable: RETCAP
R-square Adjusted C(p)
BIC
Variables in Model
In
R-square
1 0.1055 0.0819 78.3930 -163.26 WCFTCL
2 0.3406 0.3050 50.3232 -173.72 WCFTDT QUIKRAT
3 0.6154 0.5833 17.1815 -191.14 WCFTCL NFATAST CURRAT
4 0.7207 0.6888 5.7146 -199.20 WCFTDT LOGSALE NFATAST CURRAT
5 0.7317 0.6923 6.3047 -198.05 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT
6 0.7483 0.7025 6.1878 -197.25 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT
7 0.7600 0.7075 6.6916 -195.77 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT
8 0.7692 0.7097 7.5072 -193.87 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT
9 0.7760 0.7088 8.6415 -191.59 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT
CURRAT
10 0.7830 0.7082 9.7448 -189.15 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST PAYOUT
QUIKRAT CURRAT
11 0.7867 0.7029 11.2774 -186.40 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST
PAYOUT QUIKRAT CURRAT

24
12

Chapitre 2. R
egression lin
eaire
0.7888 0.6950 13.0000 -183.51 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT
INVTAST PAYOUT QUIKRAT CURRAT

Dans cet example, Cp et BIC se comportent de la meme facon. Avec peu de variables,
le mod`ele est trop biaise. Ils atteignent un minimum pour un mod`ele a` 4 variables explicatives puis croissent de nouveau selon la premi`ere bissectrice. La maximisation du R 2
ajuste conduirait a` une solution beaucoup moins parcimonieuse. On note par ailleurs que
lalgorithme remplace WCFTCL par WCFTDT. Un algorithme par selection ne peut pas
aboutir a` la solution optimale retenue.

5.4

Choix de mod`
ele par r
egularisation

Lautre strategie qui cherche a` conserver lensemble ou tout du moins la plupart des
variables explicatives pose un probl`eme de multicolinearite. Il est resolu par une procedure
de regularisation.

Probl`
eme
Lestimation des param`etres ainsi que celle de leur ecart-type (standard error) necessite
le calcul explicite de la matrice (X 0 X)1 . Dans le cas dit mal conditionne o`
u le determinant
de la matrice X0 X nest que leg`erement different de 0, les resultats conduiront a` des estimateurs de variances importantes et meme, eventuellement, a` des probl`emes de precision
numerique. Il sagit donc de diagnostiquer ces situations critiques puis dy remedier. Dans
les cas descriptif ou predictif on supprime des variables a` laide des procedures de choix de
mod`ele mais, pour un objectif explicatif necessitant toutes les variables, dautres solutions
doivent etre envisagees : algorithme de resolution des equations normales par transformations orthogonales (procedure orthoreg de SAS) sans calcul explicite de linverse pour
limiter les probl`emes numeriques, regression biaisee (ridge), regression sur composantes
principales.

VIF
La plupart des logiciels proposent des diagnostics de colinearite. Le plus classique est
le facteur dinflation de la variance (VIF)
Vj =

1
1 Rj2

o`
u Rj2 designe le coefficient de determination de la regression de la variable X j sur les
autres variables explicatives ; Rj est alors un coefficient de correlation multiple, cest le
cosinus de langle dans IRn entre X j et le sous-espace vectoriel engendre par les variables
{X 1 , . . . , X j1 , X j1 , . . . , X p }. Plus X j est lineairement proche de ces variables et plus
Rj est proche de 1 ; on montre alors que la variance de lestimateur de j est dautant

plus elevee. Evidemment,


cette variance est minimum lorsque X j est orthogonale au sousespace engendre par les autres variables.

5. Choix de mod`
ele

25

Conditionnement
De facon classique, les qualites numeriques de linversion dune matrice sont quantifiees
par son indice de conditionnement. On note 1 , . . . , p les valeurs propres de la matrice
des correlations R rangees par ordre decroissant. Le determinant de R est egal au produit
des valeurs propres. Ainsi, des probl`emes numeriques, ou de variances excessives apparaissent d`es que les derni`eres valeurs propres sont relativement trop petites. Lindice de
conditionnement est le rapport
= 1 /p
de la plus grande sur la plus petite valeur propre.
En pratique, si < 100 on consid`ere quil ny a pas de probl`eme. Celui-ci devient sev`ere
pour > 1000. Cet indice de conditionnement donne un apercu global des probl`emes de
colinearite tandis que les VIF, les tolerances ou encore letude des vecteurs propres associes
au plus petites valeurs propres permettent didentifier les variables les plus problematiques.
R
egression ridge
Ayant diagnostique un probl`eme mal conditionne mais desirant conserver toutes les
variables, il est possible dameliorer les proprietes numeriques et la variance des estimations
en considerant un estimateur leg`erement biaise des param`etres. Lestimateur ridge est
donne par
bR = (X0 X + kI)1 X0 y,
qui a pour effet de decaler de la valeur k toutes les valeurs propres de la matrice a` inverser
et, plus particuli`erement, les plus petites qui refl`etent la colinearite. On montre que cela
revient encore a` estimer le mod`ele par les moindres carres sous la contrainte que la norme
du vecteur1 des param`etres ne soit pas trop grande :
n
o
bR = arg min ky Xk2 ; kk2 < c .

Cest encore, en introduisant un multiplicateur de Lagrange dans le probl`eme de minimisation, un probl`eme de moindres carres penalises :
bR = arg min{ky Xk2 + kk2 }.

Cela revient a` penaliser la norme de lestimateur pour empecher les coefficients dexploser
et donc pour limiter la variance. On parle aussi destimateur a` retrecisseur (shrinkage).
Comme dans tout probl`eme de regularisation, il est necessaire de fixer la valeur du param`etre ; la validation croisee peut etre utilisee a` cette fin mais la lecture du graphique
(cf. figure 2.1) montrant levolution des param`etres en fonction du coefficient ridge est
souvent suffisante. La valeur est choisie au point o`
u la decroissance des param`etres devient faible et quasi-lineaire. Une autre version (lasso) de regression biaisee est obtenue en
utilisant la norme en valeur absolue pour definir la contrainte sur les param`etres.
1
En pratique, la contrainte ne sapplique pas au terme constant 0 mais seulement aux coefficients du
mod`ele.

26

Chapitre 2. R
egression lin
eaire

Fig. 2.1 Evolution des param`etres de la regression ridge en fonction du param`etre de


regularisation.
R
egression sur composantes principales
LAnalyse en Composantes Principales est, entre autres, la recherche de p variables
dites principales qui sont des combinaisons lineaires des variables initiales de variance
maximale sous une contrainte dorthogonalite (cf. Baccini et Besse (2000) pour des details).
En designant par V la matrice des vecteurs propres de la matrice des correlations R ranges
dans lordre decroissant des valeurs propres, les valeurs prises par ces variables principales
sont obtenues dans la matrice des composantes principales
C = (X 1
x0 )V.
Elles ont chacune pour variance la valeur propre j associee. Le sous-espace engendre par
ces variables principales est le meme que celui engendre par les variables initiales. Il est
donc geometriquement equivalent de regresser Y sur les colonnes de C que sur celles de
X. Les probl`emes de colinearite sont alors resolu en supprimant les variables principales
de plus faibles variances cest-`a-dire associees aux plus petites valeurs propres ou encore
en executant un algorithme de choix de mod`ele sur les composantes.
La solution obtenue presente ainsi de meilleures qualites predictives mais, les coefficients de la regression sappliquant aux composantes principales, un calcul complementaire
est necessaire afin devaluer et dinterpreter les effets de chacune des variables initiales.
R
egression PLS
Une dermi`ere approche est largement utilisee afin de pourvoir traiter les situations
avec une forte multicolinearite et meme, lorsque le nombre dobservations est inferieur au
nombre de predicteurs. Il sagit de la regression PLS (partial least square). Comme pour la
regression sur composantes principales, celle-ci est decomposee sur une base orthogonale
contruite a` partir de combinaisons lineaires des variables explicatives centrees reduites mais
la construction de cette base depend de la correlation des predicteurs avec Y . Il sagit dune
` chaque etape, est recherchee la combinaison lineaire orthogonales
demarche iterative. A
aux solutions precedentes et la plus liee a` la variable a` expliquer. La premi`ere etape est
obtenue par la regression de Y sur chacune des variables explicatives.
Algorithme 2.1 : R
egression PLS

6. Compl
ements

27

Initialisation Les variables X j sont centrees et reduites,


(0)
b (0) = 1y et xj = xj ; j = 1, . . . , p.
on pose y
Pour m = 1 a
` p Faire
D
E
Pp
(m1)
(m1)
z m = j=1 mj xj
; avec mj = xj
,y .

m = hz m , yi / hz m , z m i .
b (m) = y
b (m1) + m z m .
y
E
i
hD
(m)
(m1)
(m1)
Orthogonalisation : xj = xj
xj
, z m / hz m , z m i z m ; j = 1, . . . , p.
Fin pour
b (q) apr`es un choix de m = q composantes. Les coefficients sur les
Le resulat est y
P
variables explicatives initiales sont donnes par : jpls = ql=1 lj l .

6
6.1

Compl
ements
Mod`
eles curvilin
eaires

En cas dinvalidation de lhypoth`ese de linearite, il peut etre interessant de considerer


des mod`eles polynomiaux, tr`es classiques pour decrire des phenom`enes physiques, de la
forme
Y = 0 + + j X j + + kl X k X l + + j X j2
qui sont encore appeles surfaces de reponse en plannification experimentale. Ces mod`eles
sont faciles a` etudier dans le cadre lineaire, il suffit dajouter des nouvelles variables
constituees des produits ou des carres des variables explicatives initiales. Les choix :
presence ou non dune interaction entre deux variables, presence ou non dun terme quadratique se traitent alors avec les memes outils que ceux des choix de variable mais en
integrant une contrainte lors de la lecture des resultats : ne pas considerer des mod`eles
incluant des termes quadratiques dont les composants lineaires auraient ete exclus ou encore, ne pas supprimer dun mod`ele une variable dun effet lineaire si elle intervient dans
un terme quadratique.
La procedure rsreg de SAS est plus particuli`erement adaptee aux mod`eles quadratiques. Elle ne comporte pas de procedure de choix de mod`ele mais fournit des aides et
diagnostics sur lajustement de la surface ainsi que sur la recherche des points optimaux.
Attention : Ce type de mod`ele accrot considerablement les risques de colinearite, il
est peu recommande de considerer des termes cubiques.

6.2

Influence, r
esidus, validation

Avant toute tentative de modelisation complexe, il est imperatif davoir conduit des
analyses uni et bivariees afin didentifier des probl`emes sur les distributions de chacune
des variables : dissymetrie, valeurs atypiques (outliers) ou sur les liaisons des variables
prises deux par deux : non-linearite. Ces preliminaires acquis, des aides ou diagnostics
associes a` la regression lineaire multiple permettent de detecter des violations dhypoth`eses
(homoscedasticite, linearite) ou des points influents dans ce contexte multidimensionnel
(cf. figure 2.2).

28

Chapitre 2. R
egression lin
eaire

Points influents

Comme toute methode quadratique, lestimation des param`etres est tr`es sensible a`
la presence de points extremes susceptibles de perturber gravement les resultats. Une
observation est influente sur les param`etres dune regression si, a` la fois,
elle est eloignee du barycentre, et ce dans la direction dun vecteur propre associe a`
une petite valeur propre (effet levier),
elle provoque un grand residu.
Lobservation de la diagonale de la matrice H (hat matrix) rev`ele un effet levier potentiel
tandis que lanalyse des residus studentises pointe ceux susceptibles de poser des probl`emes
(valeur absolue plus grande que 2).
Les deux diagnostics precedents sont combines dans des mesures synthetiques proposees par differents auteurs. La plus utilisee est la distance de Cook



hii
1
ri2
0
b(i) ) (b
b(i) ) =
(b
yy
yy
Di = 2
s (p + 1)
1 hii (p + 1)

b et le
qui quantifie linfluence de la i-`eme observation sur lecart entre le predicteur y
b(i) calcule sans cette i`eme observation. On conclut a` une influence de lobserpredicteur y
vation i lorsque la valeur de Di depasse 1.
Tous ces crit`eres sont illustres dans les graphiques de la figure 2.2. Les tableaux cidessous fournis pas SAS illustrent ces quantites sur lexemple des donnees comptables.

Obs
1
2
3
4
5
...

Dep Var
RETCAP
(1)
0.2600
0.5700
0.0900
0.3200
0.1700

Obs
1
2
3
4
5

|
|
|
|
|

Predict
Value
(2)
0.2716
0.3690
0.00897
0.2335
0.1164

-2-1-0 1 2
(11)
|
|
|******|
|**** |
|**
|
|*
|
...

Std Err Lower95


Predict
Mean
(3)
(4)
0.053
0.1625
0.039
0.2882
0.063
-0.1205
0.021
0.1903
0.046
0.0215

Cooks
D
Rstudent
(12)
(13)
0.004
-0.2194
0.302
3.9515
0.832
2.1955
0.010
1.2228
0.041
0.9175

Upper95
Mean
(5)
0.3808
0.4497
0.1385
0.2768
0.2113
Hat Diag
H
(14)
0.5109
0.2795
0.7192
0.0803
0.3864

Lower95
Predict
(6)
0.0839
0.1962
-0.1912
0.0748
-0.0634
Cov
Ratio
(15)
3.2603
0.0050
0.6375
0.8585
1.7591

Upper95
Std Err Student
Predict Residual Residual Residual
(7)
(8)
(9)
(10)
0.4593 -0.0116
0.052 -0.223
0.5417
0.2010
0.063
3.183
0.2092
0.0810
0.039
2.055
0.3922
0.0865
0.071
1.212
0.2961
0.0536
0.058
0.920

Dffits
(15)
-0.2242
2.4611
3.5134
0.3613
0.7280

INTERCEP
Dfbetas
(15)
0.0299
0.9316
0.5543
-0.0132
-0.0386

WCFTCL
WCFTDT
Dfbetas
Dfbetas
(15)
(15)
0.0632 -0.0911
-0.3621 0.3705
2.1916 -2.0241
-0.0835 0.1207
0.0906 0.0060

6. Compl
ements

29

Fig. 2.2 Graphe des residus studentises, de la diagonale de la matrice H et de la distance


de Cook en fonction des valeurs predites.

(1)
(2)
(3)
(4)et (5)
(6) et (7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)

variable a
` expliquer yi
valeur ajustee ybi
ecart-type de cette estimationsybi
Intervalle de confiance pour lestimation de E(yi )
Intervalle de confiance pour lestimation de yi
residus calcules ei
ecarts-types de ces estimations
residus standardises (ou studentises internes) ri
reperage graphique des residus standardises : = 0.5.
Distance de Cook
residus studentises (externes) ti
Termes diagonaux de la matrice chapeau H
autres indicateurs dinfluence

Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)

0
0.1495
1.0190

(SSE)
(PRESS)

R
egression partielle
Un mod`ele de regression multiple est une technique lineaire. Il est raisonnable de sinterroger sur la pertinence du caract`ere lineaire de la contribution dune variable explicative
a` lajustement du mod`ele. Ceci peut etre realise en considerant une regression partielle.
On calcule alors deux regressions :
la regression de Y sur les variables X 1 , . . . , X j1 , X j+1 , . . . , X p , dans laquelle la
j`eme variable est omise, soit ry(j) le vecteur des residus obtenus.
La regression de X j sur les variables X 1 , . . . , X j1 , X j+1 , . . . , X p . Soit rx(j) le vecteur des residus obtenus.
La comparaison des residus par un graphe (nuage de points r y(j) rx(j) ) permet alors de
representer la nature de la liaison entre X j et Y conditionnellement aux autres variables
explicatives du mod`ele.

30

Chapitre 2. R
egression lin
eaire

Fig. 2.3 Graphe des valeurs observees en fonction des valeurs predites et droite de Henri
des residus (normal qq-plot).
Graphes
Differents graphiques permettent finalement de controler le bien fonde des hypoth`eses
de linearite, dhomoscedasticite, eventuellement de normalite des residus.
Le premier consid`ere le nuage de points des residus studentises croises avec les valeurs
predites. Les points doivent etre uniformement repartis entre les bornes 2 et +2 et
ne pas presenter de formes suspectes (cf. figure 2.2).
Le deuxi`eme croise les valeurs observees de Y avec les valeurs predites. Il illustre
le coefficient de determination R qui est aussi la correlation lineaire simple entre
b et y. Les points doivent saligner autour de la premi`ere bissectrice. Il peut etre
y
complete par lintervalle de confiance des y i ou celui de leurs moyennes. (cf. figure
2.3).
La qualite, en terme de linearite, de lapport de chaque variable est etudiee par
des regressions partielles. Chaque graphe de residus peut etre complete par une
estimation fonctionnelle ou regression non-parametrique (loess, noyau, spline) afin
den facilite la lecture.
Le dernier trace la droite de Henri (Normal QQplot) des residus dont le caract`ere
lineaire de la representation donne une idee de la normalite de la distribution. (cf.
figure 2.3)

7
7.1

Analyse de variance `
a un facteur
Introduction

Les techniques dites danalyse de variance sont des outils entrant dans le cadre general
du mod`ele lineaire et o`
u une variable quantitative est expliquee par une ou plusieurs
variables qualitatives. Lobjectif essentiel est alors de comparer les moyennes empiriques
de la variable quantitative observees pour differentes categories dunites statistiques. Ces
categories sont definies par lobservation des variables qualitatives ou facteurs prenant
differentes modalites ou encore de variables quantitatives decoupees en classes ou niveaux.

7. Analyse de variance a
` un facteur

31

Une combinaison de niveaux definit une cellule, groupe ou traitement.


Il sagit donc de savoir si un facteur ou une combinaison de facteurs (interaction) a
un effet sur la variable quantitative en vue, par exemple, de determiner des conditions
optimales de production ou de fabrication, une dose optimale de medicaments. . . . Ces
techniques apparaissent aussi comme des cas particuliers de la regression lineaire multiple
en associant a` chaque modalite une variable indicatrice (dummy variable) et en cherchant a`
expliquer une variable quantitative par ces variables indicatrices. Lappellation analyse de
variance vient de ce que les tests statistiques sont batis sur des comparaisons de sommes
de carres de variations.
Lanalyse de variance est souvent utilisee pour analyser des donnees issue dune planification experimentale au cours de laquelle lexperimentateur a la possibilite de controler
a priori les niveaux des facteurs avec pour objectif dobtenir le maximum de precision au
moindre co
ut. Ceci conduit en particulier a` construire des facteurs orthogonaux deux a`
deux (variables explicatives non lineairement correlees) afin de minimiser la variance des
estimateurs. On distingue le cas particulier important o`
u les cellules ont le meme effectif, on parle alors de plan orthogonal ou equirepete ou equilibre (balanced), qui conduit
a` des simplifications importantes de lanalyse de variance associee. On appelle plan complet un dispositif dans lequel toutes les combinaisons de niveaux ont ete experimentees.
On distingue entre des mod`eles fixes, aleatoires ou mixtes selon le caract`ere deterministe
(controle) ou non des facteurs par exemple si les modalites resultent dun choix aleatoire
parmi un grand nombre de possibles. Dans cette courte introduction seuls le mod`ele fixe
a` un facteur est considere.
Lanalyse de variance a` un facteur est un cas particulier detude de relations entre
deux variables statistiques : une quantitative Y admettant une densite et une qualitative
X ou facteur qui engendre une partition ou classification de lechantillon en J groupes,
cellules ou classes indicees par j. Lobjectif est de comparer les distributions de Y pour
chacune des classes en particulier les valeurs des moyennes et variances. Un prealable descriptif consiste a` realiser un graphique constitue de diagrammes boites parall`eles : une pour
chaque modalite. Cette representation donne une premi`ere appreciation de la comparaison des distributions (moyenne, variance) internes a` chaque groupe. Les specificites de la
planification dexperience ne sont pas abordees dans ce cours axe sur la fouille de donnees
pour laquelle les donnees sont justement prealablement fournies. Les plans dexperience
sont surtout utilises en milieu industriel : controle de qualite, optimisation des processus
de production, ou en agronomie pour la selection de varietes, la comparaison dengrais,
dinsecticides. . . . La bibliographie est abondante sur ce sujet.

7.2

Mod`
ele

Pour chaque niveau j de X, on observe n j valeurs y1j , . . . , ynj j de la variable Y et o`


u
PJ
n = j=1 nj (n > J) est la taille de lechantillon. On suppose qu`a linterieur de chaque
cellule, les observations sont independantes equidistribuees de moyenne j et de variance
homog`ene j2 = 2 . Ceci secrit :
yij = j + ij
o`
u les ij sont i.i.d. suivant une loi centree de variance 2 qui sera supposee N (0, 2 )
pour la construction des tests. Cette derni`ere hypoth`ese netant pas la plus sensible. Les
esperances j ainsi que le param`etre de nuisance 2 sont les param`etres inconnus a` estimer.

32

Chapitre 2. R
egression lin
eaire
On note respectivement :
y.j =

nj
1 X
yij ,
nj
i=1

nj

s2j

1 X
(yij y.j )2 ,
nj 1
i=1

y.. =

nj J
1 XX
yij ,
n
i=1 j=1

les moyennes et variances empiriques de chaque cellule, la moyenne generale de lechantillon.


Les param`etres j sont estimes sans biais par les moyennes y.j et comme le mod`ele
secrit alors :
yij = y.j + (yij y.j ),
lestimation des erreurs est eij = (yij y.j ) tandis que les valeurs predites sont ybij = y.j .

Sous lhypoth`ese dhomogeneite des variances, la meilleure estimation sans biais de 2

est

s =

PJ

j=1

P nj

i=1 (yij

nJ

y.j )2

1
[(n 1)s21 + + (nJ 1)s2J ]
nJ

qui secrit donc comme une moyenne ponderee des variances empiriques de chaque groupe.
Notons y le vecteur des observations [y ij |i = 1, nj ; j = 1, J]0 mis en colonne, =
[ij |i = 1, nj ; j = 1, J]0 le vecteur des erreurs, 1j les variables indicatrices des niveaux et
1 la colonne de 1s. Le i`eme element dune variable indicatrice (dummy variable) 1 j prend
la valeur 1 si la i`eme observation y i est associee au j`eme et 0 sinon.
Comme dans le cas de la regression lineaire multiple, le mod`ele consiste a` ecrire que
lesperance de la variable Y appartient au sous-espace lineaire engendre par les variables
explicatives, ici les variables indicatrices :
y = 0 1 + 1 11 + + J 1J + .
La matrice X alors construite nest pas de plein rang p + 1 mais de rang p. La matrice
X0 X nest pas inversible et le mod`ele admet une infinite de solutions. Nous disons que
les param`etres j ne sont pas estimables ou identifiables. En revanche, certaines fonctions
(combinaisons lineaires) de ces param`etres sont estimables et appelees contrastes.
Dans le cas du mod`ele danalyse de variance a` un facteur, la solution la plus simple
adoptee consiste a` considerer un sous-ensemble des indicatrices ou de combinaisons des
indicatrices engendrant le meme sous-espace de facon a` aboutir a` une matrice inversible.
Ceci conduit a` considerer differents mod`eles associes a` differentes parametrisation. Attention, les param`etres j ainsi que la matrice X prennent a` chaque fois des significations
differentes.
Un premier mod`ele (cell means model) secrit comme celui dune regression lineaire
multiple sans terme constant avec = [ 1 , . . . , J ]0 le vecteur des param`etres :
y = 1 11 + + J 1J +
y = X + .

7. Analyse de variance a
` un facteur

33

Les calculs se presentent simplement mais les tests decoulant de ce mod`ele conduiraient a`
etudier la nullite des param`etres alors que nous sommes interesses par tester legalite des
moyennes.
Une autre parametrisation, considerant cette fois le vecteur = [ J , 1 J , . . . , J1
J conduit a` ecrire le mod`ele (base cell model) de regression avec terme constant :
]0

y = 0 1 + 1 11 + + J1 1J1 + .
Cest celle de SAS alors que dautres logiciels consid`
PJ erent des param`etres deffet differentiel
j . par rapport a` leffet moyen . = 1/J j=1 j . Ce dernier est encore un mod`ele
(group effect model) de regression lineaire avec terme constant mais dont les variables
explicatives sont des differences dindicatrices et avec = [ . , 1 . , . . . , J1 . ]0 :
y = 0 1 + 1 (11 1J ) + + J1 (1J1 1J ) + .

7.3

Test

On designe les differentes sommes des carres des variations par :


SST =

nj
J X
X
j=1 i=1
J nj

SSW =

XX
j=1 i=1

SSB =

J
X
j=1

(yij y.. ) =
(yij y.j )2 =

nj (
y.j y.. )2 =

nj
J X
X
j=1 i=1
J nj

XX
j=1 i=1

J
X
j=1

2
yij
n
y..2 ,
2
yij

J
X

2
nj y.j
,

j=1

2
nj y.j
n
y..2 ,

o`
u T signifie totale, W (within) intra ou residuelle, B (between) inter ou expliquee
par la partition. Il est facile de verifier que SST=SSB+SSW.
On consid`ere alors lhypoth`ese
H0 : 1 = = J ,
qui revient a` dire que la moyenne est independante du niveau ou encore que le facteur na
pas deffet, contre lhypoth`ese
H1 : (j, k) tel que j 6= k
qui revient a` reconnatre un effet ou une influence du facteur sur la variable Y .
Dans les mod`eles precedents, letude de cette hypoth`ese revient a` comparer par un
test de Fisher un mod`ele complet (les moyennes sont differentes) avec un mod`ele reduit
supposant la nullite des param`etres j et donc legalite des moyennes a` celle de la derni`ere
cellule ou a` la moyenne generale.
Les resultats necessaires a` la construction du test qui en decoule sont resumes dans la
table danalyse de la variance :

34

Chapitre 2. R
egression lin
eaire
Source
de
variation
Mod`ele (inter)
Erreur (intra)
Total

d.d.l.
J 1
nJ
n1

Somme
des carres
SSB
SSW
SST

Variance
MSB=SSB/(J 1)
MSW=SSW/(n J)

F
MSB/MSW

Pratiquement, un programme de regression usuel permet de construire estimation et test


de la nullite des j sauf pour le premier mod`ele qui doit tester legalite au lieu de la nullite
des param`etres.
Dans le cas de deux classes (J = 2) on retrouve un test equivalent au test de Student
de comparaison des moyennes de deux echantillons independants. Si lhypoth`ese nulle est
rejetee, la question suivante consiste a` rechercher quelles sont les groupes ou cellules qui
poss`edent des moyennes significativement differentes. De nombreux tests et procedures
ont ete proposes dans la litterature pour repondre a` cette question. Enfin, lhypoth`ese
importante du mod`ele induit par lanalyse de variance est lhomogeneite des variances de
chaque groupe. Conjointement a` lestimation du mod`ele et en supposant la normalite, il
peut etre instructif de controler cette homogeneite par un test.

Analyse de covariance

Lanalyse de covariance se situe encore dans le cadre general du mod`ele lineaire et o`


u
une variable quantitative est expliquee par plusieurs variables a` la fois quantitatives et
qualitatives. Dans les cas les plus complexes, ont peut avoir plusieurs facteurs (variables
qualitatives) avec une structure croisee ou hierarchique ainsi que plusieurs variables quantitatives intervenant de mani`ere lineaire ou polynomiale. Le principe general, dans un but
explicatif ou decisionnel, est toujours destimer des mod`eles intra-groupes et de faire
apparatre (tester) des effets differentiels inter-groupes des param`etres des regressions.
Ainsi, dans le cas plus simple o`
u seulement une variable parmi les explicatives est quantitative, nous sommes amenes a` tester lheterogeneite des constantes et celle des pentes
(interaction) entre differents mod`eles de regression lineaire.
Ce type de mod`ele permet donc, toujours avec un objectif predictif, de sinteresser a`
la modelisation dune variable quantitative par un ensemble de variables explicatives a`
la fois quantitatives et qualitatives. La possible prise en compte dinteractions complique
singuli`erement la procedure de selection de variables.

8.1

Mod`
ele

Le mod`ele est explicite dans le cas elementaire o`


u une variable quantitative Y est
expliquee par une variable qualitative T a` J niveaux et une variable quantitative, appelee
encore covariable, X. Pour chaque niveau j de T , on observe n j valeurs x1j , . . . , xnj j de
P
X et nj valeurs y1j , . . . , ynj j de Y ; n = Jj=1 nj est la taille de lechantillon.

En pratique, avant de lancer une procedure de modelisation et tests, une demarche


exploratoire sappuyant sur une representation en couleur (une par modalite j de T) du
nuage de points croisant Y et X et associant les droites de regression permet de se faire une

8. Analyse de covariance

35

idee sur les effets respectifs des variables : parallelisme des droites, etirement, imbrication
des sous-nuages.
On suppose que les moyennes conditionnelles E[Y |T ], cest-`a-dire calculees a` linterieur
de chaque cellule, sont dans le sous-espace vectoriel engendre par les variables explicatives
quantitatives, ici X. Ceci secrit :
yij = 0j + 1j xij + ij ;

j = 1, . . . , J;

i = 1, , nj

o`
u les ij sont i.i.d. suivant une loi centree de variance 2 qui sera supposee N (0, 2 ) pour
la construction des tests.
Notons y le vecteur des observations [y ij |i = 1, nj ; j = 1, J]0 mis en colonne, x le
vecteur [xij |i = 1, nj ; j = 1, J]0 , = [ij |i = 1, nj ; j = 1, J]0 le vecteur des erreurs, 1j les
variables indicatrices des niveaux et 1 la colonne de 1s. On note encore x.1 j le produit
terme a` terme des deux vecteurs, cest-`a-dire le vecteur contenant les observations de X
sur les individus prenant le niveau j de T et des zeros ailleurs.
La resolution simultanee des J mod`eles de regression est alors obtenue en considerant
globalement le mod`ele :
y = X +
dans lequel X est la matrice n2J constituee des blocs [1 j |x.1j ] ; j = 1, . . . , J. Lestimation
de ce mod`ele global conduit, par bloc, a` estimer les mod`eles de regression dans chacune
des cellules.
Comme pour lanalyse de variance, les logiciels op`erent une reparametrisation faisant
apparatre des effets differentiels par rapport au dernier niveau (SAS/GLM, SAS/INSIGHT)
ou par rapport a` un effet moyen (Systat), afin dobtenir directement les bonnes hypoth`eses
dans les tests. Ainsi, dans le premier cas, on consid`ere la matrice de meme rang (sans la
J`eme indicatrice)
X = [1|x|11 | |1J1 |x.11 | |x.1J1 ]
associee aux mod`eles :
yij = 0J + (0j 0J ) + 1J xij + (1j 1J )xij + ij ;

8.2

j = 1, . . . , J 1; i = 1, . . . , nj .

Tests

Differentes hypoth`eses sont alors testees en comparant le mod`ele complet


y = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 + 1J x +
+ (11 1J )x.11 + + (1J1 1J )x.1J1 +

a` chacun des mod`eles reduits :


(i)
(ii)
(iii)

y = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 + 1J x +

y = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 +


+(1j 1J )x.11 + + (1J1 1J )x.1J1 +

y = 0J 1 + 1J x + (1j 1J )x.11 + + (1J1 1J )x.1J1 +

par un test de Fisher. Ceci revient a` considerer les hypoth`eses suivantes :

36

Chapitre 2. R
egression lin
eaire

H0i : pas dinteraction, 11 = = 1J , les droites partagent la meme pente 1J ,


H0ii : 1J =0,
H0iii :01 = = 0J , les droites partagent la meme constante a` lorigine 0J .
On commence donc par evaluer i), si le test nest pas significatif, on regarde ii) qui,
sil nest pas non plus significatif, conduit a` labsence deffet de la variable X. De meme,
toujours si i) nest pas significatif, on sinteresse a` iii) pour juger de leffet du facteur T .

8.3

Choix de mod`
ele

Ce cadre theorique et les outils informatiques (SAS/GLM) permettent de considerer


des mod`eles beaucoup plus complexes incluant plusieurs facteurs, plusieurs variables quantitatives, voire des polynomes de celles-ci, ainsi que les diverses interactions entre qualitatives et quantitatives. Le choix du bon mod`ele devient vite complexe dautant que la
strategie depend, comme pour la regression lineaire multiple, de lobjectif vise :
descriptif : des outils multidimensionnels descriptifs (ACP, AFD, AFCM. . . ) sav`erent
souvent plus efficaces pour selectionner, en premi`ere approche, un sous-ensemble de
variables explicatives avant doperer une modelisation,
explicatif : de la prudence est requise dautant que les hypoth`eses ne peuvent etre
evaluees de facon independante surtout si, en plus, des cellules sont desequilibrees
ou vides,
pr
edictif : la recherche dun mod`ele efficace, donc parcimonieux, peut conduire a` negliger
des interactions ou effets principaux lorsquune faible amelioration du R 2 le justifie
et meme si le test correspondant apparat comme significatif. Lutilisation du C p
est theoriquement possible mais en general ce crit`ere nest pas calcule et dutilisation delicate car necessite la consideration dun vrai mod`ele de reference ou tout
du moins dun mod`ele de faible biais pour obtenir une estimation raisonnable de
la variance de lerreur. En revanche AIC et PRESS donnent des indications plus
pertinentes. Lalgorithme de recherche descendant est le plus couramment utilise
avec la contrainte suivante : un effet principal nest supprime qu`
a la condition quil
napparaisse plus dans une interaction.

8.4

Exemple

Les donnees, extraites de Jobson (1991), sont issues dune etude marketing visant a`
etudier limpact de differentes campagnes publicitaires sur les ventes de differents aliments.
Un echantillon ou panel de familles a ete constitue en tenant compte du lieu dhabitation
ainsi que de la constitution de la famille. Chaque semaine, chacune de ces familles ont
rempli un questionnaire decrivant les achats realises. Nous nous limitons ici a` letude de
limpact sur la consommation de lait de quatre campagnes diffusees sur des chanes locales
de television. Quatre villes, une par campagne publicitaire, ont ete choisies dans cinq
differentes regions geographiques. Les consommations en lait par chacune des six familles
par ville alors ete mesurees (en dollars) apr`es deux mois de campagne.
Les donnees se presentent sous la forme dun tableau a` 6 variables : la region geographique,
les 4 consommations pour chacune des villes ou campagnes publicitaires diffusees, la taille
de la famille. Cette situation est celle classique dun mod`ele danalyse de variance. Nous
choisissons ici de conserver quantitative la variable taille de la famille et donc de modeliser

8. Analyse de covariance

37

la consommation de lait par un mod`ele danalyse de covariance plus economique en degres


de liberte moins de param`etres sont a` estimer.
On sinteresse a` differents mod`eles de regression visant a` expliquer la consommation
en fonction de la taille de la famille conditionnellement au type de campagne publicitaire.
proc glm data=sasuser.milk;
class pub;
model consom=pub taille pub*taille;
run;

Les resultats ci-dessous conduiraient a` conclure a` une forte influence de la taille mais
a` labsence dinfluence du type de campagne. Les droites de regression ne semblent pas
significativement differentes.
Source
PUB
TAILLE
TAILLE*PUB

(1)
(2)
(3)

DF
3
1
3

Type III SS
227.1807
40926.0157
309.8451

Mean Square
75.7269
40926.0157
103.2817

F Value
0.57
306.57
0.77

Pr > F
0.6377 (1)
0.0001 (2)
0.5111 (3)

Test de la significativite des differences des termes constants.


Test de linfluence du facteur quantitatif.
Test de la significativite des differences des pentes (interaction).

Neanmoins, pris dun doute, le meme calcul est effectue separement pour chaque
region :
proc glm data=sasuser.milk;
by region;
class pub;
model consom=pub taille pub*taille;
run;
R
egion

Source

DF

Type III SS

Mean Square

F Value

Pr > F

PUB
TAILLE
TAILLE*PUB

3
1
3

72.02974
7178.32142
217.37048

24.00991
7178.32142
72.45683

4.62
1380.25
13.93

0.0164
0.0001
0.0001

PUB
TAILLE
TAILLE*PUB

3
1
3

231.73422
8655.25201
50.15069

77.24474
8655.25201
16.71690

30.36
3402.34
6.57

0.0001
0.0001
0.0042

PUB
TAILLE
TAILLE*PUB

3
1
3

79.54688
6993.30160
173.19305

26.51563
6993.30160
57.73102

6.01
1585.35
13.09

0.0061
0.0001
0.0001

PUB
TAILLE
TAILLE*PUB

3
1
3

415.66664
9743.37830
361.39556

138.55555
9743.37830
120.46519

15.23
1071.32
13.25

0.0001
0.0001
0.0001

PUB
TAILLE
TAILLE*PUB

3
1
3

15.35494
8513.28516
52.75119

5.11831
8513.28516
17.58373

0.79
1314.71
2.72

0.5168
0.0001
0.0793

Il apparat alors qu`a linterieur de chaque region (sauf region 5), les campagnes de
publicite ont un effet tant sur la constante que sur la pente.

38

Chapitre 2. R
egression lin
eaire

Ceci incite donc a` se mefier des interactions (leffet region compense leffet publicite)
et encourage a` toujours conserver le facteur bloc (ici la region) dans une analyse de variance. Une approche compl`ete, considerant a priori toutes les variables (3 facteurs), est
ici necessaire (cf. TP).
Completer : choix automatique avec AIC.

9. Introduction

39

Introduction

Dans ce chapitre, nous definissons le contexte pratique de la regression logistique


qui sinteressent plus particuli`erement a` la description ou lexplication dobservations
constitues deffectifs comme, par exemple, le nombre de succ`es dune variable de Bernouilli
lors dune sequence dessais. Nous laissons de cote le mod`ele log-lineaire (voir Agresti (1990)
pour un expose detaille) qui vise a` expliquer un nombre dindividus prenant une combinaison donnee de modalites de variables qualitatives ou niveaux de facteurs. Contrairement
aux mod`eles du chapitre precedent bases sur lhypoth`ese de normalite des observations, les
lois concernees sont discr`etes et associees a` des denombrements : loi de Poisson, binomiale,
multinomiale. Neanmoins, tous ces mod`eles appartiennent a` la famille du mod`ele lineaire
general (annexe) et partagent a` ce titre beaucoup daspects (estimation, tests, diagnostic)
et dont la strategie de mise en uvre, similaire au cas gaussien, nest pas reprise.

10

Odds et odds ratio

Une variable
Soit Y une variable qualitative a` J modalites. On designe la chance ou lodds 2 de voir
se realiser la j`eme modalite plutot que la k`eme par le rapport
jk =

j
k

o`
u j est la probabilite dapparition de la j`eme modalite. Cette quantite est estimee par
le rapport nj /nk des effectifs observes sur un echantillon. Lorsque la variable est binaire
et suit une loi de Bernouilli de param`etre , lodds est le rapport /(1 ) qui exprime
une cote ou chance de gain.
Table de contingence
On consid`ere maintenant une table de contingence 2 2 croisant deux variables qualitatives binaires X 1 et X 2 . les param`etres de la loi conjointe se mettent dans une matrice :


11 12
21 22

o`
u ij = P [{X 1 = i} et {X 2 = j}] est la probabilite doccurence de chaque combinaison.
Dans la ligne 1, lodds que la colonne 1 soit prise plutot que la colonne 2 est :
1 =

11
.
12

Dans la ligne 2, lodds que la colonne 1 soit prise plutot que la colonne 2 est :
2 =
2

21
.
22

Il nexiste pas, meme en Quebecois, de traduction consensuelle de odds.

40

Chapitre 2. R
egression lin
eaire

On appelle odds ratio le rapport


=

11 22
1
=
.
2
12 21

Ce rapport prend la valeur 1 si les variables sont independantes, il est superieur a` 1 si les
sujets de la ligne 1 ont plus de chances de prendre la premi`ere colonne que les sujets de la
ligne 2 et inferieur a` 1 sinon.
Lodds ratio est egalement defini pour deux lignes (a, b) et deux colonnes (c, d) quelconques dune table de contingence croisant deux variables a` J et K modalites. Lodds
ratio est le rapport
abcd =

11
11.1

a
ac bd
=
b
ad bc

estime par lodds ratio empirique

b abcd = nac nbd .

nad nbc

R
egression logistique
Type de donn
ees

Cette section decrit la modelisation dune variable qualitative Z a` 2 modalites : 1


ou 0, succ`es ou echec, presence ou absence de maladie, panne dun equipement, faillite
dune entreprise, bon ou mauvais client. . . . Les mod`eles de regression precedents adaptes
a` lexplication dune variable quantitative ne sappliquent plus directement car le regresseur
lineaire usuel X ne prend pas des valeurs simplement binaires. Lobjectif est adapte a`
cette situation en cherchant a` expliquer les probabilites
= P (Z = 1)

ou

1 = P (Z = 0),

ou plutot une transformation de celles-ci, par lobservation conjointe des variables explicatives. Lidee est en effet de faire intervenir une fonction reelle monotone g operant de
[0, 1] dans IR et donc de chercher un mod`ele lineaire de la forme :
g(i ) = x0i .
Il existe de nombreuses fonctions, dont le graphe presente une forme sigmodale et qui
sont candidates pour remplir ce role, trois sont pratiquement disponibles dans les logiciels :
probit : g est alors la fonction inverse de la fonction de repartition dune loi normale,
mais son expression nest pas explicite.
log-log avec g definie par
g() = ln[ ln(1 )]
mais cette fonction est dissymetrique.
logit est definie par
g() = logit() = ln

avec

g 1 (x) =

ex
.
1 + ex

Plusieurs raisons, tant theoriques que pratiques, font preferer cette derni`ere solution.
Le rapport /(1 ), qui exprime une cote, est lodds et la regression logistique sinterpr`ete donc comme la recherche dune modelisation lineaire du log odds tandis que

11. R
egression logistique

41

les coefficients de certains mod`eles expriment des odds ratio cest-`a-dire linfluence dun
facteur qualitatif sur le risque (ou la chance) dun echec (dun succ`es) de Z.
Cette section se limite a` la description de lusage elementaire de la regression logistique. Des complements concernant lexplication dune variable qualitative ordinale (plusieurs modalites), lintervention de variables explicatives avec effet aleatoire, lutilisation
de mesures repetees donc dependantes, sont a` rechercher dans la bibliographie.

11.2

Mod`
ele binomial

On consid`ere, pour i = 1, . . . , I, differentes valeurs fixees x 1i , . . . , xqi des variables explicatives X 1 , . . . , X q . Ces derni`eres pouvant etre des variables quantitatives ou encore des
variables qualitatives, cest-`a-dire des facteurs issus dune planification experimentale.
Pour chaque groupe, cest-`a-dire
P pour chacune des combinaisons de valeurs ou facteurs,
on realise ni observations (n = Ii=1 ni ) de la variable Z qui se mettent sous la forme
y1 /n1 , . . . , yI /nI o`
u yi designe le nombre de succ`es observes lors des n i essais. On suppose
que toutes les observations sont independantes et qu`a linterieur dun meme groupe, la
probabilite i de succ`es est constante. Alors, la variable Y i sachant ni et desperance
E(Yi ) = ni i suit une loi binomiale B(ni , i ) dont la fonction de densite secrit :
 
n i yi
(1 i )(ni yi ) .
P (Y = yi ) =
yi i

On suppose que le vecteur des fonctions logit des probabilites i appartient au sousespace vect{X 1 , . . . , X q } engendre par les variables explicatives :
logit(i ) = x0i

i = 1, . . . , I

ce qui secrit encore


0

e xi
i =
0
1 + e xi

i = 1, . . . , I.

Le vecteur des param`etres est estime par maximisation de la log-vraisemblance. Il ny a


pas de solution analytique, celle-ci est obtenue par des methodes numeriques iteratives (par
exemple Newton Raphson) dont certaines reviennent a` iterer des estimations de mod`eles
de regression par moindres carres generalises avec des poids et des metriques adaptes a`
chaque iteration.
Loptimisation fournit une estimation b de , il est alors facile den deduire les estimations ou previsions des probabilites i :
0

et ainsi celles des effectifs

Remarques

bi =

e xi b
0
1 + e xi b

ybi = ni
bi .

42

Chapitre 2. R
egression lin
eaire
i. La matrice X issue de la planification experimentale est construite avec les memes
r`egles que celles utilisees dans le cadre de lanalyse de covariance mixant variables
explicatives quantitatives et qualitatives. Ainsi, les logiciels g`erent avec plus ou moins
de clarte le choix des variables indicatrices et donc des param`etres estimables ou
contrastes associes.
ii. La situation decrite precedemment correspond a` lobservation de donnees groupees.
Dans de nombreuses situations concr`etes et souvent d`es quil y a des variables explicatives quantitatives, les observations x i sont toutes distinctes. Ceci revient donc
a` fixer ni = 1; i = 1, . . . , I dans les expressions precedentes et la loi de Bernouilli
remplace la loi binomiale. Certaines methodes ne sont alors plus applicables et les
comportements asymptotiques des distributions des statistiques de test ne sont plus
valides, le nombre de param`etres tendant vers linfini.

12
12.1

Choix de mod`
ele
Recherche pas `
a pas

Principalement deux crit`eres (test du rapport de vraisemblance et test de Wald, cf.bibliographie),


sont utilises de facon analogue au test de Fisher du mod`ele lineaire gaussien. Ils permettent
de comparer un mod`ele avec un sous-mod`ele et devaluer linteret de la presence des termes
complementaires. On suit ainsi une strategie descendante a` partir du mod`ele complet.
Lidee est de supprimer, un terme a` la fois, la composante dinteraction ou leffet principal
qui apparat comme le moins significatif au sens du rapport de vraisemblance ou du test
de Wald. Les tests presentent une structure hierarchisee. SAS facilite cette recherche en
produisant une decomposition (Type III) de ces indices permettant de comparer chacun
des sous-mod`eles excluant un des termes avec le mod`ele les incluant tous.
Attention, du fait de lutilisation dune transformation non lineaire (logit), meme si
des facteurs sont orthogonaux, aucune propriete dorthogonalite ne peut etre prise en
compte pour letude des hypoth`eses. Ceci impose lelimination des termes un par un et la
re-estimation du mod`ele. Dautre part, un terme principal ne peut etre supprime que sil
nintervient plus dans des termes dinteraction.
Tout en deroulant lalgorithme de recherche ci-dessus, les logiciels calculent en plus
lAIC pour finaliser le choix pour une meilleure qualite predictive.

13
13.1

Exemples
D
ebitsVolumes

On etudie linfluence du debit et du volume dair inspire sur loccurence (codee 1)


de la dilatation des vaisseaux sanguins superficiels des membres inferieurs. Un graphique
elementaire representant les modalites de Y dans les coordonnees de X 1 X 2 est toujours
instructif. Il montre une separation raisonnable et de bon augure des deux nuages de
points. Dans le cas de nombreuses variables explicatives quantitatives, une analyse en
composantes principales simpose. Les formes des nuages representes, ainsi que lallure des
distributions (etudiees prealablement), incitent dans ce cas a` considerer par la suite les
logarithmes des variables. Une variable un ne contenant que des 1 denombrant le nombre
dessais est necessaire dans la syntaxe de genmod. Les donnees sont en effet non groupees.

13. Exemples

43

DEBIT
4
3
2
1
0
0

DILAT

2
VOLUME
0

4
1

Fig. 2.4 Nuage des modalites de Y dans les coordonnees des variables explicatives.
proc logistic data=sasuser.debvol;
model dilat=l_debit l_volume;
run;
proc genmod data=sasuser.debvol;
model dilat/un=l_debit l_volume/d=bin;
run;
The LOGISTIC Procedure

Criterion
AIC
SC
-2 LOG L
Score

Variable
INTERCPT
L_DEBIT
L_VOLUME

DF
1
1
1

Intercept
Only
56.040
57.703
54.040
.
Parameter(2)
Estimate
2.8782
-4.5649
-5.1796

Intercept
and
Covariates
Chi-Square for Covariates
35.216
.
40.206
.
29.216(1)
24.824 with 2 DF (p=0.0001)
.
16.635 with 2 DF (p=0.0002)
Standard
Wald(3)
Pr >
Standardized
Error
Chi-Square Chi-Square Estimate
1.3214
4.7443
0.0294
.
1.8384
6.1653
0.0130
-2.085068
1.8653
7.7105
0.0055
-1.535372

Odds
Ratio
.
0.010
0.006

Cette procedure fournit des crit`eres de choix de mod`ele dont la deviance (1), le vecteur
b des param`etres (2) et les statistiques des tests (3) comparant le mod`ele excluant un terme
par rapport au mod`ele complet tel quil est decrit dans la commande.
The GENMOD Procedure
Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Value/DF
Deviance
36
29.2156
0.8115 (1)
Scaled Deviance
36
29.2156
0.8115 (2)
Pearson Chi-Square
36
34.2516
0.9514 (3)
Scaled Pearson X2
36
34.2516
0.9514
Log Likelihood
.
-14.6078
.
Analysis Of Parameter Estimates

44

Chapitre 2. R
egression lin
eaire
Parameter
INTERCEPT
L_DEBIT
L_VOLUME
SCALE (6)

(1)
(2)
(3)
(4)
(5)
(6)

13.2

DF
1
1
1
0

Estimate (4)
-2.8782
4.5649
5.1796
1.0000

Std Err
1.3214
1.8384
1.8653
0.0000

ChiSquare (5) Pr>Chi


4.7443
0.0294
6.1653
0.0130
7.7105
0.0055
.
.

Deviance du mod`ele par rapport au mod`ele sature.


Deviance ponderee si le param`etre dechelle est different de 1 en cas de sur-dispersion.
Statistique de Pearson, voisine de la deviance, comparant le mod`ele au mod`ele sature .
Param`etres du mod`ele.
Statistique des tests comparant le mod`ele excluant un terme par rapport au mod`ele complet.
Estimation du param`etre dechelle si la quasi-vraisemblance est utilisee.

Donn
ees bancaires

Plusieurs strategies peuvent etre mises en uvre sur les donnees bancaires. Les premi`eres
consistent a` ne sinteresser quaux variables quantitatives et a` rechercher un meilleur
mod`ele a` laide de la procedure logistic en association avec lun des trois algorithmes
de selection.
proc logistic data=sasuser.vispremt;
class (`
a compl
eter)
model carvpr =ager relat opgnbl--dnbjdl/selection=stepwise;
run;

Ainsi, lalgorithme qui proc`ede par elimination retient finalement 14 des 20 variables.
pour un taux de mal classes de 15,4%. Par selection ou pas a` pas, la meme solution
est proposee avec 12 variables pour un taux de 15,6%. Attention, ces taux, calcules sur
lechantillon ayant servi a` estimer les param`etres, sont necessairement trop optimistes.
` moins dutiliser SAS Enterprise Miner, la prise en compte des variables qualitatives
A
necessitent une procedure de choix de mod`ele manuelle. Le module SAS/INSIGHT est
alors le plus efficace pour realiser une approche descendante avant de reestimer le mod`ele
obtenu a` laide de genmod.
proc genmod data=sasuser.vispremt ;
class sexec PRCSP;
make OBSTATS out=outglm;
model carvpr/poids = SEXEC PRCSP OPGNBL MOYRVL BOPPNL
DNBJDL UEMNB XLGNB YLVNB JNTCA NPTAG / obstats d=bin;
run;
/* Estimation du taux de mal class
es */
data prev ;
set outglm (keep=yvar1 pred);
if pred ge 0.5 then predy=1; else predy=0;
proc freq data=prev;
tables yvar1*predy/ nocol norow;
run;

Les resultats semblent alors bien meilleurs mais il faut rester prudent quant a` la
precision de cette estimation du taux derreur. On pourrait enfin sinterroger sur les qualites dun mod`ele considerant toutes les variables qualitatives.
YVAR1(CARVPR)

PREDY

13. Exemples

45
Frequency|
Percent |
0|
1| Total
---------+--------+--------+
0 |
659 |
53 |
712
| 61.65 |
4.96 | 66.60
---------+--------+--------+
1 |
70 |
287 |
357
|
6.55 | 26.85 | 33.40
---------+--------+--------+
Total
729
340
1069
68.19
31.81
100.00

46

Chapitre 2. R
egression lin
eaire

Chapitre 3

Erreur de pr
ediction
1

Introduction

La performance du mod`ele issu dune methode dapprentissage sevalue par sa capacite de prediction dite encore de generalisation. La mesure de cette performance est tr`es
importante puisque, dune part, elle permet doperer une selection de mod`ele dans une
famille associee a` la methode dapprentissage utilisee et, dautre part, elle guide le choix
de la methode en comparant chacun des mod`eles optimises a` letape precedente. Enfin, elle
fournit, tous choix faits, une mesure de la qualite ou encore de la confiance que lon peut
accorder a` la prevision en vue meme, dans un cadre legal, dune certification.
En dehors dune situation experimentale planifiee classique en Statistique, cest-`a-dire
sans le secours de mod`eles probabilistes, cest le cas, par principe, du data mining, trois
types de strategies sont proposes :
un partage de lechantillon (apprentissage, validation, test) afin de distinguer estimation du mod`ele et estimations de lerreur de prediction,
une penalisation de lerreur dajustement par la complexite du mod`ele,
un usage intensif du calcul (computational statistics) par la mise en uvre de simulations.
. Le choix depend de plusieurs facteurs dont la taille de lechantillon initial, la complexite
du mod`ele envisage, la variance de lerreur, la complexite des algorithmes cest-`a-dire le
volume de calcul admissible. Lestimation de lerreur de prediction est donc un element
central de la mise en place de la strategie du data mining telle quelle est decrite dans
lintroduction (cf. chapitre 1 section ).

2
2.1

Erreur de pr
ediction
D
efinition

Soit Y la variable a` predire, X la variable p-dimensionnelle ou lensemble des variables


explicatives, F la loi conjointe de Y et X, z = {(x 1 , y1 ), . . . , (xn , yn )} un echantillon et
Y = (X) +
le mod`ele a` estimer avec E() = 0, Var() = 2 et independant de X ; X, comme chacun
des xi , est de dimension p.
47

48

Chapitre 3. Erreur de pr
ediction
Lerreur de prevision est definie par

o`
u Q est une fonction perte.

b
EP (z, F ) = EF [Q(Y, (X))]

Si Y est quantitative, cette fonction perte est le plus generalement quadratique :


Q(y, yb) = (y yb)2 , mais utilise parfois la valeur absolue : Q(y, yb) = |y yb|. Cette derni`ere
a` lavantage detre plus robuste, car moins sensible aux valeurs extremes, mais necessite
des algorithmes doptimisation plus complexes et pas necessairement a` solution unique.
Si Y est qualitative Q est une indicatrice de mal classe : Q(y, yb) = 1 {y6=yb} .

Dans le cas quantitatif, lestimation du mod`ele par minimisation de E P revient a` une


approximation de la fonction et la solution est lesperance conditionnelle (connaissant
lechantillon) tandis que, dans la cas qualitatif, cest la classe la plus probable designee
par le mode conditionnel qui est predite.

2.2

D
ecomposition

Lerreur de prediction se decompose dans le cas quantitatif 1 . Considerons celle-ci en


un point x0 .
b 0 ))2 | X = x0 ]
EP (x0 ) = EF [(Y (x
b 0 ) (x)]2 + EF [(x
b 0 ) EF (x
b 0 )]2
= 2 + [EF (x
= 2 + Biais2 + Variance.

Tr`es generalement, plus un mod`ele (la famille des fonctions admissibles) est complexe,
plus il est flexible et peu sajuster aux donnees observees et donc plus le biais est reduit. En
revanche, la partie variance augmente avec le nombre de param`etres a` estimer et donc avec
cette complexite. Lenjeu, pour minimiser le risque quadratique ainsi defini, est donc de
rechercher un meilleur compromis entre biais et variance : accepter de biaiser lestimation
comme par exemple en regression ridge pour reduire plus favorablement la variance.

2.3

Estimation

Le premier type destimation a` considerer exprime la qualite dajustement du mod`ele


sur lechantillon observe. Cest justement, dans le cas quantitatif, ce crit`ere qui est minimise
dans la recherche de moindres carres. Ce ne peut etre quune estimation biaisee, car trop
optimiste, de lerreur de prediction ; elle est liee aux donnees qui ont servi a` lajustement
du mod`ele et est dautant plus faible que le mod`ele est complexe. Cette estimation ne
depend que de la partie biais de lerreur de prediction et ne prend pas en compte la
partie variance de la decomposition.
Cette estimation est notee :
n

1X
b i )).
Ec
Q(yi , (x
P =
n
i=1

1
Plusieurs decompositions concurentes ont ete proposees dans le cas qualitatif mais leur explicitation
est moins claire.

3. Estimation avec p
enalisation

49

Cest simplement le taux de mal classes dans le cas qualitatif. Des crit`eres de risque plus
sophistiques sont envisages dans un contexte bayesien si des probabilites a priori sont
connues sur les classes ou encore des co
uts de mauvais classement (cf. chapitre 4).
La facon la plus simple destimer sans biais lerreur de prediction consiste a` calculer
c
EP sur un echantillon independant nayant pas participe a` lestimation du mod`ele. Ceci
necessite donc declater lechantillon en trois parties respectivement appelees apprentissage, validation et test :
z = zAppr zValid zTest .
i. Ec
ee pour estimer un mod`ele,
P (zAppr ) est minimis
ii. Ec
` la comparaison des mod`eles au sein dune meme famille afin de
P (zValid ) sert a
selectionner celui qui minimise cette erreur,
iii. Ec
ee pour comparer entre eux les meilleurs mod`eles de chacune des
P (zTest ) est utilis
methodes considerees.

Cette solution nest acceptable que si la taille de lechantillon initiale est importante sinon :
la qualite dajustement est degradee car n est plus petit,
la variance de lestimation de lerreur peut etre importante et ne peut etre estimee.
Si la taille de lechantillon est insuffisante, le point ii ci-dessus : la selection de mod`ele
est basee sur un autre type destimation de lerreur de prediction faisant appel soit a` une
penalisation soit a` des simulations.

Estimation avec p
enalisation
Lerreur de prediction se decompose en :
EP = Ec
P (zAppr ) + Optim

qui est lestimation par resubstitution ou taux derreur apparent plus le biais par abus
doptimisme. Il sagit donc destimer cette optimisme pour apporter une correction et
ainsi une meilleure estimation de lerreur recherchee. cette correction peut prendre plusieurs formes. Elle est liee a` lestimation de la variance dans la decomposition en biais et
variance de lerreur ou cest encore une penalisation associee a` la complexite du mod`ele.
Les estimateurs definis ci-dessous sont pour la plupart historiquement issus du mod`ele
classique de regression multiple pour lequel il existe de nombreuses references mais ont ete
generalises ou adaptes a` dautres methodes en etendant la notion de nombre de degres de
libertes a` des situations o`
u le nombre de param`etres du mod`ele nest pas explicite.

3.1

Cp , AIC, BIC

Le Cp de Mallows fut, historiquement, le premier crit`ere visant a` une meilleure estimation de lerreur de prediction que la seule consideration de lerreur dajustement (ou le R 2 )
dans le mod`ele lineaire. Son expression est detaillee dans le cas de la regression lineaire
chapitre 2 sous lhypoth`ese que le mod`ele complet a` p variables est le vrai mod`ele. On
montre (cf. Hastie et col. 2001), a` des fins de comparaison quil peut aussi se mettre sous
une forme equivalente :
d 2
Cp = Ec
P +2 s
n

50

Chapitre 3. Erreur de pr
ediction

o`
u d est le nombre de param`etres du mod`eles, n le nombre dobservations, s 2 une estimation de la variance de lerreur par un mod`ele de faible biais. Le crit`ere dinformation
dAkake (AIC) se presente sous une forme similaire mais plus generale. Base sur un
crit`ere de deviance, il sapplique en effet a` tout mod`ele estime par minimisation dune
log-vraisemblance L. Ainsi, dans le cas de la regression logistique
d
AIC = 2L + 2 .
n
Il suppose que la famille de densites considerees pour modeliser la loi de Y contient la
vraie densite. Dans le cas gaussien en supposant la variance connue, moindres carres et
deviance coincident, AIC est equivalent au C p . Il est facile de choisir le mod`ele presentant
le plus faible AIC parmi ceux consideres ce qui revient globalement a` minimiser un crit`ere
de vraisemblance penalisee. Celui-ci nest verifie quasymtotiquement do`
u la motivation
de proposer des crit`eres modifies (AICC) plus adaptes a` de petits echantillons.
Pour les mod`eles non-lineaires ou plus complexes (non-parametriques), le nombre q de
param`etres doit etre remplace par une mesure de complexite p(). Le crit`ere se met alors
sous une forme plus generale :
p() 2
s .
AIC() = Ec
P (xAppr ) + 2
n

b = Hy, incluant les methodes de


Les mod`eles lineaires se mettent sous une forme : y
regularisation (ridge) ou de lissage (spline) o`
u la matrice H depend uniquement des x i .
Dans ce cas, le nombre effectif de param`etres est defini comme la trace de la matrice H :
d(H) = tr(H). Cest encore q, le rang de X cest-`a-dire le nombre vecteurs de base (le
nombre de variables + 1) si H est une matrice de projection orthogonale. Dans dautres
situations (perceptron), ce nombre de param`etres est plus difficile a` controler car il fait
intervenir les valeurs propres dune matrice hessienne.
Une argumentation de type bayesienne conduit a` un autre crit`ere BIC (Bayesian information criterion) qui cherche, approximativement, le mod`ele associe a` la plus grande
probabilite a posteriori dans le cadre de la maximisation dune log-vraisemblance. Il se
met sous la forme :
BIC = L + log(n)d.
On montre, dans le cas gaussien et en supposant la variance connue que BIC est proportionnel a` AIC avec le facteur 2 remplace par log n. Ainsi, d`es que n > e 2 7, 4, BIC tend
a` penaliser plus lourdement les mod`eles complexes. Asymptotiquement, on montre que la
probabilite pour BIC de choisir le bon mod`ele tend vers 1 lorsque n tend vers linfini. Ce
nest pas le cas dAIC qui tend alors a` choisir des mod`eles trop complexes. Neanmoins a`
taille fini, BIC risque de se limiter a` des mod`eles trop simples.

3.2

Dimension de Vapnik-Chernovenkis

(`a completer)

4. Estimation par simulation

51

Estimation par simulation

4.1

Validation crois
ee

La validation croisee est conceptuellement simple, efficace et largement utilisee pour


estimer une erreur moyennant un surplus de calcul. Lidee est diterer lestimation de
lerreur sur plusieurs echantillons de validation puis den calculer la moyenne. Cest rapidement indispensable pour reduire la variance et ameliorer la precision lorsque la taille de
lechantillon initial est trop reduite pour en extraire un echantillon de validation ou test
de taille suffisante.
Algorithme 3.1 : Validation crois
ee
Decouper aleatoirement lechantillon en K parts (K-fold) de tailles approximativement egales selon une loi uniforme ;
repeter K fois loperation qui consiste a
` mettre de c
ote lune des partie, estimer le
mod`ele sur les K 1 parties restantes, calculer lerreur sur chacune des observations
qui nont pas participe a
` lestimation ;
moyenner toutes ces erreurs pour aboutir a
` lestimation par validation croisee.
Plus precisement, soit : {1, . . . , n} 7 {1, . . . , K} la fonction dindexation qui,pour
chaque observation, donne lattribution uniformement aleatoire de sa classe. Lestimation
par validation croisee de lerreur de prediction est :
n

1X
Ed
Q(yi , b( (i)) (xi ))
CV =
n
i=1

o`
u b(k) designe lestimation de sans prendre en compte la ki`eme partie de lechantillon.

Le choix K = 10 est le plus courant, cest souvent celui par defaut des logiciels (Splus).
Historiquement, la validation croisee a ete introduite par Allen avec K = n (delete-one
cross validation). Ce dernier choix nest possible que pour n relativement petit a` cause
du volume des calculs necessaires et lestimation de lerreur presente une variance souvent
importante car chacun des mod`eles estimes est trop similaire au mod`ele estime avec toutes
les observations. En revanche, si K est petit (i.e. K = 5), la variance sera plus faible mais le
biais devient un probl`eme dependant de la facon dont la qualite de lestimation se degrade
avec la taille de lechantillon.
Minimiser lerreur estimee par validation croisee est une approche largement utilisee
pour optimiser le choix dun mod`ele au sein dune famille parametree. b est defini par
b = arg min Ed
CV ().

4.2

Bootstrap

Cette section plus technique decrit des outils encore peu presents dans les logiciels
commerciaux, elle peut etre sautee en premi`ere lecture.
Introduction
Lidee, dapprocher par simulation (Monte Carlo) la distribution dun estimateur lorsque
lon ne connat pas la loi de lechantillon ou, plus souvent, lorsque lon ne peut pas supposer

52

Chapitre 3. Erreur de pr
ediction

quelle est gaussienne, est lobjectif meme du bootstrap (Efron, 1982).


Le principe fondamental de cette technique de reechantillonnage est de substituer, a`
la distribution de probabilite inconnue F , dont est issu lechantillon dapprentissage, la
distribution empirique Fn qui donne un poids 1/n a` chaque realisation. Ainsi on obtient
un echantillon de taille n dit echantillon bootstrap selon la distribution empirique F n par
n tirages aleatoires avec remise parmi les n observations initiales.
Il est facile de construire un grand nombre dechantillons bootstrap (i.e. B = 100)
sur lesquels calculer lestimateur concerne. La loi simulee de cet estimateur est une approximation asymptotiquement convergente sous des hypoth`eses raisonnables 2 de la loi de
lestimateur. Cette approximation fournit ainsi des estimations du biais, de la variance,
donc dun risque quadratique, et meme des intervalles de confiance (avec B beaucoup plus
grand) de lestimateur sans hypoth`ese (normalite) sur la vraie loi. Les grands principes de
cette approche sont rappeles en annexe B.
Estimateur naf
Soit z un echantillon bootstrap des donnees :
z = {(x1 , y1 ), . . . , (xn , yn )}.
Lestimateur plug-in de lerreur de prediction E P (z, F ), pour lequel la distribution F est
remplacee par la distribution empirique Fb (cf. section B1.1) est defini par :
1X
EP (z , Fb) =
nQ(yi , z (xi ))
n
i=1

o`
u z designe lestimation de a` partir de lechantillon bootstrap. Il conduit a` lestimation
bootstrap de lerreur moyenne de prediction E F [EP (z, F )] par
"
#
1X
b
EBoot = EFb [EP (z , F )] = EFb
nQ(yi , z (xi )) .
n
i=1

Cette estimation est approchee par simulation :

B
1 X1X
nQ(yi , zb (xi )).
Ed
=
Boot
B
n
b=1

i=1

Lestimation ainsi construite de lerreur de prediction est generalement biaisee par optimisme car, au gre des simulations, les memes observations (x i , yi ) apparaissent a` la fois
dans lestimation du mod`ele et dans celle de lerreur. Dautres approches visent a` corriger
ce biais.
Estimateur out-of-bag
La premi`ere sinspire simplement de la validation croisee. Elle consid`ere dune part les
observations tirees dans lechantillon bootstrap et, dautre part, celles qui sont laissees de
2

Echantillon independant de meme loi et estimateur independant de lordre des observations.

4. Estimation par simulation

53

cote pour lestimation du mod`ele mais retenue pour lestimation de lerreur.


n
1X 1 X
Q(yi , zb (xi ))
Ed
oob =
n
Bi
i=1

bKi

o`
u Ki est lensemble des indices b des echantillons bootstrap ne contenant pas la i`eme
observation a` lissue des B simulations et B i = |Ki | le nombre de ces echantillons ; B doit
etre suffisamment grand pour que toute observation nait pas ete tiree au moins une fois
ou bien les termes avec Ki = 0 sont supprimes.
Lestimation Ed
esout le probl`eme dun biais optimiste auquel est confrontee Ed
Boot
oob r
mais nechappe pas au biais introduit pas la reduction tel quil est signale pour lestimation
pas validation croisee Ed
CV . Cest ce qui a conduit Efron et Tibshirani (1997) a proposer
des correctifs.
Estimateur .632-bootstrap
La probabilite quune observation soit tiree dans un echantillon bootstrap est
P [xi xb ] = 1 (1

1
1 n
) 1 0, 632.
n
e

Tr`es approximativement, la degradation de lestimation provoquee par le bootstrap et


donc la surevaluation de lerreur sont analogues a` celle de la validation croisee avec K =
` la suite dun raisonnement trop long pour etre reproduit ici, Efron et Tibshirani
2. A
(1997) proposent de compenser exc`es doptimisme du taux apparent derreur et exc`es de
pessimisme du bootstrap out-of-bag par une combinaison :

4.3

Remarques

c
d
Ed
.632 = 0, 368 EP + 0, 632 Eoob .

Toutes les estimations de lerreur de prediction considerees (penalisation, validation


croisee, bootstrap) sont asymptotiquement equivalentes et il nest pas possible de
savoir laquelle concr`etement sera, a` n fini, la plus precise. Une large part darbitraire
ou dexperience preside donc le choix dune estimation plutot quune autre.
Conceptuellement, le bootstrap est plus complique et pratiquement encore peu utilise. Neanmoins, cet outil joue un role central dans les algorithmes recents de combinaison de mod`eles (cf. chapitre 7) en association avec une estimation out-of-bag de
lerreur. Il ne peut etre neglige.
Lestimateur .632-bootstrap pose des probl`emes en situation de sur-ajustement aussi
les memes auteurs ont propose un rectifcatif complementaire note .632+bootstrap.
Ce quil faut retenir en conclusion, cest que lestimation dune erreur de prediction est
une operation delicate aux consequences importantes. Il est donc necessaire
dutiliser le meme estimateur pour comparer lefficacite de deux methodes,
de se montrer tr`es prudent, en dehors de tout syst`eme dhypoth`eses probabilistes,
sur le caract`ere absolu dune estimation dans lobjectif dune certification.
Dans ces deux derni`eres situations, le recours a` un echantillon test de bonne taille est
difficilement contournable alors quen situation de choix de mod`ele au sein dune meme
famille, un estimateur (petit echantillon de validation, validation croisee) plus economique

54

Chapitre 3. Erreur de pr
ediction

est adapte en supposant implicitement que le biais induit est identique dun mod`ele a`
lautre.

Chapitre 4

Analyse Discriminante
D
ecisionnelle
1

Introduction

Lobjet de ce chapitre est lexplication dune variable qualitative Y a` m modalites par


p variables quantitatives X j , j = 1, . . . , p observees sur unmeme echantillon de taille
n. Lobjectif de lanalyse discriminante decisionnelle deborde le simple cadre descriprif de
lanalyse facorielle discriminante (AFD). Disposant dun nouvel individu (ou de plusieurs,
cest la meme chose) sur lequel on a observe les X j mais pas Y , il sagit maintenant de
decider de la modalite T` de Y (ou de la classe correspondante) de ce nouvel individu.
On parle aussi de probl`eme daffectation. LADD sapplique donc egalement a` la situation
precedente de la regression logistique (m = 2) mais aussi lorsque le nombre de classes est
plus grand que 2.
Pour cela, on va definir et etudier dans ce chapitre des r`egles de decision (ou daffectation) et donner ensuite les moyens de les evaluer sur un seul individu ; x = (x 1 , . . . , xp )
designe les observations des variables explicatives sur cet individu, {g ` ; ` = 1, . . . , m} les
barycentres des classes calcules sur lechantillon et x le barycentre global.
La matrice de covariance empirique se decompose en
S = S e + Sr .
o`
u Sr est appelee variance intraclasse (within) ou residuelle :
Sr = Xr 0 DXr =

m X
X

`=1 i`

wi (xi g` )(xi g` )0 ,

et Se la variance interclasse (between) ou expliquee :


0

Se = G DG =

0
X e DX e

m
X
`=1

55

w` (g` x)(g` x)0 .

56

Chapitre 4. Analyse Discriminante D


ecisionnelle

R`
egle de d
ecision issue de lAFD

2.1

Cas g
en
eral : m quelconque

D
efinition 4.1. On affectera lindividu x a
` la modalite de Y minimisant :
d2S1 (x, g` ), ` = 1, . . . , m.
r

Cette distance se decompose en


d2S1 (x, g` ) = kx g` k2S1
= (x g` )0 S1
r (x g` )
r
r

et le probl`eme revient donc a` maximiser


1 0 1
g`0 S1
r x g` Sr g` .
2
Il sagit bien dune r`egle lineaire en x car elle peut secrire : A ` x + b` .

2.2

Cas particulier : m = 2

Dans ce cas, la dimension r de lAFD vaut 1. Il ny a quune seule valeur propre non
nulle 1 , un seul vecteur discriminant v 1 et un seul axe discriminant 1 . Les 2 barycentres
g1 et g2 sont sur 1 , de sorte que v 1 est colineaire a` g1 g2 .
Lapplication de la r`egle de decision permet daffecter x a` T 1 si :
1 0 1
1 0 1
0 1
g10 S1
r x g1 Sr g1 > g 2 Sr x g2 Sr g2
2
2

cest-`a-dire encore si
0 1
(g1 g2 )0 S1
r x > (g1 g2 ) Sr

g1 + g 2
.
2

Remarque
La r`egle de decision liee a` lAFD est simple mais elle est limitee et insuffisante notamment si les variances des classes ne sont pas identiques. De plus, elle ne tient pas compte de
lechantillonnage pour x : tous les groupes nont pas necessairement la meme probabilite
doccurence.

3
3.1

R`
egle de d
ecision bay
esienne
Introduction

Dans cette optique, on consid`ere que la variable Y , qui indique le groupe dappartenance dun individu, prend ses valeurs dans {T 1 , . . . , Tm } et est munie dune loi de
probabilite 1 , . . . , m . Les probabilites ` = P [T` ] representent les probabilites a priori
des classes ou groupes ` . On suppose que les vecteurs x des observations des variables
explicatives suivent, connaissant leur classe, une loi de densite
f` (x) = P [x | T` ]

3. R`
egle de d
ecision bay
esienne

57

par rapport a` une mesure de reference 1 .

3.2

D
efinition

Une r`egle de decision est une application de dans {T 1 , . . . , Tm } qui, a` tout individu,
lui affecte une classe connaissant x. Sa definition depend du contexte de letude et prend
en compte la
connaissance ou non de co
uts de mauvais classement,
connaissance ou non des lois a priori sur les classes,
nature aleatoire ou non de lechantillon.
On designe par c` | k le co
ut du classement dans T` dun individu de Tk . Le risque de Bayes
dune r`egle de decision exprime alors le co
ut moyen :
Z
m
m
X
X
R =
k
c` | k
fk (x)dx
o`
u

3.3

k=1

{x | (x)=T` } fk (x)dx

`=1

{x | (x)=T` }

represente la probabilite daffecte x a` T ` alors quil est dans Tk .

Co
uts inconnus

Lestimation des co
uts nest pas du ressort de la Statistique et, sils ne sont pas connus,
on suppose simplement quils sont tous egaux. La minimisation du risque ou r`egle de Bayes
revient alors a` affecter tout x a` la classe la plus probable cest-`a-dire a` celle qui maximise
la probabilite conditionnelle a posteriori : P [T ` | x]. Par le theor`eme de Bayes, on a :
P [T` ].P [x | T` ]
P [T` et x]
=
P [x]
P [x]
Pm
avec le principe des probabilites totales : P [x] = `=1 P [T` ].P [x | T` ].
P [T` | x] =

Comme P [x] ne depend pas de `, la r`egle consistera a` choisir T ` maximisant


P [T` ].P [x | T` ] = ` .P [x | T` ];

P [x | T` ] est la probabilite dobserver x au sein de la classe T ` . Pour une loi discr`ete, il


sagit dune probabilite du type P [x = x lk | T` ] et dune densite f (x | T` ) pour une loi
continue. Dans tous les cas nous utiliserons la notation f ` (x).
La r`egle de decision secrit finalement sous la forme :
(x) = arg max ` f` (x).
`=1,...,m

3.4

D
etermination des a priori

Les probabilites a priori ` peuvent effectivement etre connues a priori : proportions


de divers groupes dans une population, de diverses maladies. . . ; sinon elles sont estimees
sur lechantillon dapprentissage :
n`

b` = w` =
(si tous les individus ont le meme poids)
n
a` condition quil soit bien un echantillon aleatoire susceptible de fournir des estimations
correctes des frequences. Dans le cas contraire il reste a` considerer tous les ` egaux.
1

La mesure de Lebesgues pour des variables reelles, celle de comptage pour des variables qualitatives

58

Chapitre 4. Analyse Discriminante D


ecisionnelle

3.5

Cas particuliers

Dans le cas o`
u les probabilites a priori sont egales, cest par exemple le cas du
choix de probabilites non informatives, la r`egle de decision bayesienne revient alors
a` maximiser f` (x) qui est la vraisemblance, au sein de T ` , de lobservation x. La r`egle
consiste alors a` choisir la classe pour laquelle cette vraisemblance est maximum.
Dans le cas o`
u m = 2, on affecte x a` T1 si :
f1 (x)
2
>
f2 (x)
1
faisant ainsi apparatre un rapport de vraisemblance. Dautre part, lintroduction de
co
uts de mauvais classement differents selon les classes am`ene a` modifier la valeur
limite 2 /1 .
Finalement, il reste a` estimer les densites conditionnelles f ` (x). Les differentes methodes
destimation considerees conduisent aux methodes classiques de discrimination bayesienne
objets des sections suivantes.

R`
egle bay
esienne avec mod`
ele normal

On suppose dans cette section que, conditionnellement a` T ` , x = (x1 , . . . , xp ) est lobservation dun vecteur aleatoire gaussien N ( ` , ` ) ; ` est un vecteur de IRp et ` une
matrice (p p) symetrique et definie-positive. La densite de la loi, au sein de la classe T ` ,
secrit donc :


1
1
0 1
exp (x ` ) ` (x ` ) .
f` (x) =
2
2(det(` ))1/2
Laffectation de x a` une classe se fait en maximisant ` .f` (x) par rapport a` l soit encore
la quantite :
1
1
ln(` ) ln(det(` )) (x ` )0 1
` (x ` ).
2
2

4.1

H
et
erosc
edasticit
e

Dans le cas general, il ny a pas dhypoth`ese supplementaire sur la loi de x et donc


les matrices ` sont fonction de `. Le crit`ere daffectation est alors quadratique en x. Les
probabilites ` sont supposees connues mais il est necessaire destimer les moyennes `
ainsi que les covariances ` en maximisant, compte tenu de lhypoth`ese de normalite, la
vraisemblance. Ceci conduit a` estimer la moyenne
c` = g`

par la moyenne empirique de x dans la classe l pour lechantillon dapprentissage et `


par la matrice de covariance empirique S Rl :
SRl =

1 X
(xi g` )(xi g` )0
n` 1
i`

pour ce meme echantillon.

5. R`
egle bay
esienne avec estimation non param
etrique

4.2

59

Homosc
edasticit
e

On suppose dans ce cas que les lois de chaque classe partagent la meme structure
de covariance ` = . Supprimant les termes independants de l, le crit`ere a` maximiser
devient
1
0 1
ln(` ) 0` 1
` ` + ` ` x
2
qui est cette fois lineaire en x. Les moyennes ` sont estimees comme precedemment tandis
que est estimee par la matrice de covariance intra empirique :
m

SR =

1 XX
(xi g` )(xi g` )0 .
nm
`=1 i`

Si, de plus, les probabilites ` sont egales, apr`es estimation le crit`ere secrit :
1 0 1
x` 0 S1
R x 2 x` SR x` .
On retrouve alors le crit`ere de la section 2 issu de lAFD.

4.3

Commentaire

Les hypoth`eses : normalite, eventuellement lhomoscedasticite, doivent etre verifiees


par la connaissance a priori du phenom`ene ou par une etude prealable de lechantillon
dapprentissage. Lhypoth`ese dhomoscedasticite, lorquelle est verifiee, permet de reduire
tr`es sensiblement le nombre de param`etres a` estimer et daboutir a` des estimateurs plus
fiables car de variance moins elevee. Dans le cas contraire, lechantillon dapprentissage
doit etre de taille importante.

5
5.1

R`
egle bay
esienne avec estimation non param
etrique
Introduction

En Statistique, on parle destimation non parametrique ou fonctionnelle lorsque le


nombre de param`etres a` estimer est infini. Lobjet statistique a` estimer est alors une
fonction par exemple de regression y = f (x) ou encore une densite de probabilite. Dans
ce cas, au lieu de supposer quon a affaire a` une densite de type connu (normale) dont on
estime les param`etres, on cherche une estimation fb de la fonction de densite f . Pour tout
b
x de IR, f (x) est donc estimee par f(x).

Cette approche tr`es souple a lavantage de ne pas necessiter dhypoth`ese particuli`ere


sur la loi (seulement la regularite de f pour de bonnes proprietes de convergence), en
revanche elle nest applicable quavec des echantillons de grande taille dautant plus que
le nombre de dimensions p est grand (curse of dimensionality).

Dans le cadre de lanalyse discriminante, ces methodes permettent destimer directement les densites f` (x). On consid`ere ici deux approches : la methode du noyau et celle
des k plus proches voisins.

60

Chapitre 4. Analyse Discriminante D


ecisionnelle

5.2

M
ethode du noyau

Estimation de densit
e
Soit y1 , . . . , yn n observations equiponderees dune v.a.r. continue Y de densite f inconnue. Soit K(y) (le noyau) une densite de probabilite unidimensionnelle (sans rapport
avec f ) et h un reel strictement positif. On appelle estimation de f par la methode du
noyau la fonction


n
X
1
y

y
i
b =
f(y)
.
K
nh
h
i=1

Il est immediat de verifier que

b 0
y IR, f(y)

et

b
f(y)dy
= 1;

h est appele largeur de fenetre ou param`etre de lissage ; plus h est grand, plus lestimation
fb de f est reguli`ere. Le noyau K est choisi centre en 0, unimodal et symetrique. Les
cas les plus usuels sont la densite gaussienne, celle uniforme sur [1, 1] ou triangulaire :
K(x) = [1 |x|]1[1,1] (x). La forme du noyau nest pas tr`es determinante sur la qualite
de lestimation contrairement a` la valeur de h.
Application a
` lanalyse discriminante
La methode du noyau est utilisee pour calculer une estimation non parametrique de
chaque densite f` (x) qui sont alors des fonctions definies dans IR p . Le noyau K dont donc
etre choisi multidimensionnel et


X
x

x
1
i

K
.
fb` (x) =
n` hp
h
i`

Un noyau multidimensionnel peut etre defini a` partir de la densite usuelle de lois : multinormale Np (0, p ) ou uniforme sur la sph`ere unite ou encore par produit de noyaux
unidimensionnels :
p
Y
K(xj ).
K (x) =
j=1

5.3

k plus proches voisins

Cette methode daffectation dun vecteur x consiste a` enchaner les etapes decrites
dans lalgorithme ci-dessous.
Algorithme 4.1 : k-nn
Choix dun entier k : 1 k n.
Calculer les distances dM (x, xi ) , i = 1, . . . , n o`
u M est la metrique de Mahalanobis
cest-`
a-dire la matrice inverse de la matrice de variance (ou de variance intra).
Retenir les k observations x(1) , . . . , x(k) pour lesquelles ces distances sont les plus
petites.

6. Exemple

61

Compter les nombres de fois k1 , . . . , km que ces k observations apparaissent dans


chacune des classes.
Estimer les densites par
k`
;
fb` (x) =
kVk (x)
o`
u Vk (x) est le volume de lellipsode {z|(z x) 0 M(z x) = dM (x, x(k) )}.

Pour k = 1, x est affecte a` la classe du plus proche element.


Comme toute technique, celles presentees ci-dessus necessitent le reglage dun param`etre (largeur de fenetre, nombre de voisins consideres). Ce choix sapparente a` un
choix de mod`ele et necessite le meme type dapproche a` savoir loptiomisation dun crit`ere
(erreur de classement, validation croisee (cf. chapitre 3).

Exemple

Une premi`ere etape de traitement des donnees bancaires permet tout dabord de
selectionner par elimination un sous-ensemble des variables a` laide de la procedure stepdisc.
La variable qualitative sexe est consideree comme une variable quantitative (0, 1). Ceci
pourrait, abusif mais frequent en pratique, se generaliser a` dautres variables qualitatives
codees numeriquement. Les variables discriminantes nont plus gu`ere de sens mais, si la
discrimination fonctionne. . .
proc stepdisc data=sasuser.vispremt;
class carvp;
var sexer ager relat opgnbl--dnbjdl;
run;

Les variables ainsi selectionnees sont utilisees dans deux algorithmes de discrimination.
Le premier, non-parametrique, utilise les k plus proches voisins tandis que le deuxi`eme fait
implicitement lhypoth`ese de normalite des distributions. dans les deux cas, une pseudo
procedure de validation croisee permet destimer les taux de mauvais classement. Il ne
sagit en effet pas dune procedure de validation croisee explicite car les matrices de variances sont calculees une fois pour toute et donc dependent des individus a` prevoir.
proc discrim data= sasuser.vispremt
method=npar k=11 crossvalidate;
class CARVP;
var MOYRVL SEXER BOPPNL GAGECL OPGNBL QCREDL
FACANL XLGMTL RELAT HAVEFL GAGEML ENDETL LGAGTL
VIEMTL TAVEPL ITAVCL AGER;
run;
Error Count Estimates for CARVP:
Cnon
Coui
Total
Rate
0.2191
0.2801
0.2496
Priors
0.5000
0.5000
proc discrim data= sasuser.vispremt
method=NORMAL crossvalidate;
class CARVP;
var MOYRVL SEXER BOPPNL GAGECL OPGNBL QCREDL

62

Chapitre 4. Analyse Discriminante D


ecisionnelle

FACANL XLGMTL RELAT HAVEFL GAGEML ENDETL LGAGTL


VIEMTL TAVEPL ITAVCL AGER;
run;
Error Count Estimates for CARVP:
Cnon
Coui
Total
Rate
0.1784
0.2689
0.2236
Priors
0.5000
0.5000

La valeur de k pourrait etre sans doute amelioree mais il semble que dans ce cas,
lapproche parametrique fasse un peu mieux. La comparaison entre regression logistique
et analyse discriminante demande un peu dattention et surtout la constitution prealable
dun echantillon test.

Chapitre 5

Arbres binaires
1

Introduction

Ce chapitre sinteresse aux methodes ayant pour objectif la construction darbres binaires, ou dendogrammes, modelisant une discrimination ou une regression. Complementaires
des methodes statistiques plus classiques : analyse discriminante, regression lineaire, les
solutions obtenues sont presentees sous une forme graphique simple a` interpreter, meme
pour des neophytes, et constituent une aide efficace pour laide a` la decision. Elles sont
basees sur un decoupage, par des hyperplans, de lespace engendre par les variables explicatives. Nommees initialement partitionnement recursif ou segmentation, les developpements
importants de Breiman et col. (1984) les ont fait connatre sous lacronyme de CART :
Classification and Regression Tree ou encore de C4.5 (Quinlan, 1993) dans la communaute informatique. Lacronyme correspond a` deux situations bien distinctes selon que
la variable a` expliquer, modeliser ou prevoir est qualitative (discrimination ou en anglais
classification) ou quantitative (regression).
Ces methodes ne sont efficaces que pour des tailles dechantillons importantes et elles
sont tr`es calculatoires. Les deux raisons : mod`ele graphique de decision simple a` interpreter,
puissance de calcul necessaire, suffisent a` expliquer leur popularite recente. De plus, elles
requi`erent plutot moins dhypoth`eses que des methodes statistiques classiques et semblent
particuli`erement adaptees au cas o`
u les variables explicatives sont nombreuses. En effet,
la procedure de selection des variables est integree a` lalgorithme construisant larbre,
dautre part, les interactions sont prises en compte. Neanmoins, cet algorithme suivant
une strategie pas a` pas hierarchisee, il peut, comme dans le cas du choix de mod`ele
en regression, passer a` cote dun optimum global. Ceci souligne encore limportance de
confronter plusieurs approches sur les memes donnees.

2
2.1

Construction dun arbre binaire


Principe

Les donnees sont constituees de lobservation de p variables quantitatives ou qualitatives explicatives X j et dune variable a` expliquer Y qualitative a` m modalites {T ` ; ` =
1 . . . , m} ou quantitative reelle, observees sur un echantillon de n individus.
63

64

Chapitre 5. Arbres binaires


Revenu < 10000

Sexe=H
Tj



@

Revenu > 10000


@

@
@

@ Sexe=F Age < 50 @ Age > 50


@
@
@
@
@
@
@
@ 

Tj
T`

Fig. 5.1 Exemple elementaire darbre de classification.

La construction dun arbre de discrimination binaire (cf. figure 2.1) consiste a` determiner
une sequence de nuds.
Un nud est defini par le choix conjoint dune variable parmi les explicatives et
dune division qui induit une partition en deux classes. Implicitement, a` chaque
nud correspond donc un sous-ensemble de lechantillon auquel est appliquee une
dichotomie.
Une division est elle-meme definie par une valeur seuil de la variable quantitative
selectionnee ou un partage en deux groupes des modalites si la variable est qualitative.
` la racine ou nud initial correspond lensemble de lechantillon ; la procedure est
A
ensuite iteree sur chacun des sous-ensembles.
Lalgorithme considere necessite :
i. la definition dun crit`ere permettant de selectionner la meilleure division parmi
toutes celles admissibles pour les differentes variables ;
ii. une r`egle permettant de decider quun nud est terminal : il devient ainsi une feuille ;
iii. laffectation de chaque feuille a` lune des classes ou a` une valeur de la variable a`
expliquer.
Le point (ii) est le plus delicat. Il correspond encore a` la recherche dun mod`ele parcimonieux. Un arbre trop detaille, associe a` une surparametrisation, est instable et donc
probablement plus defaillant pour la prevision dautres observations. La contribution majeure de Breiman et col. (1984) est justement une strategie de recherche darbre optimal.
Elle consiste a`
i. construire larbre maximal Amax ,
ii. ordonner les sous-arbres selon une sequence embotee suivant la decroissance dun
crit`ere penalise de deviance ou de taux de mal-classes,
iii. puis a` selectionner le sous-arbre optimal ; cest la procedure delagage.
Tous ces points sont detailles ci-dessous.

3. Crit`
eres dhomog
en
eit
e

2.2

65

Crit`
ere de division

Une division est dite admissible si aucun des deux nuds descendants qui en decoulent
nest vide. Si la variable explicative est qualitative ordinale avec m modalites, elle fournit
(m1) divisions binaires admissibles. Si elle est seulement nominale le nombre de divisions
passe a` 2(m1) 1. Une variable quantitative se ram`ene au cas ordinal.

Le crit`ere de division repose sur la definition dune fonction dheterogeneite ou de


desordre explicitee dans la section suivante. Lobjectif etant de partager les individus en
deux groupes les plus homog`enes au sens de la variable a` expliquer. Lheterogeneite dun
nud se mesure par une fonction non negative qui doit etre
i. nulle si, et seulement si, le nud est homog`ene : tous les individus appartiennent a`
la meme modalite ou prennent la meme valeur de Y .
ii. Maximale lorsque les valeurs de Y sont equiprobables ou tr`es dispersees.

La division du nud k cree deux fils, gauche et droit. Pour simplifier, ils sont notes
(k + 1) et (k + 2) mais une re-numerotation est necessaire pour respecter la sequence de
sous-arbres qui sera decrite dans la section suivante.
Parmi toutes les divisions admissibles du nud k, lalgorithme retient celle qui rend
la somme D(k+1) + D(k+2) des desordres des nuds fils minimales. Ceci revient encore a`
resoudre a` chaque etape k de construction de larbre :
max

{divisions deX j ;j=1,p}

Dk (D(k+1) + D(k+2) )

Graphiquement, la longueur de chaque branche peut etre representee proportionnellement


a` la reduction de lheterogeneite occasionnee par la division.

2.3

R`
egle darr
et

La croissance de larbre sarrete a` un nud donne, qui devient donc terminal ou feuille,
lorsquil est homog`ene cest-`a-dire lorsquil nexiste plus de partition admissible ou, pour
eviter un decoupage inutilement fin, si le nombre dobservations quil contient est inferieur
a` une valeur seuil a` choisir en general entre 1 et 5.

2.4

Affectation

Dans le cas Y quantitative, a` chaque feuille est associee une valeur : la moyenne des
observations associees a` cette feuille. Dans le cas qualitatif, chaque feuille ou nud terminal
est affecte a` une classe T` de Y en considerant le mode conditionnel :
celle la mieux representee dans le nud et il est ensuite facile de compter le nombre
dobjets mal classes ;
la classe a posteriori la plus probable au sens bayesien si des probabilites a priori
sont connues ;
la classe la moins co
uteuse si des co
uts de mauvais classement sont donnes.

Crit`
eres dhomog
en
eit
e
Deux cas sont a` considerer.

66

Chapitre 5. Arbres binaires

3.1

Y quantitative

On consid`ere le cas plus general dune division en J classes.


PJ Soit n individus et une
partition en J classes de tailles nj ; j = 1, . . . , J avec n =
erote i =
j=1 nj . On num
1, . . . , nj les individus de la j`eme classe. Soit ij (resp.yij ) la valeur theorique (resp.
lobservation) de Y sur lindividu (i, j) : le i`eme de la j`eme classe. Lheterogeneite de la
classe j est definie par :
Dj =

nj
X
i=1

(ij .j )

avec

.j =

nj
X

ij .

i=1

Lheterogeneite de la partition est definie par :


D=

J
X

Dj =

j=1

nj
J X
X
j=1 i=1

(ij .j )2 ;

cest linertie intra (homog`ene a` la variance intraclasse) qui vaut D = 0 si et seulement si


ij = .j pour tout i et tout j.
La difference dheterogeneite entre lensemble non partage et lensemble partage selon
la partition J est
=

nj
J X
X
j=1 i=1

J
X
j=1

(ij .. )2

nj
J X
X
j=1 i=1

(ij .j )2 o`
u .. =

nj

1 XX
ij .
n
j=1 i=1

nj (.. .j )2 ;

cest encore homog`ene a` la variance inter classe ou desordre des barycentres qui vaut
= n1 n2 ((.1 .2 )2 pour J = 2 dans le cas qui nous interesse.

Lobjectif, a` chaque etape, est de maximiser cest-`a-dire de trouver la variable induisant une partition en 2 classes associee a` une inertie (variance) intraclasse minimale ou
encore qui rend linertie (la variance) interclasse la plus grande.
Les quantites sont estimees :
cj
par D

Dj
D

b =
par D

Sous hypoth`ese gaussienne :

Yij = .j + uij

nj
X

(yij y.j )2

j=1

cj =
D

i=1

J
X

avec

nj
J X
X
j=1 i=1

(1)
(yij y.j )2 .

+ uij N (0, 2 ),

la log-vraisemblance
J nj
1 XX
n
2
(yij .j )2
log L = Cste log( ) 2
2
2
j=1 i=1

(2)

3. Crit`
eres dhomog
en
eit
e

67

est rendue maximale pour


J nj
n
1 XX
2
L = sup log L = Cste log( ) 2
(yij y.j )2 .
2
2

j=1 i=1

Pour le mod`ele sature (une classe par individu) : y ij = ij + uij , cet optimum devient :
Ls = sup log L = Cste

n
log( 2 ).
2

La deviance (par rapport au mod`ele sature) sexprime alors comme :


b
D = 2 2 (Ls L ) = D.

Le raffinement de larbre est donc associe a` une decroissance, la plus rapide possible, de la
deviance. Cest loptique retenue dans le logiciel Splus. On peut encore dire que la division
retenue est celle qui rend le test de Fisher (analyse de variance), comparant les moyennes
entre les deux classes, le plus significatif possible.

3.2

Y qualitative

Dans ce cas, la fonction dheterogeneite, ou de desordre dun nud, est definie a` partir
de la notion dentropie, du crit`ere de concentration de Gini ou encore dune statistique
de test du 2 . En pratique, il sav`ere que le choix du crit`ere importe moins que celui du
niveau delagage. Le premier crit`ere (entropie) est souvent prefere (Splus) car il sinterpr`ete
encore comme un terme de deviance mais dun mod`ele multinomial cette fois.
On consid`ere une variable a` expliquer qualitative, Y a` m modalites ou categories T
numerotees ` = 1, . . . , m. Larbre induit une partition pour laquelle n +k designe leffectif
de la k`eme classe ou k`eme nud. Soit
p`k = P [T` | k]

avec

m
X

p`k = 1

`=1

la probabilite quun element du k`eme nud appartienne a` la ``eme classe.


Le desordre du k`eme nud, defini a` partir de lentropie, secrit avec la convention
0 log(0) = 0. :
m
X
Dk = 2
n+k p`k log(p`k )
`=1

tandis que lheterogeneite ou desordre de la partition est encore :


D=

K
X
k=1

Dk = 2

m
K X
X

n+k p`k log(p`k ).

k=1 `=1

Cette quantite est positive ou nulle, elle est nulle si et seulement si les probabilites p `k ne
prennent que des valeurs 0 sauf une egale a` 1 correspondant a` labsence de melange.
Designons par n`k leffectif observe de la ``eme classe dans le k`eme nud.
Un nud k
P
de larbre represente un sous-ensemble de lechantillon deffectif n +k = m
n
`=1 `k .

68

Chapitre 5. Arbres binaires


Les quantites sont estimees :
Dk
D

ck = 2
parD
par

b =
D

K
X
k=1

m
X

n+k

`=1

n`k
n`k
log
n+k
n+k

ck = 2
D

K X
m
X

(3)

n`k log

k=1 `=1

n`k
.
n+k

(4)

Considerons, pour chaque classe ou nud k, un mod`ele multinomial a` m categories de


param`etre :
m
X
pk = (p1k , . . . , pmk ), avec
p`k = 1.
`=1

Pour ce mod`ele, la logvraisemblance :

log L = Cste +

m
K X
X

n`k log(p`k )

k=1 `=1

est rendue maximale pour


L = sup log L = Cste +
p`k

K X
m
X

n`k log

k=1 `=1

n`k
.
n+k

Pour le mod`ele sature (une categorie par objet), cet optimum prend la valeur de la
constante et la deviance (par rapport au mod`ele sature) sexprime comme :
D = 2

K X
m
X
k=1 `=1

n`k log

n`k
b
= D.
n+k

Comme pour lanalyse discriminante decisionnelle, les probabilites conditionnelles sont


definies par la r`egle de Bayes lorsque les probabilites a priori ` dappartenance a` la
``eme classe sont connues. Dans le cas contraire, les probabilites de chaque classe sont
estimees sur lechantillon et donc les probabilites conditionnelles sestiment simplement
par des rapports deffectifs : p`k est estimee par n`k /n+k . Enfin, il est toujours possible
dintroduire, lorsquils sont connus, des co
uts de mauvais classement et donc de se ramener
a` la minimisation dun risque bayesien.

Elagage

Dans des situations complexes, la demarche proposee conduit a` des arbres extremement
raffines et donc a` des mod`eles de prevision tr`es instables car fortement dependants des
echantillons qui ont permis leur estimation. On se trouve donc dans une situation de surajustement a` eviter au profit de mod`eles plus parcimonieux donc plus robuste au moment
de la prevision. Cet objectif est obtenu par une procedure delagage (pruning) de larbre.
Le principe de la demarche, introduite par Breiman et col. (1984), consiste a` construire
une suite embotee de sous-arbres de larbre maximum par elagage successif puis a` choisir,
parmi cette suite, larbre optimal au sens dun crit`ere. La solution ainsi obtenue par un
algorithme pas a` pas nest pas necessairement globalement optimale mais lefficacite et la
fiabilite sont preferees a` loptimalite.


4. Elagage

69

Fig. 5.2 Carte Visa : choix du nombre de feuilles par echantillon de validation (SEM,
2001).

Fig. 5.3 Carte Visa : arbre de decision elague suivant lechantillon de validation(SEM,
2001).

70

Chapitre 5. Arbres binaires

Cnon
296/869
moyrvq:M0,M1
moyrvq:M2
Cnon
98/581
pcspq:Pcad,Pint
pcspq:Pemp,Pouv,Psan
Cnon
71/199
dmvtpq:D1
dmvtpq:D0,D2

Cnon
27/382
uemnbq:U0,U1

Coui
Cnon
9/19
8/97
rocnbq:R0
rocnbq:R1

Cnon
Cnon
1/10
19/39
moyrvq:M0
moyrvq:M1
Cnon
3/17

Coui
22/203

Cnon
18/116
dmvtpq:D0
dmvtpq:D1,D2

Coui
31/93
relatq:r0
relatq:R2,r1
Coui
11/54

Cnon
17/85
uemnbq:U2

Coui
Cnon
Cnon
59/127
3/72
9/266
sexeq:Sfem
sexeq:Shom
Cnon
6/34

Coui
90/288
dmvtpq:D1
dmvtpq:D0,D2

Coui
0/9

Coui
6/22

Fig. 5.4 Carte Visa : arbre de decision (Splus, 1993) elague par validation croisee.


4. Elagage

4.1

71

Construction de la s
equence darbres

Pour un arbre A donne, on note K le nombre de feuilles ou nuds terminaux de A ;


la valeur de K exprime la complexite de A. La mesure de qualite de discrimination dun
arbre A sexprime par un crit`ere
D(A) =

K
X

Dk (A)

k=1

o`
u Dk (A) est le nombre de mal classes ou la deviance ou le co
ut de mauvais classement
de la k`eme feuille de larbre A.
La construction de la sequence darbres embotes repose sur une penalisation de la
complexite de larbre :
C(A) = D(A) + K.
Pour = 0, Amax = AK minimise C(A). En faisant crotre , lune des divisions de
AK , celle pour laquelle lamelioration de D est la plus faible (inferieure a` ), apparat
comme superflue et les deux feuilles obtenues sont regroupees (elaguees) dans le nud
p`ere qui devient terminal ; AK devient AK1 .
Le procede est itere pour la construction de la sequence embotee :
Amax = AK AK1 A1
o`
u A1 , le nud racine, regroupe lensemble de lechantillon.
Un graphe represente la decroissance ou eboulis de la deviance (ou du taux de mal
classes) en fonction du nombre croissant de feuilles dans larbre ou, cest equivalent, en
fonction de la valeur decroissante du coefficient de penalisation .

4.2

Recherche de larbre optimal

Les procedures delagage diff`erent par la facon destimer lerreur de prediction. Le


graphe precedemment obtenu peut se lire comme un eboulis de valeur propre. Quand
lamelioration du crit`ere est juge trop petite ou negligeable, on elague larbre au nombre de
feuilles obtenues. Levaluation de la deviance ou du taux de mauvais classement estimee par
resubstitution sur lechantillon dapprentissage est biaisee (trop optimiste). Une estimation
sans biais est obtenue par lutilisation dun autre echantillon (validation) ou encore par
validation croisee. La procedure de validation croisee presente dans ce cas une particularite
car la sequence darbres obtenue est differente pour chaque estimation sur lun des sousechantillons. Lerreur moyenne nest pas, dans ce cas, calculee pour chaque sous-arbre
avec un nombre de feuilles donne mais pour chaque sous-arbre correspondant a` une valeur
` la valeur de minimisant lestimation de lerreur
fixee du coefficient de penalisation. A
de prevision, correspond ensuite larbre juge optimal dans la sequence estimee sur tout
lechantillon dapprentissage.
Le principe de selection dun arbre optimal est donc decrit dans lalgorithme ci-dessous.

Algorithme 5.1 : S
election darbre

72

Chapitre 5. Arbres binaires


Construction de larbre maximal A max .
Construction de la sequence AK . . . A1 darbres embotes.
Estimation sans biais (echantillon de validation ou validation croisee) des deviances
D(AK ), . . . , D(A1 ).
Representation de D(Ak ) en fonction de k ou de .
Choix de k rendant D(Ak ) minimum.

Chapitre 6

M
ethodes connexionistes
1

Historique

Nous nous interessons ici a` une branche de lInformatique fondamentale qui, sous
lappellation dIntelligence Artificielle, a pour objectif de simuler des comportements du
cerveau humain. Les premi`eres tentatives de modelisation du cerveau sont anciennes et
prec`edent meme l`ere informatique. Cest en 1943 que Mc Culloch (neurophysiologiste)
et Pitts (logicien) ont propose les premi`eres notions de neurone formel. Ce concept fut
ensuite mis en reseau avec une couche dentree et une sortie par Rosenblatt en 1959 pour
simuler le fonctionnement retinien et tacher de reconnatre des formes. Cest lorigine du
perceptron. Cette approche dite connexioniste a atteint ses limites technologiques, compte
tenu de la puissance de calcul de lepoque, mais aussi theoriques au debut des annees 70.
Lapproche connexioniste a` connaissance repartie a alors ete supplantee par lapproche
symbolique ou sequentielle qui promouvait les syst`emes experts a` connaissance localisee.
Lobjectif etait alors dautomatiser le principe de lexpertise humaine en associant trois
concepts :
une base de connaissance dans laquelle etaient regroupees toutes les connaissances
dexperts humains sous forme de propositions logiques elementaires ou plus elaborees
en utilisant des quantificateurs (logique du premier ordre).
une base de faits contenant les observations du cas a` traiter comme, par exemple, des
resultats dexamens, danalyses de sang, de salive pour des applications biomedicales
de choix dun antibiotique,
un moteur dinference charge dappliquer les r`egles expertes sur la base de faits afin
den deduire de nouveaux faits jusqu`a la realisation dun objectif comme lelaboration
du traitement dun infection bacterienne.
Face aux difficultes rencontrees lors de la modelisation des connaissances dun expert
humain, au volume considerable des bases de connaissance qui en decoulait et au caract`ere
exponentiel de la complexite des algorithmes dinference mis en jeu, cette approche sest
eteinte avec les annees 80. En effet, pour les syst`emes les plus compliques a` base de calcul
des predicats du premier ordre, on a pu montrer quils conduisaient a` des probl`emes N P
complets et donc dont la solution pouvait etre atteinte mais pas necessairement en un
temps fini !
Lessor technologique et surtout quelques avancees theoriques :
algorithme destimation par retropropagation de lerreur par Hopkins en 1982,
73

74

Chapitre 6. M
ethodes connexionistes

x1
Q
x2 PQs
Q
Pq
P
xj
..

. 3
xp 

| f

-y

Fig. 6.1 Representation dun neurone formel.

analogie de la phase dapprentissage avec les mod`eles markoviens de syst`emes de


particules de la mecanique statistique (verres de spin) par Hopfield en 1982,
au debut des annees 80 ont permis de relancer lapproche connexioniste. Celle-ci a connu
au debut des annees 90 un developpement considerable si lon consid`ere le nombre de
publications et de congr`es qui lui ont ete consacres mais aussi les domaines dapplications
tr`es divers o`
u elle apparat. Sur de nombreux objectifs, justement ceux propres au data
mining, les reseaux neuronaux ne rentrent pas necessairement en concurrence avec des
methodes statistiques bientot centenaires mais apportent un point de vue complementaire
quil est important de considerer (Thiria et col. 1997).

R
eseaux de neurones

Un reseau neuronal est lassociation, en un graphe plus ou moins complexe, dobjets


elementaires, les neurones formels. Les principaux reseaux se distinguent par lorganisation du graphe (en couches, complets. . . ), cest-`a-dire leur architecture, son niveau de
complexite (le nombre de neurones) et par le type des neurones (leurs fonctions de transition).

2.1

Neurone formel

De facon tr`es reductrice, un neurone biologique est une cellule qui se caracterise par
des synapses, les points de connexion avec les autres neurones, fibres nerveuses ou
musculaires ;
des dentrites, les entrees du neurones ;
laxone, la sortie du neurone vers dautres neurones ou fibres musculaires ;
le noyau qui active la sortie en fonction des stimuli en entree.
Par analogie, le neurone formel est un mod`ele qui se caracterise par un etat interne s S,
des signaux dentree x1 , . . . , xp et une fonction de transition detat

p
X
j xj .
s = h(x1 , . . . , xp ) = f 0 +
j=1

La fonction de transition op`ere une transformation dune combinaison affine des signaux
dentree, 0 etant appele le biais du neurone. Cette combinaison affine est determinee par

3. Perceptron multicouche

x1 -

x2 ..
.
xj ..
.
xp -

75

HH
LJ
LJ HH
j
H|f
*

L J 




J
L
@


H
J
@
J HL

HJ
@
J
L H
j
H
R
@|f -y
^
J
*
|f
L 



J
L

..

 J
L
.
HH J

JL
H
j
H
^
JL

H
*
|f






Fig. 6.2 Exemple de perceptron multicouche elementaire avec une couche cachee et une
couche de sortie.

un vecteur de poids [0 , . . . , p ] associe a` chaque neurone et dont les valeurs sont estimees
dans la phase dapprentissage. Ils constituent la memoire ou connaissance repartie du
reseau.
Les differents types de neurones se distinguent par la nature f de leur fonction de
transition. Les principaux types sont :
lineaire f est la fonction identite,
sigmode f (x) = 1/(1 + ex ),
seuil f (x) = 1[0,+[ (x),
stochastiques f (x) = 1 avec la probabilite 1/(1 + e x/H ), 0 sinon (H intervient
comme une temperature dans un algorithme de recuit simule),
...
Les mod`eles lineaires et sigmodaux sont bien adaptes aux algorithmes dapprentissage comme celui de retropropagation du gradient car leur fonction de transition est
differentiable. Ce sont les plus utilises. Le mod`ele a` seuil est sans doute plus conforme
a` la realite biologique mais pose des probl`emes dapprentissage. Enfin le mod`ele stochastique est utilise pour des probl`emes doptimisation globale de fonctions perturbees ou
encore pour les analogies avec les syst`emes de particules. On ne le rencontre pas en data
mining.

3
3.1

Perceptron multicouche
Architecture

Le perceptron multicouche (PMC) est un reseau compose de couches successives. Une


couche est un ensemble de neurones nayant pas de connexion entre eux. Une couche
dentree lit les signaux entrant, un neurone par entree x j , une couche en sortie fournit la
reponse du syst`eme. Selon les auteurs, la couche dentree qui nintroduit aucune modifica-

76

Chapitre 6. M
ethodes connexionistes

tion nest pas comptablisee. Une ou plusieurs couches cachees participent au transfert. Un
neurone dune couche cachee est connecte en entree a` chacun des neurones de la couche
precedente et en sortie a` chaque neurone de la couche suivante.
Un perceptron multicouche realise donc une transformation
y = F (x1 , . . . , xp ; )
o`
u est le vecteur contenant chacun des param`etres jk` de la j`eme entree du k`eme
neurone de la ``eme couche ; la couche dentree (` = 0) nest pas parametree, elle ne fait
que distribuer les entrees sur tous les neurones de la couche suivante.
Par souci de coherence, nous avons tache de conserver les memes notations a` travers
les differents chapitres. Ainsi, les entrees dun reseau sont encore notees x 1 , . . . , xp comme
les variables explicatives dun mod`ele tandis que les poids des entrees sont des param`etres
a` estimer lors de la procedure dapprentissage et que la sortie est la variable a` expliquer
ou cible du mod`ele.

3.2

Apprentissage

Supposons que lon dispose dune base dapprentissage de taille n dobservations (x 1i , . . . , xpi ; yi )
des variables explicatives X 1 , . . . , X p et de la variable a` prevoir Y . Lapprentissage est lesb des param`etres du mod`ele solutions du probl`eme des moindres carres 1 :
timation
n

b = arg min Q(b)

avec

Q(b) =

1X
[yi F (x1i , . . . , xpi ; (b))]2 .
n
i=1

Lalgorithme doptimisation le plus utilise est celui de retropropagation du gradient base


sur lidee suivante : en tout point b, le vecteur gradient de Q pointe dans la direction de
lerreur croissante. Pour faire decrotre Q il suffit donc de se deplacer en sens contraire. Il
sagit dun algorithme iteratif modifiant les poids de chaque neurone selon :
bjk` (i) = bjk` (i 1) + bjk`(i)
o`
u la correction bjk`(i) est proportionnelle au gradient et a` lerreur attribuee a` lentree
concernee jk` (i) et incorpore un terme dinertie b jk` (i 1) permettant damortir les
oscillations du syst`eme :
bjk` (i) = jk` (i)

Q
+ bjk` (i 1).
bjk`

Le coefficient de proportionnalite est appele le taux dapprentissage. Il peut etre fixe


a` determiner par lutilisateur ou encore varier en cours dexecution selon certaines r`egles
parametrees par lutilisateur. Il parat en effet intuitivement raisonnable que, grand au
debut pour aller plus vite, ce taux decroisse pour aboutir a` un reglage plus fin au fur
et a` mesure que le syst`eme sapproche dune solution. La formule de retropropagation
de lerreur fournit, a` partir des erreurs observees sur les sorties, lexpression de lerreur
attribuee a` chaque entree de la couche de sortie a` la couche dentree.
La litterature sur le sujet propose quantites de recettes destinees a` ameliorer la vitesse de convergence de lalgorithme ou bien lui eviter de rester colle a` une solution locale
1

Equivalent a
` une maximisation de la vraisemblance dans le cas gaussien.

3. Perceptron multicouche

77

defavorable. Des proprietes (dynamique markovienne ergodique et convergence vers la


mesure stationnaire) de cet algorithme impliquent une convergence presque s
ure ; la probabilite datteindre une precision fixee a priori tend vers 1 lorsque la taille de lechantillon
dapprentissage tend vers linfini.
Algorithme 6.1 : R
etropropagation du gradient
Initialisation
Les poids bjk` par tirage aleatoire selon une loi uniforme sur [0, 1].
Normaliser dans [0, 1] les donnees dapprentissage.
Tant que Q > errmax ou niter<itermax.
Ranger la base dapprentissage dans un nouvel ordre aleatoire.
Pour chaque element i = 1, . . . , n de la base Faire
Calculer (i) = yi F (x1i , . . . , xpi ; (b)(i 1)) en propageant les entrees vers
lavant.
Lerreur est retropropagee dans les differentes couches afin daffecter a
` chaque
entree une responsabilite dans lerreur globale.
Mise a
` jour de chaque poids bjk`(i) = bjk` (i i) + bjk` (i)
Fin Pour
Fin Tant que

3.3

Utilisation

On pourra se reporter a` labondante litterature sur le sujet (Haykin, 1994) pour obtenir des precisions sur les algorithme dapprentissage et leurs nombreuses variantes. Il est
important de rappeler la liste des choix qui sont laisses a` lutilisateur. En effet, meme si
les logiciels proposent des valeurs par defaut, il est frequent que cet algorithme connaisse
quelques soucis de convergence.
Lutilisateur doit donc determiner
i. les variables dentree et la variable de sortie ; leur faire subir comme pour toutes
methodes statistiques, deventuelles transformations.
ii. Larchitecture du reseau : le nombre de couches cachees (en general une ou deux)
qui correspond a` une aptitude a` traiter des probl`emes de non-linearite, le nombre de
neurones par couche cachee. Ces deux choix conditionnent directement le nombre de
param`etres (de poids) a` estimer. Ils participent a` la recherche dun bon compromis
biais/variance cest-`a-dire a` lequilibre entre qualite dapprentissage et qualite de
` la louche, on consid`ere en pratique quil faut un echantillon dapprenprevision. A
tissage au moins dix fois plus grand que le nombre de param`etres a` estimer.
iii. Deux autres param`etres interviennent egalement sur ce compromis : le nombre maximum diterations et lerreur maximum toleree. En renforcant ces crit`eres on ameliore
la qualite de lapprentissage ce qui peut se faire au detriment de celle de la prevision.
iv. Le taux dapprentissage ainsi quune eventuelle strategie devolution de celui-ci.
Le nombre de couches reste restreint. On montre en effet que toute fonction que toute
fonction continue dun compact de IR P dans IRq peut etre approchee avec une precision
arbitraire par un reseau a` une couche cachee en adaptant le nombre de neurones. La
complexite du mod`ele est controlee par le nombre de neurones ou encore par la duree de

78

Chapitre 6. M
ethodes connexionistes

lapprentissage. Ces param`etres sont optimises en considerant un echantillon de validation


et le plus simple consiste a` arrete lapprentissage lorsque lerreur sur lechantillon de validation commence a` se degrader tandis que celle sur lechantillon dapprentissage ne peut
que continuer a` decrotre.
Les champs dapplication des PMC sont tr`es nombreux : discrimination, prevision
dune serie temporelle, reconnaissance de forme. . . Ils sont en general bien explicites dans
les documentations des logiciels specialises.
Les critiques principales enoncees a` lencontre du PMC concernent les difficultes lies
a` lapprentissage (temps de calcul, taille de lechantillon, localite de loptimum obtenu)
ainsi que son statut de bote noir. En effet, contrairement a` un mod`ele de discrimination
ou un arbre, il est a priori impossible de connatre linfluence effective dune entree (une
variable) sur le syst`eme d`es quune couche cachee intervient. Neanmoins, des techniques
de recherche de sensibilite du syst`eme a` chacune des entrees permettent de preciser les
idees et, eventuellement de simplifier le syst`eme en supprimant certaines des entrees.
En revanche, ils poss`edent dindeniables qualites lorsque labsence de linearite et/ou
le nombre de variables explicatives rendent les mod`eles statistiques traditionnelles inutilisables. Leur flexibilite alliee a` une procedure dapprentissage integrant la ponderation (le
choix) des variables comme de leurs interactions peuvent les rendre tr`es efficaces (Besse
et col. 2001).

Chapitre 7

Agr
egation de mod`
eles
1

Introduction

Ce chapitre decrit des algorithmes plus recemment apparus dans la litterature. Ils
sont bases sur des strategies adaptatives (boosting) ou aleatoires (bagging) permettant
dameliorer lajustement par une combinaison ou agregation dun grand nombre de mod`eles
tout en evitant un sur-ajustement. Ces algorithmes se sont developpes a` la fronti`ere entre
apprentissage machine (machine learning) et Statistique. De nombreux articles comparatifs
montrent leur efficacite sur des exemples de donnees simulees et surtout pour des probl`emes
reels complexes (voir par exemple Ghattas 2000) tandis que leurs proprietes theoriques
sont un th`eme de recherche actif.
Deux types dalgorithmes sont decrits schematiquement dans ce chapitre. Ceux reposants sur une construction aleatoires dune famille de mod`ele : bagging pour bootstrap
aggregating (Breiman 1996), les forets aleatoires (random forests) de Breiman (2001) qui
propose une amelioration du bagging specifique aux mod`eles definis par des arbres binaires (CART). Ceux bases sur le boosting (Freund et Shapiro,1996), reposent sur une
construction adaptative, deterministe ou aleatoire, dune famille de mod`eles.
Les principes du bagging ou du boosting sappliquent a` toute methode de modelisation
(regression, CART, reseaux de neurones) mais nont dinteret, et reduisent sensiblement
lerreur de prediction, que dans le cas de mod`eles instables, donc plutot non lineaires.
Ainsi, lutilisation de ces algorithmes na gu`ere de sens avec la regression multilineaire
ou lanalyse discriminante. Ils sont surtout mises en uvre en association avec des arbres
binaires comme mod`eles de base.

2
2.1

Famille de mod`
eles al
eatoires
Bagging

Principe et algorithme
Soit Y une variable a` expliquer quantitative ou qualitative, X 1 , . . . , X p les variables
explicatives et (x) un mod`ele fonction de x = {x 1 , . . . , xp } IRp . On note n le nombre
79

80

Chapitre 7. Agr
egation de mod`
eles

dobservations et
z = {(x1 , y1 ), . . . , (xn , yn )}
un echantillon de loi F .
Lesperance (.) = EF (bz ) de lestimateur definie sur lechantillon z, est un estimateur
sans biais de variance nulle. Considerons B echantillons independants notes {z b }b=1,B et
construisons une agregation desPmod`eles dans le cas o`
u la variable a` expliquer Y est :
B b
1
b
quantitative : B (.) = B b=1 zb (.),
n
o
qualitative : bB (.) = arg maxj card b | bz (.) = j .
b

Dans le premier cas, il sagit dune simple moyenne des resultats obtenus pour les mod`eles
associes a` chaque echantillon, dans le deuxi`eme, un comite de mod`eles est constitue pour
voter et elire la reponse la plus probable. Dans ce dernier cas, si le mod`ele retourne des
probabilites associees a` chaque modalite comme en regression logistique ou avec les arbres
de decision, il est aussi simple de calculer des moyennes de ces probabilites.

Le principe est elementaire, moyenner les predictions de plusieurs mod`eles independants


permet de reduire la variance et donc de reduire lerreur de prediction.
Cependant, il nest pas realiste de considerer B echantillons independants. Cela necessiterait
generalement trop de donnees. Ces echantillons sont donc remplaces par B replications
dechantillons bootstrap (cf. Annexe B) obtenus chacun par n tirages avec remise selon la
mesure empirique Fb. Ceci conduit a` lalgorithme ci-dessous.
Algorithme 7.1 : Bagging

Soit x0 a
` prevoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un echantillon
Pour b = 1 a
` B Faire
Tirer un echantillon bootstrap z b .
Estimer bzb (x0 ) sur lechantillon bootstrap.
Fin Pour
P
b
esultat du vote.
Calculer lestimation moyenne bB (x0 ) = B1 B
b=1 zb (x0 ) ou le r
Utilisation
Il est naturel et techniquement facile daccompagner ce calcul par une estimation bootstrap out-of-bag (cf. chapitre 3 section 4.2) de lerreur de prediction. Elle est une mesure de
la qualite de generalisation du mod`ele et permet de prevenir une eventuelle tendance au
surajustement. Cest, pour eviter un biais, la moyenne des erreurs de prediction commises
par chaque estimateur ; chacune des erreurs etant estimee sur les observations qui nont
pas ete selectionnees par lechantillon bootstrap correspondant.
En pratique, CART est souvent utilisee comme methode de base pour construire une
famille de mod`eles cest-`a-dire darbres binaires. Trois strategies delagage sont alors possibles :
i. laisser construire et garder un arbre complet pour chacun des echantillons,
ii. construire un arbre dau plus q feuilles,
iii. construire a` chaque fois larbre complet puis lelaguer par validation croisee.

2. Famille de mod`
eles al
eatoires

81

La premi`ere strategie semble en pratique un bon compromis entre volume des calculs
et qualite de prediction. Chaque arbre est alors affecte dun faible biais et dune grande
variance mais la moyenne des arbres reduit avantageusement celle-ci. En revanche, lelagage
par validation croisee penalise lourdement les calculs sans gain substantiel de qualite.
Cet algorithme a lavantage de la simplicite, il sadapte et se programme facilement
quelque soit la methode de modelisation mise en uvre. Il pose neanmoins quelques
probl`emes :
temps de calcul important pour evaluer un nombre suffisant darbres jusqu`a ce que
lerreur de prediction out-of-bag ou sur un echantillon validation se stabilise et arret
si elle tend a` augmenter ;
necessiter de stocker tous les mod`eles de la combinaison afin de pouvoir utiliser cet
outil de prediction sur dautres donnees,
lamelioration de la qualite de prediction se fait au detriment de linterpretabilite. Le
mod`ele finalement obtenu devient une bote noire comme dans le cas du perceptron.

2.2

For
ets al
eatoires

Algorithme
Dans les cas specifique des mod`eles CART (arbres binaires), Breiman (2001) propose une amelioration du bagging par lajout dune randomisation. Lobjectif est donc
de rendre plus independants les arbres de lagregation en ajoutant du hasard dans le
choix des variables qui interviennent dans les mod`eles. Cette approche semble plus particuli`erement fructueuse dans des situations hautement multidimensionnelles, cest-`a-dire
lorsque le nombre de variables explicatives p est tr`es important. Cest le cas lorsquil sagit,
par exemple, de discriminer des courbes, spectres, signaux, biopuces.
Algorithme 7.2 : For
ets al
eatoires
Soit x0 a
` prevoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un echantillon
Pour b = 1 a
` B Faire
Tirer un echantillon bootstrap z b
Estimer un arbre sur cet echantillon avec randomisation des variables selon lune
des deux options :
i. Si le nombre de variables explicatives est important, la recherche de chaque
nud optimal est precede dun tirage aleatoire dun sous-ensemble de q predicteurs.
ii. Sinon, tirer au hasard q1 3 variables explicatives puis construire q 2 predicteurs
par combinaisons lineaires avec des coefficients obtenus par tirages aleatoires
uniformes sur [0, 1].
Fin Pour
P
b
esultat du vote.
Calculer lestimation moyenne bB (x0 ) = B1 B
b=1 zb (x0 ) ou le r

Elagage
La strategie delagage peut, dans le cas des forets aleatoires, etre plus elementaire
quavec le bagging en se limitant a` des arbres de taille q relativement reduite voire meme tri-

82

Chapitre 7. Agr
egation de mod`
eles

viale avec q = 2 (stump). En effet, avec le seul bagging, des arbres limites a` une seule fourche
risquent detre tr`es semblables (fortement correles) car impliquant les memes quelques variables apparaissant comme les plus explicatives. La selection aleatoire dun nombre reduit
de predicteurs potentiels a` chaque etape de construction dun arbre, accrot significativement la variabilite en mettant en avant necessairement dautres variables. Chaque mod`ele
de base est evidemment moins performant mais, lunion faisant la force, lagregation
conduit finalement a` de bons resultats. Le nombre de variables tirees aleatoirement nest

pas un param`etre sensible un choix par defaut de q = p est suggere par Breiman (2001).
Comme pour le bagging, levaluation iterative de lerreur out-of-bag previent dun eventuel
surajustement si celle-ci vient a` se degrader.
Linterpretation est ensuite facilitee par le calcul et la representation graphique dun
indice proportionnel a` limportance de chaque variable dans lagregation de mod`eles et
donc de sa participation a` la regression ou a` la discrimination. Cest evidemment dautant plus utile que les variables sont tr`es nombreuses. Plusieurs crit`eres sont proposes par
Breiman (2001) pour evaluer limportance de la j`eme variable. Ils reposent sur une permutation aleatoire des valeurs de cette variable. Lun de ces crit`eres consiste a` calculer la
moyenne sur toutes les observations de la decroissance de leur marge lorsque la variable
est aleatoirement perturbee. La marge est ici la proportion de votes pour la vraie classe
dune observation moins le maximum des proportions des votes pour les autres classes.

Famille de mod`
eles adaptatifs

3.1

Principes du Boosting

Le boosting diff`ere des approches precedentes par ses origines et ses principes. Lidee
initiale, en apprentissage machine, etait dameliorer les competences dun faible classifieur cest-`a-dire celle dun mod`ele de discrimination dont la probabilite de succ`es sur la
prediction dune variable qualitative est leg`erement superieure a` celle dun choix aleatoire.
Lidee originale de Schapire (1990) a ete affinee par Freund et Schapire (1996) qui ont decrit
lalgorithme original AdaBoost (Adaptative boosting) pour la prediction dune variable binaire. De nombreuses etudes ont ensuite ete publiees pour adapter cet algorithme a` dautres
situations : k classes, regression et rendre dompte de ses performances sur differents jeux
de donnees (cf. Schapire, 2002) pour une bibliographie). Ces tests ont montre le reel interet
pratique de ce type dalgorithme pour reduire sensiblement la variance (comme le bagging)
mais aussi le biais de prediction comparativement a` dautres approches. Cet algorithme
est meme considere comme la meilleure methode off-the-shelf cest-`a-dire ne necessitant
pas un long pretraitement des donnees ni un reglage fin de param`etres lors de la procedure
dapprentissage.
Le boosting adopte le meme principe general que le bagging : construction dune famille
de mod`eles qui sont ensuite agreges par une moyenne pondere des estimations ou un vote.
Il diff`ere nettement sur la facon de construire la famille qui est dans ce cas recurrente :
chaque mod`ele est une version adaptative du precedent en donnant plus de poids, lors de
lestimation suivante, aux observations mal ajustees ou mal predites. Intuitivement, cet
algorithme concentre donc ses efforts sur les observations les plus difficiles a` ajuster tandis
que lagregation de lensemble des mod`eles permet dechapper au sur-ajustement.
Les algorithmes de boosting proposes diff`erent par differentes caracteristiques :

3. Famille de mod`
eles adaptatifs

83

la facon de ponderer cest-`a-dire de renforcer limportance des observations mal


estimees lors de literation precedente,
leur objectif selon le type de la variable a` predire Y : binaire, qualitative a` k clases,
reelles ;
la fonction perte, qui peut etre choisie plus ou moins robuste aux valeurs atypiques,
pour mesurer lerreur dajustement ;
la facon dagreger, ou plutot ponderer, les mod`eles de base successifs.
La litterature sur le sujet presente donc de tr`es nombreuses versions de cet algorithme et
il est encore difficile de dire lesquelles sont les plus efficaces et si une telle diversite est
bien necessaire. Il serait fastidieux de vouloir expliciter toutes les versions, ce chapitre en
propose un choix arbitraire.

3.2

Algorithme de base

Decrivons la version originale du boosting pour un probl`eme de discrimination elementaire


a` deux classes en notant la fonction de discrimination a` valeurs dans {1, 1}. Dans cette
version, le mod`ele de base retourne lidentite dune classe, il est encore nomme Adaboost
discret. Il est facile de ladapter a` des mod`eles retournant une valeur reelle comme une
probabilite dappartenance a` une classe.
Algorithme 7.3 : AdaBoost (adaptative boosting)

Soit x0 a
` prevoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un echantillon
Initialiser les poids w = {wi = 1/n ; i = 1, . . . , n}.
Pour m = 1 a
` M Faire
Estimer m sur lechantillon pondere par w.
Calculer le taux derreur apparent :
Pn
wi 1{m (xi ) 6= yi }
Ebp = i=1 Pn
i=1 wi
.
Calculer les logit : cm = log((1 Ebp )/Ebp ).
Calculer les nouvelles ponderations : w i wi . exp [cm 1{m (xi ) 6= yi }] ; i = 1, . . . , n.
Fin Pour
hP
i
M
Resultat du vote : bM (x0 ) = signe
m=1 cm m (x0 ) .

Les poids de chaque observations sont initialises a` 1/n pour lestimation du premier
mod`ele puis evoluent a` chaque iteration donc pour chaque nouvelle estimation. Limportance dune observation wi est inchangee si elle est bien classee, elle crot sinon proportionnellement au defaut dajustement du mod`ele. Lagregation finale des previsions :
P
M
eree par les qualites dajustement de chaque
m=1 cm m (x0 ) est une combinaison pond
mod`ele. Sa valeur absolue appelee marge est proportionnelle a` la confiance que lon peut
attribuer a` son signe qui fournit le resultat de la prevision.
Ce type dalgorithme est largement utilise avec un arbre (CART) comme mod`ele de
base. De nombreux applications montrent que si le classifieur faible est un arbre trivial
a` deux feuilles (stump), AdaBoost fait mieux quun arbre sophistique pour un volume de
calcul comparable : autant de feuilles dans larbre que diterations dans AdaBoost. Hastie

84

Chapitre 7. Agr
egation de mod`
eles

et col. (2001) discutent la meilleure strategie delagage applicable a` chaque mod`ele de


base. Ils le comparent avec le niveau dinteraction requis dans un mod`ele danalyse de
variance. Le cas q = 2 correspondant a` la seule prise en compte des effets principaux.
Empiriquement ils recommandent une valeur comprise entre 4 et 8.

3.3

Version al
eatoire

` la suite de Freund et Schapire (1996), Breiman (1998) developpe aussi, sous le


A
nom dArcing (adaptively resample and combine), une version aleatoire, et en pratique
tr`es proche, du boosting. Elle sadapte a` des classifieurs pour lesquels il est difficile voire
impossible dintegrer une ponderation des observations dans lestimation. Ainsi plutot que
de jouer sur les ponderations, a` chaque iteration, un nouvel echantillon est tire avec remise,
comme pour le bootstrap, mais selon des probabilites inversement proportionnelles a` la
qualite dajustement de literation precedente. La presence des observations difficiles a`
ajuster est ainsi renforcee pour que le mod`ele y consacre plus dattention. Lalgorithme
adaboost precedent est facile a` adapter en ce sens en regardant celui developpe ci-dessous
pour la regression et qui adopte ce point de vue.

3.4

Pour la r
egression

Differentes adaptations du boosting ont ete proposees pour le cas de la regression,


cest-`a-dire lorsque la variable a` predire est quantitative. Voici lalgorithme de Drucker
(1997) dans la presentation de Gey et Poggi (2002) qui en etudient les performances
empiriques en relation avec CART. Freund et Schapire (1996) ont propose Adaboost.R
avec le meme objectif tandis que le point de vue de Friedman (2002) est decrit plus loin
dans lalgorithme 7.5.
Algorithme 7.4 : Boosting pour la r
egression

Soit x0 a
` prevoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un echantillon
Initialiser p par la distribution uniforme p = {p i = 1/n ; i = 1, . . . , n}.
Pour m = 1 a
` M Faire
Tirer avec remise dans z un echantillon z m suivant p.
Estimer bm sur lechantillon zm .
Calculer a
` partir de lechantillon initial z :


lm (i) = Q yi , bm (xi )
i = 1, . . . , n; (Q : fonction perte)
Ec
m =

n
X

pi lm (i);

i=1

wi = g(lm (i))pi .

(g continue non decroissante)

Calculer les nouvelles probabilites : p i


Fin Pour

Pnwi

i=1

wi

b 0 ) moyenne ou mediane des previsions bm (x0 ) ponderees par des coef Calculer (x
ficients log( 1m ).

3. Famille de mod`
eles adaptatifs

85

Precisions :
Dans cet algorithme la fonction perte Q peut etre exponentielle, quadratique ou,
plus robuste, la valeur absolue. Le choix usuel de la fonction quadratique est retenu
par Gey et Poggi (2002).
Notons Lm = supi=1,...,n lm (i) le maximum de lerreur observee par le mod`ele bm
sur lechantillon initial. La fonction g est definie par :
1lm (i)/Lm
g(lm (i)) = m
Ec
m
avec m =
.
Lm Ec
m

(1)

(2)

Selon les auteurs, une condition supplementaire est ajoutee a` lalgorithme. Il est
arrete ou reinitiallise a` des poids uniformes si lerreur se degrade trop : si Ec
m < 0.5Lm .
Lalgorithme gen`ere M predicteurs construits sur des echantillons bootstrap z m dont
le tirage depend de probabilites p mises a` jour a` chaque iteration. Cette mise a` jour est
fonction dun param`etre m qui est un indicateur de la performance, sur lechantillon z, du
mi`eme predicteur estime sur lechantillon z m . La mise a` jour des probabilites depend donc
a` la fois de cet indicateur global m et de la qualite relative lm (i)/Lm de lestimation du
i`eme individu. Lestimation finale est enfin obtenue a` la suite dune moyenne ou mediane
des previsions ponderees par la qualite respective de chacune de ces previsions. Gey et
Poggi (2002) conseille la mediane afin de saffranchir de linfluence de predicteurs tr`es
atypiques.

3.5

Mod`
ele additif pas `
a pas

Hastie et col. (2001) expliquent le bon comportement du boosting dans le cas binaire
en le presentant sous la forme dune approximation de la fonction par un mod`ele additif
construit pas a` pas :
M
X
b
cm (x; m )
(x)
=
m=1

est cette combinaison o`


u cm est un param`etre, le classifieur (faible) de base fonction de
x et dependant dun param`etre m . Si Q est une fonction perte, il sagit, a` chaque etape,
de resoudre :
n
X
(cm , m ) = arg min
Q(yi , bm1 (xi ) + c(xi ; ));
(c,)

i=1

bm (x) = bm1 (x) + cm (x; m ) est alors une amelioration de lajustement precedent.

Dans le cas dadaboost pour lajustement dune fonction binaire, la fonction perte
utilisee est Q(y, (x)) = exp[y(x)]. il sagit donc de resoudre :
(cm , m ) = arg min
(c,)

= arg min
(c,)

avec

n
X

i=1
n
X

i
h
exp yi bm1 (xi ) + c(xi ; ) ;
wim exp [cyi (xi ; )]

i=1

wi = exp[yi bm1 (xi )];

86

Chapitre 7. Agr
egation de mod`
eles

wi ne dependant ni de c ni de , il joue le role dun poids fonction de la qualite de lajustement precedent. Quelques developpements complementaires montrent que la solution du
probl`eme de minimisation est obtenue en deux etapes : recherche du classifieur optimal
puis optimisation du param`etre .
m = arg min

n
X
i=1

1{yi 6= (xi ; )},

1 Ebp
1
log
2
Ep

cm =

avec Ebp erreur apparente de prediction tandis que les w i sont mis a` jour avec :
(m)

wi

(m1)

= wi

exp[cm ].

On montre ainsi quadaboost approche pas a` pas par un mod`ele additif en utilisant une
fonction perte exponentielle.
Dautres fonctions perte sont envisageables pour, en particulier, un algorithme plus
robuste face a` un echantillon dapprentissage presentant des erreurs de classement dans
le cas de la discrimination ou encore des valeurs atypiques (outliers) dans le cas de la
regression. Hastie et col. (2001) comparent les interets respectifs de plusieurs fonctions
pertes. Celles jugees robustes (entropie en discrimination, valeur absolue en regression)
conduisent a` des algorithmes plus compliques a` mettre en uvre.

3.6

R
egression et boosting

Dans le meme esprit dapproximation adaptative, Friedman (2002) propose sous lacronyme MART (multiple additive regression trees) un algorithme base sur des arbres de
regression pour traite le cas quantitatif en supposant la fonction perte seulement differentiable.
Le principe de base est le meme que pour Adaboost, construire une sequence de mod`eles
de sorte que chaque etape, chaque mod`ele ajoute a` la combinaison, apparaisse comme un
pas vers une meilleure solution. Ce pas est franchi dans la direction du gradient, approche
par un arbre de regression, de la fonction perte.
Algorithme 7.5 : MART (Multiple additive regression trees)
Soit x0 a
` prevoir
P
Initialiser b0 = arg min ni=1 Q(yi , )
Pour m = 1 a
` M Faire
i
h
i ,(xi ))
,
Calculer ri m = Q(y
(xi )
=m1

Ajuster un arbre de regression aux r m i donnant les feuilles ou regions terminales


Rjm ; j = 1, . . . , Jm .
Pour m = 1 a
` M Faire P
Calculer jm = arg min xi Rjm Q(yi , bm1 + ).
Fin Pour
P m
jm 1{x Rjm }.
Mise a
` jour : bm (x) = bm (x) Jj=1
Fin Pour
Resultat : bM (x0 ).

3. Famille de mod`
eles adaptatifs

87

Lalgorithme est initialise par un terme constant cest-`a-dire encore un arbre a` une
feuille. Les expressions du gradient reviennent simplement a` calculer les residus r mj du
mod`ele a` letape precedente. Les termes correctifs jm sont ensuite optimises pour chacune
des regions Rjm definies par larbre de regression ajustant les residus. Un algorithme de
discrimination est similaire calculant autant de probabilites que de classes a` prevoir.

3.7

Compl
ements

De nombreuses adaptations ont ete proposees a` partir de lalgorithme initial. Elles font
intervenir differentes fonctions pertes offrant des proprietes de robustesse ou adaptees a`
une variable cible Y quantitative ou qualitative a` plusieurs classes : Adaboost M1, M2, MH
ou encore MR. Schapire (2002) liste une bibliographie detaillee.
Sur-ajustement
Dans le dernier algorithme, le nombre diterations peut etre controle par un echantillon
de validation. Comme pour dautres methodes (perceptron), il suffit darreter la procedure
lorsque lerreur estimee sur cet echantillon arrive a` se degrader. Une autre possibilite
consiste a` ajouter un coefficient de retrecissement (shrinkage comme en regression ridge).
Compris entre 0 et 1, celui-ci penalise lajout dun nouveau mod`ele dans lagregation. Il
joue le role dun taux dapprentissage du percepton) et, si sa valeur est petite (< 0, 1)
cela conduit a` accrotre le nombre darbres mais entrane des ameliorations sensibles de la
qualite de prediction.
Interpr
etation
Linterpretabilite des arbres de decision sont une des raisons de leur succ`es. Leur
lecture ne necessite pas de competences particuli`eres en statistique. Cette propriete est
evidemment perdue par lagregation darbres ou de tout autre mod`ele. Neanmoins, surtout si le nombre de variables est tr`es grand, il est important davoir une indication de
limportance relative des variables entrant dans la modelisation.
Un crit`ere est calcule pour chaque variable j a` partir des valeurs D j2 (l, m), calculees
pour chaque nud l de chaque arbre m. Cette quantite est la decroissance optimale de
deviance produite par la segmentation associee a` ce nud par le choix de la variable j. Ces
valeurs sont sommees par arbre sur lensemble des nuds puis moyennees sur lensemble
des arbres. Une normalisation fixe a` 100 la plus grande valeur correspondant a` la variable
la plus influente.
Instabilit
e
Tous les auteurs ont remarque la grande instabilite des mod`eles construits a` base
darbres : une leg`ere modification des donnees est susceptible dengendrer de grandes
modifications dans les param`etres (les seuils et feuilles) du mod`ele. Cest justement cette
propriete qui rend cette technique tr`es appropriee a` une amelioration par agregation.
Breiman (1998), pour les arbres de classification, puis Gey et Poggi (2002), pour les arbres

88

Chapitre 7. Agr
egation de mod`
eles
Fraction of training observations used

0.3
0.1

14
12

0.0

100

200
Iterations

300

400

200

0.0

0.04
0.02

0.2

0.06

16

Risk

Fraction

0.08

18

0.10

20

0.4

0.12

22

0.5

0.14

Test misclassification risk

400

100

600

200

800

1000

300

400

Iterations

Fig. 7.1 Algorithmes AdaBoost et Random forests. Evolution,


pour un echantillon test,
du taux de mal classes en fonction du nombre darbres intervenant dans la combinaison
de mod`eles.

de regression, detaillent et quantifient en pratique linfluence de cette instabilite ainsi que


celle de lapport potentiel du boosting par rapport au bagging.

Propri
et
es
Les justifications theoriques des bons resultats du boosting et principalement la resistance
au sur-ajustement sont encore lobjet de travaux intenses suivant differentes pistes. La difficulte vient de ce que lapplication de ce type dalgorithme sur une methode donnee, fait
generalement mieux que lasymptotique (en faisant crotre la taille de lechantillon) pour
cette meme methode. Les approches usuelles de la statistique asymptotique sont mises en
defaut et les bornes obtenues pour majorer les erreurs destimations ou de prediction sont
trop grossi`eres pour rendre compte de lefficacite effective de la methode. On montre ainsi,
empiriquement, que lerreur de prediction ou de generalisation peut continuer a` decrotre
longtemps apr`es que lerreur dajustement se soit annulee. Parmi les pistes explorees,
une approche stochastique consid`ere que, meme deterministe, lalgorithme simule une
dynamique markovienne (Blanchard, 2001). Une deuxi`eme, rappelee ci-dessus, presente le
boosting comme une procedure doptimisation globale par une methode de gradient (Friedman, 2001). Dautres enfin (par exemple Lugosi et Vayatis, 2001), plus probantes, utilisent
des inegalites de Vapnik pour montrer que, sous des hypoth`eses raisonnables et verifiees
dans les cas usuels : convexite et regularite de la fonction perte (exponentielle), arbres
binaires, la probabilite derreur du boosting converge avec la taille n de lechantillon vers
celle du classifieur bayesien cest-`a-dire celui, optimal, obtenu en supposant connue la loi
conjointe de X et Y .

4. Application

89

tauxmc
18
17
16
15
14
13
12
11
10
9
8
7
6
5
Aboos

Arbre

Logit

ResNe

Rfor

Methode
Fig. 7.2 Diagrammes botes des taux derreurs observes sur 30 echantillons tests et pour
chaque methode.

4
4.1

Application
Logiciels

Lalgorithme de boosting (Freund et Schapire, 1996), ou plutot la version de Friedman


et col. (2000) a ete utilisee. Il en fournissait le programme interface avec Splus a` ladresse
www-stat.stanford.edu/ jhf/MART.html mais ce dernier est maintenant commercialise
par la societe Salford System. En revanche, R. Schapire diffuse le logiciel Boost texter sur
sa page : www.research.att.com/~schapire pour des utilisations non commerciales.
Dautres versions du boosting seront vraisemblablement rendues disponible dans lenvironnement de R (clone de Splus sous licence GNU).
Les forets aleatoires (Breiman, 2001), sont estimees par un programme interface avec
R qui se trouve dans la page : www.stat.Berkeley.edu/users/breiman/ ou avec la distribution de R : www.r-project.org.

4.2

R
esultats comparatifs

Ces programmes ont ete utilises pour constituer des comites darbres de decision
prevoyant la possession de la carte Visa Premier. Trente echantillons tests ont successivement ete tires afin dobserver les distributions des taux de mauvais classement, distributions qui ont ete comparees a` celles obtenues par les methodes classiques (arbre de
decision, regression logistique et reseaux de neurones).
La figure 7.1 montre les evolutions du taux de mal classes sur lechantillon dapprentissage en fonction du nombre darbres estimes pour un exemple de tirage. Malgre la
complexite des combinaisons de mod`eles finalement obtenues, le taux atteint une limite, il
ny a pas sur-apprentissage. Ces algorithmes fournissent des resultats qui, en moyenne, se

90

Chapitre 7. Agr
egation de mod`
eles

Tab. 7.1 Moyennes des taux derreurs de classement calcules sur 30 echantillons test
pour chaque mod`ele de prediction
Methode
Moyenne

Ecart-type

Adaboost
9.7
2.0

Arbre
11.8
2.3

Regression
12.5
2.0

Perceptron
13.4
2.3

Foret
10.6
2.2

montrent sensiblement plus performants (cf. figure 7.2 et tableau 7.1) sur un echantillon
test. Les ecarts-types dependant de la taille de lechantillon test y sont relativement stables.
Les moyennes montrent, sur cet exemple, que le boosting predit un peu mieux que les forets
aleatoires. Cela est coherent avec les nombreuses etudes publiees.
Bien s
ur, ce qui est gagne en predictibilite est perdu en interpretabilite par rapport a` un
mod`ele classique. Neanmoins le gain realise est souvent etonnant. Lune des avancees encore en gestation concernant ces algorithmes, et plus particuli`erement les forets aleatoires,
est la prise en compte des probl`emes poses par les donnees hautement multidimensionnelles
tels quils se posent par exemple avec lanalyse des biopuces en genomique.

Bibliography
Agresti, A. (1990). Categorical data analysis. Wiley.
Antoniadis, A., J. Berruyer, and R. Carmona (1992). Regression non lineaire et applications. Economica.
Baccini, A. and P. Besse (2000). Data mining : 1. exploration statistique. www.upstlse.fr/Besse/enseignement.html.
Besse, P. and H. Cardot (2003). Modelisation statistique de donnees fonctionnelles. In
G. Govaert (Ed.), Analyse des donnees, pp. a` paratre. Hermes.
Besse, P., C. Le Gall, N. Raimbault, and S. Sarpy (2001). Statistique et data mining.
Journal de la Societe Francaise de Statistique 142, 536.
Blanchard, G. (2001). Generalization error bounds for aggregate classifiers. In Proceedings
of the MSRI international conference on nonparametric estimation and classification,
pp. .
Breiman, L. (1996). Bagging predictors. Machine Learning 26 (2), 123140.
Breiman, L. (1998). Arcing classifiers. Annals of Statistics 26, 801849.
Breiman, L. (2001). Random forests random features. Machine Learning a
` paratre, .
Breiman, L., J. Friedman, R. Olshen, and C. Stone (1984). Classification and regression
trees. Wadsworth & Brooks.
Drucker, H. (1997). Improving regressors using boosting techniques. In M. Kaufmann
(Ed.), Proceedings of th 14th International Conference on Machine Learning, pp. 107
115.
Efron, B. (1982). The Jackknife, the Bootstrap and other Resampling Methods. SIAM.
Efron, B. and R. Tibshirani (1993). An introduction to the bootstrap. Chapman and Hall.
Freund, Y. and R. Schapire (1996). Experiments with a new boosting algorithm. In
Machine Learning : proceedings of the Thirteenth International Conference, pp. 148
156. Morgan Kaufman. San Francisco.
Freund, Y. and R. Schapire (1997). Experiments with a new boosting algorithm. Journal
of Computer and System Sciences 55, 119139.
Friedman, J. H. (2001). Greedy function approximation : a gradient boosting machine.
Annals of Statistics 29, 11891232.
Friedman, J. H. (2002). Stochastic gradient boosting. Computational Statisrics and Data
Analysis 38, .
Friedman, J. H., H. Hastie, and R. Tibshirani (2000). Additive logistic regression : a
statistical view of boosting. The Annals of Statistics 28, 337407.
91

92

BIBLIOGRAPHY

Gey, S. and J.-M. Poggi (2002). Boosting and instabillity for regression trees. Technical
Report 36, Universite de Paris Sud, Mathematiques.
Ghattas, B. (2000). Agregation darbres de classification.
pliquee 48 (2), 8598.

Revue de Statistique Ap-

Hastie, T., R. Tibshirani, and J. Friedman (2001). The elements of statistical learning :
data mining, inference, and prediction. Springer.
Haykin, T. (1994). Neural network, a comprehensive foundation. Prentice-Hall.
Jobson, J. (1991). Applied Multivariate Data Analysis, Volume I : Regression and experimental design. Springer-Verlag.
Lugosi, G. and N. Vayatis (2001). On the bayes-risk consistency of boosting methods.
Preprint , .
McCullagh, P. and J. Nelder (1983). Generalized Linear Models. Chapman & Hall.
Quinlan, J. (1993). C4.5 Programs for machine learning. Morgan Kaufmann.
Ripley, B. (1996). Pattern recognition and neural networks. Cambridge University Press.
SAS (1989). SAS/STAT Users Guide (fourth ed.), Volume 2. Sas Institute Inc. version 6.
SAS (1995). SAS/INSIGHT Users Guide (Third ed.). Sas Institute Inc. version 6.
Schapire, R. (1990). The strength of weak learnability. Machine Learning 5, 197227.
Schapire, R. (2002). The boosting approach to machine learning. an overview. In MSRI
workshop on non linear estimation and classification, pp. .
SEM (2001). SAS/ Enterprise Miner Users Guide. Sas Institute Inc. version 8.
Thiria, S., Y. Lechevallier, O. Gascuel, and S. Canu (1997). Statistique et methodes neuronales. Dunod.
Vapnik, V. (1999). Statistical learning theory. Wiley Inter science.

Annexes

93

94

BIBLIOGRAPHY

Annexe A

Introduction au mod`
ele lin
eaire
g
en
eral
Lobjet de ce chapitre est dintroduire le cadre theorique global permettant de regrouper tous les mod`eles (lineaire gaussien, logit, log-lineaire) qui visent a` exprimer lesperance
dune variable reponse Y en fonction dune combinaison lineaire des variables explicatives.
Le mod`ele lineaire general developpe initialement en 1972 par Nelder et Wedderburn et
dont on trouvera des exposes detailles dans Nelder et Mc Cullagh (1983), Agresti (1990)
ou Antoniadis et col. (1992), nest ici quesquisse afin de definir les concepts communs
a` ces mod`eles : famille exponentielle, estimation par maximum de vraisemblance, tests,
diagnostics, residus. Il est mis en uvre dans plusieurs logiciels dont GLIM, glm de Splus,
genmod et insight de SAS.

Composantes des mod`


eles

Les mod`eles catalogues dans la classe des mod`eles lineaires generalises sont caracterises
par trois composantes.

1.1

Distribution

La composante aleatoire identifie la distribution de probabilites de la variable a` expliquer. On suppose que lechantillon statistique est constitue de n variables aleatoires
{Yi ; i = 1, . . . , n} independantes admettant des distributions issues dune structure exponentielle. Cela signifie que les lois de ces variables sont dominees par une meme mesure
dite de reference et que la famille de leurs densites par rapport a` cette mesure se met sous
la forme :


yi i v(i )
+ w(yi , ) .
(1)
f (yi ; i , ) = exp
u()
Cette formulation inclut la plupart des lois usuelles comportant un ou deux param`etres :
gaussienne, gaussienne inverse, gamma, Poisson, binomiale. . . . Le param`etre i est appele
param`etre naturel de la famille exponentielle.
Attention, la mesure de reference change dune structure exponentielle a` lautre, la
mesure de Lebesgues pour une loi continue, une mesure discr`ete combinaison de masses
95

96

Chapitre A. Introduction au mod`


ele lin
eaire g
en
eral

de Dirac pour une loi discr`ete. Consulter Antoniadis et col. (1992) pour une presentation
generale des structures exponentielles et des proprietes asymptotiques des estimateurs de
leurs param`etres.
Pour certaines lois, la fonction u est de la forme :
u() =

o`
u les poids i sont les poids connus des observations, fixes ici a` 1 pour simplifier ;
est appele alors param`etre de dispersion, cest un param`etre de nuisance intervenant, par
exemple lorsque les variances des lois gaussiennes sont inconnues, mais egal a` 1 pour les
lois a` un param`etre (Poisson, binomiale). Lexpression de la structure exponentielle (1) se
met alors sous la forme canonique en posant :
Q() =


v()
,
a() = exp

b(y) = exp{w(y, )},




on obtient
f (yi , i ) = a(i )b(yi ) exp {yi Q(i )} .

1.2

(2)

Pr
edicteur lin
eaire

Les observations planifiees des variables explicatives sont organisees dans la matrice
X de planification dexperience (design matrix). Soit un vecteur de p param`etres, le
predicteur lineaire, composante deterministe du mod`ele, est le vecteur a` n composantes :
= X.

1.3

Lien

La troisi`eme composante exprime une relation fonctionnelle entre la composante aleatoire


et le predicteur lineaire. Soit { i = E(Yi ); i = 1, . . . , n}, on pose
i = g(i )

i = 1, . . . , n

o`
u g, appelee fonction lien, est supposee monotone et differentiable. Ceci revient donc
a` ecrire un mod`ele dans lequel une fonction de la moyenne appartient au sous-espace
engendre par les variables explicatives :
g(i ) = x0i

i = 1, . . . , n.

La fonction lien qui associe la moyenne i au param`etre naturel est appelee fonction lien
canonique. Dans ce cas,
g(i ) = i = x0i .

1. Composantes des mod`


eles

1.4

97

Exemples

Loi gaussienne
Dans le cas dun echantillon gaussien, les densites dune famille de lois N ( i , 2 ) secrit :


1
(yi i )2
f (yi , i ) =
exp
2 2
2 2




n o
1 2i
1 yi2
1
i
2
= exp 2 exp 2 ln(2 ) exp yi 2
2
2
2

En posant

i
i
= 2



1 2i
a(i ) = exp 2
2


1 yi2
1
2
b(yi ) = exp 2 ln(2 ) .
2
2

Q(i ) =

la famille gaussienne se met sous la forme canonique (2) qui en fait une famille exponentielle
de param`etre de dispersion = 2 et de param`etre naturel
i = E(Yi ) = i
et donc de fonction lien canonique, la fonction identite.
Loi de Bernouilli
Considerons n variables aleatoires binaires independantes Z i de probabilite de succ`es
i et donc desperance E(Zi ) = i . Les fonctions de densite de ces variables sont elements
de la famille :


i
zi
1zi
= (1 i ) exp zi ln
f (zi , i ) = i (1 i )
,
1 i
qui est la forme canonique dune structure exponentielle de param`etre naturel
i = ln

i
.
1 i

Cette relation definit la fonction logit pour fonction lien canonique associee a` ce mod`ele.
La loi binomiale conduit a` des resultats identiques en considerant les sommes de n i (ni
connus) variables de Bernouilli.
Loi de Poisson
On consid`ere n variables independantes Y i de loi de Poisson de param`etre i = E(Yi ).
Les Yi sont par exemple les effectifs dune table de contingence. Ces variables admettent
pour densites :
yi ei
1
= exp {i }
exp {yi ln i }
f (yi , i ) = i
yi !
yi !

98

Chapitre A. Introduction au mod`


ele lin
eaire g
en
eral

qui sont issues dune structure exponentielle et, mises sous la forme canonique, de param`etre naturel
i = ln i
definissant comme fonction lien canonique le logarithme pour ce mod`ele.

Estimation

Lestimation des param`etres j est calculee en maximisant la log-vraisemblance du


mod`ele lineaire generalise. Celle-ci sexprime pour toute famille de distributions mise sous
la forme (1) dune structure exponentielle.

2.1

Expression des moments

Notons `(i , ; yi ) = ln f (yi ; i , ) la contribution de la i`eme observation a` la logvraisemblance.


`(i , ; yi ) = [yi i v(i )]/u() + w(yi , ).
Letude du maximum de la log-vraisemblance necessite la connaissance des derivees :
`
i
2`
i2

= [yi v 0 (i )]/u()
= v 00 (i )/u().

Pour des lois issues de structures exponentielles, les conditions de regularite verifiees permettent decrire :
 2
 2 
 
`
`
`
=E
.
= 0 et E
E
2

Alors,
E(Yi ) = i = v 0 (i )
et comme
E{v 00 (i )/u()} = E{[Yi v 0 (i )]/u()}2 = Var(Yi )/u2 ()
il vient donc :
Var(Yi ) = v 00 (i )u() ;
justifiant ainsi lappellation de param`etre de dispersion pour lorsque u est la fonction
identite.

2.2

Equations
de vraisemblance

Considerons p variables explicatives dont les observations sont rangees dans la matrice de plan dexperience X, un vecteur de p param`etres et le predicteur lineaire a` n
composantes
= X.
La fonction lien g est supposee monotone differentiable telle que :
cest la fonction lien canonique si :

g( i ) = i .

i = g(i ) ;

2. Estimation

99

Pour n observations supposees independantes et en tenant compte que depend de ,


la log-vraisemblance secrit :
L() =

n
X

ln f (yi ; i , ) =

i=1

Calculons

n
X

`(i , ; yi ).

i=1

`i i i i
`i
=
.
j
i i i j

Comme
`i
i
i
i
i
j
i
i

[yi v 0 (i )]/u() = (yi i )/u(),

v 00 (i ) = Var(Yi )/u(),

xij

car

i = x0i ,

depend de la fonction lien

i = g(i ),

Les equations de la vraisemblance sont :


n
X
(yi i )xij i
=0
Var(Yi ) i

j = 1, . . . , p.

i=1

Ce sont des equations non-lineaires en dont la resolution requiert des methodes


iteratives dans lesquelles interviennent le Hessien (pour Newton-Raphson) ou la matrice
dinformation (pour les Scores de Fisher). La matrice dinformation est la matrice
= = X0 WX
de terme general

[=]jk

X xij xik
2 L()
=E
=
j k
Var(Yi )
i=1

i
i

2

et o`
u W est la matrice diagonale de ponderation :
1
[W]ii =
Var(Yi )

2.3

i
i

2

Fonction lien canonique

Dans le cas particulier o`


u la fonction lien du mod`ele lineaire generalise utilisee est la
fonction lien canonique associee a` la structure exponentielle alors plusieurs simplifications
interviennent :
i = i = x0i ,
i
v 0 (i )
i
=
=
= v 00 (i ).
i
i
i

100

Chapitre A. Introduction au mod`


ele lin
eaire g
en
eral

Ainsi,
`i
(yi i ) 00
(yi i )
=
v (i )xij =
xij .
j
Var(Yi )
u()
2

L()
ne dependent plus de yi , on montre que le Hessien est
De plus, comme les termes
j k
egal a` la matrice dinformation et donc les methodes de resolution du score de Fisher et
de Newton-Raphson concident.

Si, de plus, u() est constante pour les observations, les equations de vraisemblance
deviennent :
X0 y = X0 .
Ainsi, dans le cas gaussien, le mod`ele secrivant = X avec la fonction de lien canonique
identite, on retrouve la solution :
b = (X0 X)

X0 y

qui concide avec celle obtenue par minimisation des moindres carres.

Qualit
e dajustement

Il sagit devaluer la qualite dajustement du mod`ele sur la base des differences entre
observations et estimations. Plusieurs crit`eres sont proposes.

3.1

D
eviance

Le mod`ele estime est compare avec le mod`ele dit sature, cest-`a-dire le mod`ele possedant
autant de param`etres que dobservations et estimant donc exactement les donnees. Cette
comparaison est basee sur lexpression de la deviance D des log-vraisemblances L et L sat :
D = 2(L Lsat )
qui est le logarithme du carre du rapport des vraisemblances. Ce rapport remplace ou
generalise lusage des sommes de carres propres au cas gaussien et donc a` lestimation
par moindres carres.
On montre quasymptotiquement, D suit une loi du 2 a` n p degres de liberte ce qui
permet de construire un test de rejet ou dacceptation du mod`ele selon que la deviance
est jugee significativement ou non importante.
Attention, lapproximation de la loi du 2 peut etre douteuse. De plus, dans le cas de
donnees non groupees (mod`ele binomial), le cadre asymptotique nest plus adapte car le
nombre de param`etres estimes tend egalement vers linfini avec n et il ne faut plus se fier
a` ce test.

3.2

Test de Pearson

Un test du 2 est egalement utilise pour comparer les valeurs observees y i a` leur
prevision par le mod`ele. La statistique du test est definie par
X2 =

I
X
(yi
i )2
i=1

d i )
Var(

4. Tests

101

(i est remplace par ni i dans le cas binomial) et on montre quelle admet asymptotiquement la meme loi que la deviance.
En pratique ces deux approches conduisent a` des resultats peu differents et, dans le cas
contraire, cest une indication de mauvaise approximation de la loi asymptotique. Sachant
que lesperance dune loi du 2 est son nombre de degres de liberte et, connaissant les
aspects approximatifs des tests construits, lusage est souvent de comparer les statistiques
avec le nombre de degres de liberte. le mod`ele peut etre juge satisfaisant pour un rapport
D/ddl plus petit que 1.

Tests
Deux crit`eres sont habituellement proposes pour aider au choix de mod`ele.

4.1

Rapport de vraisemblance

Comme dans le cas de la regression multiple o`


u un test permet de comparer un mod`ele
avec un mod`ele reduit, le rapport de vraisemblance ou la difference de deviance est une
evaluation de lapport des variables explicatives supplementaires dans lajustement du
mod`ele. La difference des deviances entre deux mod`eles embotes respectivement a` q 1 et
q2 (q2 > q1 ) variables explicatives
D2 D1 = 2(L1 Lsat ) 2(L2 Lsat )
= 2(L1 L2 )

suit approximativement une loi du 2 a` (q2 q1 ) degres de liberte pour les lois a` 1 param`etre
(binomial, Poisson) et une loi de Fisher pour les lois a` deux param`etres (gaussienne). Ceci
permet donc de tester la significativite de la diminution de la deviance par lajout de
variables explicatives ou la prise en compte dinteractions.

4.2

Test de Wald

Ce test est base sur la forme quadratique faisant intervenir la matrice de covariance
des param`etres, linverse de la matrice dinformation observee (X 0 WX)1 . Cette matrice
est calculee a` partir du Hessien approche par lalgorithme de maximisation. Elle generalise
la matrice (X0 X)1 utilisee dans le cas du mod`ele lineaire gaussien en faisant intervenir
une matrice W de ponderation. Ainsi, test de Wald et test de Fisher sont equivalents dans
le cas particulier du mod`ele gaussien.
Si la matrice K, dite contraste, definit lensemble H 0 des hypoth`eses a` tester sur les
param`etres :
K0 = 0,
on montre que la statistique
(K0 b)0 (K0 (X0 WX)

K)1 K0 b

suit asymptotiquement une loi du 2 .


Attention, le test de Wald, approximatif, peut ne pas etre precis si le nombre dobservations est faible.

102

Chapitre A. Introduction au mod`


ele lin
eaire g
en
eral

Diagnostics

De nombreux indicateurs, comme dans le cas de la regression lineaire multiple, sont


proposes afin devaluer la qualite ou la robustesse des mod`eles estimes. Ils concernent
la detection des valeurs influentes et letude graphique des residus. La definition de ces
derniers pose quelques difficultes.

5.1

Effet levier

On construit la matrice de projection (hat matrix)


H = W1/2 X(X0 WX)

X0 )W1/2 ,

relative au produit scalaire de matrice W, sur le sous-espace engendre par les variables
explicatives. Les termes diagonaux de cette matrice superieurs a` (3p/n) indiquent des
valeurs potentiellement influentes. Le graphe representant les points dordonnees h ii et
dabscisses le numero de lobservation les visualise.

5.2

R
esidus

Avec des erreurs centrees, additives, cest-`a-dire dans le cas du mod`ele gaussien utilisant
la fonction lien identite, il est naturel de definir des residus par :
i = yi E(yi ) = yi i .
comme dans le cas du mod`ele lineaire. Ce cadre est ici inadapte au cas general et differents
substituts sont proposes. Chacun poss`ede par ailleurs une version standardisee et une
version studentisee.
Pearson
Les residus obtenus en comparant valeurs observees y i et valeurs predites yi sont
ponderes par leur precision estimee par lecart-type : s i de yi . Ceci definit les residus
de Pearson :
yi yi
rP i =
si
dont la somme des carres conduit a` la statistique du meme nom. Ces residus mesurent
donc la contribution de chaque observation a` la significativite du test decoulant de cette
statistique. Par analogie au mod`ele lineaire, on verifie que ce sont egalement les residus
de la projection par la matrice H.
Ces residus ne sont pas de variance unite et sont donc difficiles a` interpreter. Une
estimation de leurs ecarts-types conduit a` la definition des residus de Pearson standardises :
rP si =

yi yi

si hii

faisant intervenir le terme diagonal de la matrice H.

6. Compl
ements

103

De plus, prenant en compte que les estimations des ecarts-types s i dependent de la


i`eme observation et sont donc biaises, des residus studentises sont obtenus en approchant
au premier ordre le param`etre de dispersion s (i) calcule sans la i`eme observation :
rP ti =

yi yi
.
s(i) hii

D
eviance
Ces residus mesurent la contribution de chaque observation a` la deviance du mod`ele
par rapport au mod`ele sature. Des versions standardisees et studentisees en sont definies
comme pour ceux de Pearson.
Anscombe
Les lois des residus precedents sont inconnues et meme dissymetriques. Anscombe a
donc propose de faire operer une transformation prealable afin de construire des residus
suivant une loi normale :
t(yi ) t(
yi )
rAi =
.
t0 (yi )si
Lexplicitation de la fonction t dans le cadre du mod`ele lineaire generalise est relativement
complexe mais le calcul en est fourni par les logiciels. Comme precedemment, des versions
standardisees et studentisees sont egalement calculees.
Un graphe utilisant ces residus en ordonnees et les numeros dobservation en abscisses
permet didentifier les observations les moins bien ajustees par le mod`ele.

5.3

Mesure dinfluence

De nombreux indicateurs sont proposes afin devaluer linfluence dune observation sur
lestimation dun param`etre, sur les predictions ou encore sur la variance des estimateurs.
Le plus utilise, la distance de Cook, mesure globalement linfluence sur lensemble des
param`etres. Cest la distance, au sens de la metrique definie par linverse de la covariance
des param`etres, entre le vecteur des param`etres b estime avec toutes les observations et
celui estime lorsque la i`eme observation est supprimee.
1
Di = (b b(i) )0 (X0 WX)1 (b b(i) ).
2
Cet indicateur prend simultanement en compte leffet levier et limportance du residu de
chaque observation. Le graphe de ces valeurs est donc plus synthetique et interpretable en
tenant compte du graphe des residus et de celui des termes diagonaux de H.

6
6.1

Compl
ements
Sur-dispersion

Dans certaines situations, par exemple lors dobservations dependantes, la variance


de la variable Yi supposee binomiale ou de Poisson, qui est theoriquement fixee par le

104

Chapitre A. Introduction au mod`


ele lin
eaire g
en
eral

mod`ele, est plus importante, multipliee par un facteur dechelle (scale parameter) 2 . Si
ce param`etre est plus grand que 1, on dit quil y a sur-dispersion. Une methode basee sur
une maximisation de la formule de quasi-vraisemblance est alors utilisee pour estimer a` la
fois et .

6.2

Variable offset

Lorsque la variable a` expliquer dans le cas dun mod`ele lineaire generalise depend
egalement lineairement dune autre variable, cette derni`ere est declaree offset et sert ainsi
a` tarer le mod`ele. Exemple : pour modeliser le nombre de sinistres declares par categorie
de conducteurs, la variable nombre de contrats est declaree offset.

Annexe B

Introduction au bootstrap
1

Introduction

La motivation du bootstrap1 (Efron, 1982 ; Efron et Tibshirani, 1993) est dapprocher


par simulation (Monte Carlo) la distribution dun estimateur lorsque lon ne connat pas la
loi de lechantillon ou, plus souvent lorsque lon ne peut pas supposer quelle est gaussienne.
Lobjectif est de remplacer des hypoth`ess probabilistes pas toujours verifiees ou meme
inverifiables par des simulations et donc beaucoup de calcul.
Le principe fondamental de cette technique de reechantillonnage est de substituer a`
la distribution de probabilite inconnue F , dont est issu lechantillon dapprentissage, la
distribution empirique Fb qui donne un poids 1/n a` chaque realisation. Ainsi on obtient
un echantillon de taille n dit echantillon bootstrap selon la distribution empirique Fb par n
tirages aleatoires avec remise parmi les n observations initiales.
Il est facile de construire un grand nombre dechantillons bootstrap sur lesquels calculer
lestimateur concerne. La loi simulee de cet estimateur est une approximation asymptotiquement convergente sous des hypoth`eses raisonnables 2 de la loi de lestimateur. Cette
approximation fournit ainsi des estimations du biais, de la variance, donc dun risque quadratique, et meme des intervalles de confiance de lestimateur sans hypoth`ese (normalite)
sur la vraie loi.

1.1

Principe du plug-in

Soit x = {x1 , . . . , xn } un echantillon de taille n issue dune loi inconnue F sur (, A).
On appelle loi empirique Fb la loi discr`ete des singletons (x 1 , . . . , xn ) affectes des poids
1/n :
Fb =

n
X

xi .

i=1

Cette appellation est inspiree du baron de M


unchhausen (Rudolph Erich Raspe) qui se sortit de sables
mouvants par traction sur ses tirants de bottes. En France bootstrap est parfois traduit par a
` la Cyrano
(acte III, sc`ene 13) en reference a
` ce heros qui prevoyait datteindre la lune en se placant sur une plaque
de fer et en iterant le jet dun aimant.
2
Echantillon independant de meme loi et estimateur independant de lordre des observations.

105

106

Chapitre B. Introduction au bootstrap

Soit A A, PF (A) est estimee par :


b(P )F (A) = P (A) =
Fb

n
X

xi (A) =

i=1

1
Cardxi A.
n

De mani`ere plus generale, soit un param`etre dont on suppose que cest une fonction de
la loi F . on ecrit donc = t(F ). Par exemple, = E(F ) est un param`etre de F suivant
ce mod`ele. Une statistique est une fonction (mesurable) de lechantillon. Avec le meme
exemple :
n
1X
xi

b=x=
n
i=1

et x est la statistique qui estime . On dit que cest un estimateur plug-in et, plus
generalement,
D
efinition B.1. On appelle estimateur plug-in dun param`etre de F , lestimateur
obtenu en remplacant la loi F par la loi empirique :
b = t(Fb).

comme dans le cas de lestimation de :


b = E( Fb) = x.

1.2

Estimation de l
ecart-type de la moyenne

Soit X une variable aleatoire reelle de loi F . On pose :


F = EF (X),

et

F2 = VarF (X) = EF [(X F )2 ];

Ce qui secrit :
X (F , F2 ).

P
Soit (X1 , . . . , Xn ) n variables aleatoires i.i.d. suivant aussi la loi F . Posons X = n1 ni=1 Xi .
Cette variable aleatoire a pour esperance F et pour variance F2 /n. On dit aussi que la
statistique
X (F , F2 /n).
Remarquons quen moyennant plusieurs valeurs ou observations, on reduit la variance
inherente a` une observation. De plus, sous certaines conditions sur la loi F et comme
resultat du theor`eme de la limite centrale, X converge en loi vers la loi normale.
Lestimateur plug-in de F est defini par :
2
2

b2 = c
F = Fb = VarFb (X)

1X
= EFb [(X EFb (X)) ] =
(Xi X)2 .
n
2

i=1

Lestimateur plug-in de F est (leg`erement) different de celui du maximum de vraisemblance. Lestimateur plug-in est en general biaise mais il a lavantage detre simple et de
pouvoir sappliquer a` tout param`etre meme lorsque lon ne peut pas calculer la vraisemblance du mod`ele.

2. Estimation bootstrap dun


ecart-type

107

Estimation bootstrap dun


ecart-type

Soit b = s(x) un estimateur quelconque (M.V. ou autre) de pour un echantillon x


donne. On cherche a` apprecier la precision de b et donc a` estimer son ecart-type.

2.1

Echantillon
bootstrap

Avec les memes notation, Fb est la distribution empirique dun echantillon x = {x 1 , . . . , xn }.

D
efinition B.2. On appelle echantillon bootstrap de x un echantillon de taille n
note
x = {x1 , . . . , xn }
suivant la loi Fb ; x est un re-echantillon de x avec remise.

2.2

Estimation dun
ecart-type

b de ,
b son
D
efinition B.3. On appelle estimation bootstrap de lecart-type cF ()
b
estimation plug-in : Fb ().

Mais, a` part dans le cas tr`es elementaire o`


u, comme dans lexemple ci-dessus, est une
moyenne, il ny a pas de formule explicite de cet estimateur. Une approximation de lestimateur bootstrap (ou plug-in) de lecart-type de b est obtenue par une simulation (MonteCarlo) decrite dans lalgorithme ci-dessous.
Pour un param`etre et un echantillon x donnes, on note b = s(x) lestimation obtenue
sur cet echantillon. Une replication bootstrap de b est donnee par : b = s(x ).

Algorithme B.1 : Estimation bootstrap de l


ecart-type

Soit x un echantillon et un param`etre.


Pour b = 1 a
` B Faire
b
Selectionner 1 echantillon bootstrap x b = {xb
1 , . . . , xn }. par tirage avec remise
dans x.
Estimer sur cet echantillon : b (b) = s(xb ).
Fin pour
Calculer lecart-type de lechantillon ainsi construit :
B

avec

bB

b (.) =

1 X b
( (b) b (.))2
B1
b=1

1
B

B
X
b=1

(b (b).

bB est lapproximation bootstrap de lestimation plug-in recherchee de lecart-type de .

108

2.3

Chapitre B. Introduction au bootstrap

Estimation du biais

Avec les memes notations :


= t(F )
le biais dun estimateur sexprime comme

et

b = s(x),

b = EF [s(x)] t(F ).
BF ()

b = . Le biais est aussi une mesure de la precision dun


Un estimateur est sans biais si E[]
estimateur et on a vu que, generalement, les estimateurs plug-in etaient biaises.
D
efinition B.4. On appelle estimateur bootstrap du biais, lestimateur plug-in :
b = B b ()
b = E b [s(x )] t(Fb).
cF ()
B
F
F

Comme pour lecart-type, il nexiste generalement pas dexpression analytique et il faut


avoir recours a` une approximation par simulation.
Algorithme B.2 : Estimation bootstrap du biais
Soit x un echantillon et un param`etre.
Pour b = 1 a
` B Faire
b
Selectionner 1 echantillon bootstrap x b = {xb
1 , . . . , xn }. par tirage avec remise
dans x.
Estimer sur cet echantillon la replication bootstrap de b : b (b) = s(xb ).
Fin pour
P
b
Approcher EFb [s(x )] par b (.) = B1 B
b=1 ( (b)
b
b
b
Lapproximation bootstrap du biais est : Bc
B () = (.) .

Compl
ements

En resume, on peut dire que le bootstrap repose sur une hypoth`ese tr`es elementaire : b
se comporte par rapport a` b comme b par rapport a` . La connaissance de b (distribution,
b
variance, biais. . . ) renseigne alors sur celle de .

Beaucoup dautres complements sont a` rechercher dans la litterature et en particulier


dans Efron et Tibshirani (1993). Il est ainsi possible de definir des intervalles de confiance
bootstrap en considerant la distribution et les quantiles de b ou meme encore des tests a`
partir des versions bootstrap de leur statistique.
Le bootstrap rapidement decrit ici est dit non-parametrique car la loi empirique Fb
est une estimation non-parametrique de F . Dans le cas o`
u F serait connue a` un param`etre
pr`es, il existe egalement une version dite parametrique du bootstrap.
Pour des estimateurs plus compliques (fonctionnels) comme dans le cas de la regression
non-parametrique par noyau ou spline, il est facile de construire graphiquement une enveloppe bootstrap de lestimateur a` partir de replications de lechantillon. Celle-ci fournit
generalement une bonne appreciation de la qualite de lestimateur obtenu. Attention, dans

3. Compl
ements

109

le cas de la regression il est en principe plus justifie de repliquer le tirage sur les residus
plutot que sur les observations. Ce sont les residus qui sont en effet supposes i.i.d. et qui
verifient donc les hypoth`eses necessaires mais cette approche devient tr`es sensible a` lhypoth`ese sur la validite du mod`ele. Il est finalement dusage de considerer un echantillon
bootstrap issu des donnees initiales (Efron et Tibshirani) :
b
b b
zb = {(xb
1 , y1 ), . . . , (xn , yn )};

cest ce qui a ete choisi dans ce document.


Enfin, lestimation bootstrap est justifiee par des proprietes asymptotiques (convergence en loi) lorsque le nombre de replications (B) croit conjointement avec la taille de
lechantillon (n).

110

Chapitre B. Introduction au bootstrap

Table des mati`


eres
Motivations du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . .

Strategie du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1 Introduction

Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Problematique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1

Supervise vs. non-supervise . . . . . . . . . . . . . . . . . . . . . . .

2.2

Modelisation vs. apprentissage . . . . . . . . . . . . . . . . . . . . .

2.3

Discrimination vs. regression . . . . . . . . . . . . . . . . . . . . . .

2.4

Statistique, informatique et taille des donnees . . . . . . . . . . . . .

2.5

Choix de methode . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.6

Choix de mod`ele : equilibre biais-variance . . . . . . . . . . . . . . .

2.7

Choix de mod`ele : selection vs. regularisation . . . . . . . . . . . . . 10

2.8

Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 R
egression lin
eaire

13

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Estimation

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1

Estimation par M.C. . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2

Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.3

Sommes des carres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.4

Coefficient de determination . . . . . . . . . . . . . . . . . . . . . . . 16

Inferences dans le cas gaussien . . . . . . . . . . . . . . . . . . . . . . . . . 16


4.1

Inference sur les coefficients . . . . . . . . . . . . . . . . . . . . . . . 16

4.2

Inference sur le mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.3

Inference sur un mod`ele reduit . . . . . . . . . . . . . . . . . . . . . 17

4.4

Prevision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.5

Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
111

112

`
TABLE DES MATIERES

Choix de mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5.1

Crit`eres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5.2

Algorithmes de selection . . . . . . . . . . . . . . . . . . . . . . . . . 22

5.3

Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5.4

Choix de mod`ele par regularisation . . . . . . . . . . . . . . . . . . . 24

Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.1

Mod`eles curvilineaires . . . . . . . . . . . . . . . . . . . . . . . . . . 27

6.2

Influence, residus, validation

. . . . . . . . . . . . . . . . . . . . . . 27

Analyse de variance a` un facteur . . . . . . . . . . . . . . . . . . . . . . . . 30


7.1

Introduction

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

7.2

Mod`ele

7.3

Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
8.1

Mod`ele

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

8.2

Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

8.3

Choix de mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

8.4

Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

10

Odds et odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

11

Regression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

12

11.1

Type de donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

11.2

Mod`ele binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Choix de mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
12.1

13

Recherche pas a` pas . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
13.1

DebitsVolumes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

13.2

Donnees bancaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3 Erreur de pr
ediction

47

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Erreur de prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.1

Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.2

Decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.3

Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Estimation avec penalisation

. . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.1

Cp , AIC, BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.2

Dimension de Vapnik-Chernovenkis . . . . . . . . . . . . . . . . . . . 50

`
TABLE DES MATIERES
4

113

Estimation par simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51


4.1

Validation croisee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.2

Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.3

Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4 Analyse Discriminante D
ecisionnelle

55

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

R`egle de decision issue de lAFD . . . . . . . . . . . . . . . . . . . . . . . . 56

2.1

Cas general : m quelconque . . . . . . . . . . . . . . . . . . . . . . . 56

2.2

Cas particulier : m = 2

. . . . . . . . . . . . . . . . . . . . . . . . . 56

R`egle de decision bayesienne . . . . . . . . . . . . . . . . . . . . . . . . . . . 56


3.1

Introduction

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.2

Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.3

Co
uts inconnus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.4

Determination des a priori . . . . . . . . . . . . . . . . . . . . . . . 57

3.5

Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

R`egle bayesienne avec mod`ele normal . . . . . . . . . . . . . . . . . . . . . . 58


4.1

Heteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.2

Homoscedasticite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.3

Commentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

R`egle bayesienne avec estimation non parametrique . . . . . . . . . . . . . . 59


5.1

Introduction

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.2

Methode du noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

5.3

k plus proches voisins . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5 Arbres binaires

63

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

Construction dun arbre binaire . . . . . . . . . . . . . . . . . . . . . . . . . 63

2.1

Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

2.2

Crit`ere de division . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2.3

R`egle darret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2.4

Affectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

Crit`eres dhomogeneite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.1

Y quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3.2
Y qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

Elagage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.1

Construction de la sequence darbres . . . . . . . . . . . . . . . . . . 71

`
TABLE DES MATIERES

114
4.2

Recherche de larbre optimal . . . . . . . . . . . . . . . . . . . . . . 71

6 M
ethodes connexionistes

73

Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

Reseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
2.1

Neurone formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Perceptron multicouche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.1

Architecture

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

3.2

Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

3.3

Utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

7 Agr
egation de mod`
eles

79

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

Famille de mod`eles aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 79

2.1

Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

2.2

Forets aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

Famille de mod`eles adaptatifs . . . . . . . . . . . . . . . . . . . . . . . . . . 82


3.1

Principes du Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . 82

3.2

Algorithme de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

3.3

Version aleatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3.4

Pour la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3.5

Mod`ele additif pas a` pas . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.6

Regression et boosting . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.7

Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.1

Logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4.2

Resultats comparatifs . . . . . . . . . . . . . . . . . . . . . . . . . . 89

A Introduction au mod`
ele lin
eaire g
en
eral
1

95

Composantes des mod`eles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95


1.1

Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

1.2

Predicteur lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

1.3

Lien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

1.4

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

Estimation
2.1

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

2.2

Expression des moments . . . . . . . . . . . . . . . . . . . . . . . . . 98

Equations
de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . 98

2.3

Fonction lien canonique . . . . . . . . . . . . . . . . . . . . . . . . . 99

`
TABLE DES MATIERES
3

Qualite dajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100


3.1

Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

3.2

Test de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.1

Rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . 101

4.2

Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.1

Effet levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.2

Residus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.3

Mesure dinfluence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.1

Sur-dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

6.2

Variable offset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

B Introduction au bootstrap
1

115

105

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
1.1

Principe du plug-in . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

1.2

Estimation de lecart-type de la moyenne . . . . . . . . . . . . . . . 106

Estimation bootstrap dun ecart-type . . . . . . . . . . . . . . . . . . . . . . 107

2.1
Echantillon
bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . 107
2.2

Estimation dun ecart-type . . . . . . . . . . . . . . . . . . . . . . . 107

2.3

Estimation du biais

. . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108