Vous êtes sur la page 1sur 631

Publications du Laboratoire de Statistique et Probabilites Data mining

Avant-propos

Motivations du data mining

Le developpement des moyens informatiques de stockage (bases de donnees) et de

calcul permet le traitement et l'analyse d'ensembles de donn ees tr es volumineux. Plus

r ecemment, le perfectionnement des interfaces o


rent aux utilisateurs, statisticiens ou non,

des possibilit es de mise en uvre tr es simples des outils logiciels. Cette evolution, ainsi

que la popularisation de nouvelles m ethodes algorithmiques (r eseaux de neurones) et outils

graphiques, conduit au d eveloppement et a la commercialisation de logiciels int egrant un

sous-ensemble de m ethodes statistiques et algorithmiques sous la terminologie de Data Mining

: la prospection ou fouille de donn ees. Cette approche, issue du marketing sp ecialis e

dans la gestion de la relation client (client relation management ou CRM) trouve egalement

des d eveloppements et applications industrielles en contr^ole de qualit e ou m^eme dans certaines

disciplines scienti
ques d es lors que les ing enieurs et chercheurs sont confront es a

un volume de donn ees important. Besse et col. (2001) pr esente une introduction d etaill ee

de cette d emarche et des relations qu'elle entretien avec les disciplines traditionnelles Statistique

et Informatique. L'accroche publicitaire souvent cit ee par les editeurs de logiciels

(SAS) est :

Comment trouver un diamant dans un tas de charbon sans se salir les mains.

Nous proposons d' evaluer et d'exp erimenter la r ealit e de cette annonce qui s'adresse a un

march e en pleine expansion. Les entreprises sont en e


et tr es motiv ees pour tirer parti et

amortir, par une aide a la d ecision quanti


ee, les co^uts de stockage des teras octets que

leur service informatique s'emploie a administrer.

Le contexte informationnel de la fouille de donn ees est celui des data wharehouses.

Un entrep^ot de donn ees, dont la mise en place est assur e par un gestionnaire de donn ees

(data manager) est un ensemble de bases relationnelles extraites des donn ees brutes de

l'entreprise et relatives a une probl ematique :

gestion des stocks (

ux tendu), des ventes d'un groupe a


n de pr evoir et anticiper

au mieux les tendances du march e,

suivi des
chiers clients d'une banque, d'une assurance, associ es a des donn ees socio-

economiques (INSEE), a l'annuaire, en vue de la constitution d'une segmentation

(typologie) pour cibler des op erations de marketing ou des attributions de cr edit.

La gestion de la relation client vise a une individualisation ou personnalisation de

la production et de la communication a
n d' evacuer la notion de client moyen.

recherche, sp eci
cation puis ciblage de niches de march e les plus pro
tables (banque)

ou au contraire les plus risqu ees (assurance) ;

suivi en ligne des param etres de production en contr^ole de qualit e pour d etecter au

plus vite l'origine d'une d efaillance ;

prospection textuelle (text mining) et veille technologique ;

web mining et comportement des internautes ;

...

Cet environnement se caract erise par

une informatique h et erog ene faisant intervenir des sites distants (Unix, Dos, NT,

VM. . . ) a travers le r eseau de l'entreprise (intranet) ou m^eme des acc es ext erieurs (internet).

Des contraintes d'e


cacit e, de
abilit e ou de s ecurit e conduisent a r epartir,

stocker l'information a la source plut^ot qu' a la dupliquer syst ematiquement ou a la

centraliser.

L'incompatibilit e logique des informations observ ees sur des echantillons di


erents

ne pr esentant pas les m^emes strates, les m^emes codi


cations.

Des volumes et

ux consid erables de donn ees issues de saisies automatis ees et chi


r es

en t era-octets.

La n ecessit e de ne pas exclure a priori un traitement exhaustif des donn ees a


n de ne

pas laisser echapper, a travers le crible d'un sondage, des groupes de faibles e
ectifs

mais a fort impact economique.

Strat egie du data mining

Dans tout ce qui suit, nous disposons d'un ensemble d'observations. Les caract eristiques

ou variables X = (X1; : : : ;Xp) dites explicatives ont et e observ ees sur un ensemble de

n objets, individus ou unit es statistiques. Un premier travail, souvent fastidieux mais

incontournable, consiste a mener une exploration statistique de ces donn ees : allure des

distributions, pr esence de donn ees atypiques, corr elations et coh erence, transformations

eventuelles des donn ees, description multidimensionnelle, classi


cation. C'est l'objet de

la premi ere partie de ce document. La deuxi eme partie d ecrit les outils de mod elisation

statistique ou encore d'apprentissage utilisables pour la pr ediction d'une variable cible Y

par les variables explicatives Xj .

L'encha^ nement de ces etapes (exploration puis apprentissage) constitue le fondement

de la fouille de donn ees.

Pour comprendre la structure et bien appr ehender le contenu de ce cours, il est important

d'int egrer rapidement ce qu'est la strat egie a mettre en uvre pour aboutir au bon

apprentissage ou encore au bon mod ele pr edictif recherch e a partir des donn ees observ ees.

Attention, il faut bien noter que, contrairement a une d emarche statistique traditionnelle

dans laquelle l'observation des donn ees est int egr ee a la m ethodologie (planni
cation

de l'exp erience), les donn ees sont ici pr ealables a l'analyse. N eanmoins il est clair que les

pr eoccupations li ees a leur analyse et a son objectif doivent intervenir le plus en amont

possible pour s'assurer quelques chances de succ es.

Les etapes de la fouille de donn ees :

i. Extraction des donn ees avec ou sans echantillonnage faisant r ef erence a des techniques

de sondage appliqu ees ou applicables a des bases de donn ees.

ii. Exploration des donn ees pour la d etection de valeurs aberrantes ou seulement atypiques,

d'incoh erences, pour l' etude des distributions des structures de corr elation,

recherche de typologies, pour des transformations des donn ees. . .

iii. Partition al eatoire de l' echantillon (apprentissage, validation, test) en fonction de sa

taille et des techniques qui seront utilis ees pour estimer une erreur de pr ediction en

vue des choix de mod ele, choix et certi


cation de m ethode.

iv. Pour chacune des m ethodes consid er ees : mod ele lin eaire g en eral (gaussien,binomial

ou poissonien), discrimination param etrique (lin eaire ou quadratique) ou non param

etrique, k plus proches voisins, arbre, r eseau de neurones (perceptron), support

vecteur machine, combinaison de mod eles (bagging, boosting).

estimer le mod ele pour une valeur donn ee d'un param etre de complexit e : nombre

de variables, de voisins, de feuilles, de neurones, , dur ee de l'apprentissage, largeur

de fen^etre. . . ;

optimiser ce param etre (sauf pour les combinaisons de mod eles a


ranchies des

probl emes de sur-apprentissage) en fonction de la technique d'estimation de l'erreur

retenue : echantillon de validation, validation crois ee, approximation par

p enalisation de l'erreur d'ajustement.

v. Comparaison des mod eles optimaux obtenus (un par m ethode) par estimation de

l'erreur de pr evision sur l' echantillon test ou, si la pr esence d'un echantillon test

est impossible, sur le crit ere de p enalisation de l'erreur (Aka^ ke par exemple) s'il en

existe une version pour chacune des m ethodes consid er ees.

vi. It eration eventuelle de la d emarche pr ec edente (valisation crois ee), si l' echantillon

test est trop r eduit, depuis (iii). Partitions al eatoires successives de l' echantillon pour

moyenner sur plusieurs cas l'estimation


nale de l'erreur de pr ediction et s'assurer

de la robustesse du mod ele obtenu.

vii. Choix de la m ethode retenue en fonction de ses capacit es de pr ediction, de sa robustesse

mais aussi, eventuellement, de l'interpr etabillit e du mod ele obtenu.

Objectif

L'objet de ce cours est d'introduire, sous une forme homog ene et synth etique, les principales

techniques d'exploration, de mod elisation ou encore d'apprentissage utilis ees le plus

couramment en fouille de donn ees et cit ees dans la section pr ec edente. Il a fallu faire des

choix dans l'ensemble des techniques propos ees et leurs nombreux avatars. La forme et

le contenu sont guid es par les besoins exprim es lors des stages r ealis ees par les etudiants

du DESS de Statistique et Econom etrie1 ou encore par les th emes des collaborations industrielles

du laboratoire de Statistique et Probabilit es2. Remarquons que les principaux

logiciels commerciaux (SAS, Splus, SPSS) ou gratuits (R), performants et s'imposant par

des interfaces tr es conviviales (Enterprise Miner, Insightfull Miner, Clementine), contribuent

largement a la di
usion, voire la p en etration, de m ethodes tr es sophistiqu ees dans

des milieux imperm eables a une conceptualisation math ematique trop abstraite.

Le choix a et e fait de conserver et expliciter, dans la mesure du possible, les concepts

originaux de chaque m ethode dans son cadre disciplinaire tout en t^achant d'homog en eiser

notations et terminologies. L'objectif principal est de faciliter la compr ehension et l'interpr

etation des techniques des principaux logiciels pour en faciliter une utilisation pertinente

et r e

echie. Un exemple el ementaire de recherche d'un score d'app etance issu du

1http ://www.univ-tlse1.fr/formation/DESS/DESS-StatEconometrie.html

2http ://www.lsp.ups-tlse.fr

marketing bancaire illustre les di


erents points abord es. Trait e avec les logiciels SAS, Splus

ou R, il sert de \
l rouge" tout au long du cours.

Chapitre 1

Introduction

1 Objectif

D es qu'un ph enom ene, qu'il soit physique, biologique ou autre, est trop complexe

ou encore trop bruit e pour acc eder a une description analytique d ebouchant sur une

mod elisation d eterministe, un ensemble d'approches ont et e elabor ees a


n d'en d ecrire

au mieux le comportement a partir d'une s erie d'observations. Citons la reconnaissance

de la parole ou de caract eres manuscrits, l'imagerie m edicale ou satellitaire, la pr evision

d'une grandeur climatique ou economique, du comportement d'un client. . . la plupart des

disciplines scienti
ques sont concern ees. Historiquement, la Statistique s'est beaucoup

d evelopp ee autour de ce type de probl emes et a propos e des mod eles incorporant d'une part

des variables explicatives et, d'autre part, une composante al eatoire ou bruit. Il s'agit alors

d'estimer les param etres du mod ele a partir des observations. Dans la m^eme situation, la

communaut e informatique parle plut^ot d'apprentissage visant le m^eme objectif. Apprentissage

machine (machine learning) ou reconnaissance de forme (pattern recognition) en

sont les principaux mots-clefs.

2 Probl ematique

2.1 Supervis e vs. non-supervis e

Distinguons ensuite deux types de probl emes : la pr esence ou non d'une variable a

expliquer Y ou d'une forme a reconna^ tre qui a et e, conjointement avec X, observ ee sur

les m^emes objets. Dans le premier cas il s'agit bien d'un probl eme de mod elisation ou

apprentissage supervis e : trouver une fonction - susceptible, au mieux selon un crit ere a

d e
nir, de reproduire Y ayant observ e X.

Y = -(X) + "

o u " symbolise le bruit ou erreur de mesure avec le parti pris le plus commun que cette

erreur est additive.

Dans le cas contraire, en l'absence d'une variable a expliquer, il s'agit alors d'apprentissage

dit non-supervis e. L'ojectif g en eralement poursuivi est la recherche d'une typologie

ou taxinomie des observations : comment regrouper celles-ci en classes homog enes mais

les plus dissemblables entre elles. C'est un probl eme de classi


cation (clustering).

8 Chapitre 1. Introduction

Attention, l'anglais classi


cation se traduit plut^ot en fran cais par discrimination ou

classement (apprentissage supervis e) tandis que la recherche de classes (clustering) (apprentissage

non-supervis e) fait appel a des m ethodes de classi


cation ascendante hi erarchique

ou a des algorithmes de r eallocation dynamique (k-means) ou de carte auto-organisatrices

(Kohonen). Ces m ethodes de classi


cation ou clustering ne sont pas abord ees ici, elles ont

et e regroup ees avec les techniques exploratoires de la premi ere partie (Baccini et Besse

2000).

2.2 Mod elisation vs. apprentissage

Tout au long de ce document, les termes de mod elisation et d'apprentissage sont utilis

ees comme des synonymes ce qui est abusif tant que les objectifs d'une etude n'ont pas

et e clairement explicit es. Dans la tradition statistique, la notion de mod ele est centrale

surtout avec une


nalit e explicative. Il s'agit alors d'approcher la r ealit e, le vrai mod ele,

eventuellement bas e sur une th eotie physique, economique... sous-jacente. Le choix du

mod ele (cf. ci-dessous) est alors guid e par des crit eres d'ajustement et les d ecisions de validit

e, de pr esence d'e
ets, bas ees sur des tests reposant des des hypoth eses probabilistes.

L'interpr eation du r^ole de chaque variable explicative est pr epond erante dans la d emarche.

En revanche, dans un but pr edictif il appara^ t que le meilleur mod ele n'est pas n ecessairement

le vrai. La th eorie de l'apprentissage (Vapnik, 1999) montre alors que le cadre th eorique est

di
erent et les majorations d'erreur requierent une autre approche. Les choix sont bas es

sur des crit eres de qualit e de pr ediction visant a la recherche de mod eles parcimonieux

dont l'interpr etatbilit e passe au deuxi eme plan.

2.3 Discrimination vs. r egression

Le type des variables statistiques consid er ees di


erent selon l'espace dans lequel elles

prennent leurs valeur. Elles peuvent ^etre quantitatives a valeurs r eelles1 ou qualitatives

a valeurs dans un ensemble de cardinal


ni. Certaines m ethodes d'apprentissage ou de

mod elisation s'adaptent a tout type de variables explicatives tandis que d'autres sont

sp ecialis ees. En
n, si Y a expliquer est qualitative, on parle de discrimination, classement

ou reconnaissance de forme tandis que si Y est quantitative on parle, par habitude, d'un

probl eme de r egression. Dans ce cas encore, certaines m ethodes sont sp eci
ques (r egression

lin eaire, analyse discriminante) tandis que d'autres s'adaptent sans modi
cation profonde

remettant en cause leur principe (r eseaux de neurones, arbres. . . ).

2.4 Statistique, informatique et taille des donn ees

Lorsque des hypoth eses relatives au mod ele (lin earit e) et aux distributions sont v eri
ees

c'est- a-dire, le plus souvent, lorsque l' echantillon ou les r esidus sont suppos es suivre des lois

se mettant sous la forme d'une famille exponentielle (gaussienne, binomiale, poisson. . . ),

les techniques statistiques de mod elisation tir ees du mod ele lin eaire g en eral sont optimales

et, surtout dans le cas d' echantillons de taille restreinte, il semble di


cile de faire mieux.

1Le traitement de donn ees fonctionnelles (Besse et Cardot, 2003), c'est- a-dire l' etude de
courbes,

n ecessite g en eralement une d ecomposition pr ealable sur une base appropri ee (vecteurs
propres, fourier,

ondelettes) avec, selon le cas, lissage ou interpolation avant de pouvoir mettre en uvre les
techniques

sp eci
ques d'apprentissage. Ces aspects ne sont pas abord es.

2. Probl ematique 9

En revanche, d es que les hypoth eses distributionnelles ne sont pas v eri


ees, d es que les

relations suppos ees entre les variables ne sont pas lin eaires ou encore d es que le volume

des donn ees est important, d'autre m ethodes viennent concurrencer l'approche statistique

classique.

Prenons un exemple simple : expliquer une variable quantitative Y par un ensemble

fX1; : : : ;Xpg de variables egalement quantitatives :

Y = -(X1; : : : ;Xp) + ":

observ ees sur un echantillon (yi; xi); i = 1; : : : ; n de taille n Si - est suppos ee lin eaire et p

petit, de l'ordre d'une dizaine ; le probl eme est bien connu et largement d ebattu dans la

litt erature. Dans le cas o u - n'est pas franchement lin eaire et n grand, il est possible d'estimer

pr ecis ement un nombre plus important de param etres et donc d'envisager des mod eles

plus sophistiqu es. Si on s'en tient au mod ele gaussien usuel, m^eme le cas le plus simple

d'un mod ele polyn^omial devient vite probl ematique. En e


et, lorsque - est lin eaire, prenons

p = 10, la proc edure de choix de mod ele est confront ee a un ensemble de 210 mod eles

possibles et des algorithmes astucieux permettent encore de s'en sortir. En revanche,

consid erer pour - un simple polyn^ome du deuxi eme voire troisi eme degr e avec toutes

ses interactions, am ene a consid erer un nombre consid erable de param etres et donc, par

explosion combinatoire, un nombre astronomique de mod eles possibles. D'autres m ethodes

doivent alors ^etre consid er ees en prenant en compte n ecessairement la complexit e


algorithmique

des calculs. Ceci explique l'implication d'une autre discipline, l'informatique, dans

cette probl ematique. Le souci de calculabilit e l'emporte sur la d e


nition math ematique du

probl eme qui se ram ene a l'optimisation d'un crit ere d'ajustement de - sur un ensemble

de solutions plus ou moins riche. Ces m ethodes ont souvent et e d evelopp ees dans un autre

environnement disciplinaire : informatique, intelligence arti


cielle. . . ; k plus proches voisins,

r eseaux de neurones, arbres de d ecisions, support vector machine deviennent des

alternatives cr edibles d es lors que le nombre d'observations est su


sant.

2.5 Choix de m ethode

Avec l'av enement du data mining, de tr es nombreux articles comparent et opposent les

techniques sur des jeux de donn ees publics et proposent des am eliorations incr ementales de

certains algorithmes. Apr es une p eriode


evreuse o u chacun tentait d'a
cher la supr ematie

de sa m ethode, un consensus s'est etabli autour de l'id ee qu'il n'y a pas de \meilleure

m ethode". Chacune est plus ou moins bien adapt ee au probl eme pos e, a la nature des

donn ees ou encore aux propri et es de la fonction - a approcher ou estimer. Sur le plan

m ethodologique, il est alors important de savoir comparer des m ethodes a


n de choisir la

plus pertinente. Cette comparaison repose sur une estimation d'erreur (de r egression ou

de classement) qu'il est n ecessaire de conduire avec soin. Un chapitre (3) est consacr e a ce

point.

2.6 Choix de mod ele : equilibre biais-variance

Tous les auteurs s'accordent pour souligner l'importance qu'il y a a construire des

mod eles parcimonieux quelque soit la m ethode utilis ee. Toutes les m ethodes sont concern ees
:

nombre de variables explicatives, de feuilles dans un arbre ou de neurones dans une

couche cach ee. . . . Seuls les algorithmes de combinaison de mod eles (bagging, boosting)

10 Chapitre 1. Introduction

contournent cette etape au prix d'un accroissement sensible du volume des calculs et de

l'interpr etabilit e des r esultats obtenus.

L'alternative est claire, plus un mod ele est complexe et donc plus il int egre de param

etres et plus il est capable de s'ajuster aux donn ees et donc d'engendrer une erreur

faible d'ajustement. En revanche, un tel mod ele peut s'av erer d efaillant lorsqu'il s'agira

de pr evoir ou g en eraliser, c'est- a-dire de s'appliquer a des donn ees qui n'ont pas particip

e a son estimation. Exemple : discriminer dans IR2 une fronti ere quadratique par une

r egression lin eaire ou par un polyn^ome de debr e plus elev e.

Ce probl eme s'illustre aussi facilement en r egression classique. Ajouter des variables

explicatives dans un mod ele ne peut que r eduire l'erreur d'ajustement (le R2) et r eduit

le biais si le \vrai" mod ele est un mod ele plus complet. Mais, ajouter des variables fait

egalement cro^ te la variance des estimateurs et donc celle des pr edictions qui se d egradent

rapidement avec la multicolin earit e des variables explicatives. Un risque pour le mod ele,

ou erreur quadratique de pr ediction, s'exprimant comme le carr e du biais plus la variance,

il est important d'optimiser le dosage entre biais et variance en contr^olant le nombre

de variables dans le mod ele a


n de minimiser le risque. Ces remarques conduisent a la

d e
nition de crit eres de choix de mod ele dont le Cp de Mallows fut un pr ecurseur en

r egression suivi par d'autres propositions : Aka• ke (AIC), Schwartz (BIC). . .

Plus que celui de la m ethode, le choix du bon mod ele ou de la bonne complexit e de

celui-ci dans une classe de m ethodes donn ees est primordial. En cons equence, les probl emes

d'optimisation consid er es doivent mettre en uvre un crit ere qui prend en compte la

complexit e du mod ele, c'est- a-dire la complexit e de l'espace dans lequel la solution est

recherch ee.

2.7 Choix de mod ele : s election vs. r egularisation

Selon la m ethode consid er ee, la complexit e du mod ele s'exprime de di


erentes fa cons.

Simple par s election de variable en r egression lin eaire, la complexit e est directement li ee a la

dimension de l'espace engendr e et donc au nombre de variables. Les choses se compliquent

pour les mod eles non-lin eaires lorsque, a dimension


x ee, c'est la plus ou moins grande

exibilit e des solutions qui doit ^etre p enalis ee.

C'est typiquement le cas en r egression non-param etrique ou fonctionnelle. Une p enalisation

faisant intervenir la norme carr ee de la d eriv ee seconde contr^ole la

exibilit e d'un lissage

spline. La \largeur de fen^etre" du noyau contr^ole egalement la r egularit e de la solution.

En r egression lin eaire, si le nombre et les variables sont d etermin es, la version \ridge" de

la r egression p enalise la norme carr ee du vecteur des param etres et restreint ainsi, par

r egularisation, l'espace des solutions pour limiter l'e


et de la multicolin earit e.

En
n, pour aborder en toute g en eralit e les situations les plus compliqu ees, Vapnik

(1999) a formalis e la th eorie de l'apprentissage en introduisant une notion particuli ere de

dimension pour toute famille de mod eles.

2.8 Contenu

Chaque m ethode ou famille de m ethodes de mod elisation et d'apprentissage parmi

les plus r epandues, est pr esent ee de fa con plus ou moins succincte dans un chapitre distinct

avec un objectif pr edictif. La r egression lin eaire classique en statistique prend une

2. Probl ematique 11

place particuli ere a titre p edagogique. Tr es ant erieure aux autres, elle donne lieu a une

bibliographie abondante. Conceptuellement plus simple, elle permet d'introduire plus facilement

les probl ematiques rencontr ees comme celle du choix d'un mod ele par ses deux

approches types : la s election de variable ou la r egularisation (ridge). Pour une meilleure

compr ehension des logiciels qui y font largement r ef erence, une introduction (annexe) au

mod ele lin eaire g en eral fournit le cadre th eorique n ecessaire a l'uni
cation des r egressions

lin eaire et logistique ; cette derni ere reste toujours tr es utilis ee en scoring. La pr esentation

de l'analyse discriminante d ecisionnelle, param etrique ou non param etrique, les k plus

proches voisins, permet d'introduire egalement des notions de th eorie bay esienne de la

d ecision. Un chapitre incontournable est consacr e aux techniques d'estimation d'une erreur

de pr ediction sur lesquelles reposent les choix op erationnels d ecisifs : de mod ele, de

m ethode mais aussi l' evaluation de la pr ecision des r esultats escompt es. Les chapitres

suivants sont consacr ees aux techniques algorithmiques : arbres binaires de d ecision (classi
cation and regression trees ou CART) et a celles plus directement issues de la th eorie de

l'apprentissage machine (machine learning) : r eseau de neurones et perceptron, agr egation

de mod eles (boosting, random forest). Des annexes apportent des compl ements th eoriques :

introduction au mod ele lin eaire g en eral, le bootstrap.

12 Chapitre 1. Introduction

Chapitre 2

R egression lin eaire

1 Introduction

Ce chapitre ne propose qu'une introduction au mod ele gaussien, a sa d e


nition et a son

estimation en privil egiant l'objectif de pr ediction. Il s'attarde donc sur le probl eme d elicat

du choix de mod ele a


n, principalement, d'en introduire les grands principes pour les

adapter au cas de la r egression logistique largement utilis ee en prospection de donn ees. Une

derni ere section introduit le mod ele d'analyse de covariance mais de nombreux aspects :

colin earit e, points in

uents, tests, analyse de variance, mod ele multinomial ou poissonien

(mod ele log-lin eaire). . . sont n eglig es et a rechercher dans la bibliographie de m^eme qu'une

pr esentation globale du mod ele lin eaire g en eral incluant toutes ces approches et seulement

r esum ee en annexe. Les statistiques des tests el emetaires sont explicit ees a
n de faciliter

la lectures et l'interpr etation des r esultats issus des logiciels.

Le but premier de ce chapitre est donc l'explication ou plut^ot, la mod elisation dans un

but pr edictif, d'une variable quantitative par plusieurs variables quantitatives (r egression

lin eaire multiple) ou par un m elange de variables quantitatives et qualitatives (analyse de

covariance).

2 Mod ele

Le mod ele de r egression lin eaire multiple est l'outil statistique le plus habituellement

mis en uvre pour l' etude de donn ees multidimensionnelles. Cas particulier de mod ele

lin eaire, il constitue la g en eralisation naturelle de la r egression simple.

Une variable quantitative Y dite a expliquer (ou encore, r eponse, exog ene, d ependante)

est mise en relation avec p variables quantitatives X1; : : : ;Xp dites explicatives (ou encore

de contr^ole, endog enes, ind ependantes, r egresseurs).

Les donn ees sont suppos ees provenir de l'observation d'un echantillon statistique de

taille n (n > p + 1) de IR(p+1) :

(x1i

; : : : ; xj

i ; : : : ; xp

i ; yi) i = 1; : : : ; n:

L' ecriture du mod ele lin eaire dans cette situation conduit a supposer que l'esp erance de

Y appartient au sous-espace de IRn engendr e par f1;X1; : : : ;Xpg o u 1 d esigne le vecteur

13

14 Chapitre 2. R egression lin eaire

de IRn constitu e de \1" . C'est- a-dire que les (p + 1) variables al eatoires v eri
ent :

yi =
0+
1x1i

+
2x2i

+ +
pxp

i + "i i = 1; 2; : : : ; n

avec les hypoth eses suivantes :

i. Les "i sont des termes d'erreur, d'une variable U, non observ es, ind ependants et

identiquement distribu es ; E("i) = 0; V ar(") = 2I.

ii. Les termes xj sont suppos es d eterministes (facteurs contr^ol es) ou bien l'erreur U

est ind ependante de la distribution conjointe de X1; : : : ;Xp. On ecrit dans ce dernier

cas que :

E(Y jX1; : : : ;Xp) =


0+
1X1 +
2X2 + +
pXp et V ar(Y jX1; : : : ;Xp) = 2:

iii. Les param etres inconnus


0; : : : ;
p sont suppos es constants.

iv. En option, pour l' etude sp eci


que des lois des estimateurs, une quatri eme hypoth ese

consid ere la normalit e de la variable d'erreur U (N(0; 2I)). Les "i sont alors i.i.d.

de loi N(0; 2).

Les donn ees sont rang ees dans une matrice X(n (p + 1)) de terme g en eral xj

i , dont

la premi ere colonne contient le vecteur 1 (xi

0 = 1), et dans un vecteur Y de terme g en eral

yi. En notant les vecteurs " = ["1 "p]0 et


=[
0
1
p]0, le mod ele s' ecrit matriciellement

y=X
+ ":

3 Estimation

Conditionnellement a la connaissance des valeurs des Xj , les param etres inconnus du

mod ele : le vecteur


et 2 (param etre de nuisance), sont estim es par minimisation du

crit ere des moindres carr es (M.C.) ou encore, en supposant (iv), par maximisation de

la vraisemblance (M.V.). Les estimateurs ont alors les m^emes expressions, l'hypoth ese

de normalit e et l'utilisation de la vraisemblance conf erant a ces derniers des propri et es

compl ementaires.

3.1 Estimation par M.C.

L'expression a minimiser sur


2 IRp+1 s' ecrit :

Xn

i=1

(yi 􀀀
0􀀀
1x1i

􀀀
2x2i 􀀀 􀀀
pxp

i )2 = ky 􀀀 X
k2

= (y 􀀀 X
)0(y 􀀀 X
)

= y0y 􀀀 2
0X0y +
0X0X
:

Par d erivation matricielle de la derni ere equation on obtient les \ equations normales" :

X0y 􀀀 X0X
=0

dont la solution correspond bien a un minimum car la matrice hessienne 2X0X est d e
niepositive.

3. Estimation 15

Nous faisons l'hypoth ese suppl ementaire que la matrice X0X est inversible, c'est- adire

que la matrice X est de rang (p + 1) et donc qu'il n'existe pas de colin earit e entre

ses colonnes. En pratique, si cette hypoth ese n'est pas v eri


ee, il su
t de supprimer des

colonnes de X et donc des variables du mod ele. Des diagnostics de colin earit e et des crit eres

aident au choix des variables.

Alors, l'estimation des param etres


j est donn ee par :

b = (X0X)􀀀1X0y

et les valeurs ajust ees (ou estim ees, pr edites) de y ont pour expression :

by

= Xb = X(X0X)􀀀1X0y = Hy

o uH = X(X0X)􀀀1X0 est appel ee \hat matrix" ; elle met un chapeau a y. G eom etriquement,

c'est la matrice de projection orthogonale dans IRn sur le sous-espace Vect(X) engendr e

par les vecteurs colonnes de X.

On note

e = y 􀀀by = y 􀀀 Xb = (I 􀀀H)y

le vecteur des r esidus ; c'est la projection de y sur le sous-espace orthogonal de Vect(X)

dans IRn.

3.2 Propri et es

Les estimateurs des M.C. b0; b1; : : : ; bp sont des estimateurs sans biais : E(b) =
, et,

parmi les estimateurs sans biais fonctions lin eaires des yi, ils sont de variance minimum

(th eor eme de Gauss-Markov) ; ils sont donc \BLUE" : best linear unbiaised estimators.

Sous hypoth ese de normalit e, les estimateurs du M.V. sont uniform ement meilleurs (e
-

caces) et co• ncident avec ceux des M.C.

On montre que la matrice de covariance des estimateurs se met sous la forme

E[(b 􀀀
)(b 􀀀
)0] = 2(X0X)􀀀1;

celle des pr edicteurs est

E[(by 􀀀 X
)(by 􀀀X
)0] = 2H

et celle des estimateurs des r esidus est

E[(e 􀀀 u)((e 􀀀 u))0] = 2(I 􀀀H)

tandis qu'un estimateur sans biais de 2 est fourni par :

s2 = kek2

n􀀀p􀀀1

= ky 􀀀 X
k2

n􀀀p􀀀1

SSE

n􀀀p􀀀1

Ainsi, les termes s2hii

sont des estimations des variances des pr edicteurs byi.

16 Chapitre 2. R egression lin eaire

3.3 Sommes des carr es

SSE est la somme des carr es des r esidus (sum of squared errors),

SSE = ky 􀀀by k2 = kek2 :

On d e
nit egalement la somme totale des carr es (total sum of squares) par

SST = ky 􀀀 y1k2 = y0y 􀀀 n y2

et la somme des carr es de la r egression (regression sum of squares) par

SSR = kby 􀀀 y1k2 =by 0by 􀀀 n y2 = y0Hy 􀀀 n y2 = b0X0y 􀀀 n y2:

On v eri
e alors : SST = SSR + SSE.

3.4 Coe
cient de d etermination

On appelle coe
cient de d etermination le rapport

R2 =

SSR

SST

qui est donc la part de variation de Y expliqu ee par le mod ele de r egression.
G eom etriquement,

c'est un rapport de carr es de longueur de deux vecteurs. C'est donc le cosinus carr e de

l'angle entre ces vecteurs : y et sa projection by sur Vect(X).

Attention, dans le cas extr^eme o u n = (p + 1), c'est- a-dire si le nombre de variables

explicatives est grand comparativement au nombre d'observations, R2 = 1. Ou encore, il

est g eom etriquement facile de voir que l'ajout de variables explicatives ne peut que faire

cro^ tre le coe


cient de d etermination.

La quantit e R est appel ee coe


cient de corr elation multiple entre Y et les variables

explicatives, c'est le coe


cient de corr elation usuel entre y et sa pr ediction (ou projection)

by

4 Inf erences dans le cas gaussien

En principe, l'hypoth ese optionnelle (iv) de normalit e des erreurs est n ecessaire pour

cette section. En pratique, des r esultats asymptotiques, donc valides pour de grands

echantillons, ainsi que des etudes de simulation, montrent que cette hypoth ese n'est pas

celle dont la violation est la plus p enalisante pour la


abilit e des mod eles.

4.1 Inf erence sur les coe


cients

Pour chaque coe


cient
j on montre que la statistique

bj 􀀀
j

bj

o u 2

bj

, variance de bj est le j eme terme diagonal de la matrice s2(X0X)􀀀1, suit une loi

de Student a (n 􀀀 p 􀀀 1) degr es de libert e. Cette statistique est donc utilis ee pour tester

4. Inf erences dans le cas gaussien 17

une hypoth ese H0 :


j = a ou pour construire un intervalle de con
ance de niveau

100(1 􀀀
)% :

bj t
=2;(n􀀀p􀀀1) bj :

Attention, cette statistique concerne un coe


cient et ne permet pas d'inf erer conjointement

(cf. x3.4) sur d'autres coe


cients car ils sont corr el es entre eux ; de plus elle d epend

des absences ou pr esences des autres variables Xk dans le mod ele. Par exemple, dans le

cas particulier de deux variables X1 et X2 tr es corr el ees, chaque variable, en l'absence

de l'autre, peut appara^ tre avec un coe


cient signi
cativement di
erent de 0 ; mais, si les

deux sont pr esentes dans le mod ele, elles peuvent chacune appara^ tre avec des coe
cients

insigni
ants.

De fa con plus g en erale, si c d esigne un vecteur non nul de (p+1) constantes r eelles, il est

possible de tester la valeur d'une combinaison lin eaire c0b des param etres en consid erant

l'hypoth ese nulle H0 : c0b = a ; a connu. Sous H0, la statistique

c0b 􀀀 a

(s2c0(X0X)􀀀1c)1=2

suit une loi de Student a (n 􀀀 p 􀀀 1) degr es de libert e.

4.2 Inf erence sur le mod ele

Le mod ele peut ^etre test e globalement. Sous l'hypoth ese nulle H0 :
1=
2=:::=
p = 0, la statistique

SSR=p

SSE=(n 􀀀 p 􀀀 1)

MSR

MSE

suit une loi de Fisher avec p et (n􀀀p􀀀1) degr es de libert e. Les r esultats sont habituellement

pr esent es dans un tableau \d'analyse de la variance" sous la forme suivante :

Source

de

variation

d.d.l.

Somme

des

carr es

Variance F

R egression p SSR MSR=SSR/p MSR/MSE

Erreur n 􀀀 p 􀀀 1 SSE MSE=SSE/(n 􀀀 p 􀀀 1)

Total n 􀀀 1 SST

4.3 Inf erence sur un mod ele r eduit

Le test pr ec edent am ene a rejeter H0 d es que l'une des variables Xj est li ee a Y . Il

est donc d'un int er^et limit e. Il est souvent plus utile de tester un mod ele r eduit c'est-

a-dire dans lequel certains coe


cients, a l'exception de la constante, sont nuls contre le

mod ele complet avec toute les variables. En ayant eventuellement r eordonn e les variables,

on consid ere l'hypoth ese nulle H0 :


1=
2=:::=
q = 0; q < p.

Notons respectivement SSRq, SSEq, R2

q les sommes de carr es et le coe


cient de d etermination

du mod ele r eduit a (p 􀀀 q) variables. Sous H0, la statistique

(SSR 􀀀 SSRq)=q

SSE=(n 􀀀 p 􀀀 1)

(R2 􀀀 R2

q)=q

(1 􀀀 R2)=(n 􀀀 p 􀀀 1)

18 Chapitre 2. R egression lin eaire

suit une loi de Fisher a q et (n 􀀀 p 􀀀 1) degr es de libert e.

Dans le cas particulier o u q = 1 (


j = 0), la F-statistique est alors le carr e de la

t-statistique de l'inf erence sur un param etre et conduit donc au m^eme test.

4.4 Pr evision

Connaissant les valeurs des variables Xj pour une nouvelle observation : x0

0 = [x10

; x20

; : : : ; xp

0]

appartenant au domaine dans lequel l'hypoth ese de lin earit e reste valide, une pr evision,

not ee by0 de Y ou E(Y ) est donn ee par :

by0 = b0 + b1x10

+ + bpxp

0:

Les intervalles de con


ance des pr evisions de Y et E(Y ), pour une valeur x0 2 IRp et en

posant v0 = (1jbmx0

0)0 2 IRp+1, sont respectivement

by0 t
=2;(n􀀀p􀀀1)s(1 + v00

(X0X)􀀀1v0)1=2;

by0 t
=2;(n􀀀p􀀀1)s(v00

(X0X)􀀀1v0)1=2:

4.5 Exemple

Le mod ele de r egression lin eaire n'est pas adapt e a l'explication d'une variable binaire

comme dans le cas des donn ees bancaires. Ceci est abord e dans le chapitre suivant en

utilisant la r egression logistique tandis que d'autres exemples de donn ees sont utilis ees

dans ce chapitre. Les premi eres sont extraites de Jobson (1991) et d ecrivent les r esultats

comptables de 40 entreprises du Royaume Uni.

RETCAP Return on capital employed

WCFTDT Ratio of working capital

ow to total debt

LOGSALE Log to base 10 of total sales

LOGASST Log to base 10 of total assets

CURRAT Current ratio

QUIKRAT Quick ratio

NFATAST Ratio of net


xed assets to total assets

FATTOT Gross sixed assets to total assets

PAYOUT Payout ratio

WCFTCL Ratio of working capital

ow to total current liabilities

GEARRAT Gearing ratio (debt-equity ratio)

CAPINT Capital intensity (ratio of total sales to total assets)

INVTAST Ratio of total inventories to total assets

Mod ele complet

La proc edure SAS/REG est utilis ee dans le programme suivant. Beaucoup d'options

sont actives a
n de fournir la plupart des r esultats m^eme si certains sont redondants ou

peu utiles.

options linesize=110 pagesize=30 nodate nonumber;

title;

proc reg data=sasuser.ukcomp1 all;

4. Inf erences dans le cas gaussien 19

model RETCAP = WCFTCL WCFTDT GEARRAT LOGSALE LOGASST

NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT

/dw covb Influence cli clm tol vif collin R P;

output out=resout h=lev p=pred r=res student=resstu ;

run;

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Prob>F

(1)

Model 12 0.55868 (2) 0.04656 (5) 8.408 (7) 0.0001 (8)

Error 27 0.14951 (3) 0.00554 (6)

C Total 39 0.70820 (4)

Root MSE 0.07441 (9) R-square 0.7889 (12)

Dep Mean 0.14275 (10) Adj R-sq 0.6951 (13)

C.V. 52.12940 (11)

(1) degr es de libert e de la loi de Fisher du test global

(2) SSR

(3) SSE ou d eviance

(4) SST=SSE+SSR

(5) SSR/DF

(6) s2 =MSE=SSE/DF est l'estimation de 2

(7) Statistique F du test de Fisher du mod ele global

(8) P(fp;n􀀀p􀀀1 > F) ; H0 est rejet ee au niveau


si P <

(9) s =racine de MSE


(10) moyenne empirique de la variable a expliqu ee

(11) Coe
cient de variation 100 (9)/(10)

(12) Coe
cient de d etermination R2

(13) Coe
cient de d etermination ajust e R02

Parameter Estimates

Parameter Standard T for H0: Variance

Variable DF Estimate Error Parameter=0 Prob>|T| Tolerance Inflation

(1) (2) (3) (4) (5) (6)

INTERCEP 1 0.188072 0.13391661 1.404 0.1716 . 0.00000000

WCFTCL 1 0.215130 0.19788455 1.087 0.2866 0.03734409 26.77799793

WCFTDT 1 0.305557 0.29736579 1.028 0.3133 0.02187972 45.70441500

GEARRAT 1 -0.040436 0.07677092 -0.527 0.6027 0.45778579 2.18442778

LOGSALE 1 0.118440 0.03611612 3.279 0.0029 0.10629382 9.40788501

LOGASST 1 -0.076960 0.04517414 -1.704 0.0999 0.21200778 4.71680805

...

(1) estimations des param etres (bj )

(2) ecarts-types de ces estimations (sbj )

(3) statistique T du test de Student de H0 : bj = 0

(4) P(tn􀀀p􀀀1 > T) ; H0 est rejet ee au niveau


si P <

(5) 1 􀀀 R2

(j)

(6) VIF=1=(1 􀀀 R2

(j))

Ces r esultats soulignent les probl emes de colin earit es. De grands \VIF" sont associ es

a de grands ecart-types des estimations des param etres. D'autre part les nombreux tests

de Student non signi


catifs montrent que trop de variables sont pr esentes dans le mod ele.

Cette id ee est renforc ee par le calcul de l'indice de conditionnement (explicit e dans la

section suivante : 8.76623/0.00125).

20 Chapitre 2. R egression lin eaire

5 Choix de mod ele

De fa con un peu sch ematique, on peut associer la pratique de la mod elisation statistique

a trois objectifs qui peuvent eventuellement ^etre poursuivis en compl ementarit e.

Descriptif : Il vise a rechercher de fa con exploratoire les liaisons entre Y et d'autres

variables, potentiellement explicatives, Xj qui peuvent ^etre nombreuses a


n, par

exemple d'en s electionner un sous-ensemble. A cette strat egie, a laquelle peuvent

contribuer des Analyses en Composantes Principales, correspond des algorithmes de

recherche (pas a pas) moins performants mais economiques en temps de calcul si p

est grand.

Attention, si n est petit, et la recherche su


samment longue avec beaucoup de variables

explicatives, il sera toujours possible de trouver un \bon" mod ele expliquant

y ; c'est l'e
et data mining dans les mod eles econom etriques appel e maintenant data

snooping.

Explicatif : Le deuxi eme objectif est sous-tendu par une connaissance a priori du domaine

concern e et dont des r esultats th eoriques peuvent vouloir ^etre con


rm es,

in
rm es ou pr ecis es par l'estimation des param etres. Dans ce cas, les r esultats

inf erentiels pr ec edents permettent de construire le bon test conduisant a la prise de

d ecision recherch ee. Utilis ees hors de ce contexte, les statistiques de test n'ont plus

alors qu'une valeur indicative au m^eme titre que d'autres crit eres plus empiriques.

Pr edictif : Dans le troisi eme cas, l'accent est mis sur la qualit e des estimateurs et des

pr edicteurs qui doivent, par exemple, minimiser une erreur quadratique moyenne.

C'est la situation rencontr ee en apprentissage. Ceci conduit a rechercher des mod eles

parcimonieux c'est- a-dire avec un nombre volontairement restreint de variables explicatives.

Le \meilleur" mod ele ainsi obtenu peut donner des estimateurs l eg erement

biais es au pro
t d'un compromis pour une variance plus faible. Un bon mod ele n'est

donc plus celui qui explique le mieux les donn ees au sens d'une d eviance (SSE)

minimale (ou d'un R2 max) au prix d'un nombre important de variables pouvant

introduire des colin earit es. Le bon mod ele est celui qui conduit aux pr edictions les

plus
ables.

Certes, le th eor eme de Gauss-Markov indique que, parmi les estimateurs sans biais, celui

des moindres carr es est de variance minimum. N eanmoins, il peut ^etre important de

pr ef erer un estimateur l eg erement biais e si le gain en variance est lui plus signi
catif. C'est

tout le probl eme de trouver un bon equilibre entre biais et variance a


n de minimiser un

risque quadratique de pr ediction. Il y a principalement deux fa cons de \biaiser" un mod ele

dans le but de restreindre la variance :

en r eduisant le nombre de variables explicatives et donc en simpli


ant le mod ele,

en contraignant les param etres du mod ele, en les r etr ecissant (schrinkage), en r egression

ridge qui op ere une r egularisation.

Commen cons par d ecrire les proc edures de s election.

5.1 Crit eres

De nombreux crit eres de choix de mod ele sont pr esent es dans la litt erature sur la

r egression lin eaire multiple. Citons le crit ere d'information d'Aka• ke (AIC), celui bay esien

de Sawa (BIC). . . (cf. chapitre 3). Ils sont equivalents lorsque le nombre de variables a

s electionner, ou niveau du mod ele, est


x e. Le choix du crit ere est d eterminant lorsqu'il

5. Choix de mod ele 21

s'agit de comparer des mod eles de niveaux di


erents. Certains crit eres se ram enent, dans le

cas gaussien, a l'utilisation d'une expression p enalis ee de la fonction de vraisemblance a


n

de favoriser des mod eles parcimonieux. En pratique, les plus utilis es ou ceux g en eralement

fournis par les logiciels sont les suivants.

Statistique du F de Fisher

Ce crit ere, justi


e dans le cas explicatif car bas e sur une qualit e d'ajustement est aussi

utilis e a titre indicatif pour comparer des s equences de mod eles embo^ t es. La statistique

partielle de Fisher est

(SSR 􀀀 SSRq)=s

SSE=(n 􀀀 p 􀀀 1)

(R2 􀀀 R2

q)

1 􀀀 R2)

n􀀀p􀀀1

dans laquelle l'indice q d esigne les expressions concernant le mod ele r eduit avec (p 􀀀 q)

variables explicatives. On consid ere alors que si l'accroissement (R2􀀀R2

q) est su
samment

grand :

R2 􀀀 R2R

>

(n 􀀀 p 􀀀 1)

F
;q;(n􀀀p􀀀1);

l'ajout des q variables au mod ele est justi


e.

R2 et R2 ajust e

Le coe
cient de d etermination R2 = 1􀀀SSE/SST, directement li e a la d eviance (SSE)

est aussi un indice de qualit e mais qui a la propri et e d'^etre monotone croissant en fonction

du nombre de variables. Il ne peut donc servir qu' a comparer deux mod eles de m^eme

niveau c'est- a-dire avec le m^eme nombre de variables.

En revanche, le R2 ajust e :

R02 = 1 􀀀

n􀀀1

n􀀀p􀀀1

(1 􀀀 R2) = 1 􀀀

SSE=(n 􀀀 p 􀀀 1)

SST=(n 􀀀 1)

dans lequel le rapport SSE/SST est remplac e par un rapport des estimations sans biais

des quantit es 2 et 2

y introduit une p enalisation li ee au nombre de param etres a estimer.

Ce coe
cient s'exprime encore par

1􀀀

(n 􀀀 1)MSE

SST

ainsi dans la comparaison de deux mod eles partageant la m^eme SST, on observe que

R02 > R02j

si et seulement si MSE<MSEj ; MSE et MSEj d esignant respectivement l'erreur

quadratique moyenne du mod ele complet et celle d'un mod ele a j variables explicatives.

Maximiser le R2 ajust e revient donc a minimiser l'erreur quadratique moyenne.

Cp de Mallow

Cet indicateur est une estimation de l'erreur quadratique moyenne de pr ediction qui

s' ecrit aussi comme la somme d'une variance et du carr e d'un biais. L'erreur quadratique

moyenne de pr ediction s ecrit ainsi : :

MSE(byi) = Var(byi) + [Biais(byi)]2

22 Chapitre 2. R egression lin eaire

puis apr es sommation et r eduction :

Xn

i=1

MSE(byi) =

Xn

i=1

Var(byi) +

Xn

i=1

[Biais(byi)]2:
En supposant que les estimations du mod ele complet sont sans biais et en utilisant des estimateurs

de V ar(byi) et 2, l'expression de l'erreur quadratique moyenne totale standardis ee

(ou r eduite) pour un mod ele a j variables explicatives s' ecrit :

Cp = (n 􀀀 q 􀀀 1)

MSEj

MSE 􀀀 [n 􀀀 2(q + 1)]

et d e
nit la valeur du Cp de Mallow pour les q variables consid er ees. Il est alors d'usage

de rechercher un mod ele qui minimise le Cp tout en fournissant une valeur inf erieure et

proche de (q + 1). Ceci revient a consid erer que le \vrai" mod ele complet est moins
able

qu'un mod ele r eduit donc biais e mais d'estimation plus pr ecise.

Aka• ke's Information criterion (AIC)

A compl eter

PRESS de Allen

Il s'agit l'introduction historique de la validation crois ee. On d esigne par by(i) la pr ediction

de yi calcul ee sans tenir compte de la i eme observation (yi; x1i

; : : : ; xp

i ), la somme des erreurs

quadratiques de pr ediction (PRESS) est d e


nie par

PRESS =

Xn

i=1

(yi 􀀀 by(i))2

et permet de comparer les capacit es pr edictives de deux mod eles. Le chapitre 3 donne plus

de d etails sur ce type d'estimation.

5.2 Algorithmes de s election

Lorsque p est grand, il n'est pas raisonnable de penser explorer les 2p mod eles possibles

a
n de s electionner le \meilleur" au sens de l'un des crit eres ci-dessus. Di
erentes

strat egies sont donc propos ees qui doivent ^etre choisies en fonction de l'objectif recherch e

et des moyens de calcul disponibles ! Trois types d'algorithmes sont r esum es ci-dessous par

ordre croissant de temps de calcul n ecessaire c'est- a-dire par nombre croissant de mod eles

consid er es parmi les 2p et donc par capacit e croissante d'optimalit e. On donne pour chaque

algorithme l'option selection a utiliser dans la proc edure REG de SAS.

Pas a pas

S election (forward) A chaque pas, une variable est ajout ee au mod ele. C'est celle dont

la valeur p (\prob value")associ ee a la statistique partielle du test de Fisher qui

compare les deux mod eles est minimum. La proc edure s'arr^ete lorsque toutes les

variables sont introduites ou lorsque p reste plus grande qu'une valeur seuil
x ee par

d efaut a 0; 50.

5. Choix de mod ele 23

Elimination (backward) L'algorithme d emarre cette fois du mod ele complet. A chaque

etape, la variable associ ee a la plus grande valeur p est elimin ee du mod ele. La

proc edure s'arr^ete lorsque les variables restant dans le mod ele ont des valeurs p plus

petites qu'un seuil


x e par d efaut a 0; 10.

Mixte (stepwise) Cet algorithme introduit une etape d' elimination de variable apr es

chaque etape de s election a


n de retirer du mod ele d' eventuels variables qui seraient

devenues moins indispensables du fait de la pr esence de celles nouvellement

introduites.

Global

L'algorithme de Furnival et Wilson est utilis e pour comparer tous les mod eles possibles

en cherchant a optimiser l'un des crit eres : R2, R2 ajust e, ou Cp de Mallow (rsquare,

adjrsq, cp) choisi par l'utilisateur. Par souci d' economie, cet algorithme evite de consid erer

des mod eles de certaines sous-branches de l'arborescence dont on peut savoir a priori

qu'ils ne sont pas comp etitifs. En g en eral les logiciels ex ecutant cet algorithme a
chent le

(best=1) ou les meilleurs mod eles de chaque niveau.

5.3 Exemple

Parmi les trois types d'algorithmes et les di


erents crit eres de choix, une des fa cons les

plus e
caces consistent a choisir les options du programme ci-dessous. Tous les mod eles

(parmi les plus int eressants selon l'algorithme de Furnival et Wilson) sont consid er es. Seul

le meilleur pour chaque niveau, c'est- a-dire pour chaque valeur p du nombre de variables

explicatives sont donn es. Il est alors facile de choisir celui minimisant l'un des crit eres

globaux (Cp ou BIC ou . . . ).

options linesize=110 pagesize=30 nodate nonumber;

title;

proc reg data=sasuser.ukcomp2 ;

model RETCAP = WCFTCL WCFTDT GEARRAT LOGSALE LOGASST

NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT

/ selection=rsquare cp rsquare bic best=1;

run;

N = 40 Regression Models for Dependent Variable: RETCAP

R-square Adjusted C(p) BIC Variables in Model

In R-square

1 0.1055 0.0819 78.3930 -163.26 WCFTCL

2 0.3406 0.3050 50.3232 -173.72 WCFTDT QUIKRAT

3 0.6154 0.5833 17.1815 -191.14 WCFTCL NFATAST CURRAT

4 0.7207 0.6888 5.7146 -199.20 WCFTDT LOGSALE NFATAST CURRAT

5 0.7317 0.6923 6.3047 -198.05 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT

6 0.7483 0.7025 6.1878 -197.25 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT

7 0.7600 0.7075 6.6916 -195.77 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT

8 0.7692 0.7097 7.5072 -193.87 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT
CURRAT

9 0.7760 0.7088 8.6415 -191.59 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST
QUIKRAT

CURRAT

10 0.7830 0.7082 9.7448 -189.15 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST
PAYOUT

QUIKRAT CURRAT

11 0.7867 0.7029 11.2774 -186.40 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT
INVTAST
PAYOUT QUIKRAT CURRAT

24 Chapitre 2. R egression lin eaire

12 0.7888 0.6950 13.0000 -183.51 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT
FATTOT

INVTAST PAYOUT QUIKRAT CURRAT

Dans cet example, Cp et BIC se comportent de la m^eme fa con. Avec peu de variables,

le mod ele est trop biais e. Ils atteignent un minimum pour un mod ele a 4 variables explicatives

puis croissent de nouveau selon la premi ere bissectrice. La maximisation du R2

ajust e conduirait a une solution beaucoup moins parcimonieuse. On note par ailleurs que

l'algorithme remplace WCFTCL par WCFTDT. Un algorithme par s election ne peut pas

aboutir a la solution optimale retenue.

5.4 Choix de mod ele par r egularisation

L'autre strat egie qui cherche a conserver l'ensemble ou tout du moins la plupart des

variables explicatives pose un probl eme de multicolin earit e. Il est r esolu par une proc edure

de r egularisation.

Probl eme

L'estimation des param etres ainsi que celle de leur ecart-type (standard error) n ecessite

le calcul explicite de la matrice (X0X)􀀀1. Dans le cas dit mal conditionn e o u le d eterminant

de la matrice X0X n'est que l eg erement di


erent de 0, les r esultats conduiront a des estimateurs

de variances importantes et m^eme, eventuellement, a des probl emes de pr ecision

num erique. Il s'agit donc de diagnostiquer ces situations critiques puis d'y rem edier. Dans

les cas descriptif ou pr edictif on supprime des variables a l'aide des proc edures de choix de

mod ele mais, pour un objectif explicatif n ecessitant toutes les variables, d'autres solutions

doivent ^etre envisag ees : algorithme de r esolution des equations normales par transformations

orthogonales (proc edure orthoreg de SAS) sans calcul explicite de l'inverse pour

limiter les probl emes num eriques, r egression biais ee (ridge), r egression sur composantes

principales.

VIF

La plupart des logiciels proposent des diagnostics de colin earit e. Le plus classique est

le facteur d'in

ation de la variance (VIF)


Vj =

1 􀀀 R2

o u R2

j d esigne le coe
cient de d etermination de la r egression de la variable Xj sur les

autres variables explicatives ; Rj est alors un coe


cient de corr elation multiple, c'est le

cosinus de l'angle dans IRn entre Xj et le sous-espace vectoriel engendr e par les variables

fX1; : : : ;Xj􀀀1;Xj􀀀1; : : : ;Xpg. Plus Xj est \lin eairement" proche de ces variables et plus

Rj est proche de 1 ; on montre alors que la variance de l'estimateur de


j est d'autant

plus elev ee. Evidemment, cette variance est minimum lorsque Xj est orthogonale au sousespace

engendr e par les autres variables.

5. Choix de mod ele 25

Conditionnement

De fa con classique, les qualit es num eriques de l'inversion d'une matrice sont quanti
ees

par son indice de conditionnement. On note 1; : : : ; p les valeurs propres de la matrice

des corr elations R rang ees par ordre d ecroissant. Le d eterminant de R est egal au produit

des valeurs propres. Ainsi, des probl emes num eriques, ou de variances excessives apparaissent

d es que les derni eres valeurs propres sont relativement trop petites. L'indice de

conditionnement est le rapport

= 1= p

de la plus grande sur la plus petite valeur propre.

En pratique, si < 100 on consid ere qu'il n'y a pas de probl eme. Celui-ci devient s ev ere

pour > 1000. Cet indice de conditionnement donne un aper cu global des probl emes de

colin earit e tandis que les VIF, les tol erances ou encore l' etude des vecteurs propres associ es

au plus petites valeurs propres permettent d'identi


er les variables les plus probl ematiques.

R egression ridge

Ayant diagnostiqu e un probl eme mal conditionn e mais d esirant conserver toutes les

variables, il est possible d'am eliorer les propri et es num eriques et la variance des estimations

en consid erant un estimateur l eg erement biais e des param etres. L'estimateur \ridge" est

donn e par

bR = (X0X + kI)􀀀1X0y;

qui a pour e
et de d ecaler de la valeur k toutes les valeurs propres de la matrice a inverser

et, plus particuli erement, les plus petites qui re

etent la colin earit e. On montre que cela

revient encore a estimer le mod ele par les moindres carr es sous la contrainte que la norme

du vecteur1
des param etres ne soit pas trop grande :

bR = arg min
n

ky 􀀀 X
k2 ; k
k2 < c

C'est encore, en introduisant un multiplicateur de Lagrange dans le probl eme de minimisation,

un probl eme de moindres carr es p enalis es :

bR = arg min
fky 􀀀 X
k2 + k
k2g:

Cela revient a p enaliser la norme de l'estimateur pour emp^echer les coe


cients d'exploser

et donc pour limiter la variance. On parle aussi d'estimateur a r etr ecisseur (shrinkage).

Comme dans tout probl eme de r egularisation, il est n ecessaire de


xer la valeur du param

etre ; la validation crois ee peut ^etre utilis ee a cette


n mais la lecture du graphique

(cf.
gure 2.1) montrant l' evolution des param etres en fonction du coe
cient ridge est

souvent su
sante. La valeur est choisie au point o u la d ecroissance des param etres devient

faible et quasi-lin eaire. Une autre version (lasso) de r egression biais ee est obtenue en

utilisant la norme en valeur absolue pour d e


nir la contrainte sur les param etres.

1En pratique, la contrainte ne s'applique pas au terme constant


0 mais seulement aux coe
cients du

mod ele.

26 Chapitre 2. R egression lin eaire

Fig. 2.1 { Evolution des param etres de la r egression ridge en fonction du param etre de

r egularisation.

R egression sur composantes principales

L'Analyse en Composantes Principales est, entre autres, la recherche de p variables

dites principales qui sont des combinaisons lin eaires des variables initiales de variance

maximale sous une contrainte d'orthogonalit e (cf. Baccini et Besse (2000) pour des d etails).

En d esignant par V la matrice des vecteurs propres de la matrice des corr elations R rang es

dans l'ordre d ecroissant des valeurs propres, les valeurs prises par ces variables principales

sont obtenues dans la matrice des composantes principales

C = (X 􀀀 1 x0)V:

Elles ont chacune pour variance la valeur propre j associ ee. Le sous-espace engendr e par

ces variables principales est le m^eme que celui engendr e par les variables initiales. Il est

donc g eom etriquement equivalent de r egresser Y sur les colonnes de C que sur celles de

X. Les probl emes de colin earit e sont alors r esolu en supprimant les variables principales

de plus faibles variances c'est- a-dire associ ees aux plus petites valeurs propres ou encore

en ex ecutant un algorithme de choix de mod ele sur les composantes.

La solution obtenue pr esente ainsi de meilleures qualit es pr edictives mais, les coe
-

cients de la r egression s'appliquant aux composantes principales, un calcul compl ementaire

est n ecessaire a
n d' evaluer et d'interpr eter les e
ets de chacune des variables initiales.

R egression PLS

Une dermi ere approche est largement utilis ee a


n de pourvoir traiter les situations

avec une forte multicolin earit e et m^eme, lorsque le nombre d'observations est inf erieur au

nombre de pr edicteurs. Il s'agit de la r egression PLS (partial least square). Comme pour la

r egression sur composantes principales, celle-ci est d ecompos ee sur une base orthogonale

contruite a partir de combinaisons lin eaires des variables explicatives centr ees r eduites mais

la construction de cette base d epend de la corr elation des pr edicteurs avec Y . Il s'agit d'une

d emarche it erative. A chaque etape, est recherch ee la combinaison lin eaire orthogonales

aux solutions pr ec edentes et la plus li ee a la variable a expliquer. La premi ere etape est

obtenue par la r egression de Y sur chacune des variables explicatives.

Algorithme 2.1 : R egression PLS

6. Compl ements 27

Initialisation Les variables Xj sont centr ees et r eduites,

on pose by(0) = 1y et x

(0)

j = xj ; j = 1; : : : ; p.

Pour m = 1 a p Faire

{ zm =

Pp

j=1
mjx

(m􀀀1)

j ; avec
mj =

(m􀀀1)

j;y

{ m = hzm; yi = hzm; zmi .

{ by(m) = by(m􀀀1) + mzm.

{ Orthogonalisation : x(m)
j = x(m􀀀1)

j􀀀

hD

x(m􀀀1)

j ; zm

= hzm; zmi

zm ; j = 1; : : : ; p.

Fin pour

Le r esulat est by(q) apr es un choix de m = q composantes. Les coe


cients sur les

variables explicatives initiales sont donn es par :


pls

j=

Pq

l=1
lj l.

6 Compl ements

6.1 Mod eles curvilin eaires

En cas d'invalidation de l'hypoth ese de lin earit e, il peut ^etre int eressant de consid erer

des mod eles polyn^omiaux, tr es classiques pour d ecrire des ph enom enes physiques, de la

forme

Y=
0+ +
jXj + +

klXkXl + +
jXj2

qui sont encore appel es surfaces de r eponse en planni


cation exp erimentale. Ces mod eles

sont faciles a etudier dans le cadre lin eaire, il su


t d'ajouter des nouvelles variables

constitu ees des produits ou des carr es des variables explicatives initiales. Les choix :

pr esence ou non d'une interaction entre deux variables, pr esence ou non d'un terme quadratique

se traitent alors avec les m^emes outils que ceux des choix de variable mais en

int egrant une contrainte lors de la lecture des r esultats : ne pas consid erer des mod eles

incluant des termes quadratiques dont les composants lin eaires auraient et e exclus ou encore,

ne pas supprimer d'un mod ele une variable d'un e


et lin eaire si elle intervient dans

un terme quadratique.

La proc edure rsreg de SAS est plus particuli erement adapt ee aux mod eles quadratiques.

Elle ne comporte pas de proc edure de choix de mod ele mais fournit des aides et

diagnostics sur l'ajustement de la surface ainsi que sur la recherche des points optimaux.

Attention : Ce type de mod ele accro^ t consid erablement les risques de colin earit e, il

est peu recommand e de consid erer des termes cubiques.

6.2 In

uence, r esidus, validation

Avant toute tentative de mod elisation complexe, il est imp eratif d'avoir conduit des

analyses uni et bivari ees a


n d'identi
er des probl emes sur les distributions de chacune

des variables : dissym etrie, valeurs atypiques (outliers) ou sur les liaisons des variables

prises deux par deux : non-lin earit e. Ces pr eliminaires acquis, des aides ou diagnostics

associ es a la r egression lin eaire multiple permettent de d etecter des violations d'hypoth eses

(homosc edasticit e, lin earit e) ou des points in

uents dans ce contexte multidimensionnel

(cf.
gure 2.2).

28 Chapitre 2. R egression lin eaire

Points in

uents

Comme toute m ethode quadratique, l'estimation des param etres est tr es sensible a

la pr esence de points extr^emes susceptibles de perturber gravement les r esultats. Une

observation est in

uente sur les param etres d'une r egression si, a la fois,

elle est eloign ee du barycentre, et ce dans la direction d'un vecteur propre associ e a

une petite valeur propre (e


et levier),

elle provoque un grand r esidu.

L'observation de la diagonale de la matrice H (hat matrix) r ev ele un e


et levier potentiel

tandis que l'analyse des r esidus studentis es pointe ceux susceptibles de poser des probl emes

(valeur absolue plus grande que 2).

Les deux diagnostics pr ec edents sont combin es dans des mesures synth etiques propos

ees par di
erents auteurs. La plus utilis ee est la distance de Cook

Di =

s2(p + 1)

(by 􀀀by(i))0(by 􀀀by(i)) =

hii

1 􀀀 hii

r2

(p + 1)

qui quanti
e l'in

uence de la i- eme observation sur l' ecart entre le pr edicteur by et le

pr edicteur by(i) calcul e sans cette i eme observation. On conclut a une in

uence de l'observation

i lorsque la valeur de Di d epasse 1.

Tous ces crit eres sont illustr es dans les graphiques de la


gure 2.2. Les tableaux cidessous

fournis pas SAS illustrent ces quantit es sur l'exemple des donn ees comptables.

Dep Var Predict Std Err Lower95 Upper95 Lower95 Upper95 Std Err Student

Obs RETCAP Value Predict Mean Mean Predict Predict Residual Residual Residual

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

1 0.2600 0.2716 0.053 0.1625 0.3808 0.0839 0.4593 -0.0116 0.052 -0.223

2 0.5700 0.3690 0.039 0.2882 0.4497 0.1962 0.5417 0.2010 0.063 3.183

3 0.0900 0.00897 0.063 -0.1205 0.1385 -0.1912 0.2092 0.0810 0.039 2.055

4 0.3200 0.2335 0.021 0.1903 0.2768 0.0748 0.3922 0.0865 0.071 1.212

5 0.1700 0.1164 0.046 0.0215 0.2113 -0.0634 0.2961 0.0536 0.058 0.920

...

Cook's Hat Diag Cov INTERCEP WCFTCL WCFTDT

Obs -2-1-0 1 2 D Rstudent H Ratio Dffits Dfbetas Dfbetas Dfbetas

(11) (12) (13) (14) (15) (15) (15) (15) (15)

1 | | | 0.004 -0.2194 0.5109 3.2603 -0.2242 0.0299 0.0632 -0.0911

2 | |******| 0.302 3.9515 0.2795 0.0050 2.4611 0.9316 -0.3621 0.3705

3 | |**** | 0.832 2.1955 0.7192 0.6375 3.5134 0.5543 2.1916 -2.0241

4 | |** | 0.010 1.2228 0.0803 0.8585 0.3613 -0.0132 -0.0835 0.1207

5 | |* | 0.041 0.9175 0.3864 1.7591 0.7280 -0.0386 0.0906 0.0060

...

6. Compl ements 29

Fig. 2.2 { Graphe des r esidus studentis es, de la diagonale de la matrice H et de la distance

de Cook en fonction des valeurs pr edites.

(1) variable a expliquer yi

(2) valeur ajust ee byi

(3) ecart-type de cette estimationsbyi

(4)et (5) Intervalle de con


ance pour l'estimation de E(yi)

(6) et (7) Intervalle de con


ance pour l'estimation de yi

(8) r esidus calcul es ei

(9) ecarts-types de ces estimations

(10) r esidus standardis es (ou studentis es internes) ri

(11) rep erage graphique des r esidus standardis es : = 0:5.

(12) Distance de Cook

(13) r esidus studentis es (externes) ti

(14) Termes diagonaux de la matrice chapeau H

(15) autres indicateurs d'in

uence

Sum of Residuals 0

Sum of Squared Residuals 0.1495 (SSE)

Predicted Resid SS (Press) 1.0190 (PRESS)

R egression partielle

Un mod ele de r egression multiple est une technique lin eaire. Il est raisonnable de s'interroger

sur la pertinence du caract ere lin eaire de la contribution d'une variable explicative

a l'ajustement du mod ele. Ceci peut ^etre r ealis e en consid erant une r egression partielle.

On calcule alors deux r egressions :

la r egression de Y sur les variables X1; : : : ;Xj􀀀1;Xj+1; : : : ;Xp, dans laquelle la

j eme variable est omise, soit ry(j) le vecteur des r esidus obtenus.

La r egression de Xj sur les variables X1; : : : ;Xj􀀀1;Xj+1; : : : ;Xp. Soit rx(j) le vecteur

des r esidus obtenus.

La comparaison des r esidus par un graphe (nuage de points ry(j) rx(j)) permet alors de

repr esenter la nature de la liaison entre Xj et Y conditionnellement aux autres variables

explicatives du mod ele.

30 Chapitre 2. R egression lin eaire

Fig. 2.3 { Graphe des valeurs observ ees en fonction des valeurs pr edites et droite de Henri

des r esidus (normal qq-plot).

Graphes

Di
erents graphiques permettent
nalement de contr^oler le bien fond e des hypoth eses

de lin earit e, d'homosc edasticit e, eventuellement de normalit e des r esidus.

Le premier consid ere le nuage de points des r esidus studentis es crois es avec les valeurs

pr edites. Les points doivent ^etre uniform ement r epartis entre les bornes 􀀀2 et +2 et

ne pas pr esenter de formes suspectes (cf.


gure 2.2).

Le deuxi eme croise les valeurs observ ees de Y avec les valeurs pr edites. Il illustre

le coe
cient de d etermination R qui est aussi la corr elation lin eaire simple entre

by

et y. Les points doivent s'aligner autour de la premi ere bissectrice. Il peut ^etre

compl et e par l'intervalle de con


ance des yi ou celui de leurs moyennes. (cf.
gure

2.3).

La qualit e, en terme de lin earit e, de l'apport de chaque variable est etudi ee par

des r egressions partielles. Chaque graphe de r esidus peut ^etre compl et e par une

estimation fonctionnelle ou r egression non-param etrique (loess, noyau, spline) a


n

d'en facilit e la lecture.

Le dernier trace la droite de Henri (Normal QQplot) des r esidus dont le caract ere

lin eaire de la repr esentation donne une id ee de la normalit e de la distribution. (cf.


gure 2.3)

7 Analyse de variance a un facteur

7.1 Introduction

Les techniques dites d'analyse de variance sont des outils entrant dans le cadre g en eral

du mod ele lin eaire et o u une variable quantitative est expliqu ee par une ou plusieurs

variables qualitatives. L'objectif essentiel est alors de comparer les moyennes empiriques

de la variable quantitative observ ees pour di


erentes cat egories d'unit es statistiques. Ces

cat egories sont d e


nies par l'observation des variables qualitatives ou facteurs prenant

di
erentes modalit es ou encore de variables quantitatives d ecoup ees en classes ou niveaux.

7. Analyse de variance a un facteur 31

Une combinaison de niveaux d e


nit une cellule, groupe ou traitement.

Il s'agit donc de savoir si un facteur ou une combinaison de facteurs (interaction) a

un e
et sur la variable quantitative en vue, par exemple, de d eterminer des conditions

optimales de production ou de fabrication, une dose optimale de m edicaments. . . . Ces

techniques apparaissent aussi comme des cas particuliers de la r egression lin eaire multiple

en associant a chaque modalit e une variable indicatrice (dummy variable) et en cherchant a

expliquer une variable quantitative par ces variables indicatrices. L'appellation \analyse de

variance" vient de ce que les tests statistiques sont b^atis sur des comparaisons de sommes

de carr es de variations.

L'analyse de variance est souvent utilis ee pour analyser des donn ees issue d'une plani-
cation exp erimentale au cours de laquelle l'exp erimentateur a la possibilit e de contr^oler

a priori les niveaux des facteurs avec pour objectif d'obtenir le maximum de pr ecision au

moindre co^ut. Ceci conduit en particulier a construire des facteurs orthogonaux deux a

deux (variables explicatives non lin eairement corr el ees) a


n de minimiser la variance des

estimateurs. On distingue le cas particulier important o u les cellules ont le m^eme e


ectif,

on parle alors de plan orthogonal ou equir ep et e ou equilibr e (balanced), qui conduit

a des simpli
cations importantes de l'analyse de variance associ ee. On appelle plan complet

un dispositif dans lequel toutes les combinaisons de niveaux ont et e exp eriment ees.

On distingue entre des mod eles


xes, al eatoires ou mixtes selon le caract ere d eterministe

(contr^ol e) ou non des facteurs par exemple si les modalit es r esultent d'un choix al eatoire

parmi un grand nombre de possibles. Dans cette courte introduction seuls le mod ele
xe

a un facteur est consid er e.

L'analyse de variance a un facteur est un cas particulier d' etude de relations entre

deux variables statistiques : une quantitative Y admettant une densit e et une qualitative

X ou facteur qui engendre une partition ou classi


cation de l' echantillon en J groupes,

cellules ou classes indic ees par j. L'objectif est de comparer les distributions de Y pour

chacune des classes en particulier les valeurs des moyennes et variances. Un pr ealable descriptif

consiste a r ealiser un graphique constitu e de diagrammes boites parall eles : une pour

chaque modalit e. Cette repr esentation donne une premi ere appr eciation de la comparaison

des distributions (moyenne, variance) internes a chaque groupe. Les sp eci


cit es de la

plani
cation d'exp erience ne sont pas abord ees dans ce cours ax e sur la fouille de donn ees

pour laquelle les donn ees sont justement pr ealablement fournies. Les plans d'exp erience

sont surtout utilis es en milieu industriel : contr^ole de qualit e, optimisation des processus

de production, ou en agronomie pour la s election de vari et es, la comparaison d'engrais,

d'insecticides. . . . La bibliographie est abondante sur ce sujet.

7.2 Mod ele

Pour chaque niveau j de X, on observe nj valeurs y1j ; : : : ; ynj j de la variable Y et o u

n=

PJ

j=1 nj (n > J) est la taille de l' echantillon. On suppose qu' a l'int erieur de chaque

cellule, les observations sont ind ependantes equidistribu ees de moyenne j et de variance

homog ene 2

j = 2. Ceci s' ecrit :

yij = j + "ij

o u les "ij sont i.i.d. suivant une loi centr ee de variance 2 qui sera suppos ee N(0; 2)

pour la construction des tests. Cette derni ere hypoth ese n' etant pas la plus sensible. Les

esp erances j ainsi que le param etre de nuisance 2 sont les param etres inconnus a estimer.

32 Chapitre 2. R egression lin eaire

On note respectivement :

y:j =

nj

Xnj

i=1

yij ;

s2j

nj 􀀀 1

Xnj

i=1
(yij 􀀀 y:j)2;

y:: =

Xnj

i=1

XJ

j=1

yij ;

les moyennes et variances empiriques de chaque cellule, la moyenne g en erale de l' echantillon.

Les param etres j sont estim es sans biais par les moyennes y:j et comme le mod ele

s' ecrit alors :

yij = y:j + (yij 􀀀 y:j);

l'estimation des erreurs est eij = (yij 􀀀 y:j) tandis que les valeurs pr edites sont byij = y:j.

Sous l'hypoth ese d'homog en eit e des variances, la meilleure estimation sans biais de 2

est

s2 =

PJ

j=1

Pnj

i=1(yij 􀀀 y:j)2

n􀀀J

n􀀀J

[(n 􀀀 1)s21

+ + (nJ 􀀀 1)s2

J]

qui s' ecrit donc comme une moyenne pond er ee des variances empiriques de chaque groupe.

Notons y le vecteur des observations [yij ji = 1; nj ; j = 1; J]0 mis en colonne, " =

["ij ji = 1; nj ; j = 1; J]0 le vecteur des erreurs, 1j les variables indicatrices des niveaux et
1 la colonne de 1s. Le i eme el ement d'une variable indicatrice (dummy variable) 1j prend

la valeur 1 si la i eme observation yi est associ ee au j eme et 0 sinon.

Comme dans le cas de la r egression lin eaire multiple, le mod ele consiste a ecrire que

l'esp erance de la variable Y appartient au sous-espace lin eaire engendr e par les variables

explicatives, ici les variables indicatrices :

y=
01 +
111 + +
J1J + ":

La matrice X alors construite n'est pas de plein rang p + 1 mais de rang p. La matrice

X0X n'est pas inversible et le mod ele admet une in


nit e de solutions. Nous disons que

les param etres


j ne sont pas estimables ou identi
ables. En revanche, certaines fonctions

(combinaisons lin eaires) de ces param etres sont estimables et appel ees contrastes.

Dans le cas du mod ele d'analyse de variance a un facteur, la solution la plus simple

adopt ee consiste a consid erer un sous-ensemble des indicatrices ou de combinaisons des

indicatrices engendrant le m^eme sous-espace de fa con a aboutir a une matrice inversible.

Ceci conduit a consid erer di


erents mod eles associ es a di
erentes param etrisation. Attention,

les param etres


j ainsi que la matrice X prennent a chaque fois des signi
cations

di
erentes.

Un premier mod ele (cell means model) s' ecrit comme celui d'une r egression lin eaire

multiple sans terme constant avec


= [ 1; : : : ; J ]0 le vecteur des param etres :

y=
111 + +
J1J + "

y=X
+ ":

7. Analyse de variance a un facteur 33

Les calculs se pr esentent simplement mais les tests d ecoulant de ce mod ele conduiraient a

etudier la nullit e des param etres alors que nous sommes int eress es par tester l' egalit e des

moyennes.

Une autre param etrisation, consid erant cette fois le vecteur


= [ J ; 1􀀀 J ; : : : ; J􀀀1􀀀

J ]0 conduit a ecrire le mod ele (base cell model) de r egression avec terme constant :

y=
01 +
111 + +
J􀀀11J􀀀1 + ":

C'est celle de SAS alors que d'autres logiciels consid erent des param etres d'e
et di
erentiel

j 􀀀 : par rapport a l'e


et moyen : = 1=J

PJ

j=1 j. Ce dernier est encore un mod ele

(group e
ect model) de r egression lin eaire avec terme constant mais dont les variables

explicatives sont des di


erences d'indicatrices et avec
= [ :; 1 􀀀 :; : : : ; J􀀀1 􀀀 :]0 :

y=
01 +
1(11 􀀀 1J ) + +
J􀀀1(1J􀀀1 􀀀 1J ) + ":

7.3 Test

On d esigne les di
erentes sommes des carr es des variations par :

SST =

XJ

j=1

Xnj

i=1

(yij 􀀀 y::)2 =

XJ

j=1

Xnj

i=1

y2

ij 􀀀 n y2

::;

SSW =

XJ

j=1

Xnj

i=1

(yij 􀀀 y:j)2 =

XJ

j=1

Xnj

i=1

y2

ij 􀀀

XJ

j=1
nj y2

:j ;

SSB =

XJ

j=1

nj( y:j 􀀀 y::)2 =

XJ

j=1

nj y2

:j 􀀀 n y2

::;

o u \T" signi
e totale, \W" (within) intra ou r esiduelle, \B" (between) inter ou expliqu ee

par la partition. Il est facile de v eri


er que SST=SSB+SSW.

On consid ere alors l'hypoth ese

H0 : 1 = = J;

qui revient a dire que la moyenne est ind ependante du niveau ou encore que le facteur n'a

pas d'e
et, contre l'hypoth ese

H1 : 9(j; k) tel que j 6= k

qui revient a reconna^ tre un e


et ou une in

uence du facteur sur la variable Y .

Dans les mod eles pr ec edents, l' etude de cette hypoth ese revient a comparer par un

test de Fisher un mod ele complet (les moyennes sont di


erentes) avec un mod ele r eduit

supposant la nullit e des param etres


j et donc l' egalit e des moyennes a celle de la derni ere

cellule ou a la moyenne g en erale.

Les r esultats n ecessaires a la construction du test qui en d ecoule sont r esum es dans la

table d'analyse de la variance :

34 Chapitre 2. R egression lin eaire

Source

de

variation

d.d.l.

Somme

des carr es Variance F

Mod ele (inter) J 􀀀 1 SSB MSB=SSB/(J 􀀀 1) MSB/MSW

Erreur (intra) n 􀀀 J SSW MSW=SSW/(n 􀀀 J)

Total n 􀀀 1 SST

Pratiquement, un programme de r egression usuel permet de construire estimation et test

de la nullit e des
j sauf pour le premier mod ele qui doit tester l' egalit e au lieu de la nullit e

des param etres.

Dans le cas de deux classes (J = 2) on retrouve un test equivalent au test de Student

de comparaison des moyennes de deux echantillons ind ependants. Si l'hypoth ese nulle est

rejet ee, la question suivante consiste a rechercher quelles sont les groupes ou cellules qui

poss edent des moyennes signi


cativement di
erentes. De nombreux tests et proc edures

ont et e propos es dans la litt erature pour r epondre a cette question. En


n, l'hypoth ese

importante du mod ele induit par l'analyse de variance est l'homog en eit e des variances de

chaque groupe. Conjointement a l'estimation du mod ele et en supposant la normalit e, il

peut ^etre instructif de contr^oler cette homog en eit e par un test.

8 Analyse de covariance

L'analyse de covariance se situe encore dans le cadre g en eral du mod ele lin eaire et o u

une variable quantitative est expliqu ee par plusieurs variables a la fois quantitatives et

qualitatives. Dans les cas les plus complexes, ont peut avoir plusieurs facteurs (variables

qualitatives) avec une structure crois ee ou hi erarchique ainsi que plusieurs variables quantitatives

intervenant de mani ere lin eaire ou polyn^omiale. Le principe g en eral, dans un but

explicatif ou d ecisionnel, est toujours d'estimer des mod eles \intra-groupes" et de faire

appara^ tre (tester) des e


ets di
erentiels \inter-groupes" des param etres des r egressions.

Ainsi, dans le cas plus simple o u seulement une variable parmi les explicatives est quantitative,

nous sommes amen es a tester l'h et erog en eit e des constantes et celle des pentes

(interaction) entre di
erents mod eles de r egression lin eaire.

Ce type de mod ele permet donc, toujours avec un objectif pr edictif, de s'int eresser a

la mod elisation d'une variable quantitative par un ensemble de variables explicatives a

la fois quantitatives et qualitatives. La possible prise en compte d'interactions complique

singuli erement la proc edure de s election de variables.

8.1 Mod ele

Le mod ele est explicit e dans le cas el ementaire o u une variable quantitative Y est

expliqu ee par une variable qualitative T a J niveaux et une variable quantitative, appel ee

encore covariable, X. Pour chaque niveau j de T, on observe nj valeurs x1j ; : : : ; xnj j de

X et nj valeurs y1j; : : : ; ynjj de Y ; n =

PJ

j=1 nj est la taille de l' echantillon.

En pratique, avant de lancer une proc edure de mod elisation et tests, une d emarche

exploratoire s'appuyant sur une repr esentation en couleur (une par modalit e j de T) du

nuage de points croisant Y et X et associant les droites de r egression permet de se faire une
8. Analyse de covariance 35

id ee sur les e
ets respectifs des variables : parall elisme des droites, etirement, imbrication

des sous-nuages.

On suppose que les moyennes conditionnelles E[Y jT], c'est- a-dire calcul ees a l'int erieur

de chaque cellule, sont dans le sous-espace vectoriel engendr e par les variables explicatives

quantitatives, ici X. Ceci s' ecrit :

yij =
0j +
1jxij + "ij ; j = 1; : : : ; J; i = 1; ; nj

o u les "ij sont i.i.d. suivant une loi centr ee de variance 2 qui sera suppos ee N(0; 2) pour

la construction des tests.

Notons y le vecteur des observations [yij ji = 1; nj ; j = 1; J]0 mis en colonne, x le

vecteur [xij ji = 1; nj; j = 1; J]0, " = ["ij ji = 1; nj ; j = 1; J]0 le vecteur des erreurs, 1j les

variables indicatrices des niveaux et 1 la colonne de 1s. On note encore x:1j le produit

terme a terme des deux vecteurs, c'est- a-dire le vecteur contenant les observations de X

sur les individus prenant le niveau j de T et des z eros ailleurs.

La r esolution simultan ee des J mod eles de r egression est alors obtenue en consid erant

globalement le mod ele :

y=X
+"

dans lequel X est la matrice n 2J constitu ee des blocs [1j jx:1j ] ; j = 1; : : : ; J. L'estimation

de ce mod ele global conduit, par bloc, a estimer les mod eles de r egression dans chacune

des cellules.

Comme pour l'analyse de variance, les logiciels op erent une reparam etrisation faisant

appara^ tre des e


ets di
erentiels par rapport au dernier niveau (SAS/GLM, SAS/INSIGHT)

ou par rapport a un e
et moyen (Systat), a
n d'obtenir directement les bonnes hypoth eses

dans les tests. Ainsi, dans le premier cas, on consid ere la matrice de m^eme rang (sans la

J eme indicatrice)

X = [1jxj11j j1J􀀀1jx:11j jx:1J􀀀1]

associ ee aux mod eles :

yij =
0J + (
0j 􀀀
0J ) +
1Jxij + (
1j 􀀀
1J )xij + "ij ; j = 1; : : : ; J 􀀀 1; i = 1; : : : ; nj :

8.2 Tests

Di
erentes hypoth eses sont alors test ees en comparant le mod ele complet

y=
0J1 + (
01 􀀀
0J )11 + +(
0J􀀀1 􀀀
0J )1J􀀀1 +
1Jx +

+(
11 􀀀
1J )x:11 + +(
1J􀀀1 􀀀
1J )x:1J􀀀1 + "

a chacun des mod eles r eduits :

(i) y =
0J1 + (
01 􀀀
0J )11 + +(
0J􀀀1 􀀀
0J )1J􀀀1 +
1Jx + "

(ii) y =
0J1 + (
01 􀀀
0J )11 + +(
0J􀀀1 􀀀
0J )1J􀀀1 +

+(
1j 􀀀
1J )x:11 + +(
1J􀀀1 􀀀
1J )x:1J􀀀1 + "

(iii) y =
0J1 +
1Jx + (
1j 􀀀
1J )x:11 + +(
1J􀀀1 􀀀
1J )x:1J􀀀1 + "

par un test de Fisher. Ceci revient a consid erer les hypoth eses suivantes :

36 Chapitre 2. R egression lin eaire

Hi0

: pas d'interaction,
11 = =
1J , les droites partagent la m^eme pente
1J ,

Hii

0:
1J=0,

Hiii

0:
01 = =
0J , les droites partagent la m^eme constante a l'origine
0J .

On commence donc par evaluer i), si le test n'est pas signi


catif, on regarde ii) qui,

s'il n'est pas non plus signi


catif, conduit a l'absence d'e
et de la variable X. De m^eme,

toujours si i) n'est pas signi


catif, on s'int eresse a iii) pour juger de l'e
et du facteur T.

8.3 Choix de mod ele

Ce cadre th eorique et les outils informatiques (SAS/GLM) permettent de consid erer

des mod eles beaucoup plus complexes incluant plusieurs facteurs, plusieurs variables quantitatives,

voire des polyn^omes de celles-ci, ainsi que les diverses interactions entre qualitatives

et quantitatives. Le choix du \bon" mod ele devient vite complexe d'autant que la

strat egie d epend, comme pour la r egression lin eaire multiple, de l'objectif vis e :

descriptif : des outils multidimensionnels descriptifs (ACP, AFD, AFCM. . . ) s'av erent

souvent plus e
caces pour s electionner, en premi ere approche, un sous-ensemble de

variables explicatives avant d'op erer une mod elisation,

explicatif : de la prudence est requise d'autant que les hypoth eses ne peuvent ^etre

evalu ees de fa con ind ependante surtout si, en plus, des cellules sont d es equilibr ees

ou vides,

pr edictif : la recherche d'un mod ele e


cace, donc parcimonieux, peut conduire a n egliger

des interactions ou e
ets principaux lorsqu'une faible am elioration du R2 le justi
e

et m^eme si le test correspondant appara^ t comme signi


catif. L'utilisation du Cp

est th eoriquement possible mais en g en eral ce crit ere n'est pas calcul e et d'utilisation

d elicate car n ecessite la consid eration d'un \vrai" mod ele de r ef erence ou tout

du moins d'un mod ele de faible biais pour obtenir une estimation raisonnable de

la variance de l'erreur. En revanche AIC et PRESS donnent des indications plus

pertinentes. L'algorithme de recherche descendant est le plus couramment utilis e

avec la contrainte suivante : un e


et principal n'est supprim e qu' a la condition qu'il

n'apparaisse plus dans une interaction.

8.4 Exemple

Les donn ees, extraites de Jobson (1991), sont issues d'une etude marketing visant a

etudier l'impact de di
erentes campagnes publicitaires sur les ventes de di
erents aliments.

Un echantillon ou \panel" de familles a et e constitu e en tenant compte du lieu d'habitation

ainsi que de la constitution de la famille. Chaque semaine, chacune de ces familles ont

rempli un questionnaire d ecrivant les achats r ealis es. Nous nous limitons ici a l' etude de

l'impact sur la consommation de lait de quatre campagnes di


us ees sur des cha^ nes locales

de t el evision. Quatre villes, une par campagne publicitaire, ont et e choisies dans cinq

di
erentes r egions g eographiques. Les consommations en lait par chacune des six familles

par ville alors et e mesur ees (en dollars) apr es deux mois de campagne.

Les donn ees se pr esentent sous la forme d'un tableau a 6 variables : la r egion g eographique,

les 4 consommations pour chacune des villes ou campagnes publicitaires di


us ees, la taille

de la famille. Cette situation est celle classique d'un mod ele d'analyse de variance. Nous

choisissons ici de conserver quantitative la variable taille de la famille et donc de mod eliser

8. Analyse de covariance 37

la consommation de lait par un mod ele d'analyse de covariance plus economique en degr es

de libert e moins de param etres sont a estimer.

On s'int eresse a di
erents mod eles de r egression visant a expliquer la consommation

en fonction de la taille de la famille conditionnellement au type de campagne publicitaire.


proc glm data=sasuser.milk;

class pub;

model consom=pub taille pub*taille;

run;

Les r esultats ci-dessous conduiraient a conclure a une forte in

uence de la taille mais

a l'absence d'in

uence du type de campagne. Les droites de r egression ne semblent pas

signi
cativement di
erentes.

Source DF Type III SS Mean Square F Value Pr > F

PUB 3 227.1807 75.7269 0.57 0.6377 (1)

TAILLE 1 40926.0157 40926.0157 306.57 0.0001 (2)

TAILLE*PUB 3 309.8451 103.2817 0.77 0.5111 (3)

(1) Test de la signi


cativit e des di
erences des termes constants.

(2) Test de l'in

uence du facteur quantitatif.

(3) Test de la signi


cativit e des di
erences des pentes (interaction).

N eanmoins, pris d'un doute, le m^eme calcul est e


ectu e s epar ement pour chaque

r egion :

proc glm data=sasuser.milk;

by region;

class pub;

model consom=pub taille pub*taille;

run;

R egion Source DF Type III SS Mean Square F Value Pr > F

PUB 3 72.02974 24.00991 4.62 0.0164

1 TAILLE 1 7178.32142 7178.32142 1380.25 0.0001

TAILLE*PUB 3 217.37048 72.45683 13.93 0.0001

PUB 3 231.73422 77.24474 30.36 0.0001

2 TAILLE 1 8655.25201 8655.25201 3402.34 0.0001

TAILLE*PUB 3 50.15069 16.71690 6.57 0.0042

PUB 3 79.54688 26.51563 6.01 0.0061

3 TAILLE 1 6993.30160 6993.30160 1585.35 0.0001

TAILLE*PUB 3 173.19305 57.73102 13.09 0.0001

PUB 3 415.66664 138.55555 15.23 0.0001

4 TAILLE 1 9743.37830 9743.37830 1071.32 0.0001

TAILLE*PUB 3 361.39556 120.46519 13.25 0.0001

PUB 3 15.35494 5.11831 0.79 0.5168

5 TAILLE 1 8513.28516 8513.28516 1314.71 0.0001

TAILLE*PUB 3 52.75119 17.58373 2.72 0.0793

Il appara^ t alors qu' a l'int erieur de chaque r egion (sauf r egion 5), les campagnes de

publicit e ont un e
et tant sur la constante que sur la pente.

38 Chapitre 2. R egression lin eaire

Ceci incite donc a se m e


er des interactions (l'e
et r egion compense l'e
et publicit e)

et encourage a toujours conserver le facteur bloc (ici la r egion) dans une analyse de variance.

Une approche compl ete, consid erant a priori toutes les variables (3 facteurs), est

ici n ecessaire (cf. TP).

Compl eter : choix automatique avec AIC.

9. Introduction 39

9 Introduction

Dans ce chapitre, nous d e


nissons le contexte pratique de la r egression logistique

qui s'int eressent plus particuli erement a la description ou l'explication d'observations

constitu es d'e
ectifs comme, par exemple, le nombre de succ es d'une variable de Bernouilli

lors d'une s equence d'essais. Nous laissons de cot e le mod ele log-lin eaire (voir Agresti (1990)

pour un expos e d etaill e) qui vise a expliquer un nombre d'individus prenant une combinaison

donn ee de modalit es de variables qualitatives ou niveaux de facteurs. Contrairement

aux mod eles du chapitre pr ec edent bas es sur l'hypoth ese de normalit e des observations, les

lois concern ees sont discr etes et associ ees a des d enombrements : loi de Poisson, binomiale,

multinomiale. N eanmoins, tous ces mod eles appartiennent a la famille du mod ele lin eaire

g en eral (annexe) et partagent a ce titre beaucoup d'aspects (estimation, tests, diagnostic)

et dont la strat egie de mise en uvre, similaire au cas gaussien, n'est pas reprise.

10 Odds et odds ratio

Une variable

Soit Y une variable qualitative a J modalit es. On d esigne la chance ou l'odds2 de voir

se r ealiser la j eme modalit e plut^ot que la k eme par le rapport

jk =

o u j est la probabilit e d'apparition de la j eme modalit e. Cette quantit e est estim ee par

le rapport nj=nk des e


ectifs observ es sur un echantillon. Lorsque la variable est binaire

et suit une loi de Bernouilli de param etre , l'odds est le rapport =(1 􀀀 ) qui exprime

une cote ou chance de gain.

Table de contingence

On consid ere maintenant une table de contingence 2 2 croisant deux variables qualitatives

binaires X1 et X2. les param etres de la loi conjointe se mettent dans une matrice :

11 12

21 22
o u ij = P[fX1 = ig et fX2 = jg] est la probabilit e d'occurence de chaque combinaison.

Dans la ligne 1, l'odds que la colonne 1 soit prise plut^ot que la colonne 2 est :

1=

11

12

Dans la ligne 2, l'odds que la colonne 1 soit prise plut^ot que la colonne 2 est :

2=

21

22

2Il n'existe pas, m^eme en Qu eb ecois, de traduction consensuelle de \odds".

40 Chapitre 2. R egression lin eaire

On appelle odds ratio le rapport

11 22

12 21

Ce rapport prend la valeur 1 si les variables sont ind ependantes, il est sup erieur a 1 si les

sujets de la ligne 1 ont plus de chances de prendre la premi ere colonne que les sujets de la

ligne 2 et inf erieur a 1 sinon.

L'odds ratio est egalement d e


ni pour deux lignes (a; b) et deux colonnes (c; d) quelconques

d'une table de contingence croisant deux variables a J et K modalit es. L'odds

ratio est le rapport

abcd =

ac bd

ad bc

estim e par l'odds ratio empirique b

abcd =

nacnbd

nadnbc

11 R egression logistique

11.1 Type de donn ees

Cette section d ecrit la mod elisation d'une variable qualitative Z a 2 modalit es : 1

ou 0, succ es ou echec, pr esence ou absence de maladie, panne d'un equipement, faillite

d'une entreprise, bon ou mauvais client. . . . Les mod eles de r egression pr ec edents adapt es

a l'explication d'une variable quantitative ne s'appliquent plus directement car le r egresseur

lin eaire usuel X


ne prend pas des valeurs simplement binaires. L'objectif est adapt e a

cette situation en cherchant a expliquer les probabilit es

= P(Z = 1) ou 1 􀀀 = P(Z = 0);

ou plut^ot une transformation de celles-ci, par l'observation conjointe des variables explicatives.

L'id ee est en e
et de faire intervenir une fonction r eelle monotone g op erant de

[0; 1] dans IR et donc de chercher un mod ele lin eaire de la forme :

g( i) = x0

i
:

Il existe de nombreuses fonctions, dont le graphe pr esente une forme sigmo• dale et qui

sont candidates pour remplir ce r^ole, trois sont pratiquement disponibles dans les logiciels :

probit : g est alors la fonction inverse de la fonction de r epartition d'une loi normale,

mais son expression n'est pas explicite.

log-log avec g d e
nie par

g( ) = ln[􀀀ln(1 􀀀 )]

mais cette fonction est dissym etrique.

logit est d e
nie par

g( ) = logit( ) = ln

1􀀀

avec g􀀀1(x) =

ex

1 + ex :

Plusieurs raisons, tant th eoriques que pratiques, font pr ef erer cette derni ere solution.

Le rapport =(1 􀀀 ), qui exprime une \cote", est l'odds et la r egression logistique s'interpr

ete donc comme la recherche d'une mod elisation lin eaire du \log odds" tandis que

11. R egression logistique 41

les coe
cients de certains mod eles expriment des \odds ratio" c'est- a-dire l'in

uence d'un

facteur qualitatif sur le risque (ou la chance) d'un echec (d'un succ es) de Z.

Cette section se limite a la description de l'usage el ementaire de la r egression logistique.

Des compl ements concernant l'explication d'une variable qualitative ordinale (plusieurs

modalit es), l'intervention de variables explicatives avec e


et al eatoire, l'utilisation

de mesures r ep et ees donc d ependantes, sont a rechercher dans la bibliographie.

11.2 Mod ele binomial

On consid ere, pour i = 1; : : : ; I, di


erentes valeurs
x ees x1i

; : : : ; xq

i des variables explicatives

X1; : : : ;Xq. Ces derni eres pouvant ^etre des variables quantitatives ou encore des

variables qualitatives, c'est- a-dire des facteurs issus d'une plani


cation exp erimentale.

Pour chaque groupe, c'est- a-dire pour chacune des combinaisons de valeurs ou facteurs,

on r ealise ni observations (n =

PI

i=1 ni) de la variable Z qui se mettent sous la forme

y1=n1; : : : ; yI=nI o u yi d esigne le nombre de \succ es" observ es lors des ni essais. On suppose

que toutes les observations sont ind ependantes et qu' a l'int erieur d'un m^eme groupe, la

probabilit e i de succ es est constante. Alors, la variable Yi sachant ni et d'esp erance

E(Yi) = ni i suit une loi binomiale B(ni; i) dont la fonction de densit e s' ecrit :

P(Y = yi) =

ni

yi

yi

i (1 􀀀 i)(ni􀀀yi):

On suppose que le vecteur des fonctions logit des probabilit es i appartient au sousespace

vectfX1; : : : ;Xqg engendr e par les variables explicatives :

logit( i) = x0

i
i = 1; : : : ; I

ce qui s' ecrit encore

i=

ex0

i
1 + ex0

i
i = 1; : : : ; I:

Le vecteur des param etres est estim e par maximisation de la log-vraisemblance. Il n'y a

pas de solution analytique, celle-ci est obtenue par des m ethodes num eriques it eratives (par

exemple Newton Raphson) dont certaines reviennent a it erer des estimations de mod eles

de r egression par moindres carr es g en eralis es avec des poids et des m etriques adapt es a

chaque it eration.

L'optimisation fournit une estimation b de


, il est alors facile d'en d eduire les estimations

ou pr evisions des probabilit es i :

b i=

ex0

1 + ex0

et ainsi celles des e


ectifs

byi = nib i:

Remarques

42 Chapitre 2. R egression lin eaire

i. La matrice X issue de la plani


cation exp erimentale est construite avec les m^emes

r egles que celles utilis ees dans le cadre de l'analyse de covariance mixant variables

explicatives quantitatives et qualitatives. Ainsi, les logiciels g erent avec plus ou moins

de clart e le choix des variables indicatrices et donc des param etres estimables ou

contrastes associ es.

ii. La situation d ecrite pr ec edemment correspond a l'observation de donn ees group ees.

Dans de nombreuses situations concr etes et souvent d es qu'il y a des variables explicatives

quantitatives, les observations xi sont toutes distinctes. Ceci revient donc

a
xer ni = 1; i = 1; : : : ; I dans les expressions pr ec edentes et la loi de Bernouilli

remplace la loi binomiale. Certaines m ethodes ne sont alors plus applicables et les

comportements asymptotiques des distributions des statistiques de test ne sont plus

valides, le nombre de param etres tendant vers l'in


ni.

12 Choix de mod ele

12.1 Recherche pas a pas

Principalement deux crit eres (test du rapport de vraisemblance et test deWald, cf.bibliographie),

sont utilis es de fa con analogue au test de Fisher du mod ele lin eaire gaussien. Ils permettent

de comparer un mod ele avec un sous-mod ele et d' evaluer l'int er^et de la pr esence des termes

compl ementaires. On suit ainsi une strat egie descendante a partir du mod ele complet.

L'id ee est de supprimer, un terme a la fois, la composante d'interaction ou l'e


et principal

qui appara^ t comme le moins signi


catif au sens du rapport de vraisemblance ou du test

de Wald. Les tests pr esentent une structure hi erarchis ee. SAS facilite cette recherche en

produisant une d ecomposition (Type III) de ces indices permettant de comparer chacun

des sous-mod eles excluant un des termes avec le mod ele les incluant tous.

Attention, du fait de l'utilisation d'une transformation non lin eaire (logit), m^eme si

des facteurs sont orthogonaux, aucune propri et e d'orthogonalit e ne peut ^etre prise en

compte pour l' etude des hypoth eses. Ceci impose l' elimination des termes un par un et la

r e-estimation du mod ele. D'autre part, un terme principal ne peut ^etre supprim e que s'il

n'intervient plus dans des termes d'interaction.

Tout en d eroulant l'algorithme de recherche ci-dessus, les logiciels calculent en plus

l'AIC pour
naliser le choix pour une meilleure qualit e pr edictive.

13 Exemples

13.1 D ebits Volumes

On etudie l'in

uence du d ebit et du volume d'air inspir e sur l'occurence (cod ee 1)

de la dilatation des vaisseaux sanguins super


ciels des membres inf erieurs. Un graphique

el ementaire repr esentant les modalit es de Y dans les coordonn ees de X1 X2 est toujours

instructif. Il montre une s eparation raisonnable et de bon augure des deux nuages de

points. Dans le cas de nombreuses variables explicatives quantitatives, une analyse en

composantes principales s'impose. Les formes des nuages repr esent es, ainsi que l'allure des

distributions ( etudi ees pr ealablement), incitent dans ce cas a consid erer par la suite les

logarithmes des variables. Une variable un ne contenant que des \1" d enombrant le nombre

d'essais est n ecessaire dans la syntaxe de genmod. Les donn ees sont en e
et non group ees.

13. Exemples 43

DILAT01

DEBIT

VOLUME

01234

Fig. 2.4 { Nuage des modalit es de Y dans les coordonn ees des variables explicatives.

proc logistic data=sasuser.debvol;

model dilat=l_debit l_volume;

run;

proc genmod data=sasuser.debvol;

model dilat/un=l_debit l_volume/d=bin;

run;

The LOGISTIC Procedure

Intercept

Intercept and

Criterion Only Covariates Chi-Square for Covariates

AIC 56.040 35.216 .


SC 57.703 40.206 .

-2 LOG L 54.040 29.216(1) 24.824 with 2 DF (p=0.0001)

Score . . 16.635 with 2 DF (p=0.0002)

Parameter(2) Standard Wald(3) Pr > Standardized Odds

Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio

INTERCPT 1 2.8782 1.3214 4.7443 0.0294 . .

L_DEBIT 1 -4.5649 1.8384 6.1653 0.0130 -2.085068 0.010

L_VOLUME 1 -5.1796 1.8653 7.7105 0.0055 -1.535372 0.006

Cette proc edure fournit des crit eres de choix de mod ele dont la d eviance (1), le vecteur

b des param etres (2) et les statistiques des tests (3) comparant le mod ele excluant un terme

par rapport au mod ele complet tel qu'il est d ecrit dans la commande.

The GENMOD Procedure

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 36 29.2156 0.8115 (1)

Scaled Deviance 36 29.2156 0.8115 (2)

Pearson Chi-Square 36 34.2516 0.9514 (3)

Scaled Pearson X2 36 34.2516 0.9514

Log Likelihood . -14.6078 .

Analysis Of Parameter Estimates

44 Chapitre 2. R egression lin eaire

Parameter DF Estimate (4) Std Err ChiSquare (5) Pr>Chi

INTERCEPT 1 -2.8782 1.3214 4.7443 0.0294

L_DEBIT 1 4.5649 1.8384 6.1653 0.0130

L_VOLUME 1 5.1796 1.8653 7.7105 0.0055

SCALE (6) 0 1.0000 0.0000 . .

(1) D eviance du mod ele par rapport au mod ele satur e.

(2) D eviance pond er ee si le param etre d' echelle est di


erent de 1 en cas de sur-dispersion.

(3) Statistique de Pearson, voisine de la d eviance, comparant le mod ele au mod ele satur e .

(4) Param etres du mod ele.


(5) Statistique des tests comparant le mod ele excluant un terme par rapport au mod ele complet.

(6) Estimation du param etre d' echelle si la quasi-vraisemblance est utilis ee.

13.2 Donn ees bancaires

Plusieurs strat egies peuvent ^etre mises en uvre sur les donn ees bancaires. Les premi eres

consistent a ne s'int eresser qu'aux variables quantitatives et a rechercher un \meilleur"

mod ele a l'aide de la proc edure logistic en association avec l'un des trois algorithmes

de s election.

proc logistic data=sasuser.vispremt;

class ( a compl eter)

model carvpr =ager relat opgnbl--dnbjdl/selection=stepwise;

run;

Ainsi, l'algorithme qui proc ede par elimination retient


nalement 14 des 20 variables.

pour un taux de mal class es de 15,4%. Par s election ou pas a pas, la m^eme solution

est propos ee avec 12 variables pour un taux de 15,6%. Attention, ces taux, calcul es sur

l' echantillon ayant servi a estimer les param etres, sont n ecessairement trop optimistes.

moins d'utiliser SAS Enterprise Miner, la prise en compte des variables qualitatives

n ecessitent une proc edure de choix de mod ele manuelle. Le module SAS/INSIGHT est

alors le plus e
cace pour r ealiser une approche descendante avant de r eestimer le mod ele

obtenu a l'aide de genmod.

proc genmod data=sasuser.vispremt ;

class sexec PRCSP;

make 'OBSTATS' out=outglm;

model carvpr/poids = SEXEC PRCSP OPGNBL MOYRVL BOPPNL

DNBJDL UEMNB XLGNB YLVNB JNTCA NPTAG / obstats d=bin;

run;

/* Estimation du taux de mal class es */

data prev ;

set outglm (keep=yvar1 pred);

if pred ge 0.5 then predy=1; else predy=0;

proc freq data=prev;

tables yvar1*predy/ nocol norow;

run;

Les r esultats semblent alors bien meilleurs mais il faut rester prudent quant a la

pr ecision de cette estimation du taux d'erreur. On pourrait en


n s'interroger sur les qualit

es d'un mod ele consid erant toutes les variables qualitatives.

YVAR1(CARVPR) PREDY

13. Exemples 45

Frequency|

Percent | 0| 1| Total

---------+--------+--------+

0 | 659 | 53 | 712

| 61.65 | 4.96 | 66.60

---------+--------+--------+

1 | 70 | 287 | 357

| 6.55 | 26.85 | 33.40

---------+--------+--------+

Total 729 340 1069

68.19 31.81 100.00

46 Chapitre 2. R egression lin eaire

Chapitre 3

Erreur de pr ediction

1 Introduction

La performance du mod ele issu d'une m ethode d'apprentissage s' evalue par sa capacit

e de pr ediction dite encore de g en eralisation. La mesure de cette performance est tr es

importante puisque, d'une part, elle permet d'op erer une s election de mod ele dans une

famille associ ee a la m ethode d'apprentissage utilis ee et, d'autre part, elle guide le choix

de la m ethode en comparant chacun des mod eles optimis es a l' etape pr ec edente. En
n, elle

fournit, tous choix faits, une mesure de la qualit e ou encore de la con


ance que l'on peut

accorder a la pr evision en vue m^eme, dans un cadre l egal, d'une certi


cation.

En dehors d'une situation exp erimentale plani


ee classique en Statistique, c'est- a-dire

sans le secours de mod eles probabilistes, c'est le cas, par principe, du data mining, trois

types de strat egies sont propos es :

un partage de l' echantillon (apprentissage, validation, test) a


n de distinguer estimation

du mod ele et estimations de l'erreur de pr ediction,

une p enalisation de l'erreur d'ajustement par la complexit e du mod ele,

un usage intensif du calcul (computational statistics) par la mise en uvre de simulations.

. Le choix d epend de plusieurs facteurs dont la taille de l' echantillon initial, la complexit e

du mod ele envisag e, la variance de l'erreur, la complexit e des algorithmes c'est- a-dire le

volume de calcul admissible. L'estimation de l'erreur de pr ediction est donc un el ement

central de la mise en place de la strat egie du data mining telle qu'elle est d ecrite dans

l'introduction (cf. chapitre 1 section ).

2 Erreur de pr ediction

2.1 D e
nition

Soit Y la variable a pr edire, X la variable p-dimensionnelle ou l'ensemble des variables

explicatives, F la loi conjointe de Y et X, z = f(x1; y1); : : : ; (xn; yn)g un echantillon et

Y = -(X) + "

le mod ele a estimer avec E(") = 0;Var(") = 2 et " ind ependant de X ; X, comme chacun

des xi, est de dimension p.

47

48 Chapitre 3. Erreur de pr ediction

L'erreur de pr evision est d e


nie par

EP (z; F) = EF [Q(Y; b-(X))]

o u Q est une fonction perte.

Si Y est quantitative, cette fonction perte est le plus g en eralement quadratique :

Q(y; by) = (y 􀀀 by)2, mais utilise parfois la valeur absolue : Q(y; by) = jy 􀀀 byj. Cette derni ere

a l'avantage d'^etre plus robuste, car moins sensible aux valeurs extr^emes, mais n ecessite

des algorithmes d'optimisation plus complexes et pas n ecessairement a solution unique.

Si Y est qualitative Q est une indicatrice de mal class e : Q(y; by) = 1fy6=byg.

Dans le cas quantitatif, l'estimation du mod ele par minimisation de EP revient a une

approximation de la fonction - et la solution est l'esp erance conditionnelle (connaissant

l' echantillon) tandis que, dans la cas qualitatif, c'est la classe la plus probable d esign ee

par le mode conditionnel qui est pr edite.

2.2 D ecomposition

L'erreur de pr ediction se d ecompose dans le cas quantitatif1. Consid erons celle-ci en

un point x0.

EP (x0) = EF [(Y 􀀀 b-(x0))2 j X = x0]

= 2 + [EF b-(x0) 􀀀 -(x)]2 + EF [b-(x0) 􀀀 EF b-(x0)]2

= 2 + Biais2 + Variance:

Tr es g en eralement, plus un mod ele (la famille des fonctions - admissibles) est complexe,

plus il est

exible et peu s'ajuster aux donn ees observ ees et donc plus le biais est r eduit. En

revanche, la partie variance augmente avec le nombre de param etres a estimer et donc avec

cette complexit e. L'enjeu, pour minimiser le risque quadratique ainsi d e


ni, est donc de

rechercher un meilleur compromis entre biais et variance : accepter de biaiser l'estimation

comme par exemple en r egression ridge pour r eduire plus favorablement la variance.

2.3 Estimation

Le premier type d'estimation a consid erer exprime la qualit e d'ajustement du mod ele

sur l' echantillon observ e. C'est justement, dans le cas quantitatif, ce crit ere qui est minimis e

dans la recherche de moindres carr es. Ce ne peut ^etre qu'une estimation biais ee, car trop

optimiste, de l'erreur de pr ediction ; elle est li ee aux donn ees qui ont servi a l'ajustement

du mod ele et est d'autant plus faible que le mod ele est complexe. Cette estimation ne

d epend que de la partie "biais" de l'erreur de pr ediction et ne prend pas en compte la

partie "variance" de la d ecomposition.

Cette estimation est not ee :

cEP =

Xn

i=1

Q(yi; b-(xi)):

1Plusieurs d ecompositions concurentes ont et e propos ees dans le cas qualitatif mais leur
explicitation

est moins claire.

3. Estimation avec p enalisation 49

C'est simplement le taux de mal class es dans le cas qualitatif. Des crit eres de risque plus

sophistiqu es sont envisag es dans un contexte bay esien si des probabilit es a priori sont

connues sur les classes ou encore des co^uts de mauvais classement (cf. chapitre 4).

La fa con la plus simple d'estimer sans biais l'erreur de pr ediction consiste a calculer

cEP sur un echantillon ind ependant n'ayant pas particip e a l'estimation du mod ele. Ceci

n ecessite donc d' eclater l' echantillon en trois parties respectivement appel ees apprentissage,

validation et test :

z = zAppr [ zValid [ zTest:

i. cEP (zAppr) est minimis ee pour estimer un mod ele,


ii. cEP (zValid) sert a la comparaison des mod eles au sein d'une m^eme famille a
n de

s electionner celui qui minimise cette erreur,

iii. cEP (zTest) est utilis ee pour comparer entre eux les meilleurs mod eles de chacune des

m ethodes consid er ees.

Cette solution n'est acceptable que si la taille de l' echantillon initiale est importante sinon :

la qualit e d'ajustement est d egrad ee car n est plus petit,

la variance de l'estimation de l'erreur peut ^etre importante et ne peut ^etre estim ee.

Si la taille de l' echantillon est insu


sante, le point ii ci-dessus : la s election de mod ele

est bas ee sur un autre type d'estimation de l'erreur de pr ediction faisant appel soit a une

p enalisation soit a des simulations.

3 Estimation avec p enalisation

L'erreur de pr ediction se d ecompose en :

EP = cEP (zAppr) + Optim

qui est l'estimation par resubstitution ou taux d'erreur apparent plus le biais par abus

d'optimisme. Il s'agit donc d'estimer cette optimisme pour apporter une correction et

ainsi une meilleure estimation de l'erreur recherch ee. cette correction peut prendre plusieurs

formes. Elle est li ee a l'estimation de la variance dans la d ecomposition en biais et

variance de l'erreur ou c'est encore une p enalisation associ ee a la complexit e du mod ele.

Les estimateurs d e
nis ci-dessous sont pour la plupart historiquement issus du mod ele

classique de r egression multiple pour lequel il existe de nombreuses r ef erences mais ont et e

g en eralis es ou adapt es a d'autres m ethodes en etendant la notion de nombre de degr es de

libert es a des situations o u le nombre de param etres du mod ele n'est pas explicite.

3.1 Cp, AIC, BIC

Le Cp de Mallows fut, historiquement, le premier crit ere visant a une meilleure estimation

de l'erreur de pr ediction que la seule consid eration de l'erreur d'ajustement (ou le R2)

dans le mod ele lin eaire. Son expression est d etaill ee dans le cas de la r egression lin eaire

chapitre 2 sous l'hypoth ese que le mod ele complet a p variables est le "vrai" mod ele. On

montre (cf. Hastie et col. 2001), a des


ns de comparaison qu'il peut aussi se mettre sous

une forme equivalente :

Cp = cEP + 2

s2

50 Chapitre 3. Erreur de pr ediction

o u d est le nombre de param etres du mod eles, n le nombre d'observations, s2 une estimation

de la variance de l'erreur par un mod ele de faible biais. Le crit ere d'information

d'Aka• ke (AIC) se pr esente sous une forme similaire mais plus g en erale. Bas e sur un

crit ere de d eviance, il s'applique en e


et a tout mod ele estim e par minimisation d'une

log-vraisemblance L. Ainsi, dans le cas de la r egression logistique

AIC = 􀀀2L + 2

Il suppose que la famille de densit es consid er ees pour mod eliser la loi de Y contient la

\vraie" densit e. Dans le cas gaussien en supposant la variance connue, moindres carr es et

d eviance coincident, AIC est equivalent au Cp. Il est facile de choisir le mod ele pr esentant

le plus faible AIC parmi ceux consid er es ce qui revient globalement a minimiser un crit ere

de vraisemblance p enalis ee. Celui-ci n'est v eri


e qu'asymtotiquement d'o u la motivation

de proposer des crit eres modi


es (AICC) plus adapt es a de petits echantillons.

Pour les mod eles non-lin eaires ou plus complexes (non-param etriques), le nombre q de

param etres doit ^etre remplac e par une mesure de complexit e p(


). Le crit ere se met alors

sous une forme plus g en erale :

AIC(
) = cEP (xAppr) + 2

p(
)

s2:

Les mod eles lin eaires se mettent sous une forme : by = Hy, incluant les m ethodes de

r egularisation (ridge) ou de lissage (spline) o u la matrice H d epend uniquement des xi.

Dans ce cas, le nombre e


ectif de param etres est d e
ni comme la trace de la matrice H :

d(H) = tr(H). C'est encore q, le rang de X c'est- a-dire le nombre vecteurs de base (le

nombre de variables + 1) si H est une matrice de projection orthogonale. Dans d'autres

situations (perceptron), ce nombre de param etres est plus di


cile a contr^oler car il fait

intervenir les valeurs propres d'une matrice hessienne.

Une argumentation de type bay esienne conduit a un autre crit ere BIC (Bayesian information

criterion) qui cherche, approximativement, le mod ele associ e a la plus grande

probabilit e a posteriori dans le cadre de la maximisation d'une log-vraisemblance. Il se

met sous la forme :

BIC = L + log(n)d:

On montre, dans le cas gaussien et en supposant la variance connue que BIC est proportionnel

a AIC avec le facteur 2 remplac e par log n. Ainsi, d es que n > e2 7; 4, BIC tend

a p enaliser plus lourdement les mod eles complexes. Asymptotiquement, on montre que la

probabilit e pour BIC de choisir le bon mod ele tend vers 1 lorsque n tend vers l'in
ni. Ce

n'est pas le cas d'AIC qui tend alors a choisir des mod eles trop complexes. N eanmoins a

taille
ni, BIC risque de se limiter a des mod eles trop simples.

3.2 Dimension de Vapnik-Chernovenkis

( a compl eter)

4. Estimation par simulation 51

4 Estimation par simulation

4.1 Validation crois ee

La validation crois ee est conceptuellement simple, e


cace et largement utilis ee pour

estimer une erreur moyennant un surplus de calcul. L'id ee est d'it erer l'estimation de

l'erreur sur plusieurs echantillons de validation puis d'en calculer la moyenne. C'est rapidement

indispensable pour r eduire la variance et am eliorer la pr ecision lorsque la taille de

l' echantillon initial est trop r eduite pour en extraire un echantillon de validation ou test

de taille su
sante.

Algorithme 3.1 : Validation crois ee

D ecouper al eatoirement l' echantillon en K parts (K-fold) de tailles approximativement

egales selon une loi uniforme ;

r ep eter K fois l'op eration qui consiste a mettre de c^ot e l'une des partie, estimer le

mod ele sur les K􀀀1 parties restantes, calculer l'erreur sur chacune des observations

qui n'ont pas particip e a l'estimation ;

moyenner toutes ces erreurs pour aboutir a l'estimation par validation crois ee.

Plus pr ecis ement, soit : f1; : : : ; ng 7! f1; : : : ;Kg la fonction d'indexation qui,pour

chaque observation, donne l'attribution uniform ement al eatoire de sa classe. L'estimation

par validation crois ee de l'erreur de pr ediction est :

dECV =

Xn

i=1

Q(yi; b-(􀀀 (i))(xi))

o u b-(􀀀k) d esigne l'estimation de - sans prendre en compte la ki eme partie de l' echantillon.

Le choix K = 10 est le plus courant, c'est souvent celui par d efaut des logiciels (Splus).

Historiquement, la validation crois ee a et e introduite par Allen avec K = n (delete-one

cross validation). Ce dernier choix n'est possible que pour n relativement petit a cause

du volume des calculs n ecessaires et l'estimation de l'erreur pr esente une variance souvent

importante car chacun des mod eles estim es est trop similaire au mod ele estim e avec toutes

les observations. En revanche, si K est petit (i.e. K = 5), la variance sera plus faible mais le

biais devient un probl eme d ependant de la fa con dont la qualit e de l'estimation se d egrade

avec la taille de l' echantillon.

Minimiser l'erreur estim ee par validation crois ee est une approche largement utilis ee

pour optimiser le choix d'un mod ele au sein d'une famille param etr ee. b- est d e
ni par

b = arg min dECV( ).

4.2 Bootstrap

Cette section plus technique d ecrit des outils encore peu pr esents dans les logiciels

commerciaux, elle peut ^etre saut ee en premi ere lecture.

Introduction

L'id ee, d'approcher par simulation (Monte Carlo) la distribution d'un estimateur lorsque

l'on ne conna^ t pas la loi de l' echantillon ou, plus souvent, lorsque l'on ne peut pas supposer

52 Chapitre 3. Erreur de pr ediction

qu'elle est gaussienne, est l'objectif m^eme du bootstrap (Efron, 1982).

Le principe fondamental de cette technique de r e echantillonnage est de substituer, a

la distribution de probabilit e inconnue F, dont est issu l' echantillon d'apprentissage, la

distribution empirique Fn qui donne un poids 1=n a chaque r ealisation. Ainsi on obtient

un echantillon de taille n dit echantillon bootstrap selon la distribution empirique Fn par

n tirages al eatoires avec remise parmi les n observations initiales.

Il est facile de construire un grand nombre d' echantillons bootstrap (i.e. B = 100)

sur lesquels calculer l'estimateur concern e. La loi simul ee de cet estimateur est une approximation

asymptotiquement convergente sous des hypoth eses raisonnables2 de la loi de

l'estimateur. Cette approximation fournit ainsi des estimations du biais, de la variance,

donc d'un risque quadratique, et m^eme des intervalles de con


ance (avec B beaucoup plus

grand) de l'estimateur sans hypoth ese (normalit e) sur la vraie loi. Les grands principes de

cette approche sont rappel es en annexe B.

Estimateur na• f

Soit z un echantillon bootstrap des donn ees :

z = f(x 1

;y

1); : : : ; (x

n; y n

)g:

L'estimateur plug-in de l'erreur de pr ediction EP (z; F), pour lequel la distribution F est

remplac ee par la distribution empirique b F (cf. section B1.1) est d e


ni par :

EP (z ; b F) =

i=1

nQ(yi; -z (xi))

o u -z d esigne l'estimation de - a partir de l' echantillon bootstrap. Il conduit a l'estimation

bootstrap de l'erreur moyenne de pr ediction EF [EP (z; F)] par

EBoot = Eb F [EP (z ; b F)] = Eb F

"

i=1

nQ(yi; -z (xi))

Cette estimation est approch ee par simulation :

d EBoot =

XB

b=1

i=1

nQ(yi; -z b (xi)):

L'estimation ainsi construite de l'erreur de pr ediction est g en eralement biais ee par optimisme

car, au gr e des simulations, les m^emes observations (xi; yi) apparaissent a la fois
dans l'estimation du mod ele et dans celle de l'erreur. D'autres approches visent a corriger

ce biais.

Estimateur out-of-bag

La premi ere s'inspire simplement de la validation crois ee. Elle consid ere d'une part les

observations tir ees dans l' echantillon bootstrap et, d'autre part, celles qui sont laiss ees de

2 Echantillon ind ependant de m^eme loi et estimateur ind ependant de l'ordre des observations.

4. Estimation par simulation 53

c^ot e pour l'estimation du mod ele mais retenue pour l'estimation de l'erreur.

dEoob =

Xn

i=1

Bi

b2Ki

Q(yi; -z b (xi))

o u Ki est l'ensemble des indices b des echantillons bootstrap ne contenant pas la i eme

observation a l'issue des B simulations et Bi = jKij le nombre de ces echantillons ; B doit

^etre su
samment grand pour que toute observation n'ait pas et e tir ee au moins une fois

ou bien les termes avec Ki = 0 sont supprim es.

L'estimation dEoob r esout le probl eme d'un biais optimiste auquel est confront ee d EBoot

mais n' echappe pas au biais introduit pas la r eduction tel qu'il est signal e pour l'estimation

pas validation crois ee dECV. C'est ce qui a conduit Efron et Tibshirani (1997) a proposer

des correctifs.

Estimateur .632-bootstrap

La probabilit e qu'une observation soit tir ee dans un echantillon bootstrap est

P[xi 2 x b] = 1 􀀀 (1 􀀀

)n 1 􀀀

e 0; 632:

Tr es approximativement, la d egradation de l'estimation provoqu ee par le bootstrap et

donc la sur evaluation de l'erreur sont analogues a celle de la validation crois ee avec K =

2. A la suite d'un raisonnement trop long pour ^etre reproduit ici, Efron et Tibshirani

(1997) proposent de compenser exc es d'optimisme du taux apparent d'erreur et exc es de

pessimisme du bootstrap out-of-bag par une combinaison :

dE:632 = 0; 368 cEP + 0; 632 dEoob:

4.3 Remarques

Toutes les estimations de l'erreur de pr ediction consid er ees (p enalisation, validation

crois ee, bootstrap) sont asymptotiquement equivalentes et il n'est pas possible de

savoir laquelle concr etement sera, a n


ni, la plus pr ecise. Une large part d'arbitraire

ou d'"exp erience" pr eside donc le choix d'une estimation plut^ot qu'une autre.

Conceptuellement, le bootstrap est plus compliqu e et pratiquement encore peu utilis

e. N eanmoins, cet outil joue un r^ole central dans les algorithmes r ecents de combinaison

de mod eles (cf. chapitre 7) en association avec une estimation out-of-bag de

l'erreur. Il ne peut ^etre n eglig e.

L'estimateur .632-bootstrap pose des probl emes en situation de sur-ajustement aussi

les m^emes auteurs ont propos e un rectifcatif compl ementaire not e .632+bootstrap.

Ce qu'il faut retenir en conclusion, c'est que l'estimation d'une erreur de pr ediction est

une op eration d elicate aux cons equences importantes. Il est donc n ecessaire

d'utiliser le m^eme estimateur pour comparer l'e


cacit e de deux m ethodes,

de se montrer tr es prudent, en dehors de tout syst eme d'hypoth eses probabilistes,

sur le caract ere absolu d'une estimation dans l'objectif d'une certi
cation.

Dans ces deux derni eres situations, le recours a un echantillon test de bonne taille est

di
cilement contournable alors qu'en situation de choix de mod ele au sein d'une m^eme

famille, un estimateur (petit echantillon de validation, validation crois ee) plus economique

54 Chapitre 3. Erreur de pr ediction

est adapt e en supposant implicitement que le biais induit est identique d'un mod ele a

l'autre.

Chapitre 4

Analyse Discriminante

D ecisionnelle

1 Introduction

L'objet de ce chapitre est l'explication d'une variable qualitative Y a m modalit es par

p variables quantitatives Xj ; j = 1; : : : ; p observ ees sur unm^eme echantillon

de taille

n. L'objectif de l'analyse discriminante d ecisionnelle d eborde le simple cadre descriprif de

l'analyse facorielle discriminante (AFD). Disposant d'un nouvel individu (ou de plusieurs,

c'est la m^eme chose) sur lequel on a observ e les Xj mais pas Y , il s'agit maintenant de

d ecider de la modalit e T` de Y (ou de la classe correspondante) de ce nouvel individu.

On parle aussi de probl eme d'a


ectation. L'ADD s'applique donc egalement a la situation

pr ec edente de la r egression logistique (m = 2) mais aussi lorsque le nombre de classes est

plus grand que 2.

Pour cela, on va d e
nir et etudier dans ce chapitre des r egles de d ecision (ou d'a
ectation)

et donner ensuite les moyens de les evaluer sur un seul individu ; x = (x1; : : : ; xp)

d esigne les observations des variables explicatives sur cet individu, fg`; ` = 1; : : : ;mg les

barycentres des classes calcul es sur l' echantillon et x le barycentre global.

La matrice de covariance empirique se d ecompose en

S = Se + Sr:

o u Sr est appel ee variance intraclasse (within) ou r esiduelle :

Sr = Xr

0DXr =

Xm

`=1

i2

wi(xi 􀀀 g`)(xi 􀀀 g`)0;

et Se la variance interclasse (between) ou expliqu ee :

Se = G

DG = X

eDXe =

Xm

`=1

w`(g` 􀀀 x)(g` 􀀀 x)0:

55

56 Chapitre 4. Analyse Discriminante D ecisionnelle

2 R egle de d ecision issue de l'AFD

2.1 Cas g en eral : m quelconque

D efinition 4.1. | On a
ectera l'individu x a la modalit e de Y minimisant :

d2
S􀀀1

(x; g`); ` = 1; : : : ; m:

Cette distance se d ecompose en

d2

S􀀀1

(x; g`) = kx 􀀀 g`k2

S􀀀1

= (x 􀀀 g`)0S􀀀1

r (x 􀀀 g`)

et le probl eme revient donc a maximiser

g0`

S􀀀1

rx􀀀

g0`

S􀀀1

r g`:

Il s'agit bien d'une r egle lin eaire en x car elle peut s' ecrire : A`x + b`.

2.2 Cas particulier : m = 2

Dans ce cas, la dimension r de l'AFD vaut 1. Il n'y a qu'une seule valeur propre non

nulle 1, un seul vecteur discriminant v1 et un seul axe discriminant 1. Les 2 barycentres

g1 et g2 sont sur 1, de sorte que v1 est colin eaire a g1 􀀀 g2.

L'application de la r egle de d ecision permet d'a


ecter x a T1 si :

g01

S􀀀1

rx􀀀
1

g01

S􀀀1

r g1 > g02

S􀀀1

rx􀀀

g02

S􀀀1

r g2

c'est- a-dire encore si

(g1 􀀀 g2)0S􀀀1

r x > (g1 􀀀 g2)0S􀀀1

g1 + g2

Remarque

La r egle de d ecision li ee a l'AFD est simple mais elle est limit ee et insu
sante notamment

si les variances des classes ne sont pas identiques. De plus, elle ne tient pas compte de

l' echantillonnage pour x : tous les groupes n'ont pas n ecessairement la m^eme probabilit e

d'occurence.

3 R egle de d ecision bay esienne

3.1 Introduction

Dans cette optique, on consid ere que la variable Y , qui indique le groupe d'appartenance

d'un individu, prend ses valeurs dans fT1; : : : ; Tmg et est munie d'une loi de

probabilit e 1; : : : ; m. Les probabilit es ` = P[T`] repr esentent les probabilit es a priori

des classes ou groupes !`. On suppose que les vecteurs x des observations des variables

explicatives suivent, connaissant leur classe, une loi de densit e

f`(x) = P[x j T`]

3. R egle de d ecision bay esienne 57

par rapport a une mesure de r ef erence1.

3.2 D e
nition

Une r egle de d ecision est une application


de

dans fT1; : : : ; Tmg qui, a tout individu,

lui a
ecte une classe connaissant x. Sa d e
nition d epend du contexte de l' etude et prend

en compte la

connaissance ou non de co^uts de mauvais classement,

connaissance ou non des lois a priori sur les classes,

nature al eatoire ou non de l' echantillon.

On d esigne par c` j k le co^ut du classement dans T` d'un individu de Tk. Le risque de Bayes

d'une r egle de d ecision


exprime alors le co^ut moyen :

R
=

Xm

k=1

Xm

`=1

c` j k

fx j
(x)=T`g

fk(x)dx

o u

fx j
(x)=T`g fk(x)dx repr esente la probabilit e d'a
ect e x a T` alors qu'il est dans Tk.

3.3 Co^uts inconnus

L'estimation des co^uts n'est pas du ressort de la Statistique et, s'ils ne sont pas connus,

on suppose simplement qu'ils sont tous egaux. La minimisation du risque ou r egle de Bayes

revient alors a a
ecter tout x a la classe la plus probable c'est- a-dire a celle qui maximise

la probabilit e conditionnelle a posteriori : P[T` j x]. Par le th eor eme de Bayes, on a :

P[T` j x] =

P[T` et x]

P[x]

P[T`]:P [x j T`]

P[x]

avec le principe des probabilit es totales : P[x] =

Pm

`=1 P[T`]:P [x j T`].

Comme P[x] ne d epend pas de `, la r egle consistera a choisir T` maximisant

P[T`]:P [x j T`] = `:P [x j T`];

P[x j T`] est la probabilit e d'observer x au sein de la classe T`. Pour une loi discr ete, il

s'agit d'une probabilit e du type P[x = xl

k j T`] et d'une densit e f(x j T`) pour une loi

continue. Dans tous les cas nous utiliserons la notation f`(x).

La r egle de d ecision s' ecrit


nalement sous la forme :
(x) = arg max

`=1;:::;m

`f`(x):

3.4 D etermination des a priori

Les probabilit es a priori ` peuvent e


ectivement ^etre connues a priori : proportions

de divers groupes dans une population, de diverses maladies. . . ; sinon elles sont estim ees

sur l' echantillon d'apprentissage :

b ` = w` =

n`

(si tous les individus ont le m^eme poids)

a condition qu'il soit bien un echantillon al eatoire susceptible de fournir des estimations

correctes des fr equences. Dans le cas contraire il reste a consid erer tous les ` egaux.

1La mesure de Lebesgues pour des variables r eelles, celle de comptage pour des variables
qualitatives

58 Chapitre 4. Analyse Discriminante D ecisionnelle

3.5 Cas particuliers

Dans le cas o u les probabilit es a priori sont egales, c'est par exemple le cas du

choix de probabilit es non informatives, la r egle de d ecision bay esienne revient alors

a maximiser f`(x) qui est la vraisemblance, au sein de T`, de l'observation x. La r egle

consiste alors a choisir la classe pour laquelle cette vraisemblance est maximum.

Dans le cas o u m = 2, on a
ecte x a T1 si :

f1(x)

f2(x)

>

faisant ainsi appara^ tre un rapport de vraisemblance. D'autre part, l'introduction de

co^uts de mauvais classement di


erents selon les classes am ene a modi
er la valeur

limite 2= 1.

Finalement, il reste a estimer les densit es conditionnelles f`(x). Les di


erentes m ethodes

d'estimation consid er ees conduisent aux m ethodes classiques de discrimination bay esienne

objets des sections suivantes.

4 R egle bay esienne avec mod ele normal

On suppose dans cette section que, conditionnellement a T`, x = (x1; : : : ; xp) est l'observation

d'un vecteur al eatoire gaussien N( `; `) ; ` est un vecteur de IRp et ` une

matrice (p p) sym etrique et d e


nie-positive. La densit e de la loi, au sein de la classe T`,

s' ecrit donc :

f`(x) =

p2 (det( `))1=2

exp

(x 􀀀 `)0 􀀀1

` (x 􀀀 `)

L'a
ectation de x a une classe se fait en maximisant `:f`(x) par rapport a l soit encore

la quantit e :

ln( `) 􀀀

ln(det( `)) 􀀀

(x 􀀀 `)0 􀀀1

` (x 􀀀 `):

4.1 H et erosc edasticit e

Dans le cas g en eral, il n'y a pas d'hypoth ese suppl ementaire sur la loi de x et donc

les matrices ` sont fonction de `. Le crit ere d'a


ectation est alors quadratique en x. Les

probabilit es ` sont suppos ees connues mais il est n ecessaire d'estimer les moyennes `

ainsi que les covariances ` en maximisant, compte tenu de l'hypoth ese de normalit e, la

vraisemblance. Ceci conduit a estimer la moyenne


c ` = g`

par la moyenne empirique de x dans la classe l pour l' echantillon d'apprentissage et `

par la matrice de covariance empirique S

Rl :

Rl =

n` 􀀀 1

i2

(xi 􀀀 g`)(xi 􀀀 g`)0

pour ce m^eme echantillon.

5. R egle bay esienne avec estimation non param etrique 59

4.2 Homosc edasticit e

On suppose dans ce cas que les lois de chaque classe partagent la m^eme structure

de covariance ` = . Supprimant les termes ind ependants de l, le crit ere a maximiser

devient

ln( `) 􀀀

` 􀀀1

` `+ 0

` 􀀀1

`x

qui est cette fois lin eaire en x. Les moyennes ` sont estim ees comme pr ec edemment tandis

que est estim ee par la matrice de covariance intra empirique :

R=

1
n􀀀m

Xm

`=1

i2

(xi 􀀀 g`)(xi 􀀀 g`)0:

Si, de plus, les probabilit es ` sont egales, apr es estimation le crit ere s' ecrit :

x`

0S 􀀀1

Rx􀀀

x`

0S 􀀀1

R x`:

On retrouve alors le crit ere de la section 2 issu de l'AFD.

4.3 Commentaire

Les hypoth eses : normalit e, eventuellement l'homosc edasticit e, doivent ^etre v eri
ees

par la connaissance a priori du ph enom ene ou par une etude pr ealable de l' echantillon

d'apprentissage. L'hypoth ese d'homosc edasticit e, lorqu'elle est v eri


ee, permet de r eduire

tr es sensiblement le nombre de param etres a estimer et d'aboutir a des estimateurs plus


ables car de variance moins elev ee. Dans le cas contraire, l' echantillon d'apprentissage

doit ^etre de taille importante.

5 R egle bay esienne avec estimation non param etrique

5.1 Introduction

En Statistique, on parle d'estimation non param etrique ou fonctionnelle lorsque le

nombre de param etres a estimer est in


ni. L'objet statistique a estimer est alors une

fonction par exemple de r egression y = f(x) ou encore une densit e de probabilit e. Dans

ce cas, au lieu de supposer qu'on a a


aire a une densit e de type connu (normale) dont on

estime les param etres, on cherche une estimation b f de la fonction de densit e f. Pour tout

x de IR, f(x) est donc estim ee par b f(x).

Cette approche tr es souple a l'avantage de ne pas n ecessiter d'hypoth ese particuli ere

sur la loi (seulement la r egularit e de f pour de bonnes propri et es de convergence), en

revanche elle n'est applicable qu'avec des echantillons de grande taille d'autant plus que

le nombre de dimensions p est grand (curse of dimensionality).

Dans le cadre de l'analyse discriminante, ces m ethodes permettent d'estimer directement

les densit es f`(x). On consid ere ici deux approches : la m ethode du noyau et celle

des k plus proches voisins.

60 Chapitre 4. Analyse Discriminante D ecisionnelle

5.2 M ethode du noyau

Estimation de densit e

Soit y1; : : : ; yn n observations equipond er ees d'une v.a.r. continue Y de densit e f inconnue.

Soit K(y) (le noyau) une densit e de probabilit e unidimensionnelle (sans rapport

avec f) et h un r eel strictement positif. On appelle estimation de f par la m ethode du

noyau la fonction

b f(y) =

nh

Xn

i=1

y 􀀀 yi

:
Il est imm ediat de v eri
er que

8y 2 IR; b f(y) 0 et

Z +1

􀀀1

b f(y)dy = 1;

h est appel e largeur de fen^etre ou param etre de lissage ; plus h est grand, plus l'estimation

b f de f est r eguli ere. Le noyau K est choisi centr e en 0, unimodal et sym etrique. Les

cas les plus usuels sont la densit e gaussienne, celle uniforme sur [􀀀1; 1] ou triangulaire :

K(x) = [1 􀀀 jxj]1[􀀀1;1](x). La forme du noyau n'est pas tr es d eterminante sur la qualit e

de l"estimation contrairement a la valeur de h.

Application a l'analyse discriminante

La m ethode du noyau est utilis ee pour calculer une estimation non param etrique de

chaque densit e f`(x) qui sont alors des fonctions d e


nies dans IRp. Le noyau K dont donc

^etre choisi multidimensionnel et

b f`(x) =

n`hp

i2

x 􀀀 xi

Un noyau multidimensionnel peut ^etre d e


ni a partir de la densit e usuelle de lois : multinormale

Np(0; p) ou uniforme sur la sph ere unit e ou encore par produit de noyaux

unidimensionnels :

K (x) =

Yp

j=1

K(xj):

5.3 k plus proches voisins

Cette m ethode d'a


ectation d'un vecteur x consiste a encha^ ner les etapes d ecrites

dans l'algorithme ci-dessous.

Algorithme 4.1 : k-nn

Choix d'un entier k : 1 k n.

Calculer les distances dM(x; xi) ; i = 1; : : : ; n o u Mest la m etrique de Mahalanobis

c'est- a-dire la matrice inverse de la matrice de variance (ou de variance intra).

Retenir les k observations x(1); : : : ; x(k) pour lesquelles ces distances sont les plus

petites.

6. Exemple 61

Compter les nombres de fois k1; : : : ; km que ces k observations apparaissent dans

chacune des classes.

Estimer les densit es par

b f`(x) =

k`

kVk(x)

o u Vk(x) est le volume de l'ellipso• de fzj(z 􀀀 x)0M(z 􀀀 x) = dM(x; x(k))g.

Pour k = 1, x est a
ect e a la classe du plus proche el ement.

Comme toute technique, celles pr esent ees ci-dessus n ecessitent le r eglage d'un param

etre (largeur de fen^etre, nombre de voisins consid er es). Ce choix s'apparente a un

choix de mod ele et n ecessite le m^eme type d'approche a savoir l'optiomisation d'un crit ere

(erreur de classement, validation crois ee (cf. chapitre 3).


6 Exemple

Une premi ere etape de traitement des donn ees bancaires permet tout d'abord de

s electionner par elimination un sous-ensemble des variables a l'aide de la proc edure stepdisc.

La variable qualitative sexe est consid er ee comme une variable quantitative (0, 1). Ceci

pourrait, abusif mais fr equent en pratique, se g en eraliser a d'autres variables qualitatives

cod ees num eriquement. Les variables discriminantes n'ont plus gu ere de sens mais, si la

discrimination fonctionne. . .

proc stepdisc data=sasuser.vispremt;

class carvp;

var sexer ager relat opgnbl--dnbjdl;

run;

Les variables ainsi s electionn ees sont utilis ees dans deux algorithmes de discrimination.

Le premier, non-param etrique, utilise les k plus proches voisins tandis que le deuxi eme fait

implicitement l'hypoth ese de normalit e des distributions. dans les deux cas, une pseudo

proc edure de validation crois ee permet d'estimer les taux de mauvais classement. Il ne

s'agit en e
et pas d'une proc edure de validation crois ee explicite car les matrices de variances

sont calcul ees une fois pour toute et donc d ependent des individus a pr evoir.

proc discrim data= sasuser.vispremt

method=npar k=11 crossvalidate;

class CARVP;

var MOYRVL SEXER BOPPNL GAGECL OPGNBL QCREDL

FACANL XLGMTL RELAT HAVEFL GAGEML ENDETL LGAGTL

VIEMTL TAVEPL ITAVCL AGER;

run;

Error Count Estimates for CARVP:

Cnon Coui Total

Rate 0.2191 0.2801 0.2496

Priors 0.5000 0.5000

proc discrim data= sasuser.vispremt

method=NORMAL crossvalidate;
class CARVP;

var MOYRVL SEXER BOPPNL GAGECL OPGNBL QCREDL

62 Chapitre 4. Analyse Discriminante D ecisionnelle

FACANL XLGMTL RELAT HAVEFL GAGEML ENDETL LGAGTL

VIEMTL TAVEPL ITAVCL AGER;

run;

Error Count Estimates for CARVP:

Cnon Coui Total

Rate 0.1784 0.2689 0.2236

Priors 0.5000 0.5000

La valeur de k pourrait ^etre sans doute am elior ee mais il semble que dans ce cas,

l'approche param etrique fasse un peu mieux. La comparaison entre r egression logistique

et analyse discriminante demande un peu d'attention et surtout la constitution pr ealable

d'un echantillon test.

Chapitre 5

Arbres binaires

1 Introduction

Ce chapitre s'int eresse aux m ethodes ayant pour objectif la construction d'arbres binaires,

ou dendogrammes, mod elisant une discrimination ou une r egression. Compl ementaires

des m ethodes statistiques plus classiques : analyse discriminante, r egression lin eaire, les

solutions obtenues sont pr esent ees sous une forme graphique simple a interpr eter, m^eme

pour des n eophytes, et constituent une aide e


cace pour l'aide a la d ecision. Elles sont

bas ees sur un d ecoupage, par des hyperplans, de l'espace engendr e par les variables explicatives.

Nomm ees initialement partitionnement r ecursif ou segmentation, les d eveloppements

importants de Breiman et col. (1984) les ont fait conna^ tre sous l'acronyme de CART :

Classi
cation and Regression Tree ou encore de C4.5 (Quinlan, 1993) dans la communaut

e informatique. L'acronyme correspond a deux situations bien distinctes selon que

la variable a expliquer, mod eliser ou pr evoir est qualitative (discrimination ou en anglais

\classi
cation") ou quantitative (r egression).

Ces m ethodes ne sont e


caces que pour des tailles d' echantillons importantes et elles

sont tr es calculatoires. Les deux raisons : mod ele graphique de d ecision simple a interpr eter,

puissance de calcul n ecessaire, su


sent a expliquer leur popularit e r ecente. De plus, elles

requi erent plut^ot moins d'hypoth eses que des m ethodes statistiques classiques et semblent

particuli erement adapt ees au cas o u les variables explicatives sont nombreuses. En e
et,

la proc edure de s election des variables est int egr ee a l'algorithme construisant l'arbre,

d'autre part, les interactions sont prises en compte. N eanmoins, cet algorithme suivant

une strat egie pas a pas hi erarchis ee, il peut, comme dans le cas du choix de mod ele

en r egression, passer a cot e d'un optimum global. Ceci souligne encore l'importance de

confronter plusieurs approches sur les m^emes donn ees.

2 Construction d'un arbre binaire

2.1 Principe

Les donn ees sont constitu ees de l'observation de p variables quantitatives ou qualitatives

explicatives Xj et d'une variable a expliquer Y qualitative a m modalit es fT`; ` =

1 : : : ;mg ou quantitative r eelle, observ ees sur un echantillon de n individus.

63

64 Chapitre 5. Arbres binaires

􀀀
􀀀

@@

􀀀􀀀

@@

􀀀􀀀

Tj T` Tj
Revenu < 10000 Revenu > 10000

Sexe=H Sexe=F Age < 50 Age > 50

Fig. 5.1 { Exemple el ementaire d'arbre de classi


cation.

La construction d'un arbre de discrimination binaire (cf.


gure 2.1) consiste a d eterminer

une s equence de n uds.

Un n ud est d e
ni par le choix conjoint d'une variable parmi les explicatives et

d'une division qui induit une partition en deux classes. Implicitement, a chaque

n ud correspond donc un sous-ensemble de l' echantillon auquel est appliqu ee une

dichotomie.

Une division est elle-m^eme d e


nie par une valeur seuil de la variable quantitative

s electionn ee ou un partage en deux groupes des modalit es si la variable est qualitative.

A la racine ou n ud initial correspond l'ensemble de l' echantillon ; la proc edure est

ensuite it er ee sur chacun des sous-ensembles.

L'algorithme consid er e n ecessite :

i. la d e
nition d'un crit ere permettant de s electionner la \meilleure" division parmi

toutes celles admissibles pour les di


erentes variables ;

ii. une r egle permettant de d ecider qu'un n ud est terminal : il devient ainsi une feuille ;

iii. l'a
ectation de chaque feuille a l'une des classes ou a une valeur de la variable a

expliquer.

Le point (ii) est le plus d elicat. Il correspond encore a la recherche d'un mod ele parcimonieux.

Un arbre trop d etaill e, associ e a une surparam etrisation, est instable et donc

probablement plus d efaillant pour la pr evision d'autres observations. La contribution majeure

de Breiman et col. (1984) est justement une strat egie de recherche d'arbre optimal.

Elle consiste a

i. construire l'arbre maximal Amax,

ii. ordonner les sous-arbres selon une s equence embo^ t ee suivant la d ecroissance d'un

crit ere p enalis e de d eviance ou de taux de mal-class es,

iii. puis a s electionner le sous-arbre optimal ; c'est la proc edure d' elagage.

Tous ces points sont d etaill es ci-dessous.

3. Crit eres d'homog en eit e 65

2.2 Crit ere de division

Une division est dite admissible si aucun des deux n uds descendants qui en d ecoulent

n'est vide. Si la variable explicative est qualitative ordinale avec m modalit es, elle fournit

(m􀀀1) divisions binaires admissibles. Si elle est seulement nominale le nombre de divisions

passe a 2(m􀀀1) 􀀀 1. Une variable quantitative se ram ene au cas ordinal.

Le crit ere de division repose sur la d e


nition d'une fonction d'h et erog en eit e ou de

d esordre explicit ee dans la section suivante. L'objectif etant de partager les individus en

deux groupes les plus homog enes au sens de la variable a expliquer. L'h et erog en eit e d'un

n ud se mesure par une fonction non n egative qui doit ^etre

i. nulle si, et seulement si, le n ud est homog ene : tous les individus appartiennent a

la m^eme modalit e ou prennent la m^eme valeur de Y .

ii. Maximale lorsque les valeurs de Y sont equiprobables ou tr es dispers ees.

La division du n ud k cr ee deux
ls, gauche et droit. Pour simpli
er, ils sont not es

(k + 1) et (k + 2) mais une re-num erotation est n ecessaire pour respecter la s equence de

sous-arbres qui sera d ecrite dans la section suivante.

Parmi toutes les divisions admissibles du n ud k, l'algorithme retient celle qui rend

la somme D(k+1) + D(k+2) des d esordres des n uds


ls minimales. Ceci revient encore a

r esoudre a chaque etape k de construction de l'arbre :

max

fdivisions deXj ;j=1;pg

Dk 􀀀 (D(k+1) + D(k+2))

Graphiquement, la longueur de chaque branche peut ^etre repr esent ee proportionnellement

a la r eduction de l'h et erog en eit e occasionn ee par la division.

2.3 R egle d'arr^et

La croissance de l'arbre s'arr^ete a un n ud donn e, qui devient donc terminal ou feuille,

lorsqu'il est homog ene c'est- a-dire lorsqu'il n'existe plus de partition admissible ou, pour

eviter un d ecoupage inutilement


n, si le nombre d'observations qu'il contient est inf erieur

a une valeur seuil a choisir en g en eral entre 1 et 5.

2.4 A
ectation

Dans le cas Y quantitative, a chaque feuille est associ ee une valeur : la moyenne des

observations associ ees a cette feuille. Dans le cas qualitatif, chaque feuille ou n ud terminal

est a
ect e a une classe T` de Y en consid erant le mode conditionnel :

celle la mieux repr esent ee dans le n ud et il est ensuite facile de compter le nombre

d'objets mal class es ;

la classe a posteriori la plus probable au sens bayesien si des probabilit es a priori

sont connues ;

la classe la moins co^uteuse si des co^uts de mauvais classement sont donn es.

3 Crit eres d'homog en eit e

Deux cas sont a consid erer.

66 Chapitre 5. Arbres binaires

3.1 Y quantitative

On consid ere le cas plus g en eral d'une division en J classes. Soit n individus et une

partition en J classes de tailles nj; j = 1; : : : ; J avec n =

PJ

j=1 nj. On num erote i =

1; : : : ; nj les individus de la j eme classe. Soit ij (resp.yij) la valeur \th eorique" (resp.

l'observation) de Y sur l'individu (i; j) : le i eme de la j eme classe. L'h et erog en eit e de la

classe j est d e
nie par :

Dj =

Xnj

i=1

( ij 􀀀 :j)2 avec :j =

Xnj

i=1

ij :

L'h et erog en eit e de la partition est d e


nie par :

D=

XJ

j=1

Dj =

XJ

j=1

Xnj

i=1

( ij 􀀀 :j)2;

c'est l'inertie intra (homog ene a la variance intraclasse) qui vaut D = 0 si et seulement si

ij = :j pour tout i et tout j.

La di
erence d'h et erog en eit e entre l'ensemble non partag e et l'ensemble partag e selon

la partition J est

XJ

j=1

Xnj

i=1

( ij 􀀀 ::)2 􀀀

XJ

j=1

Xnj

i=1

( ij 􀀀 :j)2 o u :: =

XJ

j=1

Xnj
i=1

ij :

XJ

j=1

nj( :: 􀀀 :j)2;

c'est encore homog ene a la variance inter classe ou \d esordre" des barycentres qui vaut

= n1n2(( :1 􀀀 :2)2 pour J = 2 dans le cas qui nous int eresse.

L'objectif, a chaque etape, est de maximiser c'est- a-dire de trouver la variable induisant

une partition en 2 classes associ ee a une inertie (variance) intraclasse minimale ou

encore qui rend l'inertie (la variance) interclasse la plus grande.

Les quantit es sont estim ees :

Dj par cDj =

Xnj

i=1

(yij 􀀀 y:j)2 (1)

D par bD=

XJ

j=1

cDj =

XJ

j=1

Xnj

i=1

(yij 􀀀 y:j)2: (2)

Sous hypoth ese gaussienne :

Yij = :j + uij avec + uij N(0; 2);

la log-vraisemblance

log L = Cste 􀀀

2
log( 2) 􀀀

2 2

XJ

j=1

Xnj

i=1

(yij 􀀀 :j)2

3. Crit eres d'homog en eit e 67

est rendue maximale pour

L = sup

log L = Cste 􀀀

log( 2) 􀀀

2 2

XJ

j=1

Xnj

i=1

(yij 􀀀 y:j)2:

Pour le mod ele satur e (une classe par individu) : yij = ij + uij , cet optimum devient :

Ls = sup

log L = Cste 􀀀

log( 2):

La d eviance (par rapport au mod ele satur e) s'exprime alors comme :


D = 2 2(Ls 􀀀 L ) = bD

Le ra
nement de l'arbre est donc associ e a une d ecroissance, la plus rapide possible, de la

d eviance. C'est l'optique retenue dans le logiciel Splus. On peut encore dire que la division

retenue est celle qui rend le test de Fisher (analyse de variance), comparant les moyennes

entre les deux classes, le plus signi


catif possible.

3.2 Y qualitative

Dans ce cas, la fonction d'h et erog en eit e, ou de d esordre d'un n ud, est d e
nie a partir

de la notion d'entropie, du crit ere de concentration de Gini ou encore d'une statistique

de test du 2. En pratique, il s'av ere que le choix du crit ere importe moins que celui du

niveau d' elagage. Le premier crit ere (entropie) est souvent pr ef er e (Splus) car il s'interpr ete

encore comme un terme de d eviance mais d'un mod ele multinomial cette fois.

On consid ere une variable a expliquer qualitative, Y a m modalit es ou cat egories T

num erot ees ` = 1; : : : ;m. L'arbre induit une partition pour laquelle n+k d esigne l'e
ectif

de la k eme classe ou k eme n ud. Soit

p`k = P[T` j k] avec

Xm

`=1

p`k = 1

la probabilit e qu'un el ement du k eme n ud appartienne a la ` eme classe.

Le d esordre du k eme n ud, d e


ni a partir de l'entropie, s' ecrit avec la convention

0 log(0) = 0. :

Dk = 􀀀2

Xm

`=1

n+kp`k log(p`k)

tandis que l'h et erog en eit e ou d esordre de la partition est encore :

D=

XK

k=1

Dk = 􀀀2

XK

k=1

Xm

`=1

n+kp`k log(p`k):

Cette quantit e est positive ou nulle, elle est nulle si et seulement si les probabilit es p`k ne

prennent que des valeurs 0 sauf une egale a 1 correspondant a l'absence de m elange.

D esignons par n`k l'e


ectif observ e de la ` eme classe dans le k eme n ud. Un n ud k

de l'arbre repr esente un sous-ensemble de l' echantillon d'e


ectif n+k =

Pm

`=1 n`k.

68 Chapitre 5. Arbres binaires

Les quantit es sont estim ees :

Dk parcDk = 􀀀2

Xm

`=1

n+k

n`k

n+k
log

n`k

n+k

(3)

D par bD

XK

k=1

cDk = 􀀀2

XK

k=1

Xm

`=1

n`k log

n`k

n+k

: (4)

Consid erons, pour chaque classe ou n ud k, un mod ele multinomial a m cat egories de

param etre :

pk = (p1k; : : : ; pmk); avec

Xm

`=1

p`k = 1:

Pour ce mod ele, la logvraisemblance :

log L = Cste +

XK

k=1

Xm

`=1

n`k log(p`k)

est rendue maximale pour


L = sup

p`k

log L = Cste +

XK

k=1

Xm

`=1

n`k log

n`k

n+k

Pour le mod ele satur e (une cat egorie par objet), cet optimum prend la valeur de la

constante et la d eviance (par rapport au mod ele satur e) s'exprime comme :

D = 􀀀2

XK

k=1

Xm

`=1

n`k log

n`k

n+k

= bD

Comme pour l'analyse discriminante d ecisionnelle, les probabilit es conditionnelles sont

d e
nies par la r egle de Bayes lorsque les probabilit es a priori ` d'appartenance a la

` eme classe sont connues. Dans le cas contraire, les probabilit es de chaque classe sont

estim ees sur l' echantillon et donc les probabilit es conditionnelles s'estiment simplement

par des rapports d'e


ectifs : p`k est estim ee par n`k=n+k. En
n, il est toujours possible

d'introduire, lorsqu'ils sont connus, des co^uts de mauvais classement et donc de se ramener

a la minimisation d'un risque bay esien.

4 Elagage

Dans des situations complexes, la d emarche propos ee conduit a des arbres extr^emement

ra
n es et donc a des mod eles de pr evision tr es instables car fortement d ependants des

echantillons qui ont permis leur estimation. On se trouve donc dans une situation de surajustement

a eviter au pro
t de mod eles plus parcimonieux donc plus robuste au moment

de la pr evision. Cet objectif est obtenu par une proc edure d' elagage (pruning) de l'arbre.

Le principe de la d emarche, introduite par Breiman et col. (1984), consiste a construire

une suite embo^ t ee de sous-arbres de l'arbre maximum par elagage successif puis a choisir,

parmi cette suite, l'arbre optimal au sens d'un crit ere. La solution ainsi obtenue par un

algorithme pas a pas n'est pas n ecessairement globalement optimale mais l'e
cacit e et la
abilit e sont pr ef er ees a l'optimalit e.

4. Elagage 69

Fig. 5.2 { Carte Visa : choix du nombre de feuilles par echantillon de validation (SEM,

2001).

Fig. 5.3 { Carte Visa : arbre de d ecision elagu e suivant l' echantillon de validation(SEM,

2001).

70 Chapitre 5. Arbres binaires

moyrvq:M0,M1

moyrvq:M2

296/869

Cnon

pcspq:Pcad,Pint

pcspq:Pemp,Pouv,Psan

98/581

Cnon

dmvtpq:D1

dmvtpq:D0,D2

71/199

Cnon

3/72

Cnon

sexeq:Sfem

sexeq:Shom

59/127

Coui

6/34

Cnon

relatq:r0

relatq:R2,r1

31/93

Coui
11/54

Coui

moyrvq:M0

moyrvq:M1

19/39

Cnon

3/17

Cnon

6/22

Coui

uemnbq:U0,U1

uemnbq:U2

27/382

Cnon

9/266

Cnon

dmvtpq:D0

dmvtpq:D1,D2

18/116

Cnon

rocnbq:R0

rocnbq:R1

9/19

Coui

1/10

Cnon

0/9

Coui

8/97

Cnon

dmvtpq:D1
dmvtpq:D0,D2

90/288

Coui

17/85

Cnon

22/203

Coui

Fig. 5.4 { Carte Visa : arbre de d ecision (Splus, 1993) elagu e par validation crois ee.

4. Elagage 71

4.1 Construction de la s equence d'arbres

Pour un arbre A donn e, on note K le nombre de feuilles ou n uds terminaux de A;

la valeur de K exprime la complexit e de A. La mesure de qualit e de discrimination d'un

arbre A s'exprime par un crit ere

D(A) =

XK

k=1

Dk(A)

o u Dk(A) est le nombre de mal class es ou la d eviance ou le co^ut de mauvais classement

de la k eme feuille de l'arbre A.

La construction de la s equence d'arbres embo^ t es repose sur une p enalisation de la

complexit e de l'arbre :

C(A) = D(A) +

K:

Pour

= 0, Amax = AK minimise C(A). En faisant cro^ tre

, l'une des divisions de

AK, celle pour laquelle l'am elioration de D est la plus faible (inf erieure a

), appara^ t

comme super

ue et les deux feuilles obtenues sont regroup ees ( elagu ees) dans le n ud

p ere qui devient terminal ; AK devient AK􀀀1.


Le proc ed e est it er e pour la construction de la s equence embo^ t ee :

Amax = AK AK􀀀1 A1

o u A1, le n ud racine, regroupe l'ensemble de l' echantillon.

Un graphe repr esente la d ecroissance ou eboulis de la d eviance (ou du taux de mal

class es) en fonction du nombre croissant de feuilles dans l'arbre ou, c'est equivalent, en

fonction de la valeur d ecroissante du coe


cient de p enalisation

4.2 Recherche de l'arbre optimal

Les proc edures d' elagage di


erent par la fa con d'estimer l'erreur de pr ediction. Le

graphe pr ec edemment obtenu peut se lire comme un eboulis de valeur propre. Quand

l'am elioration du crit ere est jug e trop petite ou n egligeable, on elague l'arbre au nombre de

feuilles obtenues. L' evaluation de la d eviance ou du taux de mauvais classement estim ee par

resubstitution sur l' echantillon d'apprentissage est biais ee (trop optimiste). Une estimation

sans biais est obtenue par l'utilisation d'un autre echantillon (validation) ou encore par

validation crois ee. La proc edure de validation crois ee pr esente dans ce cas une particularit e

car la s equence d'arbres obtenue est di


erente pour chaque estimation sur l'un des sous-

echantillons. L'erreur moyenne n'est pas, dans ce cas, calcul ee pour chaque sous-arbre

avec un nombre de feuilles donn e mais pour chaque sous-arbre correspondant a une valeur
x ee du coe
cient de p enalisation. A la valeur de

minimisant l'estimation de l'erreur

de pr evision, correspond ensuite l'arbre jug e optimal dans la s equence estim ee sur tout

l' echantillon d'apprentissage.

Le principe de s election d'un arbre optimal est donc d ecrit dans l'algorithme ci-dessous.

Algorithme 5.1 : S election d'arbre

72 Chapitre 5. Arbres binaires

Construction de l'arbre maximal Amax.

Construction de la s equence AK : : :A1 d'arbres embo^ t es.

Estimation sans biais ( echantillon de validation ou validation crois ee) des d eviances

D(AK); : : : ;D(A1).

Repr esentation de D(Ak) en fonction de k ou de

Choix de k rendant D(Ak) minimum.

Chapitre 6

M ethodes connexionistes

1 Historique

Nous nous int eressons ici a une branche de l'Informatique fondamentale qui, sous

l'appellation d'Intelligence Arti


cielle, a pour objectif de simuler des comportements du

cerveau humain. Les premi eres tentatives de mod elisation du cerveau sont anciennes et

pr ec edent m^eme l' ere informatique. C'est en 1943 que Mc Culloch (neurophysiologiste)

et Pitts (logicien) ont propos e les premi eres notions de neurone formel. Ce concept fut

ensuite mis en r eseau avec une couche d'entr ee et une sortie par Rosenblatt en 1959 pour

simuler le fonctionnement r etinien et tacher de reconna^ tre des formes. C'est l'origine du

perceptron. Cette approche dite connexioniste a atteint ses limites technologiques, compte

tenu de la puissance de calcul de l' epoque, mais aussi th eoriques au d ebut des ann ees 70.

L'approche connexioniste a connaissance r epartie a alors et e supplant ee par l'approche

symbolique ou s equentielle qui promouvait les syst emes experts a connaissance localis ee.

L'objectif etait alors d'automatiser le principe de l'expertise humaine en associant trois

concepts :

une base de connaissance dans laquelle etaient regroup ees \toutes" les connaissances

d'experts humains sous forme de propositions logiques el ementaires ou plus elabor ees

en utilisant des quanti


cateurs (logique du premier ordre).

une base de faits contenant les observations du cas a traiter comme, par exemple, des

r esultats d'examens, d'analyses de sang, de salive pour des applications biom edicales

de choix d'un antibiotique,

un moteur d'inf erence charg e d'appliquer les r egles expertes sur la base de faits a
n

d'en d eduire de nouveaux faits jusqu' a la r ealisation d'un objectif comme l' elaboration

du traitement d'un infection bact erienne.

Face aux di
cult es rencontr ees lors de la mod elisation des connaissances d'un expert

humain, au volume consid erable des bases de connaissance qui en d ecoulait et au caract ere

exponentiel de la complexit e des algorithmes d'inf erence mis en jeu, cette approche s'est

eteinte avec les ann ees 80. En e


et, pour les syst emes les plus compliqu es a base de calcul

des pr edicats du premier ordre, on a pu montrer qu'ils conduisaient a des probl emes NP

complets et donc dont la solution pouvait ^etre atteinte mais pas n ecessairement en un

temps
ni !

L'essor technologique et surtout quelques avanc ees th eoriques :

algorithme d'estimation par r etropropagation de l'erreur par Hopkins en 1982,

73

74 Chapitre 6. M ethodes connexionistes

jf

x1

x2 QsQ PPPq

xj -

...

xp

-y

Fig. 6.1 { Repr esentation d'un neurone formel.

analogie de la phase d'apprentissage avec les mod eles markoviens de syst emes de

particules de la m ecanique statistique (verres de spin) par Hop


eld en 1982,

au d ebut des ann ees 80 ont permis de relancer l'approche connexioniste. Celle-ci a connu

au d ebut des ann ees 90 un d eveloppement consid erable si l'on consid ere le nombre de

publications et de congr es qui lui ont et e consacr es mais aussi les domaines d'applications

tr es divers o u elle appara^ t. Sur de nombreux objectifs, justement ceux propres au data

mining, les r eseaux neuronaux ne rentrent pas n ecessairement en concurrence avec des

m ethodes statistiques bient^ot centenaires mais apportent un point de vue compl ementaire

qu'il est important de consid erer (Thiria et col. 1997).

2 R eseaux de neurones

Un r eseau neuronal est l'association, en un graphe plus ou moins complexe, d'objets

el ementaires, les neurones formels. Les principaux r eseaux se distinguent par l'organisation

du graphe (en couches, complets. . . ), c'est- a-dire leur architecture, son niveau de

complexit e (le nombre de neurones) et par le type des neurones (leurs fonctions de transition).

2.1 Neurone formel

De fa con tr es r eductrice, un neurone biologique est une cellule qui se caract erise par

des synapses, les points de connexion avec les autres neurones,


bres nerveuses ou

musculaires ;

des dentrites, les \entr ees" du neurones ;

l'axone, la \sortie" du neurone vers d'autres neurones ou


bres musculaires ;

le noyau qui active la sortie en fonction des stimuli en entr ee.

Par analogie, le neurone formel est un mod ele qui se caract erise par un etat interne s 2 S,

des signaux d'entr ee x1; : : : ; xp et une fonction de transition d' etat

s = h(x1; : : : ; xp) = f

@
0+

Xp

j=1
jxj

A:

La fonction de transition op ere une transformation d'une combinaison a


ne des signaux

d'entr ee,
0 etant appel e le biais du neurone. Cette combinaison a
ne est d etermin ee par

3. Perceptron multicouche 75

x1 - HHHHHj

JJ^

x2 - *

HHHHHj

JJ^

...

xj - HHHHHj

*
-

...

xp - *

-
jf

jf

...

jf

jf

@@R-

􀀀􀀀

-y

Fig. 6.2 { Exemple de perceptron multicouche el ementaire avec une couche cach ee et une

couche de sortie.

un vecteur de poids [
0; : : : ;
p] associ e a chaque neurone et dont les valeurs sont estim ees

dans la phase d'apprentissage. Ils constituent \la m emoire" ou \connaissance r epartie" du

r eseau.

Les di
erents types de neurones se distinguent par la nature f de leur fonction de

transition. Les principaux types sont :

lin eaire f est la fonction identit e,

sigmo• de f(x) = 1=(1 + ex),

seuil f(x) = 1[0;+1[(x),

stochastiques f(x) = 1 avec la probabilit e 1=(1 + e􀀀x=H), 0 sinon (H intervient

comme une temp erature dans un algorithme de recuit simul e),

...

Les mod eles lin eaires et sigmo• daux sont bien adapt es aux algorithmes d'apprentissage

comme celui de r etropropagation du gradient car leur fonction de transition est

di
erentiable. Ce sont les plus utilis es. Le mod ele a seuil est sans doute plus conforme

a la \r ealit e" biologique mais pose des probl emes d'apprentissage. En


n le mod ele stochastique

est utilis e pour des probl emes d'optimisation globale de fonctions perturb ees ou

encore pour les analogies avec les syst emes de particules. On ne le rencontre pas en data

mining.

3 Perceptron multicouche

3.1 Architecture

Le perceptron multicouche (PMC) est un r eseau compos e de couches successives. Une

couche est un ensemble de neurones n'ayant pas de connexion entre eux. Une couche

d'entr ee lit les signaux entrant, un neurone par entr ee xj , une couche en sortie fournit la

r eponse du syst eme. Selon les auteurs, la couche d'entr ee qui n'introduit aucune modi
ca76

Chapitre 6. M ethodes connexionistes

tion n'est pas comptablis ee. Une ou plusieurs couches cach ees participent au transfert. Un

neurone d'une couche cach ee est connect e en entr ee a chacun des neurones de la couche

pr ec edente et en sortie a chaque neurone de la couche suivante.

Un perceptron multicouche r ealise donc une transformation

y = F(x1; : : : ; xp;
)

o u
est le vecteur contenant chacun des param etres
jk` de la j eme entr ee du k eme

neurone de la ` eme couche ; la couche d'entr ee (` = 0) n'est pas param etr ee, elle ne fait

que distribuer les entr ees sur tous les neurones de la couche suivante.

Par souci de coh erence, nous avons t^ach e de conserver les m^emes notations a travers

les di
erents chapitres. Ainsi, les entr ees d'un r eseau sont encore not ees x1; : : : ; xp comme

les variables explicatives d'un mod ele tandis que les poids des entr ees sont des param etres
a estimer lors de la proc edure d'apprentissage et que la sortie est la variable a expliquer

ou cible du mod ele.

3.2 Apprentissage

Supposons que l'on dispose d'une base d'apprentissage de taille n d'observations (x1i

; : : : ; xp

i ; yi)

des variables explicatives X1; : : : ;Xp et de la variable a pr evoir Y . L'apprentissage est l'estimation

b
des param etres du mod ele solutions du probl eme des moindres carr es1 :

b
= arg min

Q(b) avec Q(b) =

Xn

i=1

[yi 􀀀 F(x1i

; : : : ; xp

i ; (b))]2:

L'algorithme d'optimisation le plus utilis e est celui de r etropropagation du gradient bas e

sur l'id ee suivante : en tout point b, le vecteur gradient de Q pointe dans la direction de

l'erreur croissante. Pour faire d ecro^ tre Q il su


t donc de se d eplacer en sens contraire. Il

s'agit d'un algorithme it eratif modi


ant les poids de chaque neurone selon :

bjk`(i) = bjk`(i 􀀀 1) + bjk`(i)

o u la correction bjk`(i) est proportionnelle au gradient et a l'erreur attribu ee a l'entr ee

concern ee "jk`(i) et incorpore un terme d'\inertie"


bjk`(i 􀀀 1) permettant d'amortir les

oscillations du syst eme :

bjk`(i) = 􀀀 "jk`(i)

@Q

@bjk`

+
bjk`(i 􀀀 1):

Le coe
cient de proportionnalit e est appel e le taux d'apprentissage. Il peut ^etre
xe

a d eterminer par l'utilisateur ou encore varier en cours d'ex ecution selon certaines r egles

param etr ees par l'utilisateur. Il para^ t en e


et intuitivement raisonnable que, grand au

d ebut pour aller plus vite, ce taux d ecroisse pour aboutir a un r eglage plus
n au fur

et a mesure que le syst eme s'approche d'une solution. La formule de r etropropagation

de l'erreur fournit, a partir des erreurs observ ees sur les sorties, l'expression de l'erreur

attribu ee a chaque entr ee de la couche de sortie a la couche d'entr ee.

La litt erature sur le sujet propose quantit es de recettes destin ees a am eliorer la vitesse

de convergence de l'algorithme ou bien lui eviter de rester coll e a une solution locale

1 Equivalent a une maximisation de la vraisemblance dans le cas gaussien.

3. Perceptron multicouche 77

d efavorable. Des propri et es (dynamique markovienne ergodique et convergence vers la

mesure stationnaire) de cet algorithme impliquent une convergence presque s^ure ; la probabilit

e d'atteindre une pr ecision


x ee a priori tend vers 1 lorsque la taille de l' echantillon

d'apprentissage tend vers l'in


ni.

Algorithme 6.1 : R etropropagation du gradient

Initialisation

{ Les poids bjk` par tirage al eatoire selon une loi uniforme sur [0; 1].

{ Normaliser dans [0; 1] les donn ees d'apprentissage.

Tant que Q > errmax ou niter<itermax.

Ranger la base d'apprentissage dans un nouvel ordre al eatoire.

{ Pour chaque el ement i = 1; : : : ; n de la base Faire

{ Calculer "(i) = yi 􀀀 F(x1i

; : : : ; xp

i ; (b)(i 􀀀 1)) en propageant les entr ees vers

l'avant.

{ L'erreur est \r etropropag ee" dans les di


erentes couches a
n d'a
ecter a chaque

entr ee une responsabilit e dans l'erreur globale.

{ Mise a jour de chaque poids bjk`(i) = bjk`(i 􀀀 i) + bjk`(i)

{ Fin Pour

Fin Tant que

3.3 Utilisation

On pourra se reporter a l'abondante litt erature sur le sujet (Haykin, 1994) pour obtenir

des pr ecisions sur les algorithme d'apprentissage et leurs nombreuses variantes. Il est

important de rappeler la liste des choix qui sont laiss es a l'utilisateur. En e


et, m^eme si

les logiciels proposent des valeurs par d efaut, il est fr equent que cet algorithme connaisse

quelques soucis de convergence.

L'utilisateur doit donc d eterminer

i. les variables d'entr ee et la variable de sortie ; leur faire subir comme pour toutes

m ethodes statistiques, d' eventuelles transformations.

ii. L'architecture du r eseau : le nombre de couches cach ees (en g en eral une ou deux)

qui correspond a une aptitude a traiter des probl emes de non-lin earit e, le nombre de

neurones par couche cach ee. Ces deux choix conditionnent directement le nombre de

param etres (de poids) a estimer. Ils participent a la recherche d'un bon compromis

biais/variance c'est- a-dire a l' equilibre entre qualit e d'apprentissage et qualit e de

pr evision. A la louche, on consid ere en pratique qu'il faut un echantillon d'apprentissage

au moins dix fois plus grand que le nombre de param etres a estimer.

iii. Deux autres param etres interviennent egalement sur ce compromis : le nombre maximum

d'it erations et l'erreur maximum tol er ee. En renfor cant ces crit eres on am eliore

la qualit e de l'apprentissage ce qui peut se faire au d etriment de celle de la pr evision.

iv. Le taux d'apprentissage ainsi qu'une eventuelle strat egie d' evolution de celui-ci.

Le nombre de couches reste restreint. On montre en e


et que toute fonction que toute

fonction continue d'un compact de IRP dans IRq peut ^etre approch ee avec une pr ecision

arbitraire par un r eseau a une couche cach ee en adaptant le nombre de neurones. La

complexit e du mod ele est contr^ol ee par le nombre de neurones ou encore par la dur ee de
78 Chapitre 6. M ethodes connexionistes

l'apprentissage. Ces param etres sont optimis es en consid erant un echantillon de validation

et le plus simple consiste a arr^et e l'apprentissage lorsque l'erreur sur l' echantillon de validation

commence a se d egrader tandis que celle sur l' echantillon d'apprentissage ne peut

que continuer a d ecro^ tre.

Les champs d'application des PMC sont tr es nombreux : discrimination, pr evision

d'une s erie temporelle, reconnaissance de forme. . . Ils sont en g en eral bien explicit es dans

les documentations des logiciels sp ecialis es.

Les critiques principales enonc ees a l'encontre du PMC concernent les di


cult es li es

a l'apprentissage (temps de calcul, taille de l' echantillon, localit e de l'optimum obtenu)

ainsi que son statut de bo^ te noir. En e


et, contrairement a un mod ele de discrimination

ou un arbre, il est a priori impossible de conna^ tre l'in

uence e
ective d'une entr ee (une

variable) sur le syst eme d es qu'une couche cach ee intervient. N eanmoins, des techniques

de recherche de sensibilit e du syst eme a chacune des entr ees permettent de pr eciser les

id ees et, eventuellement de simpli


er le syst eme en supprimant certaines des entr ees.

En revanche, ils poss edent d'ind eniables qualit es lorsque l'absence de lin earit e et/ou

le nombre de variables explicatives rendent les mod eles statistiques traditionnelles inutilisables.

Leur

exibilit e alli ee a une proc edure d'apprentissage int egrant la pond eration (le

choix) des variables comme de leurs interactions peuvent les rendre tr es e


caces (Besse

et col. 2001).

Chapitre 7

Agr egation de mod eles

1 Introduction

Ce chapitre d ecrit des algorithmes plus r ecemment apparus dans la litt erature. Ils

sont bas es sur des strat egies adaptatives (boosting) ou al eatoires (bagging) permettant

d'am eliorer l'ajustement par une combinaison ou agr egation d'un grand nombre de mod eles

tout en evitant un sur-ajustement. Ces algorithmes se sont d evelopp es a la fronti ere entre

apprentissage machine (machine learning) et Statistique. De nombreux articles comparatifs

montrent leur e
cacit e sur des exemples de donn ees simul ees et surtout pour des probl emes

r eels complexes (voir par exemple Ghattas 2000) tandis que leurs propri et es th eoriques

sont un th eme de recherche actif.

Deux types d'algorithmes sont d ecrits sch ematiquement dans ce chapitre. Ceux reposants

sur une construction al eatoires d'une famille de mod ele : bagging pour bootstrap

aggregating (Breiman 1996), les for^ets al eatoires (random forests) de Breiman (2001) qui

propose une am elioration du bagging sp eci


que aux mod eles d e
nis par des arbres binaires

(CART). Ceux bas es sur le boosting (Freund et Shapiro,1996), reposent sur une

construction adaptative, d eterministe ou al eatoire, d'une famille de mod eles.

Les principes du bagging ou du boosting s'appliquent a toute m ethode de mod elisation

(r egression, CART, r eseaux de neurones) mais n'ont d'int er^et, et r eduisent sensiblement

l'erreur de pr ediction, que dans le cas de mod eles instables, donc plut^ot non lin eaires.

Ainsi, l'utilisation de ces algorithmes n'a gu ere de sens avec la r egression multilin eaire

ou l'analyse discriminante. Ils sont surtout mises en uvre en association avec des arbres

binaires comme mod eles de base.

2 Famille de mod eles al eatoires

2.1 Bagging

Principe et algorithme

Soit Y une variable a expliquer quantitative ou qualitative, X1; : : : ;Xp les variables

explicatives et -(x) un mod ele fonction de x = fx1; : : : ; xpg 2 IRp. On note n le nombre

79

80 Chapitre 7. Agr egation de mod eles

d'observations et

z = f(x1; y1); : : : ; (xn; yn)g

un echantillon de loi F.

L'esp erance -(:) = EF (b-z) de l'estimateur d e


nie sur l' echantillon z, est un estimateur

sans biais de variance nulle. Consid erons B echantillons ind ependants not es fzbgb=1;B et

construisons une agr egation des mod eles dans le cas o u la variable a expliquer Y est :

quantitative : b-B(:) = 1

PB

b=1

b-zb (:),

qualitative : b-B(:) = arg maxj card

b j b-zb (:) = j

Dans le premier cas, il s'agit d'une simple moyenne des r esultats obtenus pour les mod eles

associ es a chaque echantillon, dans le deuxi eme, un comit e de mod eles est constitu e pour

voter et elire la r eponse la plus probable. Dans ce dernier cas, si le mod ele retourne des

probabilit es associ ees a chaque modalit e comme en r egression logistique ou avec les arbres

de d ecision, il est aussi simple de calculer des moyennes de ces probabilit es.

Le principe est el ementaire, moyenner les pr edictions de plusieurs mod eles ind ependants

permet de r eduire la variance et donc de r eduire l'erreur de pr ediction.

Cependant, il n'est pas r ealiste de consid erer B echantillons ind ependants. Cela n ecessiterait

g en eralement trop de donn ees. Ces echantillons sont donc remplac es par B r eplications

d' echantillons bootstrap (cf. Annexe B) obtenus chacun par n tirages avec remise selon la

mesure empirique b F. Ceci conduit a l'algorithme ci-dessous.

Algorithme 7.1 : Bagging

Soit x0 a pr evoir et

z = f(x1; y1); : : : ; (xn; yn)g un echantillon

Pour b = 1 a B Faire

{ Tirer un echantillon bootstrap z b

{ Estimer b-zb (x0) sur l' echantillon bootstrap.


Fin Pour

Calculer l'estimation moyenne b-B(x0) = 1

PB

b=1

b-zb (x0) ou le r esultat du vote.

Utilisation

Il est naturel et techniquement facile d'accompagner ce calcul par une estimation bootstrap

out-of-bag (cf. chapitre 3 section 4.2) de l'erreur de pr ediction. Elle est une mesure de

la qualit e de g en eralisation du mod ele et permet de pr evenir une eventuelle tendance au

surajustement. C'est, pour eviter un biais, la moyenne des erreurs de pr ediction commises

par chaque estimateur ; chacune des erreurs etant estim ee sur les observations qui n'ont

pas et e s electionn ees par l' echantillon bootstrap correspondant.

En pratique, CART est souvent utilis ee comme m ethode de base pour construire une

famille de mod eles c'est- a-dire d'arbres binaires. Trois strat egies d' elagage sont alors possibles

i. laisser construire et garder un arbre complet pour chacun des echantillons,

ii. construire un arbre d'au plus q feuilles,

iii. construire a chaque fois l'arbre complet puis l' elaguer par validation crois ee.

2. Famille de mod eles al eatoires 81

La premi ere strat egie semble en pratique un bon compromis entre volume des calculs

et qualit e de pr ediction. Chaque arbre est alors a


ect e d'un faible biais et d'une grande

variance mais la moyenne des arbres r eduit avantageusement celle-ci. En revanche, l' elagage

par validation crois ee p enalise lourdement les calculs sans gain substantiel de qualit e.

Cet algorithme a l'avantage de la simplicit e, il s'adapte et se programme facilement

quelque soit la m ethode de mod elisation mise en uvre. Il pose n eanmoins quelques

probl emes :

temps de calcul important pour evaluer un nombre su


sant d'arbres jusqu' a ce que

l'erreur de pr ediction out-of-bag ou sur un echantillon validation se stabilise et arr^et

si elle tend a augmenter ;

n ecessiter de stocker tous les mod eles de la combinaison a


n de pouvoir utiliser cet

outil de pr ediction sur d'autres donn ees,

l'am elioration de la qualit e de pr ediction se fait au d etriment de l'interpr etabilit e. Le

mod ele
nalement obtenu devient une bo^ te noire comme dans le cas du perceptron.

2.2 For^ets al eatoires

Algorithme

Dans les cas sp eci


que des mod eles CART (arbres binaires), Breiman (2001) propose

une am elioration du bagging par l'ajout d'une randomisation. L'objectif est donc

de rendre plus ind ependants les arbres de l'agr egation en ajoutant du hasard dans le

choix des variables qui interviennent dans les mod eles. Cette approche semble plus particuli

erement fructueuse dans des situations hautement multidimensionnelles, c'est- a-dire

lorsque le nombre de variables explicatives p est tr es important. C'est le cas lorsqu'il s'agit,

par exemple, de discriminer des courbes, spectres, signaux, biopuces.

Algorithme 7.2 : For^ets al eatoires

Soit x0 a pr evoir et

z = f(x1; y1); : : : ; (xn; yn)g un echantillon

Pour b = 1 a B Faire

{ Tirer un echantillon bootstrap z b

{ Estimer un arbre sur cet echantillon avec randomisation des variables selon l'une

des deux options :

i. Si le nombre de variables explicatives est important, la recherche de chaque

n ud optimal est pr ec ed e d'un tirage al eatoire d'un sous-ensemble de q pr edicteurs.

ii. Sinon, tirer au hasard q1 3 variables explicatives puis construire q2 \pr edicteurs"

par combinaisons lin eaires avec des coe


cients obtenus par tirages al eatoires

uniformes sur [0; 1].

Fin Pour

Calculer l'estimation moyenne b-B(x0) = 1

PB

b=1

b-zb (x0) ou le r esultat du vote.

Elagage

La strat egie d' elagage peut, dans le cas des for^ets al eatoires, ^etre plus el ementaire

qu'avec le bagging en se limitant a des arbres de taille q relativement r eduite voire m^eme tri82

Chapitre 7. Agr egation de mod eles

viale avec q = 2 (stump). En e


et, avec le seul bagging, des arbres limit es a une seule fourche

risquent d'^etre tr es semblables (fortement corr el es) car impliquant les m^emes quelques
variables

apparaissant comme les plus explicatives. La s election al eatoire d'un nombre r eduit

de pr edicteurs potentiels a chaque etape de construction d'un arbre, accro^ t signi


cativement

la variabilit e en mettant en avant n ecessairement d'autres variables. Chaque mod ele

de base est evidemment moins performant mais, l'union faisant la force, l'agr egation

conduit
nalement a de bons r esultats. Le nombre de variables tir ees al eatoirement n'est

pas un param etre sensible un choix par d efaut de q = pp est sugg er e par Breiman (2001).

Comme pour le bagging, l' evaluation it erative de l'erreur out-of-bag pr evient d'un eventuel

surajustement si celle-ci vient a se d egrader.

L'interpr etation est ensuite facilit ee par le calcul et la repr esentation graphique d'un

indice proportionnel a l'importance de chaque variable dans l'agr egation de mod eles et

donc de sa participation a la r egression ou a la discrimination. C'est evidemment d'autant

plus utile que les variables sont tr es nombreuses. Plusieurs crit eres sont propos es par

Breiman (2001) pour evaluer l'importance de la j eme variable. Ils reposent sur une permutation

al eatoire des valeurs de cette variable. L'un de ces crit eres consiste a calculer la

moyenne sur toutes les observations de la d ecroissance de leur marge lorsque la variable

est al eatoirement perturb ee. La marge est ici la proportion de votes pour la vraie classe

d'une observation moins le maximum des proportions des votes pour les autres classes.

3 Famille de mod eles adaptatifs

3.1 Principes du Boosting

Le boosting di
ere des approches pr ec edentes par ses origines et ses principes. L'id ee

initiale, en apprentissage machine, etait d'am eliorer les comp etences d'un faible classi-
eur c'est- a-dire celle d'un mod ele de discrimination dont la probabilit e de succ es sur la

pr ediction d'une variable qualitative est l eg erement sup erieure a celle d'un choix al eatoire.

L'id ee originale de Schapire (1990) a et e a


n ee par Freund et Schapire (1996) qui ont d ecrit

l'algorithme original AdaBoost (Adaptative boosting) pour la pr ediction d'une variable binaire.

De nombreuses etudes ont ensuite et e publi ees pour adapter cet algorithme a d'autres

situations : k classes, r egression et rendre dompte de ses performances sur di


erents jeux

de donn ees (cf. Schapire, 2002) pour une bibliographie). Ces tests ont montr e le r eel int er^et

pratique de ce type d'algorithme pour r eduire sensiblement la variance (comme le bagging)

mais aussi le biais de pr ediction comparativement a d'autres approches. Cet algorithme

est m^eme consid er e comme la meilleure m ethode "o


-the-shelf" c'est- a-dire ne n ecessitant

pas un long pr etraitement des donn ees ni un r eglage


n de param etres lors de la proc edure

d'apprentissage.

Le boosting adopte le m^eme principe g en eral que le bagging : construction d'une famille

de mod eles qui sont ensuite agr eg es par une moyenne pond er e des estimations ou un vote.

Il di
ere nettement sur la fa con de construire la famille qui est dans ce cas r ecurrente :

chaque mod ele est une version adaptative du pr ec edent en donnant plus de poids, lors de

l'estimation suivante, aux observations mal ajust ees ou mal pr edites. Intuitivement, cet

algorithme concentre donc ses e


orts sur les observations les plus di
ciles a ajuster tandis

que l'agr egation de l'ensemble des mod eles permet d' echapper au sur-ajustement.

Les algorithmes de boosting propos es di


erent par di
erentes caract eristiques :

3. Famille de mod eles adaptatifs 83

la fa con de pond erer c'est- a-dire de renforcer l'importance des observations mal

estim ees lors de l'it eration pr ec edente,

leur objectif selon le type de la variable a pr edire Y : binaire, qualitative a k clases,

r eelles ;

la fonction perte, qui peut ^etre choisie plus ou moins robuste aux valeurs atypiques,

pour mesurer l'erreur d'ajustement ;

la fa con d'agr eger, ou plut^ot pond erer, les mod eles de base successifs.

La litt erature sur le sujet pr esente donc de tr es nombreuses versions de cet algorithme et

il est encore di
cile de dire lesquelles sont les plus e
caces et si une telle diversit e est

bien n ecessaire. Il serait fastidieux de vouloir expliciter toutes les versions, ce chapitre en

propose un choix arbitraire.

3.2 Algorithme de base

D ecrivons la version originale du boosting pour un probl eme de discrimination el ementaire

a deux classes en notant


la fonction de discrimination a valeurs dans f􀀀1; 1g. Dans cette

version, le mod ele de base retourne l'identit e d'une classe, il est encore nomm e Adaboost

discret. Il est facile de l'adapter a des mod eles retournant une valeur r eelle comme une

probabilit e d'appartenance a une classe.

Algorithme 7.3 : AdaBoost (adaptative boosting)

Soit x0 a pr evoir et

z = f(x1; y1); : : : ; (xn; yn)g un echantillon

Initialiser les poids w = fwi = 1=n ; i = 1; : : : ; ng:

Pour m = 1 a M Faire

{ Estimer
m sur l' echantillon pond er e par w.

{ Calculer le taux d'erreur apparent :

b Ep =

Pn

i=1 wiP1f
m(xi) 6= yig n

i=1 wi

{ Calculer les logit : cm = log((1 􀀀 b Ep)= b Ep).

{ Calculer les nouvelles pond erations : wi wi: exp [cm1f


m(xi) 6= yig] ; i = 1; : : : ; n.

Fin Pour

R esultat du vote : b-M(x0) = signe

hPM

m=1 cm
m(x0)

Les poids de chaque observations sont initialis es a 1=n pour l'estimation du premier

mod ele puis evoluent a chaque it eration donc pour chaque nouvelle estimation. L'importance

d'une observation wi est inchang ee si elle est bien class ee, elle cro^ t sinon proP

portionnellement au d efaut d'ajustement du mod ele. L'agr egation


nale des pr evisions : M

m=1 cm
m(x0) est une combinaison pond er ee par les qualit es d'ajustement de chaque

mod ele. Sa valeur absolue appel ee marge est proportionnelle a la con


ance que l'on peut

attribuer a son signe qui fournit le r esultat de la pr evision.

Ce type d'algorithme est largement utilis e avec un arbre (CART) comme mod ele de

base. De nombreux applications montrent que si le \classi


eur faible" est un arbre trivial

a deux feuilles (stump), AdaBoost fait mieux qu'un arbre sophistiqu e pour un volume de

calcul comparable : autant de feuilles dans l'arbre que d'it erations dans AdaBoost. Hastie

84 Chapitre 7. Agr egation de mod eles

et col. (2001) discutent la meilleure strat egie d' elagage applicable a chaque mod ele de

base. Ils le comparent avec le niveau d'interaction requis dans un mod ele d'analyse de

variance. Le cas q = 2 correspondant a la seule prise en compte des e


ets principaux.

Empiriquement ils recommandent une valeur comprise entre 4 et 8.

3.3 Version al eatoire

la suite de Freund et Schapire (1996), Breiman (1998) d eveloppe aussi, sous le

nom d'Arcing (adaptively resample and combine), une version al eatoire, et en pratique

tr es proche, du boosting. Elle s'adapte a des classi


eurs pour lesquels il est di
cile voire

impossible d'int egrer une pond eration des observations dans l'estimation. Ainsi plut^ot que

de jouer sur les pond erations, a chaque it eration, un nouvel echantillon est tir e avec remise,

comme pour le bootstrap, mais selon des probabilit es inversement proportionnelles a la

qualit e d'ajustement de l'it eration pr ec edente. La pr esence des observations di


ciles a

ajuster est ainsi renforc ee pour que le mod ele y consacre plus d'attention. L'algorithme

adaboost pr ec edent est facile a adapter en ce sens en regardant celui d evelopp e ci-dessous

pour la r egression et qui adopte ce point de vue.

3.4 Pour la r egression

Di
erentes adaptations du boosting ont et e propos ees pour le cas de la r egression,

c'est- a-dire lorsque la variable a pr edire est quantitative. Voici l'algorithme de Drucker

(1997) dans la pr esentation de Gey et Poggi (2002) qui en etudient les performances

empiriques en relation avec CART. Freund et Schapire (1996) ont propos e Adaboost.R

avec le m^eme objectif tandis que le point de vue de Friedman (2002) est d ecrit plus loin

dans l'algorithme 7.5.

Algorithme 7.4 : Boosting pour la r egression

Soit x0 a pr evoir et

z = f(x1; y1); : : : ; (xn; yn)g un echantillon

Initialiser p par la distribution uniforme p = fpi = 1=n ; i = 1; : : : ; ng.

Pour m = 1 a M Faire

{ Tirer avec remise dans z un echantillon z

m suivant p.

{ Estimer b-m sur l' echantillon z

m.

{ Calculer a partir de l' echantillon initial z :

lm(i) = Q

yi; b-m(xi)

i = 1; : : : ; n; (Q : fonction perte)

cEm =

Xn

i=1

pilm(i);
wi = g(lm(i))pi: (g continue non d ecroissante)

{ Calculer les nouvelles probabilit es : pi P wi n

i=1 wi

Fin Pour

Calculer b-(x0) moyenne ou m ediane des pr evisions b-m(x0) pond er ees par des coef-
cients log( 1
m

).

3. Famille de mod eles adaptatifs 85

Pr ecisions :

Dans cet algorithme la fonction perte Q peut ^etre exponentielle, quadratique ou,

plus robuste, la valeur absolue. Le choix usuel de la fonction quadratique est retenu

par Gey et Poggi (2002).

Notons Lm = supi=1;:::;n lm(i) le maximum de l'erreur observ ee par le mod ele b-m

sur l echantillon initial. La fonction g est d e


nie par :

g(lm(i)) =
1􀀀lm(i)=Lm

m (1)

avec
m=

cEm

Lm 􀀀 cEm

: (2)

Selon les auteurs, une condition suppl ementaire est ajout ee a l'algorithme. Il est

arr^et e ou r einitiallis e a des poids uniformes si l'erreur se d egrade trop : si cEm < 0:5Lm.

L'algorithme g en ere M pr edicteurs construits sur des echantillons bootstrap z

m dont

le tirage d epend de probabilit es p mises a jour a chaque it eration. Cette mise a jour est

fonction d'un param etre


m qui est un indicateur de la performance, sur l' echantillon z, du

mi eme pr edicteur estim e sur l' echantillon z

m. La mise a jour des probabilit es d epend donc

a la fois de cet indicateur global


m et de la qualit e relative lm(i)=Lm de l'estimation du

i eme individu. L'estimation


nale est en
n obtenue a la suite d'une moyenne ou m ediane

des pr evisions pond er ees par la qualit e respective de chacune de ces pr evisions. Gey et

Poggi (2002) conseille la m ediane a


n de s'a
ranchir de l'in

uence de pr edicteurs tr es

atypiques.

3.5 Mod ele additif pas a pas

Hastie et col. (2001) expliquent le bon comportement du boosting dans le cas binaire

en le pr esentant sous la forme d'une approximation de la fonction - par un mod ele additif

construit pas a pas :

b-(x) =

MX

m=1

cm
(x;

m)

est cette combinaison o u cm est un param etre,


le classi
eur (faible) de base fonction de

x et d ependant d'un param etre

m. Si Q est une fonction perte, il s'agit, a chaque etape,

de r esoudre :

(cm;

m) = arg min

(c;

Xn

i=1

Q(yi; b-m􀀀1(xi) + c
(xi;

));

b-m(x) = b-m􀀀1(x) + cm
(x;

m) est alors une am elioration de l'ajustement pr ec edent.

Dans le cas d'adaboost pour l'ajustement d'une fonction binaire, la fonction perte

utilis ee est Q(y; -(x)) = exp[􀀀y-(x)]. il s'agit donc de r esoudre :

(cm;

m) = arg min

(c;

Xn

i=1

exp

􀀀yi b-m􀀀1(xi) + c
(xi;

= arg min

(c;

Xn

i=1

wm

i exp [􀀀cyi
(xi;

)]

avec wi = exp[􀀀yi b-m􀀀1(xi)];

86 Chapitre 7. Agr egation de mod eles

wi ne d ependant ni de c ni de

, il joue le r^ole d'un poids fonction de la qualit e de l'ajustement

pr ec edent. Quelques d eveloppements compl ementaires montrent que la solution du

probl eme de minimisation est obtenue en deux etapes : recherche du classi


eur optimal

puis optimisation du param etre

m = arg min

Xn

i=1

1fyi 6=
(xi;

)g;

cm =

log

1 􀀀 b Ep

Ep

avec b Ep erreur apparente de pr ediction tandis que les wi sont mis a jour avec :

w(m)

i = w(m􀀀1)

i exp[􀀀cm]:

On montre ainsi qu'adaboost approche - pas a pas par un mod ele additif en utilisant une

fonction perte exponentielle.

D'autres fonctions perte sont envisageables pour, en particulier, un algorithme plus

robuste face a un echantillon d'apprentissage pr esentant des erreurs de classement dans

le cas de la discrimination ou encore des valeurs atypiques (outliers) dans le cas de la

r egression. Hastie et col. (2001) comparent les int er^ets respectifs de plusieurs fonctions

pertes. Celles jug ees robustes (entropie en discrimination, valeur absolue en r egression)

conduisent a des algorithmes plus compliqu es a mettre en uvre.

3.6 R egression et boosting

Dans le m^eme esprit d'approximation adaptative, Friedman (2002) propose sous l'acronyme

MART (multiple additive regression trees) un algorithme bas e sur des arbres de

r egression pour trait e le cas quantitatif en supposant la fonction perte seulement di


erentiable.

Le principe de base est le m^eme que pour Adaboost, construire une s equence de mod eles

de sorte que chaque etape, chaque mod ele ajout e a la combinaison, apparaisse comme un

pas vers une meilleure solution. Ce pas est franchi dans la direction du gradient, approch e

par un arbre de r egression, de la fonction perte.

Algorithme 7.5 : MART (Multiple additive regression trees)

Soit x0 a pr evoir
Initialiser b-0 = arg min

Pn

i=1 Q(yi;

Pour m = 1 a M Faire

{ Calculer rim = 􀀀

h
Q(yi;-(xi))
-(xi)

-=-m􀀀1

{ Ajuster un arbre de r egression aux rmi donnant les feuilles ou r egions terminales

Rjm; j = 1; : : : ; Jm.

{ Pour m = 1 a M Faire

{ Calculer

jm = arg min

xi2Rjm

Q(yi; b-m􀀀1 +

).

{ Fin Pour

{ Mise a jour : b-m(x) = b-m(x)

PJm

j=1

jm1fx 2 Rjmg:

Fin Pour

R esultat : b-M(x0).

3. Famille de mod eles adaptatifs 87

L'algorithme est initialis e par un terme constant c'est- a-dire encore un arbre a une

feuille. Les expressions du gradient reviennent simplement a calculer les r esidus rmj du

mod ele a l' etape pr ec edente. Les termes correctifs

jm sont ensuite optimis es pour chacune

des r egions Rjm d e


nies par l'arbre de r egression ajustant les r esidus. Un algorithme de

discrimination est similaire calculant autant de probabilit es que de classes a pr evoir.

3.7 Compl ements

De nombreuses adaptations ont et e propos ees a partir de l'algorithme initial. Elles font

intervenir di
erentes fonctions pertes o
rant des propri et es de robustesse ou adapt ees a

une variable cible Y quantitative ou qualitative a plusieurs classes : Adaboost M1, M2, MH

ou encore MR. Schapire (2002) liste une bibliographie d etaill ee.

Sur-ajustement

Dans le dernier algorithme, le nombre d'it erations peut ^etre contr^ol e par un echantillon

de validation. Comme pour d'autres m ethodes (perceptron), il su


t d'arr^eter la proc edure

lorsque l'erreur estim ee sur cet echantillon arrive a se d egrader. Une autre possibilit e

consiste a ajouter un coe


cient de r etr ecissement (shrinkage comme en r egression ridge).

Compris entre 0 et 1, celui-ci p enalise l'ajout d'un nouveau mod ele dans l'agr egation. Il

joue le r^ole d'un taux d'apprentissage du percepton) et, si sa valeur est petite (< 0; 1)

cela conduit a accro^ tre le nombre d'arbres mais entra^ ne des am eliorations sensibles de la

qualit e de pr ediction.

Interpr etation

L'interpr etabilit e des arbres de d ecision sont une des raisons de leur succ es. Leur

lecture ne n ecessite pas de comp etences particuli eres en statistique. Cette propri et e est

evidemment perdue par l'agr egation d'arbres ou de tout autre mod ele. N eanmoins, surtout

si le nombre de variables est tr es grand, il est important d'avoir une indication de

l'importance relative des variables entrant dans la mod elisation.

Un crit ere est calcul e pour chaque variable j a partir des valeurs D2

j (l;m), calcul ees

pour chaque n ud l de chaque arbre m. Cette quantit e est la d ecroissance optimale de

d eviance produite par la segmentation associ ee a ce n ud par le choix de la variable j. Ces

valeurs sont somm ees par arbre sur l'ensemble des n uds puis moyenn ees sur l'ensemble

des arbres. Une normalisation


xe a 100 la plus grande valeur correspondant a la variable

la plus in

uente.

Instabilit e

Tous les auteurs ont remarqu e la grande instabilit e des mod eles construits a base

d'arbres : une l eg ere modi


cation des donn ees est susceptible d'engendrer de grandes

modi
cations dans les param etres (les seuils et feuilles) du mod ele. C'est justement cette

propri et e qui rend cette technique tr es appropri ee a une am elioration par agr egation.

Breiman (1998), pour les arbres de classi


cation, puis Gey et Poggi (2002), pour les arbres

88 Chapitre 7. Agr egation de mod eles

Iterations

Risk

0 100 200 300 400

0.0 0.02 0.04 0.06 0.08 0.10 0.12 0.14

Test misclassification risk

Iterations

Fraction

0 100 200 300 400

0.0 0.1 0.2 0.3 0.4 0.5

Fraction of training observations used

0 200 400 600 800 1000

12 14 16 18 20 22

Fig. 7.1 { Algorithmes AdaBoost et Random forests. Evolution, pour un echantillon test,

du taux de mal class es en fonction du nombre d'arbres intervenant dans la combinaison

de mod eles.

de r egression, d etaillent et quanti


ent en pratique l'in

uence de cette instabilit e ainsi que

celle de l'apport potentiel du boosting par rapport au bagging.

Propri et es

Les justi
cations th eoriques des bons r esultats du boosting et principalement la r esistance

au sur-ajustement sont encore l'objet de travaux intenses suivant di


erentes pistes. La dif-
cult e vient de ce que l'application de ce type d'algorithme sur une m ethode donn ee, fait

g en eralement mieux que l'asymptotique (en faisant cro^ tre la taille de l' echantillon) pour

cette m^eme m ethode. Les approches usuelles de la statistique asymptotique sont mises en

d efaut et les bornes obtenues pour majorer les erreurs d'estimations ou de pr ediction sont

trop grossi eres pour rendre compte de l'e


cacit e e
ective de la m ethode. On montre ainsi,

empiriquement, que l'erreur de pr ediction ou de g en eralisation peut continuer a d ecro^ tre

longtemps apr es que l'erreur d'ajustement se soit annul ee. Parmi les pistes explor ees,

une approche \stochastique" consid ere que, m^eme d eterministe, l'algorithme simule une

dynamique markovienne (Blanchard, 2001). Une deuxi eme, rappel ee ci-dessus, pr esente le

boosting comme une proc edure d'optimisation globale par une m ethode de gradient (Friedman,

2001). D'autres en
n (par exemple Lugosi et Vayatis, 2001), plus probantes, utilisent

des in egalit es de Vapnik pour montrer que, sous des hypoth eses raisonnables et v eri
ees

dans les cas usuels : convexit e et r egularit e de la fonction perte (exponentielle), arbres

binaires, la probabilit e d'erreur du boosting converge avec la taille n de l' echantillon vers

celle du classi
eur bay esien c'est- a-dire celui, optimal, obtenu en supposant connue la loi

conjointe de X et Y .

4. Application 89

tauxmc

10

11

12

13

14

15

16

17

18

Methode

AboosArbreLogitResNeRfor

Fig. 7.2 { Diagrammes bo^ tes des taux d'erreurs observ es sur 30 echantillons tests et pour

chaque m ethode.

4 Application

4.1 Logiciels

L'algorithme de boosting (Freund et Schapire, 1996), ou plut^ot la version de Friedman

et col. (2000) a et e utilis ee. Il en fournissait le programme interfac e avec Splus a l'adresse

www-stat.stanford.edu/ jhf/MART.html mais ce dernier est maintenant commercialis e

par la soci et e Salford System. En revanche, R. Schapire di


use le logiciel Boost texter sur

sa page : www.research.att.com/~schapire pour des utilisations non commerciales.

D'autres versions du boosting seront vraisemblablement rendues disponible dans l'environnement


de R (clone de Splus sous licence GNU).

Les for^ets al eatoires (Breiman, 2001), sont estim ees par un programme interfac e avec

R qui se trouve dans la page : www.stat.Berkeley.edu/users/breiman/ ou avec la distribution

de R : www.r-project.org.

4.2 R esultats comparatifs

Ces programmes ont et e utilis es pour constituer des comit es d'arbres de d ecision

pr evoyant la possession de la carte Visa Premier. Trente echantillons tests ont successivement

et e tir es a
n d'observer les distributions des taux de mauvais classement, distributions

qui ont et e compar ees a celles obtenues par les m ethodes classiques (arbre de

d ecision, r egression logistique et r eseaux de neurones).

La
gure 7.1 montre les evolutions du taux de mal class es sur l' echantillon d'apprentissage

en fonction du nombre d'arbres estim es pour un exemple de tirage. Malgr e la

complexit e des combinaisons de mod eles


nalement obtenues, le taux atteint une limite, il

n'y a pas sur-apprentissage. Ces algorithmes fournissent des r esultats qui, en moyenne, se

90 Chapitre 7. Agr egation de mod eles

Tab. 7.1 { Moyennes des taux d'erreurs de classement calcul es sur 30 echantillons test

pour chaque mod ele de pr ediction

M ethode Adaboost Arbre R egression Perceptron For^et

Moyenne 9.7 11.8 12.5 13.4 10.6

Ecart-type 2.0 2.3 2.0 2.3 2.2

montrent sensiblement plus performants (cf.


gure 7.2 et tableau 7.1) sur un echantillon

test. Les ecarts-types d ependant de la taille de l' echantillon test y sont relativement stables.

Les moyennes montrent, sur cet exemple, que le boosting pr edit un peu mieux que les for^ets

al eatoires. Cela est coh erent avec les nombreuses etudes publi ees.

Bien s^ur, ce qui est gagn e en pr edictibilit e est perdu en interpr etabilit e par rapport a un

mod ele classique. N eanmoins le gain r ealis e est souvent etonnant. L'une des avanc ees encore

en gestation concernant ces algorithmes, et plus particuli erement les for^ets al eatoires,

est la prise en compte des probl emes pos es par les donn ees hautement multidimensionnelles

tels qu'ils se posent par exemple avec l'analyse des biopuces en g enomique.

Bibliography

Agresti, A. (1990). Categorical data analysis. Wiley.

Antoniadis, A., J. Berruyer, and R. Carmona (1992). R egression non lin eaire et applications.

Economica.

Baccini, A. and P. Besse (2000). Data mining : 1. exploration statistique. www.upstlse.

fr/Besse/enseignement.html.

Besse, P. and H. Cardot (2003). Mod elisation statistique de donn ees fonctionnelles. In

G. Govaert (Ed.), Analyse des donn ees, pp. a para^ tre. Hermes.

Besse, P., C. Le Gall, N. Raimbault, and S. Sarpy (2001). Statistique et data mining.

Journal de la Soci et e Fran caise de Statistique 142, 5{36.

Blanchard, G. (2001). Generalization error bounds for aggregate classi


ers. In Proceedings

of the MSRI international conference on nonparametric estimation and classi


cation,

pp. .

Breiman, L. (1996). Bagging predictors. Machine Learning 26 (2), 123{140.

Breiman, L. (1998). Arcing classi


ers. Annals of Statistics 26, 801{849.

Breiman, L. (2001). Random forests random features. Machine Learning a para^ tre, .

Breiman, L., J. Friedman, R. Olshen, and C. Stone (1984). Classi


cation and regression

trees. Wadsworth & Brooks.

Drucker, H. (1997). Improving regressors using boosting techniques. In M. Kaufmann

(Ed.), Proceedings of th 14th International Conference on Machine Learning, pp. 107{

115.

Efron, B. (1982). The Jackknife, the Bootstrap and other Resampling Methods. SIAM.

Efron, B. and R. Tibshirani (1993). An introduction to the bootstrap. Chapman and Hall.

Freund, Y. and R. Schapire (1996). Experiments with a new boosting algorithm. In

Machine Learning : proceedings of the Thirteenth International Conference, pp. 148{

156. Morgan Kaufman. San Francisco.

Freund, Y. and R. Schapire (1997). Experiments with a new boosting algorithm. Journal

of Computer and System Sciences 55, 119{139.

Friedman, J. H. (2001). Greedy function approximation : a gradient boosting machine.

Annals of Statistics 29, 1189{1232.

Friedman, J. H. (2002). Stochastic gradient boosting. Computational Statisrics and Data

Analysis 38, .

Friedman, J. H., H. Hastie, and R. Tibshirani (2000). Additive logistic regression : a

statistical view of boosting. The Annals of Statistics 28, 337{407.

91

92 BIBLIOGRAPHY

Gey, S. and J.-M. Poggi (2002). Boosting and instabillity for regression trees. Technical

Report 36, Universit e de Paris Sud, Math ematiques.

Ghattas, B. (2000). Agr egation d'arbres de classi


cation. Revue de Statistique Appliqu

ee 48 (2), 85{98.

Hastie, T., R. Tibshirani, and J. Friedman (2001). The elements of statistical learning :

data mining, inference, and prediction. Springer.

Haykin, T. (1994). Neural network, a comprehensive foundation. Prentice-Hall.

Jobson, J. (1991). Applied Multivariate Data Analysis, Volume I : Regression and experimental

design. Springer-Verlag.

Lugosi, G. and N. Vayatis (2001). On the bayes-risk consistency of boosting methods.

Preprint , .

McCullagh, P. and J. Nelder (1983). Generalized Linear Models. Chapman & Hall.

Quinlan, J. (1993). C4.5 { Programs for machine learning. Morgan Kaufmann.

Ripley, B. (1996). Pattern recognition and neural networks. Cambridge University Press.

SAS (1989). SAS/STAT User's Guide (fourth ed.), Volume 2. Sas Institute Inc. version 6.

SAS (1995). SAS/INSIGHT User's Guide (Third ed.). Sas Institute Inc. version 6.

Schapire, R. (1990). The strength of weak learnability. Machine Learning 5, 197{227.

Schapire, R. (2002). The boosting approach to machine learning. an overview. In MSRI

workshop on non linear estimation and classi


cation, pp. .

SEM (2001). SAS/ Enterprise Miner User's Guide. Sas Institute Inc. version 8.

Thiria, S., Y. Lechevallier, O. Gascuel, and S. Canu (1997). Statistique et m ethodes neuronales.

Dunod.

Vapnik, V. (1999). Statistical learning theory. Wiley Inter science.

Annexes

93

94 BIBLIOGRAPHY

Annexe A

Introduction au mod ele lin eaire

g en eral

L'objet de ce chapitre est d'introduire le cadre th eorique global permettant de regrouper

tous les mod eles (lin eaire gaussien, logit, log-lin eaire) qui visent a exprimer l'esp erance

d'une variable r eponse Y en fonction d'une combinaison lin eaire des variables explicatives.

Le mod ele lin eaire g en eral d evelopp e initialement en 1972 par Nelder et Wedderburn et

dont on trouvera des expos es d etaill es dans Nelder et Mc Cullagh (1983), Agresti (1990)

ou Antoniadis et col. (1992), n'est ici qu'esquiss e a


n de d e
nir les concepts communs

a ces mod eles : famille exponentielle, estimation par maximum de vraisemblance, tests,

diagnostics, r esidus. Il est mis en uvre dans plusieurs logiciels dont GLIM, glm de Splus,

genmod et insight de SAS.

1 Composantes des mod eles

Les mod eles catalogu es dans la classe des mod eles lin eaires g en eralis es sont caract eris es

par trois composantes.

1.1 Distribution

La composante al eatoire identi


e la distribution de probabilit es de la variable a expliquer.

On suppose que l' echantillon statistique est constitu e de n variables al eatoires

fYi; i = 1; : : : ; ng ind ependantes admettant des distributions issues d'une structure exponentielle.

Cela signi
e que les lois de ces variables sont domin ees par une m^eme mesure

dite de r ef erence et que la famille de leurs densit es par rapport a cette mesure se met sous

la forme :

f(yi; i; -) = exp

yi i 􀀀 v( i)

u(-)

+ w(yi; -)

: (1)

Cette formulation inclut la plupart des lois usuelles comportant un ou deux param etres :

gaussienne, gaussienne inverse, gamma, Poisson, binomiale. . . . Le param etre i est appel e

param etre naturel de la famille exponentielle.

Attention, la mesure de r ef erence change d'une structure exponentielle a l'autre, la

mesure de Lebesgues pour une loi continue, une mesure discr ete combinaison de masses

95

96 Chapitre A. Introduction au mod ele lin eaire g en eral

de Dirac pour une loi discr ete. Consulter Antoniadis et col. (1992) pour une pr esentation

g en erale des structures exponentielles et des propri et es asymptotiques des estimateurs de

leurs param etres.

Pour certaines lois, la fonction u est de la forme :

u(-) =

!i

o u les poids !i sont les poids connus des observations,


x es ici a 1 pour simpli
er ; -

est appel e alors param etre de dispersion, c'est un param etre de nuisance intervenant, par

exemple lorsque les variances des lois gaussiennes sont inconnues, mais egal a 1 pour les

lois a un param etre (Poisson, binomiale). L'expression de la structure exponentielle (1) se

met alors sous la forme canonique en posant :

Q( ) =

a( ) = exp

v( )

b(y) = expfw(y; -)g;

on obtient

f(yi; i) = a( i)b(yi) exp fyiQ( i)g : (2)

1.2 Pr edicteur lin eaire

Les observations plani


ees des variables explicatives sont organis ees dans la matrice

X de plani
cation d'exp erience (design matrix). Soit
un vecteur de p param etres, le

pr edicteur lin eaire, composante d eterministe du mod ele, est le vecteur a n composantes :

=X
:

1.3 Lien

La troisi eme composante exprime une relation fonctionnelle entre la composante al eatoire

et le pr edicteur lin eaire. Soit f i = E(Yi); i = 1; : : : ; ng, on pose

i = g( i) i = 1; : : : ; n

o u g, appel ee fonction lien, est suppos ee monotone et di


erentiable. Ceci revient donc

a ecrire un mod ele dans lequel une fonction de la moyenne appartient au sous-espace

engendr e par les variables explicatives :

g( i) = x0

i
i = 1; : : : ; n:

La fonction lien qui associe la moyenne i au param etre naturel est appel ee fonction lien

canonique. Dans ce cas,

g( i) = i = x0

i
:

1. Composantes des mod eles 97

1.4 Exemples

Loi gaussienne

Dans le cas d'un echantillon gaussien, les densit es d'une famille de lois N( i; 2) s' ecrit :

f(yi; i) =

p2 2

exp

(yi 􀀀 i)2

2 2

= exp

2i

exp

y2

2􀀀

1
2

ln(2 2)

exp

yi

En posant

Q( i) =

a( i) = exp

2i

b(yi) = exp

y2

i
2􀀀

ln(2 2)

la famille gaussienne se met sous la forme canonique (2) qui en fait une famille exponentielle

de param etre de dispersion - = 2 et de param etre naturel

i = E(Yi) = i

et donc de fonction lien canonique, la fonction identit e.

Loi de Bernouilli

Consid erons n variables al eatoires binaires ind ependantes Zi de probabilit e de succ es

i et donc d'esp erance E(Zi) = i. Les fonctions de densit e de ces variables sont el ements

de la famille :

f(zi; i) = zi

i (1 􀀀 i)1􀀀zi = (1 􀀀 i) exp

zi ln

1􀀀 i

qui est la forme canonique d'une structure exponentielle de param etre naturel

i = ln

1􀀀 i

Cette relation d e
nit la fonction logit pour fonction lien canonique associ ee a ce mod ele.

La loi binomiale conduit a des r esultats identiques en consid erant les sommes de ni (ni

connus) variables de Bernouilli.

Loi de Poisson

On consid ere n variables ind ependantes Yi de loi de Poisson de param etre i = E(Yi).

Les Yi sont par exemple les e


ectifs d'une table de contingence. Ces variables admettent

pour densit es :

f(yi; i) =

yi

i e􀀀 i

yi!

= exp f􀀀 ig

yi!

exp fyi ln ig

98 Chapitre A. Introduction au mod ele lin eaire g en eral

qui sont issues d'une structure exponentielle et, mises sous la forme canonique, de param

etre naturel

i = ln i

d e
nissant comme fonction lien canonique le logarithme pour ce mod ele.

2 Estimation

L'estimation des param etres


j est calcul ee en maximisant la log-vraisemblance du

mod ele lin eaire g en eralis e. Celle-ci s'exprime pour toute famille de distributions mise sous

la forme (1) d'une structure exponentielle.

2.1 Expression des moments

Notons `( i; -; yi) = ln f(yi; i; -) la contribution de la i eme observation a la logvraisemblance.

`( i; -; yi) = [yi i 􀀀 v( i)]=u(-) + w(yi; -):

L' etude du maximum de la log-vraisemblance n ecessite la connaissance des d eriv ees :

@`

@ i

= [yi 􀀀 v0( i)]=u(-)

@2`

@ 2

= 􀀀v00( i)=u(-):

Pour des lois issues de structures exponentielles, les conditions de r egularit e v eri
ees permettent

d' ecrire :

@`

= 0 et 􀀀 E

@2`

@ 2

=E

@`

Alors,

E(Yi) = i = v0( i)

et comme

Efv00( i)=u(-)g = Ef[Yi 􀀀 v0( i)]=u(-)g2 = Var(Yi)=u2(-)

il vient donc :

Var(Yi) = v00( i)u(-) ;

justi
ant ainsi l'appellation de param etre de dispersion pour - lorsque u est la fonction

identit e.

2.2 Equations de vraisemblance

Consid erons p variables explicatives dont les observations sont rang ees dans la matrice

de plan d'exp erience X,


un vecteur de p param etres et le pr edicteur lin eaire a n

composantes

=X
:

La fonction lien g est suppos ee monotone di


erentiable telle que : i = g( i) ;

c'est la fonction lien canonique si : g( i) = i:

2. Estimation 99

Pour n observations suppos ees ind ependantes et en tenant compte que d epend de
,

la log-vraisemblance s' ecrit :

L(
)=

Xn

i=1

ln f(yi; i; -) =

Xn

i=1

`( i; -; yi):

Calculons

@`i

@
j

@`i

@ i

@ i

@ i

@ i

@ i

@ i

@
j

Comme

@`i

@ i

= [yi 􀀀 v0( i)]=u(-) = (yi 􀀀 i)=u(-);

@ i

@ i

= v00( i) = Var(Yi)=u(-);

@ i

@
j

= xij car i = x0

i
;

@ i

@ i

d epend de la fonction lien i = g( i);

Les equations de la vraisemblance sont :

Xn

i=1

(yi 􀀀 i)xij

Var(Yi)

@ i

@ i

= 0 j = 1; : : : ; p:

Ce sont des equations non-lin eaires en


dont la r esolution requiert des m ethodes

it eratives dans lesquelles interviennent le Hessien (pour Newton-Raphson) ou la matrice

d'information (pour les Scores de Fisher). La matrice d'information est la matrice

= = X0WX

de terme g en eral

[=]jk = E

@2L(
)

@
j@
k

=􀀀

Xn

i=1

xijxik

Var(Yi)

@ i

@ i

et o u W est la matrice diagonale de \pond eration" :

[W]ii =

Var(Yi)

@ i

@ i

2.3 Fonction lien canonique

Dans le cas particulier o u la fonction lien du mod ele lin eaire g en eralis e utilis ee est la

fonction lien canonique associ ee a la structure exponentielle alors plusieurs simpli


cations

interviennent :

i = i = x0

i
;

@ i

@ i

@ i

@ i

@v0( i)

@ i

= v00( i):

100 Chapitre A. Introduction au mod ele lin eaire g en eral

Ainsi,

@`i

@
j

(yi 􀀀 i)

Var(Yi)

v00( i)xij =

(yi 􀀀 i)

u(-)

xij :

De plus, comme les termes @2L(


)

@
j@
k

ne d ependent plus de yi, on montre que le Hessien est

egal a la matrice d'information et donc les m ethodes de r esolution du score de Fisher et

de Newton-Raphson co• ncident.

Si, de plus, u(-) est constante pour les observations, les equations de vraisemblance

deviennent :

X0y = X0 :

Ainsi, dans le cas gaussien, le mod ele s' ecrivant = X


avec la fonction de lien canonique

identit e, on retrouve la solution :

b = (X0X)􀀀1X0y

qui co• ncide avec celle obtenue par minimisation des moindres carr es.

3 Qualit e d'ajustement

Il s'agit d' evaluer la qualit e d'ajustement du mod ele sur la base des di
erences entre

observations et estimations. Plusieurs crit eres sont propos es.

3.1 D eviance

Le mod ele estim e est compar e avec le mod ele dit satur e, c'est- a-dire le mod ele poss edant

autant de param etres que d'observations et estimant donc exactement les donn ees. Cette

comparaison est bas ee sur l'expression de la d eviance D des log-vraisemblances L et Lsat :

D = 􀀀2(L 􀀀 Lsat)

qui est le logarithme du carr e du rapport des vraisemblances. Ce rapport remplace ou

\g en eralise" l'usage des sommes de carr es propres au cas gaussien et donc a l'estimation

par moindres carr es.

On montre qu'asymptotiquement, D suit une loi du 2 a n􀀀p degr es de libert e ce qui

permet de construire un test de rejet ou d'acceptation du mod ele selon que la d eviance

est jug ee signi


cativement ou non importante.

Attention, l'approximation de la loi du 2 peut ^etre douteuse. De plus, dans le cas de

donn ees non group ees (mod ele binomial), le cadre asymptotique n'est plus adapt e car le

nombre de param etres estim es tend egalement vers l'in


ni avec n et il ne faut plus se
er

a ce test.

3.2 Test de Pearson

Un test du 2 est egalement utilis e pour comparer les valeurs observ ees yi a leur

pr evision par le mod ele. La statistique du test est d e


nie par

X2 =

XI

i=1

(yi 􀀀 ^ i)2

dVar(^ i)

4. Tests 101

( i est remplac e par ni i dans le cas binomial) et on montre qu'elle admet asymptotiquement

la m^eme loi que la d eviance.

En pratique ces deux approches conduisent a des r esultats peu di


erents et, dans le cas

contraire, c'est une indication de mauvaise approximation de la loi asymptotique. Sachant

que l'esp erance d'une loi du 2 est son nombre de degr es de libert e et, connaissant les

aspects approximatifs des tests construits, l'usage est souvent de comparer les statistiques

avec le nombre de degr es de libert e. le mod ele peut ^etre jug e satisfaisant pour un rapport

D=ddl plus petit que 1.

4 Tests

Deux crit eres sont habituellement propos es pour aider au choix de mod ele.

4.1 Rapport de vraisemblance

Comme dans le cas de la r egression multiple o u un test permet de comparer un mod ele

avec un mod ele r eduit, le rapport de vraisemblance ou la di


erence de d eviance est une

evaluation de l'apport des variables explicatives suppl ementaires dans l'ajustement du

mod ele. La di
erence des d eviances entre deux mod eles embo^ t es respectivement a q1 et

q2 (q2 > q1) variables explicatives

D2 􀀀 D1 = 2(L1 􀀀 Lsat) 􀀀 2(L2 􀀀 Lsat)

= 2(L1 􀀀 L2)

suit approximativement une loi du 2 a (q2􀀀q1) degr es de libert e pour les lois a 1 param etre

(binomial, Poisson) et une loi de Fisher pour les lois a deux param etres (gaussienne). Ceci

permet donc de tester la signi


cativit e de la diminution de la d eviance par l'ajout de

variables explicatives ou la prise en compte d'interactions.

4.2 Test de Wald

Ce test est bas e sur la forme quadratique faisant intervenir la matrice de covariance

des param etres, l'inverse de la matrice d'information observ ee (X0WX)􀀀1. Cette matrice

est calcul ee a partir du Hessien approch e par l'algorithme de maximisation. Elle g en eralise

la matrice (X0X)􀀀1 utilis ee dans le cas du mod ele lin eaire gaussien en faisant intervenir

une matriceW de pond eration. Ainsi, test de Wald et test de Fisher sont equivalents dans

le cas particulier du mod ele gaussien.

Si la matrice K, dite contraste, d e


nit l'ensemble H0 des hypoth eses a tester sur les

param etres :

K0
= 0;

on montre que la statistique

(K0b)0(K0(X0WX)􀀀1K)􀀀1K0b

suit asymptotiquement une loi du 2.

Attention, le test de Wald, approximatif, peut ne pas ^etre pr ecis si le nombre d'observations

est faible.

102 Chapitre A. Introduction au mod ele lin eaire g en eral

5 Diagnostics

De nombreux indicateurs, comme dans le cas de la r egression lin eaire multiple, sont

propos es a
n d' evaluer la qualit e ou la robustesse des mod eles estim es. Ils concernent

la d etection des valeurs in

uentes et l' etude graphique des r esidus. La d e


nition de ces

derniers pose quelques di


cult es.

5.1 E
et levier

On construit la matrice de projection (hat matrix)

H =W1=2X(X0WX)􀀀1X0)W1=2;

relative au produit scalaire de matrice W, sur le sous-espace engendr e par les variables

explicatives. Les termes diagonaux de cette matrice sup erieurs a (3p=n) indiquent des

valeurs potentiellement in

uentes. Le graphe repr esentant les points d'ordonn ees hii et

d'abscisses le num ero de l'observation les visualise.

5.2 R esidus

Avec des erreurs centr ees, additives, c'est- a-dire dans le cas du mod ele gaussien utilisant

la fonction lien identit e, il est naturel de d e


nir des r esidus par :

"i = yi 􀀀 E(yi) = yi 􀀀 i:

comme dans le cas du mod ele lin eaire. Ce cadre est ici inadapt e au cas g en eral et di
erents

substituts sont propos es. Chacun poss ede par ailleurs une version standardis ee et une

version studentis ee.

Pearson

Les r esidus obtenus en comparant valeurs observ ees yi et valeurs pr edites ^yi sont

pond er es par leur pr ecision estim ee par l' ecart-type : si de ^yi. Ceci d e
nit les r esidus

de Pearson :

rPi =

yi 􀀀 ^yi

si

dont la somme des carr es conduit a la statistique du m^eme nom. Ces r esidus mesurent

donc la contribution de chaque observation a la signi


cativit e du test d ecoulant de cette

statistique. Par analogie au mod ele lin eaire, on v eri


e que ce sont egalement les r esidus

de la projection par la matrice H.

Ces r esidus ne sont pas de variance unit e et sont donc di


ciles a interpr eter. Une

estimation de leurs ecarts-types conduit a la d e


nition des r esidus de Pearson standardis es :

rPsi =

yi 􀀀 ^yi

siphii

faisant intervenir le terme diagonal de la matrice H.

6. Compl ements 103

De plus, prenant en compte que les estimations des ecarts-types si d ependent de la

i eme observation et sont donc biais es, des r esidus studentis es sont obtenus en approchant

au premier ordre le param etre de dispersion s(i) calcul e sans la i eme observation :

rPti =

yi 􀀀 ^yi

s(i)phii

D eviance

Ces r esidus mesurent la contribution de chaque observation a la d eviance du mod ele

par rapport au mod ele satur e. Des versions standardis ees et studentis ees en sont d e
nies

comme pour ceux de Pearson.

Anscombe

Les lois des r esidus pr ec edents sont inconnues et m^eme dissym etriques. Anscombe a

donc propos e de faire op erer une transformation pr ealable a


n de construire des r esidus

suivant une loi normale :

rAi =

t(yi) 􀀀 t(^yi)

t0(yi)si

L'explicitation de la fonction t dans le cadre du mod ele lin eaire g en eralis e est relativement

complexe mais le calcul en est fourni par les logiciels. Comme pr ec edemment, des versions

standardis ees et studentis ees sont egalement calcul ees.

Un graphe utilisant ces r esidus en ordonn ees et les num eros d'observation en abscisses

permet d'identi
er les observations les moins bien ajust ees par le mod ele.

5.3 Mesure d'in

uence

De nombreux indicateurs sont propos es a


n d' evaluer l'in

uence d'une observation sur

l'estimation d'un param etre, sur les pr edictions ou encore sur la variance des estimateurs.

Le plus utilis e, la distance de Cook, mesure globalement l'in

uence sur l'ensemble des

param etres. C'est la distance, au sens de la m etrique d e


nie par l'inverse de la covariance

des param etres, entre le vecteur des param etres b estim e avec toutes les observations et

celui estim e lorsque la i eme observation est supprim ee.

Di =

(b 􀀀 b(i))0(X0WX)􀀀1(b 􀀀 b(i)):

Cet indicateur prend simultan ement en compte l'e


et levier et l'importance du r esidu de

chaque observation. Le graphe de ces valeurs est donc plus synth etique et interpr etable en

tenant compte du graphe des r esidus et de celui des termes diagonaux de H.

6 Compl ements

6.1 Sur-dispersion

Dans certaines situations, par exemple lors d'observations d ependantes, la variance

de la variable Yi suppos ee binomiale ou de Poisson, qui est th eoriquement


x ee par le

104 Chapitre A. Introduction au mod ele lin eaire g en eral

mod ele, est plus importante, multipli ee par un facteur d' echelle (scale parameter) 2. Si

ce param etre est plus grand que 1, on dit qu'il y a sur-dispersion. Une m ethode bas ee sur

une maximisation de la formule de quasi-vraisemblance est alors utilis ee pour estimer a la

fois et
.

6.2 Variable \o
set"

Lorsque la variable a expliquer dans le cas d'un mod ele lin eaire g en eralis e d epend

egalement lin eairement d'une autre variable, cette derni ere est d eclar ee o
set et sert ainsi

a \tarer" le mod ele. Exemple : pour mod eliser le nombre de sinistres d eclar es par cat egorie

de conducteurs, la variable nombre de contrats est d eclar ee \o


set".

Annexe B

Introduction au bootstrap

1 Introduction

La motivation du bootstrap1 (Efron, 1982 ; Efron et Tibshirani, 1993) est d'approcher

par simulation (Monte Carlo) la distribution d'un estimateur lorsque l'on ne conna^ t pas la

loi de l' echantillon ou, plus souvent lorsque l'on ne peut pas supposer qu'elle est gaussienne.

L'objectif est de remplacer des hypoth ess probabilistes pas toujours v eri
ees ou m^eme

inv eri
ables par des simulations et donc beaucoup de calcul.

Le principe fondamental de cette technique de r e echantillonnage est de substituer a

la distribution de probabilit e inconnue F, dont est issu l' echantillon d'apprentissage, la

distribution empirique b F qui donne un poids 1=n a chaque r ealisation. Ainsi on obtient

un echantillon de taille n dit echantillon bootstrap selon la distribution empirique b F par n

tirages al eatoires avec remise parmi les n observations initiales.

Il est facile de construire un grand nombre d' echantillons bootstrap sur lesquels calculer

l'estimateur concern e. La loi simul ee de cet estimateur est une approximation asymptotiquement

convergente sous des hypoth eses raisonnables2 de la loi de l'estimateur. Cette

approximation fournit ainsi des estimations du biais, de la variance, donc d'un risque quadratique,

et m^eme des intervalles de con


ance de l'estimateur sans hypoth ese (normalit e)

sur la vraie loi.

1.1 Principe du plug-in

Soit x = fx1; : : : ; xng un echantillon de taille n issue d'une loi inconnue F sur (

;A).

On appelle loi empirique b F la loi discr ete des singletons (x1; : : : ; xn) a
ect es des poids

1=n :

bF=

Xn

i=1
xi :

1Cette appellation est inspir ee du baron de M•unchhausen (Rudolph Erich Raspe) qui se sortit de
sables

mouvants par traction sur ses tirants de bottes. En France \bootstrap" est parfois traduit par a la
Cyrano

(acte III, sc ene 13) en r ef erence a ce h eros qui pr evoyait d'atteindre la lune en se pla cant sur
une plaque

de fer et en it erant le jet d'un aimant.

2 Echantillon ind ependant de m^eme loi et estimateur ind ependant de l'ordre des observations.

105

106 Chapitre B. Introduction au bootstrap

Soit A 2 A, PF (A) est estim ee par :

b(

Pb F

Xn

i=1
xi (A) =

Cardxi 2 A:

De mani ere plus g en erale, soit un param etre dont on suppose que c'est une fonction de

la loi F. on ecrit donc = t(F). Par exemple, = E(F) est un param etre de F suivant

ce mod ele. Une statistique est une fonction (mesurable) de l' echantillon. Avec le m^eme

exemple :

b =x=

Xn

i=1

xi

et x est la statistique qui estime . On dit que c'est un estimateur \plug-in" et, plus

g en eralement,

D efinition B.1. | On appelle estimateur plug-in d'un param etre de F, l'estimateur

obtenu en rempla cant la loi F par la loi empirique :

b = t( b F):

comme dans le cas de l'estimation de : b = E( b F) = x:

1.2 Estimation de l' ecart-type de la moyenne

Soit X une variable al eatoire r eelle de loi F. On pose :

F = EF (X); et 2F

= VarF (X) = EF [(X 􀀀 F )2];

Ce qui s' ecrit :

X ( F ; 2F

):

Soit (X1; : : : ;Xn) n variables al eatoires i.i.d. suivant aussi la loi F. Posons X = 1

Pn

i=1 Xi.
Cette variable al eatoire a pour esp erance F et pour variance 2F

=n. On dit aussi que la

statistique

X ( F ; 2F

=n):

Remarquons qu'en moyennant plusieurs valeurs ou observations, on r eduit la variance

inh erente a une observation. De plus, sous certaines conditions sur la loi F et comme

r esultat du th eor eme de la limite centrale, X converge en loi vers la loi normale.

L'estimateur plug-in de F est d e


ni par :

b 2=c F

2= 2

bF

= Var b F (X)

= Eb F [(X 􀀀 Eb F (X))2] =

Xn

i=1

(Xi 􀀀 X)2:

L'estimateur plug-in de F est (l eg erement) di


erent de celui du maximum de vraisemblance.

L'estimateur plug-in est en g en eral biais e mais il a l'avantage d'^etre simple et de

pouvoir s'appliquer a tout param etre m^eme lorsque l'on ne peut pas calculer la vraisemblance

du mod ele.

2. Estimation bootstrap d'un ecart-type 107

2 Estimation bootstrap d'un ecart-type

Soit b = s(x) un estimateur quelconque (M.V. ou autre) de pour un echantillon x

donn e. On cherche a appr ecier la pr ecision de b et donc a estimer son ecart-type.

2.1 Echantillon bootstrap

Avec les m^emes notation, b F est la distribution empirique d'un echantillon x = fx1; : : : ; xng.

D efinition B.2. | On appelle echantillon bootstrap de x un echantillon de taille n

not e

x = fx 1

;:::;x

ng

suivant la loi b F ; x est un r e- echantillon de x avec remise.

2.2 Estimation d'un ecart-type

D efinition B.3. | On appelle estimation bootstrap de l' ecart-type c F (b ) de b , son

estimation plug-in : b F (b ).
Mais, a part dans le cas tr es el ementaire o u, comme dans l'exemple ci-dessus, est une

moyenne, il n'y a pas de formule explicite de cet estimateur. Une approximation de l'estimateur

bootstrap (ou plug-in) de l' ecart-type de b est obtenue par une simulation (Monte-

Carlo) d ecrite dans l'algorithme ci-dessous.

Pour un param etre et un echantillon x donn es, on note b = s(x) l'estimation obtenue

sur cet echantillon. Une r eplication bootstrap de b est donn ee par : b = s(x ):

Algorithme B.1 : Estimation bootstrap de l' ecart-type

Soit x un echantillon et un param etre.

Pour b = 1 a B Faire

{ S electionner 1 echantillon bootstrap x b = fx b

1;:::;x b

n g. par tirage avec remise

dans x.

{ Estimer sur cet echantillon : b (b) = s(x b).

Fin pour

Calculer l' ecart-type de l' echantillon ainsi construit :

b 2B

B􀀀1

XB

b=1

(b (b) 􀀀 b (:))2

avec b (:) =

XB

b=1

(b (b):

b B est l'approximation bootstrap de l'estimation plug-in recherch ee de l' ecart-type de b .

108 Chapitre B. Introduction au bootstrap


2.3 Estimation du biais

Avec les m^emes notations :

= t(F) et b = s(x);

le biais d'un estimateur s'exprime comme

BF (b ) = EF [s(x)] 􀀀 t(F):

Un estimateur est sans biais si E[b ] = . Le biais est aussi une mesure de la pr ecision d'un

estimateur et on a vu que, g en eralement, les estimateurs plug-in etaient biais es.

D efinition B.4. | On appelle estimateur bootstrap du biais, l'estimateur plug-in :

cBF (b ) = Bb F (b ) = Eb F [s(x )] 􀀀 t( b F):

Comme pour l' ecart-type, il n'existe g en eralement pas d'expression analytique et il faut

avoir recours a une approximation par simulation.

Algorithme B.2 : Estimation bootstrap du biais

Soit x un echantillon et un param etre.

Pour b = 1 a B Faire

{ S electionner 1 echantillon bootstrap x b = fx b

1;:::;x b

n g. par tirage avec remise

dans x.

{ Estimer sur cet echantillon la r eplication bootstrap de b : b (b) = s(x b).

Fin pour

Approcher Eb F [s(x )] par b (:) = 1

PB

b=1(b (b)

L'approximation bootstrap du biais est : cBB(b ) = b (:) 􀀀 b .

3 Compl ements

En r esum e, on peut dire que le bootstrap repose sur une hypoth ese tr es el ementaire : b

se comporte par rapport a b comme b par rapport a . La connaissance de b (distribution,

variance, biais. . . ) renseigne alors sur celle de b .

Beaucoup d'autres compl ements sont a rechercher dans la litt erature et en particulier

dans Efron et Tibshirani (1993). Il est ainsi possible de d e


nir des intervalles de con
ance

bootstrap en consid erant la distribution et les quantiles de b ou m^eme encore des tests a

partir des versions bootstrap de leur statistique.

Le bootstrap rapidement d ecrit ici est dit \non-param etrique" car la loi empirique b F

est une estimation non-param etrique de F. Dans le cas o u F serait connue a un param etre

pr es, il existe egalement une version dite param etrique du bootstrap.

Pour des estimateurs plus compliqu es (fonctionnels) comme dans le cas de la r egression

non-param etrique par noyau ou spline, il est facile de construire graphiquement une enveloppe

bootstrap de l'estimateur a partir de r eplications de l' echantillon. Celle-ci fournit

g en eralement une bonne appr eciation de la qualit e de l'estimateur obtenu. Attention, dans

3. Compl ements 109

le cas de la r egression il est en principe plus justi


e de r epliquer le tirage sur les r esidus

plut^ot que sur les observations. Ce sont les r esidus qui sont en e
et suppos es i.i.d. et qui

v eri
ent donc les hypoth eses n ecessaires mais cette approche devient tr es sensible a l'hypoth

ese sur la validit e du mod ele. Il est


nalement d'usage de consid erer un echantillon

bootstrap issu des donn ees initiales (Efron et Tibshirani) :

z b = f(x b

1;y b

1 ); : : : ; (x b

n;y b

n )g;

c'est ce qui a et e choisi dans ce document.

En
n, l'estimation bootstrap est justi
ee par des propri et es asymptotiques (convergence

en loi) lorsque le nombre de r eplications (B) croit conjointement avec la taille de

l' echantillon (n).

110 Chapitre B. Introduction au bootstrap

Table des mati eres

Motivations du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

Strat egie du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1 Introduction 7

1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Probl ematique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1 Supervis e vs. non-supervis e . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Mod elisation vs. apprentissage . . . . . . . . . . . . . . . . . . . . . 8

2.3 Discrimination vs. r egression . . . . . . . . . . . . . . . . . . . . . . 8

2.4 Statistique, informatique et taille des donn ees . . . . . . . . . . . . . 8

2.5 Choix de m ethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.6 Choix de mod ele : equilibre biais-variance . . . . . . . . . . . . . . . 9

2.7 Choix de mod ele : s election vs. r egularisation . . . . . . . . . . . . . 10

2.8 Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 R egression lin eaire 13

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Mod ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1 Estimation par M.C. . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2 Propri et es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.3 Sommes des carr es . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.4 Coe
cient de d etermination . . . . . . . . . . . . . . . . . . . . . . . 16

4 Inf erences dans le cas gaussien . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.1 Inf erence sur les coe


cients . . . . . . . . . . . . . . . . . . . . . . . 16

4.2 Inf erence sur le mod ele . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.3 Inf erence sur un mod ele r eduit . . . . . . . . . . . . . . . . . . . . . 17

4.4 Pr evision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

111

112 TABLE DES MATI ERES

5 Choix de mod ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5.1 Crit eres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5.2 Algorithmes de s election . . . . . . . . . . . . . . . . . . . . . . . . . 22

5.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5.4 Choix de mod ele par r egularisation . . . . . . . . . . . . . . . . . . . 24

6 Compl ements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

6.1 Mod eles curvilin eaires . . . . . . . . . . . . . . . . . . . . . . . . . . 27

6.2 In

uence, r esidus, validation . . . . . . . . . . . . . . . . . . . . . . 27

7 Analyse de variance a un facteur . . . . . . . . . . . . . . . . . . . . . . . . 30

7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

7.2 Mod ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

7.3 Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

8 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

8.1 Mod ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

8.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

8.3 Choix de mod ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

8.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

9 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

10 Odds et odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

11 R egression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

11.1 Type de donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

11.2 Mod ele binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

12 Choix de mod ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42


12.1 Recherche pas a pas . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

13 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

13.1 D ebits Volumes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

13.2 Donn ees bancaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3 Erreur de pr ediction 47

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2 Erreur de pr ediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.1 D e
nition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.2 D ecomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3 Estimation avec p enalisation . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.1 Cp, AIC, BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.2 Dimension de Vapnik-Chernovenkis . . . . . . . . . . . . . . . . . . . 50

TABLE DES MATI ERES 113

4 Estimation par simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.1 Validation crois ee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.2 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4 Analyse Discriminante D ecisionnelle 55

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2 R egle de d ecision issue de l'AFD . . . . . . . . . . . . . . . . . . . . . . . . 56

2.1 Cas g en eral : m quelconque . . . . . . . . . . . . . . . . . . . . . . . 56

2.2 Cas particulier : m = 2 . . . . . . . . . . . . . . . . . . . . . . . . . 56

3 R egle de d ecision bay esienne . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.2 D e
nition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.3 Co^uts inconnus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.4 D etermination des a priori . . . . . . . . . . . . . . . . . . . . . . . 57

3.5 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4 R egle bay esienne avec mod ele normal . . . . . . . . . . . . . . . . . . . . . . 58

4.1 H et erosc edasticit e . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.2 Homosc edasticit e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.3 Commentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5 R egle bay esienne avec estimation non param etrique . . . . . . . . . . . . . . 59

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.2 M ethode du noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

5.3 k plus proches voisins . . . . . . . . . . . . . . . . . . . . . . . . . . 60

6 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5 Arbres binaires 63

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

2 Construction d'un arbre binaire . . . . . . . . . . . . . . . . . . . . . . . . . 63

2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

2.2 Crit ere de division . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2.3 R egle d'arr^et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2.4 A
ectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3 Crit eres d'homog en eit e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.1 Y quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3.2 Y qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4 Elagage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.1 Construction de la s equence d'arbres . . . . . . . . . . . . . . . . . . 71

114 TABLE DES MATI ERES

4.2 Recherche de l'arbre optimal . . . . . . . . . . . . . . . . . . . . . . 71

6 M ethodes connexionistes 73

1 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

2 R eseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
2.1 Neurone formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3 Perceptron multicouche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

3.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

3.2 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

3.3 Utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

7 Agr egation de mod eles 79

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

2 Famille de mod eles al eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 79

2.1 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

2.2 For^ets al eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3 Famille de mod eles adaptatifs . . . . . . . . . . . . . . . . . . . . . . . . . . 82

3.1 Principes du Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . 82

3.2 Algorithme de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

3.3 Version al eatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3.4 Pour la r egression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3.5 Mod ele additif pas a pas . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.6 R egression et boosting . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.7 Compl ements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4.1 Logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4.2 R esultats comparatifs . . . . . . . . . . . . . . . . . . . . . . . . . . 89

A Introduction au mod ele lin eaire g en eral 95

1 Composantes des mod eles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

1.1 Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

1.2 Pr edicteur lin eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

1.3 Lien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

1.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

2.1 Expression des moments . . . . . . . . . . . . . . . . . . . . . . . . . 98

2.2 Equations de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . 98

2.3 Fonction lien canonique . . . . . . . . . . . . . . . . . . . . . . . . . 99


TABLE DES MATI ERES 115

3 Qualit e d'ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

3.1 D eviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

3.2 Test de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4.1 Rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . 101

4.2 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

5 Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.1 E
et levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.2 R esidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.3 Mesure d'in

uence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

6 Compl ements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

6.1 Sur-dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

6.2 Variable \o
set" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

B Introduction au bootstrap 105

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

1.1 Principe du plug-in . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

1.2 Estimation de l' ecart-type de la moyenne . . . . . . . . . . . . . . . 106

2 Estimation bootstrap d'un ecart-type . . . . . . . . . . . . . . . . . . . . . . 107

2.1 Echantillon bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . 107

2.2 Estimation d'un ecart-type . . . . . . . . . . . . . . . . . . . . . . . 107

2.3 Estimation du biais . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

3 Compl ements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Vous aimerez peut-être aussi