Avant-propos
des possibilit es de mise en uvre tr es simples des outils logiciels. Cette evolution, ainsi
dans la gestion de la relation client (client relation management ou CRM) trouve egalement
disciplines scienti
ques d es lors que les ing enieurs et chercheurs sont confront es a
un volume de donn ees important. Besse et col. (2001) pr esente une introduction d etaill ee
de cette d emarche et des relations qu'elle entretien avec les disciplines traditionnelles Statistique
(SAS) est :
Comment trouver un diamant dans un tas de charbon sans se salir les mains.
Nous proposons d' evaluer et d'exp erimenter la r ealit e de cette annonce qui s'adresse a un
Le contexte informationnel de la fouille de donn ees est celui des data wharehouses.
Un entrep^ot de donn ees, dont la mise en place est assur e par un gestionnaire de donn ees
(data manager) est un ensemble de bases relationnelles extraites des donn ees brutes de
suivi des
chiers clients d'une banque, d'une assurance, associ es a des donn ees socio-
la production et de la communication a
n d' evacuer la notion de client moyen.
recherche, sp eci
cation puis ciblage de niches de march e les plus pro
tables (banque)
suivi en ligne des param etres de production en contr^ole de qualit e pour d etecter au
...
une informatique h et erog ene faisant intervenir des sites distants (Unix, Dos, NT,
VM. . . ) a travers le r eseau de l'entreprise (intranet) ou m^eme des acc es ext erieurs (internet).
centraliser.
Des volumes et
en t era-octets.
pas laisser echapper, a travers le crible d'un sondage, des groupes de faibles e
ectifs
Dans tout ce qui suit, nous disposons d'un ensemble d'observations. Les caract eristiques
ou variables X = (X1; : : : ;Xp) dites explicatives ont et e observ ees sur un ensemble de
incontournable, consiste a mener une exploration statistique de ces donn ees : allure des
distributions, pr esence de donn ees atypiques, corr elations et coh erence, transformations
la premi ere partie de ce document. La deuxi eme partie d ecrit les outils de mod elisation
Pour comprendre la structure et bien appr ehender le contenu de ce cours, il est important
d'int egrer rapidement ce qu'est la strat egie a mettre en uvre pour aboutir au bon
apprentissage ou encore au bon mod ele pr edictif recherch e a partir des donn ees observ ees.
Attention, il faut bien noter que, contrairement a une d emarche statistique traditionnelle
dans laquelle l'observation des donn ees est int egr ee a la m ethodologie (planni
cation
de l'exp erience), les donn ees sont ici pr ealables a l'analyse. N eanmoins il est clair que les
pr eoccupations li ees a leur analyse et a son objectif doivent intervenir le plus en amont
i. Extraction des donn ees avec ou sans echantillonnage faisant r ef erence a des techniques
ii. Exploration des donn ees pour la d etection de valeurs aberrantes ou seulement atypiques,
d'incoh erences, pour l' etude des distributions des structures de corr elation,
taille et des techniques qui seront utilis ees pour estimer une erreur de pr ediction en
iv. Pour chacune des m ethodes consid er ees : mod ele lin eaire g en eral (gaussien,binomial
estimer le mod ele pour une valeur donn ee d'un param etre de complexit e : nombre
de fen^etre. . . ;
v. Comparaison des mod eles optimaux obtenus (un par m ethode) par estimation de
l'erreur de pr evision sur l' echantillon test ou, si la pr esence d'un echantillon test
est impossible, sur le crit ere de p enalisation de l'erreur (Aka^ ke par exemple) s'il en
vi. It eration eventuelle de la d emarche pr ec edente (valisation crois ee), si l' echantillon
test est trop r eduit, depuis (iii). Partitions al eatoires successives de l' echantillon pour
Objectif
L'objet de ce cours est d'introduire, sous une forme homog ene et synth etique, les principales
couramment en fouille de donn ees et cit ees dans la section pr ec edente. Il a fallu faire des
choix dans l'ensemble des techniques propos ees et leurs nombreux avatars. La forme et
le contenu sont guid es par les besoins exprim es lors des stages r ealis ees par les etudiants
du DESS de Statistique et Econom etrie1 ou encore par les th emes des collaborations industrielles
logiciels commerciaux (SAS, Splus, SPSS) ou gratuits (R), performants et s'imposant par
largement a la di
usion, voire la p en etration, de m ethodes tr es sophistiqu ees dans
des milieux imperm eables a une conceptualisation math ematique trop abstraite.
originaux de chaque m ethode dans son cadre disciplinaire tout en t^achant d'homog en eiser
etation des techniques des principaux logiciels pour en faciliter une utilisation pertinente
et r e
1http ://www.univ-tlse1.fr/formation/DESS/DESS-StatEconometrie.html
2http ://www.lsp.ups-tlse.fr
ou R, il sert de \
l rouge" tout au long du cours.
Chapitre 1
Introduction
1 Objectif
D es qu'un ph enom ene, qu'il soit physique, biologique ou autre, est trop complexe
ou encore trop bruit e pour acc eder a une description analytique d ebouchant sur une
disciplines scienti
ques sont concern ees. Historiquement, la Statistique s'est beaucoup
d evelopp ee autour de ce type de probl emes et a propos e des mod eles incorporant d'une part
des variables explicatives et, d'autre part, une composante al eatoire ou bruit. Il s'agit alors
d'estimer les param etres du mod ele a partir des observations. Dans la m^eme situation, la
2 Probl ematique
Distinguons ensuite deux types de probl emes : la pr esence ou non d'une variable a
expliquer Y ou d'une forme a reconna^ tre qui a et e, conjointement avec X, observ ee sur
les m^emes objets. Dans le premier cas il s'agit bien d'un probl eme de mod elisation ou
apprentissage supervis e : trouver une fonction - susceptible, au mieux selon un crit ere a
d e
nir, de reproduire Y ayant observ e X.
Y = -(X) + "
o u " symbolise le bruit ou erreur de mesure avec le parti pris le plus commun que cette
Dans le cas contraire, en l'absence d'une variable a expliquer, il s'agit alors d'apprentissage
ou taxinomie des observations : comment regrouper celles-ci en classes homog enes mais
8 Chapitre 1. Introduction
et e regroup ees avec les techniques exploratoires de la premi ere partie (Baccini et Besse
2000).
Tout au long de ce document, les termes de mod elisation et d'apprentissage sont utilis
ees comme des synonymes ce qui est abusif tant que les objectifs d'une etude n'ont pas
et e clairement explicit es. Dans la tradition statistique, la notion de mod ele est centrale
mod ele (cf. ci-dessous) est alors guid e par des crit eres d'ajustement et les d ecisions de validit
e, de pr esence d'e
ets, bas ees sur des tests reposant des des hypoth eses probabilistes.
L'interpr eation du r^ole de chaque variable explicative est pr epond erante dans la d emarche.
En revanche, dans un but pr edictif il appara^ t que le meilleur mod ele n'est pas n ecessairement
le vrai. La th eorie de l'apprentissage (Vapnik, 1999) montre alors que le cadre th eorique est
di
erent et les majorations d'erreur requierent une autre approche. Les choix sont bas es
sur des crit eres de qualit e de pr ediction visant a la recherche de mod eles parcimonieux
prennent leurs valeur. Elles peuvent ^etre quantitatives a valeurs r eelles1 ou qualitatives
mod elisation s'adaptent a tout type de variables explicatives tandis que d'autres sont
sp ecialis ees. En
n, si Y a expliquer est qualitative, on parle de discrimination, classement
ou reconnaissance de forme tandis que si Y est quantitative on parle, par habitude, d'un
probl eme de r egression. Dans ce cas encore, certaines m ethodes sont sp eci
ques (r egression
lin eaire, analyse discriminante) tandis que d'autres s'adaptent sans modi
cation profonde
Lorsque des hypoth eses relatives au mod ele (lin earit e) et aux distributions sont v eri
ees
c'est- a-dire, le plus souvent, lorsque l' echantillon ou les r esidus sont suppos es suivre des lois
les techniques statistiques de mod elisation tir ees du mod ele lin eaire g en eral sont optimales
1Le traitement de donn ees fonctionnelles (Besse et Cardot, 2003), c'est- a-dire l' etude de
courbes,
n ecessite g en eralement une d ecomposition pr ealable sur une base appropri ee (vecteurs
propres, fourier,
ondelettes) avec, selon le cas, lissage ou interpolation avant de pouvoir mettre en uvre les
techniques
sp eci
ques d'apprentissage. Ces aspects ne sont pas abord es.
2. Probl ematique 9
relations suppos ees entre les variables ne sont pas lin eaires ou encore d es que le volume
des donn ees est important, d'autre m ethodes viennent concurrencer l'approche statistique
classique.
observ ees sur un echantillon (yi; xi); i = 1; : : : ; n de taille n Si - est suppos ee lin eaire et p
petit, de l'ordre d'une dizaine ; le probl eme est bien connu et largement d ebattu dans la
litt erature. Dans le cas o u - n'est pas franchement lin eaire et n grand, il est possible d'estimer
pr ecis ement un nombre plus important de param etres et donc d'envisager des mod eles
plus sophistiqu es. Si on s'en tient au mod ele gaussien usuel, m^eme le cas le plus simple
p = 10, la proc edure de choix de mod ele est confront ee a un ensemble de 210 mod eles
consid erer pour - un simple polyn^ome du deuxi eme voire troisi eme degr e avec toutes
ses interactions, am ene a consid erer un nombre consid erable de param etres et donc, par
des calculs. Ceci explique l'implication d'une autre discipline, l'informatique, dans
probl eme qui se ram ene a l'optimisation d'un crit ere d'ajustement de - sur un ensemble
de solutions plus ou moins riche. Ces m ethodes ont souvent et e d evelopp ees dans un autre
Avec l'av enement du data mining, de tr es nombreux articles comparent et opposent les
techniques sur des jeux de donn ees publics et proposent des am eliorations incr ementales de
de sa m ethode, un consensus s'est etabli autour de l'id ee qu'il n'y a pas de \meilleure
m ethode". Chacune est plus ou moins bien adapt ee au probl eme pos e, a la nature des
donn ees ou encore aux propri et es de la fonction - a approcher ou estimer. Sur le plan
plus pertinente. Cette comparaison repose sur une estimation d'erreur (de r egression ou
de classement) qu'il est n ecessaire de conduire avec soin. Un chapitre (3) est consacr e a ce
point.
Tous les auteurs s'accordent pour souligner l'importance qu'il y a a construire des
mod eles parcimonieux quelque soit la m ethode utilis ee. Toutes les m ethodes sont concern ees
:
couche cach ee. . . . Seuls les algorithmes de combinaison de mod eles (bagging, boosting)
10 Chapitre 1. Introduction
contournent cette etape au prix d'un accroissement sensible du volume des calculs et de
L'alternative est claire, plus un mod ele est complexe et donc plus il int egre de param
etres et plus il est capable de s'ajuster aux donn ees et donc d'engendrer une erreur
faible d'ajustement. En revanche, un tel mod ele peut s'av erer d efaillant lorsqu'il s'agira
de pr evoir ou g en eraliser, c'est- a-dire de s'appliquer a des donn ees qui n'ont pas particip
e a son estimation. Exemple : discriminer dans IR2 une fronti ere quadratique par une
Ce probl eme s'illustre aussi facilement en r egression classique. Ajouter des variables
explicatives dans un mod ele ne peut que r eduire l'erreur d'ajustement (le R2) et r eduit
le biais si le \vrai" mod ele est un mod ele plus complet. Mais, ajouter des variables fait
egalement cro^ te la variance des estimateurs et donc celle des pr edictions qui se d egradent
rapidement avec la multicolin earit e des variables explicatives. Un risque pour le mod ele,
d e
nition de crit eres de choix de mod ele dont le Cp de Mallows fut un pr ecurseur en
Plus que celui de la m ethode, le choix du bon mod ele ou de la bonne complexit e de
celui-ci dans une classe de m ethodes donn ees est primordial. En cons equence, les probl emes
d'optimisation consid er es doivent mettre en uvre un crit ere qui prend en compte la
complexit e du mod ele, c'est- a-dire la complexit e de l'espace dans lequel la solution est
recherch ee.
Simple par s election de variable en r egression lin eaire, la complexit e est directement li ee a la
En r egression lin eaire, si le nombre et les variables sont d etermin es, la version \ridge" de
la r egression p enalise la norme carr ee du vecteur des param etres et restreint ainsi, par
En
n, pour aborder en toute g en eralit e les situations les plus compliqu ees, Vapnik
2.8 Contenu
les plus r epandues, est pr esent ee de fa con plus ou moins succincte dans un chapitre distinct
avec un objectif pr edictif. La r egression lin eaire classique en statistique prend une
2. Probl ematique 11
place particuli ere a titre p edagogique. Tr es ant erieure aux autres, elle donne lieu a une
bibliographie abondante. Conceptuellement plus simple, elle permet d'introduire plus facilement
les probl ematiques rencontr ees comme celle du choix d'un mod ele par ses deux
compr ehension des logiciels qui y font largement r ef erence, une introduction (annexe) au
mod ele lin eaire g en eral fournit le cadre th eorique n ecessaire a l'uni
cation des r egressions
lin eaire et logistique ; cette derni ere reste toujours tr es utilis ee en scoring. La pr esentation
de l'analyse discriminante d ecisionnelle, param etrique ou non param etrique, les k plus
proches voisins, permet d'introduire egalement des notions de th eorie bay esienne de la
d ecision. Un chapitre incontournable est consacr e aux techniques d'estimation d'une erreur
de pr ediction sur lesquelles reposent les choix op erationnels d ecisifs : de mod ele, de
m ethode mais aussi l' evaluation de la pr ecision des r esultats escompt es. Les chapitres
suivants sont consacr ees aux techniques algorithmiques : arbres binaires de d ecision (classi
cation and regression trees ou CART) et a celles plus directement issues de la th eorie de
de mod eles (boosting, random forest). Des annexes apportent des compl ements th eoriques :
12 Chapitre 1. Introduction
Chapitre 2
1 Introduction
estimation en privil egiant l'objectif de pr ediction. Il s'attarde donc sur le probl eme d elicat
adapter au cas de la r egression logistique largement utilis ee en prospection de donn ees. Une
derni ere section introduit le mod ele d'analyse de covariance mais de nombreux aspects :
(mod ele log-lin eaire). . . sont n eglig es et a rechercher dans la bibliographie de m^eme qu'une
pr esentation globale du mod ele lin eaire g en eral incluant toutes ces approches et seulement
r esum ee en annexe. Les statistiques des tests el emetaires sont explicit ees a
n de faciliter
Le but premier de ce chapitre est donc l'explication ou plut^ot, la mod elisation dans un
but pr edictif, d'une variable quantitative par plusieurs variables quantitatives (r egression
covariance).
2 Mod ele
Le mod ele de r egression lin eaire multiple est l'outil statistique le plus habituellement
mis en uvre pour l' etude de donn ees multidimensionnelles. Cas particulier de mod ele
Une variable quantitative Y dite a expliquer (ou encore, r eponse, exog ene, d ependante)
est mise en relation avec p variables quantitatives X1; : : : ;Xp dites explicatives (ou encore
Les donn ees sont suppos ees provenir de l'observation d'un echantillon statistique de
(x1i
; : : : ; xj
i ; : : : ; xp
i ; yi) i = 1; : : : ; n:
L' ecriture du mod ele lin eaire dans cette situation conduit a supposer que l'esp erance de
13
de IRn constitu e de \1" . C'est- a-dire que les (p + 1) variables al eatoires v eri
ent :
yi =
0+
1x1i
+
2x2i
+ +
pxp
i + "i i = 1; 2; : : : ; n
i. Les "i sont des termes d'erreur, d'une variable U, non observ es, ind ependants et
ii. Les termes xj sont suppos es d eterministes (facteurs contr^ol es) ou bien l'erreur U
est ind ependante de la distribution conjointe de X1; : : : ;Xp. On ecrit dans ce dernier
cas que :
consid ere la normalit e de la variable d'erreur U (N(0; 2I)). Les "i sont alors i.i.d.
Les donn ees sont rang ees dans une matrice X(n (p + 1)) de terme g en eral xj
i , dont
y=X
+ ":
3 Estimation
crit ere des moindres carr es (M.C.) ou encore, en supposant (iv), par maximisation de
la vraisemblance (M.V.). Les estimateurs ont alors les m^emes expressions, l'hypoth ese
compl ementaires.
Xn
i=1
(yi
0
1x1i
2x2i
pxp
i )2 = ky X
k2
= (y X
)0(y X
)
= y0y 2
0X0y +
0X0X
:
Par d erivation matricielle de la derni ere equation on obtient les \ equations normales" :
X0y X0X
=0
dont la solution correspond bien a un minimum car la matrice hessienne 2X0X est d e
niepositive.
3. Estimation 15
Nous faisons l'hypoth ese suppl ementaire que la matrice X0X est inversible, c'est- adire
que la matrice X est de rang (p + 1) et donc qu'il n'existe pas de colin earit e entre
colonnes de X et donc des variables du mod ele. Des diagnostics de colin earit e et des crit eres
b = (X0X)1X0y
et les valeurs ajust ees (ou estim ees, pr edites) de y ont pour expression :
by
= Xb = X(X0X)1X0y = Hy
o uH = X(X0X)1X0 est appel ee \hat matrix" ; elle met un chapeau a y. G eom etriquement,
c'est la matrice de projection orthogonale dans IRn sur le sous-espace Vect(X) engendr e
On note
e = y by = y Xb = (I H)y
dans IRn.
3.2 Propri et es
Les estimateurs des M.C. b0; b1; : : : ; bp sont des estimateurs sans biais : E(b) =
, et,
parmi les estimateurs sans biais fonctions lin eaires des yi, ils sont de variance minimum
(th eor eme de Gauss-Markov) ; ils sont donc \BLUE" : best linear unbiaised estimators.
Sous hypoth ese de normalit e, les estimateurs du M.V. sont uniform ement meilleurs (e
-
E[(b
)(b
)0] = 2(X0X)1;
E[(by X
)(by X
)0] = 2H
s2 = kek2
np1
= ky X
k2
np1
SSE
np1
SSE est la somme des carr es des r esidus (sum of squared errors),
On d e
nit egalement la somme totale des carr es (total sum of squares) par
On v eri
e alors : SST = SSR + SSE.
3.4 Coe
cient de d etermination
On appelle coe
cient de d etermination le rapport
R2 =
SSR
SST
qui est donc la part de variation de Y expliqu ee par le mod ele de r egression.
G eom etriquement,
c'est un rapport de carr es de longueur de deux vecteurs. C'est donc le cosinus carr e de
est g eom etriquement facile de voir que l'ajout de variables explicatives ne peut que faire
by
En principe, l'hypoth ese optionnelle (iv) de normalit e des erreurs est n ecessaire pour
cette section. En pratique, des r esultats asymptotiques, donc valides pour de grands
echantillons, ainsi que des etudes de simulation, montrent que cette hypoth ese n'est pas
bj
j
bj
o u 2
bj
, variance de bj est le j eme terme diagonal de la matrice s2(X0X)1, suit une loi
de Student a (n p 1) degr es de libert e. Cette statistique est donc utilis ee pour tester
100(1
)% :
bj t
=2;(np1) bj :
des absences ou pr esences des autres variables Xk dans le mod ele. Par exemple, dans le
deux sont pr esentes dans le mod ele, elles peuvent chacune appara^ tre avec des coe
cients
insigni
ants.
De fa con plus g en erale, si c d esigne un vecteur non nul de (p+1) constantes r eelles, il est
possible de tester la valeur d'une combinaison lin eaire c0b des param etres en consid erant
c0b a
(s2c0(X0X)1c)1=2
Le mod ele peut ^etre test e globalement. Sous l'hypoth ese nulle H0 :
1=
2=:::=
p = 0, la statistique
SSR=p
SSE=(n p 1)
MSR
MSE
suit une loi de Fisher avec p et (np1) degr es de libert e. Les r esultats sont habituellement
Source
de
variation
d.d.l.
Somme
des
carr es
Variance F
Total n 1 SST
est donc d'un int er^et limit e. Il est souvent plus utile de tester un mod ele r eduit c'est-
mod ele complet avec toute les variables. En ayant eventuellement r eordonn e les variables,
(SSR SSRq)=q
SSE=(n p 1)
(R2 R2
q)=q
(1 R2)=(n p 1)
t-statistique de l'inf erence sur un param etre et conduit donc au m^eme test.
4.4 Pr evision
0 = [x10
; x20
; : : : ; xp
0]
appartenant au domaine dans lequel l'hypoth ese de lin earit e reste valide, une pr evision,
by0 = b0 + b1x10
+ + bpxp
0:
posant v0 = (1jbmx0
by0 t
=2;(np1)s(1 + v00
(X0X)1v0)1=2;
by0 t
=2;(np1)s(v00
(X0X)1v0)1=2:
4.5 Exemple
Le mod ele de r egression lin eaire n'est pas adapt e a l'explication d'une variable binaire
comme dans le cas des donn ees bancaires. Ceci est abord e dans le chapitre suivant en
utilisant la r egression logistique tandis que d'autres exemples de donn ees sont utilis ees
dans ce chapitre. Les premi eres sont extraites de Jobson (1991) et d ecrivent les r esultats
ow to total debt
La proc edure SAS/REG est utilis ee dans le programme suivant. Beaucoup d'options
sont actives a
n de fournir la plupart des r esultats m^eme si certains sont redondants ou
peu utiles.
title;
run;
Analysis of Variance
Sum of Mean
(1)
(2) SSR
(4) SST=SSE+SSR
(5) SSR/DF
(11) Coe
cient de variation 100 (9)/(10)
(12) Coe
cient de d etermination R2
(13) Coe
cient de d etermination ajust e R02
Parameter Estimates
...
(5) 1 R2
(j)
(6) VIF=1=(1 R2
(j))
Ces r esultats soulignent les probl emes de colin earit es. De grands \VIF" sont associ es
a de grands ecart-types des estimations des param etres. D'autre part les nombreux tests
De fa con un peu sch ematique, on peut associer la pratique de la mod elisation statistique
est grand.
y ; c'est l'e
et data mining dans les mod eles econom etriques appel e maintenant data
snooping.
Explicatif : Le deuxi eme objectif est sous-tendu par une connaissance a priori du domaine
in
rm es ou pr ecis es par l'estimation des param etres. Dans ce cas, les r esultats
d ecision recherch ee. Utilis ees hors de ce contexte, les statistiques de test n'ont plus
alors qu'une valeur indicative au m^eme titre que d'autres crit eres plus empiriques.
Pr edictif : Dans le troisi eme cas, l'accent est mis sur la qualit e des estimateurs et des
pr edicteurs qui doivent, par exemple, minimiser une erreur quadratique moyenne.
C'est la situation rencontr ee en apprentissage. Ceci conduit a rechercher des mod eles
Le \meilleur" mod ele ainsi obtenu peut donner des estimateurs l eg erement
biais es au pro
t d'un compromis pour une variance plus faible. Un bon mod ele n'est
donc plus celui qui explique le mieux les donn ees au sens d'une d eviance (SSE)
minimale (ou d'un R2 max) au prix d'un nombre important de variables pouvant
introduire des colin earit es. Le bon mod ele est celui qui conduit aux pr edictions les
plus
ables.
Certes, le th eor eme de Gauss-Markov indique que, parmi les estimateurs sans biais, celui
des moindres carr es est de variance minimum. N eanmoins, il peut ^etre important de
pr ef erer un estimateur l eg erement biais e si le gain en variance est lui plus signi
catif. C'est
en contraignant les param etres du mod ele, en les r etr ecissant (schrinkage), en r egression
De nombreux crit eres de choix de mod ele sont pr esent es dans la litt erature sur la
r egression lin eaire multiple. Citons le crit ere d'information d'Aka• ke (AIC), celui bay esien
de Sawa (BIC). . . (cf. chapitre 3). Ils sont equivalents lorsque le nombre de variables a
de favoriser des mod eles parcimonieux. En pratique, les plus utilis es ou ceux g en eralement
Statistique du F de Fisher
utilis e a titre indicatif pour comparer des s equences de mod eles embo^ t es. La statistique
(SSR SSRq)=s
SSE=(n p 1)
(R2 R2
q)
1 R2)
np1
dans laquelle l'indice q d esigne les expressions concernant le mod ele r eduit avec (p q)
q) est su
samment
grand :
R2 R2R
>
(n p 1)
F
;q;(np1);
R2 et R2 ajust e
Le coe
cient de d etermination R2 = 1SSE/SST, directement li e a la d eviance (SSE)
est aussi un indice de qualit e mais qui a la propri et e d'^etre monotone croissant en fonction
du nombre de variables. Il ne peut donc servir qu' a comparer deux mod eles de m^eme
En revanche, le R2 ajust e :
R02 = 1
n1
np1
(1 R2) = 1
SSE=(n p 1)
SST=(n 1)
dans lequel le rapport SSE/SST est remplac e par un rapport des estimations sans biais
des quantit es 2 et 2
Ce coe
cient s'exprime encore par
1
(n 1)MSE
SST
ainsi dans la comparaison de deux mod eles partageant la m^eme SST, on observe que
quadratique moyenne du mod ele complet et celle d'un mod ele a j variables explicatives.
Cp de Mallow
Cet indicateur est une estimation de l'erreur quadratique moyenne de pr ediction qui
s' ecrit aussi comme la somme d'une variance et du carr e d'un biais. L'erreur quadratique
Xn
i=1
MSE(byi) =
Xn
i=1
Var(byi) +
Xn
i=1
[Biais(byi)]2:
En supposant que les estimations du mod ele complet sont sans biais et en utilisant des estimateurs
Cp = (n q 1)
MSEj
et d e
nit la valeur du Cp de Mallow pour les q variables consid er ees. Il est alors d'usage
de rechercher un mod ele qui minimise le Cp tout en fournissant une valeur inf erieure et
proche de (q + 1). Ceci revient a consid erer que le \vrai" mod ele complet est moins
able
qu'un mod ele r eduit donc biais e mais d'estimation plus pr ecise.
A compl eter
PRESS de Allen
Il s'agit l'introduction historique de la validation crois ee. On d esigne par by(i) la pr ediction
; : : : ; xp
PRESS =
Xn
i=1
(yi by(i))2
et permet de comparer les capacit es pr edictives de deux mod eles. Le chapitre 3 donne plus
Lorsque p est grand, il n'est pas raisonnable de penser explorer les 2p mod eles possibles
a
n de s electionner le \meilleur" au sens de l'un des crit eres ci-dessus. Di
erentes
strat egies sont donc propos ees qui doivent ^etre choisies en fonction de l'objectif recherch e
et des moyens de calcul disponibles ! Trois types d'algorithmes sont r esum es ci-dessous par
ordre croissant de temps de calcul n ecessaire c'est- a-dire par nombre croissant de mod eles
consid er es parmi les 2p et donc par capacit e croissante d'optimalit e. On donne pour chaque
Pas a pas
S election (forward) A chaque pas, une variable est ajout ee au mod ele. C'est celle dont
compare les deux mod eles est minimum. La proc edure s'arr^ete lorsque toutes les
variables sont introduites ou lorsque p reste plus grande qu'une valeur seuil
x ee par
d efaut a 0; 50.
Elimination (backward) L'algorithme d emarre cette fois du mod ele complet. A chaque
etape, la variable associ ee a la plus grande valeur p est elimin ee du mod ele. La
proc edure s'arr^ete lorsque les variables restant dans le mod ele ont des valeurs p plus
Mixte (stepwise) Cet algorithme introduit une etape d' elimination de variable apr es
introduites.
Global
L'algorithme de Furnival et Wilson est utilis e pour comparer tous les mod eles possibles
en cherchant a optimiser l'un des crit eres : R2, R2 ajust e, ou Cp de Mallow (rsquare,
adjrsq, cp) choisi par l'utilisateur. Par souci d' economie, cet algorithme evite de consid erer
des mod eles de certaines sous-branches de l'arborescence dont on peut savoir a priori
qu'ils ne sont pas comp etitifs. En g en eral les logiciels ex ecutant cet algorithme a
chent le
5.3 Exemple
plus e
caces consistent a choisir les options du programme ci-dessous. Tous les mod eles
(parmi les plus int eressants selon l'algorithme de Furnival et Wilson) sont consid er es. Seul
le meilleur pour chaque niveau, c'est- a-dire pour chaque valeur p du nombre de variables
explicatives sont donn es. Il est alors facile de choisir celui minimisant l'un des crit eres
title;
run;
In R-square
6 0.7483 0.7025 6.1878 -197.25 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT
7 0.7600 0.7075 6.6916 -195.77 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT
8 0.7692 0.7097 7.5072 -193.87 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT
CURRAT
9 0.7760 0.7088 8.6415 -191.59 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST
QUIKRAT
CURRAT
10 0.7830 0.7082 9.7448 -189.15 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST
PAYOUT
QUIKRAT CURRAT
11 0.7867 0.7029 11.2774 -186.40 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT
INVTAST
PAYOUT QUIKRAT CURRAT
12 0.7888 0.6950 13.0000 -183.51 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT
FATTOT
Dans cet example, Cp et BIC se comportent de la m^eme fa con. Avec peu de variables,
le mod ele est trop biais e. Ils atteignent un minimum pour un mod ele a 4 variables explicatives
ajust e conduirait a une solution beaucoup moins parcimonieuse. On note par ailleurs que
l'algorithme remplace WCFTCL par WCFTDT. Un algorithme par s election ne peut pas
L'autre strat egie qui cherche a conserver l'ensemble ou tout du moins la plupart des
variables explicatives pose un probl eme de multicolin earit e. Il est r esolu par une proc edure
de r egularisation.
Probl eme
L'estimation des param etres ainsi que celle de leur ecart-type (standard error) n ecessite
le calcul explicite de la matrice (X0X)1. Dans le cas dit mal conditionn e o u le d eterminant
num erique. Il s'agit donc de diagnostiquer ces situations critiques puis d'y rem edier. Dans
les cas descriptif ou pr edictif on supprime des variables a l'aide des proc edures de choix de
mod ele mais, pour un objectif explicatif n ecessitant toutes les variables, d'autres solutions
doivent ^etre envisag ees : algorithme de r esolution des equations normales par transformations
orthogonales (proc edure orthoreg de SAS) sans calcul explicite de l'inverse pour
limiter les probl emes num eriques, r egression biais ee (ridge), r egression sur composantes
principales.
VIF
La plupart des logiciels proposent des diagnostics de colin earit e. Le plus classique est
le facteur d'in
1 R2
o u R2
j d esigne le coe
cient de d etermination de la r egression de la variable Xj sur les
cosinus de l'angle dans IRn entre Xj et le sous-espace vectoriel engendr e par les variables
fX1; : : : ;Xj1;Xj1; : : : ;Xpg. Plus Xj est \lin eairement" proche de ces variables et plus
plus elev ee. Evidemment, cette variance est minimum lorsque Xj est orthogonale au sousespace
Conditionnement
De fa con classique, les qualit es num eriques de l'inversion d'une matrice sont quanti
ees
des corr elations R rang ees par ordre d ecroissant. Le d eterminant de R est egal au produit
des valeurs propres. Ainsi, des probl emes num eriques, ou de variances excessives apparaissent
d es que les derni eres valeurs propres sont relativement trop petites. L'indice de
= 1= p
En pratique, si < 100 on consid ere qu'il n'y a pas de probl eme. Celui-ci devient s ev ere
pour > 1000. Cet indice de conditionnement donne un aper cu global des probl emes de
colin earit e tandis que les VIF, les tol erances ou encore l' etude des vecteurs propres associ es
R egression ridge
Ayant diagnostiqu e un probl eme mal conditionn e mais d esirant conserver toutes les
variables, il est possible d'am eliorer les propri et es num eriques et la variance des estimations
en consid erant un estimateur l eg erement biais e des param etres. L'estimateur \ridge" est
donn e par
bR = (X0X + kI)1X0y;
qui a pour e
et de d ecaler de la valeur k toutes les valeurs propres de la matrice a inverser
revient encore a estimer le mod ele par les moindres carr es sous la contrainte que la norme
du vecteur1
des param etres ne soit pas trop grande :
bR = arg min
n
ky X
k2 ; k
k2 < c
bR = arg min
fky X
k2 + k
k2g:
et donc pour limiter la variance. On parle aussi d'estimateur a r etr ecisseur (shrinkage).
(cf.
gure 2.1) montrant l' evolution des param etres en fonction du coe
cient ridge est
souvent su
sante. La valeur est choisie au point o u la d ecroissance des param etres devient
faible et quasi-lin eaire. Une autre version (lasso) de r egression biais ee est obtenue en
mod ele.
Fig. 2.1 { Evolution des param etres de la r egression ridge en fonction du param etre de
r egularisation.
dites principales qui sont des combinaisons lin eaires des variables initiales de variance
maximale sous une contrainte d'orthogonalit e (cf. Baccini et Besse (2000) pour des d etails).
En d esignant par V la matrice des vecteurs propres de la matrice des corr elations R rang es
dans l'ordre d ecroissant des valeurs propres, les valeurs prises par ces variables principales
C = (X 1 x0)V:
Elles ont chacune pour variance la valeur propre j associ ee. Le sous-espace engendr e par
ces variables principales est le m^eme que celui engendr e par les variables initiales. Il est
donc g eom etriquement equivalent de r egresser Y sur les colonnes de C que sur celles de
X. Les probl emes de colin earit e sont alors r esolu en supprimant les variables principales
de plus faibles variances c'est- a-dire associ ees aux plus petites valeurs propres ou encore
La solution obtenue pr esente ainsi de meilleures qualit es pr edictives mais, les coe
-
est n ecessaire a
n d' evaluer et d'interpr eter les e
ets de chacune des variables initiales.
R egression PLS
avec une forte multicolin earit e et m^eme, lorsque le nombre d'observations est inf erieur au
nombre de pr edicteurs. Il s'agit de la r egression PLS (partial least square). Comme pour la
r egression sur composantes principales, celle-ci est d ecompos ee sur une base orthogonale
contruite a partir de combinaisons lin eaires des variables explicatives centr ees r eduites mais
la construction de cette base d epend de la corr elation des pr edicteurs avec Y . Il s'agit d'une
d emarche it erative. A chaque etape, est recherch ee la combinaison lin eaire orthogonales
aux solutions pr ec edentes et la plus li ee a la variable a expliquer. La premi ere etape est
6. Compl ements 27
on pose by(0) = 1y et x
(0)
j = xj ; j = 1; : : : ; p.
Pour m = 1 a p Faire
{ zm =
Pp
j=1
mjx
(m1)
j ; avec
mj =
(m1)
j;y
{ Orthogonalisation : x(m)
j = x(m1)
j
hD
x(m1)
j ; zm
= hzm; zmi
zm ; j = 1; : : : ; p.
Fin pour
j=
Pq
l=1
lj l.
6 Compl ements
En cas d'invalidation de l'hypoth ese de lin earit e, il peut ^etre int eressant de consid erer
des mod eles polyn^omiaux, tr es classiques pour d ecrire des ph enom enes physiques, de la
forme
Y=
0+ +
jXj + +
klXkXl + +
jXj2
constitu ees des produits ou des carr es des variables explicatives initiales. Les choix :
pr esence ou non d'une interaction entre deux variables, pr esence ou non d'un terme quadratique
se traitent alors avec les m^emes outils que ceux des choix de variable mais en
int egrant une contrainte lors de la lecture des r esultats : ne pas consid erer des mod eles
incluant des termes quadratiques dont les composants lin eaires auraient et e exclus ou encore,
un terme quadratique.
La proc edure rsreg de SAS est plus particuli erement adapt ee aux mod eles quadratiques.
Elle ne comporte pas de proc edure de choix de mod ele mais fournit des aides et
diagnostics sur l'ajustement de la surface ainsi que sur la recherche des points optimaux.
Attention : Ce type de mod ele accro^ t consid erablement les risques de colin earit e, il
6.2 In
Avant toute tentative de mod elisation complexe, il est imp eratif d'avoir conduit des
des variables : dissym etrie, valeurs atypiques (outliers) ou sur les liaisons des variables
prises deux par deux : non-lin earit e. Ces pr eliminaires acquis, des aides ou diagnostics
associ es a la r egression lin eaire multiple permettent de d etecter des violations d'hypoth eses
(cf.
gure 2.2).
Points in
uents
Comme toute m ethode quadratique, l'estimation des param etres est tr es sensible a
observation est in
elle est eloign ee du barycentre, et ce dans la direction d'un vecteur propre associ e a
tandis que l'analyse des r esidus studentis es pointe ceux susceptibles de poser des probl emes
Les deux diagnostics pr ec edents sont combin es dans des mesures synth etiques propos
ees par di
erents auteurs. La plus utilis ee est la distance de Cook
Di =
s2(p + 1)
hii
1 hii
r2
(p + 1)
qui quanti
e l'in
uence de l'observation
fournis pas SAS illustrent ces quantit es sur l'exemple des donn ees comptables.
Dep Var Predict Std Err Lower95 Upper95 Lower95 Upper95 Std Err Student
Obs RETCAP Value Predict Mean Mean Predict Predict Residual Residual Residual
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
1 0.2600 0.2716 0.053 0.1625 0.3808 0.0839 0.4593 -0.0116 0.052 -0.223
2 0.5700 0.3690 0.039 0.2882 0.4497 0.1962 0.5417 0.2010 0.063 3.183
3 0.0900 0.00897 0.063 -0.1205 0.1385 -0.1912 0.2092 0.0810 0.039 2.055
4 0.3200 0.2335 0.021 0.1903 0.2768 0.0748 0.3922 0.0865 0.071 1.212
5 0.1700 0.1164 0.046 0.0215 0.2113 -0.0634 0.2961 0.0536 0.058 0.920
...
...
6. Compl ements 29
Fig. 2.2 { Graphe des r esidus studentis es, de la diagonale de la matrice H et de la distance
uence
Sum of Residuals 0
R egression partielle
Un mod ele de r egression multiple est une technique lin eaire. Il est raisonnable de s'interroger
sur la pertinence du caract ere lin eaire de la contribution d'une variable explicative
a l'ajustement du mod ele. Ceci peut ^etre r ealis e en consid erant une r egression partielle.
j eme variable est omise, soit ry(j) le vecteur des r esidus obtenus.
La r egression de Xj sur les variables X1; : : : ;Xj1;Xj+1; : : : ;Xp. Soit rx(j) le vecteur
La comparaison des r esidus par un graphe (nuage de points ry(j) rx(j)) permet alors de
Fig. 2.3 { Graphe des valeurs observ ees en fonction des valeurs pr edites et droite de Henri
Graphes
Di
erents graphiques permettent
nalement de contr^oler le bien fond e des hypoth eses
Le premier consid ere le nuage de points des r esidus studentis es crois es avec les valeurs
pr edites. Les points doivent ^etre uniform ement r epartis entre les bornes 2 et +2 et
Le deuxi eme croise les valeurs observ ees de Y avec les valeurs pr edites. Il illustre
le coe
cient de d etermination R qui est aussi la corr elation lin eaire simple entre
by
et y. Les points doivent s'aligner autour de la premi ere bissectrice. Il peut ^etre
2.3).
La qualit e, en terme de lin earit e, de l'apport de chaque variable est etudi ee par
des r egressions partielles. Chaque graphe de r esidus peut ^etre compl et e par une
Le dernier trace la droite de Henri (Normal QQplot) des r esidus dont le caract ere
7.1 Introduction
Les techniques dites d'analyse de variance sont des outils entrant dans le cadre g en eral
du mod ele lin eaire et o u une variable quantitative est expliqu ee par une ou plusieurs
variables qualitatives. L'objectif essentiel est alors de comparer les moyennes empiriques
di
erentes modalit es ou encore de variables quantitatives d ecoup ees en classes ou niveaux.
un e
et sur la variable quantitative en vue, par exemple, de d eterminer des conditions
techniques apparaissent aussi comme des cas particuliers de la r egression lin eaire multiple
expliquer une variable quantitative par ces variables indicatrices. L'appellation \analyse de
variance" vient de ce que les tests statistiques sont b^atis sur des comparaisons de sommes
de carr es de variations.
L'analyse de variance est souvent utilis ee pour analyser des donn ees issue d'une plani-
cation exp erimentale au cours de laquelle l'exp erimentateur a la possibilit e de contr^oler
a priori les niveaux des facteurs avec pour objectif d'obtenir le maximum de pr ecision au
moindre co^ut. Ceci conduit en particulier a construire des facteurs orthogonaux deux a
a des simpli
cations importantes de l'analyse de variance associ ee. On appelle plan complet
un dispositif dans lequel toutes les combinaisons de niveaux ont et e exp eriment ees.
(contr^ol e) ou non des facteurs par exemple si les modalit es r esultent d'un choix al eatoire
parmi un grand nombre de possibles. Dans cette courte introduction seuls le mod ele
xe
L'analyse de variance a un facteur est un cas particulier d' etude de relations entre
deux variables statistiques : une quantitative Y admettant une densit e et une qualitative
cellules ou classes indic ees par j. L'objectif est de comparer les distributions de Y pour
chacune des classes en particulier les valeurs des moyennes et variances. Un pr ealable descriptif
consiste a r ealiser un graphique constitu e de diagrammes boites parall eles : une pour
chaque modalit e. Cette repr esentation donne une premi ere appr eciation de la comparaison
plani
cation d'exp erience ne sont pas abord ees dans ce cours ax e sur la fouille de donn ees
pour laquelle les donn ees sont justement pr ealablement fournies. Les plans d'exp erience
sont surtout utilis es en milieu industriel : contr^ole de qualit e, optimisation des processus
n=
PJ
j=1 nj (n > J) est la taille de l' echantillon. On suppose qu' a l'int erieur de chaque
cellule, les observations sont ind ependantes equidistribu ees de moyenne j et de variance
homog ene 2
yij = j + "ij
o u les "ij sont i.i.d. suivant une loi centr ee de variance 2 qui sera suppos ee N(0; 2)
pour la construction des tests. Cette derni ere hypoth ese n' etant pas la plus sensible. Les
esp erances j ainsi que le param etre de nuisance 2 sont les param etres inconnus a estimer.
On note respectivement :
y:j =
nj
Xnj
i=1
yij ;
s2j
nj 1
Xnj
i=1
(yij y:j)2;
y:: =
Xnj
i=1
XJ
j=1
yij ;
les moyennes et variances empiriques de chaque cellule, la moyenne g en erale de l' echantillon.
Les param etres j sont estim es sans biais par les moyennes y:j et comme le mod ele
l'estimation des erreurs est eij = (yij y:j) tandis que les valeurs pr edites sont byij = y:j.
Sous l'hypoth ese d'homog en eit e des variances, la meilleure estimation sans biais de 2
est
s2 =
PJ
j=1
Pnj
i=1(yij y:j)2
nJ
nJ
[(n 1)s21
+ + (nJ 1)s2
J]
qui s' ecrit donc comme une moyenne pond er ee des variances empiriques de chaque groupe.
["ij ji = 1; nj ; j = 1; J]0 le vecteur des erreurs, 1j les variables indicatrices des niveaux et
1 la colonne de 1s. Le i eme el ement d'une variable indicatrice (dummy variable) 1j prend
Comme dans le cas de la r egression lin eaire multiple, le mod ele consiste a ecrire que
l'esp erance de la variable Y appartient au sous-espace lin eaire engendr e par les variables
y=
01 +
111 + +
J1J + ":
La matrice X alors construite n'est pas de plein rang p + 1 mais de rang p. La matrice
(combinaisons lin eaires) de ces param etres sont estimables et appel ees contrastes.
Dans le cas du mod ele d'analyse de variance a un facteur, la solution la plus simple
di
erentes.
Un premier mod ele (cell means model) s' ecrit comme celui d'une r egression lin eaire
y=
111 + +
J1J + "
y=X
+ ":
Les calculs se pr esentent simplement mais les tests d ecoulant de ce mod ele conduiraient a
etudier la nullit e des param etres alors que nous sommes int eress es par tester l' egalit e des
moyennes.
J ]0 conduit a ecrire le mod ele (base cell model) de r egression avec terme constant :
y=
01 +
111 + +
J11J1 + ":
C'est celle de SAS alors que d'autres logiciels consid erent des param etres d'e
et di
erentiel
PJ
(group e
ect model) de r egression lin eaire avec terme constant mais dont les variables
y=
01 +
1(11 1J ) + +
J1(1J1 1J ) + ":
7.3 Test
On d esigne les di
erentes sommes des carr es des variations par :
SST =
XJ
j=1
Xnj
i=1
(yij y::)2 =
XJ
j=1
Xnj
i=1
y2
ij n y2
::;
SSW =
XJ
j=1
Xnj
i=1
(yij y:j)2 =
XJ
j=1
Xnj
i=1
y2
ij
XJ
j=1
nj y2
:j ;
SSB =
XJ
j=1
XJ
j=1
nj y2
:j n y2
::;
o u \T" signi
e totale, \W" (within) intra ou r esiduelle, \B" (between) inter ou expliqu ee
H0 : 1 = = J;
qui revient a dire que la moyenne est ind ependante du niveau ou encore que le facteur n'a
pas d'e
et, contre l'hypoth ese
Dans les mod eles pr ec edents, l' etude de cette hypoth ese revient a comparer par un
Les r esultats n ecessaires a la construction du test qui en d ecoule sont r esum es dans la
Source
de
variation
d.d.l.
Somme
Total n 1 SST
de la nullit e des
j sauf pour le premier mod ele qui doit tester l' egalit e au lieu de la nullit e
de comparaison des moyennes de deux echantillons ind ependants. Si l'hypoth ese nulle est
rejet ee, la question suivante consiste a rechercher quelles sont les groupes ou cellules qui
importante du mod ele induit par l'analyse de variance est l'homog en eit e des variances de
8 Analyse de covariance
L'analyse de covariance se situe encore dans le cadre g en eral du mod ele lin eaire et o u
une variable quantitative est expliqu ee par plusieurs variables a la fois quantitatives et
qualitatives. Dans les cas les plus complexes, ont peut avoir plusieurs facteurs (variables
qualitatives) avec une structure crois ee ou hi erarchique ainsi que plusieurs variables quantitatives
intervenant de mani ere lin eaire ou polyn^omiale. Le principe g en eral, dans un but
explicatif ou d ecisionnel, est toujours d'estimer des mod eles \intra-groupes" et de faire
Ainsi, dans le cas plus simple o u seulement une variable parmi les explicatives est quantitative,
nous sommes amen es a tester l'h et erog en eit e des constantes et celle des pentes
(interaction) entre di
erents mod eles de r egression lin eaire.
Ce type de mod ele permet donc, toujours avec un objectif pr edictif, de s'int eresser a
Le mod ele est explicit e dans le cas el ementaire o u une variable quantitative Y est
expliqu ee par une variable qualitative T a J niveaux et une variable quantitative, appel ee
PJ
En pratique, avant de lancer une proc edure de mod elisation et tests, une d emarche
exploratoire s'appuyant sur une repr esentation en couleur (une par modalit e j de T) du
nuage de points croisant Y et X et associant les droites de r egression permet de se faire une
8. Analyse de covariance 35
id ee sur les e
ets respectifs des variables : parall elisme des droites, etirement, imbrication
des sous-nuages.
On suppose que les moyennes conditionnelles E[Y jT], c'est- a-dire calcul ees a l'int erieur
de chaque cellule, sont dans le sous-espace vectoriel engendr e par les variables explicatives
yij =
0j +
1jxij + "ij ; j = 1; : : : ; J; i = 1; ; nj
o u les "ij sont i.i.d. suivant une loi centr ee de variance 2 qui sera suppos ee N(0; 2) pour
vecteur [xij ji = 1; nj; j = 1; J]0, " = ["ij ji = 1; nj ; j = 1; J]0 le vecteur des erreurs, 1j les
variables indicatrices des niveaux et 1 la colonne de 1s. On note encore x:1j le produit
terme a terme des deux vecteurs, c'est- a-dire le vecteur contenant les observations de X
La r esolution simultan ee des J mod eles de r egression est alors obtenue en consid erant
y=X
+"
dans lequel X est la matrice n 2J constitu ee des blocs [1j jx:1j ] ; j = 1; : : : ; J. L'estimation
de ce mod ele global conduit, par bloc, a estimer les mod eles de r egression dans chacune
des cellules.
Comme pour l'analyse de variance, les logiciels op erent une reparam etrisation faisant
ou par rapport a un e
et moyen (Systat), a
n d'obtenir directement les bonnes hypoth eses
dans les tests. Ainsi, dans le premier cas, on consid ere la matrice de m^eme rang (sans la
J eme indicatrice)
yij =
0J + (
0j
0J ) +
1Jxij + (
1j
1J )xij + "ij ; j = 1; : : : ; J 1; i = 1; : : : ; nj :
8.2 Tests
Di
erentes hypoth eses sont alors test ees en comparant le mod ele complet
y=
0J1 + (
01
0J )11 + +(
0J1
0J )1J1 +
1Jx +
+(
11
1J )x:11 + +(
1J1
1J )x:1J1 + "
(i) y =
0J1 + (
01
0J )11 + +(
0J1
0J )1J1 +
1Jx + "
(ii) y =
0J1 + (
01
0J )11 + +(
0J1
0J )1J1 +
+(
1j
1J )x:11 + +(
1J1
1J )x:1J1 + "
(iii) y =
0J1 +
1Jx + (
1j
1J )x:11 + +(
1J1
1J )x:1J1 + "
par un test de Fisher. Ceci revient a consid erer les hypoth eses suivantes :
Hi0
: pas d'interaction,
11 = =
1J , les droites partagent la m^eme pente
1J ,
Hii
0:
1J=0,
Hiii
0:
01 = =
0J , les droites partagent la m^eme constante a l'origine
0J .
des mod eles beaucoup plus complexes incluant plusieurs facteurs, plusieurs variables quantitatives,
voire des polyn^omes de celles-ci, ainsi que les diverses interactions entre qualitatives
et quantitatives. Le choix du \bon" mod ele devient vite complexe d'autant que la
strat egie d epend, comme pour la r egression lin eaire multiple, de l'objectif vis e :
descriptif : des outils multidimensionnels descriptifs (ACP, AFD, AFCM. . . ) s'av erent
souvent plus e
caces pour s electionner, en premi ere approche, un sous-ensemble de
explicatif : de la prudence est requise d'autant que les hypoth eses ne peuvent ^etre
evalu ees de fa con ind ependante surtout si, en plus, des cellules sont d es equilibr ees
ou vides,
des interactions ou e
ets principaux lorsqu'une faible am elioration du R2 le justi
e
est th eoriquement possible mais en g en eral ce crit ere n'est pas calcul e et d'utilisation
d elicate car n ecessite la consid eration d'un \vrai" mod ele de r ef erence ou tout
du moins d'un mod ele de faible biais pour obtenir une estimation raisonnable de
8.4 Exemple
Les donn ees, extraites de Jobson (1991), sont issues d'une etude marketing visant a
etudier l'impact de di
erentes campagnes publicitaires sur les ventes de di
erents aliments.
ainsi que de la constitution de la famille. Chaque semaine, chacune de ces familles ont
rempli un questionnaire d ecrivant les achats r ealis es. Nous nous limitons ici a l' etude de
de t el evision. Quatre villes, une par campagne publicitaire, ont et e choisies dans cinq
di
erentes r egions g eographiques. Les consommations en lait par chacune des six familles
par ville alors et e mesur ees (en dollars) apr es deux mois de campagne.
Les donn ees se pr esentent sous la forme d'un tableau a 6 variables : la r egion g eographique,
de la famille. Cette situation est celle classique d'un mod ele d'analyse de variance. Nous
choisissons ici de conserver quantitative la variable taille de la famille et donc de mod eliser
8. Analyse de covariance 37
la consommation de lait par un mod ele d'analyse de covariance plus economique en degr es
On s'int eresse a di
erents mod eles de r egression visant a expliquer la consommation
class pub;
run;
a l'absence d'in
signi
cativement di
erentes.
r egion :
by region;
class pub;
run;
Il appara^ t alors qu' a l'int erieur de chaque r egion (sauf r egion 5), les campagnes de
publicit e ont un e
et tant sur la constante que sur la pente.
et encourage a toujours conserver le facteur bloc (ici la r egion) dans une analyse de variance.
Une approche compl ete, consid erant a priori toutes les variables (3 facteurs), est
9. Introduction 39
9 Introduction
constitu es d'e
ectifs comme, par exemple, le nombre de succ es d'une variable de Bernouilli
lors d'une s equence d'essais. Nous laissons de cot e le mod ele log-lin eaire (voir Agresti (1990)
pour un expos e d etaill e) qui vise a expliquer un nombre d'individus prenant une combinaison
aux mod eles du chapitre pr ec edent bas es sur l'hypoth ese de normalit e des observations, les
lois concern ees sont discr etes et associ ees a des d enombrements : loi de Poisson, binomiale,
multinomiale. N eanmoins, tous ces mod eles appartiennent a la famille du mod ele lin eaire
et dont la strat egie de mise en uvre, similaire au cas gaussien, n'est pas reprise.
Une variable
Soit Y une variable qualitative a J modalit es. On d esigne la chance ou l'odds2 de voir
jk =
o u j est la probabilit e d'apparition de la j eme modalit e. Cette quantit e est estim ee par
et suit une loi de Bernouilli de param etre , l'odds est le rapport =(1 ) qui exprime
Table de contingence
On consid ere maintenant une table de contingence 2 2 croisant deux variables qualitatives
binaires X1 et X2. les param etres de la loi conjointe se mettent dans une matrice :
11 12
21 22
o u ij = P[fX1 = ig et fX2 = jg] est la probabilit e d'occurence de chaque combinaison.
Dans la ligne 1, l'odds que la colonne 1 soit prise plut^ot que la colonne 2 est :
1=
11
12
Dans la ligne 2, l'odds que la colonne 1 soit prise plut^ot que la colonne 2 est :
2=
21
22
11 22
12 21
Ce rapport prend la valeur 1 si les variables sont ind ependantes, il est sup erieur a 1 si les
sujets de la ligne 1 ont plus de chances de prendre la premi ere colonne que les sujets de la
abcd =
ac bd
ad bc
abcd =
nacnbd
nadnbc
11 R egression logistique
d'une entreprise, bon ou mauvais client. . . . Les mod eles de r egression pr ec edents adapt es
ou plut^ot une transformation de celles-ci, par l'observation conjointe des variables explicatives.
L'id ee est en e
et de faire intervenir une fonction r eelle monotone g op erant de
g( i) = x0
i
:
Il existe de nombreuses fonctions, dont le graphe pr esente une forme sigmo• dale et qui
sont candidates pour remplir ce r^ole, trois sont pratiquement disponibles dans les logiciels :
probit : g est alors la fonction inverse de la fonction de r epartition d'une loi normale,
log-log avec g d e
nie par
g( ) = ln[ln(1 )]
logit est d e
nie par
g( ) = logit( ) = ln
1
avec g1(x) =
ex
1 + ex :
Plusieurs raisons, tant th eoriques que pratiques, font pr ef erer cette derni ere solution.
Le rapport =(1 ), qui exprime une \cote", est l'odds et la r egression logistique s'interpr
ete donc comme la recherche d'une mod elisation lin eaire du \log odds" tandis que
les coe
cients de certains mod eles expriment des \odds ratio" c'est- a-dire l'in
uence d'un
facteur qualitatif sur le risque (ou la chance) d'un echec (d'un succ es) de Z.
Des compl ements concernant l'explication d'une variable qualitative ordinale (plusieurs
; : : : ; xq
X1; : : : ;Xq. Ces derni eres pouvant ^etre des variables quantitatives ou encore des
Pour chaque groupe, c'est- a-dire pour chacune des combinaisons de valeurs ou facteurs,
on r ealise ni observations (n =
PI
y1=n1; : : : ; yI=nI o u yi d esigne le nombre de \succ es" observ es lors des ni essais. On suppose
que toutes les observations sont ind ependantes et qu' a l'int erieur d'un m^eme groupe, la
E(Yi) = ni i suit une loi binomiale B(ni; i) dont la fonction de densit e s' ecrit :
P(Y = yi) =
ni
yi
yi
i (1 i)(niyi):
On suppose que le vecteur des fonctions logit des probabilit es i appartient au sousespace
logit( i) = x0
i
i = 1; : : : ; I
i=
ex0
i
1 + ex0
i
i = 1; : : : ; I:
Le vecteur des param etres est estim e par maximisation de la log-vraisemblance. Il n'y a
pas de solution analytique, celle-ci est obtenue par des m ethodes num eriques it eratives (par
exemple Newton Raphson) dont certaines reviennent a it erer des estimations de mod eles
de r egression par moindres carr es g en eralis es avec des poids et des m etriques adapt es a
chaque it eration.
b i=
ex0
1 + ex0
byi = nib i:
Remarques
r egles que celles utilis ees dans le cadre de l'analyse de covariance mixant variables
explicatives quantitatives et qualitatives. Ainsi, les logiciels g erent avec plus ou moins
de clart e le choix des variables indicatrices et donc des param etres estimables ou
ii. La situation d ecrite pr ec edemment correspond a l'observation de donn ees group ees.
Dans de nombreuses situations concr etes et souvent d es qu'il y a des variables explicatives
a
xer ni = 1; i = 1; : : : ; I dans les expressions pr ec edentes et la loi de Bernouilli
remplace la loi binomiale. Certaines m ethodes ne sont alors plus applicables et les
Principalement deux crit eres (test du rapport de vraisemblance et test deWald, cf.bibliographie),
sont utilis es de fa con analogue au test de Fisher du mod ele lin eaire gaussien. Ils permettent
de comparer un mod ele avec un sous-mod ele et d' evaluer l'int er^et de la pr esence des termes
compl ementaires. On suit ainsi une strat egie descendante a partir du mod ele complet.
de Wald. Les tests pr esentent une structure hi erarchis ee. SAS facilite cette recherche en
produisant une d ecomposition (Type III) de ces indices permettant de comparer chacun
des sous-mod eles excluant un des termes avec le mod ele les incluant tous.
Attention, du fait de l'utilisation d'une transformation non lin eaire (logit), m^eme si
des facteurs sont orthogonaux, aucune propri et e d'orthogonalit e ne peut ^etre prise en
compte pour l' etude des hypoth eses. Ceci impose l' elimination des termes un par un et la
r e-estimation du mod ele. D'autre part, un terme principal ne peut ^etre supprim e que s'il
l'AIC pour
naliser le choix pour une meilleure qualit e pr edictive.
13 Exemples
On etudie l'in
el ementaire repr esentant les modalit es de Y dans les coordonn ees de X1 X2 est toujours
instructif. Il montre une s eparation raisonnable et de bon augure des deux nuages de
composantes principales s'impose. Les formes des nuages repr esent es, ainsi que l'allure des
distributions ( etudi ees pr ealablement), incitent dans ce cas a consid erer par la suite les
logarithmes des variables. Une variable un ne contenant que des \1" d enombrant le nombre
d'essais est n ecessaire dans la syntaxe de genmod. Les donn ees sont en e
et non group ees.
13. Exemples 43
DILAT01
DEBIT
VOLUME
01234
Fig. 2.4 { Nuage des modalit es de Y dans les coordonn ees des variables explicatives.
run;
run;
Intercept
Intercept and
Cette proc edure fournit des crit eres de choix de mod ele dont la d eviance (1), le vecteur
b des param etres (2) et les statistiques des tests (3) comparant le mod ele excluant un terme
par rapport au mod ele complet tel qu'il est d ecrit dans la commande.
(3) Statistique de Pearson, voisine de la d eviance, comparant le mod ele au mod ele satur e .
(6) Estimation du param etre d' echelle si la quasi-vraisemblance est utilis ee.
Plusieurs strat egies peuvent ^etre mises en uvre sur les donn ees bancaires. Les premi eres
mod ele a l'aide de la proc edure logistic en association avec l'un des trois algorithmes
de s election.
run;
pour un taux de mal class es de 15,4%. Par s election ou pas a pas, la m^eme solution
est propos ee avec 12 variables pour un taux de 15,6%. Attention, ces taux, calcul es sur
l' echantillon ayant servi a estimer les param etres, sont n ecessairement trop optimistes.
moins d'utiliser SAS Enterprise Miner, la prise en compte des variables qualitatives
n ecessitent une proc edure de choix de mod ele manuelle. Le module SAS/INSIGHT est
alors le plus e
cace pour r ealiser une approche descendante avant de r eestimer le mod ele
run;
data prev ;
run;
Les r esultats semblent alors bien meilleurs mais il faut rester prudent quant a la
YVAR1(CARVPR) PREDY
13. Exemples 45
Frequency|
Percent | 0| 1| Total
---------+--------+--------+
0 | 659 | 53 | 712
---------+--------+--------+
1 | 70 | 287 | 357
---------+--------+--------+
Chapitre 3
Erreur de pr ediction
1 Introduction
La performance du mod ele issu d'une m ethode d'apprentissage s' evalue par sa capacit
importante puisque, d'une part, elle permet d'op erer une s election de mod ele dans une
famille associ ee a la m ethode d'apprentissage utilis ee et, d'autre part, elle guide le choix
de la m ethode en comparant chacun des mod eles optimis es a l' etape pr ec edente. En
n, elle
sans le secours de mod eles probabilistes, c'est le cas, par principe, du data mining, trois
. Le choix d epend de plusieurs facteurs dont la taille de l' echantillon initial, la complexit e
du mod ele envisag e, la variance de l'erreur, la complexit e des algorithmes c'est- a-dire le
central de la mise en place de la strat egie du data mining telle qu'elle est d ecrite dans
2 Erreur de pr ediction
2.1 D e
nition
Y = -(X) + "
le mod ele a estimer avec E(") = 0;Var(") = 2 et " ind ependant de X ; X, comme chacun
47
Q(y; by) = (y by)2, mais utilise parfois la valeur absolue : Q(y; by) = jy byj. Cette derni ere
a l'avantage d'^etre plus robuste, car moins sensible aux valeurs extr^emes, mais n ecessite
Si Y est qualitative Q est une indicatrice de mal class e : Q(y; by) = 1fy6=byg.
Dans le cas quantitatif, l'estimation du mod ele par minimisation de EP revient a une
l' echantillon) tandis que, dans la cas qualitatif, c'est la classe la plus probable d esign ee
2.2 D ecomposition
un point x0.
= 2 + Biais2 + Variance:
Tr es g en eralement, plus un mod ele (la famille des fonctions - admissibles) est complexe,
plus il est
exible et peu s'ajuster aux donn ees observ ees et donc plus le biais est r eduit. En
revanche, la partie variance augmente avec le nombre de param etres a estimer et donc avec
comme par exemple en r egression ridge pour r eduire plus favorablement la variance.
2.3 Estimation
Le premier type d'estimation a consid erer exprime la qualit e d'ajustement du mod ele
sur l' echantillon observ e. C'est justement, dans le cas quantitatif, ce crit ere qui est minimis e
dans la recherche de moindres carr es. Ce ne peut ^etre qu'une estimation biais ee, car trop
optimiste, de l'erreur de pr ediction ; elle est li ee aux donn ees qui ont servi a l'ajustement
du mod ele et est d'autant plus faible que le mod ele est complexe. Cette estimation ne
cEP =
Xn
i=1
Q(yi; b-(xi)):
1Plusieurs d ecompositions concurentes ont et e propos ees dans le cas qualitatif mais leur
explicitation
C'est simplement le taux de mal class es dans le cas qualitatif. Des crit eres de risque plus
sophistiqu es sont envisag es dans un contexte bay esien si des probabilit es a priori sont
connues sur les classes ou encore des co^uts de mauvais classement (cf. chapitre 4).
La fa con la plus simple d'estimer sans biais l'erreur de pr ediction consiste a calculer
cEP sur un echantillon ind ependant n'ayant pas particip e a l'estimation du mod ele. Ceci
n ecessite donc d' eclater l' echantillon en trois parties respectivement appel ees apprentissage,
validation et test :
iii. cEP (zTest) est utilis ee pour comparer entre eux les meilleurs mod eles de chacune des
Cette solution n'est acceptable que si la taille de l' echantillon initiale est importante sinon :
la variance de l'estimation de l'erreur peut ^etre importante et ne peut ^etre estim ee.
est bas ee sur un autre type d'estimation de l'erreur de pr ediction faisant appel soit a une
qui est l'estimation par resubstitution ou taux d'erreur apparent plus le biais par abus
d'optimisme. Il s'agit donc d'estimer cette optimisme pour apporter une correction et
ainsi une meilleure estimation de l'erreur recherch ee. cette correction peut prendre plusieurs
variance de l'erreur ou c'est encore une p enalisation associ ee a la complexit e du mod ele.
Les estimateurs d e
nis ci-dessous sont pour la plupart historiquement issus du mod ele
classique de r egression multiple pour lequel il existe de nombreuses r ef erences mais ont et e
libert es a des situations o u le nombre de param etres du mod ele n'est pas explicite.
Le Cp de Mallows fut, historiquement, le premier crit ere visant a une meilleure estimation
de l'erreur de pr ediction que la seule consid eration de l'erreur d'ajustement (ou le R2)
dans le mod ele lin eaire. Son expression est d etaill ee dans le cas de la r egression lin eaire
chapitre 2 sous l'hypoth ese que le mod ele complet a p variables est le "vrai" mod ele. On
Cp = cEP + 2
s2
o u d est le nombre de param etres du mod eles, n le nombre d'observations, s2 une estimation
de la variance de l'erreur par un mod ele de faible biais. Le crit ere d'information
d'Aka• ke (AIC) se pr esente sous une forme similaire mais plus g en erale. Bas e sur un
AIC = 2L + 2
Il suppose que la famille de densit es consid er ees pour mod eliser la loi de Y contient la
\vraie" densit e. Dans le cas gaussien en supposant la variance connue, moindres carr es et
d eviance coincident, AIC est equivalent au Cp. Il est facile de choisir le mod ele pr esentant
le plus faible AIC parmi ceux consid er es ce qui revient globalement a minimiser un crit ere
Pour les mod eles non-lin eaires ou plus complexes (non-param etriques), le nombre q de
AIC(
) = cEP (xAppr) + 2
p(
)
s2:
Les mod eles lin eaires se mettent sous une forme : by = Hy, incluant les m ethodes de
d(H) = tr(H). C'est encore q, le rang de X c'est- a-dire le nombre vecteurs de base (le
Une argumentation de type bay esienne conduit a un autre crit ere BIC (Bayesian information
BIC = L + log(n)d:
On montre, dans le cas gaussien et en supposant la variance connue que BIC est proportionnel
a AIC avec le facteur 2 remplac e par log n. Ainsi, d es que n > e2 7; 4, BIC tend
a p enaliser plus lourdement les mod eles complexes. Asymptotiquement, on montre que la
probabilit e pour BIC de choisir le bon mod ele tend vers 1 lorsque n tend vers l'in
ni. Ce
n'est pas le cas d'AIC qui tend alors a choisir des mod eles trop complexes. N eanmoins a
taille
ni, BIC risque de se limiter a des mod eles trop simples.
( a compl eter)
estimer une erreur moyennant un surplus de calcul. L'id ee est d'it erer l'estimation de
l'erreur sur plusieurs echantillons de validation puis d'en calculer la moyenne. C'est rapidement
l' echantillon initial est trop r eduite pour en extraire un echantillon de validation ou test
de taille su
sante.
r ep eter K fois l'op eration qui consiste a mettre de c^ot e l'une des partie, estimer le
mod ele sur les K1 parties restantes, calculer l'erreur sur chacune des observations
moyenner toutes ces erreurs pour aboutir a l'estimation par validation crois ee.
Plus pr ecis ement, soit : f1; : : : ; ng 7! f1; : : : ;Kg la fonction d'indexation qui,pour
dECV =
Xn
i=1
o u b-(k) d esigne l'estimation de - sans prendre en compte la ki eme partie de l' echantillon.
Le choix K = 10 est le plus courant, c'est souvent celui par d efaut des logiciels (Splus).
cross validation). Ce dernier choix n'est possible que pour n relativement petit a cause
du volume des calculs n ecessaires et l'estimation de l'erreur pr esente une variance souvent
importante car chacun des mod eles estim es est trop similaire au mod ele estim e avec toutes
les observations. En revanche, si K est petit (i.e. K = 5), la variance sera plus faible mais le
biais devient un probl eme d ependant de la fa con dont la qualit e de l'estimation se d egrade
Minimiser l'erreur estim ee par validation crois ee est une approche largement utilis ee
pour optimiser le choix d'un mod ele au sein d'une famille param etr ee. b- est d e
ni par
4.2 Bootstrap
Cette section plus technique d ecrit des outils encore peu pr esents dans les logiciels
Introduction
L'id ee, d'approcher par simulation (Monte Carlo) la distribution d'un estimateur lorsque
l'on ne conna^ t pas la loi de l' echantillon ou, plus souvent, lorsque l'on ne peut pas supposer
distribution empirique Fn qui donne un poids 1=n a chaque r ealisation. Ainsi on obtient
Il est facile de construire un grand nombre d' echantillons bootstrap (i.e. B = 100)
sur lesquels calculer l'estimateur concern e. La loi simul ee de cet estimateur est une approximation
grand) de l'estimateur sans hypoth ese (normalit e) sur la vraie loi. Les grands principes de
Estimateur na• f
z = f(x 1
;y
1); : : : ; (x
n; y n
)g:
L'estimateur plug-in de l'erreur de pr ediction EP (z; F), pour lequel la distribution F est
EP (z ; b F) =
i=1
nQ(yi; -z (xi))
"
i=1
nQ(yi; -z (xi))
d EBoot =
XB
b=1
i=1
nQ(yi; -z b (xi)):
L'estimation ainsi construite de l'erreur de pr ediction est g en eralement biais ee par optimisme
car, au gr e des simulations, les m^emes observations (xi; yi) apparaissent a la fois
dans l'estimation du mod ele et dans celle de l'erreur. D'autres approches visent a corriger
ce biais.
Estimateur out-of-bag
La premi ere s'inspire simplement de la validation crois ee. Elle consid ere d'une part les
observations tir ees dans l' echantillon bootstrap et, d'autre part, celles qui sont laiss ees de
2 Echantillon ind ependant de m^eme loi et estimateur ind ependant de l'ordre des observations.
c^ot e pour l'estimation du mod ele mais retenue pour l'estimation de l'erreur.
dEoob =
Xn
i=1
Bi
b2Ki
Q(yi; -z b (xi))
o u Ki est l'ensemble des indices b des echantillons bootstrap ne contenant pas la i eme
^etre su
samment grand pour que toute observation n'ait pas et e tir ee au moins une fois
L'estimation dEoob r esout le probl eme d'un biais optimiste auquel est confront ee d EBoot
mais n' echappe pas au biais introduit pas la r eduction tel qu'il est signal e pour l'estimation
pas validation crois ee dECV. C'est ce qui a conduit Efron et Tibshirani (1997) a proposer
des correctifs.
Estimateur .632-bootstrap
P[xi 2 x b] = 1 (1
)n 1
e 0; 632:
donc la sur evaluation de l'erreur sont analogues a celle de la validation crois ee avec K =
2. A la suite d'un raisonnement trop long pour ^etre reproduit ici, Efron et Tibshirani
4.3 Remarques
ou d'"exp erience" pr eside donc le choix d'une estimation plut^ot qu'une autre.
e. N eanmoins, cet outil joue un r^ole central dans les algorithmes r ecents de combinaison
les m^emes auteurs ont propos e un rectifcatif compl ementaire not e .632+bootstrap.
Ce qu'il faut retenir en conclusion, c'est que l'estimation d'une erreur de pr ediction est
une op eration d elicate aux cons equences importantes. Il est donc n ecessaire
sur le caract ere absolu d'une estimation dans l'objectif d'une certi
cation.
Dans ces deux derni eres situations, le recours a un echantillon test de bonne taille est
di
cilement contournable alors qu'en situation de choix de mod ele au sein d'une m^eme
famille, un estimateur (petit echantillon de validation, validation crois ee) plus economique
est adapt e en supposant implicitement que le biais induit est identique d'un mod ele a
l'autre.
Chapitre 4
Analyse Discriminante
D ecisionnelle
1 Introduction
de taille
l'analyse facorielle discriminante (AFD). Disposant d'un nouvel individu (ou de plusieurs,
c'est la m^eme chose) sur lequel on a observ e les Xj mais pas Y , il s'agit maintenant de
Pour cela, on va d e
nir et etudier dans ce chapitre des r egles de d ecision (ou d'a
ectation)
et donner ensuite les moyens de les evaluer sur un seul individu ; x = (x1; : : : ; xp)
d esigne les observations des variables explicatives sur cet individu, fg`; ` = 1; : : : ;mg les
S = Se + Sr:
Sr = Xr
0DXr =
Xm
`=1
i2
Se = G
DG = X
eDXe =
Xm
`=1
55
D efinition 4.1. | On a
ectera l'individu x a la modalit e de Y minimisant :
d2
S1
(x; g`); ` = 1; : : : ; m:
d2
S1
S1
= (x g`)0S1
r (x g`)
g0`
S1
rx
g0`
S1
r g`:
Il s'agit bien d'une r egle lin eaire en x car elle peut s' ecrire : A`x + b`.
Dans ce cas, la dimension r de l'AFD vaut 1. Il n'y a qu'une seule valeur propre non
g01
S1
rx
1
g01
S1
r g1 > g02
S1
rx
g02
S1
r g2
(g1 g2)0S1
g1 + g2
Remarque
La r egle de d ecision li ee a l'AFD est simple mais elle est limit ee et insu
sante notamment
si les variances des classes ne sont pas identiques. De plus, elle ne tient pas compte de
l' echantillonnage pour x : tous les groupes n'ont pas n ecessairement la m^eme probabilit e
d'occurence.
3.1 Introduction
Dans cette optique, on consid ere que la variable Y , qui indique le groupe d'appartenance
d'un individu, prend ses valeurs dans fT1; : : : ; Tmg et est munie d'une loi de
des classes ou groupes !`. On suppose que les vecteurs x des observations des variables
3.2 D e
nition
lui a
ecte une classe connaissant x. Sa d e
nition d epend du contexte de l' etude et prend
en compte la
On d esigne par c` j k le co^ut du classement dans T` d'un individu de Tk. Le risque de Bayes
R
=
Xm
k=1
Xm
`=1
c` j k
fx j
(x)=T`g
fk(x)dx
o u
fx j
(x)=T`g fk(x)dx repr esente la probabilit e d'a
ect e x a T` alors qu'il est dans Tk.
L'estimation des co^uts n'est pas du ressort de la Statistique et, s'ils ne sont pas connus,
on suppose simplement qu'ils sont tous egaux. La minimisation du risque ou r egle de Bayes
revient alors a a
ecter tout x a la classe la plus probable c'est- a-dire a celle qui maximise
P[T` j x] =
P[T` et x]
P[x]
P[T`]:P [x j T`]
P[x]
Pm
P[x j T`] est la probabilit e d'observer x au sein de la classe T`. Pour une loi discr ete, il
`=1;:::;m
`f`(x):
de divers groupes dans une population, de diverses maladies. . . ; sinon elles sont estim ees
b ` = w` =
n`
a condition qu'il soit bien un echantillon al eatoire susceptible de fournir des estimations
correctes des fr equences. Dans le cas contraire il reste a consid erer tous les ` egaux.
1La mesure de Lebesgues pour des variables r eelles, celle de comptage pour des variables
qualitatives
Dans le cas o u les probabilit es a priori sont egales, c'est par exemple le cas du
choix de probabilit es non informatives, la r egle de d ecision bay esienne revient alors
consiste alors a choisir la classe pour laquelle cette vraisemblance est maximum.
Dans le cas o u m = 2, on a
ecte x a T1 si :
f1(x)
f2(x)
>
limite 2= 1.
d'estimation consid er ees conduisent aux m ethodes classiques de discrimination bay esienne
On suppose dans cette section que, conditionnellement a T`, x = (x1; : : : ; xp) est l'observation
f`(x) =
p2 (det( `))1=2
exp
(x `)0 1
` (x `)
L'a
ectation de x a une classe se fait en maximisant `:f`(x) par rapport a l soit encore
la quantit e :
ln( `)
ln(det( `))
(x `)0 1
` (x `):
Dans le cas g en eral, il n'y a pas d'hypoth ese suppl ementaire sur la loi de x et donc
probabilit es ` sont suppos ees connues mais il est n ecessaire d'estimer les moyennes `
ainsi que les covariances ` en maximisant, compte tenu de l'hypoth ese de normalit e, la
Rl :
Rl =
n` 1
i2
On suppose dans ce cas que les lois de chaque classe partagent la m^eme structure
devient
ln( `)
` 1
` `+ 0
` 1
`x
qui est cette fois lin eaire en x. Les moyennes ` sont estim ees comme pr ec edemment tandis
R=
1
nm
Xm
`=1
i2
Si, de plus, les probabilit es ` sont egales, apr es estimation le crit ere s' ecrit :
x`
0S 1
Rx
x`
0S 1
R x`:
4.3 Commentaire
Les hypoth eses : normalit e, eventuellement l'homosc edasticit e, doivent ^etre v eri
ees
par la connaissance a priori du ph enom ene ou par une etude pr ealable de l' echantillon
5.1 Introduction
fonction par exemple de r egression y = f(x) ou encore une densit e de probabilit e. Dans
estime les param etres, on cherche une estimation b f de la fonction de densit e f. Pour tout
Cette approche tr es souple a l'avantage de ne pas n ecessiter d'hypoth ese particuli ere
revanche elle n'est applicable qu'avec des echantillons de grande taille d'autant plus que
les densit es f`(x). On consid ere ici deux approches : la m ethode du noyau et celle
Estimation de densit e
Soit y1; : : : ; yn n observations equipond er ees d'une v.a.r. continue Y de densit e f inconnue.
Soit K(y) (le noyau) une densit e de probabilit e unidimensionnelle (sans rapport
noyau la fonction
b f(y) =
nh
Xn
i=1
y yi
:
Il est imm ediat de v eri
er que
8y 2 IR; b f(y) 0 et
Z +1
1
b f(y)dy = 1;
h est appel e largeur de fen^etre ou param etre de lissage ; plus h est grand, plus l'estimation
b f de f est r eguli ere. Le noyau K est choisi centr e en 0, unimodal et sym etrique. Les
cas les plus usuels sont la densit e gaussienne, celle uniforme sur [1; 1] ou triangulaire :
La m ethode du noyau est utilis ee pour calculer une estimation non param etrique de
b f`(x) =
n`hp
i2
x xi
Np(0; p) ou uniforme sur la sph ere unit e ou encore par produit de noyaux
unidimensionnels :
K (x) =
Yp
j=1
K(xj):
Retenir les k observations x(1); : : : ; x(k) pour lesquelles ces distances sont les plus
petites.
6. Exemple 61
Compter les nombres de fois k1; : : : ; km que ces k observations apparaissent dans
b f`(x) =
k`
kVk(x)
Pour k = 1, x est a
ect e a la classe du plus proche el ement.
Comme toute technique, celles pr esent ees ci-dessus n ecessitent le r eglage d'un param
choix de mod ele et n ecessite le m^eme type d'approche a savoir l'optiomisation d'un crit ere
Une premi ere etape de traitement des donn ees bancaires permet tout d'abord de
s electionner par elimination un sous-ensemble des variables a l'aide de la proc edure stepdisc.
La variable qualitative sexe est consid er ee comme une variable quantitative (0, 1). Ceci
cod ees num eriquement. Les variables discriminantes n'ont plus gu ere de sens mais, si la
discrimination fonctionne. . .
class carvp;
run;
Les variables ainsi s electionn ees sont utilis ees dans deux algorithmes de discrimination.
Le premier, non-param etrique, utilise les k plus proches voisins tandis que le deuxi eme fait
implicitement l'hypoth ese de normalit e des distributions. dans les deux cas, une pseudo
proc edure de validation crois ee permet d'estimer les taux de mauvais classement. Il ne
s'agit en e
et pas d'une proc edure de validation crois ee explicite car les matrices de variances
sont calcul ees une fois pour toute et donc d ependent des individus a pr evoir.
class CARVP;
run;
method=NORMAL crossvalidate;
class CARVP;
run;
La valeur de k pourrait ^etre sans doute am elior ee mais il semble que dans ce cas,
l'approche param etrique fasse un peu mieux. La comparaison entre r egression logistique
Chapitre 5
Arbres binaires
1 Introduction
Ce chapitre s'int eresse aux m ethodes ayant pour objectif la construction d'arbres binaires,
des m ethodes statistiques plus classiques : analyse discriminante, r egression lin eaire, les
solutions obtenues sont pr esent ees sous une forme graphique simple a interpr eter, m^eme
bas ees sur un d ecoupage, par des hyperplans, de l'espace engendr e par les variables explicatives.
importants de Breiman et col. (1984) les ont fait conna^ tre sous l'acronyme de CART :
Classi
cation and Regression Tree ou encore de C4.5 (Quinlan, 1993) dans la communaut
\classi
cation") ou quantitative (r egression).
sont tr es calculatoires. Les deux raisons : mod ele graphique de d ecision simple a interpr eter,
requi erent plut^ot moins d'hypoth eses que des m ethodes statistiques classiques et semblent
particuli erement adapt ees au cas o u les variables explicatives sont nombreuses. En e
et,
la proc edure de s election des variables est int egr ee a l'algorithme construisant l'arbre,
d'autre part, les interactions sont prises en compte. N eanmoins, cet algorithme suivant
une strat egie pas a pas hi erarchis ee, il peut, comme dans le cas du choix de mod ele
en r egression, passer a cot e d'un optimum global. Ceci souligne encore l'importance de
2.1 Principe
Les donn ees sont constitu ees de l'observation de p variables quantitatives ou qualitatives
63
@@
@@
Tj T` Tj
Revenu < 10000 Revenu > 10000
Un n ud est d e
ni par le choix conjoint d'une variable parmi les explicatives et
d'une division qui induit une partition en deux classes. Implicitement, a chaque
dichotomie.
i. la d e
nition d'un crit ere permettant de s electionner la \meilleure" division parmi
ii. une r egle permettant de d ecider qu'un n ud est terminal : il devient ainsi une feuille ;
iii. l'a
ectation de chaque feuille a l'une des classes ou a une valeur de la variable a
expliquer.
Le point (ii) est le plus d elicat. Il correspond encore a la recherche d'un mod ele parcimonieux.
Un arbre trop d etaill e, associ e a une surparam etrisation, est instable et donc
de Breiman et col. (1984) est justement une strat egie de recherche d'arbre optimal.
Elle consiste a
ii. ordonner les sous-arbres selon une s equence embo^ t ee suivant la d ecroissance d'un
iii. puis a s electionner le sous-arbre optimal ; c'est la proc edure d' elagage.
Une division est dite admissible si aucun des deux n uds descendants qui en d ecoulent
n'est vide. Si la variable explicative est qualitative ordinale avec m modalit es, elle fournit
(m1) divisions binaires admissibles. Si elle est seulement nominale le nombre de divisions
d esordre explicit ee dans la section suivante. L'objectif etant de partager les individus en
deux groupes les plus homog enes au sens de la variable a expliquer. L'h et erog en eit e d'un
i. nulle si, et seulement si, le n ud est homog ene : tous les individus appartiennent a
La division du n ud k cr ee deux
ls, gauche et droit. Pour simpli
er, ils sont not es
Parmi toutes les divisions admissibles du n ud k, l'algorithme retient celle qui rend
max
Dk (D(k+1) + D(k+2))
lorsqu'il est homog ene c'est- a-dire lorsqu'il n'existe plus de partition admissible ou, pour
2.4 A
ectation
Dans le cas Y quantitative, a chaque feuille est associ ee une valeur : la moyenne des
observations associ ees a cette feuille. Dans le cas qualitatif, chaque feuille ou n ud terminal
est a
ect e a une classe T` de Y en consid erant le mode conditionnel :
celle la mieux repr esent ee dans le n ud et il est ensuite facile de compter le nombre
sont connues ;
la classe la moins co^uteuse si des co^uts de mauvais classement sont donn es.
3.1 Y quantitative
On consid ere le cas plus g en eral d'une division en J classes. Soit n individus et une
PJ
1; : : : ; nj les individus de la j eme classe. Soit ij (resp.yij) la valeur \th eorique" (resp.
l'observation) de Y sur l'individu (i; j) : le i eme de la j eme classe. L'h et erog en eit e de la
classe j est d e
nie par :
Dj =
Xnj
i=1
( ij :j)2 avec :j =
Xnj
i=1
ij :
D=
XJ
j=1
Dj =
XJ
j=1
Xnj
i=1
( ij :j)2;
c'est l'inertie intra (homog ene a la variance intraclasse) qui vaut D = 0 si et seulement si
La di
erence d'h et erog en eit e entre l'ensemble non partag e et l'ensemble partag e selon
la partition J est
XJ
j=1
Xnj
i=1
( ij ::)2
XJ
j=1
Xnj
i=1
( ij :j)2 o u :: =
XJ
j=1
Xnj
i=1
ij :
XJ
j=1
nj( :: :j)2;
c'est encore homog ene a la variance inter classe ou \d esordre" des barycentres qui vaut
L'objectif, a chaque etape, est de maximiser c'est- a-dire de trouver la variable induisant
Dj par cDj =
Xnj
i=1
D par bD=
XJ
j=1
cDj =
XJ
j=1
Xnj
i=1
la log-vraisemblance
log L = Cste
2
log( 2)
2 2
XJ
j=1
Xnj
i=1
(yij :j)2
L = sup
log L = Cste
log( 2)
2 2
XJ
j=1
Xnj
i=1
(yij y:j)2:
Pour le mod ele satur e (une classe par individu) : yij = ij + uij , cet optimum devient :
Ls = sup
log L = Cste
log( 2):
Le ra
nement de l'arbre est donc associ e a une d ecroissance, la plus rapide possible, de la
d eviance. C'est l'optique retenue dans le logiciel Splus. On peut encore dire que la division
retenue est celle qui rend le test de Fisher (analyse de variance), comparant les moyennes
3.2 Y qualitative
Dans ce cas, la fonction d'h et erog en eit e, ou de d esordre d'un n ud, est d e
nie a partir
de test du 2. En pratique, il s'av ere que le choix du crit ere importe moins que celui du
niveau d' elagage. Le premier crit ere (entropie) est souvent pr ef er e (Splus) car il s'interpr ete
encore comme un terme de d eviance mais d'un mod ele multinomial cette fois.
num erot ees ` = 1; : : : ;m. L'arbre induit une partition pour laquelle n+k d esigne l'e
ectif
Xm
`=1
p`k = 1
0 log(0) = 0. :
Dk = 2
Xm
`=1
n+kp`k log(p`k)
D=
XK
k=1
Dk = 2
XK
k=1
Xm
`=1
n+kp`k log(p`k):
Cette quantit e est positive ou nulle, elle est nulle si et seulement si les probabilit es p`k ne
prennent que des valeurs 0 sauf une egale a 1 correspondant a l'absence de m elange.
Pm
`=1 n`k.
Dk parcDk = 2
Xm
`=1
n+k
n`k
n+k
log
n`k
n+k
(3)
D par bD
XK
k=1
cDk = 2
XK
k=1
Xm
`=1
n`k log
n`k
n+k
: (4)
Consid erons, pour chaque classe ou n ud k, un mod ele multinomial a m cat egories de
param etre :
Xm
`=1
p`k = 1:
log L = Cste +
XK
k=1
Xm
`=1
n`k log(p`k)
p`k
log L = Cste +
XK
k=1
Xm
`=1
n`k log
n`k
n+k
Pour le mod ele satur e (une cat egorie par objet), cet optimum prend la valeur de la
D = 2
XK
k=1
Xm
`=1
n`k log
n`k
n+k
= bD
d e
nies par la r egle de Bayes lorsque les probabilit es a priori ` d'appartenance a la
` eme classe sont connues. Dans le cas contraire, les probabilit es de chaque classe sont
estim ees sur l' echantillon et donc les probabilit es conditionnelles s'estiment simplement
d'introduire, lorsqu'ils sont connus, des co^uts de mauvais classement et donc de se ramener
4 Elagage
Dans des situations complexes, la d emarche propos ee conduit a des arbres extr^emement
ra
n es et donc a des mod eles de pr evision tr es instables car fortement d ependants des
echantillons qui ont permis leur estimation. On se trouve donc dans une situation de surajustement
a eviter au pro
t de mod eles plus parcimonieux donc plus robuste au moment
de la pr evision. Cet objectif est obtenu par une proc edure d' elagage (pruning) de l'arbre.
une suite embo^ t ee de sous-arbres de l'arbre maximum par elagage successif puis a choisir,
parmi cette suite, l'arbre optimal au sens d'un crit ere. La solution ainsi obtenue par un
algorithme pas a pas n'est pas n ecessairement globalement optimale mais l'e
cacit e et la
abilit e sont pr ef er ees a l'optimalit e.
4. Elagage 69
Fig. 5.2 { Carte Visa : choix du nombre de feuilles par echantillon de validation (SEM,
2001).
Fig. 5.3 { Carte Visa : arbre de d ecision elagu e suivant l' echantillon de validation(SEM,
2001).
moyrvq:M0,M1
moyrvq:M2
296/869
Cnon
pcspq:Pcad,Pint
pcspq:Pemp,Pouv,Psan
98/581
Cnon
dmvtpq:D1
dmvtpq:D0,D2
71/199
Cnon
3/72
Cnon
sexeq:Sfem
sexeq:Shom
59/127
Coui
6/34
Cnon
relatq:r0
relatq:R2,r1
31/93
Coui
11/54
Coui
moyrvq:M0
moyrvq:M1
19/39
Cnon
3/17
Cnon
6/22
Coui
uemnbq:U0,U1
uemnbq:U2
27/382
Cnon
9/266
Cnon
dmvtpq:D0
dmvtpq:D1,D2
18/116
Cnon
rocnbq:R0
rocnbq:R1
9/19
Coui
1/10
Cnon
0/9
Coui
8/97
Cnon
dmvtpq:D1
dmvtpq:D0,D2
90/288
Coui
17/85
Cnon
22/203
Coui
Fig. 5.4 { Carte Visa : arbre de d ecision (Splus, 1993) elagu e par validation crois ee.
4. Elagage 71
D(A) =
XK
k=1
Dk(A)
complexit e de l'arbre :
C(A) = D(A) +
K:
Pour
AK, celle pour laquelle l'am elioration de D est la plus faible (inf erieure a
), appara^ t
comme super
ue et les deux feuilles obtenues sont regroup ees ( elagu ees) dans le n ud
Amax = AK AK1 A1
class es) en fonction du nombre croissant de feuilles dans l'arbre ou, c'est equivalent, en
graphe pr ec edemment obtenu peut se lire comme un eboulis de valeur propre. Quand
l'am elioration du crit ere est jug e trop petite ou n egligeable, on elague l'arbre au nombre de
feuilles obtenues. L' evaluation de la d eviance ou du taux de mauvais classement estim ee par
resubstitution sur l' echantillon d'apprentissage est biais ee (trop optimiste). Une estimation
sans biais est obtenue par l'utilisation d'un autre echantillon (validation) ou encore par
validation crois ee. La proc edure de validation crois ee pr esente dans ce cas une particularit e
echantillons. L'erreur moyenne n'est pas, dans ce cas, calcul ee pour chaque sous-arbre
avec un nombre de feuilles donn e mais pour chaque sous-arbre correspondant a une valeur
x ee du coe
cient de p enalisation. A la valeur de
de pr evision, correspond ensuite l'arbre jug e optimal dans la s equence estim ee sur tout
Le principe de s election d'un arbre optimal est donc d ecrit dans l'algorithme ci-dessous.
Estimation sans biais ( echantillon de validation ou validation crois ee) des d eviances
D(AK); : : : ;D(A1).
Chapitre 6
M ethodes connexionistes
1 Historique
Nous nous int eressons ici a une branche de l'Informatique fondamentale qui, sous
cerveau humain. Les premi eres tentatives de mod elisation du cerveau sont anciennes et
pr ec edent m^eme l' ere informatique. C'est en 1943 que Mc Culloch (neurophysiologiste)
et Pitts (logicien) ont propos e les premi eres notions de neurone formel. Ce concept fut
ensuite mis en r eseau avec une couche d'entr ee et une sortie par Rosenblatt en 1959 pour
simuler le fonctionnement r etinien et tacher de reconna^ tre des formes. C'est l'origine du
perceptron. Cette approche dite connexioniste a atteint ses limites technologiques, compte
tenu de la puissance de calcul de l' epoque, mais aussi th eoriques au d ebut des ann ees 70.
symbolique ou s equentielle qui promouvait les syst emes experts a connaissance localis ee.
concepts :
une base de connaissance dans laquelle etaient regroup ees \toutes" les connaissances
d'experts humains sous forme de propositions logiques el ementaires ou plus elabor ees
une base de faits contenant les observations du cas a traiter comme, par exemple, des
r esultats d'examens, d'analyses de sang, de salive pour des applications biom edicales
un moteur d'inf erence charg e d'appliquer les r egles expertes sur la base de faits a
n
d'en d eduire de nouveaux faits jusqu' a la r ealisation d'un objectif comme l' elaboration
Face aux di
cult es rencontr ees lors de la mod elisation des connaissances d'un expert
humain, au volume consid erable des bases de connaissance qui en d ecoulait et au caract ere
exponentiel de la complexit e des algorithmes d'inf erence mis en jeu, cette approche s'est
des pr edicats du premier ordre, on a pu montrer qu'ils conduisaient a des probl emes NP
complets et donc dont la solution pouvait ^etre atteinte mais pas n ecessairement en un
temps
ni !
73
jf
x1
x2 QsQ PPPq
xj -
...
xp
-y
analogie de la phase d'apprentissage avec les mod eles markoviens de syst emes de
au d ebut des ann ees 80 ont permis de relancer l'approche connexioniste. Celle-ci a connu
au d ebut des ann ees 90 un d eveloppement consid erable si l'on consid ere le nombre de
publications et de congr es qui lui ont et e consacr es mais aussi les domaines d'applications
tr es divers o u elle appara^ t. Sur de nombreux objectifs, justement ceux propres au data
mining, les r eseaux neuronaux ne rentrent pas n ecessairement en concurrence avec des
m ethodes statistiques bient^ot centenaires mais apportent un point de vue compl ementaire
2 R eseaux de neurones
el ementaires, les neurones formels. Les principaux r eseaux se distinguent par l'organisation
du graphe (en couches, complets. . . ), c'est- a-dire leur architecture, son niveau de
complexit e (le nombre de neurones) et par le type des neurones (leurs fonctions de transition).
De fa con tr es r eductrice, un neurone biologique est une cellule qui se caract erise par
musculaires ;
Par analogie, le neurone formel est un mod ele qui se caract erise par un etat interne s 2 S,
s = h(x1; : : : ; xp) = f
@
0+
Xp
j=1
jxj
A:
d'entr ee,
0 etant appel e le biais du neurone. Cette combinaison a
ne est d etermin ee par
3. Perceptron multicouche 75
x1 - HHHHHj
JJ^
x2 - *
HHHHHj
JJ^
...
xj - HHHHHj
*
-
...
xp - *
-
jf
jf
...
jf
jf
@@R-
-y
Fig. 6.2 { Exemple de perceptron multicouche el ementaire avec une couche cach ee et une
couche de sortie.
un vecteur de poids [
0; : : : ;
p] associ e a chaque neurone et dont les valeurs sont estim ees
r eseau.
Les di
erents types de neurones se distinguent par la nature f de leur fonction de
...
Les mod eles lin eaires et sigmo• daux sont bien adapt es aux algorithmes d'apprentissage
di
erentiable. Ce sont les plus utilis es. Le mod ele a seuil est sans doute plus conforme
est utilis e pour des probl emes d'optimisation globale de fonctions perturb ees ou
encore pour les analogies avec les syst emes de particules. On ne le rencontre pas en data
mining.
3 Perceptron multicouche
3.1 Architecture
couche est un ensemble de neurones n'ayant pas de connexion entre eux. Une couche
d'entr ee lit les signaux entrant, un neurone par entr ee xj , une couche en sortie fournit la
r eponse du syst eme. Selon les auteurs, la couche d'entr ee qui n'introduit aucune modi
ca76
tion n'est pas comptablis ee. Une ou plusieurs couches cach ees participent au transfert. Un
neurone d'une couche cach ee est connect e en entr ee a chacun des neurones de la couche
y = F(x1; : : : ; xp;
)
o u
est le vecteur contenant chacun des param etres
jk` de la j eme entr ee du k eme
neurone de la ` eme couche ; la couche d'entr ee (` = 0) n'est pas param etr ee, elle ne fait
que distribuer les entr ees sur tous les neurones de la couche suivante.
Par souci de coh erence, nous avons t^ach e de conserver les m^emes notations a travers
les di
erents chapitres. Ainsi, les entr ees d'un r eseau sont encore not ees x1; : : : ; xp comme
les variables explicatives d'un mod ele tandis que les poids des entr ees sont des param etres
a estimer lors de la proc edure d'apprentissage et que la sortie est la variable a expliquer
3.2 Apprentissage
Supposons que l'on dispose d'une base d'apprentissage de taille n d'observations (x1i
; : : : ; xp
i ; yi)
des variables explicatives X1; : : : ;Xp et de la variable a pr evoir Y . L'apprentissage est l'estimation
b
des param etres du mod ele solutions du probl eme des moindres carr es1 :
b
= arg min
Xn
i=1
[yi F(x1i
; : : : ; xp
i ; (b))]2:
sur l'id ee suivante : en tout point b, le vecteur gradient de Q pointe dans la direction de
bjk`(i) = "jk`(i)
@Q
@bjk`
+
bjk`(i 1):
Le coe
cient de proportionnalit e est appel e le taux d'apprentissage. Il peut ^etre
xe
a d eterminer par l'utilisateur ou encore varier en cours d'ex ecution selon certaines r egles
d ebut pour aller plus vite, ce taux d ecroisse pour aboutir a un r eglage plus
n au fur
de l'erreur fournit, a partir des erreurs observ ees sur les sorties, l'expression de l'erreur
La litt erature sur le sujet propose quantit es de recettes destin ees a am eliorer la vitesse
de convergence de l'algorithme ou bien lui eviter de rester coll e a une solution locale
3. Perceptron multicouche 77
mesure stationnaire) de cet algorithme impliquent une convergence presque s^ure ; la probabilit
Initialisation
{ Les poids bjk` par tirage al eatoire selon une loi uniforme sur [0; 1].
; : : : ; xp
l'avant.
{ Fin Pour
3.3 Utilisation
On pourra se reporter a l'abondante litt erature sur le sujet (Haykin, 1994) pour obtenir
des pr ecisions sur les algorithme d'apprentissage et leurs nombreuses variantes. Il est
les logiciels proposent des valeurs par d efaut, il est fr equent que cet algorithme connaisse
i. les variables d'entr ee et la variable de sortie ; leur faire subir comme pour toutes
ii. L'architecture du r eseau : le nombre de couches cach ees (en g en eral une ou deux)
qui correspond a une aptitude a traiter des probl emes de non-lin earit e, le nombre de
neurones par couche cach ee. Ces deux choix conditionnent directement le nombre de
param etres (de poids) a estimer. Ils participent a la recherche d'un bon compromis
au moins dix fois plus grand que le nombre de param etres a estimer.
iii. Deux autres param etres interviennent egalement sur ce compromis : le nombre maximum
d'it erations et l'erreur maximum tol er ee. En renfor cant ces crit eres on am eliore
iv. Le taux d'apprentissage ainsi qu'une eventuelle strat egie d' evolution de celui-ci.
fonction continue d'un compact de IRP dans IRq peut ^etre approch ee avec une pr ecision
complexit e du mod ele est contr^ol ee par le nombre de neurones ou encore par la dur ee de
78 Chapitre 6. M ethodes connexionistes
l'apprentissage. Ces param etres sont optimis es en consid erant un echantillon de validation
et le plus simple consiste a arr^et e l'apprentissage lorsque l'erreur sur l' echantillon de validation
commence a se d egrader tandis que celle sur l' echantillon d'apprentissage ne peut
d'une s erie temporelle, reconnaissance de forme. . . Ils sont en g en eral bien explicit es dans
uence e
ective d'une entr ee (une
variable) sur le syst eme d es qu'une couche cach ee intervient. N eanmoins, des techniques
de recherche de sensibilit e du syst eme a chacune des entr ees permettent de pr eciser les
En revanche, ils poss edent d'ind eniables qualit es lorsque l'absence de lin earit e et/ou
le nombre de variables explicatives rendent les mod eles statistiques traditionnelles inutilisables.
Leur
exibilit e alli ee a une proc edure d'apprentissage int egrant la pond eration (le
et col. 2001).
Chapitre 7
1 Introduction
Ce chapitre d ecrit des algorithmes plus r ecemment apparus dans la litt erature. Ils
sont bas es sur des strat egies adaptatives (boosting) ou al eatoires (bagging) permettant
d'am eliorer l'ajustement par une combinaison ou agr egation d'un grand nombre de mod eles
tout en evitant un sur-ajustement. Ces algorithmes se sont d evelopp es a la fronti ere entre
montrent leur e
cacit e sur des exemples de donn ees simul ees et surtout pour des probl emes
r eels complexes (voir par exemple Ghattas 2000) tandis que leurs propri et es th eoriques
Deux types d'algorithmes sont d ecrits sch ematiquement dans ce chapitre. Ceux reposants
sur une construction al eatoires d'une famille de mod ele : bagging pour bootstrap
aggregating (Breiman 1996), les for^ets al eatoires (random forests) de Breiman (2001) qui
(CART). Ceux bas es sur le boosting (Freund et Shapiro,1996), reposent sur une
(r egression, CART, r eseaux de neurones) mais n'ont d'int er^et, et r eduisent sensiblement
l'erreur de pr ediction, que dans le cas de mod eles instables, donc plut^ot non lin eaires.
Ainsi, l'utilisation de ces algorithmes n'a gu ere de sens avec la r egression multilin eaire
ou l'analyse discriminante. Ils sont surtout mises en uvre en association avec des arbres
2.1 Bagging
Principe et algorithme
Soit Y une variable a expliquer quantitative ou qualitative, X1; : : : ;Xp les variables
explicatives et -(x) un mod ele fonction de x = fx1; : : : ; xpg 2 IRp. On note n le nombre
79
d'observations et
un echantillon de loi F.
sans biais de variance nulle. Consid erons B echantillons ind ependants not es fzbgb=1;B et
construisons une agr egation des mod eles dans le cas o u la variable a expliquer Y est :
quantitative : b-B(:) = 1
PB
b=1
b-zb (:),
b j b-zb (:) = j
Dans le premier cas, il s'agit d'une simple moyenne des r esultats obtenus pour les mod eles
associ es a chaque echantillon, dans le deuxi eme, un comit e de mod eles est constitu e pour
voter et elire la r eponse la plus probable. Dans ce dernier cas, si le mod ele retourne des
probabilit es associ ees a chaque modalit e comme en r egression logistique ou avec les arbres
de d ecision, il est aussi simple de calculer des moyennes de ces probabilit es.
Le principe est el ementaire, moyenner les pr edictions de plusieurs mod eles ind ependants
Cependant, il n'est pas r ealiste de consid erer B echantillons ind ependants. Cela n ecessiterait
g en eralement trop de donn ees. Ces echantillons sont donc remplac es par B r eplications
d' echantillons bootstrap (cf. Annexe B) obtenus chacun par n tirages avec remise selon la
Soit x0 a pr evoir et
Pour b = 1 a B Faire
PB
b=1
Utilisation
Il est naturel et techniquement facile d'accompagner ce calcul par une estimation bootstrap
out-of-bag (cf. chapitre 3 section 4.2) de l'erreur de pr ediction. Elle est une mesure de
surajustement. C'est, pour eviter un biais, la moyenne des erreurs de pr ediction commises
par chaque estimateur ; chacune des erreurs etant estim ee sur les observations qui n'ont
En pratique, CART est souvent utilis ee comme m ethode de base pour construire une
famille de mod eles c'est- a-dire d'arbres binaires. Trois strat egies d' elagage sont alors possibles
iii. construire a chaque fois l'arbre complet puis l' elaguer par validation crois ee.
La premi ere strat egie semble en pratique un bon compromis entre volume des calculs
variance mais la moyenne des arbres r eduit avantageusement celle-ci. En revanche, l' elagage
par validation crois ee p enalise lourdement les calculs sans gain substantiel de qualit e.
quelque soit la m ethode de mod elisation mise en uvre. Il pose n eanmoins quelques
probl emes :
mod ele
nalement obtenu devient une bo^ te noire comme dans le cas du perceptron.
Algorithme
une am elioration du bagging par l'ajout d'une randomisation. L'objectif est donc
de rendre plus ind ependants les arbres de l'agr egation en ajoutant du hasard dans le
choix des variables qui interviennent dans les mod eles. Cette approche semble plus particuli
lorsque le nombre de variables explicatives p est tr es important. C'est le cas lorsqu'il s'agit,
Soit x0 a pr evoir et
Pour b = 1 a B Faire
{ Estimer un arbre sur cet echantillon avec randomisation des variables selon l'une
ii. Sinon, tirer au hasard q1 3 variables explicatives puis construire q2 \pr edicteurs"
Fin Pour
PB
b=1
Elagage
La strat egie d' elagage peut, dans le cas des for^ets al eatoires, ^etre plus el ementaire
qu'avec le bagging en se limitant a des arbres de taille q relativement r eduite voire m^eme tri82
risquent d'^etre tr es semblables (fortement corr el es) car impliquant les m^emes quelques
variables
apparaissant comme les plus explicatives. La s election al eatoire d'un nombre r eduit
de base est evidemment moins performant mais, l'union faisant la force, l'agr egation
conduit
nalement a de bons r esultats. Le nombre de variables tir ees al eatoirement n'est
pas un param etre sensible un choix par d efaut de q = pp est sugg er e par Breiman (2001).
Comme pour le bagging, l' evaluation it erative de l'erreur out-of-bag pr evient d'un eventuel
L'interpr etation est ensuite facilit ee par le calcul et la repr esentation graphique d'un
indice proportionnel a l'importance de chaque variable dans l'agr egation de mod eles et
plus utile que les variables sont tr es nombreuses. Plusieurs crit eres sont propos es par
Breiman (2001) pour evaluer l'importance de la j eme variable. Ils reposent sur une permutation
al eatoire des valeurs de cette variable. L'un de ces crit eres consiste a calculer la
moyenne sur toutes les observations de la d ecroissance de leur marge lorsque la variable
est al eatoirement perturb ee. La marge est ici la proportion de votes pour la vraie classe
d'une observation moins le maximum des proportions des votes pour les autres classes.
Le boosting di
ere des approches pr ec edentes par ses origines et ses principes. L'id ee
initiale, en apprentissage machine, etait d'am eliorer les comp etences d'un faible classi-
eur c'est- a-dire celle d'un mod ele de discrimination dont la probabilit e de succ es sur la
pr ediction d'une variable qualitative est l eg erement sup erieure a celle d'un choix al eatoire.
l'algorithme original AdaBoost (Adaptative boosting) pour la pr ediction d'une variable binaire.
De nombreuses etudes ont ensuite et e publi ees pour adapter cet algorithme a d'autres
de donn ees (cf. Schapire, 2002) pour une bibliographie). Ces tests ont montr e le r eel int er^et
d'apprentissage.
Le boosting adopte le m^eme principe g en eral que le bagging : construction d'une famille
de mod eles qui sont ensuite agr eg es par une moyenne pond er e des estimations ou un vote.
Il di
ere nettement sur la fa con de construire la famille qui est dans ce cas r ecurrente :
chaque mod ele est une version adaptative du pr ec edent en donnant plus de poids, lors de
l'estimation suivante, aux observations mal ajust ees ou mal pr edites. Intuitivement, cet
que l'agr egation de l'ensemble des mod eles permet d' echapper au sur-ajustement.
la fa con de pond erer c'est- a-dire de renforcer l'importance des observations mal
r eelles ;
la fonction perte, qui peut ^etre choisie plus ou moins robuste aux valeurs atypiques,
la fa con d'agr eger, ou plut^ot pond erer, les mod eles de base successifs.
La litt erature sur le sujet pr esente donc de tr es nombreuses versions de cet algorithme et
il est encore di
cile de dire lesquelles sont les plus e
caces et si une telle diversit e est
bien n ecessaire. Il serait fastidieux de vouloir expliciter toutes les versions, ce chapitre en
version, le mod ele de base retourne l'identit e d'une classe, il est encore nomm e Adaboost
discret. Il est facile de l'adapter a des mod eles retournant une valeur r eelle comme une
Soit x0 a pr evoir et
Pour m = 1 a M Faire
{ Estimer
m sur l' echantillon pond er e par w.
b Ep =
Pn
i=1 wiP1f
m(xi) 6= yig n
i=1 wi
Fin Pour
hPM
m=1 cm
m(x0)
Les poids de chaque observations sont initialis es a 1=n pour l'estimation du premier
mod ele puis evoluent a chaque it eration donc pour chaque nouvelle estimation. L'importance
d'une observation wi est inchang ee si elle est bien class ee, elle cro^ t sinon proP
m=1 cm
m(x0) est une combinaison pond er ee par les qualit es d'ajustement de chaque
Ce type d'algorithme est largement utilis e avec un arbre (CART) comme mod ele de
a deux feuilles (stump), AdaBoost fait mieux qu'un arbre sophistiqu e pour un volume de
calcul comparable : autant de feuilles dans l'arbre que d'it erations dans AdaBoost. Hastie
et col. (2001) discutent la meilleure strat egie d' elagage applicable a chaque mod ele de
base. Ils le comparent avec le niveau d'interaction requis dans un mod ele d'analyse de
nom d'Arcing (adaptively resample and combine), une version al eatoire, et en pratique
impossible d'int egrer une pond eration des observations dans l'estimation. Ainsi plut^ot que
de jouer sur les pond erations, a chaque it eration, un nouvel echantillon est tir e avec remise,
ajuster est ainsi renforc ee pour que le mod ele y consacre plus d'attention. L'algorithme
adaboost pr ec edent est facile a adapter en ce sens en regardant celui d evelopp e ci-dessous
Di
erentes adaptations du boosting ont et e propos ees pour le cas de la r egression,
c'est- a-dire lorsque la variable a pr edire est quantitative. Voici l'algorithme de Drucker
(1997) dans la pr esentation de Gey et Poggi (2002) qui en etudient les performances
empiriques en relation avec CART. Freund et Schapire (1996) ont propos e Adaboost.R
avec le m^eme objectif tandis que le point de vue de Friedman (2002) est d ecrit plus loin
Soit x0 a pr evoir et
Pour m = 1 a M Faire
m suivant p.
m.
lm(i) = Q
yi; b-m(xi)
i = 1; : : : ; n; (Q : fonction perte)
cEm =
Xn
i=1
pilm(i);
wi = g(lm(i))pi: (g continue non d ecroissante)
i=1 wi
Fin Pour
Calculer b-(x0) moyenne ou m ediane des pr evisions b-m(x0) pond er ees par des coef-
cients log( 1
m
).
Pr ecisions :
Dans cet algorithme la fonction perte Q peut ^etre exponentielle, quadratique ou,
plus robuste, la valeur absolue. Le choix usuel de la fonction quadratique est retenu
Notons Lm = supi=1;:::;n lm(i) le maximum de l'erreur observ ee par le mod ele b-m
g(lm(i)) =
1lm(i)=Lm
m (1)
avec
m=
cEm
Lm cEm
: (2)
Selon les auteurs, une condition suppl ementaire est ajout ee a l'algorithme. Il est
arr^et e ou r einitiallis e a des poids uniformes si l'erreur se d egrade trop : si cEm < 0:5Lm.
m dont
le tirage d epend de probabilit es p mises a jour a chaque it eration. Cette mise a jour est
des pr evisions pond er ees par la qualit e respective de chacune de ces pr evisions. Gey et
uence de pr edicteurs tr es
atypiques.
Hastie et col. (2001) expliquent le bon comportement du boosting dans le cas binaire
en le pr esentant sous la forme d'une approximation de la fonction - par un mod ele additif
b-(x) =
MX
m=1
cm
(x;
m)
de r esoudre :
(cm;
m) = arg min
(c;
Xn
i=1
Q(yi; b-m1(xi) + c
(xi;
));
b-m(x) = b-m1(x) + cm
(x;
Dans le cas d'adaboost pour l'ajustement d'une fonction binaire, la fonction perte
(cm;
m) = arg min
(c;
Xn
i=1
exp
yi b-m1(xi) + c
(xi;
= arg min
(c;
Xn
i=1
wm
i exp [cyi
(xi;
)]
wi ne d ependant ni de c ni de
m = arg min
Xn
i=1
1fyi 6=
(xi;
)g;
cm =
log
1 b Ep
Ep
avec b Ep erreur apparente de pr ediction tandis que les wi sont mis a jour avec :
w(m)
i = w(m1)
i exp[cm]:
On montre ainsi qu'adaboost approche - pas a pas par un mod ele additif en utilisant une
r egression. Hastie et col. (2001) comparent les int er^ets respectifs de plusieurs fonctions
pertes. Celles jug ees robustes (entropie en discrimination, valeur absolue en r egression)
Dans le m^eme esprit d'approximation adaptative, Friedman (2002) propose sous l'acronyme
MART (multiple additive regression trees) un algorithme bas e sur des arbres de
Le principe de base est le m^eme que pour Adaboost, construire une s equence de mod eles
de sorte que chaque etape, chaque mod ele ajout e a la combinaison, apparaisse comme un
pas vers une meilleure solution. Ce pas est franchi dans la direction du gradient, approch e
Soit x0 a pr evoir
Initialiser b-0 = arg min
Pn
i=1 Q(yi;
Pour m = 1 a M Faire
{ Calculer rim =
h
Q(yi;-(xi))
-(xi)
-=-m1
{ Ajuster un arbre de r egression aux rmi donnant les feuilles ou r egions terminales
Rjm; j = 1; : : : ; Jm.
{ Pour m = 1 a M Faire
{ Calculer
jm = arg min
xi2Rjm
Q(yi; b-m1 +
).
{ Fin Pour
PJm
j=1
jm1fx 2 Rjmg:
Fin Pour
R esultat : b-M(x0).
L'algorithme est initialis e par un terme constant c'est- a-dire encore un arbre a une
feuille. Les expressions du gradient reviennent simplement a calculer les r esidus rmj du
De nombreuses adaptations ont et e propos ees a partir de l'algorithme initial. Elles font
intervenir di
erentes fonctions pertes o
rant des propri et es de robustesse ou adapt ees a
une variable cible Y quantitative ou qualitative a plusieurs classes : Adaboost M1, M2, MH
Sur-ajustement
Dans le dernier algorithme, le nombre d'it erations peut ^etre contr^ol e par un echantillon
lorsque l'erreur estim ee sur cet echantillon arrive a se d egrader. Une autre possibilit e
Compris entre 0 et 1, celui-ci p enalise l'ajout d'un nouveau mod ele dans l'agr egation. Il
joue le r^ole d'un taux d'apprentissage du percepton) et, si sa valeur est petite (< 0; 1)
cela conduit a accro^ tre le nombre d'arbres mais entra^ ne des am eliorations sensibles de la
qualit e de pr ediction.
Interpr etation
L'interpr etabilit e des arbres de d ecision sont une des raisons de leur succ es. Leur
lecture ne n ecessite pas de comp etences particuli eres en statistique. Cette propri et e est
evidemment perdue par l'agr egation d'arbres ou de tout autre mod ele. N eanmoins, surtout
Un crit ere est calcul e pour chaque variable j a partir des valeurs D2
valeurs sont somm ees par arbre sur l'ensemble des n uds puis moyenn ees sur l'ensemble
la plus in
uente.
Instabilit e
Tous les auteurs ont remarqu e la grande instabilit e des mod eles construits a base
modi
cations dans les param etres (les seuils et feuilles) du mod ele. C'est justement cette
propri et e qui rend cette technique tr es appropri ee a une am elioration par agr egation.
Iterations
Risk
Iterations
Fraction
12 14 16 18 20 22
Fig. 7.1 { Algorithmes AdaBoost et Random forests. Evolution, pour un echantillon test,
de mod eles.
Propri et es
Les justi
cations th eoriques des bons r esultats du boosting et principalement la r esistance
g en eralement mieux que l'asymptotique (en faisant cro^ tre la taille de l' echantillon) pour
cette m^eme m ethode. Les approches usuelles de la statistique asymptotique sont mises en
d efaut et les bornes obtenues pour majorer les erreurs d'estimations ou de pr ediction sont
longtemps apr es que l'erreur d'ajustement se soit annul ee. Parmi les pistes explor ees,
une approche \stochastique" consid ere que, m^eme d eterministe, l'algorithme simule une
dynamique markovienne (Blanchard, 2001). Une deuxi eme, rappel ee ci-dessus, pr esente le
boosting comme une proc edure d'optimisation globale par une m ethode de gradient (Friedman,
2001). D'autres en
n (par exemple Lugosi et Vayatis, 2001), plus probantes, utilisent
des in egalit es de Vapnik pour montrer que, sous des hypoth eses raisonnables et v eri
ees
dans les cas usuels : convexit e et r egularit e de la fonction perte (exponentielle), arbres
binaires, la probabilit e d'erreur du boosting converge avec la taille n de l' echantillon vers
celle du classi
eur bay esien c'est- a-dire celui, optimal, obtenu en supposant connue la loi
conjointe de X et Y .
4. Application 89
tauxmc
10
11
12
13
14
15
16
17
18
Methode
AboosArbreLogitResNeRfor
Fig. 7.2 { Diagrammes bo^ tes des taux d'erreurs observ es sur 30 echantillons tests et pour
chaque m ethode.
4 Application
4.1 Logiciels
et col. (2000) a et e utilis ee. Il en fournissait le programme interfac e avec Splus a l'adresse
Les for^ets al eatoires (Breiman, 2001), sont estim ees par un programme interfac e avec
de R : www.r-project.org.
Ces programmes ont et e utilis es pour constituer des comit es d'arbres de d ecision
pr evoyant la possession de la carte Visa Premier. Trente echantillons tests ont successivement
et e tir es a
n d'observer les distributions des taux de mauvais classement, distributions
qui ont et e compar ees a celles obtenues par les m ethodes classiques (arbre de
La
gure 7.1 montre les evolutions du taux de mal class es sur l' echantillon d'apprentissage
n'y a pas sur-apprentissage. Ces algorithmes fournissent des r esultats qui, en moyenne, se
Tab. 7.1 { Moyennes des taux d'erreurs de classement calcul es sur 30 echantillons test
test. Les ecarts-types d ependant de la taille de l' echantillon test y sont relativement stables.
Les moyennes montrent, sur cet exemple, que le boosting pr edit un peu mieux que les for^ets
al eatoires. Cela est coh erent avec les nombreuses etudes publi ees.
Bien s^ur, ce qui est gagn e en pr edictibilit e est perdu en interpr etabilit e par rapport a un
mod ele classique. N eanmoins le gain r ealis e est souvent etonnant. L'une des avanc ees encore
en gestation concernant ces algorithmes, et plus particuli erement les for^ets al eatoires,
est la prise en compte des probl emes pos es par les donn ees hautement multidimensionnelles
tels qu'ils se posent par exemple avec l'analyse des biopuces en g enomique.
Bibliography
Antoniadis, A., J. Berruyer, and R. Carmona (1992). R egression non lin eaire et applications.
Economica.
fr/Besse/enseignement.html.
Besse, P. and H. Cardot (2003). Mod elisation statistique de donn ees fonctionnelles. In
G. Govaert (Ed.), Analyse des donn ees, pp. a para^ tre. Hermes.
Besse, P., C. Le Gall, N. Raimbault, and S. Sarpy (2001). Statistique et data mining.
pp. .
Breiman, L. (2001). Random forests random features. Machine Learning a para^ tre, .
115.
Efron, B. (1982). The Jackknife, the Bootstrap and other Resampling Methods. SIAM.
Efron, B. and R. Tibshirani (1993). An introduction to the bootstrap. Chapman and Hall.
Freund, Y. and R. Schapire (1997). Experiments with a new boosting algorithm. Journal
Analysis 38, .
91
92 BIBLIOGRAPHY
Gey, S. and J.-M. Poggi (2002). Boosting and instabillity for regression trees. Technical
ee 48 (2), 85{98.
Hastie, T., R. Tibshirani, and J. Friedman (2001). The elements of statistical learning :
Jobson, J. (1991). Applied Multivariate Data Analysis, Volume I : Regression and experimental
design. Springer-Verlag.
Preprint , .
McCullagh, P. and J. Nelder (1983). Generalized Linear Models. Chapman & Hall.
Ripley, B. (1996). Pattern recognition and neural networks. Cambridge University Press.
SAS (1989). SAS/STAT User's Guide (fourth ed.), Volume 2. Sas Institute Inc. version 6.
SAS (1995). SAS/INSIGHT User's Guide (Third ed.). Sas Institute Inc. version 6.
SEM (2001). SAS/ Enterprise Miner User's Guide. Sas Institute Inc. version 8.
Thiria, S., Y. Lechevallier, O. Gascuel, and S. Canu (1997). Statistique et m ethodes neuronales.
Dunod.
Annexes
93
94 BIBLIOGRAPHY
Annexe A
g en eral
tous les mod eles (lin eaire gaussien, logit, log-lin eaire) qui visent a exprimer l'esp erance
d'une variable r eponse Y en fonction d'une combinaison lin eaire des variables explicatives.
Le mod ele lin eaire g en eral d evelopp e initialement en 1972 par Nelder et Wedderburn et
dont on trouvera des expos es d etaill es dans Nelder et Mc Cullagh (1983), Agresti (1990)
a ces mod eles : famille exponentielle, estimation par maximum de vraisemblance, tests,
diagnostics, r esidus. Il est mis en uvre dans plusieurs logiciels dont GLIM, glm de Splus,
Les mod eles catalogu es dans la classe des mod eles lin eaires g en eralis es sont caract eris es
1.1 Distribution
fYi; i = 1; : : : ; ng ind ependantes admettant des distributions issues d'une structure exponentielle.
Cela signi
e que les lois de ces variables sont domin ees par une m^eme mesure
dite de r ef erence et que la famille de leurs densit es par rapport a cette mesure se met sous
la forme :
f(yi; i; -) = exp
yi i v( i)
u(-)
+ w(yi; -)
: (1)
Cette formulation inclut la plupart des lois usuelles comportant un ou deux param etres :
gaussienne, gaussienne inverse, gamma, Poisson, binomiale. . . . Le param etre i est appel e
mesure de Lebesgues pour une loi continue, une mesure discr ete combinaison de masses
95
de Dirac pour une loi discr ete. Consulter Antoniadis et col. (1992) pour une pr esentation
u(-) =
!i
est appel e alors param etre de dispersion, c'est un param etre de nuisance intervenant, par
exemple lorsque les variances des lois gaussiennes sont inconnues, mais egal a 1 pour les
Q( ) =
a( ) = exp
v( )
on obtient
X de plani
cation d'exp erience (design matrix). Soit
un vecteur de p param etres, le
pr edicteur lin eaire, composante d eterministe du mod ele, est le vecteur a n composantes :
=X
:
1.3 Lien
La troisi eme composante exprime une relation fonctionnelle entre la composante al eatoire
i = g( i) i = 1; : : : ; n
a ecrire un mod ele dans lequel une fonction de la moyenne appartient au sous-espace
g( i) = x0
i
i = 1; : : : ; n:
La fonction lien qui associe la moyenne i au param etre naturel est appel ee fonction lien
g( i) = i = x0
i
:
1.4 Exemples
Loi gaussienne
Dans le cas d'un echantillon gaussien, les densit es d'une famille de lois N( i; 2) s' ecrit :
f(yi; i) =
p2 2
exp
(yi i)2
2 2
= exp
2i
exp
y2
2
1
2
ln(2 2)
exp
yi
En posant
Q( i) =
a( i) = exp
2i
b(yi) = exp
y2
i
2
ln(2 2)
la famille gaussienne se met sous la forme canonique (2) qui en fait une famille exponentielle
i = E(Yi) = i
Loi de Bernouilli
i et donc d'esp erance E(Zi) = i. Les fonctions de densit e de ces variables sont el ements
de la famille :
f(zi; i) = zi
i (1 i)1zi = (1 i) exp
zi ln
1 i
qui est la forme canonique d'une structure exponentielle de param etre naturel
i = ln
1 i
Cette relation d e
nit la fonction logit pour fonction lien canonique associ ee a ce mod ele.
La loi binomiale conduit a des r esultats identiques en consid erant les sommes de ni (ni
Loi de Poisson
On consid ere n variables ind ependantes Yi de loi de Poisson de param etre i = E(Yi).
pour densit es :
f(yi; i) =
yi
i e i
yi!
= exp f ig
yi!
exp fyi ln ig
qui sont issues d'une structure exponentielle et, mises sous la forme canonique, de param
etre naturel
i = ln i
d e
nissant comme fonction lien canonique le logarithme pour ce mod ele.
2 Estimation
mod ele lin eaire g en eralis e. Celle-ci s'exprime pour toute famille de distributions mise sous
@`
@ i
@2`
@ 2
= v00( i)=u(-):
Pour des lois issues de structures exponentielles, les conditions de r egularit e v eri
ees permettent
d' ecrire :
@`
= 0 et E
@2`
@ 2
=E
@`
Alors,
E(Yi) = i = v0( i)
et comme
il vient donc :
justi
ant ainsi l'appellation de param etre de dispersion pour - lorsque u est la fonction
identit e.
Consid erons p variables explicatives dont les observations sont rang ees dans la matrice
composantes
=X
:
2. Estimation 99
Pour n observations suppos ees ind ependantes et en tenant compte que d epend de
,
L(
)=
Xn
i=1
ln f(yi; i; -) =
Xn
i=1
`( i; -; yi):
Calculons
@`i
@
j
@`i
@ i
@ i
@ i
@ i
@ i
@ i
@
j
Comme
@`i
@ i
@ i
@ i
= v00( i) = Var(Yi)=u(-);
@ i
@
j
= xij car i = x0
i
;
@ i
@ i
Xn
i=1
(yi i)xij
Var(Yi)
@ i
@ i
= 0 j = 1; : : : ; p:
= = X0WX
de terme g en eral
[=]jk = E
@2L(
)
@
j@
k
=
Xn
i=1
xijxik
Var(Yi)
@ i
@ i
[W]ii =
Var(Yi)
@ i
@ i
Dans le cas particulier o u la fonction lien du mod ele lin eaire g en eralis e utilis ee est la
interviennent :
i = i = x0
i
;
@ i
@ i
@ i
@ i
@v0( i)
@ i
= v00( i):
Ainsi,
@`i
@
j
(yi i)
Var(Yi)
v00( i)xij =
(yi i)
u(-)
xij :
@
j@
k
Si, de plus, u(-) est constante pour les observations, les equations de vraisemblance
deviennent :
X0y = X0 :
b = (X0X)1X0y
qui co• ncide avec celle obtenue par minimisation des moindres carr es.
3 Qualit e d'ajustement
Il s'agit d' evaluer la qualit e d'ajustement du mod ele sur la base des di
erences entre
3.1 D eviance
Le mod ele estim e est compar e avec le mod ele dit satur e, c'est- a-dire le mod ele poss edant
autant de param etres que d'observations et estimant donc exactement les donn ees. Cette
D = 2(L Lsat)
\g en eralise" l'usage des sommes de carr es propres au cas gaussien et donc a l'estimation
permet de construire un test de rejet ou d'acceptation du mod ele selon que la d eviance
donn ees non group ees (mod ele binomial), le cadre asymptotique n'est plus adapt e car le
a ce test.
Un test du 2 est egalement utilis e pour comparer les valeurs observ ees yi a leur
X2 =
XI
i=1
(yi ^ i)2
dVar(^ i)
4. Tests 101
( i est remplac e par ni i dans le cas binomial) et on montre qu'elle admet asymptotiquement
que l'esp erance d'une loi du 2 est son nombre de degr es de libert e et, connaissant les
aspects approximatifs des tests construits, l'usage est souvent de comparer les statistiques
avec le nombre de degr es de libert e. le mod ele peut ^etre jug e satisfaisant pour un rapport
4 Tests
Deux crit eres sont habituellement propos es pour aider au choix de mod ele.
Comme dans le cas de la r egression multiple o u un test permet de comparer un mod ele
mod ele. La di
erence des d eviances entre deux mod eles embo^ t es respectivement a q1 et
= 2(L1 L2)
suit approximativement une loi du 2 a (q2q1) degr es de libert e pour les lois a 1 param etre
(binomial, Poisson) et une loi de Fisher pour les lois a deux param etres (gaussienne). Ceci
Ce test est bas e sur la forme quadratique faisant intervenir la matrice de covariance
des param etres, l'inverse de la matrice d'information observ ee (X0WX)1. Cette matrice
est calcul ee a partir du Hessien approch e par l'algorithme de maximisation. Elle g en eralise
la matrice (X0X)1 utilis ee dans le cas du mod ele lin eaire gaussien en faisant intervenir
une matriceW de pond eration. Ainsi, test de Wald et test de Fisher sont equivalents dans
param etres :
K0
= 0;
(K0b)0(K0(X0WX)1K)1K0b
Attention, le test de Wald, approximatif, peut ne pas ^etre pr ecis si le nombre d'observations
est faible.
5 Diagnostics
De nombreux indicateurs, comme dans le cas de la r egression lin eaire multiple, sont
propos es a
n d' evaluer la qualit e ou la robustesse des mod eles estim es. Ils concernent
5.1 E
et levier
H =W1=2X(X0WX)1X0)W1=2;
relative au produit scalaire de matrice W, sur le sous-espace engendr e par les variables
explicatives. Les termes diagonaux de cette matrice sup erieurs a (3p=n) indiquent des
valeurs potentiellement in
5.2 R esidus
Avec des erreurs centr ees, additives, c'est- a-dire dans le cas du mod ele gaussien utilisant
"i = yi E(yi) = yi i:
comme dans le cas du mod ele lin eaire. Ce cadre est ici inadapt e au cas g en eral et di
erents
substituts sont propos es. Chacun poss ede par ailleurs une version standardis ee et une
Pearson
Les r esidus obtenus en comparant valeurs observ ees yi et valeurs pr edites ^yi sont
pond er es par leur pr ecision estim ee par l' ecart-type : si de ^yi. Ceci d e
nit les r esidus
de Pearson :
rPi =
yi ^yi
si
dont la somme des carr es conduit a la statistique du m^eme nom. Ces r esidus mesurent
rPsi =
yi ^yi
siphii
i eme observation et sont donc biais es, des r esidus studentis es sont obtenus en approchant
au premier ordre le param etre de dispersion s(i) calcul e sans la i eme observation :
rPti =
yi ^yi
s(i)phii
D eviance
par rapport au mod ele satur e. Des versions standardis ees et studentis ees en sont d e
nies
Anscombe
Les lois des r esidus pr ec edents sont inconnues et m^eme dissym etriques. Anscombe a
rAi =
t(yi) t(^yi)
t0(yi)si
L'explicitation de la fonction t dans le cadre du mod ele lin eaire g en eralis e est relativement
complexe mais le calcul en est fourni par les logiciels. Comme pr ec edemment, des versions
Un graphe utilisant ces r esidus en ordonn ees et les num eros d'observation en abscisses
permet d'identi
er les observations les moins bien ajust ees par le mod ele.
uence
l'estimation d'un param etre, sur les pr edictions ou encore sur la variance des estimateurs.
des param etres, entre le vecteur des param etres b estim e avec toutes les observations et
Di =
(b b(i))0(X0WX)1(b b(i)):
chaque observation. Le graphe de ces valeurs est donc plus synth etique et interpr etable en
6 Compl ements
6.1 Sur-dispersion
mod ele, est plus importante, multipli ee par un facteur d' echelle (scale parameter) 2. Si
ce param etre est plus grand que 1, on dit qu'il y a sur-dispersion. Une m ethode bas ee sur
fois et
.
6.2 Variable \o
set"
Lorsque la variable a expliquer dans le cas d'un mod ele lin eaire g en eralis e d epend
egalement lin eairement d'une autre variable, cette derni ere est d eclar ee o
set et sert ainsi
a \tarer" le mod ele. Exemple : pour mod eliser le nombre de sinistres d eclar es par cat egorie
Annexe B
Introduction au bootstrap
1 Introduction
par simulation (Monte Carlo) la distribution d'un estimateur lorsque l'on ne conna^ t pas la
loi de l' echantillon ou, plus souvent lorsque l'on ne peut pas supposer qu'elle est gaussienne.
L'objectif est de remplacer des hypoth ess probabilistes pas toujours v eri
ees ou m^eme
inv eri
ables par des simulations et donc beaucoup de calcul.
distribution empirique b F qui donne un poids 1=n a chaque r ealisation. Ainsi on obtient
Il est facile de construire un grand nombre d' echantillons bootstrap sur lesquels calculer
l'estimateur concern e. La loi simul ee de cet estimateur est une approximation asymptotiquement
approximation fournit ainsi des estimations du biais, de la variance, donc d'un risque quadratique,
Soit x = fx1; : : : ; xng un echantillon de taille n issue d'une loi inconnue F sur (
;A).
On appelle loi empirique b F la loi discr ete des singletons (x1; : : : ; xn) a
ect es des poids
1=n :
bF=
Xn
i=1
xi :
1Cette appellation est inspir ee du baron de M•unchhausen (Rudolph Erich Raspe) qui se sortit de
sables
mouvants par traction sur ses tirants de bottes. En France \bootstrap" est parfois traduit par a la
Cyrano
(acte III, sc ene 13) en r ef erence a ce h eros qui pr evoyait d'atteindre la lune en se pla cant sur
une plaque
2 Echantillon ind ependant de m^eme loi et estimateur ind ependant de l'ordre des observations.
105
b(
Pb F
Xn
i=1
xi (A) =
Cardxi 2 A:
De mani ere plus g en erale, soit un param etre dont on suppose que c'est une fonction de
la loi F. on ecrit donc = t(F). Par exemple, = E(F) est un param etre de F suivant
ce mod ele. Une statistique est une fonction (mesurable) de l' echantillon. Avec le m^eme
exemple :
b =x=
Xn
i=1
xi
et x est la statistique qui estime . On dit que c'est un estimateur \plug-in" et, plus
g en eralement,
b = t( b F):
F = EF (X); et 2F
X ( F ; 2F
):
Soit (X1; : : : ;Xn) n variables al eatoires i.i.d. suivant aussi la loi F. Posons X = 1
Pn
i=1 Xi.
Cette variable al eatoire a pour esp erance F et pour variance 2F
statistique
X ( F ; 2F
=n):
inh erente a une observation. De plus, sous certaines conditions sur la loi F et comme
r esultat du th eor eme de la limite centrale, X converge en loi vers la loi normale.
b 2=c F
2= 2
bF
= Var b F (X)
= Eb F [(X Eb F (X))2] =
Xn
i=1
(Xi X)2:
pouvoir s'appliquer a tout param etre m^eme lorsque l'on ne peut pas calculer la vraisemblance
du mod ele.
Avec les m^emes notation, b F est la distribution empirique d'un echantillon x = fx1; : : : ; xng.
not e
x = fx 1
;:::;x
ng
estimation plug-in : b F (b ).
Mais, a part dans le cas tr es el ementaire o u, comme dans l'exemple ci-dessus, est une
moyenne, il n'y a pas de formule explicite de cet estimateur. Une approximation de l'estimateur
bootstrap (ou plug-in) de l' ecart-type de b est obtenue par une simulation (Monte-
Pour un param etre et un echantillon x donn es, on note b = s(x) l'estimation obtenue
sur cet echantillon. Une r eplication bootstrap de b est donn ee par : b = s(x ):
Pour b = 1 a B Faire
1;:::;x b
dans x.
Fin pour
b 2B
B1
XB
b=1
(b (b) b (:))2
avec b (:) =
XB
b=1
(b (b):
= t(F) et b = s(x);
BF (b ) = EF [s(x)] t(F):
Un estimateur est sans biais si E[b ] = . Le biais est aussi une mesure de la pr ecision d'un
Comme pour l' ecart-type, il n'existe g en eralement pas d'expression analytique et il faut
Pour b = 1 a B Faire
1;:::;x b
dans x.
Fin pour
PB
b=1(b (b)
3 Compl ements
En r esum e, on peut dire que le bootstrap repose sur une hypoth ese tr es el ementaire : b
Beaucoup d'autres compl ements sont a rechercher dans la litt erature et en particulier
bootstrap en consid erant la distribution et les quantiles de b ou m^eme encore des tests a
Le bootstrap rapidement d ecrit ici est dit \non-param etrique" car la loi empirique b F
est une estimation non-param etrique de F. Dans le cas o u F serait connue a un param etre
Pour des estimateurs plus compliqu es (fonctionnels) comme dans le cas de la r egression
non-param etrique par noyau ou spline, il est facile de construire graphiquement une enveloppe
g en eralement une bonne appr eciation de la qualit e de l'estimateur obtenu. Attention, dans
plut^ot que sur les observations. Ce sont les r esidus qui sont en e
et suppos es i.i.d. et qui
v eri
ent donc les hypoth eses n ecessaires mais cette approche devient tr es sensible a l'hypoth
z b = f(x b
1;y b
1 ); : : : ; (x b
n;y b
n )g;
En
n, l'estimation bootstrap est justi
ee par des propri et es asymptotiques (convergence
Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1 Introduction 7
1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Probl ematique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.8 Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Mod ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Propri et es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.4 Coe
cient de d etermination . . . . . . . . . . . . . . . . . . . . . . . 16
4.4 Pr evision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
111
5.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6 Compl ements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.2 In
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
7.3 Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
8 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
8.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
8.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
9 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
11 R egression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
13 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3 Erreur de pr ediction 47
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2 Erreur de pr ediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.1 D e
nition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2 D ecomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 D e
nition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3 Commentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5 Arbres binaires 63
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.4 A
ectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.1 Y quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2 Y qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4 Elagage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6 M ethodes connexionistes 73
1 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2 R eseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
2.1 Neurone formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3 Perceptron multicouche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.2 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.3 Utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2.1 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.1 Logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
1.1 Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
1.3 Lien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
1.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5 Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.1 E
et levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
uence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.2 Variable \o
set" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105