Vous êtes sur la page 1sur 38

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

77

Chapitre 6 Apprentissage des rseaux de neurones et rgularisation


Aprs une introduction rapide aux rseaux de neurones et la problmatique de la classification, l'essentiel de ce chapitre est consacr l'apprentissage, et notamment aux problmes lis au surapprentissage dans les problmes de classification. Nous montrons que dans certains cas, les "mthodes actives" comme la rgularisation par le weight decay sont indispensables pour limiter le surapprentissage. Cette technique exige nanmoins la dtermination de paramtres supplmentaires, appels hyperparamtres. L'approche bayesienne propose une solution de principe cette dtermination, que nous prsentons dans ce chapitre, et dont nous dcrirons l'application dans les chapitres suivants. 6.1 Problmatique de la classification supervise

6.1.1 La catgorisation de textes est un problme de classification supervise Le problme du filtrage de textes pour un thme donn est abord dans ce mmoire comme un problme de classification supervise deux classes : la classe des textes pertinents et la classe des textes non pertinents. Pour construire un filtre relatif un thme donn, il faut donc disposer d'exemples de chaque classe, pralablement tiquets comme pertinents ou non pertinents. Grce ces deux ensembles de textes, il est possible de construire un classifieur grce un algorithme d'apprentissage. Si cet apprentissage est correctement ralis, le modle est capable d'estimer, pour chaque nouveau texte, sa probabilit de pertinence pour le thme considr. 6.1.2 Thorme de Bayes Le thorme de Bayes fournit un cadre thorique pour la problmatique de la classification deux classes, et il intervient galement dans l'approche bayesienne expose au paragraphe 6.6. Si l'on considre un problme deux classes C1 et C2, le thorme de Bayes permet de calculer les probabilits a posteriori connaissant les distributions des observations a priori.
P (C1|x) = p (x|C1) P (C1) p (x)

78

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

P(C1|x) est la probabilit a posteriori d'appartenir la classe C1 connaissant le vecteur des descripteurs x, p(x|C1) est la densit de probabilit du vecteur x dans la classe C1, P(C1) est la probabilit a priori de la classe C 1 et p(x) est la densit de probabilit non conditionnelle dfinie par :
p (x) = p (x|C1) P (C1) + p (x|C2) P (C2)

Dans le cas d'un problme de classification, cette formule dfinit une rgle de dcision : la probabilit de mauvaise classification est minimise en slectionnant la classe qui a la plus grande probabilit a posteriori. Ce thorme est au cur de la problmatique de la classification : on peut distinguer (i) les mthodes de classification qui essayent de modliser les densits de probabilits pour calculer les probabilits a priori, et (ii) les mthodes qui essayent de modliser directement les probabilits a posteriori. Le dtail de ces diffrentes mthodes peut tre trouv dans [Bishop, 1995] ou [Stoppiglia, 1997] ; les rseaux de neurones utiliss dans ce mmoire appartiennent la deuxime catgorie. 6.2 Gnralits sur les rseaux de neurones

Cette partie est une prsentation succincte des principales proprits des rseaux de neurones. L'accent est surtout mis sur les algorithmes utiliss et sur le problme du surajustement. Une prsentation plus gnrale des rseaux de neurones et de leurs applications d'autres tches que la classification de textes peut tre trouve dans [Dreyfus et al., 1999]. 6.2.1 Le neurone formel Un neurone formel est une fonction algbrique paramtre, valeurs bornes, de variables relles appeles entres. En rgle gnrale, le calcul de la valeur de cette fonction peut se dcomposer en deux tapes : une combinaison linaire des entres :
v = w0 +
i=1 n

S w .x
i

Les wi sont appels poids synaptiques ou simplement poids, w0 est appel biais. Le biais peut tre considr comme la pondration de l'entre 0 fixe 1. v est appel potentiel du neurone. La sortie du neurone est :

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation


y= f (v) = f ( S wi.xi)
i =0 n

79

La fonction f est la fonction d'activation du neurone. Dans la suite de ce mmoire, on considrera trois types de fonctions d'activation : La fonction identit : f(v) = v. La fonction sigmode : f(v) = tanh (v). C'est une fonction borne valeurs relles comprises entre -1 et +1. La fonction logistique : f(v) = 1/(1 + exp(-v)). C'est une fonction borne valeurs relles comprises entre 0 et 1. 6.2.2 Rseaux de neurones non boucls Un rseau de neurones non boucl est une composition de fonctions ralise par des neurones formels interconnects entre eux. Certaines applications peuvent ncessiter plusieurs sorties (dans le cas d'une classification plusieurs classes par exemple), mais dans notre cas, tous les rseaux utiliss ont une seule sortie. Les possibilits d'arrangements entre les neurones sont multiples. La configuration la plus classique est appele perceptron multicouche. Dans cette architecture, les neurones sont organiss en couches comme le montre la Figure 6.1 : une couche intermdiaire entre les entres et les sorties appele couche cache et un neurone (ou une couche de neurones) de sortie. Les connexions se font d'une couche la suivante sans qu'il y ait de connexion entre couches non adjacentes. Cette architecture est galement appele rseau deux couches puisqu'il y a deux couches de poids ajustables : celle qui relie les entres aux neurones cachs et celle qui relie les neurones cachs au neurone de sortie.

80
123Ne

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation


Nc neurones cachs Ne entres ........xxxx1Nc neurone de sortie

Figure 6.1 : Rseau couches avec Ne entres, Nc neurones cachs et un neurone de sortie. Les neurones de la couche cache sont appels neurones cachs. Une fois l'architecture deux couches choisie, il faut fixer le nombre de neurones cachs. Plus ce nombre est lev, plus le nombre de degrs de libert est lev et plus la fonction modlise par le rseau de neurone peut tre complexe. La Figure 6.2 montre deux exemples de fonctions ralises par un rseau de neurones ; la partie gauche est obtenue avec un rseau comportant deux neurones cachs et la partie droite avec un rseau comportant dix neurones cachs. Dans le deuxime cas, la fonction obtenue comporte plus de degrs de libert.

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

81

Figure 6.2 : Rseau deux couches avec deux entres et un biais, les fonctions d'activations des neurones cachs sont des fonctions sigmodes et la sortie est une fonction logistique. Le quadrant de gauche est la sortie d'un rseau de neurones deux neurones cachs, le quadrant de droite est la sortie d'un rseau dix neurones cachs. Les poids de la premire couche sont choisis alatoirement dans l'intervalle [-4 ; +4], les poids de la deuxime couche sont choisis alatoirement dans l'intervalle [-2 ; +2].

6.2.3 Proprits des rseaux de neurones Les rseaux de neurones couches, prsents au paragraphe prcdent, ont la proprit gnrale d'tre des approximateurs universels parcimonieux. Il s'agit en fait de deux proprits distinctes dtailles ci-dessous. 6.2.3.1 La proprit d'approximation universelle La proprit dapproximation universelle a t dmontre par [Cybenko, 1989] et [Funahashi, 1989] et peut snoncer de la faon suivante :

82

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

Toute fonction borne suffisamment rgulire peut tre approche uniformment, avec une prcision arbitraire, dans un domaine fini de lespace de ses variables, par un rseau de neurones comportant une couche de neurones cachs en nombre fini, possdant tous la mme fonction dactivation, et un neurone de sortie linaire. Cette proprit justifie l'utilisation de l'architecture prsente prcdemment. Comme le montre ce thorme, le nombre de neurones cachs doit tre choisi convenablement pour obtenir la prcision voulue. 6.2.3.2 La proprit de parcimonie Lorsque lon cherche modliser un processus partir des donnes, on sefforce toujours dobtenir les rsultats les plus satisfaisants possibles avec un nombre minimum de paramtres ajustables. Dans cette optique, [Hornik et al., 1994] ont montr que :

Si le rsultat de lapproximation (cest--dire la sortie du rseau de neurones) est une fonction non linaire des paramtres ajustables, elle est plus parcimonieuse que si elle est une fonction linaire de ces paramtres. De plus, pour des rseaux de neurones fonction dactivation sigmodale, lerreur commise dans lapproximation varie comme linverse du nombre de neurones cachs, et elle est indpendante du nombre de variables de la fonction approcher. Par consquent, pour une prcision donne, donc pour un nombre de neurones cachs donn, le nombre de paramtres du rseau est proportionnel au nombre de variables de la fonction approcher. Ce rsultat s'applique aux rseaux de neurones fonction d'activation sigmodale puisque la sortie de ces neurones n'est pas linaire par rapports aux poids synaptiques. Cette proprit montre l'intrt des rseaux de neurones par rapport d'autres approximateurs comme les polynmes dont la sortie est une fonction linaire des paramtres ajustables : pour un mme nombre d'entres, le nombre de paramtres ajustables dterminer est plus faible pour un rseau de neurones que pour un polynme. Cette proprit devient d'autant plus intressante dans le cas du filtrage de textes car le nombre d'entres est typiquement de l'ordre de plusieurs dizaines. 6.3 Apprentissage des rseaux de neurones

Une fois l'architecture d'un rseau de neurones choisie, il est ncessaire d'effectuer un apprentissage pour dterminer les valeurs des poids permettant la sortie du rseau de

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

83

neurones d'tre aussi proche que possible de l'objectif fix. Dans le cas d'un problme de rgression, il s'agit d'approcher une fonction continue, dans le cas d'un problme de classification supervise, il s'agit de dterminer une surface de sparation. Cet apprentissage s'effectue grce la minimisation d'une fonction, appele fonction de cot, calcule partir des exemples de la base d'apprentissage et de la sortie du rseau de neurones ; cette fonction dtermine l'objectif atteindre. Dans les travaux prsents dans ce mmoire, nous avons effectu cette minimisation en deux temps : un algorithme de descente du gradient, simple mettre en uvre et efficace loin du minimum, commence la minimisation, puis une mthode de quasi-Newton, trs efficace proche du minimum, la termine1. Dans la suite de ce chapitre, nous utiliserons les notations suivantes : N est le nombre d'exemples de la base d'apprentissage ; chaque exemple i est associe sa classe ti (code +1 ou 0) ; chaque exemple est reprsent par un vecteur xi de dimension n ; les poids du rseau sont reprsents par un vecteur w ; la sortie du rseau de neurones associe au vecteur d'entre xi est note yi. 6.3.1 Algorithmes de minimisation 6.3.1.1 Principe des algorithmes Soit J(w) la fonction de cot (le choix de la forme de cette fonction est expliqu au paragraphe 6.3.2). Les algorithmes utiliss ncessitent que J(w) soit drivable par rapport aux poids. Le principe de ces mthodes est de se placer en un point initial, de trouver une direction de descente du cot dans lespace des paramtres w, puis de se dplacer dun pas dans cette direction. On atteint un nouveau point et lon itre la procdure jusqu satisfaction dun critre darrt. Ainsi, l'itration k, on calcule :
wk = wk 1 + a k 1 .d k 1

a k est le pas de la descente et dk est la direction de descente : les diffrents algorithmes se


distinguent par le choix de ces deux quantits.

La mthode de Levenberg-Marquardt, galement trs efficace, ne s'applique qu'aux fonctions de cot

quadratiques, ce qui n'est pas le cas dans les travaux que nous prsentons.

84

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

6.3.1.2 Descente du gradient L'algorithme le plus simple consiste choisir comme direction de descente l'oppos du gradient de la fonction de cot (d k = -J(w) = - Grad(J(w k )) ). Cette mthode est efficace loin du minimum et permet uniquement de s'en approcher. Pour cette raison, la dtermination du pas n'est pas cruciale : loin du minimum, il faut seulement vrifier que le pas n'est ni trop petit ni trop grand. En pratique, on utilise, selon les cas, deux mthodes : soit un asservissement par la norme du gradient : a0 ak = 1 + J(wk) o a0 est une constante qui vaut typiquement 0,01. soit la mthode de Goldstein [Minoux, 1983] pour laquelle le pas est adapt afin de satisfaire deux conditions : 1. J(wk + a kd k) < J(wk) + m 1a kJ T(wk)d k 2. J(wk + a kd k) > J(wk) + m 2a kJ T(wk)d k La premire condition s'assure que le pas choisi n'est pas trop grand (sinon l'algorithme risque d'avoir un comportement oscillatoire), alors que la deuxime s'assure qu'il n'est pas trop petit (sinon l'algorithme a une convergence trs lente). Les valeurs habituelles pour les deux paramtres m1 et m2 sont respectivement 0,1 et 0,7. Ces deux mthodes de recherche du pas sont "conomiques", car elles ne demandent pas de calculs inutiles de gradient (seul celui dans la direction de descente est ncessaire). 6.3.1.3 La mthode de Newton La mthode de Newton utilise la courbure (drive seconde) de la fonction de cot pour atteindre le minimum. La modification des paramtres scrit ainsi :
wk = wk 1 H k1 1.J wk 1

La direction de descente est H k 1 1.J(wk 1) o H k 1 1 est l'inverse du hessien de la fonction de cot, et le pas est constant fix un. Cet algorithme converge en une seule itration pour une fonction quadratique. C'est donc un algorithme qui est inefficace loin du minimum de la fonction et trs efficace prs du minimum.

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

85

Dans la pratique, le calcul du hessien et surtout de son inverse est la fois complexe et source d'instabilits numriques ; on utilise de prfrence une mthode de "quasi-Newton". 6.3.1.4 La mthode de quasi-Newton Les mthodes de quasi-Newton consistent approcher l'inverse du hessien plutt que de calculer sa valeur exacte.

La modification des paramtres s'crit :


wk = wk 1 a k 1.M k 1.J (wk 1)

La suite Mk est construite de faon converger vers l'inverse du hessien avec M0 gale la matrice identit. Cette suite est construite grce la mthode dite BFGS [Broyden, 1970] [Flechter, 1970] [Goldfarb, 1970] [Shanno, 1970], dont la vitesse de convergence est beaucoup plus grande que celle de la mthode du gradient. De plus, elle est relativement insensible au choix du pas, qui peut tre dtermin conomiquement par la mthode de Goldstein. 6.3.1.5 Problme des minima locaux Les minima trouvs par les algorithmes prcdents sont des minima locaux. Le minimum trouv dpend du point de dpart de la recherche c'est--dire de l'initialisation des poids. En pratique, il faut effectuer plusieurs minimisations avec des initialisations diffrentes, pour trouver plusieurs minima et retenir le "meilleur". Il est nanmoins impossible et gnralement inutile, de s'assurer que le minimum choisi est le minimum global. Les rseaux de neurones couches prsentent des symtries, si bien que l'on peut montrer que pour une architecture avec Nc neurones cachs, il existe 2Nc Nc ! minima quivalents [Bishop, 1995]. 6.3.2 Choix de la fonction de cot Le choix de la fonction de cot est conditionn par l'objectif atteindre. 6.3.2.1 Erreur quadratique Pour les problmes de rgression, l'ensemble d'apprentissage est constitu d'exemples pour lesquels la sortie dsire t est une variable continue. La fonction de cot la plus utilise est l'erreur quadratique sur la base d'apprentissage : elle consiste minimiser la somme des carrs des erreurs entre la sortie du rseau et la valeur relle de la sortie.

86

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation


J w = 1 S yi w t i 2i = 1
N 2

Cette fonction de cot est issue du principe de maximum de vraisemblance avec une hypothse gaussienne sur la distribution des sorties. Pour les problmes de classification deux classes, la sortie dsire est une variable binaire code 1 ou 0 selon que l'exemple appartient respectivement C1 ou C 0. L'hypothse gaussienne sur la distribution des sorties n'est alors clairement plus vrifie. Cependant, si l'apprentissage est effectu en minimisant l'erreur quadratique, la sortie du rseau de neurones peut tre interprte comme la probabilit a posteriori, au sens du thorme de Bayes, d'appartenance la classe C1 [Richard et Lippman, 1991]. 6.3.2.2 Entropie croise L'entropie croise, comme l'erreur quadratique moyenne est issue du principe du maximum de vraisemblance. Comme l'hypothse sous-jacente pour l'utilisation de l'erreur quadratique est errone pour les problmes de classification, un autre modle est construit pour tenir compte de la spcificit du codage utilis dans ces problmes. Considrons un problme de classification deux classes C1 et C0 o les sorties t sont codes 1 ou 0. Afin que la sortie du rseau de neurones approche la probabilit a posteriori d'appartenir la classe C1, considrons tout d'abord la probabilit d'observer l'une ou l'autre des valeurs de la sortie t en un point de l'espace x si la sortie du modle est y :
p(t|x) = y t.(1 y) 1 t

La probabilit d'observer l'ensemble d'apprentissage en supposant que les donnes sont indpendantes s'crit :
N

P ( y ) (1 y )
i=1 i i

ti

1 ti

Pour maximiser cette fonction, on prfre minimiser l'oppos de son logarithme. La fonction de cot utilise est donc finalement :
J(w) =
i=1

t i.ln yi(w) + (1 t i).ln (1 yi(w))

Cette fonction, appele entropie croise, atteint son minimum lorsque ti = y i pour tout i. Par construction, la sortie du rseau est interprte comme la probabilit a posteriori d'appartenir la classe C1.

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation 6.3.3 Calcul du gradient de la fonction de cot

87

Les mthodes de minimisation exposes au paragraphe 6.3.1 ncessitent le calcul du gradient de la fonction de cot par rapport aux poids du rseau. Les fonctions de cot prsentes tant additives, le gradient total est la somme de tous les gradients partiels calculs pour chacun des exemples de la base d'apprentissage :
J w =
i=1 N

S J

Pour chaque exemple, le gradient partiel Ji(w) est effectu de manire conomique grce l'algorithme de rtropropagation [Rumelhart et al., 1986]. La mise en uvre de cet algorithme, ncessite l'expression analytique de la quantit l'exemple i. Si la fonction de cot est l'erreur quadratique, alors
J(w) = ( yi t i) = e i : c'est la yi
J(w) o yi(w) est la sortie du rseau pour yi(w)

diffrence entre la sortie du rseau et la sortie dsire, c'est--dire l'erreur de modlisation, on parle alors de "rtropropagation de l'erreur". Si la fonction de cot est l'entropie croise, alors
J(w) yi t i . = yi yi.(1 yi)

La modification des poids peut tre effectue, soit aprs chaque calcul de gradient partiel, soit aprs le calcul du gradient total. Dans toute la suite de ce mmoire, les modifications sont effectues aprs le calcul du gradient total. 6.4 Le problme de surajustement

6.4.1 Dfinition du surajustement Si l'on considre un ensemble d'apprentissage et une fonction de cot quadratique, en vertu de la proprit d'approximation universelle expose au paragraphe 6.2.3.1, il est toujours possible d'obtenir une fonction de cot aussi petite que l'on veut sur l'ensemble d'apprentissage, condition de mettre suffisamment de neurones cachs. Cependant, le but de l'apprentissage n'est pas d'apprendre exactement la base d'apprentissage, mais le modle sous-jacent qui a servi engendrer les donnes. Or, si la fonction apprise par le rseau de neurones est ajuste

88

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

trop finement aux donnes, elle apprend les particularits de la base d'apprentissage au dtriment du modle sous-jacent : le rseau de neurones est surajust. 6.4.2 Biais et variance des modles Le surajustement est souvent expliqu grce aux concepts de biais et variance introduits dans la communaut des rseaux de neurones par [Geman et al., 1992]. Si l'on considre plusieurs ensembles d'apprentissage, le biais rend compte de la diffrence moyenne entre les modles et l'esprance mathmatique de la grandeur modliser. Le biais est donc li la valeur du bruit du processus que l'on cherche modliser. La variance rend compte des diffrences entre les modles selon la base d'apprentissage utilise. On parle souvent de compromis entre le biais et la variance. Si un modle est trop simple par rapport au processus modliser, alors son biais est lev, mais sa variance est faible puisqu'il est peu influenc par les donnes. Si un modle est trop complexe, son biais est faible puisqu'il est capable de s'ajuster exactement la base d'apprentissage, mais sa variance est leve puisqu'une nouvelle base avec une ralisation diffrente du bruit peut entraner un modle trs diffrent : c'est le cas du surajustement. Ainsi, la complexit du modle doit tre ajuste pour trouver un compromis entre le biais et la variance. Dans leur article [Geman et al., 1992] contrlent la complexit du modle et donc le surajustement en limitant le nombre de neurones cachs. Cependant [Gallinari et Cibas, 1999] ont montr que cette vision thorique avait des limites pour un rseau couches dont l'apprentissage tait effectu avec une base d'apprentissage comprenant peu d'exemples. En tudiant diffrentes architectures pour un problme de rgression, ils ont montr que le biais et la variance n'voluent pas ncessairement en sens contraire lorsque le nombre de neurones cachs augmente. Dans leur cas, un modle avec quinze neurones cachs une variance plus leve qu'un modle avec soixante neurones cachs. En rsum, le surajustement ne s'explique pas seulement par le compromis biais-variance, notamment lorsque le nombre d'exemples est faible. De plus, l'interprtation du surajustement en ces termes a t dveloppe pour les problmes de rgression et ne se transpose pas simplement aux problmes de classification.

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation 6.4.3 Deux exemples artificiels de surajustement

89

Nous prsentons ci-dessous deux problmes artificiels pour illustrer simplement comme se manifeste le phnomne de surajustement. Le premier problme est un exemple de rgression : le rseau de neurones doit approcher une fonction continue ; le deuxime problme est un exemple de classification : le rseau de neurones doit dfinir une frontire de sparation. Ces deux exemples artificiels de nature diffrente montrent que le surajustement se traduit diffremment selon le problme. 6.4.3.1 Le surajustement pour les problmes de rgression Dans le cas d'une rgression, les donnes de la base d'apprentissage sont bruites. Donc, si le modle possde trop de degrs de libert, il peut s'ajuster localement certains points, et apprendre la ralisation particulire du bruit sur la base d'apprentissage et non pas le processus lui-mme. Supposons que l'on cherche modliser un processus f comme celui qui est reprsent sur la Figure 6.3. On dispose d'un ensemble d'apprentissage constitu de cinquante points choisis alatoirement auquel est ajout un bruit gaussien e de variance 5,0.10-3.

Figure 6.3 : Reprsentation de la fonction z = f(x, y) = -0,5 + 0,2 x2 0,1 exp(y). L'ensemble d'apprentissage est constitu de cinquante exemples pour lesquels la sortie ti est calcule par :
t i = f (xi, yi) + e i

90

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

L'apprentissage est ralis en minimisant l'erreur quadratique moyenne sur l'ensemble d'apprentissage. Les surfaces modlises aprs apprentissage par un rseau trois neurones cachs et par un rseau dix neurones cachs sont reprsentes sur la Figure 6.4. Le cot quadratique sur la base d'apprentissage est plus faible avec le rseau comprenant dix neurones cachs qu'avec le rseau en contenant deux (6,0.10-4 contre 3,7.10-3). On voit nettement sur cette figure que le rseau avec dix neurones cachs a utilis ses degrs de libert pour s'ajuster localement certains points et que le modle trouv est loin de la surface thorique de la Figure 6.3, contrairement la surface modlise par le rseau avec trois neurones cachs.

Figure 6.4 : Surfaces modlises par le rseau de neurones aprs apprentissage. Quadrant de gauche : rseau avec deux neurones cachs. Quadrant de droite : rseau avec dix neurones cachs. Dans cet exemple artificiel, la variance du modle dix neurones cachs est donc grande alors que son biais est faible ; le modle avec trois neurones cachs semble tre un bon compromis entre les deux exigences. 6.4.3.2 Le surajustement pour les problmes de classification supervise Pour la classification supervise, les donnes ne sont pas bruites puisque l'on considre que le superviseur qui attribue les classes sur l'ensemble d'apprentissage ne fait pas d'erreur. Cependant, il arrive que, pour un mme point de l'espace des entres, la probabilit d'appartenance une classe ne soit pas gale 1 ou 0 : le problme n'est pas linairement sparable. La sortie du rseau doit alors tre la probabilit a posteriori au sens du thorme de

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

91

Bayes pour ce point. Si le rseau s'ajuste trop finement la base d'apprentissage, il surestime ou sous-estime cette probabilit.

Considrons un problme de classification deux classes avec deux entres x et y issues de distributions gaussiennes notes N(m ; s) o m est la moyenne de la distribution et s son carttype. Pour la premire classe, la distribution selon x est une combinaison de deux distributions N(-2 ; 0,5) et N(0 ; 0,5), et celle selon y est issue de N(0 ; 0,5). Pour la deuxime classe, la distribution est issue de N(-1 ; 1) pour x, et N(1 ; 0,5) pour y. La Figure 6.5 montre le rsultat d'un tirage alatoire des points pour les deux classes et la probabilit a posteriori calcule grce la formule de Bayes (pour ce problme artificiel, les densits de probabilits sont connues et il est donc possible de calculer la probabilit a posteriori thorique). La surface de cette figure est la sortie idale que doit avoir un rseau de neurones aprs l'apprentissage.

Figure 6.5 : Rpartition des points et distribution thorique de la probabilit a posteriori. L'un des causes du surajustement est le trop grand nombre de degrs de libert de la fonction par rapport au modle. Ce problme est illustr par la Figure 6.6 : la base d'apprentissage est constitue de 500 points, les rseaux de neurones sont des rseaux couches dont on fait varier la complexit grce au nombre de neurones cachs. Le modle de gauche avec deux neurones cachs est bien adapt au modle : la sortie du rseau est trs proche de la sortie thorique. Le modle de droite avec dix neurones cachs dispose clairement de trop de neurones cachs et s'ajuste pour passer exactement par certains points.

92

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

Figure 6.6 : Sortie d'un rseau avec deux neurones cachs gauche et dix neurones cachs droite aprs apprentissage sur un ensemble de 500 points. Dans ce cas, si l'on sait dtecter le surajustement, il suffit de rduire le nombre de neurones cachs pour trouver la bonne architecture.

Lorsque le nombre de points disponibles pour l'apprentissage diminue, le phnomne prcdent s'accentue et le surajustement peut tre observ mme pour des architectures trs simples. La Figure 6.7 montre la sortie d'un rseau deux neurones cachs aprs un apprentissage avec un ensemble contenant cinquante points.

Figure 6.7 : Sortie d'un rseau avec deux neurones cachs aprs apprentissage avec un ensemble de cinquante points. Dans ce cas, la sortie est un chelon, dont la frontire dpend grandement de la base d'apprentissage puisque cette frontire se place selon les points qui figurent dans cette zone :

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

93

le modle trouv a une variance leve. De plus, pour un point situ proximit de la frontire, le rseau produit une sortie qui vaut 0 ou 1 et qui a donc la mme valeur que pour un point situ par exemple en (-2, -2) et dont la classe n'est pas du tout ambigu. Dans ce cas, la sortie du rseau n'est plus une probabilit, mais une sortie binaire, il n'est plus possible notamment de classer les exemples par ordre de pertinence : le rseau de neurones ne fait plus de nuance. Il n'est plus possible de tracer des courbes rappel-prcision, ni de changer le seuil de dcision afin d'obtenir un filtre favorisant la prcision ou le rappel. 6.4.3.3 Conclusions sur l'tude de ces deux exemples Pour la classification, comme pour la rgression, et pour une architecture donne, le surajustement est d'autant plus marqu que le nombre d'exemples est faible par rapport la dimension du vecteur d'entre et la complexit de la fonction approcher. Ces exemples montrent que dans le cas d'un problme de classification, le surajustement est beaucoup plus localis que pour un problme de rgression. Dans le premier cas, le surajustement intervient dans la zone frontire entre les deux classes, alors que dans le second, il se fait sur l'ensemble du domaine. 6.5 Les mthodes pour limiter le surajustement

On distingue deux familles de mthodes pour prvenir le surajustement : les mthodes passives et les mthodes actives. Les philosophies de ces deux familles de mthodes sont diffrentes. Les mthodes passives essayent de dtecter le surajustement a posteriori pour supprimer les mauvais modles. Parmi les mthodes les plus classiques figurent l'utilisation d'une base de validation pendant l'apprentissage, et les mesures de critre d'information. Les mthodes actives interviennent pendant la phase d'apprentissage pour empcher le modle de faire du surajustement. Les mthodes de rgularisation comme l'arrt prmatur ou la pnalisation entrent dans ce cadre. 6.5.1 Les mthodes passives 6.5.1.1 Utilisation d'une base de validation pendant l'apprentissage Le principe consiste mesurer les performances pendant l'apprentissage sur une base de validation qui est diffrente de la base d'apprentissage. Lorsque le modle n'est pas trop ajust

94

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

aux donnes de l'apprentissage, les fonctions de cot sur la base de validation et d'apprentissage diminuent ensemble. Lorsque le modle commence tre surajust, la fonction de cot sur la base d'apprentissage continue de diminuer, alors que la fonction de cot sur la base de validation augmente. Cette mthode est surtout efficace pour les problmes de rgression, car comme l'a montr la Figure 6.4, le rseau tend s'ajuster aux donnes sur l'ensemble de l'espace : les variations de la fonction de cot sur la base de validation sont plus facilement dtectables. Dans l'exemple de la rgression du paragraphe 6.4.3.1, si l'on mesure les performances sur une base de validation comprenant 500 exemples gnrs de la mme manire que la base d'apprentissage, alors l'erreur quadratique commise par le rseau comprenant deux neurones cachs vaut 6,9.10-3 tandis qu'avec dix neurones cachs, cette erreur est de 2,4.10-2 ce qui montre que ce dernier a mal appris le processus. Pour le problme de classification, le surajustement ne se produit pas uniformment sur l'espace, mais a tendance apparatre dans les zones frontires entre les deux classes comme l'a montr l'exemple artificiel du paragraphe 6.4.3.2. Dans ce cas, la dgradation des performances sur une base de validation est moins vidente. Pour le problme de classification prsent au paragraphe 6.4.3.2, la Figure 6.8 montre l'volution, pendant l'apprentissage, de l'erreur quadratique moyenne (EQMV) et du taux d'exemples mal classs sur une base de validation contenant 300 points (la base d'apprentissage est constitue de 500 exemples).
Erreur sur la base de validation

0,25 0,2 0,15 0,1 0,05 0 0 50 100 150 200 250 300 Nombre d'itrations de l'algorithme d'apprentissage 2 NC 5 NC 7 NC 10 NC

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

95

Taux de mal classs sur la base de validation

20 15 2 NC 10 5 0 0 50 100 150 200 250 300 Nombre d'itrations de l'algorithme d'apprentissage 5 NC 7 NC 10 NC

Figure 6.8 : volution de la fonction de cot (EQMV) et du taux d'exemples mal classs sur la base de validation pour diffrentes architectures. L'axe des abscisses reprsente le nombre d'itrations de l'algorithme d'apprentissage. Ces courbes montrent que les performances sur la base validation se dgradent peu lorsque le nombre de neurones cachs augmente mme pour le modle avec dix neurones cachs, alors que la surface de la Figure 6.6 a montr clairement que le rseau de neurones tait surajust. Ceci est d au fait que le surajustement se produit principalement dans la zone frontire et concerne peu de points de la base de validation.

En conclusion, cette mthode ou les mthodes drives comme le leave-one-out (cf. [Monari, 1999] pour une tude thorique et pratique du leave-one-out) ne semblent pas les plus adaptes pour viter le surajustement dans les problmes de classification. 6.5.1.2 Les critres d'information Les critres d'information associent chaque modle une mesure qui tient compte la fois de la qualit de l'approximation sur la base de l'apprentissage et de la complexit du modle. On retrouve donc, en gnral, deux termes pour ces fonctions : le premier est d'autant plus petit que l'approximation du modle sur la base d'apprentissage est bonne et le deuxime augmente avec la complexit du modle. Le meilleur modle est celui pour lequel cette mesure est la plus petite.

96

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

Parmi les mesures couramment utilises figurent le critre d'Akaike [Akaike, 1974] ou le critre d'information dvelopp par [Schwartz, 1978], et connu sous le nom de BIC. En pratique, ces mesures doivent tre utilises lorsque le nombre d'exemples d'apprentissage est grand devant le nombre de paramtres du modle. Sur un exemple pour lequel le nombre d'exemples d'apprentissage est faible, ces critres conduisent de mauvais modles et ne sont pas utilisables [Gallinari et Cibas, 1999]. 6.5.1.3 Conclusion sur les mthodes passives Les mthodes passives, issues de la description du problme de surajustement en termes de biais-variance ne propose comme solution qu'une limitation de la complexit du modle par l'intermdiaire d'une limitation du nombre de neurones cachs. 6.5.2 Les mthodes actives : les mthodes de rgularisation Les mthodes de rgularisation, par opposition, peuvent tre qualifies d'actives, car elles ne cherchent pas limiter la complexit du rseau, mais elles contrlent la valeur des poids pendant l'apprentissage. Il devient possible d'utiliser des modles avec un nombre lev de poids et donc un modle complexe, mme si le nombre d'exemples d'apprentissage est faible. [Bartlett, 1997] a montr que la valeur des poids tait plus importante que leur nombre afin d'obtenir de modles qui ne sont pas surajusts. Il montre, que si un grand rseau est utilis et que l'algorithme d'apprentissage trouve une erreur quadratique moyenne faible avec des poids de valeurs absolues faibles, alors les performances en gnralisation dpendent de la taille des poids plutt que de leur nombre. Plusieurs mthodes de rgularisation existent dans la littrature, comme l'arrt prmatur (early stopping) qui consiste arrter l'apprentissage avant la convergence ou les mthodes de pnalisation. Les mthodes de pnalisation ajoutent un terme supplmentaire la fonction de cot usuelle afin de favoriser les fonctions rgulires :
J = J + aW

J est une fonction de cot comme celles prsentes au paragraphe 6.3.2, et W est une fonction qui favorise les modles rguliers. L'apprentissage est ralis en minimisant la nouvelle fonction J'. Un modle qui a bien appris la base d'apprentissage correspond une valeur faible de J, alors qu'une fonction rgulire correspond une fonction W faible : l'apprentissage doit

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

97

trouver une solution qui satisfasse ces deux exigences. Parmi les diffrentes formes possibles pour la fonction W, la mthode du weight decay est souvent utilise, car elle est simple mettre en uvre, et plusieurs tudes ont montr qu'elle conduisait de bons rsultats (voir par exemple [Hinton, 1987] [Krogh et Hertz, 1992] [Gallinari et Cibas, 1999]) ; de plus, elle trouve une interprtation thorique dans l'approche bayesienne dveloppe au paragraphe 6.6. 6.5.2.1 Arrt prmatur Comme nous l'avons vu prcdemment, l'apprentissage consiste minimiser, grce un algorithme itratif, une fonction de cot calcule sur la base d'apprentissage. La mthode de l'arrt prmatur (early stopping) consiste arrter les itrations avant la convergence de l'algorithme. Si la convergence n'est pas mene son terme, le modle ne s'ajuste pas trop finement aux donnes d'apprentissage : le surajustement est limit. Pour mettre en uvre cette mthode, il faut dterminer le nombre d'itrations utiliser pendant l'apprentissage. La mthode la plus classique consiste suivre l'volution de la fonction de cot sur une base de validation, et arrter les itrations lorsque le cot calcul sur cette base commence crotre. Cependant, comme le montre la Figure 6.8, cette mthode peut tre inapplicable, car il est difficile de dterminer avec prcision le moment exact o il faut arrter l'apprentissage puisque les performances sur la base de validation ne se dgradent pas nettement. On prfre donc utiliser les mthodes de rgularisation, d'autant que [Sjberg, 1994] a montr que l'arrt prmatur tait identique un terme de pnalisation dans la fonction de cot. 6.5.2.2 Weight Decay Lorsque les poids du rseau sont grands en valeur absolue, les sigmodes des neurones cachs sont satures, si bien que les fonctions modlises peuvent avoir des variations brusques. Pour obtenir des fonctions rgulires, il faut travailler avec la partie linaire des sigmodes, ce qui implique d'avoir des poids dont la valeur absolue est faible. Pour illustrer ce propos, on reprend le problme artificiel de classification introduit au paragraphe 6.4.3.2. La Figure 6.9 montre, pour diffrentes architectures, l'volution de la somme des carrs des poids pendant l'apprentissage. Except pour le modle comprenant deux neurones cachs, toutes les architectures obtiennent des poids trs grands en valeur absolue.

98

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

Ces grandes valeurs des poids conduisent des surfaces de sparation avec des variations brusques comme l'a montr la sortie du modle comprenant dix neurones cachs (Figure 6.6).

Somme des carrs des poids du rseau

10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 0 50 100 150 200 250 300 Nombre d'itrations de l'algorithme d'apprentissage

2 NC 5 NC 7 NC 10 NC

Figure 6.9 : volution de la moyenne des carrs des poids 1 S wi2 en fonction du nombre pi = 1 d'itrations de l'algorithme d'apprentissage. La courbe correspondant l'architecture deux neurones cachs est confondue avec l'axe. La mthode de rgularisation du weight decay limite la valeur absolue des poids en utilisant

W = 1 S wi2 . 2i =1
L'apprentissage s'effectue en minimisant :
p

J = J + a S wi2 2i=1
o p est le nombre de poids que comporte le rseau. Cette mthode est appele ridge regression dans le cas de modles linaires par rapport aux paramtres [Saporta, 1990]. a est un hyperparamtre qui dtermine l'importance relative des deux termes dans la nouvelle fonction de cot. Si a est trop grand, les poids tendent rapidement vers zro, le modle ne tient plus compte des donnes. Si a est trop petit, le terme de rgularisation perd de son importance et le rseau de neurones peut donc tre surajust. Dans le cas intermdiaire, les poids aprs l'apprentissage ont des valeurs modres.

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

99

Cette mthode prsente l'avantage d'tre trs simple mettre en uvre, puisque le gradient de J' se calcule trs simplement partir du gradient de J et du vecteur des poids du rseau w :
J = J + aw

Il suffit d'ajouter la quantit aw au vecteur J calcul par l'algorithme de rtropropagation.

En pratique, pour tenir compte du caractre diffrent des poids en fonction des couches, il faut considrer plusieurs hyperparamtres [MacKay, 1992b] :

J = J +

a1 SW0 wi2 + a 2 w SW1 wi2 + a 3 w SW2 wi2 2 w 2 2

W0 reprsente l'ensemble des poids reliant les biais aux neurones cachs, W1 reprsente l'ensemble des poids reliant les entres aux neurones cachs et W3 reprsente l'ensemble des poids relis au neurone de sortie (y compris le biais du neurone de sortie). Le modle comprend trois hyperparamtres a1, a2, a3, qui doivent tre dtermins. L'une des solutions consiste tester plusieurs valeurs pour ces hyperparamtres et conserver le meilleur modle par une mthode de validation croise. Mais comme il y a trois hyperpraramtres dterminer, le nombre de valeurs tester est rdhibitoire. L'approche bayesienne explique au paragraphe 6.6 propose une solution thorique pour dterminer ces valeurs. 6.5.3 Exemple d'utilisation des techniques de rgularisation L'exemple prsent ci-dessous illustre les notions de surajustement et montre l'impact de l'utilisation des mthodes d'arrt prmatur et du weight decay. Il s'agit d'un exemple rel de filtrage de dpches AFP ; le filtre slectionne les dpches relatives au thme des participations que nous avons dj prsent au chapitre 5. La base d'apprentissage est constitue de 1400 exemples de dpches pertinentes au maximum et de 8000 dpches non pertinentes. Plusieurs apprentissages sont raliss avec un rseau contenant un unique neurone sigmode, et avec des tailles de la base d'apprentissage diffrentes ; les performances sont values sur une base de test indpendante, qui comprend

100

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

200 dpches pertinentes et 1000 dpches non pertinentes. La mesure utilise est la mesure F, le seuil de dcision tant ajust de faon maximiser cette valeur sur la base de test. La Figure 6.10 montre l'volution des performances sur la base de test et l'volution de la norme des poids, en fonction de l'volution des proportions des exemples pertinents et non pertinents sur la base d'apprentissage. L'axe des abscisses reprsente le nombre de dpches pertinentes prsentes dans la base d'apprentissage et l'axe des ordonnes le nombre de dpches non pertinentes. Pour chaque composition de la base d'apprentissage, la figure du haut rapporte les performances sur la base de test sur l'axe z, alors que celle du bas montre la norme euclidienne des poids du rseau aprs apprentissage. L'apprentissage est effectu sans aucune mthode de rgularisation. Les rsultats montrent que lorsque le nombre d'exemples est faible, la norme euclidienne des poids est trs grande et les performances sont faibles. Il n'est pas possible de simplifier l'architecture du rseau puisqu'il ne comporte qu'un seul neurone : l'utilisation d'une mthode de rgularisation est obligatoire. La mthode de l'arrt prmatur a t utilise sur le mme problme de faon trs simple : l'algorithme de minimisation implmente uniquement une descente de gradient simple. Plusieurs initialisations sont testes, et celle qui donne le cot le plus faible sur la base d'apprentissage est conserve. Les performances sont calcules sur la base de test comme prcdemment.

050010001500020004000600080000.750.80.850.90.951Nombre de textes pertinentsNombre de textes non pertinents F sur la base de testsur la ba

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

101

Norme des poids 6000 5000 4000 3000 2000 1000 0 8000 6000 4000 2000 Nombre de textes non pertinents sur la base d'apprentissage 0 0 500 Nombre de textes pertinents sur la base d'apprentissage 1000 1500

Figure 6.10 : volution des performances (calcul de F sur la base de test), et de la norme euclidienne des poids, en fonction des proportions de dpches pertinentes et non pertinentes dans l'ensemble d'apprentissage. Le nombre d'exemples pertinents varie de 200 1800 par pas de 200, et le nombre d'exemples non pertinents varie de 200 8000 par pas de 200. L'apprentissage est effectu par une descente de gradient suivi de la mthode de quasi-Newton sans aucun terme de rgularisation. Les rsultats, prsents la Figure 6.11, montrent que, grce cette mthode, les performances dans la zone o le nombre d'exemples de la base d'apprentissage est faible sont nettement amliores. En revanche, dans la zone o le nombre d'exemples est grand, les performances sont moins leves qu'avec la mthode simple : notre implmentation de l'arrt prmatur empche d'exploiter toute la connaissance disponible dans la base d'apprentissage.

050010001500020004000600080000.750.80.850.90.951Nombre de textes pertinentssur la base d'apprentissageNombre de textes non pertinentssur la base d'app

102

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

Figure 6.11 : Arrt prmatur : volution des performances en fonction du nombre de dpches pertinentes et non pertinentes sur l'ensemble d'apprentissage. Le rseau est un simple neurone sigmode, la minimisation de la fonction de cot s'effectue avec 800 itrations de gradient simple. Le graphe de la norme de poids n'est pas prsent, car dans tous les cas, les normes obtenues sont trs faibles. La mthode du weight decay a galement t utilise sur cet exemple, en utilisant deux hyperparamtres : un pour le biais (l b) et un pour les connexions entre les entres et le neurone de sortie (le ). On ne s'intresse pas, ici, l'optimisation de ces hyperparamtres : leurs valeurs sont donc constantes durant l'apprentissage. Les rsultats prsents la Figure 6.12 montrent que, dans la zone o le nombre d'exemples est faible, les performances sont nettement amliores par rapport la mthode sans rgularisation, et, dans la zone o le nombre d'exemples est lev, les performances ne sont pas modifies par rapport l'optimum obtenu sans rgularisation. Comme prcdemment, le graphe qui rend compte de l'volution des normes n'est pas prsent, puisque les normes restent faibles quel que soit le nombre d'exemples d'apprentissage.

Cet exemple montre que le manque d'information contenu dans la base d'apprentissage peut tre compens avantageusement grce une mthode de rgularisation comme l'arrt prmatur ou le weight decay. Ces rsultats montrent la ncessit d'utiliser des mthodes de rgularisation pour les problmes de filtrage, car il est frquent que le nombre d'exemples pertinents disponibles pour fabriquer un filtre ne dpasse pas la centaine. La mthode du weight decay semble prfrable la mthode de l'arrt prmatur, car, quel que soit le nombre d'exemples disponibles, elle permet d'obtenir des rsultats optimum.

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

103

050010001500020004000600080000.750.80.850.90.951Nombre de textes pertinentssur la base d'apprentissageNombre de textes non pertinentssur la base d'a

Figure 6.12 : Weight decay : volution des performances en fonction du nombre de dpches pertinentes et non pertinentes sur l'ensemble d'apprentissage. Le rseau est un simple neurone sigmode. Les paramtres de rgularisation sont lb = 0,001 et le = 1.

6.6

L'approche bayesienne

L'approche bayesienne a t applique ces dernires annes aux rseaux de neurones par diffrents auteurs, notamment dans les travaux de [MacKay, 1992a], [MacKay, 1992b], [Neal, 1994], repris dans [Neal, 1996]) et [Buntine et Weigend, 1991] et plus rcemment par [Thodberg, 1996]. Une synthse de ces diffrentes approches peut tre trouve dans [Bishop, 1995]. 6.6.1 Principe de l'approche bayesienne Dans le paragraphe 6.3, l'apprentissage tait effectu en trouvant une valeur du vecteur des poids qui minimise une fonction de cot issue du principe de maximum de vraisemblance. Dans l'approche bayesienne, tous les paramtres, notamment les poids du rseau, sont considrs comme des variables alatoires issues d'une distribution de probabilit. L'apprentissage d'un rseau de neurones consiste dterminer la distribution de probabilit des poids connaissant les donnes d'apprentissage : on attribue aux poids une probabilit fixe a priori, et, une fois que les donnes d'apprentissage ont t observes, cette probabilit a priori est transforme en probabilit a posteriori grce au thorme de Bayes. Ainsi, si D reprsente l'ensemble des donnes d'apprentissage, p(w) est la densit de probabilit a priori des poids, p(D|w) la densit de probabilit d'observer les donnes

104

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

connaissant les poids du rseau, et P(w|D) la probabilit a posteriori que l'on cherche dterminer, alors le thorme de Bayes s'crit :
P (w|D) = p (D|w) p (w) p (D)

Pour un problme de classification, la probabilit d'observer les donnes connaissant les poids a t calcule au paragraphe 6.3.2.2 :
p(D|w) = P ( yi(w)) t i(1 yi(w)) 1 t i = exp ( Ec(w))
iD

Si l'on fait une hypothse gaussienne pour la probabilit a priori des poids, elle s'crit alors :
p(w) = 1 exp ( a w2) 2 iS1 i = Z w(a)
Z w(a) = ( 2p ) 2 a
1

o Zw(a) est une constante de normalisation qui ne dpend que de a :

Comme les quantits p(D) et Z w(a) ne dpendent pas des poids du rseau, maximiser la probabilit a posteriori des poids du rseau revient minimiser la quantit :
p

J(w) = Ec(w) + a S wi2 2i=1


On retrouve la fonction de cot avec un terme de weight decay introduite au paragraphe 6.5.2.2. Le terme de rgularisation trouve, avec l'approche bayesienne, une interprtation naturelle, et la valeur de l'hyperparamtre a est lie la variance de la probabilit a priori des poids.

Le formalisme dcrit ici correspond l'utilisation d'un seul hyperparamtre ; l'utilisation de plusieurs hyperparamtres correspond des probabilits a priori diffrentes pour les diffrentes familles de poids. Comme ces probabilits sont indpendantes, la probabilit globale est le produit des probabilits, et, du fait des proprits mathmatiques de l'exponentielle, la nouvelle fonction de cot peut s'crire, par exemple, pour trois hyperparamtres :

J (w) = Ec(w) +

a1 a a w2 + 2 S wi2 + 3 S wi2 2 wS 1 i 2 w W2 2 w W3 W

Les hyperparamtres a1, a2, a3 sont lis aux variances des distributions gaussiennes.

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

105

Il est possible de choisir d'autres formes pour la probabilit a priori des poids. [Buntine et Weigend, 1991] choisissent, par exemple, une probabilit a priori fonde sur l'entropie et aboutissent une fonction de cot de la forme :
p

J (w) = Ec(w) + a S

i=1

wi2 1 + wi2

6.6.2 Les avantages de l'approche bayesienne D'un point de vue thorique, [Neal, 1996] a montr que, lorsque les probabilits a priori des poids sont convenablement choisies, il n'est pas ncessaire de limiter la taille du rseau pour viter le surajustement, et le nombre de neurones cachs peut tendre vers l'infini. Selon cette tude, le seul facteur qui doit limiter la taille du rseau est la capacit des ordinateurs utiliss et le temps disponible pour effectuer les calculs ncessaires.

D'un point de vue pratique, la thorie de lapproche bayesienne pour l'apprentissage des rseaux de neurones apporte dimportantes amliorations : Le concept de rgularisation peut tre interprt de faon naturelle dans le contexte bayesien. Les hyperparamtres intervenant dans la fonction de rgularisation sont calculs lors de la phase d'apprentissage sans utiliser de base de validation. Le dtail des calculs est prcis au paragraphe 6.6.5. Le calcul de l'vidence explicit au paragraphe 6.6.6 permet de slectionner, parmi une famille de modles, le meilleur modle, uniquement grce la base d'apprentissage. Comme tous les calculs se font partir de la base d'apprentissage, il n'est plus ncessaire de disposer d'une base de validation. Il est donc possible d'utiliser toutes les donnes dont on dispose pour estimer les poids du rseau. Des barres d'erreurs peuvent tre calcules pour les problmes de rgression. L'incertitude sur les poids peut tre prise en considration pour corriger la probabilit calcule par un rseau dans un problme de classification.

106

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation Les entres peuvent tre slectionnes grce la mthode Automatic Relevance Determination : un hyperparamtre est associ chaque entre et aprs l'apprentissage, les hyperparamtres avec de grandes valeurs indiquent des entres non pertinentes.

6.6.3 Les inconvnients de l'approche bayesienne Comme les paramtres utiliss sont maintenant issus de distributions de probabilit, il est ncessaire, pour connatre un paramtre, de calculer des intgrales faisant intervenir les distributions des autres paramtres. Il est, en gnral, impossible de calculer ces intgrales analytiquement, et plusieurs approches ont t proposes pour effectuer ces calculs. Mais soit ces mthodes sont trs lourdes implmenter, soit elles reposent sur des approximations qui peuvent fausser les rsultats. Finalement les rsultats thoriques proposs par l'approche bayesienne sont souvent inapplicables en l'tat dans le cadre des rseaux de neurones.

Dans ses travaux, Neal [Neal, 1992] utilise des mthodes de Monte Carlo couples des modles de Markov cachs pour calculer les diffrentes intgrales intervenant dans les diffrentes tapes. Les calculs sont trs lourds mettre en place et ncessitent beaucoup de temps de calcul. Nous n'avons pas cherch dans ce travail utiliser cette approche. MacKay [MacKay, 1992a] [MacKay, 1992b] [MacKay, 1992c] a propos des approximations reposant sur des hypothses gaussiennes des probabilits a posteriori. Grce ces hypothses, les calculs d'intgrales se trouvent simplifis et peuvent tre effectus plus ou moins simplement. Ces approximations sont parfois discutables, surtout pour les problmes de classification. Nanmoins, grce ces approximations, les calculs sont simplifis de sorte que l'approche bayesienne devient utilisable en pratique. L'approche propose par MacKay est connue sous le nom de evidence framework. 6.6.4 Principe de l'approximation gaussienne Dans son approche, MacKay considre une approximation gaussienne de la probabilit a posteriori des poids. Cette approximation est obtenue en effectuant un dveloppement au second ordre de la fonction de cot J(w) autour de son minimum :
J(w) = J wMP + 1 w wMP 2
T

A w wMP

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation wMP est la valeur la plus probable des poids et A est le hessien de la fonction de cot J(w). Avec cette approximation de la fonction J(w), la probabilit a posteriori des poids s'crit :
p(w|D) = 1 exp J wMP 1 w wMP 2 ZJ
T

107

A w wMP

Zj est une constante de normalisation approprie l'approximation gaussienne, dont la valeur est obtenue en considrant le calcul de l'intgrale d'une gaussienne :
Z j a = exp J wMP 2p
p 2 1 2

det A

Grce ces approximations, les calculs d'intgrales sont simplifis. 6.6.5 Calcul des hyperparamtres Le traitement correct des hyperparamtres dans l'approche bayesienne implique le calcul des intgrales sur l'ensemble de leurs valeurs possibles. Par exemple, pour connatre la probabilit a posteriori des poids si le modle comporte un hyperparamtre a, il faut calculer :
p(w|D) = p(w,a|D)da

Deux approches diffrentes ont t proposes dans la littrature : la maximisation et l'intgration. 6.6.5.1 Calcul des hyperparamtres par le principe de maximisation Le principe de la maximisation a t propos par MacKay et repose sur les techniques dveloppes par [Gull, 1988]. Si la densit de probabilit de l'hyperparamtre a est trs troite autour de sa valeur aMP la plus probable, alors :
p(w|D) ~ p(w,a MP|D) p(a)da = p(w,a MP|D)

Cette mthode consiste calculer la valeur la plus probable pour les hyperparamtres, et faire la suite des calculs avec ces valeurs pour les hyperparamtres.

La valeur la plus probable de l'hyperparamtre a est dtermine grce au thorme de Bayes :

p a|D =

p D|a p a pD

108

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

Donc, si la probabilit de l'hyperparamtre est uniforme, le maximum de la probabilit a posteriori de l'hyperparamtre est obtenu lorsque p(D|a) est maximum :
p(D|a) = p(D|w) p(w|a)dw

Dans le formalisme dvelopp par MacKay, la quantit p(D| a ) est appele evidence de l'hyperparamtre. La densit de probabilit a priori des poids p(w) et la quantit p(D|w) ont t calcules prcdemment ; on a donc :
p(D|a) = 1 Zw a exp J w dw

soit :
p(D|a) = Z j(a) Zw a

En utilisant le rsultat de l'approximation gaussienne de la probabilit a posteriori, indiqu au paragraphe 6.6.4, le logarithme de l'vidence de l'hyperparamtre s'crit : p ln p D|a = J wMP 1 ln det A + ln a 2 2 Pour trouver le maximum de cette expression, afin de maximiser l'vidence de l'hyperparamtre, il faut donc driver l'expression prcdente par rapport a. Pour calculer la drive du dterminant de la matrice A, on crit :
A =J(w) = Ec(w) + aI = H + aI

I est la matrice identit et H est le hessien de la fonction de cot non rgularise (l'entropie croise), c'est donc une matrice de dimension (p, p). Si l'ensemble des valeurs propres de la matrice H est not {l i}, alors la matrice A a pour valeurs propres l'ensemble {a+ l i}. Par consquent :
ln det A = ln a a
p

P
i=1

l i + a = S ln l i + a = S 1 = Tr A 1 i = 1 li + a a i = 1
g wMP
2

On obtient finalement :
a MP =

g = p a.Tr(A 1) =

i=1

S ll a +
i i

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

109

Une interprtation de ce calcul a t donne par [Gull, 1989] : g est le nombre de paramtres bien dtermins, c'est--dire le nombre de paramtres dont la valeur est effectivement dtermine par les donnes d'apprentissage plutt que par les probabilits a priori.

Si plusieurs hyperparamtres interviennent dans la fonction de cot, le calcul de g prcdent n'est plus valable, il est ncessaire de calculer une valeur de gk diffrente pour chaque hyperparamtre ak :
gk = S
j

h j ak T h j V I kV

jj

et

ak =

gk
w Wk

w2

o W k reprsente le sous-groupe de poids lis l'hyperparamtre a k, {hj} reprsente l'ensemble des valeurs propres de la matrice A, V est la matrice des vecteurs propres, et Ik est une matrice dont tous les termes sont nuls sauf les lments diagonaux lis au groupe de poids gouverns par l'hyperparamtre pour lesquels la valeur est 1. Il est ais de voir que dans le cas o il n'y a qu'un seul paramtre, on retrouve la formule prcdente, puisqu'on a alors hj = l j + a et VTV = I car, la matrice A tant symtrique, la matrice V est orthogonale. Par consquent, contrairement au cas prcdent, il faut galement calculer les matrices de vecteurs propres, ce qui demande plus de temps que pour le calcul unique des valeurs propres [Press et al., 1992].

La dtermination des hyperparamtres par cette mthode ncessite donc plusieurs approximations, notamment l'approximation gaussienne de la probabilit a posteriori. De plus dans le calcul de la drive par rapport a, les termes

l i ont t ngligs. a

110

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

6.6.5.2 Calcul des hyperparamtres par le principe d'intgration Une autre mthode du calcul des hyperparamtres a t applique par [Buntine et Weigend, 1991] et [Williams, 1995]. Elle consiste calculer analytiquement l'intgrale qui fait intervenir les hyperparamtres. En faisant des hypothses pour la probabilit a priori des hyperparamtres de la forme p(ln a) = 1, le calcul exact de l'intgrale devient alors possible. Les auteurs dfinissent des valeurs efficaces pour les hyperparamtres :
a eff = p wMP
2

La minimisation de la fonction de cot s'effectue en recalculant a chaque itration de l'algorithme de minimisation. Cette mthode est galement appele MAP pour Maximum a posteriori. 6.6.5.3 Maximisation ou intgration Il y a eu un grand dbat dans la communaut pour savoir si l'intgration tait prfrable la maximisation. A priori l'intgration semble tre la bonne mthode puisqu'elle correspond l'application de la thorie. Cependant, dans une publication plus rcente, [MacKay, 1999] affirme la supriorit de la mthode de maximisation sur la mthode d'intgration. Cependant, les deux expressions sont trs proches et le deuxime rsultat peut tre considr comme une approximation au premier ordre du premier (qualifie de "cheap and cheerful" dans [MacKay, 1992a]) en prenant g = p. 6.6.5.4 Implmentation et convergence L'hyperparamtre est initialis une valeur alatoire, qui ne doit pas tre trop grande afin que les poids ne tendent pas vers zro ds les premires itrations. Ensuite, aprs un certain nombre d'itrations pour l'algorithme de minimisation, l'hyperparamtre est estim nouveau rgulirement selon l'une des deux formules suivantes : soit a n = p g n S wi2
i=1

o la quantit gn reprsente un nombre de termes effectifs ; elle est calcule par :


g n = p a n 1.Tr(A 1) ,

ce qui ncessite le calcule de la matrice A-1 ; le calcul de la trace est alors immdiat ;

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

111

soit g n =

i=1

S ll a, +
i i

ce qui ncessite le calcul des valeurs propres de la matrice H.

Dans tous les cas, il est ncessaire de calculer la matrice du hessien de la fonction de cot non rgularise (l'entropie croise dans notre cas). Ce calcul peut tre effectu par un algorithme inspir de la rtropropagation [Bishop, 1992]. Il ncessite un nombre de calculs en O(p2) ce qui n'est pas prohibitif mme pour des rseaux comprenant une centaine de poids. De plus, ces calculs n'interviennent que lors de l'apprentissage, et, comme il n'est plus utile, thoriquement, d'effectuer de validations croises, le temps consacr au calcul des hyperparamtres est gagn par ailleurs. Il est galement possible d'utiliser des approximations de la fonction du hessien, mais dans les expriences qui suivent, le calcul exact a t utilis. Les calculs d'inverse de matrice ou de valeurs propres ont t implments selon [Press et al., 1992]. Lorsque les hyperparamtres sont estims, la surface de cot est modifie et une nouvelle minimisation est effectue, jusqu' ce que les hyperparamtres soient nouveau modifis. Les deux tapes suivantes sont rptes un certain nombre de fois jusqu' trouver des poids et des hyperparamtres qui n'voluent plus : 1. minimisation partielle de la fonction de cot rgularise. 2. estimation des hyperparamtres. La convergence de cet algorithme n'a pas, notre connaissance, t dmontre pour les modles non linaires comme les rseaux de neurones. De plus, diffrents problmes numriques peuvent se poser avec cette mthode pendant l'apprentissage : en effet, le minimum trouv lors de la phase d'apprentissage est un minimum pour la fonction de cot rgularise, mais pas pour la fonction de cot non rgularise. La matrice H n'est donc pas ncessairement dfinie positive : certaines valeurs propres peuvent tre ngatives et entraner une valeur de g ngative. Pour remdier ce problme, une mthode ad hoc peut tre utilise : ne pas tenir compte des valeurs propres ngatives comme il est suggr dans la FAQ sur l'approche bayesienne1.

http://wol.ra.phy.cam.ac.uk/mackay/Bayes_FAQ.html

112

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

6.6.6 Slection de modles : calcul de l'vidence d'un modle 6.6.6.1 Principe et calcul de l'vidence d'un modle D'aprs l'ensemble de la thorie, chaque modle Hi trouv est li une probabilit, le meilleur modle tant celui pour lequel la probabilit est la plus grande connaissant les donnes. Un modle est dfini par son architecture, les valeurs de ses hyperparamtres et la distribution a posteriori de ses poids. Il est donc ncessaire de calculer pour chaque modle sa probabilit a priori ; or, toujours selon le thorme de Bayes :
P (H i|D) = p (D|H i) P (H i) p (D)

A priori, chaque modle tant quiprobable, la quantit P(Hi) est la mme pour tous les modles. De plus, comme le dnominateur ne dpend pas du modle, seule la quantit p(D|Hi) est dterminante. Cette quantit est appele vidence du modle et doit tre calcule.
p(D|H i) = p(D|w,H i) p(w|H i)dw

A partir des approximations dj effectues pour le calcul des hyperparamtres et d'autres approximations qui ne sont pas reprises ici, MacKay propose une formule pour calculer le logarithme de l'vidence :
p ln ( p(D|H i) = J (wMP) 1 ln (det (A)) + ln (a MP) + 1 ln 2 +ln N c! + 2ln N c 2 2 2 g

Pour un modle donn, plus cette quantit est grande, plus le modle a une probabilit a posteriori leve ; entre plusieurs modles, il faut donc slectionner celui qui possde la plus grande vidence. 6.6.6.2 Lien entre l'vidence et les performances en gnralisation Le modle ainsi retenu est suppos tre le meilleur modle au sens de la thorie. Or, dans la pratique, le meilleur modle est celui qui a les meilleures performances en gnralisation. Il est donc important de vrifier si la notion d'vidence est corrle la performance en gnralisation, et plus particulirement si les modles avec les plus grandes vidences ont les meilleures performances.

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

113

Selon Bishop [Bishop, 1995], il existe plusieurs raisons pour lesquelles cette corrlation est souvent mauvaise : La base de test tant de taille finie, l'estimation des performances sur cette base n'est pas prcise, et dpend videmment du choix de cette base. Il peut exister plusieurs modles diffrents qui font exactement les mmes prdictions et qui ont donc la mme performance en gnralisation ; cependant, le calcul de l'vidence va favoriser le modle le plus simple. La performance est gnralement calcule avec la valeur la plus probable des poids, or l'approche bayesienne ncessiterait de tenir compte de la distribution des poids. Le calcul de l'vidence prsent ici rsulte d'approximations qui ne sont pas ncessairement justifies. Numriquement, le calcul de l'vidence peut tre instable, notamment le calcul du logarithme du dterminant de la matrice A. Selon MacKay, une mauvaise corrlation entre ces deux mesures rvlent un modle mal adapt c'est--dire un nombre d'hyperparamtres mal choisis. Ainsi, dans [MacKay, 1992b], il utilise un modle avec un seul hyperparamtre et trouve une mauvaise corrlation. Lorsqu'il utilise trois hyperparamtres, la corrlation devient nettement meilleure. [Thodberg, 1996] tudie galement, sur un problme de rgression, la corrlation entre ces deux valeurs. Cette corrlation est loin d'tre parfaite, mais cependant, l'ensemble des modles avec l'vidence la plus leve ont bien les meilleures performances en gnralisation. 6.7 Conclusion

Ce chapitre a permis de rappeler les proprits principales des rseaux de neurones utiliss dans la suite de ce mmoire. La dfinition du surajustement a t rappele afin de fixer prcisment la nature du problme, et sa spcificit dans le cas de la classification. Nous avons montr, sur un problme artificiel et sur un problme rel de filtrage, la ncessit d'ajouter un terme de weight decay la fonction de cot usuelle pour les problmes o le nombre d'exemples de la base d'apprentissage est limit. L'tude du cas rel a montr que les mauvaises performances obtenues lorsque la base d'apprentissage possdait peu d'exemples n'taient pas uniquement dues au manque d'information, mais galement la faon de conduire

114

Chapitre 6 : Apprentissage des rseaux de neurones et rgularisation

l'apprentissage. Sur cet exemple, l'ajout du terme de weight decay compense en grande partie le manque d'informations. L'introduction de l'approche bayesienne propose un cadre thorique pour le terme de weight decay et rsout, thoriquement, le problme de la dtermination des hyperparamtres.

Enfin, l'intrt de l'ajout d'un terme de weight decay a t prouv sur problme particulier de filtrage ; les chapitre 7 et 8 vont permettre de tester cette approche, ainsi que les formules de calcul des hyperparamtres, sur un ensemble de thmes diffrents.