N dordre:
Srie:
MEMOIRE
EN VUE DE LOBTENTION DU DIPLOME DE
MAGISTER EN MATHEMATIQUES
THEME
LANALYSE DISCRIMINANTE ET LE PERCEPTRON
MULTICOUCHE
PRESENTE PAR:
OTMANI Imene
1 La rgression statistique 5
2 Lanalyse discriminante 14
2.1 La discrimination . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Le thorme de Bayes et la classification . . . . . . . . . . . . 15
1
3.5 Rseaux de neurones linaires . . . . . . . . . . . . . . . . . . 40
3.5.1 Le neurone linaire comme classificateur . . . . . . . . 41
3.5.2 Les proprits de classification du neurone linaire comme
capacits prdictives . . . . . . . . . . . . . . . . . . . 43
3.5.3 Neurone linaire comme prdicteur . . . . . . . . . . . 45
3.5.4 Comparaison du modle de neurone linaire avec la
rgression linaire . . . . . . . . . . . . . . . . . . . . . 46
3.5.5 Un exemple pratique . . . . . . . . . . . . . . . . . . . 47
3.6 Limitation dun rseau une seule couche . . . . . . . . . . . 47
3.7 Perceptron Multicouche (PMC) . . . . . . . . . . . . . . . . . 50
3.7.1 Le perceptron multicouche deux entres . . . . . . . 50
3.7.2 Le PMC avec des donnes multidimensionnelles . . . . 60
2
Introduction gnrale
La modlisation constitue le parachvement dun travail statistique quand
il arrive sa pleine maturit. En effet, tablir le modle qui gre un ph-
nomne signifie que nous avons compris et matris tous les tenants et les
aboutissants de ce phnomne. Le modle met en lumire les facteurs in-
tervenants, le degr de leurs influences et les relations exactes qui les lient.
La puissance et lintrt de la statistique prennent toute leur ampleur dans
la modlisation qui permet un fait capital : lextrapolation la population
entire de linformation rcolte dans lchantillon dtude. Le modle doit
rester valable en dehors des donnes qui ont servi pour son laboration.
Cest ce qui fait que la rgression soit un domaine central de la statis-
tique et qui revt une grande importance. Beaucoup de domaines sadossent
sur cette discipline et beaucoup dautres y prennent leurs racines et leurs
fondements tels que, entre autres, les sries chronologiques et lconomtrie.
La rgression est un domaine vaste qui a fait lobjet de beaucoup dtudes.
Certains de ses aspects sont compltement matriss ; dautres prsentent
encore des difficults.
La part la plus importante des travaux a t consacre la rgression
linaire, qui est la plus largement utilise. Elle est devenue un outil compris
et consacr, ne prsentant pas de problmes sauf lorsque les variables expli-
catives sont fortement corrles. Mais mme pour cette question, qui fait que
lestimateur des moindres carrs soit instable, des estimateurs concurrents
ont t proposs et ont permis de dpasser lobstacle.
La vraie grande question reste celle lorsquil y a non linarit du modle.
Les difficults sont essentiellement dordre technique. Il est beaucoup plus
complexe de mener une rgression non linaire quune rgression linaire. Des
solutions partielles sont proposes pour traiter des familles particulires de
fonctions (rgression logistique, rgression polynmiale, . . . ) mais le problme
de fond persiste ; linexistence dune mthode unifie et gnrale conue pour
effectuer toute sorte de rgression non linaire.
Cest une discipline, dorigine multidisciplinaire, mais qui est aujourdhui
parfaitement assimil une extension des mthodes statistiques, qui depuis
quelques dcades, vient apporter les outils pour traiter toutes les questions
qui sont restes en suspens. Ce sont les rseaux de neurones artificiels. Ils
permettent de reproduire tout aussi bien les mthodes standards de la sta-
tistique comme ils permettent de surmonter les problmes relevant du non
linaire. Ils sont aptes apporter des solutions nouvelles et juguler des
problmes traditionnellement classs difficiles.
Dans notre travail, nous avons essay de mener une tude comparative
opposant les techniques conventionnelles de rgression et de discrimination
3
ce qui, dans les rseaux de neurones, se prsentent comme quivalents.
Les deux premiers chapitres exposent brivement les notions de rgression
puis les notions de discrimination qui, sous un certain angle, nen sont que
des corollaires.
Le chapitre trois introduit les rseaux de neurones, en focalisant sur les
paramtres qui permettent de construire les outils appropris pour effectuer
les tches de classification (ou de discrimination) et les tches de modlisa-
tion.
Ce chapitre sachve avec la prsentation du perceptron multicouche qui
permet le traitement efficace des problmes non linaires, que cela soit en
termes de rgression ou en termes de classification.
Le chapitre quatre runit les lments pralables et expose lalgorithme
de la rtro-propagation du gradient, qui est lalgorithme dapprentissage le
plus couramment utilis dans les rseaux multicouche propagation avant.
Les problmes spcifiques des rseaux de neurones sont ceux de la stabilit
et de la convergence : lapprentissage tant itratif, les rseaux peuvent dans
certains cas osciller autour de la solution sans latteindre, ils peuvent dans
dautres cas ne pas converger vers la solution. Le chapitre cinq expose les
algorithmes utiliser dans pareils cas.
4
Chapitre 1
La rgression statistique
y = f (x) + (1.1)
of (.) est une fonction dterministe, et est une variable alatoire. Pour
cela, il y a deux difficults propres qui sont :
La fonction de rgression f (.) (dterministe) peut avoir une forme ana-
lytique quelconque, mais est de toute faon inconnue.
est une variable alatoire de moyenne nulle, mais de distribution in-
connue. ( dpend possiblement de x (htroscdasticit)).
Daprs la relation entre les variables, on a distingu deux catgories : la
rgression paramtrique et la rgression non paramtrique.
5
Si on a un chantillon alatoire (Xi , Yi ), i = 1, ..., n . Un modle de r-
gression linaire simple suppose la relation affine entre Xi et Yi suivante :
Yi = aXi + b + i (1.2)
Les i sont indpendants de distribution normale : i N(0,s2 ) .
La rgression linaire consiste dterminer des estimateurs des valeurs a
et b. pour quantifier la validit de cette relation, nous utilisons le coefficient
de corrlation linaire.
Empiriquement, partir de lobservation (yi , xi ) i = 1, ..., n , on a repr-
sent un graphe dont lensemble de points reprsentent des mesures dune
grandeur yi en fonction dune autre xi ; par exemple la taille yi des enfants
en fonction de leur ge xi (voir figure1.1).
Les points paraissent aligns .On peut alors proposer un modle linaire,
cest--dire chercher la droite dont lquation est yi = axi + b et qui passe
6
aussi par des points du graphe selon la mthode des moindres carrs et qui
rend minimale la somme des carrs des carts des points la droite S donne
par :
n
S= (yi axi b)2 (1.3)
i 1
(Z Y ) U = 0 (1.4)
et
(Z Y )(X X) = 0 (1.5)
La gnralisation p variables explicatives de ce modle sappelle la r-
gression linaire multiple.
7
laccroissement dune unit xij quand toutes les autres variables sont main-
tenues constantes[1].
Les erreurs suivent une loi normale multidimensionnelle N (0, 2 In )
Pour estimer ces paramtres, nous utilisons comme dans ce qui prcde
la mthode de moindre carr qui consiste minimiser la somme des carrs
des rsidus S
S= (yi a1 xi1 a2 xi2 .... ap xip )2 (1.7)
8
y1
y2
.
Y =
(1.8)
.
.
yn
et
1 x11 ....xp11
1 x12 ....xp12
X=
....
(1.9)
....
1 x1n ....xp1n
La rgression multiple linaire sexprime sous la forme matricielle sui-
vante :
Y = XB
Alors, la question est destimer le vecteur de coefficient B MP,1 em-
ployant la mthode de moindre carrs. On note lestimateur par B qui est
donne par :
= (X T X)1 X T Y
B (1.10)
La lettre T dnote le transpos de la matrice.
Sil ny a pas une colinarit entre les variables explicatives, alors la ma-
trice X T X est rgulire (det (X T X) = 0) et (X T X)1 existe ( cest
quivalent rang (X) = rang (X T X) = p + 1).
9
Un modle (quil soit prdictif ou descriptif) construit sur la base dun
chantillon ne doit pas contenir trop de paramtres (ici a0 ,
a1 , ...,
ap ).
Ses performances samliorent sur lchantillon, mais se dgradent sur
des donnes nouvelles en raison dune variance exagre des estimations des
valeurs prdites.
Les valeurs de ses paramtres prend toute signification, l encore en
raison de leur grande variance.
Ces questions sont dune grande important pratique et vont forcer lana-
lyste fournir un effort important pour slectionner, parmi les {xi } dispo-
nibles (souvent trs nombreuses), celles qui seront retenues dans le modle
final.
3/ Colinarit des variables explicatives :
Sil y a une colinarit entre les variables explicatives, X T X n est pas
rgulire ( det (X T X) = 0) alors (X T X)1 n existe plus ,dans ce cas, nous
ne pouvons pas dterminer lestimateur du vecteur de coefficient B par la
mthode de moindre carr ( B n existe pas), alors la rgression multiple est
encore plus complexe[24].
10
y = a0 + a1 exp(x1 ) (1.12)
y = a0 + a1 sin(x1 ) (1.13)
y = a0 [1 exp(a1 x1 )] (1.14)
yi = a0 xa1i1 (1.16)
Remarque 2 La forme non linaire est non linaire dans les paramtres, par
exemple, le polynme est non linaire par rapport aux variables explicatives
mais il est linaire dans les paramtres donns par :
11
calcul de driv de S par rapport a a0 et a1 puis le fait de rsoudre le systme
deux quations qui en rsulte, nest pas facile.
3 / Quelque fois un ajustement polynmiale peut tre utilis, mais il peut
suffire dstimer la valeur dun point intermdiaire de la courbe pour lequel
aucune valeur ne peut tre faite. Souvent, il faudra choisir un degr lev
pour le polynme, alors quun modle non linaire fera intervenir un nombre
plus faible de paramtres pour une qualit quivalente de lajustement. Ici la
forme analytique plus complexe du modle non linaire compense, en quelque
sort, le modle plus restreint de paramtres.
4 / La pratique peut tre acceptable avec deux paramtres, mais elle
deviendrait inutilisable des que ce nombre de parametres augmente.
12
deuxime difficult est que x est une variable alatoire de moyenne nulle,
mais de distribution inconnue, et dpendant possiblement de x (htroscdas-
ticit). Le but de ce travail est de rendre ces difficults minimales en utilisant
les rseaux de neurone. Dans la rgression, y (la variable explique) est une
variable continue. On peut concentrer les discussions un cas particulier o
y a des valeurs discrtes (par exemple 0, 1,. . . etc). Cette mthode statistique
sappelle lanalyse discriminante. Dans le deuxime chapitre, nous allons d-
finir lanalyse discriminante et quelque principes qui permettent dutiliser les
rseaux de neurones .
13
Chapitre 2
Lanalyse discriminante
Dans le premier chapitre, nous avons fait un rappel de lune des questions
centrales de la modlisation statistique de donnes qui est la rgression. Nous
avons vu que cette mthode a plusieurs limitations. Pour faire une discussion
but damlioration, nous proposons le cas particulier ou la variable expliqu
est discrte (qualitative). Nous appelons ce cas lanalyse discriminante.
Dans ce chapitre, nous allons dfinir les notions et discuter les proprits
de lanalyse discriminante et sa robustesse en utilisant lexemple suivant :
Lorsque y nest pas une variable quantitative mais qualitative deux
niveaux, il est encore possible de faire formellement une rgression, Par
exemple, dans le domaine mdical, on peut tudier les soins possibles pour
une maladie : intervention chirurgicale(groupe 1, y = 0) , ou chimiothrapie
(groupe 2, y = 1) en fonction de certaines donnes biologiques reprsen-
tant les rgresseurs. La rgression linaire multiple fournit les mmes rsul-
tats que lanalyse discriminante linaire deux populations. Si dans les n
observations n1 valeurs de y sont gales 0 et n2 gales 1,la moyenne
y = n2 /n, (n = n1 + n2 ) . Si on fait une rgression sur le y centr, les obser-
vations correspondants une intervention chirurgicale sont toutes ngatives
(et gales n1 /n ) celles correspondant la chimiothrapie sont toutes
positives (et gale n2 /n). Lestimation de y permet de choisir le type de
soins auquel il faut soumettre un nouveau malade sur lequel ont t observes
les mmes donnes biologiques : intervention chirurgicale si lestimation de y
est ngative, chimiothrapie si elle est positive. Cette estimation est un outil
daide la discussion pour le praticien, dautant plus sur que la valeur est
diffrente de 0[25].
14
2.1 La discrimination
Daprs lexemple prcdent, nous pouvons reprsenter les rsultats de
discrimination en termes de variable y, o
y = 1 si le malade C1
(2.1)
y = 0 si non il C2
ou nous pouvons utiliser un seuil S,dans lexemple prcdent S = 0 telque
y 0 le malade C1
(2.2)
y 0 le malade C2
Dans les problmes plus complexe, il peut y avoir plusieurs classes (C),
pas seulement C1 et C2 , on associe les classes avec plusieurs variables yk o
k = 1, .....c
On peut rassembler les variables x1 et x2 dans un vecteur de dimension
2, x tel que x = (x1 , x2 ), meme pour les variables yk telle que y = (y1 , ..., yc )
de dimension c.
Alors nous pouvons modeler cette opration par une fonction mathma-
tique qui contient un certain nombre des paramtres rglables w, dont les
valeurs sont dtermines avec laide des donnes : yk = yk (x, w) telles que
w = (w1 , ....., wd )T .
On suppose quon a
15
nouveau malade qui correspondra au groupe des malades de lintervention
chirurgicale.
Nous pouvons utiliser le thorme de Bayes pour raliser notre but, mais
prsentons dabord la formulation gnrale de ce thorme.
P (A B)
P (A/B) =
P (B)
Thorme de Bayes
Aussi connu sous le nom de "Rgle de Bayes" ou "Formule de Bayes"
La formule simple
Soit A et B deux vnements quelconques dun ensemble fondamental
muni dune loi de probabilit P.La formule de Bayes est donne par
P (A/B) .P (B)
P (B/A) = (2.4)
P (A)
La formule gnrale
Elle snonce ainsi :
* Si A est un vnement quelconque,
* Et si {B1 , B2 , ..., Bn } est une partition de
Alors pour tout i :
P (A/Bi ) .P (Bi )
P (Bi /A) = n (2.5)
P (A/Bj ) P (Bj )
j=1
16
Le cas discret
Supposons quil faille affecter des observations des classes sur la base de
mesures faites sur lunique attribut x, suppos prendre des valeurs discrtes
x(l) .
Nous dfinissons la probabilit a priori de la classe ck comme la pro-
portion des observations qui appartiennent cette classe, quelle que soit la
valeur prise par x. Nous notons cette probabilit P (ck ).
De mme, nous dfinissons la probabilit inconditionnelle P x(l) comme
la proportion des observations pour lesquelles x prend la valeur x(l) , quelle
que soit leur classe.
De mme, la probabilit conditionnelle de classe P x(l) /ck est la pro-
portion des observations dans la classe ck pour lesquelles x = x(l) . Pour une
classe donne, cest une fonction de l.
Nous ne considrons maintenant que les observations pour lesquelles
x = x(l) . La probabilit a posteriori de la classe ck pour la valeur x(l) est la
proportion
des observations qui appartiennent cette classe. Elle est note
P ck /x ,pour une valeur donne, cest donc une fonction de k.
(l)
17
En effet, une observation appartient forcment une classe et une seule,
et la somme des probabilits dappartenance aux classes est donc gale 1.
Remplaons chaque terme de la somme par son expression donne par la
formule de Bayes. Nous obtenons :
(l)
P x(l) = P x /cj P (cj ) (2.8)
j
Le cas continu
La formule de Bayes nest que lgrement modifie si x est une variable
continue. La dfinition des probabilits a priori
(l) est bien sr inchanges. Mais :
* Les probabilits inconditionnelles P x doivent tre remplaces par la
densit (de probabilit) inconditionnelle f (x), qui est la fonction de densit
de probabilit de x quand les tiquettes de classe nesont pas prises en compte.
* Les probabilits conditionnelles de classe P x(l) /ck doivent tre rem-
places par les densits (de probabilit) conditionnelles de classes f (x/ck ).
Chacune de ces k densits est la densit de probabilit de x pour la population
dune classe quand les autres classes sont ignores.
La formule de Bayes devient alors :
f (x/ck ) P (ck )
f (ck /x) = (2.10)
f (x)
Il est important de distinguer deux tapes spares dans le procd de la
classification, elles sont : linfrence et la dcision
Linfrence
Linfrence
des donnes est employe pour dterminer des valeurs (P (ck ),
P x /ck ,P x ) afin de calculer la probabilit a posteriori pour chaque
(l) (l)
18
La dcision
Dans ce cas, ces probabilits sont employes pour faire des dcisions quun
nouveau point de donne appartient la classe pour laquelle la probabilit a
posteriori est la plus grande.
Donc
19
F. 2.1 Un exemple du frontire de dcision dans un espace trois
dimensionnelle[12]
20
Daprs (2.15) ,on peut dfinir yk (x) par la formule suivante :
21
La fonction discriminante quadratique
Dans lanalyse discriminante, nous supposons que les classes sont de distri-
bution multinormale. Si lespace est d-dimensionnelle, la forme de la fonction
de densit de probabilit multinormale donne par
1 1
f(x/ck ) = d 1 exp (x k )T D1 (x k ) (2.19)
(2) 2 |D| 2 2
1 1
yk (x) = (x k )T Dk1 (x k ) ln |Dk | + ln P (ck ) (2.21)
2 2
La forme donne dans lquation (2.21) est la forme gnrale dune fonc-
tion discriminante quadratique dans lespace d-dimension. Pour cela, la fron-
tire de dcision est quadratique.
22
O
wkt = Tk D1 (2.24)
Et
1
wk0 = Tk D1 k + ln P (ck ) (2.25)
2
Nous remarquons que lquation (2.23) est linaire en x, alors yk (x) est
une fonction discriminante linaire[18]. Les frontires de dcision correspon-
dantes lquation yk (x) = yj (x) sont alors un hyperplan. Voir figure (2.2).
23
Dfinition 9 Un ensemble de vecteurs de donnes, sappellent linairement
sparables sils peuvent tre spare par un ensemble dhyperplans comme
frontires de dcision dans lespace de donnes[15].
24
Chapitre 3
Les rseaux de neurone et la
statistique conventionnelle
25
schma [3.1].
Les rseaux de neurones sont trs puissants en adaptant les modles aux
donnes. Ils peuvent adapter arbitrairement les modles non linaires com-
plexes aux donnes multidimensionnelles toute exactitude dsire. Dun
point de vue fonctionnelle, ils peuvent tre considrs comme un prolonge-
ment de certaines techniques multivariable, telle que la rgression linaire
multiple, la rgression non linaire, les tches de classification comportant
arbitrairement les frontires de dcision non linaires complexes. Nous pou-
vons discuter ces problmes dans ce chapitre.
Daprs la dfinition de rseaux de neurones, toutes ses diffrentes capa-
cits varient en fonction de la fonction dactivation, la structure de rseau et
le type dapprentissage utilis :
26
3.1 La fonction dactivation
Dfinition biologique
La fonction dactivation est une abstraction reprsentant le taux de po-
tentiel daction mise feu dans la cellule. Sous sa forme plus simple, cette
fonction est binaire cest--dire, lun ou lautre neurone est la mise feu ou
pas.
Dfinition artificiel
La fonction dactivation(ou fonction de seuillage, ou encore fonction de
transfert) dun neurone artificiel dfinit le rendement de ce neurone donn
partir dune entre ou un ensemble dentres.Diffrentes fonctions de
transfert pouvant tre utilises comme fonction dactivation du neurone sont
numres dansla figure (3.2). Les trois les plus utilises sont les fonctions
seuil (en anglais hard limit), linaire et sigmode.[21]
27
Dornavant, nous remplaons la terminologie statistique conventionnelle
par une terminologie qui est utilise dans les rseaux de neurone, tel que
lchantillon (le vecteur de variables (x1 , x2 , ..., xd ) est remplac par les entrs
de neurone, la fonction de transfert non linaire g correspond la fonction
dactivation dans le neurone qui transfre le mlange linaire des entres et
les poids une valeur de sortie qui est une fonction des entres .
28
F. 3.3 Un exemple de RNA cyclique [2].
Remarque 11 : seule couche indique la couche des sorties car dans la couche
d entre il nya pas le traitement dactivation de la connexion (des fonctions
dactivations).
29
tous les neurones de la couche suivante, et celle-ci seulement. Ceci nous per-
met dintroduire la notion de sens de parcours de linformation (lactivation
) au sein dun rseau.
Les couches intermdiaires entre la couche dentre et la couche de sortie
nayant aucun contact avec lextrieur sont appeles couches caches (dans
lexcution informatique). (voir figure3.5)
30
3.3 Lapprentissage
Lapprentissage est vraisemblablement la poprit la plus intressante des
rseaux de neurones. Cependant, elle ne concerne pas tous les modles, Mais
les plus utiliss.
Cest--dire un changement dans la valeur des poids qui relient les neu-
rones dune couche lautre[7]. Soit le poids wij reliant le neurone i son
( )
entre j. Au temps , un changement wij de poids peut sexprimer sim-
plement de la faon suivante :
( ) ( +1) ( )
wij = wij wij (3.1)
( +1) ( ) ( ) ( +1) ( )
Par consquent, wij = wij + wij , avec wij et wij reprsentent
respectivement les nouvelles valeurs et les anciennes aussi du poids wij .
Lapprentissage supervis
Les donnes utilises pour lapprentissage supervis sont dites compltes
car elles contiennent la fois les valeurs x1 , ..., xc prises par les p variables
explicatives et leur appartenance aux c classes t1 , ...,tc . Les donnes com-
pltes sont donc lensemble des couples (observation, cible), i.e. {(x1 , t1 ), ...,
(xc , tc )}.On peut dire qu" un professeur" fournit aux exemples de ce que
celui-ci doit faire pour tenir compte de lerreur observe en sortie.
31
3.3.2 Les rgles dapprentissage
Il y a diffrentes rgles pouvant guider lapprentissage dun rseau de
neurone
w( ) = E ( ) (3.2)
O est appele le taux dapprentissage et E ( ) dsigne le gradient de
E par rapport ces paramtres libres (les poids w) au temps , la rgle (3.2)
dite de descente du gradient. Nous ferons une discussion plus dtaille sur
cette rgle dans le cinquime chapitre.
32
La rgle dapprentissage comptitif
Comme son nom lindique, lapprentissage comptitif consiste faire
comptitioner les neurones dun rseau pour dterminer celui qui sera ac-
tif un instant donn. Contrairement aux autres types dapprentissage o,
gnralement, tous les neurones peuvent apprendre simultanment et de la
mme manire, lapprentissage comptitif produit un vainqueur ainsi que,
parfois, un ensemble de neurones voisins du vainqueur. Seul ce vainqueur
et, potentiellement, son voisinage bnficient dune adaptation de leur poids.
On dit alors que lapprentissage est local car il est limit un sous-ensemble
des neurones du rseau[21]
Donc, on peut crire la rgle dapprentissage comptitif comme suit
(x w) si le neurone est vainqueur
w = (3.4)
0 autrement
O 0 < < 1 correspond un taux dapprentissage, x est le vecteur
dentre et w est le vecteur de poids.
Dans les paragraphes suivants de ce chapitre , nous insisterons sur les
rseaux de neurones qui traitent des tches de rgression (approximation de
fonction) et lanalyse discriminante statistique. On distingue trois catgo-
ries daprs les fonctions dactivation qui sont utilises dans les neurones (
fonction seuil , linaire , et non linaire )
3.4.1 Le perceptron
Le perceptron est historiquement le premier modle. Il est dvelopp
comme approximation simple des neurones biologiques par Mc Clloch- Pitts
en 1940[20]. Cest un seul neurone artificiel avec d valeurs dentres rsu-
mes dans un vecteur de dimension d , X = (x1 , x2 , ...., xd )T ,une unit de
transfert se compose dun additionneur (pour sommer les signaux dentres)
,et une fonction dactivation seuil g, tel que lunit de transfert (le trai-
tement est reli avec les entres par des poids synaptiques caractriss par
wi ou i = 1, ..., d, et une seule sortie y. Ce neurone permet de sparer ou
partitionner lespace des donnes lentre en deux parties spares
par un hyperplan selon le rsultat de classification de lentre en 1 ou 0[3].
33
Alors la tche discute dan ce paragraphe consiste classifier correctement
les vecteurs dentre en deux groupes (1ou0). Pour simplifier les tudes, nous
pouvons considrer un perceptron avec seulement deux entres schmatises
dans la figure suivante. voir figure (3.6)
34
Comme classificateur, le perceptron et lanalyse discriminante linaire sont
quivalents.
Et
N
y (x) = g( wj x j ) (3.8)
j=0
On peut crire
35
O M est lensemble des vecteurs xn qui sont mal classifis
Si nous appliquons la rgle delta donne dans le paragraphe (3.3.2) la
fonction erreur prsente par (3.9)
perc
E
= xn tn (3.14)
wkj
Alors nous obtenons :
( +1) ( )
wkj = wj + xn tn (3.15)
Ceci correspond un algorithme dapprentissage trs simple. Il est facile
de voir que ce procd tend de rduire la fonction erreur comme suit :
Comme
xn tn 0 et 0 (3.16)
Daprs (3.16) nous remarquons que
E perc w( +1) E perc w( ) (3.17)
36
T xn tn 0 pour tout n
w (3.18)
Lapprentissage commence par un certain nombre de vecteurs arbitraires
de poids. Sans perdre la gnralit, nous pouvons supposer que le vecteur est
gal zro.
A chaque tape de lalgorithme ; le vecteur de poids employ est mis
jour .
w( +1) = w( ) + xn tn (3.19)
O xn est un vecteur dentre qui est mal classifi par le perceptron, on a
w0 = 0
w 1 = xn tn
w 2 = 2 (xn tn )
..
.
Supposons quaprs rptition de lalgorithme pendant un certain nombre
detapes, le nombre de fois o chaque vecteur xn prsent est mal classif est
n.
Alors, le vecteur de poids ce moment sera donn par :
w( ) = n xn tn (3.20)
Et le vecteur de poids pour tous les points dapprentissage est donn par
w= n xn tn (3.21)
n
37
Nous considrons maintenant la grandeur des vecteur de poids w :
Daprs(3.19). on a :
( +1) 2
w = w( ) + xn tn 2 (3.24)
2
= w( ) + xn (tn )2 + 2w (2)T xn tn
w( )T xn tn0 (3.25)
38
Vectors to be Classified
1.2
0.8
0.6
P(2)
0.4
0.2
39
Le traitement de ces donnes avec le logiciel MATLAB donne la figure
suivante ou on note les individus de classe c1 par des cercles et lautre classe
par des plus(+).
Dans la figure (3.7), la frontire de dcision finale est superpose aux
donnes.ceci prouve que le perceptron a trouv la meilleure frontire de
dcision linaire pour ce problme. Nous remarquons quil nexiste pas de
points de classification fausse alors la performance est de 100 pour cent.
40
Widrow et Hoff (1960) ont dvelopp le premier modle de neurone li-
naire adaptatif (ADALINE), et pour la premire fois, il mise en application
lapprentissage supervis par correction derreur (la rgle delta prsent dans
le paragraphe 3.3.2).
Dans ce paragraphe, nous allons explorer les larges possibilits de classi-
fication et de prdiction du neurone linaire gnrale et nous allons examiner
comment il est entran par la rgle delta.
Cependant, lerreur est calcule en se basant sur la sortie linaire qui est
continue, la sortie du classificateur est donne comme suit :
1 si y 0
y = (3.29)
0 si y 0
En effet, il y a deux variables dentres, il est ncessaire dutiliser un
neurone linaire deux entres et une sortie, tel quon le voit dans la figure
[3.8]
Pour les entres x1 , x2 , ayant les poids correspondants w1 , w2 , sans
lentre du biais , il faut calculer dabord lentr nette a :
41
a = w1 x1 + w2 x2 (3.30)
La transformation linaire donne (dans notre cas ici cest lidentit) :
y = a = w1 x1 + w2 x2 (3.32)
a = w1 x1 + w2 x2 (3.33)
y = a
E = ty
= t w1 x1 w2 x2
(i+1) (i)
w1 = w1 + x1 E (3.35)
(i+1) (i)
w2 = w2 + x2 E
42
(0)
w1 = E x1 (3.36)
(0)
w2 = E x2
y = a = w1 x1 + w2 x2 = 0 (3.38)
Donc
w1
x2 = x1 (3.39)
w2
43
forme gnrale de la relation entre entres et sorties tablies par le neurone
linaire pour voir que la classification est une forme de prdiction quand
langle de vue est restreint.
La sortie du neurone avec deux entres comme nous avons vu prcdem-
ment est y = w1 x1 + w2 x2 ,o y est un plan appel des plan solutions et il est
montr dans la figure [3.10]
44
Nous pouvons voir que le neurone linaire est capable de produire une appli-
cation continue des entres vers les sorties, cest tout qui est requis dans la
prdiction ou dans lapproximation des fonctions. Nous allons voir en dtail
les possibilits prdictives du neurone linaire.
Lapprentissage avec la rgle delta (en cas dun seul neurone li-
naire) La sortie de neurone prcdent est donne par y = wx dont la
valeur cible est t, alors,
e = ty (3.40)
= t wx
45
Donc,
E
w = (3.41)
w
= ex
O
1 1
E = e2 = (t w1 x)2
2 2
Le poids de neurone la e`me itration peut tre exprim comme suit
w( +1) = w( ) + w ( ) (3.42)
= w( ) + e( ) x
y = w0 + w1 x 1 (3.43)
Lquation (3.43) est similaire la rgression linaire simple. Sil y a plusieurs
variables alors ceci rend lutilisation dun neurone linaire avec plusieurs en-
tres (et un biais) est ncessaire.Dans un neurone avec entres multiple, sa
sortie est exprime par lexpression suivante
y = w1 x1 + w2 x2 + ... + wn xn (3.44)
Lquation (3.44) montre quun neurone linaire plusieurs entres est
quivalent la rgression linaire multiple. Nous avons vu dans le premier
chapitre que dans la rgression linaire multiple, les coefficients (intercep-
tion et pentes ) dune relation entre une variable dpendante et plusieurs
variables indpendantes sont cherchs tels que la somme de moindre carrs
de lensemble des donnes est rduite au minimum.
Le neurone linaire ne fait aucune hypothse au sujet de la distribution
des donnes tandis que la rgression linaire (simple ou multiple) suppose
que les variables i sont normalement distribues et que la variance de la
variable i est constante travers la gamme des variables explicatives xi
(homoxdasticit).
46
Remarque 21 Beaucoup dunits linaire de neurone peuvent tre colles
pour former un rseau une seule couche avec plusieurs sorties linaires
comme illustr par le schma [3.15]. Dans la classification, chaque neurone
reprsente une classe (quivalent au rseau de perceptrons multiple). Alors,
le classificateur linaire plusieurs sorties est quivalent un classificateur
de fonction discriminante linaire multicatgoriel.
47
Vectors to be Classified
200
180
160
140
P(2)
120
100
80
60
0 100 200 300 400 500
P(1)
48
ne sont pas linairement sparables. Si on applique les mmes donns au per-
ceptron, alors lalgorithme dapprentissage ne se terminera jamais. De mme
pour un rseau une seule couche, il peut seulement classifier les points qui
sont linairement sparables, car ce type de rseau correspond aux fonctions
discriminantes ayant une frontire de dcision linaire, ou plus gnralement,
hyperplans dans des dimensions plus leves, alors il est une classe de rseau
trs troite de fonction discriminante possible, et dans beaucoup de situations
pratiques, il ne peut pas reprsenter un choix optimal. Dans la littrature sur
le calcul neuronale, beaucoup dattention est souvent accorde lincapacit
des rseaux une seule couche pour rsoudre des problmes simples tels que
le problme XOR rsum dans la figure (3.13) Ceci fournit la motivation
principale pour lusage de rseaux multicouches.
49
teret du traitement non linaire dans les rseaux de neurones. La puissance
de ces rseaux vient de la couche cache des neurones. Car si on ajoute une
couche de neurones, le nombre de paramtres augmentera et pour un modle
quelconque, laugmentation de nombre du paramtres (le degr de libert)
rend ce modle plus flexible. Pour cela, le perceptron multicouches est trs
flexible et peut tre form pour assumer la forme des modles de donnes,
indpendamment de la complexit de ces modles.
Pour des problmes fortement non linaires (complexes) un perceptron
multicouche est impliqu. Ce rseau peut tre ncessaire pour rapprocher
correctement la relation entre les entres et les variables cibles.
Sur le schma [3.14], les x1 ,...,xn sont des variables dentres comportant la
couche dentre. Ce type de rseau peut rapprocher nimporte quelle relation
fonctionnelle complexe multidimensionnelle (de dimension n).
50
la connaissance que nous avons gagn de deux entres ( problmes bidimen-
sionnels) est gnralise beaucoup dentres ( problmes multidimension-
nelles). Cest possible, par ce que linformation de principe fondamental de
PMC peut tre extraite partir de ces exemples.
Un rseau avec deux entres peut rapprocher nimporte quelle sortie qui
dpend de deux variables indpendantes. Par consquent, elle peut rsoudre
nimporte quel problme de prdiction bidimensionnelle ou problme de clas-
sification.
La structure dun rseau deux entres est reprsente sur le schma
[3.15], dans lequel il y a deux entres, un ou plusieurs neurones cachs, et une
sortie. Pour des problmes de classification impliquant plus de deux classes,
il est ncessaire demployer un neurone de sortie pour chaque classe. Cepen-
dant pour la plupart des problmes de prdiction, seulement un neurone est
ncessaire.
51
F. 3.16 Un seul neurone cach non linaire avec deux entres [23].
a = w1 + w1 x1 + w2 x2 (3.45)
Cette quation est un plan dans l espace bidimensionnel (x1 , x2 ). Comme
cest reprsent dans le schma [3.17].
F. 3.17 Lquation de somme nette prsente un plan dans lespace bidi-
mensionnel [23].
52
O z est une fonction logistique. En substituant a dans(3.46) on trouve :
1
z= (3.47)
1 + exp(w1 +w1 x1 +w2 x2 )
Maintenant z et a seront explors pour plusieurs cas daprs les valeurs :
w0 , w1 ,et w2 .
1- w0 = 0, w1 = 1, w2 = 0
La courbe de z en fonction de x1 et x2 pour ce cas est montre dans la
figure [3.18]qui dpend dune fonction logistique dans lespace bidimension-
nel. La valeur de poids w1 commande la pente de la fonction par rapport
laxe x1 .
2- w0 = 0, w1 = 0, w2 = 1
Ce cas est reprsent dans la figure [3.19] qui dmontre que w2 commande
la pente de la fonction par rapport x1 et la pente par rapport x2 est zro et
la fonction tant centre sur x1 = 0 et x2 = 0
.
53
F. 3.19 La fonction bidimensionnelle pour w0 = 0, w1 = 0, w2 = 1 [23]
3-w0 = 0, w1 = 1, w2 = 2
Dans ce cas , o w1 et w2 , qui commandent les pentes, sont non nulles, alors
une fonction logistique plus complexe est produite, comme il est reprsent
dans la figure [3.20].
4-w0 = 0, 5, w1 = 1, w2 = 1
Dans ce cas , la pente par rapport x1 est positive, et celle par rapport x2
est ngative. Comme le dmontre la figure[ 3.21].
Les illustrations graphiques ci-dessus prouvent que deux entres sont re-
presentes par une fonction : logistique bidimensionnelle de z dont les pentes
sont commandes par les poids w1 et w2 , le poids w0 dcale la rgion de
lactivation la plus leve de la fonction logistique.
Il est possible de visualiser comment plusieurs neurones peuvent agir
ensemble pour rapprocher une fonction bidimensionnelle ou un modele de
prdiction des rsultats de deux variables indpendantes fondamentalement,
chaque neurone donne une fonction sigmode bidimensionnelle, dont la forme
et la position sont commandes par ses poids w0 ,w1 et w2 selon la nature non
linaire de la fonction rapproche. De cette faon, plusieurs neurones ajoutent
la puissance et une grande flexibilit au rseau de neurones pour lidentifica-
54
F. 3.20 La fonction bidimensionnelle pour w0 = 0, w1 = 1, w2 = 2[23]
55
tion de modle non linaire et cela lui permet dapprocher nimporte quelle
fonction bidimensionnelle pour la prdiction.
a = w1 + w1 x1 + w2 x2 (3.48)
Puis, a est pass par une fonction logistique (fonction dactivation dun
neurone cach) pour obtenir une sortie de ce neurone z donne par(3.47)
1
z= (3.49)
1 + expa
La frontire est dfinie par a = 0, alors :
a = w1 + w1 x1 + w2 x2 (3.50)
= 0
Donc, nous remarquons que la frontire de dcision est une droite. Dans
ce cas aussi, nous examinons plusieurs cas de valeurs de w0 , w1 et w2 .
Nous prenons les mmes cas prcdents.
1-w0 = 0, w1 = 1, w2 = 0
Lquation de la ligne de frontire passe par un plan horizontal travers
le milieu de la fonction logistique. Cest une droite verticale qui peut tre
obtenue par les solutions de a = 0 et est prsente dans la figure [3.22]
56
F. 3.22 La ligne de frontire dans le cas w0 = 0, w1 = 1, w2 = 0
2-w0 = 0, w1 = 0, w2 = 1.
La ligne de frontire est dans ce cas une droite horizontale comme repr-
sente dans la figure [3.23]
3-w0 = 0, w1 = 1, w2 = 2
Dans ce cas , la figure de frontire est une ligne diagonale, elle divise sym-
triquement lespace dentre comme cela est reprsente dans la figure[3.24].
4-w0 = 0, 5, w1 = 1, w2 = 1
Leffet de la valeur de w0 doit excentrer la ligne de frontire, dont il dcale
essentiellement la rgion de lactivit la plus leve vers le centre, comme cest
reprsent dans la figure[3.25]
57
F. 3.23 Dans ce cas la frontire de dcision est une droite horizontale
[22].
58
F. 3.25 La ligne frontire en cas de w0 = 0.5, w1 = 1, w2 = 1 [23]
Avec le mme principe que prcdement, le rseau PMC avec deux entres
approche nimporte quelle fonction bidimensionnelle (frontire de dcision
pour la classification).
59
Un PMC, sous sa forme plus gnrale, peut avoir plusieurs neurones den-
tres et plusieurs neurones de sorties. Dans le cas de la prvision, il y a ha-
bituellement un seul neurone de sorties ; la classification multiclasse exige
plus dun. Il peut y avoir une ou plusieurs couches caches et plusieurs neu-
rones cachs dans chaque couche. Dans le cas gnral, l o il y a n entres,
M neurones cachs, et c neurones de sorties. Des tapes intermdiaires du
traitement dans un PMC peuvent tre construites comme suit
Lentre de neurone cach aj et la sortie de jme neurone zj sont :
n
aj = w0j + wij xi (3.51)
i=1
zj = g (aj ) (3.52)
L o xi est li
eme entre ,wij est le poids associ lentre i et le neurone
j,woj est le poids biais du neurone cach j et le g (aj ) peut tre la fonction
dactivation qui transforme aj en la sortie de neurone cach zj
La somme nette dentre ak et le yk la sortie de k eme neurone de sortie
peut tre crite comme suit :
M
ak = w0k + wjk zj (3.53)
j=1
yk = g (ak ) (3.54)
L o M et c sont le nombre de neurones cachs et de neurones de sortie
respectivement, wok est le poids biais du neurone de sortie k , wjk le poids
de raccordement entre le neurone cach j et le k eme neurone de sortie, et le
g (ak ) est la fonction dactivation du k eme neurone de sortie, qui transforme
ak vers sa sortie finale[22].
Remarque 23 Il existe un problme mdicale de discriminer les nodules
pulmonaires solitaires (le malin et benin). Dans la rsolution traditionnelle, il
est utilis une base statistique baysienne. Pour la rsolution de ce problme
par le PMC,on extrait le tableau des donnes daprs le service de radiologie de
CHU Constantine (prsent en annexe C), mais lexcution de ce problme
par le logiciel MATLAB version 7 nexiste pas. Dans la dernire version
(v10), il considre ce problme comme un problme de reconnaissance de
forme.
Lanalyse discriminante est le nom donn la classification, dans le cadre
supervis. Le mot supervis dsigne que lappartenance aux classes est dis-
ponible pour faire une correction derreur entre les sorties de rseau et les
60
valeurs cibles. Cette erreur sera explore de manire assez dtaille prochai-
nement.
61
Chapitre 4
La fonction derreur et ses
drives
62
Nous pouvons motiver la fonction derreur par le principe de maximum
de vraisemblance. Pour un ensemble dapprentissage {(xn , tn ) n = 1, ..., N}
la vraisemblance peut tre crite comme suit :
L = f (xn , tn ) (4.3)
n
= f (tn /xn )f (x) (4.4)
n
63
Nous supposons que la variable cible tk est donne par certaines fonctions
dterministes de x avec le bruit gaussien supplmentaire , de sorte que :
tk = hk (x) + k (4.8)
Nous supposons maintenant que lerreur k a une distribution normale
avec zro comme moyenne et un cart type qui ne dpend pas de x ou de
k. Alors, la distribution de k est donn par :
2
1 k
f (k ) = 2 1/2
exp (4.9)
(2 ) 2 2
Nous cherchons maintenant modeler hk (x) par un rseau de neurone
avec des sorties yk (x, w) o w est lensemble de paramtres de poids rgissant
la courbe de rseau de neurone.
En employant (4.8) et (4.9), nous voyons que la distribution de probabilit
des variables cibles est donne par :
1 {yk (x, w) tk }2
f (tk /x) = exp (4.10)
(2 2 )1/2 2 2
O nous avons remplac la fonction inconnue hk (x) par notre modle
yk (x, w)
En mme temps nous, substituons (4.7) dans (4.6) pour crire :
c
E = ln f (tnk , xn ) (4.11)
n k=1
N
C
= ln f(tnk , xn)
n=0 k=1
Daprs (4.10) on a :
1 {yk (xn , w) tnk }2
ln f(tnk , xn )
= ln (4.12)
(2 2 )1/2 2 2
1 {yk (xn , w) tnk }2
= ln 2 2
2 2 2
Nous substituons (4.12) dans (4.11) pour obtenir la forme suivante de E
N C
1 NC
E= 2 {yk (xn , w) tnk }2 NC ln + ln(2) (4.13)
2 n=1 k=0 2
64
Dans le but de la minimisation derreur , les deuximes et les troisimes
termes du ct droite de (4.12) sont indpendants des poids w et alors, ils
peuvent tre omis. De mme, le facteur global de 12 dans le premier terme
peut tre galement omis. Alors, nous obtenons finalement l expression uti-
lisable pour la fonction de somme quadratique comme suit :
N C
1 !2
E = yk (xn , w) t2k (4.14)
2 n=1 k=1
1
= y (xn , w) tn 2 (4.15)
2 n
Remarque 24 Noter quil est parfois utile pour une execution plus commode
des rseaux demployer une fonction derreur diffrente de l expression 4.15
qui est la racine de la moyenne quadratique (RMS) de la forme
"
# N
#1
E RMS = $ y (xn , w ) tn (4.16)
N n=1
65
Nous utilisons lexpression (4.1) dans (4.17) pour donner
1
E= (yk (x, w) tk )2 f (tk /x)f (x)dtk dx (4.18)
2
k
66
4.3.1 Les conditions de ce rsultat
Il y a deux conditions principales pour obtenir ce rsultat qui sont :
L ensemble de donnes doit tre suffisamment grand pour quil approche
un ensemble de donnes infini .
La fonction de sortie de rseau yk doit tre suffisamment gnrale, cela
exige un choix des paramtres qui fait le premier terme de (4.21) suffisam-
ment petit. Cette deuxime condition implique que le nombre de poids adap-
tatifs (ou de manire quivalente le nombre des units caches) doit tre
suffisamment grand
Il est important que les deux conditions (le grande taille de lensemble
dapprentissage et le grande nombre des poids) doivent tre ralises d une
manire couple pour raliser le rsultat dsir. Loptimisation des para-
mtres de rseau est excute ainsi quand on a trouv le minimum appropri
de la fonction de cot (ces techniques seront discutes dans le chapitre 05)
Dans ce travail nous utilisons les perceptrons avec deux couches (percep-
tron multicouche) qui fournissent un cadre pratique pour la modlisation de
la fonction multivariable non linaire par la moyenne conditionnelle.
Pour mettre le perceptron multicouche en phase dutilisation,nous com-
menons dabord par un point important qui est lespace de poids adaptatifs
de rseau.
67
wij et wjk o j est fix (pour unit cache fixe) et nous changeons les valeurs
de poids (et biais) lis une unit cache diffrente de j, Encore une fois, la
sortie de rseau nest pas change. Alors pour M units caches, un vecteur
de poids aura M ! vecteurs de poids quivalents.
Daprs le premier et le deuxime raisonnement pour un rseau de M
units caches, il y a M!2M facteurs de symtrie dans lespace de poids.
Remarque 26 Dans plusieurs cas, ces symtries, dans lespace de poids ont
peu de consquences pratiques.
68
erreurs vers larrire par le rseau et fournit un information efficace pour
valuer les drivs de la fonction derreur par rapport aux poids de rseau.
zj = g(aj ) (4.23)
O
aj = wij xi
i
yk (x) = g(ak )
69
O
ak = wkj zj (4.25)
j
E n E n aj
= . (4.26)
wji aj wji
Nous notons j :la driv de E n par rapport aj
On crit :
E n
= j (4.27)
aj
Alors,
ak
= wkj g(aj ) (4.30)
aj
70
Ce qui nous indique que la valeur j pour une unit cache particulire j
peut tre obtenue pour propager les k vers larrire partir des units plus
haut vers des units plus bas dans le rseau. Comme cest illustr dans la
figure (4.1)
.
Daprs (4.28) :
E n yk E n
k = . (4.32)
ak ak yk
71
Remarque 30 Dans cette dmonstration nous supposons que g g pour
simplifier les calculs, et nous pouvons gnraliser le rsultat.
Nous pouvons rcapituler la procdure de rtropropagation en quatre
tapes :
1)Mettre jour le vecteur dentre xn dans le rseau et propager en avant
et trouver les activations de toutes les units caches et les units de sorties.
2)Evaluer le k , k = 1 . . . , c, en utilisant (4.34) .
3)En utilisant (4.31) pour calculer j , j = 1 . . . , M .
4)Enfin, nous avons les drivs de E n par rapport wkj , j = 1 . . . , M et
k = 1 . . . , c par lutilisation de (4.26).
Si nous rptons ce prcd pour chaque xn o n = 1 . . . , N et daprs
n
E n E
wji
= wji
nous avons le rsultat.
n
La drivation du procd de retropropagation a tenu compte de la forme
gnrale de la fonction derreur et des fonctions dactivation. Afin dillustrer
lapplication de cette technique, nous prenons des exemples simples particu-
liers.
72
Lapplication de retropropagation un rseau PMC
Nous fixons larchitecture de rseau deux couches de poids adap-
tatif. Les fonctions dactivation des units de la couche cache sont des fonc-
tions logistiques et les fonctions dactivation des units de sorties de rseau
sont linaires. Nous utilisons la fonction
derreur de somme quadratique, qui
satisfait la proprit suivante E = E n pour un vecteur dentre xn
n
O E n donne par
c
n 1
E = (yk tk )2 (4.40)
2 k=1
zj = g(aj )
O
1
g(x) = (4.41)
1 + exp(x)
Daprs la deuxime
k = yk tk
Et on a n
j = g(aj ) wkj . k
k=1
g(aj ) = zj
73
Alors,
n
j = zj (1 zj ) wkj . k (4.42)
k=1
Les drivs par rapport aux poids de la premire couche sont indiques
par :
E n
= j xi (4.43)
wji
Et les drivs par rapport aux poids de la deuxime couche sont indiques
par :
E n
= k zj (4.44)
wkj
La matrice de Jacobi
Ici, nous considrons lvaluation de la matrice de JACOBI, dont
ses lments sont donns par les drivs des sorties de rseau par rapport aux
entres, telle que chaque driv est value avec toutes les autres entres en
les supposant fixes.
yk
Jkj = (4.45)
xi
74
yk yk aj
Jki = = . (4.46)
xi j
aj xi
yk
= wji .
j
aj
Car gj = wij .xi o lunit dentre i envoie une connexion toutes les
units j de couche cache.
Nous notons maintenant une formule rcursive de retropropagation pour
dterminer y k
aj
.
yk yk ak
= . (4.47)
aj k
a k aj
yk
= g(aj ) wkj .
k
ak
puisque
ak = wkj g(aj )
k
yk
= g (ak ) (4.48)
ak
75
La matrice de HESSIEN
Nous avons montr comment la technique de retropropagation peut
tre employe pour obtenir les premiers drivs dune fonction derreur par
rapport aux poids dans le rseau.
Cette technique peut tre employe pour valuer les deuximes drivs de
la fonction derreur donne par :
2E
(4.49)
wji wk
Ces drivs forment les lments de la matrice de HESSIEN, qui joue
un rle important dans le calcul neuronal. Dans ce travail, nous utilisons
cette matrice pour valuer plusieurs algorithmes doptimisation utilise pour
les rseaux de neurones. Pour une application importante de la matrice de
HESSIEN, on peut tre valuer les premires derives de la fonction derreur
par un calcul exact, par utilisation dune prolongation de la technique de
rtropropagation.
Comme dans ce qui prcde , nous prenons un modle la fois. Consid-
rons lexpression gnrale pour la driv de la fonction derreur par rapport
wk
Daprs (4.44)
E n
= zk (4.50)
wk
2E aj E n E n
= . ( ) = zj ( ) (4.51)
wji wk wji aj wk aj wk
E n
( ) = ( zk ) (4.52)
aj wk aj
zk
= . + .zk
aj aj
Et nous avons :
zk = g(ak )
76
alors,
zk g(ak ) ak
= . (4.53)
aj ak aj
ak
= g (ak ).
aj
2E ak
= zj g (ak ) + zj zk (4.55)
wji wk aj aj
Et
bj (4.57)
aj
Les quantits hkj peuvent tre values par la propagation vers lavant
ainsi : En utilisant la rgle de chaine pour les drivs partielless, nous aurons
ak ar
hkj = . (4.58)
r
a r aj
O la somme ici, est sur toutes les units r qui envoient les connexions
lunit k
Daprs (4.56), nous avons
ar
hrj (4.59)
aj
Et nous avons
ak = wkr g (ar ) (4.60)
r
77
Alors :
ak
= wkr g (ar ) (4.61)
ar
Si k=j alors hkj = 1
Si k = j alors hkj = 0
(car il ny a aucune connexion directe entrej et k )
Alors les lments restants de hkj peuvent tre trouvs par lquation
(4.62), nous pouvons valuer {hkj } pour la rtropropagation comme suit :
Daprs (4.62), nous avons vu que :
= g (a ) ws s (4.63)
s
' (
bj = g (a ) ws s (4.64)
aj s
' (
= g (a ). ws s + g (a ). ws s
aj s
a j s
g (a ) a s
= . ws s + g (a ) ws
a aj s s
aj
bj = g (a )hij ws s + g (a ) ws bsj
s s
78
4.5.4 Lefficacit de la rtropropagation
Un des aspects les plus importants de cette technique est son effica-
cit informatique. Pour cela nous supposons que w indique tout le nombre
de poids et biais dans le rseau ; pour un w suffisamment grand :
1/ lvaluation simple de la fonction derreur (pour les xn ) exigerait O(w)
oprations.
2/ Si le rseau est connexion complte, le nombre de poids est typi-
quement beaucoup plus grand que le nombre dunits. Alors, il y a un effort
informatique pour calculer zj et yk .
3/Le calcul de chaque zj exige une multiplication et une addition alors il
y a un cot informatique global qui est O(w).
4/Pour w (poids totale dans le rseau), il y a w drivs valuer.
5/ Pour une telle expression de la fonction derreur et les formes explicites
des drivs, nous l valuons par propagation vers lavant pour chaque lment
de w (pour chaque poids ou biais) exigeant O(w)oprations. Alors valuer
toutes les drivs, demande O(w2 ) oprations.
Par comparaisons, si nous utilisons la retropropagation ;
La phase de propagation avant demande O(w)oprations.
Lvaluation des drivs par la technique de retropropagation a ramen
la complexit informatique de O(w2 ) O(w) pour chaque vecteur dentre.
Alors pour cette raison, lutilisation de retropropagation dans un apprentis-
sage dans les rseaux multicouches consiste a consommer beaucoup de temps,
ainsi on a une efficacit cruciale.
La technique de retropropagation peut tre appliqu beaucoup dautres
genres de rseau et pas seulement le perceptron multicouche. Malgr leffi-
cacit et lapplication large de cette technique, elle possde des limitations
spcialement au niveau du plan pratique.
Afin de faire une excution pratique de rsolution du problme prdictif
multidimensionnel complexe, nous allons dtaill des algorithmes doptimi-
sation de poids adaptatifs dans ce qui suit.
79
Chapitre 5
Les algorithmes doptimisation
des poids adaptatifs
E = 0 (5.1)
80
F. 5.1 un point quelconque C, le gradient local de la surface derreur
est donn par le vecteur E [6].
w ( +1) = w ( ) + w( ) (5.2)
O dnote ltape ditration.
Les diffrents algorithmes impliquent diffrents choix de w( ) de vecteur
de poids et les choix des poids initiaux pour lalgorithme dtermine vers quel
minimum il convergera .
81
F. 5.2 E dnote le gradient de E dans lespace de poids w [6]
b = E |w (5.4)
2E
(H)ij = |w (5.5)
wi .wj
E = E(w)
+ (w w)H
82
E = b + H(w w)
(5.6)
Ces expressions forment une base pour une grande partie de la discussion
sur les algorithmes doptimisation.
Si nous supposons quew = w o w est le point qui minimise E(w) .
Alors, E |w = 0 et (5.3) devient :
1
E(w) = E(w ) + (w w )H(w w ) (5.7)
2
Hi = i i (5.8)
Ti j = ij (5.9)
1 si j = i
O ij est le symbole de KRONEKER ij =
0 si j = i
Alors nous pouvons crire (w w ) comme combinaison linaire des vec-
teurs propres sous la forme :
w w = i i (5.10)
i
1
E(w) = E(w ) + ()T H (5.11)
2
1 2 T
= E(w ) + Hi
2 i i i
83
Daprs (5.9), lexpression (5.12) devient :
1
E(w) = E(w ) + i 2i (5.13)
2 i
84
F. 5.3 Les longueurs des axes sont linverse proportionnelles aux racines
carres des vecteurs propres correspondants i [6].
jour alors itrativement le vecteur de poids tel que, ltape nous dplaons
une distance courte dans la direction du plus grand taux de diminution de
lerreur cest- -dire. dans la direction du gradient ngatif value w ( ) :
w( ) = E |w( ) (5.17)
w ( ) = E n |w( ) (5.18)
Pour la mise jour squentielle de
cette expression, nous pourrons esprer une rduction rgulire par lerreur
puisque pour suffisamment petit, la direction moyenne de mouvement dans
lespace de poids devrait approcher le ngatif de gradient local. Si le para-
mtre de taux dtude est telle quil diminue chaque tape de lalgorithme
selon les conditions de thorme (LUO 1991), celle ci peut tre satisfait en
choisissant :
1
x( ) (5.19)
85
Lanalogie devient
prcise, et nous sommes assurs de la convergence.
Ce choix entraine que la convergence est trs lente. Alors nous supposons
que a une valeur fixe.
Daprs (5.10)
E = H(w w ) (5.20)
Alors :
i = i i
Donc :
nouveau = (1 i )ncien
i (5.24)
86
Nous multiplions (5.13) parTi , nous obtenons :
i = Ti (w w ) (5.25)
87
Si est choisi trs petit, la recherche peut etre extrmement lente
(le temps de calcul est trs long)
3)La courbe de E change de manire significative avec la direction. Dans
la plupart des points sur la surface derreur, le gradient local ne se dirige pas
vers le minimum. Alors, la descente de gradient prend beaucoup de petites
mesures pour atteindre le minimum, et cest donc clairement un procd
totalement inefficace. Comme cest prsent dans le schma (5.04) pour un
espace de poids bidimensionnel.
4)Si le rapport min /max est trs petit, alors le progrs vers le minimum
sera extrmement lent. Comme cest prsent dans le schma (5.04)
88
laquelle se dplacer, et en second lieu, nous devons dcider quelle distance
est dplace cette direction. Par exemple, pour la descente de gradient simple,
la direction de chaque tape est donne par le gradient ngatif locale E
de fonction derreur, et la distance de dplacement ltape est dtermine
par un paramtre de taux dapprentissage arbitraire .
*Plus gnralement nous pouvons considrer une certaine direction de re-
cherche dans lespace de poids, et puis nous trouvons le minimum de fonction
derreur le long de cette direction. Ce procd est rfr en tant quune ligne
de recherche. Elle est la base de plusieurs algorithmes qui sont considrable-
ment plus puissants que la descente du gradient.
*Nous supposons qu ltape , la minimisation le long dune direction
de recherche particulire not d dans la prochaine valeur dans lespace de
poids est donne par :
w ( +1) = w ( ) + ( ) d( ) (5.27)
d2 E(w() + d( ) ) = 0 (5.30)
w( ) + d( ) = w( +1)
d E(w ( +1) ) = 0
g ( +1)T d( ) = 0
89
O g E, alors le gradient au nouveau minimum est orthogonal
la direction de recherche prcdente.
lequation (5.28) est quivalente E au point w(+1) , nous avons :
Alors
Nous avons :
90
1
E(w) = E0 + bT w + wT Hw (5.35)
2
Dans ce cas les paramtres b et H sont constants.
Et nous assumons que H est dfini. Le gradient local de ceci est donn
par :
g(w) = b + Hw (5.36)
Et la fonction derreur (5.35) est
rduite au minimum au point w et en utilisant ( 5.36) pour donner :
b + Hw = 0 (5.37)
Supposons que
nous pouvons trouver un ensemble de w vecteurs (w est la dimensionnalit
despace de poids) qui sont mutuellement conjugus par rapport H, alors
wj+1 = wj + j dj (5.41)
91
w
dTj Hw dTj Hw1 = i dj Hdi (5.42)
i=1
dTj (b + Hw1 )
j = (5.44)
dTj Hdj
nous pouvons crire (5.41) sous une forme plus commode(5.38) comme
suit. :
dTj Hwj = dTj Hw1 (5.45)
O nous avons encore employ ltat de conjugu (5.36). Ceci permet au
numrateur du ct droit de (5.41) de scrire sous la forme :
dTj gj
j = (5.47)
dTj Hdj
Nous donnons maintenant un argument inductif simple pour montrer cela,
si les poids sont employs incrments (5.39) avec le i donn par (5.44)
alors le vecteur de gradient de gj ltape j sera orthogonal toutes les
directions conjugues prcdentes, et alors nous serons arrivs au minimum
de la forme quadratique .Voir le schma (5.5)
Pour driver la proprit dorthogonalit, nous notons (5.34) de celui
92
F. 5.5 Lapplication de lalgorithme de gradient conjugu la minimisa-
tion dune fonction erreur quadratique bidimensionnelle [6]
93
Daprs (5.49) le dk est donn par une combinaison linaire de touts les
vecteurs de gradient prcdents
k1
dk = gk + l gl (5.54)
l=1
94
Nous multiplions (5.52) par gj+1 nous obtenons :
Daprs (5.50), nous avons que dTj gj+1 = 0 . Alors, nous utilisons ( 5.59)
pour crire :
Nous notons que ces trois expressions pour j sont quivalentes[17]. Ils
expriment tous que la fonction derreur est exactement quadratique.
La forme de POLAK-RIBIERE savre gnralement donner des rsultats
lgrement meilleurs que les autres expressions.(petite valeur de j pour que
les vecteurs successifs de gradient soient trs semblables). Nous souhaitons
galement viter lutilisation de la matrice de HESSIEN pour valuer j .
Pour voir ceci, considrer une erreur quadratique donne par (5.47) comme
fonction du paramtre donn par :
dTj gj
j = T (5.63)
dj Hdj
Nous voyons que le rsultat dans (5.47) est quivalent celui trouv
dans (5.63). Alors, nous pouvons remplacer lvaluation explicite de j par
une procdure numrique impliquant une ligne (direction) de recherche de
minimisation dj .
Nous rcapitulons maintenant les tapes principales de lalgorithme :
1.Choisir un vecteur de poids initial w1 .
2.Evaluer le vecteur de gradientg1 , et prendre la direction de recherche
initiale d1 = g1
95
3.A ltape j, rduire au minimum E(wj + dj) par rapport pour
donner wj+1 = wj + min dj
4.Tester pour voir si le critre darrt est satisfait.
5.Evaluer le nouveau vecteur de gradient gj+1 .
6.Evaluer la direction de recherche nouvelle dj+1 ,nous employons (5.52)
dans laquelle j est donn par (5.62) ,(5.61) ou la formule (5.58).
7.Prendre j = j + 1 et aller 3.
Pour une fonction derreur non quadratique gnrale, lerreur dans
le voisinage dun point donn est approximativement quadratique, et alors
nous pouvons esprer de lapplication du procd ci-dessus une convergence
efficace avec un minimum de lerreur.
96
Lutilisation de la ligne de recherche prsente quelques problmes :
-Pour chaque ligne de recherche, la minimisation implique plusieurs va-
luations de la fonction derreur, dont chacune est chre( au plan informa-
tique).
-Lexcution globale de lalgorithme peut tre sensible la valeur de pa-
ramtre (ci-dessus), alors prcisment, la ligne de recherche peut reprsenter
beaucoup de gaspillage de calculs.
g = E = H(w w ) (5.64)
97
F. 5.6 Le minimum de la fonction erreur, tandis que la direction de
newton H 1 g (w)
P = w ( +1) w( ) (5.68)
V = g ( +1) g ( ) (5.69)
P G( ) V
= (5.70)
PTV P T G( ) V
Il est facile de vrifier par la
substitution directe que (5.67)satisfait la condition de quasi-Newton donne
en (5.66)
Donc, nous pouvons faire une discussion comme suit
Linitialisation du procd employant la matrice didentit correspond
la premire tape dans la direction du gradient ngatif .
A chaque tape de lalgorithme , la direction Gg est garantie pour tre
une direction de descente , la matrice G etant dfinie positive .
La solution est demployer lalgorithme de ligne de recherche, comme
utilis avec des gradients conjugus, pour trouver le minimum de la fonction
derreur le long de la direction de recherche. Alors, le vecteur de poids varie
comme dans ce qui suit :
w ( +1) = w( ) + ( ) G( ) g ( ) (5.71)
99
Conclusion Gnrale
Notre tude nous a essentiellement permis de constater les horizons im-
menses qui souvrent la statistique par la voie des rseaux de neurones.
Dune part, lapproche nouvelle des anciennes mthodes, dveloppes dans
le cadre traditionnel. Dautre part, lapparition de nouvelles techniques per-
mettant une extension des techniques connues afin de rpondre des pro-
blmes reconnus difficiles.
Tout dcoule dun mme concept, et les diverses mthodes relevant de
la statistique traditionnelle dcoulent par la simple action sur les trois para-
mtres de base :
- Le processus dapprentissage (mode, rgle et algorithme dappren-
tissage)
- La nature des neurones constituant le rseau (reprsente par la
fonction dactivation)
- Larchitecture du rseau.
Ne serait-ce que sous le mode dapprentissage supervis, auquel nous
sommes limits dans cette tude, et avec larchitecture la plus triviale (qui est
faite dun seul neurone), nous sommes arrivs voir comment se reproduisent
un certain nombre de techniques classiques.
Ceci est obtenu uniquement par le fait dutiliser une fonction dactivation
ou une autre.
Fonction seuil : avec un rseau constitu dun seul neurone et qui
est muni de la fonction dactivation la plus basique, la fonction seuil, nous
pouvons reproduire la discrimination linaire simple.
Lespace des observations est spar en deux sous-espaces par une droite
discriminante qui est lquation du neurone.
Si nous devons diviser lespace en plusieurs rgions, il suffit de mettre en
parallle des neurones identiques en nombre gal au nombre de frontires que
nous voulons obtenir.
Fonction linaire : avec un seul neurone muni dune fonction linaire,
nous pouvons reproduire la rgression linaire simple.
La rgression linaire multiple est obtenue en mettant simplement en
parallle autant de neurones que de variables expliquer.
Fonction non linaire : avec un seul neurone muni dune fonction
non linaire, nous pouvons reproduire la rgression logistique.
Nous pouvons tracer une ligne de frontire discriminante dans lespace
des donnes.
Ainsi, avec larchitecture la plus lmentaire, et sous le seul mode dap-
prentissage supervis, nous obtenons dj plusieurs techniques.
Laugmentation du nombre de neurones et du nombre de couches permet
100
une meilleure flexibilit. Elle permet, comme cest le cas des PCM, dajuster
toute sorte de fonctions, quelle que soit sa complexit. Les problmes de
discrimination non linaire trouvent aussi leurs solutions par le moyen de ce
type de rseau.
101
Annexe A
nde malade chol/100g/l TA M groupe 30 200 110 1
1 102 100 0 31 205 119 0
2 112 105 0 32 208 120 0
3 113 92 0 33 208 116 0
4 117 106 0 34 217 110 0
5 123 94 0 35 218 161 0
6 125 95 0 36 225 143 0
7 131 93 0 37 227 116 0
8 146 105 0 38 227 138 1
9 149 103 0 39 229 110 0
10 151 107 0 40 235 124 1
11 151 115 0 41 238 119 1
12 152 95 0 42 240 149 1
13 155 102 0 43 242 131 1
14 157 118 0 44 249 105 0
15 157 116 0 45 252 125 1
16 159 113 0 46 255 134 0
17 162 98 0 47 257 154 1
18 167 104 0 48 265 141 1
19 169 109 0 49 269 129 1
20 169 90 0 50 273 150 1
21 173 100 0 51 290 142 1
22 175 110 0 52 295 132 1
23 179 119 0 53 298 148 1
24 182 112 0 54 301 160 1
25 186 106 0 55 305 138 1
26 186 109 1 56 307 150 1
27 189 105 0 57 352 142 1
28 192 108 0 58 361 154 1
29 194 110 0 59 401 162 1
102
Annexe B
ind1 gly j/100gr/l gl PP /100gr/l groupe 30 108 123 0
1 72 106 0 31 109 164 1
2 80 112 0 32 111 173 1
3 82 132 0 33 112 156 1
4 83 126 0 34 113 145 1
5 86 115 0 35 116 174 1
6 90 130 0 36 118 153 1
7 90 135 0 37 118 161 1
8 92 137 0 38 120 181 1
9 93 129 0 39 122 154 1
10 94 129 0 40 122 301 1
11 94 124 0 41 124 198 1
12 94 134 0 42 128 275 1
13 95 131 0 43 129 166 1
14 96 137 0 44 132 186 1
15 96 121 0 45 134 215 1
16 97 118 0 46 136 205 1
17 98 121 0 47 137 290 1
18 98 117 0 48 150 286 1
19 98 122 0 49 154 196 1
20 99 121 0 50 156 180 1
21 99 120 0 51 172 285 1
22 100 132 0 52 175 301 1
23 100 119 0 53 178 254 1
24 100 127 0 54 100 312 1
25 101 118 0 55 195 285 1
26 102 121 0 56 195 302 1
27 105 135 0 57 200 321 1
28 107 130 0 58 205 315 1
29 108 126 0 59 205 328 1
103
Annexe C
n de mal taille(mm) v de densit(UH) groupe 30 13 31 2
1 3 5 1 31 13.2 17 2
2 3 7 1 32 14 9 2
3 4.5 4 1 33 14.5 12 2
4 5 10 1 34 14.8 23 2
5 5 3 1 35 14.8 30 2
6 6 11 1 36 15.2 14 2
7 6 9 1 37 15.5 13 2
8 6.5 4 1 38 16.5 9 2
9 6.5 10 1 39 16.9 19 2
10 7.8 6 1 40 17.2 35 2
11 8 8 1 41 18.3 46 2
12 8.2 10 1 42 22.2 29 2
13 8.5 5 1 43 22.6 17 3
14 8.8 12 1 44 22.8 26 3
15 8.8 11 1 45 23 36 3
16 9 3 1 46 24.5 49 3
17 9.3 7 1 47 25 60 3
18 9.3 2 1 48 25.4 61 3
19 9.6 14 1 49 25.8 72 3
20 10 18 1 50 25.9 49 3
21 10.2 26 1 51 26.5 53 3
22 10.4 42 1 52 26.5 61 3
23 10.7 25 2 53 27 49 3
24 10.8 19 2 54 28.7 32 3
25 11 6 2 55 29 37 3
26 11.3 20 2 56 30 69 3
27 11.5 3 2 57 32 52 3
28 11.7 22 2 58 35 67 3
29 11.9 11 2 59 37 72 3
104
Bibliographie
105
[13] Gosselin, Bernard. (1996). Application de Reseaux de Neurones Artifi-
ciels a la Reconnaissance Automatique de Caracteres Manuscrits. Fa-
cult Polytechnique de Mons.
[14] Haykin, Simon. (1999). A Neural Networks : A Comprehensive Founda-
tion. 2eme Ed. Prentice- Hall,Inc : USA. PP
[15] Hristev, A.M. (1998). Artificial Neural Networks. The GNU Public Li-
cense, ver 2. PP129-137
[16] Jedrzejewski, Franck. (2005). Introduction aux mthodes numriques.
2eme Ed. Spring-Verlag : France, Paris. PP 119-121.
[17] Kroise, Ben et Patrick Van Der Smaget. (1996). An Introduction to
Neural Networks. 8eme Ed. The University of Amsterdam. PP 14-44.
[18] Liming, Chen et Emmanuel Dellandra. Reconnaissance de forme : tho-
rie de la dcision Boysinne. Ecole centrale de lyon.
[19] Marine, Campedel. (avril 2005). Classification supervise. TELECOM
PARIS Ecole Nationale Suprieure des Tlcommunications. PP
[20] McCulloch, W. et W. Pitts. (1988). A logical calculus of the ideasimma-
nent in nervous activity. Bulletin of Math, Biophysics. Vol 5. PP115-133.
[21] Parizeau Marc. (Automne 2004). Rseaux de Neurones. University La-
val. PP 27-51
[22] Rakotomalala, Rick. Rseaux de neurons artificiel : perceptron simple
et multicouche. Application du reseaux de neurone lapprentissage
supervis. Laboratoire Eric.
[23] Samarasinghe, Sandhya. (2007). Neural Networks for applied Sciences
and Enginering From Fundamentals to Complex Patten Recognition.
Taylor and Francis Group, LLC. PP
[24] Samprit, Chatterjee et Bert Bamprice. (1991). Regression Analysis by
Example. 2eme Ed. John Wiley and sons, Inc. PP 193-197.
[25] Tomassone, R et al. (1992). La Rgression nouveaux regards sur une
ancienne mthode statistique. 2eme Ed. MASSON. PP 107-131.
[26] Touzet, Claude. Les rseaux de Neurones Artificiels : Introduction au Co-
nexionisme Neurosysteme. Parc Scientifique Georges Besse, 30000 Nime.
PP22-26
106
Rsum
Le but de ltude permis de constater les horizons immenses qui s'ouvrent
la statistique.
des techniques connues afin de rpondre des problmes reconnus difficiles. Par
exemple le cas des PCM, qui traitent des problmes non linaires quelle que
soit son complexit. Les problmes de discrimination non linaire trouvent aussi
On the one hand, new approach of the old methods, developed within the
were shows that a simple perceptron and a linear classifier, are equivalent the
known techniques in order to answer problems found difficult. For example the
case of the MLP which deal with nonlinear problems whatever its complexity.
The problems of nonlinear discrimination find also their solutions by the means
) %"! (% , - ./0 /- 3 4 ? 1, 2 )>= <% 9: 8556
R1 , LBMQ > P5 O1 . L LBM S /-% - )2
2B " ) 9 P 1 %V P Z&[ BM 2) %Y ,W2 . %V O1 LBM