Vous êtes sur la page 1sur 110

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

MINISTERE DE LENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE


SCIENTIFIQUE

UNIVERSITE MENTOURI CONSTANTINE


FACULTE DES SCIENCES EXACTES
DEPARTEMENT DE MATHEMATIQUES

N dordre:
Srie:

MEMOIRE
EN VUE DE LOBTENTION DU DIPLOME DE
MAGISTER EN MATHEMATIQUES

OPTION : MODELISATION ET ANALYSE STATISTIQUE

THEME
LANALYSE DISCRIMINANTE ET LE PERCEPTRON
MULTICOUCHE

PRESENTE PAR:
OTMANI Imene

Soutenu le: 02\06\2011


Devant le jury:

Prsident S. BOUGHABA M.C. lUniversit Mentouri


Rapporteur F. L. RAH MANI M.C lUniversit Mentour
Examinateur Z. MOHDEB Prof. lUniversit Mentouri
Examinateur Z. GHERIBI M.C. lUniversit Mentouri
Table des matires

1 La rgression statistique 5

1.1 La rgression paramtrique . . . . . . . . . . . . . . . . . . . . 5


1.1.1 La rgression linaire . . . . . . . . . . . . . . . . . . . 5
1.1.2 La rgression non linaire . . . . . . . . . . . . . . . . 10
1.2 La rgression non paramtrique . . . . . . . . . . . . . . . . . 12

2 Lanalyse discriminante 14

2.1 La discrimination . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Le thorme de Bayes et la classification . . . . . . . . . . . . 15

2.3 La frontire de dcision . . . . . . . . . . . . . . . . . . . . . . 19


2.4 La fonction discriminante . . . . . . . . . . . . . . . . . . . . 19
2.4.1 Les types de fonctions discriminantes . . . . . . . . . . 21
2.5 La sparabilit linaire . . . . . . . . . . . . . . . . . . . . . . 23

3 Les rseaux de neurone et la statistique conventionnelle 25


3.1 La fonction dactivation . . . . . . . . . . . . . . . . . . . . . 27
3.2 Rseau de Neurone Artificiel (RNA) . . . . . . . . . . . . . . . 28
3.2.1 Le neurone formel . . . . . . . . . . . . . . . . . . . . . 28
3.2.2 Les types des rseaux de neurones . . . . . . . . . . . . 28
3.3 Lapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.1 Les types dapprentissage . . . . . . . . . . . . . . . . 31
3.3.2 Les rgles dapprentissage . . . . . . . . . . . . . . . . 32
3.4 Les rseaux de neurones seuil . . . . . . . . . . . . . . . . . 33
3.4.1 Le perceptron . . . . . . . . . . . . . . . . . . . . . . . 33
3.4.2 Comparaison de perceptron avec lanalyse discriminante
linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.3 Lapprentissage de perceptron . . . . . . . . . . . . . . 35
3.4.4 Thorme de convergence de perceptron . . . . . . . . 36
3.4.5 Un exemple pratique . . . . . . . . . . . . . . . . . . . 38

1
3.5 Rseaux de neurones linaires . . . . . . . . . . . . . . . . . . 40
3.5.1 Le neurone linaire comme classificateur . . . . . . . . 41
3.5.2 Les proprits de classification du neurone linaire comme
capacits prdictives . . . . . . . . . . . . . . . . . . . 43
3.5.3 Neurone linaire comme prdicteur . . . . . . . . . . . 45
3.5.4 Comparaison du modle de neurone linaire avec la
rgression linaire . . . . . . . . . . . . . . . . . . . . . 46
3.5.5 Un exemple pratique . . . . . . . . . . . . . . . . . . . 47
3.6 Limitation dun rseau une seule couche . . . . . . . . . . . 47
3.7 Perceptron Multicouche (PMC) . . . . . . . . . . . . . . . . . 50
3.7.1 Le perceptron multicouche deux entres . . . . . . . 50
3.7.2 Le PMC avec des donnes multidimensionnelles . . . . 60

4 La fonction derreur et ses drives 62


4.1 Dfinition de la fonction d erreur . . . . . . . . . . . . . . . . 62
4.2 La fonction derreur de somme quadratique . . . . . . . . . . . 63
4.3 Interprtation des sorties du rseau . . . . . . . . . . . . . . . 65
4.3.1 Les conditions de ce rsultat . . . . . . . . . . . . . . . 67
4.4 La symtrie despace de poids . . . . . . . . . . . . . . . . . . 67
4.5 Rtropropagation derreur . . . . . . . . . . . . . . . . . . . . 68
4.5.1 Dfinition de la rtropropagation derreur . . . . . . . . 68
4.5.2 La procdure de rtropropagation . . . . . . . . . . . . 69
4.5.3 Lapplication de rtropropagation . . . . . . . . . . . . 72
4.5.4 Lefficacit de la rtropropagation . . . . . . . . . . . . 79

5 Les algorithmes doptimisation des poids adaptatifs 80


5.1 La surface derreur . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2 Lapproximation quadratique locale . . . . . . . . . . . . . . . 82
5.2.1 Linterprtation gomtrique . . . . . . . . . . . . . . . 84
5.3 Descente du gradient . . . . . . . . . . . . . . . . . . . . . . . 84
5.3.1 Les avantages de cet algorithme . . . . . . . . . . . . . 87
5.3.2 Les inconvnients (limitation dalgorithme) . . . . . . . 87
5.4 Lalgorithme de gradient conjugu . . . . . . . . . . . . . . . 88
5.4.1 Ligne de recherche . . . . . . . . . . . . . . . . . . . . 88
5.4.2 La procdure dalgorithme de gradient conjugu . . . . 89
5.4.3 Les avantages de lalgorithme de gradient conjugu . . 96
5.4.4 Les inconvnients de lalgorithme . . . . . . . . . . . . 96
5.5 Lalgorithme de Newton . . . . . . . . . . . . . . . . . . . . . 97
5.5.1 Les inconvnients de cette mthode . . . . . . . . . . . 97
5.6 Les algorithmes quasi-Newton . . . . . . . . . . . . . . . . . . 98

2
Introduction gnrale
La modlisation constitue le parachvement dun travail statistique quand
il arrive sa pleine maturit. En effet, tablir le modle qui gre un ph-
nomne signifie que nous avons compris et matris tous les tenants et les
aboutissants de ce phnomne. Le modle met en lumire les facteurs in-
tervenants, le degr de leurs influences et les relations exactes qui les lient.
La puissance et lintrt de la statistique prennent toute leur ampleur dans
la modlisation qui permet un fait capital : lextrapolation la population
entire de linformation rcolte dans lchantillon dtude. Le modle doit
rester valable en dehors des donnes qui ont servi pour son laboration.
Cest ce qui fait que la rgression soit un domaine central de la statis-
tique et qui revt une grande importance. Beaucoup de domaines sadossent
sur cette discipline et beaucoup dautres y prennent leurs racines et leurs
fondements tels que, entre autres, les sries chronologiques et lconomtrie.
La rgression est un domaine vaste qui a fait lobjet de beaucoup dtudes.
Certains de ses aspects sont compltement matriss ; dautres prsentent
encore des difficults.
La part la plus importante des travaux a t consacre la rgression
linaire, qui est la plus largement utilise. Elle est devenue un outil compris
et consacr, ne prsentant pas de problmes sauf lorsque les variables expli-
catives sont fortement corrles. Mais mme pour cette question, qui fait que
lestimateur des moindres carrs soit instable, des estimateurs concurrents
ont t proposs et ont permis de dpasser lobstacle.
La vraie grande question reste celle lorsquil y a non linarit du modle.
Les difficults sont essentiellement dordre technique. Il est beaucoup plus
complexe de mener une rgression non linaire quune rgression linaire. Des
solutions partielles sont proposes pour traiter des familles particulires de
fonctions (rgression logistique, rgression polynmiale, . . . ) mais le problme
de fond persiste ; linexistence dune mthode unifie et gnrale conue pour
effectuer toute sorte de rgression non linaire.
Cest une discipline, dorigine multidisciplinaire, mais qui est aujourdhui
parfaitement assimil une extension des mthodes statistiques, qui depuis
quelques dcades, vient apporter les outils pour traiter toutes les questions
qui sont restes en suspens. Ce sont les rseaux de neurones artificiels. Ils
permettent de reproduire tout aussi bien les mthodes standards de la sta-
tistique comme ils permettent de surmonter les problmes relevant du non
linaire. Ils sont aptes apporter des solutions nouvelles et juguler des
problmes traditionnellement classs difficiles.
Dans notre travail, nous avons essay de mener une tude comparative
opposant les techniques conventionnelles de rgression et de discrimination

3
ce qui, dans les rseaux de neurones, se prsentent comme quivalents.
Les deux premiers chapitres exposent brivement les notions de rgression
puis les notions de discrimination qui, sous un certain angle, nen sont que
des corollaires.
Le chapitre trois introduit les rseaux de neurones, en focalisant sur les
paramtres qui permettent de construire les outils appropris pour effectuer
les tches de classification (ou de discrimination) et les tches de modlisa-
tion.
Ce chapitre sachve avec la prsentation du perceptron multicouche qui
permet le traitement efficace des problmes non linaires, que cela soit en
termes de rgression ou en termes de classification.
Le chapitre quatre runit les lments pralables et expose lalgorithme
de la rtro-propagation du gradient, qui est lalgorithme dapprentissage le
plus couramment utilis dans les rseaux multicouche propagation avant.
Les problmes spcifiques des rseaux de neurones sont ceux de la stabilit
et de la convergence : lapprentissage tant itratif, les rseaux peuvent dans
certains cas osciller autour de la solution sans latteindre, ils peuvent dans
dautres cas ne pas converger vers la solution. Le chapitre cinq expose les
algorithmes utiliser dans pareils cas.

4
Chapitre 1

La rgression statistique

Dans ce chapitre, nous tenterons de voir des concepts traditionnels


propos de la rgression, qui est un ensemble de techniques analytiques des
donnes. Le but de la rgression est de dterminer la relation suivante :

y = f (x) + (1.1)

of (.) est une fonction dterministe, et est une variable alatoire. Pour
cela, il y a deux difficults propres qui sont :
La fonction de rgression f (.) (dterministe) peut avoir une forme ana-
lytique quelconque, mais est de toute faon inconnue.
est une variable alatoire de moyenne nulle, mais de distribution in-
connue. ( dpend possiblement de x (htroscdasticit)).
Daprs la relation entre les variables, on a distingu deux catgories : la
rgression paramtrique et la rgression non paramtrique.

1.1 La rgression paramtrique


La rgression paramtrique prsente la relation entre les variables expli-
catives et les variables expliques, en terme de forme fonctionnelle spcifique
qui contient un certain nombre de paramtres rglables.

1.1.1 La rgression linaire


La rgression linaire simple
La rgression linaire simple est une partie importante dans la rgression
paramtrique dfinie comme suit :

5
Si on a un chantillon alatoire (Xi , Yi ), i = 1, ..., n . Un modle de r-
gression linaire simple suppose la relation affine entre Xi et Yi suivante :

Yi = aXi + b + i (1.2)
Les i sont indpendants de distribution normale : i N(0,s2 ) .
La rgression linaire consiste dterminer des estimateurs des valeurs a
et b. pour quantifier la validit de cette relation, nous utilisons le coefficient
de corrlation linaire.
Empiriquement, partir de lobservation (yi , xi ) i = 1, ..., n , on a repr-
sent un graphe dont lensemble de points reprsentent des mesures dune
grandeur yi en fonction dune autre xi ; par exemple la taille yi des enfants
en fonction de leur ge xi (voir figure1.1).

F. 1.1 Un exemple graphique de rgression linaire simple

Les points paraissent aligns .On peut alors proposer un modle linaire,
cest--dire chercher la droite dont lquation est yi = axi + b et qui passe

6
aussi par des points du graphe selon la mthode des moindres carrs et qui
rend minimale la somme des carrs des carts des points la droite S donne
par :
n

S= (yi axi b)2 (1.3)
i 1

O S reprsente le carr de la distance verticale des points exprimen-


taux (xi ,yi) la droite considre comme la meilleure. Cela revient donc
dterminer les valeurs des paramtres a et b (la pente de la droite et son
ordonne lorigine) qui minimisent la somme S.
La notation vectorielle
Dans lespace IRn, muni de produit scolaire canonique, on considre
le vecteur X de cordonnes (x1 , x2 , ..., xn ) ; le vecteur Y de cordonnes
(y1 , y2 , ... , yn ) ;et le vecteur U de cordonnes (1,1,.... ,1).
On note alors X le vecteur xi , Y le vecteur y i et le vecteur Z de cordon-
nes (ax1 + b, ax2 + b, ..., axn + b) appartient lespace vectoriel engendr par
X et U. 
La somme (yi axi b)2 reprsente le carr de la norme du vecteur Y Z.
Cette norme est minimale si et seulement si Z est le projet orthogonale de
Y alors :

(Z Y ) U = 0 (1.4)
et

(Z Y )(X X) = 0 (1.5)
La gnralisation p variables explicatives de ce modle sappelle la r-
gression linaire multiple.

La rgression linaire multiple


Pour faire une rgression linaire multiple, il faut avoir n observations de
Yi (i = 1, 2, ..., n) variables expliques, et pour chaque Yi on a p variables
explicatives Xj o (j = 1, 2, ..., p) et la relation entre Yi et Xi1 , Xi2 , ..., Xip
est formul comme modle linaire.

Yi = a0 + a1 Xi1 + a2 Xi2 + ... + ap Xip + i (1.6)


Ou les constantes a0 , a1 , ..., ap sont appeles les coefficients partiels de
rgression .sur chaque aj il sagit de laccroissement de yi correspondant

7
laccroissement dune unit xij quand toutes les autres variables sont main-
tenues constantes[1].
Les erreurs suivent une loi normale multidimensionnelle N (0, 2 In )

Pour estimer ces paramtres, nous utilisons comme dans ce qui prcde
la mthode de moindre carr qui consiste minimiser la somme des carrs
des rsidus S

S= (yi a1 xi1 a2 xi2 .... ap xip )2 (1.7)

(voir figure 1.2)

F. 1.2 Un plan des moindres carrs

Gnralisation ( le cas matriciel)


Lorsquon dispose de plusieurs variables explicatives dans une rgression
linaire, il est souhaitable davoir recours aux notations matricielles.
Si lon dispose dun jeu de n donnes yi , i = 1, 2, ..., n que lon souhaite
expliquer par p variables explicatives (1,x1i , x2i , ..., xp1i ) , i = 1, 2, ..., n
on peut poser :

8

y1
y2

.
Y =


(1.8)
.
.
yn
et

1 x11 ....xp11
1 x12 ....xp12

X=
....
(1.9)
....
1 x1n ....xp1n
La rgression multiple linaire sexprime sous la forme matricielle sui-
vante :

Y = XB
Alors, la question est destimer le vecteur de coefficient B MP,1 em-
ployant la mthode de moindre carrs. On note lestimateur par B qui est
donne par :

= (X T X)1 X T Y
B (1.10)
La lettre T dnote le transpos de la matrice.
Sil ny a pas une colinarit entre les variables explicatives, alors la ma-
trice X T X est rgulire (det (X T X) = 0) et (X T X)1 existe ( cest
quivalent rang (X) = rang (X T X) = p + 1).

Les limitations de la rgression linaire multiple 1/Complexit des


calculs
Bien que similaires ceux de la rgression linaire simple, les calculs
et les rsultats sont plus complexes en raison de la prsence de plusieurs
variables explicatives. Les calculs reposant sur des quations "ordinaires"
deviennent lourdes manipuler, et le recours des quations matricielles
devient alors une ncessit pratique.
2/Slection des variables
Ce deuxime point est plus important pour le praticien : la rgression
linaire multiple est probablement le premier exemple quil rencontrera de
compromis biais-variance et dont nous rsumons maintenant les aspects
principaux :

9
Un modle (quil soit prdictif ou descriptif) construit sur la base dun
chantillon ne doit pas contenir trop de paramtres (ici a0 ,
a1 , ...,
ap ).
Ses performances samliorent sur lchantillon, mais se dgradent sur
des donnes nouvelles en raison dune variance exagre des estimations des
valeurs prdites.
Les valeurs de ses paramtres prend toute signification, l encore en
raison de leur grande variance.
Ces questions sont dune grande important pratique et vont forcer lana-
lyste fournir un effort important pour slectionner, parmi les {xi } dispo-
nibles (souvent trs nombreuses), celles qui seront retenues dans le modle
final.
3/ Colinarit des variables explicatives :
Sil y a une colinarit entre les variables explicatives, X T X n est pas
rgulire ( det (X T X) = 0) alors (X T X)1 n existe plus ,dans ce cas, nous
ne pouvons pas dterminer lestimateur du vecteur de coefficient B par la
mthode de moindre carr ( B n existe pas), alors la rgression multiple est
encore plus complexe[24].

Remarque 1 Si les hypothses initiales sont respectes, les estimateurs des


MCO (Moindres Carrs Ordinaires) possderont d excellentes proprits (sans
biais, convergent en probabilit).

1.1.2 La rgression non linaire


La rgression non linaire est une prolongation de la rgression linaire
pour adopter des fonctions (non linaires) gnrales de la forme :

y = f (x1 , x2 , ..., xn , a1 , a2 , ..., an ) (1.11)


Voici des exemples des fonctions qui peuvent tre modeles en utilisant
la rgression non linaire :

10
y = a0 + a1 exp(x1 ) (1.12)

y = a0 + a1 sin(x1 ) (1.13)

y = a0 [1 exp(a1 x1 )] (1.14)

yi = x1i (a0 + a1 x2i ) (1.15)

yi = a0 xa1i1 (1.16)

On peut estimer les diffrentes paramtres a0 et a1 de chaque modle


prcdent avec des techniques differentes[24].

Remarque 2 La forme non linaire est non linaire dans les paramtres, par
exemple, le polynme est non linaire par rapport aux variables explicatives
mais il est linaire dans les paramtres donns par :

y = a0 + a1 x1 2 + a2 x22 + ... + an xn 2 (1.17)

On peut poser une autre variable zi = xi 2 alors lquation (1.17) devient

y = a0 + a1z1 + a2z2 + .... + an zn


Lquation prcdente a une forme linaire.

Les problmes de la rgression non linaire


1 / Quand nous utilisons lanalyse de la rgression non linaire, la forme
(modle) de la fonction doit tre indique. Pour la technologie et les pro-
blmes scientifiques, le modle peut tre dict par la thorie, mais pour les
autres problmes tels que les problmes mdicaux, il peut tre difficile de
dvelopper des modles non linaires appropris.

2 / Les problmes strictement numriques sont obnubils par la ncessit


destimer des paramtres avec des mthodes peu classiques, par exemple le

11
calcul de driv de S par rapport a a0 et a1 puis le fait de rsoudre le systme
deux quations qui en rsulte, nest pas facile.
3 / Quelque fois un ajustement polynmiale peut tre utilis, mais il peut
suffire dstimer la valeur dun point intermdiaire de la courbe pour lequel
aucune valeur ne peut tre faite. Souvent, il faudra choisir un degr lev
pour le polynme, alors quun modle non linaire fera intervenir un nombre
plus faible de paramtres pour une qualit quivalente de lajustement. Ici la
forme analytique plus complexe du modle non linaire compense, en quelque
sort, le modle plus restreint de paramtres.
4 / La pratique peut tre acceptable avec deux paramtres, mais elle
deviendrait inutilisable des que ce nombre de parametres augmente.

1.2 La rgression non paramtrique


Dfinition 3

la rgression non paramtrique est une forme danalyse de rgression


ou le prdicteur ne prend pas une forme prdtermine , mais il est construit
selon les informations drives partir de la forme des donnes. Alors les va-
riables expliques sont prsentes par une fonction des variables explicatives
de forme non paramtrique comme suit :

Yi = g(Xi ) i = 1, 2, ..., n (1.18)


O g est une fonction non paramtrique .
La rgression non paramtrique exige une plus grande taille de lchan-
tillon quune rgression base sur les modles paramtriques parce que les
donnes doivent bien rendre la structure du modle estim.
Nous avons vu que la rgression doit galement faire face, comme toute
modlisation, la trs importante question du choix des variables incorporer
dans le modle. Nous ne rappellerons jamais assez que lajout des variables
augmente la quantit dinformation disponible pour prdire les donnes et
augmenter le nombre de paramtres du modle (donc sa souplesse), Ce qui
lui permet de mieux rendre compte des donnes disponibles. Mais que le prix
payer pour ces capacits accrues est dune plus grande instabilit du mo-
dle, Il existe donc un "juste milieu", difficile trouver (sauf dans les cas les
plus simples comme la rgression linaire simple). En plus, il y a deux dif-
ficults propres la rgression, la premire est que la fonction de rgression
f (.) peut avoir une forme analytique quelconque, et de toute faon inconnue.
Lanalyste devra donc faire le choix de la forme fonctionnelle du modle de
rgression mme si la distribution des donnes scarte de la linarit. Et la

12
deuxime difficult est que x est une variable alatoire de moyenne nulle,
mais de distribution inconnue, et dpendant possiblement de x (htroscdas-
ticit). Le but de ce travail est de rendre ces difficults minimales en utilisant
les rseaux de neurone. Dans la rgression, y (la variable explique) est une
variable continue. On peut concentrer les discussions un cas particulier o
y a des valeurs discrtes (par exemple 0, 1,. . . etc). Cette mthode statistique
sappelle lanalyse discriminante. Dans le deuxime chapitre, nous allons d-
finir lanalyse discriminante et quelque principes qui permettent dutiliser les
rseaux de neurones .

13
Chapitre 2

Lanalyse discriminante

Dans le premier chapitre, nous avons fait un rappel de lune des questions
centrales de la modlisation statistique de donnes qui est la rgression. Nous
avons vu que cette mthode a plusieurs limitations. Pour faire une discussion
but damlioration, nous proposons le cas particulier ou la variable expliqu
est discrte (qualitative). Nous appelons ce cas lanalyse discriminante.
Dans ce chapitre, nous allons dfinir les notions et discuter les proprits
de lanalyse discriminante et sa robustesse en utilisant lexemple suivant :
Lorsque y nest pas une variable quantitative mais qualitative deux
niveaux, il est encore possible de faire formellement une rgression, Par
exemple, dans le domaine mdical, on peut tudier les soins possibles pour
une maladie : intervention chirurgicale(groupe 1, y = 0) , ou chimiothrapie
(groupe 2, y = 1) en fonction de certaines donnes biologiques reprsen-
tant les rgresseurs. La rgression linaire multiple fournit les mmes rsul-
tats que lanalyse discriminante linaire deux populations. Si dans les n
observations n1 valeurs de y sont gales 0 et n2 gales 1,la moyenne
y = n2 /n, (n = n1 + n2 ) . Si on fait une rgression sur le y centr, les obser-
vations correspondants une intervention chirurgicale sont toutes ngatives
(et gales n1 /n ) celles correspondant la chimiothrapie sont toutes
positives (et gale n2 /n). Lestimation de y permet de choisir le type de
soins auquel il faut soumettre un nouveau malade sur lequel ont t observes
les mmes donnes biologiques : intervention chirurgicale si lestimation de y
est ngative, chimiothrapie si elle est positive. Cette estimation est un outil
daide la discussion pour le praticien, dautant plus sur que la valeur est
diffrente de 0[25].

14
2.1 La discrimination
Daprs lexemple prcdent, nous pouvons reprsenter les rsultats de
discrimination en termes de variable y, o

y = 1 si le malade C1
(2.1)
y = 0 si non il C2
ou nous pouvons utiliser un seuil S,dans lexemple prcdent S = 0 telque

y  0 le malade C1
(2.2)
y 0 le malade C2

Dans les problmes plus complexe, il peut y avoir plusieurs classes (C),
pas seulement C1 et C2 , on associe les classes avec plusieurs variables yk o
k = 1, .....c
On peut rassembler les variables x1 et x2 dans un vecteur de dimension
2, x tel que x = (x1 , x2 ), meme pour les variables yk telle que y = (y1 , ..., yc )
de dimension c.
Alors nous pouvons modeler cette opration par une fonction mathma-
tique qui contient un certain nombre des paramtres rglables w, dont les
valeurs sont dtermines avec laide des donnes : yk = yk (x, w) telles que
w = (w1 , ....., wd )T .

2.2 Le thorme de Bayes et la classification

Nous revenons lexemple donn dans lintroduction de ce chapitre. Nous


supposons que nous souhaitons classifier un nouveau malade, mais jusquici
nous navons fait aucune mesure sur lui. Le but est de classifier ce malade de
faon de rduire au minimum la probabilit de classification fausse.
Nous avons rassembl un grand nombre dexemples des malades pour
dterminer la probabilit a priori p(ck ) quun malade appartient chacune
des classes c1 ou c2 .

On suppose quon a

p(c1 ) = 0.75 et p(c2 ) = 0.25 (2.3)

alors nous assignons le malade prcdent la classe qui a la probabilit a


priori plus lev, (c..d. le malade appartient c1 si p(c1 ) p(c2 ), et
la classe c2 autrement). Et ceci signifie que nous classifierons toujours un

15
nouveau malade qui correspondra au groupe des malades de lintervention
chirurgicale.
Nous pouvons utiliser le thorme de Bayes pour raliser notre but, mais
prsentons dabord la formulation gnrale de ce thorme.

Dfinition 4 Soit A et B deux vnements quelconques dun ensemble fon-


damental muni dune loi de probabilit P. La probabilit conditionnelle de
A sachant que lvnement B est ralis, est note par P (A/B) et dfinie
par la relation suivante

P (A B)
P (A/B) =
P (B)

Thorme de Bayes
Aussi connu sous le nom de "Rgle de Bayes" ou "Formule de Bayes"

Thorme 5 Thorme de Bayes

La formule simple
Soit A et B deux vnements quelconques dun ensemble fondamental
muni dune loi de probabilit P.La formule de Bayes est donne par

P (A/B) .P (B)
P (B/A) = (2.4)
P (A)
La formule gnrale
Elle snonce ainsi :
* Si A est un vnement quelconque,
* Et si {B1 , B2 , ..., Bn } est une partition de
Alors pour tout i :

P (A/Bi ) .P (Bi )
P (Bi /A) = n (2.5)

P (A/Bj ) P (Bj )
j=1

Prsentons le thorme de Bayes dans le contexte de la classification :

16
Le cas discret

Supposons quil faille affecter des observations des classes sur la base de
mesures faites sur lunique attribut x, suppos prendre des valeurs discrtes
x(l) .
Nous dfinissons la probabilit a priori de la classe ck comme la pro-
portion des observations qui appartiennent cette classe, quelle que soit la
valeur prise par x. Nous notons cette probabilit P (ck ).  
De mme, nous dfinissons la probabilit inconditionnelle P x(l) comme
la proportion des observations pour lesquelles x prend la valeur x(l) , quelle
que soit leur classe.  
De mme, la probabilit conditionnelle de classe P x(l) /ck est la pro-
portion des observations dans la classe ck pour lesquelles x = x(l) . Pour une
classe donne, cest une fonction de l.
Nous ne considrons maintenant que les observations pour lesquelles
x = x(l) . La probabilit a posteriori de la classe ck pour la valeur x(l) est la
proportion
  des observations qui appartiennent cette classe. Elle est note
P ck /x ,pour une valeur donne, cest donc une fonction de k.
(l)

P (ck ) st la probabilit pour quune observation, avant que la mesure


sur x soit effectue, appartienne la classe k. Mais cette mesure a apport de
linformation supplmentaire,
 ce qui nous permet daffiner nos probabilits
de P (ck ) P ck /x(l) . Ceci explique les termes "a priori" et "a posteriori".
Le thorme de Bayes permet de relier ces quatre quantits. Il sexprime
par la formule :
 
 (l)
 P x(l) /ck P (ck )
P ck /x = (2.6)
P (x(l) )
Donc ce que dit le thorme de Bayes est :
" Vous voulez savoir quelle classe appartient une nouvelle observation
en mesurant x ? Vous ne le saurez jamais avec certitude, mais, pour chacune
des classes ck , vous pouvez amliorer votre estimation initiale P (ck ) de la
probabilit dappartenance la classe en la transformant en P ck /x(l) , qui
tient compte du rsultat de la mesure.
Le dnominateur P x (l)
joue le rle dun facteur de normalisation. Pour
sen convaincre, on additionne toutes les probabilits a posteriori pour obte-
nir :
  
P ck /x(l) = 1 (2.7)
j

17
En effet, une observation appartient forcment une classe et une seule,
et la somme des probabilits dappartenance aux classes est donc gale 1.
Remplaons chaque terme de la somme par son expression donne par la
formule de Bayes. Nous obtenons :
    (l) 
P x(l) = P x /cj P (cj ) (2.8)
j

La formule de Bayes scrit maintenant :


 (l) 
  P x /ck P (ck )
P ck /x(l) =  (l)
(2.9)
j P (x /cj ) P (cj )
O le dnominateur apparat clairement comme un facteur de normalisa-
tion.

Le cas continu
La formule de Bayes nest que lgrement modifie si x est une variable
continue. La dfinition des probabilits a priori
 (l)  est bien sr inchanges. Mais :
* Les probabilits inconditionnelles P x doivent tre remplaces par la
densit (de probabilit) inconditionnelle f (x), qui est la fonction de densit
de probabilit de x quand les tiquettes de classe nesont pas  prises en compte.
* Les probabilits conditionnelles de classe P x(l) /ck doivent tre rem-
places par les densits (de probabilit) conditionnelles de classes f (x/ck ).
Chacune de ces k densits est la densit de probabilit de x pour la population
dune classe quand les autres classes sont ignores.
La formule de Bayes devient alors :

f (x/ck ) P (ck )
f (ck /x) = (2.10)
f (x)
Il est important de distinguer deux tapes spares dans le procd de la
classification, elles sont : linfrence et la dcision
Linfrence
 Linfrence
  des donnes est employe pour dterminer des valeurs (P (ck ),
P x /ck ,P x ) afin de calculer la probabilit a posteriori pour chaque
(l) (l)

classe comme suit :


* Prenez la probabilit a priori P (ck )de la classe,
* Multipliez cette probabilit par P x(l) /ck , la probabilit conditionnelle
de classe pour la valeur x(l) de lattribut,
 
* Divisez le rsultat par P x(l) , la probabilit inconditionnelle de la
valeur de lattribut. Ce nombre est le mme pour toutes les classes, et ne
dpend que de l.

18
La dcision
Dans ce cas, ces probabilits sont employes pour faire des dcisions quun
nouveau point de donne appartient la classe pour laquelle la probabilit a
posteriori est la plus grande.

2.3 La frontire de dcision


Jusquici, dans une perspective de minimiser la probabilit de classifica-
tion fausse, nous avons vu que la thorie de la dcision baysienne est une
stratgie qui consiste affecter toute observation la classe ayant la plus
grande probabilit a posteriori, alors x sera affect la classe k si

p(ck /x) > p(cj /x) pour tout j = k (2.11)


Nous remarquons que lespace de donne tant divis en k classes dis-
jointes. Les frontires entre ces rgions sont appeles les frontires de dci-
sion.
Si lespace des donnes est un espace multidimensionnel, ces frontires
sont des hyperplans. Voir figure (2.1).
Dans la figure (2.1), lespace des donnes est de trois dimensions alors la
frontire de dcision est un plan qui discrimine la classe c1 et la classe c2 .

2.4 La fonction discriminante


On peut reformuler le traitement de classification en terme des fonctions
y1 (x), ...yc (x) o, pour tout k = 1, 2, ..., c :

yk (x) = p(ck /x) (2.12)


Daprs les expressions (2.11) et (2.12), le vecteur de donnes x est affect
ck si

yk (x) > yj (x) pour tout j = k (2.13)


x est affect la classe ck si
P (x/ck ) P (ck ) P (x/cj ) P (cj )
pour tout j = k (2.14)
P (x) P (x)

Donc

P (x/ck ) P (ck ) P (x/cj ) P (cj ) pour tout j = k (2.15)

19
F. 2.1 Un exemple du frontire de dcision dans un espace trois
dimensionnelle[12]

20
Daprs (2.15) ,on peut dfinir yk (x) par la formule suivante :

yk (x) = P (x/ck ) P (ck ) (2.16)

Les yk (x) sont appeles les fonctions discriminantes


Remarque 6 Plusieurs fonctions discriminantes peuvent tre dfinies, et la
plus utilise est donne par g(yk (x)), o, g(.) est une fonction monotone
croissante et yk (x) est une autre fonction discriminante [10].
Remarque 7 On a remarqu que les frontires de dcision sont dfinies par
lensemble des quations suivantes
yk (x) = yj (x) pour tout j = k (2.17)
Remarque 8 Lorsquil ny a que deux classes c1 et c2 , on peut donner la
fonction discriminante sous une forme lgrement diffrente.On note
y(x) = y1 (x) y2 (x)
Alors 
si y(x) 0 alors x c1
(2.18)
siy(x) < 0 alors x c2
Lavantage de cette notation est demployer une seule fonction discriminante
au lieu demployer deux fonctions y1 (x) et y2 (x) .

2.4.1 Les types de fonctions discriminantes


Nous avons annonc prcdemment quil y a une tape infrencielle dans
le procd de classification. Cet aspect descriptif vise trouver une reprsen-
tation qui permet dinterprter les groupes grce aux variables explicatives.
Cette tche est rendue difficile quand le nombre de variables explicatives
est plus grand que trois. Il est possible dutiliser la technique de lanalyse
discriminante qui est la plus populaire des techniques de classification.
Lanalyse discriminante est une technique paramtrique car elle fait lhy-
pothse que les densits des classes ont une forme fonctionnelle particulire.
Plus prcisment, elle suppose que les classes sont multinormales. Cette hy-
pothse trs forte permet alors de dduire des estimations prcises de pro-
babilit a posteriori de chacune des classes. Lutilisation de cette hypothse
dans le cadre de lanalyse a dailleurs donn naissance aux deux mthodes de
discrimination les plus populaires : Lanalyse discriminante linaire et lana-
lyse discriminante quadratique. Et pour cela, il existe deux types de fonctions
discriminantes : lune est linaire et lautre est quadratique[7].

21
La fonction discriminante quadratique
Dans lanalyse discriminante, nous supposons que les classes sont de distri-
bution multinormale. Si lespace est d-dimensionnelle, la forme de la fonction
de densit de probabilit multinormale donne par

 
1 1
f(x/ck ) = d 1 exp (x k )T D1 (x k ) (2.19)
(2) 2 |D| 2 2

O la moyenne est un vecteur de d-dimension, D la matrice de cova-


riance de dimension d d, et |D| le dterminant de D.
Daprs la remarque (6), nous supposons que la fonction discriminante a
une forme particulire g(f (x)) o g(x) = ln x et f (x) une fonction discrimi-
nante reprsente dans (2.16). Alors

yk (x) = ln f (x/ck ) + ln P (ck ) (2.20)


Nous substituons (2.19)dans (2.20) et nous omettons les termes constants,
lquation (2.20) devient :

1 1
yk (x) = (x k )T Dk1 (x k ) ln |Dk | + ln P (ck ) (2.21)
2 2
La forme donne dans lquation (2.21) est la forme gnrale dune fonc-
tion discriminante quadratique dans lespace d-dimension. Pour cela, la fron-
tire de dcision est quadratique.

La fonction discriminante linaire


La fonction discriminante linaire est une rgularisation dune fonction
discriminante quadratique car nous avons ajout une hypothse supplmen-
taire dgalit des matrices de covariance (c--d : k = 1, 2, ..., c : Dk = D)
Alors
1
yk (x) = (x k )T D1 (x k ) + ln P (ck ) (2.22)
2
O nous avons omis le terme ln |D| et le terme xT D1 x car ils ne d-
pendent pas de la classe k car D est une matrice symtrique, alors xT D1 k =
Tk D1 x.
On peut crire lquation (2.22) sous la forme suivante

yk (x) = wkt x + wk0 (2.23)

22
O

wkt = Tk D1 (2.24)
Et
1
wk0 = Tk D1 k + ln P (ck ) (2.25)
2
Nous remarquons que lquation (2.23) est linaire en x, alors yk (x) est
une fonction discriminante linaire[18]. Les frontires de dcision correspon-
dantes lquation yk (x) = yj (x) sont alors un hyperplan. Voir figure (2.2).

F. 2.2 Frontires de dcision de lAnalyse Discriminante Quadratique et


de lAnalyse Discriminante Linaire sur un mme jeu de donnes en dimension
2 [7].

2.5 La sparabilit linaire


Jusquici dans ce chapitre, nous avons discut des fonctions discriminantes
ayant une frontire de dcision qui est linaire ou plus gnralement hyper-
plan de dimension plus leve .
Considrons pour le moment le problme de classifier un ensemble de don-
nes exactement , o le vecteur des points a t marqu comme appartenant
lune de deux classes c1 et c2 . Si tous les points peuvent tre classifis cor-
rectement par un frontire de dcision linaire (hyperplan dans des grandes
dimensions ) , alors les points seront linairement sparables

23
Dfinition 9 Un ensemble de vecteurs de donnes, sappellent linairement
sparables sils peuvent tre spare par un ensemble dhyperplans comme
frontires de dcision dans lespace de donnes[15].

LAnalyse Discriminante est une mthode simple, bien comprise sur le


plan thorique, et raisonnablement efficace sur la plupart des problmes or-
dinaires. Elle perd son efficacit lorsque les distributions des classes scartent
sensiblement de la normalit, et dans le monde rel, les classes ne sont jamais
parfaitement multinormales.
Une autre faiblesse de lAnalyse Discriminante est que sa version com-
plte ncessite lestimation dautant de matrices de covariance . Ceci conduit
rapidement des modles contenant des dizaines, voire des centaines de pa-
ramtres, un nombre important au regard des volumes limits de donnes
habituellement disponibles.
En consquence, lAnalyse Discriminante complte tend tre instable
(modle fortement dpendant des donnes), alors que ses versions "restreintes",
avec moins de paramtres, gagnent en stabilit mais au prix dun biais accru.
Il existe alors un recours qui est lutilisation des rseaux de neurones. Dans
le troisime chapitre, nous allons confirmer que Les Rseaux de Neurones
artificiels font un pas de plus dans la gnralisation en supprimant toute
hypothse sur les densits conditionnelles.

24
Chapitre 3
Les rseaux de neurone et la
statistique conventionnelle

Les dveloppements rcents dans lIntelligence Artificielle (I A) ont per-


mis la construction des Systmes Experts, en particulier dans le domaine de
la rgression et dans lanalyse des donnes statistiques.
Les Rseaux de Neurones Artificiel (RNA) sont les plus utiliss parmi ces
systmes. Ils sont des champs dvaluation avec des origines en neurobiologie.
A limage de nos cerveaux qui peuvent excuter les tches les complexes, les
rseaux de neurones modles ont galement t trouvs utiles en rsolvant
des problmes complexes.
Une plus large dfinition dun rseau de neurone pratique est une collec-
tion de neurones relis apprennant incrementalement de leur environnement
(donnes) pour capturer les tendances linaires et non linaires essentielles
dans les donnes multidimensionnelles , de sorte quil fournisse des prdic-
tions fiables pour une nouvelle situation de mme information bruyante et
partielle. Les neurones sont les units de bases de calcul qui excutent le trai-
tement local de donnes lintrieure dun rseau. Ces neurones forment en
parallle les rseaux, dont la fonction de sortie est dtermine par la struc-
ture de rseau, et les forces de raccordement entre les neurones parlesquels le
traitement est excut par une fonction dactivation. . Un rseau de neurones
ressemble au cerveau deux gards
1. La connaissance est acquise par un apprentissage.
2. Les forces dintercommunication entre les neurones, connues sous le
nom de poids synaptique o les poids sont employs pour stoker la connais-
sance [14].
Comme dj indiqu prcdemment, les rseaux de neurones excutent
une varit de tches, y compris la prdiction (rgression) ou lapproximation
de fonction, et la classification de modles comme il est reprsent sur le

25
schma [3.1].

F. 3.1 Approximation de fonction et lanalyse discriminante par un rseau


de neurone

Les rseaux de neurones sont trs puissants en adaptant les modles aux
donnes. Ils peuvent adapter arbitrairement les modles non linaires com-
plexes aux donnes multidimensionnelles toute exactitude dsire. Dun
point de vue fonctionnelle, ils peuvent tre considrs comme un prolonge-
ment de certaines techniques multivariable, telle que la rgression linaire
multiple, la rgression non linaire, les tches de classification comportant
arbitrairement les frontires de dcision non linaires complexes. Nous pou-
vons discuter ces problmes dans ce chapitre.
Daprs la dfinition de rseaux de neurones, toutes ses diffrentes capa-
cits varient en fonction de la fonction dactivation, la structure de rseau et
le type dapprentissage utilis :

26
3.1 La fonction dactivation
Dfinition biologique
La fonction dactivation est une abstraction reprsentant le taux de po-
tentiel daction mise feu dans la cellule. Sous sa forme plus simple, cette
fonction est binaire cest--dire, lun ou lautre neurone est la mise feu ou
pas.
Dfinition artificiel
La fonction dactivation(ou fonction de seuillage, ou encore fonction de
transfert) dun neurone artificiel dfinit le rendement de ce neurone donn
partir dune entre ou un ensemble dentres.Diffrentes fonctions de
transfert pouvant tre utilises comme fonction dactivation du neurone sont
numres dansla figure (3.2). Les trois les plus utilises sont les fonctions
seuil (en anglais hard limit), linaire et sigmode.[21]

F. 3.2 Les fonctions dactivation a = f (n) [21]

27
Dornavant, nous remplaons la terminologie statistique conventionnelle
par une terminologie qui est utilise dans les rseaux de neurone, tel que
lchantillon (le vecteur de variables (x1 , x2 , ..., xd ) est remplac par les entrs
de neurone, la fonction de transfert non linaire g correspond la fonction
dactivation dans le neurone qui transfre le mlange linaire des entres et
les poids une valeur de sortie qui est une fonction des entres .

3.2 Rseau de Neurone Artificiel (RNA)


3.2.1 Le neurone formel
Dfinition 10 Le neurone formel est conu comme un automate dot dune
fonction de transfert qui transforme ses entres en sortie selon des rgles
prcises.

3.2.2 Les types des rseaux de neurones


Comme dj indiqu dans la dfinition, on peut distinguer les rseaux de
neurones daprs la structure de rseau.

Les rseaux de neurones boucls (cyclique) ou (connexions rcur-


rentes) :
Dans le rseau boucl, il est possible de trouver au moins un chemin
(connexion) qui revient son point de dpart (ramenant linformation en
arrire) alors le rseau boucl contient une ou plusieurs boucles de rtroac-
tion.rseaux boucls.

Les rseaux de neurone non boucls :


Un rseau de neurone non boucl ralise une (ou plusieurs) fonction de
ces entres, par composition des fonctions ralises par chaque neurone. Les
neurones sont rangs par couches, il ny a pas de connexion entre les neurones
dune mme couche, et les connexions ne sont faites qu avec les neurones des
couches avales (propagation avant).
Le diagramme de ces rseaux ne contient aucune boucle de rtroaction ;
ceci assure que les sorties de rseau peuvent tre calcules en tant que fonc-
tions explicatives des entres et des poids.
On peut distinguer dans cette catgorie deux structures diffrentes d-
pendant du nombre de couches dans le rseau.

28
F. 3.3 Un exemple de RNA cyclique [2].

Rseau a une seule couche : Dans ces rseaux, il y a plusieurs


perceptrons rangs dans une seule couche. Un exemple de rseau avec une
seule couche de trois perceptrons est schmatis dans la figure (3.4)

F. 3.4 Un exemple de RNA avec une seule couche [2]

Remarque 11 : seule couche indique la couche des sorties car dans la couche
d entre il nya pas le traitement dactivation de la connexion (des fonctions
dactivations).

Rseau multicouche : Ce rseau a plusieurs couches de neurones (des


poids adaptatifs). Habituellement, chaque neurone dune couche est connect

29
tous les neurones de la couche suivante, et celle-ci seulement. Ceci nous per-
met dintroduire la notion de sens de parcours de linformation (lactivation
) au sein dun rseau.
Les couches intermdiaires entre la couche dentre et la couche de sortie
nayant aucun contact avec lextrieur sont appeles couches caches (dans
lexcution informatique). (voir figure3.5)

F. 3.5 Un exemple dun RNA multicouche [25]

Dans la suite, si nous discutons le rseau multicouche, nous illustrerons


ltude par le cas dun rseau de deux couches (une seule couche cache)
car nous remuons des rseaux avec juste deux couches de poids adaptatif
capables de rapprocher une fonction non linaire continue.
On peut dire que nimporte quelle topologie (diagramme) de rseau, si
elle est propagation avant, peut tre traduite en fonctions correspondantes.
Alors, limportance des rseaux de neurone est doffrir un cadre trs puissant
et trs gnral pour reprsenter les fonctions (linaire ou non linaire) de
plusieurs variables dentres dans plusieurs variables de sortie, o les formes
de ces fonctions sont rgies par un certain nombre de paramtres rglables.
Le processus qui fait lajustement des ces paramtres sur la base densemble
sappelle lapprentissage ; et pour cette raison lensemble de donnes sappelle
lensemble dapprentissage.

30
3.3 Lapprentissage
Lapprentissage est vraisemblablement la poprit la plus intressante des
rseaux de neurones. Cependant, elle ne concerne pas tous les modles, Mais
les plus utiliss.

Dfinition 12 lapprentissage est une phase du dveloppement dun rseau


de neurones durant laquelle le comportement du rseau est modifi jusqu
lobtention du comportement dsir.

Cest--dire un changement dans la valeur des poids qui relient les neu-
rones dune couche lautre[7]. Soit le poids wij reliant le neurone i son
( )
entre j. Au temps , un changement wij de poids peut sexprimer sim-
plement de la faon suivante :
( ) ( +1) ( )
wij = wij wij (3.1)
( +1) ( ) ( ) ( +1) ( )
Par consquent, wij = wij + wij , avec wij et wij reprsentent
respectivement les nouvelles valeurs et les anciennes aussi du poids wij .

3.3.1 Les types dapprentissage


Un ensemble fix de rgles bien dfinies pour la solution dun problme
dapprentissage est appel un algorithme dapprentissage . Au niveau de
ces algorithmes dapprentissage ; il a t dfini deux grands types dappren-
tissage : supervis et non supervis.

Lapprentissage supervis
Les donnes utilises pour lapprentissage supervis sont dites compltes
car elles contiennent la fois les valeurs x1 , ..., xc prises par les p variables
explicatives et leur appartenance aux c classes t1 , ...,tc . Les donnes com-
pltes sont donc lensemble des couples (observation, cible), i.e. {(x1 , t1 ), ...,
(xc , tc )}.On peut dire qu" un professeur" fournit aux exemples de ce que
celui-ci doit faire pour tenir compte de lerreur observe en sortie.

Lapprentissage non supervis


Les donnes utilises pour lapprentissage non supervis ne sont pas com-
pltes car elles ne contiennent que les valeurs x1 , ..., xn prises par les p
variables explicatives, alors il ny a pas de professeur.

31
3.3.2 Les rgles dapprentissage
Il y a diffrentes rgles pouvant guider lapprentissage dun rseau de
neurone

Par correction derreur ( la rgle delta)


Correction derreur dsigne la correction de lerreur observe en sortie.
Lapprentissage par correction des erreurs consiste minimiser un indice de
( )
performance E bas sur les signaux derreur ei qui est lerreur entre ce quon
obtient yk (x)et ce quon voudrait obtenir tk , dans le but de faire converger
les sorties du rseau avec ce quon voudrait quelles soient. Un critre trs
usuel est la somme des erreurs quadratiques E (nous discuterons le choix de
ce critre dans le chapitre quatre). Il faut changer les poids de rseau dans
une direction qui diminue E, alors dans le sens oppos au gradient. On parle
alors dune direction de descente donne par

w( ) = E ( ) (3.2)
O est appele le taux dapprentissage et E ( ) dsigne le gradient de
E par rapport ces paramtres libres (les poids w) au temps , la rgle (3.2)
dite de descente du gradient. Nous ferons une discussion plus dtaille sur
cette rgle dans le cinquime chapitre.

Par la rgle de Hebb


Dans cette section, nous abordons une rgle qui sinspire des travaux du
neurophysiologiste Donald Hebb. Dans un contexte neurobiologique, Hebb
cherchait tablir une forme dun apprentissage associatif au niveau cellu-
laire. Dans le contexte des rseaux artificiels, on peut reformuler lnonc de
Hebb sous la forme dune rgle dapprentissage donne par
( 1)
= p(
) ( )
wj j a (3.3)
O est une constante positive qui dtermine la vitesse de lapprentissage,
( )
pj correspond lactivit pr-synaptique (lentre j du neurone) au temps
, et a( ) lactivit post-synaptique (sortie du neurone) ce mme temps
. Cette formule fait ressortir explicitement la corrlation entre le signal qui
entre et celui qui sort.

32
La rgle dapprentissage comptitif
Comme son nom lindique, lapprentissage comptitif consiste faire
comptitioner les neurones dun rseau pour dterminer celui qui sera ac-
tif un instant donn. Contrairement aux autres types dapprentissage o,
gnralement, tous les neurones peuvent apprendre simultanment et de la
mme manire, lapprentissage comptitif produit un vainqueur ainsi que,
parfois, un ensemble de neurones voisins du vainqueur. Seul ce vainqueur
et, potentiellement, son voisinage bnficient dune adaptation de leur poids.
On dit alors que lapprentissage est local car il est limit un sous-ensemble
des neurones du rseau[21]
Donc, on peut crire la rgle dapprentissage comptitif comme suit

(x w) si le neurone est vainqueur
w = (3.4)
0 autrement
O 0 < < 1 correspond un taux dapprentissage, x est le vecteur
dentre et w est le vecteur de poids.
Dans les paragraphes suivants de ce chapitre , nous insisterons sur les
rseaux de neurones qui traitent des tches de rgression (approximation de
fonction) et lanalyse discriminante statistique. On distingue trois catgo-
ries daprs les fonctions dactivation qui sont utilises dans les neurones (
fonction seuil , linaire , et non linaire )

3.4 Les rseaux de neurones seuil


On commence par un seul neurone simple avec une ou plusieurs entres
prsentes sur la figure [3.6] qui sappelle le perceptron

3.4.1 Le perceptron
Le perceptron est historiquement le premier modle. Il est dvelopp
comme approximation simple des neurones biologiques par Mc Clloch- Pitts
en 1940[20]. Cest un seul neurone artificiel avec d valeurs dentres rsu-
mes dans un vecteur de dimension d , X = (x1 , x2 , ...., xd )T ,une unit de
transfert se compose dun additionneur (pour sommer les signaux dentres)
,et une fonction dactivation seuil g, tel que lunit de transfert (le trai-
tement est reli avec les entres par des poids synaptiques caractriss par
wi ou i = 1, ..., d, et une seule sortie y. Ce neurone permet de sparer ou
partitionner lespace des donnes lentre en deux parties spares
par un hyperplan selon le rsultat de classification de lentre en 1 ou 0[3].

33
Alors la tche discute dan ce paragraphe consiste classifier correctement
les vecteurs dentre en deux groupes (1ou0). Pour simplifier les tudes, nous
pouvons considrer un perceptron avec seulement deux entres schmatises
dans la figure suivante. voir figure (3.6)

F. 3.6 Un perceptron avec deux entres [23].

Le neurone reoit les deux entes multiplies par les poids w1 et w2


respectivement qui donnent la valeur dentre nette a o a = w1 x1 + w2 x2
puis lactivation de fonction seuil de lentre nette a donne comme suit :

1 si a 0
f (a) = (3.5)
0 si a 0
Dans ce cas, le seuil est 0, Si a = 0 alors w1 x1 + w2 x2 = 0
Donc,
 
w2
x1 = x2 (3.6)
w1
Cette quation prsente la frontire de dcision. On remarque quelle est
une frontire linaire.

3.4.2 Comparaison de perceptron avec lanalyse discri-


minante linaire
Nous avons vu dans le chapitre (02) que lanalyse discriminante est une
mthode statistique multivariable employe pour analyser simultanment les
frontires entre les catgories en termes de plusieurs variables numriques
indpendantes. Elle peut tre employe galement comme un classificateur
dans lequel un ensemble de variables dentres est affect une classe cible.
Par consquent, lanalyse discriminante linaire peut tre employe pour clas-
sifier des donnes dentre comme nous avons dj vu dans le chapitre (02).

34
Comme classificateur, le perceptron et lanalyse discriminante linaire sont
quivalents.

3.4.3 Lapprentissage de perceptron


La sortie de perceptron peut tre exprime par la forme suivante

1 si a<0
g(a) = (3.7)
1 si a>0

Et


N
y (x) = g( wj x j ) (3.8)
j=0

On peut crire

y (x) = g(wt x) (3.9)


O g est dfini dans (3.7) .
w t est le transpos du vecteur de poids w
x est le vecteur dentre
Notre but est de trouver une phase dutilisation de perceptron pour classer
un vecteur dentre dans la classe c1 ou c2 (discrimination en deux classes ).
Supposons que nous associons chaque vecteur dentre xn une valeur cible
tn telle que la sortie cible de rseau est

tn = 1 si xn c1
(3.10)
tn = 1 si xn c2
Daprs les expressions (3.7) et (3.9) on a

wt x > 0 pour x C1
et (3.11)
t
wx<0 pour x C2

Et daprs (3.10) et (3.11) on a

w t xn tn > 0 pour tout les vecteurs xn (3.12)

Ceci suggre que nous essayons de rduire au minimum la fonction der-


reur suivante ; connue sous le nom de critre de perceptron :
 t
E perc (w) = w xn tn (3.13)
xn M

35
O M est lensemble des vecteurs xn qui sont mal classifis
Si nous appliquons la rgle delta donne dans le paragraphe (3.3.2) la
fonction erreur prsente par (3.9)
perc
E
= xn tn (3.14)
wkj
Alors nous obtenons :
( +1) ( )
wkj = wj + xn tn (3.15)
Ceci correspond un algorithme dapprentissage trs simple. Il est facile
de voir que ce procd tend de rduire la fonction erreur comme suit :
Comme
xn tn 0 et 0 (3.16)
Daprs (3.16) nous remarquons que
   
E perc w( +1)  E perc w( ) (3.17)

Alors, la fonction erreur est diminue.

Remarque 13 Pour le cas particulier de cette fonction derreur (le critre


de perceptron E perc (w)), nous voyons que la valeur de est en fait sans
importance puisquun changement de poids quivalent une regraduation de
poids et de biais.

Remarque 14 Nous pouvons prendre = 1, cette proprit ne se tient pas,


pour la plupart dautres formes de fonction derreur.

3.4.4 Thorme de convergence de perceptron


Il ya un rsultat intressant nonc dans le thoreme de convergence de
perceptron.

Thorme 15 Torme de convergence de perceptron


Pour nimporte quel ensemble de donnes linairement sparables, la rgle
dapprentissaformesge du perceptron est garantie pour trouver une solution
en un nombre fini dtapes[17].

Preuve. Puisque nous considrons un ensemble dapprentissage qui est li-


nairement sparable
Nous avons vu quil existe au moins un vecteur de poids w  pour lequel
tous les vecteurs xn sont correctement classifis ; de sorte que :

36
T xn tn  0 pour tout n
w (3.18)
Lapprentissage commence par un certain nombre de vecteurs arbitraires
de poids. Sans perdre la gnralit, nous pouvons supposer que le vecteur est
gal zro.
A chaque tape de lalgorithme ; le vecteur de poids employ est mis
jour .

w( +1) = w( ) + xn tn (3.19)
O xn est un vecteur dentre qui est mal classifi par le perceptron, on a
w0 = 0
w 1 = xn tn
w 2 = 2 (xn tn )
..
.
Supposons quaprs rptition de lalgorithme pendant un certain nombre
detapes, le nombre de fois o chaque vecteur xn prsent est mal classif est
n.
Alors, le vecteur de poids ce moment sera donn par :
w( ) = n xn tn (3.20)
Et le vecteur de poids pour tous les points dapprentissage est donn par

w= n xn tn (3.21)
n

Nous prenons maintenant le produit scalaire de cette quation, nous ob-


tenons :   T 
T w =
w n w T xn tn min w  xn tn (3.22)
n
n

O = n n est le nombre total dtapes o le poids en mis jour et
lingalit (3.22) vrifie alors,
Le rsultat est obtenu en remplaant chaque vecteur mis jour par le plus
petit des vecteurs mis jour,. partir de (3.14) et (??), nous remarquons
que wT w est majorant d une fonction qui se dveloppe linairement avec
alors :
F ( ) wT w (3.23)
o F ( ) +
si +

37
Nous considrons maintenant la grandeur des vecteur de poids w :
Daprs(3.19). on a :
 ( +1) 2  
w  = w( ) + xn tn 2 (3.24)
 2
= w( )  + xn  (tn )2 + 2w (2)T xn tn

Et on a si xn est un vecteur mal classifi , alors :

w( )T xn tn0 (3.25)

Et en utilisant (3.25) et (3.24), nous obtenons :


 ( +1) 2  ( ) 2
w  w  + xn 2 (tn )2 (3.26)
Nous avons (tn )2 = 1 car tn = 1 et xn 2 x2max o xmax est la
longueur du plus long vecteur dentre , alors (3.26) se rduit :
 2  2
w2 = w( +1)  w (n)  x2max (3.27)

aprs tapes, le vecteur de poids mis jour, nous avons :

w2 x 2max (3.28)

Alors , nous voyons que pour une valeur de suffisamment grande ( +)


les deux rsultats (3.23) et (3.28) deviennent incompatibles. Nous pouvons
conclure alors que lalgorithme doit converger dans un nombre fini dtapes.

3.4.5 Un exemple pratique


Un problme simple mais raliste sera rsolu en utilisant le perceptron.
Dans cet exemple, le but est de classer un ensemble de 59 individus en deux
classes c1 et c2 , telle que la classe c1 reprsente les individus diabtiques et
ceux non diabtiques sont prsents par la classe c2 selon le taux de glycmie
veineuse x1 et le taux de glycmie post prandiale x2 (le tableau de don-
nes provient du centre de prlvement sanguin du CHU Constantine. Il est
reprsent lannexe A). Cette section tudiera quel point le perceptron
classifie les patients. Puisquon a deux variables (problme bidimensionnelle),
un perceptron avec deux entres doit tre form. Seulement un neurone de
sortie reprsente les deux classes avec un rsultat 0 associe la classe c1 , et 1
pour lautre classec2 .

38
Vectors to be Classified
1.2

0.8

0.6
P(2)

0.4

0.2

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9


P(1)

F. 3.7 La frontire de dcision finale superpose aux donnes

39
Le traitement de ces donnes avec le logiciel MATLAB donne la figure
suivante ou on note les individus de classe c1 par des cercles et lautre classe
par des plus(+).
Dans la figure (3.7), la frontire de dcision finale est superpose aux
donnes.ceci prouve que le perceptron a trouv la meilleure frontire de
dcision linaire pour ce problme. Nous remarquons quil nexiste pas de
points de classification fausse alors la performance est de 100 pour cent.

Remarque 16 Si le problme de classification implique plus de deux classes,alors,


il peut tre rsolu par un perceptron plusieurs sorties.

Remarque 17 Le perceptron et le rseau de perceptrons peuvent tre pro-


longs la classification multidimensionnelle (2 classes, multi classes) quand
les dimensions du modle dentre sont plus grandes que deux.

3.5 Rseaux de neurones linaires


Dans la classification linaire, le perceptron et le rseau de perceptrons
ont seulement deux sorties (0ou1). Dans la suite, nous pouvons gnraliser
les tudes pour le cas o la sortie est une quantit continue cest -dire,
elle peut prendre plusieurs valeurs. Dans ce cas, nous utilisons le neurone et
les rseaux linaires. Dans les paragraphes prcdents, nous avons dfini le
neurone, la fonction dactivation linaire et la dimensionnalit (les entres)
, alors on peut dire que le neurone linaire est un seul neurone avec une
fonction dactivation linaire. Ceci est dcrit dans le modle de neurone dans
la figure [3.8]

F. 3.8 Le modle de neurone linaire [23].

O il y a plusieurs entres et une entre de biais qui est gale 1.

40
Widrow et Hoff (1960) ont dvelopp le premier modle de neurone li-
naire adaptatif (ADALINE), et pour la premire fois, il mise en application
lapprentissage supervis par correction derreur (la rgle delta prsent dans
le paragraphe 3.3.2).
Dans ce paragraphe, nous allons explorer les larges possibilits de classi-
fication et de prdiction du neurone linaire gnrale et nous allons examiner
comment il est entran par la rgle delta.

3.5.1 Le neurone linaire comme classificateur


Ce paragraphe va examiner comment un neurone linaire peut tre en-
tran comme classificateur en utilisant la rgle delta.
Il est possible de la correction du neurone linaire comme un classificateur
en passant la sortie trouver une fonction seuil, telle quelle est montre dans
la figure[3.9]

F. 3.9 le neurone linaire classificateur avec deux entres [23].

Cependant, lerreur est calcule en se basant sur la sortie linaire qui est
continue, la sortie du classificateur est donne comme suit :

1 si y 0
y = (3.29)
0 si y 0
En effet, il y a deux variables dentres, il est ncessaire dutiliser un
neurone linaire deux entres et une sortie, tel quon le voit dans la figure
[3.8]
Pour les entres x1 , x2 , ayant les poids correspondants w1 , w2 , sans
lentre du biais , il faut calculer dabord lentr nette a :

41
a = w1 x1 + w2 x2 (3.30)
La transformation linaire donne (dans notre cas ici cest lidentit) :

g (a) = a alors y = a (3.31)


Ainsi mathmatiquement, le neurone linaire produit un modle linaire
dont lquation pour la sortie est simplement :

y = a = w1 x1 + w2 x2 (3.32)

Lapprentissage avec la rgle delta (deux entres)


Pour commencer lapprentissage par correction derreur, il faut quon ait
les valeurs de vecteurs cibles t (vecteur bidimensionnelle)
On a :

a = w1 x1 + w2 x2 (3.33)
y = a
E = ty
= t w1 x1 w2 x2

Daprs la rgle delta, o


E
w = (3.34)
w
= Ex

: est le taux dapprentissage.


(0) (0)
Posons les poids initiaux donns comme w1 , w2 , et fixons le taux
dapprentissage . Alors aprs lime itration on a :

(i+1) (i)
w1 = w1 + x1 E (3.35)
(i+1) (i)
w2 = w2 + x2 E

Pour chaque entre, le rseau donne la sortie y.



La fonction seuil dcide de la valeur de y daprs le signe de y .

Si y = t alors la classification est incorrecte, alors il y a une erreur E
donne par : E = t y
Donc, il y a une variation des poids de rseau qui sont prsente dans ce
qui suit :

42
(0)
w1 = E x1 (3.36)
(0)
w2 = E x2

Les nouveaux poids aprs la premire incrmentation sont :

(1) (0) (0)


w1 = w1 + w1 (3.37)
(1) (0) (0)
w2 = w2 + w2

Ensuite, nous entranons le rseau avec


 un autre vecteur dentre avec le
(1) (1)
nouveau vecteur de poids w w1 , w2
Aprs cette opration le rseau dcide : si la classification est correcte,
les poids ne seront pas modifis, sinon le rseau rptera la mme procdure
que prcdemment jusqu obtenir E = 0
A la fin, le neurone linaire a class correctement toutes les observations
donnes.
La frontire de classification pour le neurone linaire entran est donne
par y = 0
Comme y = a alors

y = a = w1 x1 + w2 x2 = 0 (3.38)

Donc  
w1
x2 = x1 (3.39)
w2

Remarque 18 Avec des donnes nombreuses le neurone linaire et le per-


ceptron produiront un rsultat identique.

Remarque 19 Dans les problmes de grandes dimensions les classes sont


spares par un hyperplan ; le concept dapprentissage sapplique sans chan-
gement.

3.5.2 Les proprits de classification du neurone li-


naire comme capacits prdictives
La classification est seulement lune des capacits du neurone linaire.
Nous avons vu prcdemment que nous pouvons entraner le neurone linaire
comme classificateur. Mais il est capable de donner beaucoup plus que celle.
Il peut aussi tre un prdicteur. Pour classifier cela, il est utile de regarder la

43
forme gnrale de la relation entre entres et sorties tablies par le neurone
linaire pour voir que la classification est une forme de prdiction quand
langle de vue est restreint.
La sortie du neurone avec deux entres comme nous avons vu prcdem-
ment est y = w1 x1 + w2 x2 ,o y est un plan appel des plan solutions et il est
montr dans la figure [3.10]

F. 3.10 La frontire de dcision de neurone linaire avec le plan des


solutions [23].

Ici w1 est la pente suivant laxe de x1 , et w2 et la pente suivant laxe


x2 .Chaque vecteur dentre (x1 , x2 ) induit une seule image dans le plan des
solutions
Classification
Dans le plan des solutions une droite sert la classification. Cest la droite
o ce plan est coup par le deuxime plan (x1 , x2 ) (cest -dire y = 0 : 0 est
le seuil).Elle est la frontire de dcision. Les valeurs positives (y 0) classent
lobservation dans une catgorie et les valeurs ngatives (y 0) classent lob-
servation dans lautre catgorie (y 0) correspond au demi-plan en dessus du
plan (x1, x2 ) et (y 0) correspond au demi-plan en dessous du plan (x1, x2 ) .
Remarque 20 Le neurone linaire produit aussi les rsultats comparables
celle de lanalyse discriminante linaire de la statistique.
Prdiction
Le plan entier sert la prdiction. Ce qui vu ici est que les ajustements
des poids altrent la pente du plan des solutions jusquau lerreur entre la
cible et la sortie soit minimise. Ce plan l nest pas produit par le percep-
tron. Le percetron ne peut que nous fournir la droite frontire dans le plan.

44
Nous pouvons voir que le neurone linaire est capable de produire une appli-
cation continue des entres vers les sorties, cest tout qui est requis dans la
prdiction ou dans lapproximation des fonctions. Nous allons voir en dtail
les possibilits prdictives du neurone linaire.

3.5.3 Neurone linaire comme prdicteur


Nous avons vu que le neurone linaire produit un modle linaire dont
lquation pour la sortie est simplement y = w1 x1 + w2 x2 + ... + wn xn + w0 .
En terminologie statistique , on dit que la sortie y rgresse sur les entres
x1 , x2 ...xn , donc le modle du neurone linaire est analogue aux modles de
la rgression linaire multiple en statistique ( nous discuterons cela dans les
paragraphes suivants). Dans lapproximation de fonction, cest la gradeur de
la sortie y qui entre en considration et non pas la catgorie ou la frontire de
dcision, cela veut dire que durant lentranement , cest la fonction linaire
qui minimise lerreur qui est cache. Pour la simplicit, nous allons commen-
cer par le cas dun neurone linaire une seule entre x et sans biais comme
il est montr dans la figure [3.11]

F. 3.11 Le neurone linaire avec une seul entre [23].

Il y a un seul poids w et la sortie du neurone linaire prend la forme


y = wx. Dans ce cas, le poids dfinit la pente de la droite et lorsque nous
donnons au poids une valeur alatoire, elle devrait par la suite sinstaller sur
la valeur exacte. Alors, lapprentissage revient trouver la valeur exacte du
poids qui fixera la pente de la droite.

Lapprentissage avec la rgle delta (en cas dun seul neurone li-
naire) La sortie de neurone prcdent est donne par y = wx dont la
valeur cible est t, alors,

e = ty (3.40)
= t wx

45
Donc,
E
w = (3.41)
w
= ex

O
1 1
E = e2 = (t w1 x)2
2 2
Le poids de neurone la e`me itration peut tre exprim comme suit

w( +1) = w( ) + w ( ) (3.42)
= w( ) + e( ) x

3.5.4 Comparaison du modle de neurone linaire avec


la rgression linaire
En tant que prdicateur, le neurone linaire est fonctionnellement qui-
valent la rgression linaire simple si nous utilisons un neurone linaire avec
juste une seule entre et un biais 1 qui correspond aux valeurs de poids w0
alors la sortie de neurone est donne par

y = w0 + w1 x 1 (3.43)
Lquation (3.43) est similaire la rgression linaire simple. Sil y a plusieurs
variables alors ceci rend lutilisation dun neurone linaire avec plusieurs en-
tres (et un biais) est ncessaire.Dans un neurone avec entres multiple, sa
sortie est exprime par lexpression suivante

y = w1 x1 + w2 x2 + ... + wn xn (3.44)
Lquation (3.44) montre quun neurone linaire plusieurs entres est
quivalent la rgression linaire multiple. Nous avons vu dans le premier
chapitre que dans la rgression linaire multiple, les coefficients (intercep-
tion et pentes ) dune relation entre une variable dpendante et plusieurs
variables indpendantes sont cherchs tels que la somme de moindre carrs
de lensemble des donnes est rduite au minimum.
Le neurone linaire ne fait aucune hypothse au sujet de la distribution
des donnes tandis que la rgression linaire (simple ou multiple) suppose
que les variables i sont normalement distribues et que la variance de la
variable i est constante travers la gamme des variables explicatives xi
(homoxdasticit).

46
Remarque 21 Beaucoup dunits linaire de neurone peuvent tre colles
pour former un rseau une seule couche avec plusieurs sorties linaires
comme illustr par le schma [3.15]. Dans la classification, chaque neurone
reprsente une classe (quivalent au rseau de perceptrons multiple). Alors,
le classificateur linaire plusieurs sorties est quivalent un classificateur
de fonction discriminante linaire multicatgoriel.

Remarque 22 Pour montrer lquivalence de rsolution de ces tches par les


rseaux de neurones et par les mthodes statistiques, nous pouvons utiliser
les deux mthodes pour les mmes donnes et comparer les deux rsultats
corresponds

3.5.5 Un exemple pratique


Dans le paragraphe prcdent, nous avons discut la capacit de discri-
mination de neurone linaire. Pour confirmer cette proprit, nous avons
mesur le taux de cholestrol x1 et la tension artrielle moyenne x2 ( x2 =
tension systolique+tension diastolique
2
) afin de sparer les groupes des patients vic-
times dAVC (le premier groupe c1 ) ou non (le deuxime groupe c2 ) parmi
les 59 patients. Le traitement de ces donnes avec le logiciel de MATLAB
reprsent dans la figure (3.12), ou on note les individus de classe c1 par des
plus (+) et les individus de classe c2 par des cercle (). (le tableau de donnes
provient du centre de prlvement sanguin du CHU Constantine .Il est donn
dans lannexe B).
Dans la figure (3.12), la ligne de frontire de dcision de classificateur
linaire est superpose aux donnes. Pour la classe c2 , il ny a pas des points
mal classs alors la performance par rapport c2 est de cent pour cent, mais
pour la classe c1 , il y a des points de mal classification qui sont 8 parmi les 22
points dans c1 , alors la performance par rapport c1 est gale 63.64 pour
cent. Les deux rsultats prcdents prouvent que la performance globale est
gale 81.82 pour cent. Alors la performance de ce traitement nest pas cent
pour cent car les points ne sont pas linairement sparables
Dans le traitement des donnes par le logiciel MATLAB, nous remarquons
que le neurone linaire trouve le meilleur poids en employant la rgle delta
plus rapidement que le perceptron.

3.6 Limitation dun rseau une seule couche


Nous avons remarqu dans le deuxime exemple pratique que la perfor-
mance de classificateur linaire nest pas de cent pour cent car les donnes

47
Vectors to be Classified
200

180

160

140
P(2)

120

100

80

60
0 100 200 300 400 500
P(1)

F. 3.12 La frontire de dcision de classificateur linaire superpose aux


donnes.

48
ne sont pas linairement sparables. Si on applique les mmes donns au per-
ceptron, alors lalgorithme dapprentissage ne se terminera jamais. De mme
pour un rseau une seule couche, il peut seulement classifier les points qui
sont linairement sparables, car ce type de rseau correspond aux fonctions
discriminantes ayant une frontire de dcision linaire, ou plus gnralement,
hyperplans dans des dimensions plus leves, alors il est une classe de rseau
trs troite de fonction discriminante possible, et dans beaucoup de situations
pratiques, il ne peut pas reprsenter un choix optimal. Dans la littrature sur
le calcul neuronale, beaucoup dattention est souvent accorde lincapacit
des rseaux une seule couche pour rsoudre des problmes simples tels que
le problme XOR rsum dans la figure (3.13) Ceci fournit la motivation
principale pour lusage de rseaux multicouches.

F. 3.13 Le problme XOR [3].

Dans le paragraphe suivant de ce chapitre, nous prolongerons la discus-


sion de lanalyse linaire au sujet de lanalyse non linaire en utilisant les
rseaux de neurones. Les rseaux de perceptron multicouches prsents dans
le paragraphe (3.2.2) sont prsents en dtail afin de mettre en exergue lin-

49
teret du traitement non linaire dans les rseaux de neurones. La puissance
de ces rseaux vient de la couche cache des neurones. Car si on ajoute une
couche de neurones, le nombre de paramtres augmentera et pour un modle
quelconque, laugmentation de nombre du paramtres (le degr de libert)
rend ce modle plus flexible. Pour cela, le perceptron multicouches est trs
flexible et peut tre form pour assumer la forme des modles de donnes,
indpendamment de la complexit de ces modles.
Pour des problmes fortement non linaires (complexes) un perceptron
multicouche est impliqu. Ce rseau peut tre ncessaire pour rapprocher
correctement la relation entre les entres et les variables cibles.

3.7 Perceptron Multicouche (PMC)


La disposition dun rseau de (PMC) avec une couche cache est indique
dans le schma [3.14].

F. 3.14 Le modle de PMC [23].

Sur le schma [3.14], les x1 ,...,xn sont des variables dentres comportant la
couche dentre. Ce type de rseau peut rapprocher nimporte quelle relation
fonctionnelle complexe multidimensionnelle (de dimension n).

3.7.1 Le perceptron multicouche deux entres

La comprhension gagne avec deux entres peut tre prolong trois


entres ou plus. en regardant deux entres, il est possible dtablir une base
pleine pour la comprhension des rseaux avec plusieurs dentres, parce que

50
la connaissance que nous avons gagn de deux entres ( problmes bidimen-
sionnels) est gnralise beaucoup dentres ( problmes multidimension-
nelles). Cest possible, par ce que linformation de principe fondamental de
PMC peut tre extraite partir de ces exemples.
Un rseau avec deux entres peut rapprocher nimporte quelle sortie qui
dpend de deux variables indpendantes. Par consquent, elle peut rsoudre
nimporte quel problme de prdiction bidimensionnelle ou problme de clas-
sification.
La structure dun rseau deux entres est reprsente sur le schma
[3.15], dans lequel il y a deux entres, un ou plusieurs neurones cachs, et une
sortie. Pour des problmes de classification impliquant plus de deux classes,
il est ncessaire demployer un neurone de sortie pour chaque classe. Cepen-
dant pour la plupart des problmes de prdiction, seulement un neurone est
ncessaire.

F. 3.15 Le PMC avec deux entres.[23]

La prdiction avec le PMC deux entres


Traitement des entres bidimensionnelles par le neurone cach La
discussion de ce rseau est traite en commenant par le traitement dun
neurone cach isol comme il est reprsent dans le schma [3.16]
On assume que toutes les fonctions dactivation sont logistiques. Chaque
neurone cach reoit deux entres et le biais qui sont multiplis par les poids
correspondants et additionns pendant la premire tape de calcul. La somme
pondre a est donne par

51
F. 3.16 Un seul neurone cach non linaire avec deux entres [23].

a = w1 + w1 x1 + w2 x2 (3.45)
Cette quation est un plan dans l espace bidimensionnel (x1 , x2 ). Comme
cest reprsent dans le schma [3.17].

F. 3.17 Lquation de somme nette prsente un plan dans lespace bidi-
mensionnel [23].

Par consquent, leffet dapprentissage doit tracer les entres x1 et x2


un plan bidimensionnel et pour commander compltement la position et
lorientation de plan dans l espace bidimensionnel par w0 , w1 , w2
Lentre nette a est passe par la fonction logistique pour obtenir la sortie
de neurone cach z comme suit :
1
z= (3.46)
1 + expa

52
O z est une fonction logistique. En substituant a dans(3.46) on trouve :
1
z= (3.47)
1 + exp(w1 +w1 x1 +w2 x2 )
Maintenant z et a seront explors pour plusieurs cas daprs les valeurs :
w0 , w1 ,et w2 .

1- w0 = 0, w1 = 1, w2 = 0
La courbe de z en fonction de x1 et x2 pour ce cas est montre dans la
figure [3.18]qui dpend dune fonction logistique dans lespace bidimension-
nel. La valeur de poids w1 commande la pente de la fonction par rapport
laxe x1 .

F. 3.18 La fonction bidimensionnelle pour w0 = 0, w1 = 1, w2 = 0

Puisque le poids w2 = 0 la pente par rapport laxe x2 est zro et w0 = 0,


la fonction est centre x1 = 0 et x2 = 0.

2- w0 = 0, w1 = 0, w2 = 1
Ce cas est reprsent dans la figure [3.19] qui dmontre que w2 commande
la pente de la fonction par rapport x1 et la pente par rapport x2 est zro et
la fonction tant centre sur x1 = 0 et x2 = 0
.

53
F. 3.19 La fonction bidimensionnelle pour w0 = 0, w1 = 0, w2 = 1 [23]

3-w0 = 0, w1 = 1, w2 = 2
Dans ce cas , o w1 et w2 , qui commandent les pentes, sont non nulles, alors
une fonction logistique plus complexe est produite, comme il est reprsent
dans la figure [3.20].

4-w0 = 0, 5, w1 = 1, w2 = 1
Dans ce cas , la pente par rapport x1 est positive, et celle par rapport x2
est ngative. Comme le dmontre la figure[ 3.21].

Les illustrations graphiques ci-dessus prouvent que deux entres sont re-
presentes par une fonction : logistique bidimensionnelle de z dont les pentes
sont commandes par les poids w1 et w2 , le poids w0 dcale la rgion de
lactivation la plus leve de la fonction logistique.
Il est possible de visualiser comment plusieurs neurones peuvent agir
ensemble pour rapprocher une fonction bidimensionnelle ou un modele de
prdiction des rsultats de deux variables indpendantes fondamentalement,
chaque neurone donne une fonction sigmode bidimensionnelle, dont la forme
et la position sont commandes par ses poids w0 ,w1 et w2 selon la nature non
linaire de la fonction rapproche. De cette faon, plusieurs neurones ajoutent
la puissance et une grande flexibilit au rseau de neurones pour lidentifica-

54
F. 3.20 La fonction bidimensionnelle pour w0 = 0, w1 = 1, w2 = 2[23]

F. 3.21 La fonction bidimensionnelle pour w0 = 0, w1 = 1, w2 = 2 [23].

55
tion de modle non linaire et cela lui permet dapprocher nimporte quelle
fonction bidimensionnelle pour la prdiction.

La sortie de rseau La dernire tape du traitement synthtise les sorties


de neurone cach en calculant leur somme pondre puis cette somme est
traite par la fonction dactivation du neurone de sortie. Cette somme produit
la forme dsire de la valeur cible t. La valeur t dans le cas de prdiction peut
tre une surface arbitrairement complexe et non linaire.

La classification avec le PMC deux entres


La prdiction et la classification sont fondamentalement le mme pro-
blme en exceptant lajustement final. Alors la classification est un sous en-
semble de problme de prdiction. La frontire finale de classification induit
un plan travers le modle qui produit la surface horizontalemen. Celle-ci a
la valeur de lactivation de sortie, et cette frontire peut tre arbitrairement
complexe et non linaire divisant lespace dentres dans des classes dune
faon complexe.
Nous avons considr le mme rseau PMC avec deux entres, alors la
somme pondre est donne par(3.46)

a = w1 + w1 x1 + w2 x2 (3.48)
Puis, a est pass par une fonction logistique (fonction dactivation dun
neurone cach) pour obtenir une sortie de ce neurone z donne par(3.47)
1
z= (3.49)
1 + expa
La frontire est dfinie par a = 0, alors :

a = w1 + w1 x1 + w2 x2 (3.50)
= 0
Donc, nous remarquons que la frontire de dcision est une droite. Dans
ce cas aussi, nous examinons plusieurs cas de valeurs de w0 , w1 et w2 .
Nous prenons les mmes cas prcdents.

1-w0 = 0, w1 = 1, w2 = 0
Lquation de la ligne de frontire passe par un plan horizontal travers
le milieu de la fonction logistique. Cest une droite verticale qui peut tre
obtenue par les solutions de a = 0 et est prsente dans la figure [3.22]

56
F. 3.22 La ligne de frontire dans le cas w0 = 0, w1 = 1, w2 = 0

2-w0 = 0, w1 = 0, w2 = 1.
La ligne de frontire est dans ce cas une droite horizontale comme repr-
sente dans la figure [3.23]

3-w0 = 0, w1 = 1, w2 = 2
Dans ce cas , la figure de frontire est une ligne diagonale, elle divise sym-
triquement lespace dentre comme cela est reprsente dans la figure[3.24].

Lactivit de neurone est plus grande en haut de la ligne et moins en


dessous .

4-w0 = 0, 5, w1 = 1, w2 = 1
Leffet de la valeur de w0 doit excentrer la ligne de frontire, dont il dcale
essentiellement la rgion de lactivit la plus leve vers le centre, comme cest
reprsent dans la figure[3.25]

57
F. 3.23 Dans ce cas la frontire de dcision est une droite horizontale
[22].

F. 3.24 La ligne frontire dans le cas w0 = 0, w1 = 1, w2 = 2 [23]

58
F. 3.25 La ligne frontire en cas de w0 = 0.5, w1 = 1, w2 = 1 [23]

Avec le mme principe que prcdement, le rseau PMC avec deux entres
approche nimporte quelle fonction bidimensionnelle (frontire de dcision
pour la classification).

La sortie de rseau Dans le cas de classification, les valeurs de y en dessus


de 0.5 (ou autre seuil dfinir par lutilisateur) sont ajustes sur 1 classifies
en tant quune classe, et ceux en dessous delles sont ajusts sur 0 et classifies
en une autre classe.
Alors le PMC avec deux entres est capable de classifier des individus
dans lespace bidimensionnel, et les concepts tudis dans ce cas peuvent tre
prolongs un PMC avec plusieurs entres (des problmes de classification
multidimensionnels). Le problme est que les fonctions logistiques deviennent
multidimensionnelles et ne peuvent pas donc tre visualises graphiquement.
Cependant, il est possible de comprendre intuitivement tout le processus du
traitement de linformation mme dans ces derniers rseaux de neurones, bas
sur la comprhension du processus du traitement des donnes des rseaux
bidimensionnels. Et maintenant que le modle de la formulation est clair, il
est possible dcrire les quations avec une facilit relative, comme il le sera
montr dans la suite.

3.7.2 Le PMC avec des donnes multidimensionnelles

59
Un PMC, sous sa forme plus gnrale, peut avoir plusieurs neurones den-
tres et plusieurs neurones de sorties. Dans le cas de la prvision, il y a ha-
bituellement un seul neurone de sorties ; la classification multiclasse exige
plus dun. Il peut y avoir une ou plusieurs couches caches et plusieurs neu-
rones cachs dans chaque couche. Dans le cas gnral, l o il y a n entres,
M neurones cachs, et c neurones de sorties. Des tapes intermdiaires du
traitement dans un PMC peuvent tre construites comme suit
Lentre de neurone cach aj et la sortie de jme neurone zj sont :
n

aj = w0j + wij xi (3.51)
i=1

zj = g (aj ) (3.52)
L o xi est li
eme entre ,wij est le poids associ lentre i et le neurone
j,woj est le poids biais du neurone cach j et le g (aj ) peut tre la fonction
dactivation qui transforme aj en la sortie de neurone cach zj
La somme nette dentre ak et le yk la sortie de k eme neurone de sortie
peut tre crite comme suit :
M

ak = w0k + wjk zj (3.53)
j=1

yk = g (ak ) (3.54)
L o M et c sont le nombre de neurones cachs et de neurones de sortie
respectivement, wok est le poids biais du neurone de sortie k , wjk le poids
de raccordement entre le neurone cach j et le k eme neurone de sortie, et le
g (ak ) est la fonction dactivation du k eme neurone de sortie, qui transforme
ak vers sa sortie finale[22].
Remarque 23 Il existe un problme mdicale de discriminer les nodules
pulmonaires solitaires (le malin et benin). Dans la rsolution traditionnelle, il
est utilis une base statistique baysienne. Pour la rsolution de ce problme
par le PMC,on extrait le tableau des donnes daprs le service de radiologie de
CHU Constantine (prsent en annexe C), mais lexcution de ce problme
par le logiciel MATLAB version 7 nexiste pas. Dans la dernire version
(v10), il considre ce problme comme un problme de reconnaissance de
forme.
Lanalyse discriminante est le nom donn la classification, dans le cadre
supervis. Le mot supervis dsigne que lappartenance aux classes est dis-
ponible pour faire une correction derreur entre les sorties de rseau et les

60
valeurs cibles. Cette erreur sera explore de manire assez dtaille prochai-
nement.

61
Chapitre 4
La fonction derreur et ses
drives

Jusquici, nous avons vu que lutilisation de perceptron ou en terme plus


gnrale les rseaux avec une seule couche, sont beaucoup limits avec les
donnes non linairement sparables.
Nous mettons en lumire les perceptrons multicouches PMC, qui four-
nissent un cadre pratique pour la prdiction (rgression et analyse discrimi-
nante) multivariable et non linaire,
Dans ce chapitre, nous commenons dabord par discuter les proprits
importantes dune fonction derreur. Afin de minimiser cette erreur, nous
discutons la technique de rtropropagation qui permet de calculer les drivs
de fonction derreur quadratique.

4.1 Dfinition de la fonction d erreur


Pour des problmes associatifs de prdiction, il est commode de dcompo-
ser la densit de probabilit conjointe f (x, t) en produit de la densit condi-
tionnelle de la variable, conditionne sur lensemble dentres , et la densit
sans condition des donnes, de sorte que

f (x, t) = f(t/x)f(x) (4.1)

O f(t/x) dnote la densit de probabilit de t tant donne que x prend


une telle valeur dfinie, alors que f(x) reprsente la densit sans condition
de x et elle est donne par :

f(x) = f (x, t) dt (4.2)

62
Nous pouvons motiver la fonction derreur par le principe de maximum
de vraisemblance. Pour un ensemble dapprentissage {(xn , tn ) n = 1, ..., N}
la vraisemblance peut tre crite comme suit :


L = f (xn , tn ) (4.3)
n

= f (tn /xn )f (x) (4.4)
n

O nous avons suppos que chaque point densemble dapprentissage


(xn , tn ) est dessin indpendamment de la mme distribution , et par cons-
quent nous pouvons multiplier les densits (les probabilits ). Au lieu de
maximiser la vraisemblance , il est gnralement plus commode de rduire
au minimum le logarithme ngatif de la vraisemblance. . Nous rduisons au
minimum E, o il est donn par
 
E = ln L = ln f (tn /xn ) f (xn ) (4.5)
n n
O E sappelle une fonction derreur
La deuxime terme dans (4.5) ne dpend pas des paramtres de rseau et
reprsente ainsi une constante additive qui peut tre dduite de la fonction
derreur. Nous avons donc

E= ln f (tn /xn ) (4.6)
n
Pour des problmes dinterpolation , les variables cibles t sont des quanti-
ts continues, tandis que pour des problmes de discrimination, les variables
cibles t sont des quantits discrtes.
Notons que la fonction derreur prend la forme dune somme sur toutes
les fonctions derreur pour chaque point (xn , tn ) sparment ( indpendance
des distribution de (tn , xn ) n = 1, ..., N)

4.2 La fonction derreur de somme quadra-


tique
Nous supposons que les distributions de c variables cibles tk o k = 1, ..., c
sont indpendantes, de sorte que nous pouvons crire :
c

f(t/x) = f (tk /x) (4.7)
k=1

63
Nous supposons que la variable cible tk est donne par certaines fonctions
dterministes de x avec le bruit gaussien supplmentaire , de sorte que :

tk = hk (x) + k (4.8)
Nous supposons maintenant que lerreur k a une distribution normale
avec zro comme moyenne et un cart type qui ne dpend pas de x ou de
k. Alors, la distribution de k est donn par :
 2
1 k
f (k ) = 2 1/2
exp (4.9)
(2 ) 2 2
Nous cherchons maintenant modeler hk (x) par un rseau de neurone
avec des sorties yk (x, w) o w est lensemble de paramtres de poids rgissant
la courbe de rseau de neurone.
En employant (4.8) et (4.9), nous voyons que la distribution de probabilit
des variables cibles est donne par :
 
1 {yk (x, w) tk }2
f (tk /x) = exp (4.10)
(2 2 )1/2 2 2
O nous avons remplac la fonction inconnue hk (x) par notre modle
yk (x, w)
En mme temps nous, substituons (4.7) dans (4.6) pour crire :
 c

 
E = ln f (tnk , xn ) (4.11)
n k=1
N 
 C
= ln f(tnk , xn)
n=0 k=1

Daprs (4.10) on a :

 
1 {yk (xn , w) tnk }2
ln f(tnk , xn )
= ln (4.12)
(2 2 )1/2 2 2
1 {yk (xn , w) tnk }2
= ln 2 2
2 2 2
Nous substituons (4.12) dans (4.11) pour obtenir la forme suivante de E

N C
1  NC
E= 2 {yk (xn , w) tnk }2 NC ln + ln(2) (4.13)
2 n=1 k=0 2

64
Dans le but de la minimisation derreur , les deuximes et les troisimes
termes du ct droite de (4.12) sont indpendants des poids w et alors, ils
peuvent tre omis. De mme, le facteur global de 12 dans le premier terme
peut tre galement omis. Alors, nous obtenons finalement l expression uti-
lisable pour la fonction de somme quadratique comme suit :

N C
1  !2
E = yk (xn , w) t2k (4.14)
2 n=1 k=1
1
= y (xn , w) tn 2 (4.15)
2 n

Remarque 24 Noter quil est parfois utile pour une execution plus commode
des rseaux demployer une fonction derreur diffrente de l expression 4.15
qui est la racine de la moyenne quadratique (RMS) de la forme

"
# N
#1 
E RMS = $ y (xn , w ) tn (4.16)
N n=1

O w dnote le vecteur de poids du rseau trait , et les sommes sont


maintenant sur N points densemble de test.

4.3 Interprtation des sorties du rseau


Nous considrons le cas ou la taille N densemble dapprentissage tend
vers linfini. Dans cette limite nous pouvons remplacer la somme finie sur tous
les points dentres dans lerreur de somme quadratique par une intgrale de
la forme
N
1 
E = lim {yk (xn , w) tnk }2 (4.17)
n+ 2N
  n=1 K
1
= {yk (x, w) tnk }2 f (tk , x) dtk dx
2 k

O nous avons prsent un facteur supplmentaire de N1 dans la dfinition


de la fonction derreur de somme quadratique afin de faire un processus
significatif de limite.

65
Nous utilisons lexpression (4.1) dans (4.17) pour donner

1
E= (yk (x, w) tk )2 f (tk /x)f (x)dtk dx (4.18)
2
k

Ensuite, nous dfinissons les moyennes conditionnelles suivantes des donnes


cibles (moment conditionnel dordre un et deux)

tk /x = tk f(tk /x)dtk (4.19)

%2 &
tk /x = t2k f(tk /x)dtk

Nous crivons maintenant le terme entre parenthse dans (4.17) sous la


forme

{yk tk }2 = {yk tk /x + tk /x tk }2 (4.20)


= {yk tk /x} + 2 {yk tk /x} {tk /x tk } + {tk /x tk }2
2

Aprs nous substituons(4.20) dans (4.18)



1
E = {yk tk /x}2 f (x) dx (4.21)
2 k

1 % ! &
+ tk /x t2k /x f (x)dx
2 k
 
1 2 1 %2 & !
= {yk tk /x} f (x) dx + tk /x tk /x2 f (x)dx
2 k 2 k

Notons que le deuxime terme dans (4.21) est indpendant de la sortie


de rseau yk (x, w) et par consquent est indpendant des poids de rseau
w. Dans le but de lajustement de poids de rseau par minimisation derreur
, ce terme peut tre nglig. Puisque la fonction intgrer dans le premier
terme dans (4.21) est non ngative , le minimum absolu de la fonction erreur
se produit quand ce premier terme disparat , ce qui correspond au rsultat
suivant pour les sorties de rseau

yk (x, w ) = tk /x (4.22)


O w est le vecteur de poids qui minimise la fonction derreur
Lquation (4.22) est un rsultat principal qui indique que la sortie de
rseau est donne par la moyenne conditionnelle des donnes de cible tk , en
dautres termes, par la rgression du tk conditionn sur x.

66
4.3.1 Les conditions de ce rsultat
Il y a deux conditions principales pour obtenir ce rsultat qui sont :
L ensemble de donnes doit tre suffisamment grand pour quil approche
un ensemble de donnes infini .
La fonction de sortie de rseau yk doit tre suffisamment gnrale, cela
exige un choix des paramtres qui fait le premier terme de (4.21) suffisam-
ment petit. Cette deuxime condition implique que le nombre de poids adap-
tatifs (ou de manire quivalente le nombre des units caches) doit tre
suffisamment grand
Il est important que les deux conditions (le grande taille de lensemble
dapprentissage et le grande nombre des poids) doivent tre ralises d une
manire couple pour raliser le rsultat dsir. Loptimisation des para-
mtres de rseau est excute ainsi quand on a trouv le minimum appropri
de la fonction de cot (ces techniques seront discutes dans le chapitre 05)
Dans ce travail nous utilisons les perceptrons avec deux couches (percep-
tron multicouche) qui fournissent un cadre pratique pour la modlisation de
la fonction multivariable non linaire par la moyenne conditionnelle.
Pour mettre le perceptron multicouche en phase dutilisation,nous com-
menons dabord par un point important qui est lespace de poids adaptatifs
de rseau.

4.4 La symtrie despace de poids


Nous considerons un rseau de deux couches ayant M units caches
avec une fonction dactivation tanh et une connexion complte dans les deux
couches. Si wji le poids qui est entre lunit i et lunit cach j. o : j =
1 . . . , M et i = 1 . . . , n et wj0 est un vecteur de biais et wkj est le poids entre
lunit cach j et lunit de sortie k. O j = 1 . . . , M et k = 1 . . . , c, et
wk0 est le deuxieme vecteur de biais .
Premirement, si nous changeons le signe de tous les poids wji o j
est fix et i = 1 . . . , n alors pour un vecteur dentres (x0 , x1 , . . . , xn ), le
signe de lactivation de lunit j sera inverse. Comme la fonction tanh est
une fonction impaire, ceci peut tre compens par le changement du signe
de tous les poids wkj pour cette unit j et k = 1 . . . , c, alors la sortie qui
prsente la relation entre les variables dentres et les variables de sorties par
le rseau nest pas change. Nous obtenons alors deux vecteurs diffrents de
poids qui provoquent la mme sortie, il y a ainsi un ensemble des vecteurs
de poids quivalents de 2M , o M est le nombre dunits caches.
Deuximement, imaginez que nous changeons les valeurs de tous les poids

67
wij et wjk o j est fix (pour unit cache fixe) et nous changeons les valeurs
de poids (et biais) lis une unit cache diffrente de j, Encore une fois, la
sortie de rseau nest pas change. Alors pour M units caches, un vecteur
de poids aura M ! vecteurs de poids quivalents.
Daprs le premier et le deuxime raisonnement pour un rseau de M
units caches, il y a M!2M facteurs de symtrie dans lespace de poids.

Remarque 25 Lexistence de ces symtries nest pas une proprit de la


fonction tanh seulement mais sapplique pour plusieurs fonctions dactiva-
tion diffrentes.

Remarque 26 Dans plusieurs cas, ces symtries, dans lespace de poids ont
peu de consquences pratiques.

4.5 Rtropropagation derreur


Jusquici dans cette partie, nous avons mis laccent sur les possibilits de
reprsentation des rseaux multicouches. Nous considrerons aprs comment
un tel rseau peut apprendre une fonction approprie densemble dentres.
Comme dans le paragraphe prcdent lapprentissage sera base sur la dfini-
tion dune fonction approprie qui est alors rduite au minimum par rapport
aux poids et aux biais dans le rseau.
Si nous considrons un rseau avec des fonctions dactivation diffren-
tiables alors les activations des units de sorties deviennent des fonctions
diffrentiables par rapport aux variables dentres et aux poids (et aux biais).
Si nous dfinissons une fonction derreur telle que la somme quadratique
derreur prsente dans le paragraphe (4.2) qui est une fonction diffrentiable
par rapport aux sorties de rseau (yk (x)), alors cette fonction derreur elle
mme est diffrentiable par rapport aux poids (et les biais). Nous pouvons
donc valuer les drivs de fonction derreur par rapport aux poids, et ces
drivs peuvent alors tre employs pour trouver les valeurs de poids qui
rduisent la fonction derreur au minimum.
Pour la minimisation dune fonction derreur et les ajustements des poids
de rseau, nous pouvons distinguer deux tapes diffrentes. La premire est
lalgorithme de Retropropagation et la deuxime est le calcul dajustement
de poids.

4.5.1 Dfinition de la rtropropagation derreur


Dfinition 27 La retropropagation derreur est une technique pour va-
luer les drivs de la fonction derreur, cela correspond une propagation des

68
erreurs vers larrire par le rseau et fournit un information efficace pour
valuer les drivs de la fonction derreur par rapport aux poids de rseau.

Remarque 28 Le mot retropropagation dans la littrature du calcul neuro-


nal signifie une varit de diffrentes choses, par exemple,

Larchitecture de perceptron multicouche sappelle parfois un


rseau Retropropagation
Employer pour dcrire la formation dun perceptron multi-
couche employant la dscente de gradient et une fonction derreur de somme
quadratique.

Remarque 29 En gnral, cette technique comprend des procds itratifs.

4.5.2 La procdure de rtropropagation


Supposons une architecture de rseau pondr ayant une seule couche
cache des units avec une fonction dactivation sigmode (logistique), et
considrons une fonction derreur de somme quadratique.
Dans chaque unit de la couche cache, il y a une transformation de
somme pondre dentres de la forme :

zj = g(aj ) (4.23)

O 
aj = wij xi
i

O xi , i = 1 . . . , N lentre qui envoie une connexion lunit


j des rseaux ; g une fonction (logistique). Et wji est le poids associ ces
connexions.
Nous avons considrs une fonction derreur E qui est diffren-
tiable par rapport yk et par rapport aux poids de rseau (et biais). Alors
il est diffrentiable par rapport yk et par rapport aux poids. Nous pou-
vons crire E comme somme sur tous les n points densemble dentre.
Alors

E(w) = E n(yk (w.xn).tn ) k = 1..., c (4.24)
n

Et dans les units de sortie.

yk (x) = g(ak )

69
O 
ak = wkj zj (4.25)
j

Considrons maintenant lvaluation de driv de E n par rapport wji :

E n E n aj
= . (4.26)
wji aj wji
Nous notons j :la driv de E n par rapport aj
On crit :
E n
= j (4.27)
aj

j sont souvent mentionns comme des erreurs.


Alors pour les units de sortie nous notons k la driv de E n par
rapport ak
E n
k (4.28)
ak

Pour valuer j pour les units caches j ,utilisons la rgle de chanes


pour les drivs partielles, ou la somme est sur toutes les units k auxquelles
lunit j envoie des connexions.
Daprs (4.27) nous pouvons crire :
 E n ak
j = . (4.29)
k
ak aj

Daprs (4.23) et (4.25) nous avons la formule suivante :



ak = wkj g(aj )
k

Alors,
ak
= wkj g(aj ) (4.30)
aj

Si nous substituons (4.30) et (4.28) dans (4.29) nous obtenons :



j = g(aj ) wkj .k (4.31)
k

70
Ce qui nous indique que la valeur j pour une unit cache particulire j
peut tre obtenue pour propager les k vers larrire partir des units plus
haut vers des units plus bas dans le rseau. Comme cest illustr dans la
figure (4.1)
.

F. 4.1 La procdure de rtropropagation k partir de ces units k


auxquelles lunit j envoie des connexions.

Daprs (4.28) :
E n yk E n
k = . (4.32)
ak ak yk

et nous avons daprs (4.25) :


yk = g(ak )
alors :
yk
= g(ak ) (4.33)
ak

Nous substituons (4.33) dans (4.32), nous obtenons la formule suivante :


E n
k = g(ak ) (4.34)
yk

71
Remarque 30 Dans cette dmonstration nous supposons que g g pour
simplifier les calculs, et nous pouvons gnraliser le rsultat.
Nous pouvons rcapituler la procdure de rtropropagation en quatre
tapes :
1)Mettre jour le vecteur dentre xn dans le rseau et propager en avant
et trouver les activations de toutes les units caches et les units de sorties.
2)Evaluer le k , k = 1 . . . , c, en utilisant (4.34) .
3)En utilisant (4.31) pour calculer j , j = 1 . . . , M .
4)Enfin, nous avons les drivs de E n par rapport wkj , j = 1 . . . , M et
k = 1 . . . , c par lutilisation de (4.26).
 Si nous rptons  ce prcd pour chaque xn o n = 1 . . . , N et daprs
 n
E n E
wji
= wji
nous avons le rsultat.
n
La drivation du procd de retropropagation a tenu compte de la forme
gnrale de la fonction derreur et des fonctions dactivation. Afin dillustrer
lapplication de cette technique, nous prenons des exemples simples particu-
liers.

4.5.3 Lapplication de rtropropagation


Lapplication de retropropagation un rseau avec une seule couche
Dans ce cas, et afin dillustrer lapplication de cette technique, nous consi-
drons la forme de la descente de gradient donne par (3.2) et nous utilisons
la fonction dactivation linaire (un rseau linaire) donne par.

N
ak (x) = wkj xj (4.35)
j=1

Alors les drivs de la fonction derreur quadratique sont donnes par


E n
= {yk (xn ) tnk } xnj = nk xnj (4.36)
wkj
O
nk = {yk (xn ) tnk } (4.37)
En substituant (4.36) dans (4.35) nous obtenons lquation suivante ;
( +1)
wkj = w ( ) nk xnj (4.38)
Et nous pouvons conclure que le chargement de poids est donn par :

wkj = nk xnj . (4.39)

72
Lapplication de retropropagation un rseau PMC
Nous fixons larchitecture de rseau deux couches de poids adap-
tatif. Les fonctions dactivation des units de la couche cache sont des fonc-
tions logistiques et les fonctions dactivation des units de sorties de rseau
sont linaires. Nous utilisons la fonction
 derreur de somme quadratique, qui
satisfait la proprit suivante E = E n pour un vecteur dentre xn
n
O E n donne par
c
n 1
E = (yk tk )2 (4.40)
2 k=1

O yk reprsente la sortie de lunit de sortie k, tk est la valeur cible


correspondante lunit k.
En appliquant la premire tape dans la procdure de retropropagation,
alors il rsulte .

aj = wij xi
i

ak = wkj zj

zj = g(aj )
O
1
g(x) = (4.41)
1 + exp(x)

Daprs la deuxime
k = yk tk
Et on a n

j = g(aj ) wkj . k
k=1

g(a) = g(a)(1 g(a))


et

g(aj ) = zj

73
Alors,
n

j = zj (1 zj ) wkj . k (4.42)
k=1

Les drivs par rapport aux poids de la premire couche sont indiques
par :
E n
= j xi (4.43)
wji

Et les drivs par rapport aux poids de la deuxime couche sont indiques
par :
E n
= k zj (4.44)
wkj

La matrice de Jacobi
Ici, nous considrons lvaluation de la matrice de JACOBI, dont
ses lments sont donns par les drivs des sorties de rseau par rapport aux
entres, telle que chaque driv est value avec toutes les autres entres en
les supposant fixes.
yk
Jkj = (4.45)
xi

. Lutilisation dans la thorie :


* La matrice JACOBIENNE est parfois employe pour dcrire les
drivs de la fonction derreur par rapport aux poids de rseau de retropro-
pagation.
* Elle fournit une mesure locale de la sensibilit des sorties aux chan-
gements de chacune de variables dentres.
* Elle est utilise dans plusieurs contextes dans lapplication des r-
seaux de Neurones.
* Elle peut tre value en utilisant un procd de retropropagation,
ce qui est trs semblable ce qui a t est dcrit plus haut pour valuer les
drivs dune fonction derreur par rapport aux poids (biais). Nous commen-
ons par llment Jki sous la forme :

74
yk  yk aj
Jki = = . (4.46)
xi j
aj xi
 yk
= wji .
j
aj


Car gj = wij .xi o lunit dentre i envoie une connexion toutes les
units j de couche cache.
Nous notons maintenant une formule rcursive de retropropagation pour
dterminer y k
aj
.

yk  yk ak
= . (4.47)
aj k
a k aj
 yk
= g(aj ) wkj .
k
ak

puisque 
ak = wkj g(aj )
k

et nous avons gk = g(ak ) alors,

yk
= g (ak ) (4.48)
ak

Nous appliquons maintenant la procdure de rtropropagation comme


suit :
1/On applique le vecteur dentre correspondant au point despace den-
tre ce que la matrice de JACOBI doit tre trouve, et on applique une
propagation vers lavant de manire habituelle afin dobtenir les activations
de toutes les couche caches et des neurones de sorties dans le rseau.
2/ On calcule les drivs de sortie de rseau par apport ak daprs (4.46)
3/ On substitue le rsultat de (4.48) dans (4.47) pour trouver les drivs
deyk par apport aj
4/On utilise le rsultat de (4.47) pour obtenir Jkj avec lexpression (4.46).

75
La matrice de HESSIEN
Nous avons montr comment la technique de retropropagation peut
tre employe pour obtenir les premiers drivs dune fonction derreur par
rapport aux poids dans le rseau.
Cette technique peut tre employe pour valuer les deuximes drivs de
la fonction derreur donne par :

2E
(4.49)
wji wk
Ces drivs forment les lments de la matrice de HESSIEN, qui joue
un rle important dans le calcul neuronal. Dans ce travail, nous utilisons
cette matrice pour valuer plusieurs algorithmes doptimisation utilise pour
les rseaux de neurones. Pour une application importante de la matrice de
HESSIEN, on peut tre valuer les premires derives de la fonction derreur
par un calcul exact, par utilisation dune prolongation de la technique de
rtropropagation.
Comme dans ce qui prcde , nous prenons un modle la fois. Consid-
rons lexpression gnrale pour la driv de la fonction derreur par rapport
wk
Daprs (4.44)
E n
= zk (4.50)
wk

Diffrenciement ceci par rapport un autre poids wij ,nous obtenons :

2E aj E n E n
= . ( ) = zj ( ) (4.51)
wji wk wji aj wk aj wk

Daprs(4.50), nous pouvons crire :

E n
( ) = ( zk ) (4.52)
aj wk aj
zk
= . + .zk
aj aj

Et nous avons :
zk = g(ak )

76
alors,

zk g(ak ) ak
= . (4.53)
aj ak aj
ak
= g (ak ).
aj

Nous pouvons crire (4.52) sous la forme :


E n ak
( ) = g (ak ). + zk (4.54)
aj wk aj aj

Nous substituons (4.54) dans lexpression (4.51), nous obtenons :

2E ak
= zj g (ak ) + zj zk (4.55)
wji wk aj aj

Nous pouvons considrer la notation suivante :


ak
hkj (4.56)
aj

Et

bj (4.57)
aj

Les quantits hkj peuvent tre values par la propagation vers lavant
ainsi : En utilisant la rgle de chaine pour les drivs partielless, nous aurons
 ak ar
hkj = . (4.58)
r
a r aj

O la somme ici, est sur toutes les units r qui envoient les connexions
lunit k
Daprs (4.56), nous avons

ar
hrj (4.59)
aj

Et nous avons 
ak = wkr g (ar ) (4.60)
r

77
Alors :
ak
= wkr g (ar ) (4.61)
ar

Nous substituons (4.61) et (4.59) , nous pouvons crire (4.58) sous la


forme :

hkj = g (ar )wkr hrj (4.62)
r

Remarque 31 Les conditions initiales pour valuer {hkj }suivant lexpresion(4.56)


peuvent snoncer comme suit pour chaque unit j dans le rseau.


Si k=j alors hkj = 1
Si k = j alors hkj = 0
(car il ny a aucune connexion directe entrej et k )
Alors les lments restants de hkj peuvent tre trouvs par lquation
(4.62), nous pouvons valuer {hkj } pour la rtropropagation comme suit :
Daprs (4.62), nous avons vu que :

= g (a ) ws s (4.63)
s

En substituant (4.63) dans la dfinition bj dans (4.57), nous obtenons :

' (

bj = g (a ) ws s (4.64)
aj s
' (
 
= g (a ). ws s + g (a ). ws s
aj s
a j s
 

g (a ) a   s
= . ws s + g (a ) ws
a aj s s
aj
 
bj = g (a )hij ws s + g (a ) ws bsj
s s

Ou nous faisons la somme sur toutes les units s auxquelles lunit


envoie des connexions.

78
4.5.4 Lefficacit de la rtropropagation
Un des aspects les plus importants de cette technique est son effica-
cit informatique. Pour cela nous supposons que w indique tout le nombre
de poids et biais dans le rseau ; pour un w suffisamment grand :
1/ lvaluation simple de la fonction derreur (pour les xn ) exigerait O(w)
oprations.
2/ Si le rseau est connexion complte, le nombre de poids est typi-
quement beaucoup plus grand que le nombre dunits. Alors, il y a un effort
informatique pour calculer zj et yk .
3/Le calcul de chaque zj exige une multiplication et une addition alors il
y a un cot informatique global qui est O(w).
4/Pour w (poids totale dans le rseau), il y a w drivs valuer.
5/ Pour une telle expression de la fonction derreur et les formes explicites
des drivs, nous l valuons par propagation vers lavant pour chaque lment
de w (pour chaque poids ou biais) exigeant O(w)oprations. Alors valuer
toutes les drivs, demande O(w2 ) oprations.
Par comparaisons, si nous utilisons la retropropagation ;
La phase de propagation avant demande O(w)oprations.
Lvaluation des drivs par la technique de retropropagation a ramen
la complexit informatique de O(w2 ) O(w) pour chaque vecteur dentre.
Alors pour cette raison, lutilisation de retropropagation dans un apprentis-
sage dans les rseaux multicouches consiste a consommer beaucoup de temps,
ainsi on a une efficacit cruciale.
La technique de retropropagation peut tre appliqu beaucoup dautres
genres de rseau et pas seulement le perceptron multicouche. Malgr leffi-
cacit et lapplication large de cette technique, elle possde des limitations
spcialement au niveau du plan pratique.
Afin de faire une excution pratique de rsolution du problme prdictif
multidimensionnel complexe, nous allons dtaill des algorithmes doptimi-
sation de poids adaptatifs dans ce qui suit.

79
Chapitre 5
Les algorithmes doptimisation
des poids adaptatifs

Le problme de ltude dans les rseaux de neurone a t formul en termes


de minimisation de la fonction derreur E . Cette erreur est une fonction des
paramtres adaptatifs ( poids et biais ) dans le rseau , que nous pouvons
regrouper dans un seul vecteur avec les composants soit w1 , w2 , ..., wW .Jus-
qu ici nous avons montr que pour un perceptron multicouche , les drivs
dune fonction derreur par rapport aux paramtres ( poids et biais ) de r-
seau peuvent tre obtenues de manire informatique efficace en utilisant la
technique de retropropagation .
Dans ce chapitre, nous passerons en revue plusieurs algorithmes, les plus
importants en pratique. Le plus simple de ces derniers est la dscente de
gradient qui a t dcrite brivement dans le chapitre prcdent.
Il est impossible de recommander un algorithme universel simple dop-
timisation. Au lieu de cela, nous accentuons les avantages et les limitations
relatives aux diffrents algorithmes .

5.1 La surface derreur


Il est utile davoir une image gomtrique simple de processus de mini-
misation derreur qui peut tre obtenue en regardant E (w) comme surface
derreur dans l espace de poids , comme cest reprsent dans la figure(5.1)
Pour des rseaux ayant deux couches de poids adaptatifs , la fonction
derreur sera typiquement une fonction non linaire de poids , il peut existe
aux moins un minimum qui satisfait :

E = 0 (5.1)

80
F. 5.1 un point quelconque C, le gradient local de la surface derreur
est donn par le vecteur E [6].

O E dnote le gradient de E dans lespace de poids


Nous discutons lutilisation de cette notation :
A cause de la non linarit de la fonction derreur, il est impossible de
trouver en gnrale la solution de forme ferme pour le minimum . Pour cela
nous considrons des algorithmes qui sont impliqus dans la recherche de
lespace de poids se composant dune succession dtape de la forme

w ( +1) = w ( ) + w( ) (5.2)
O dnote ltape ditration.
Les diffrents algorithmes impliquent diffrents choix de w( ) de vecteur
de poids et les choix des poids initiaux pour lalgorithme dtermine vers quel
minimum il convergera .

Remarque 32 Il peut y avoir plusieurs points stationnaire ,ces points sa-


tisfont la condition (5.1),par exemple des maximum globalux , et minimum
locaux (voir figure 5.02)

Remarque 33 Nous avons vu que dans un rseau de deux couches de poids


adaptatif avec M units dans la couche cache , il y a un facteur de symtrie
de M !2M ,alors nimporte quel minimum local ou global sera rpt un grand
nombre de fois dans tout lespace de poids .

81
F. 5.2 E dnote le gradient de E dans lespace de poids w [6]

5.2 Lapproximation quadratique locale


Pour des techniques divers, le problme doptimisation peut tre obtenu
en considrant une quation dapproximation quadratique locale de la fonc-
tion derreur.Nous considrons lexpression de TAYLOR pour E(w) autour
dun certain point dans lespace de poids.
1
E(w) = E(w)
+ (w w)b
+ (w w)H(w
w)
(5.3)
2

O b est dfini pour tre le gradient de E valu w :

b = E |w (5.4)

Et la matrice de HESSIEN H est dfinie par :

2E
(H)ij = |w (5.5)
wi .wj

Daprs (5.3) lapproximation locale correspondante pour le gradient est


donne par :

E = E(w)
+ (w w)H

82
E = b + H(w w)
(5.6)

Ces expressions forment une base pour une grande partie de la discussion
sur les algorithmes doptimisation.
Si nous supposons quew = w o w est le point qui minimise E(w) .
Alors, E |w = 0 et (5.3) devient :
1
E(w) = E(w ) + (w w )H(w w ) (5.7)
2

O H est value au point w


Afin dinterprter ceci gomtriquement, nous considrons lquation de
la valeur propre pour la matrice de HESSIEN suivante :

Hi = i i (5.8)

O le vecteur i forme un ensemble orthogonale complet, Alors :

Ti j = ij (5.9)


1 si j = i
O ij est le symbole de KRONEKER ij =
0 si j = i
Alors nous pouvons crire (w w ) comme combinaison linaire des vec-
teurs propres sous la forme :

w w = i i (5.10)
i

En substituant (5.10) dans (5.7), nous obtenons :

1
E(w) = E(w ) + ()T H (5.11)
2
1 2 T
= E(w ) + Hi
2 i i i

En utilisant (5.8) dans (5.11) nous obtenons :


1 2 T
E(w) = E(w ) + i i i (5.12)
2 i i

83
Daprs (5.9), lexpression (5.12) devient :
1
E(w) = E(w ) + i 2i (5.13)
2 i

5.2.1 Linterprtation gomtrique


Lexpression (5.10) peut tre considre comme une transformation du
systme de coordonns dans laquelle lorigine estet au point w , et les axes
sont les vecteurs propres ( alors la matrice est orthogonale dont les colonnes
sont les i )
La convergence au point stationnaire w sera minimum si tou les i sont
positifs,o i est la valeur propre de H, en effet :
Nous avons ,dans lespace unidimensionnel, un point stationnaire qui sera
un minimum si :
2E
|w > 0 (5.14)
w
Et le rsultat correspondant dans lespace de d-dimension est que la ma-
trice H (de HESSIEN) value w devrait tre dfinie positive.
Ensuite,pour que les vecteurs propres {i } forment un ensemble complet,
soit un vecteur arbitraire V , nous pouvons crire V sous la forme :

V = i (5.15)
i

Daprs (5.8) et (5.9), nous avons alors :



V HV = 2i i (5.16)
i

Alors, H sera dfinie positive si i > 0, i.


Les contours de E sont des ellipses centres lorigine, dont les axes sont
les valeurs propres et dont les longueurs sont linverse de la racine des valeurs
propres, comme cest indiqu dans le schma (5.3).

5.3 Descente du gradient


Un des algorithmes de traitement de rseau les plus simples est la
descente de gradient[16]. Nous commenons avec une conjecture initiale pour
le vecteur de poids (qui est choisi au hasard) et not par w0 .Nous mettons

84
F. 5.3 Les longueurs des axes sont linverse proportionnelles aux racines
carres des vecteurs propres correspondants i [6].

jour alors itrativement le vecteur de poids tel que, ltape nous dplaons
une distance courte dans la direction du plus grand taux de diminution de
lerreur cest- -dire. dans la direction du gradient ngatif value w ( ) :

w( ) = E |w( ) (5.17)

O sappelle le taux dapprentissage. On note que le gradient est valu


chaque tape .Onl peut valuer le gradient de la fonction derreur juste
en un point xn dans lensemble de donnes de N points , et les poids sont
mis jour en utilisant :

w ( ) = E n |w( ) (5.18)
Pour la mise jour squentielle de
cette expression, nous pourrons esprer une rduction rgulire par lerreur
puisque pour suffisamment petit, la direction moyenne de mouvement dans
lespace de poids devrait approcher le ngatif de gradient local. Si le para-
mtre de taux dtude est telle quil diminue chaque tape de lalgorithme
selon les conditions de thorme (LUO 1991), celle ci peut tre satisfait en
choisissant :
1
x( ) (5.19)

85
Lanalogie devient
prcise, et nous sommes assurs de la convergence.
Ce choix entraine que la convergence est trs lente. Alors nous supposons
que a une valeur fixe.
Daprs (5.10)
E = H(w w ) (5.20)

En utilisant (5.12) lquation (5.20) devient :



E = i i H (5.21)
i

Et avec lutilisation (5.11)



E = i i i (5.22)
i

Nous avons lexpression (5.13)

w = (w1 w ) (w2 w ) (5.23)


 
= i1 i i2 i
i i

= i i
i

Daprs (5.22) et (5.23), nous pouvons crire (5.18) sous la forme :


 
i i = i i i
i i

Alors :
i = i i
Donc :
nouveau = (1 i )ncien
i (5.24)

En employant (5.13),nous avons,



w w = i i
i

86
Nous multiplions (5.13) parTi , nous obtenons :

i = Ti (w w ) (5.25)

Alors i peut etre interprt comme distance minimum le long de


la direction i . Daprs (5.24), nous voyons que ces distances sont values
indpendamment tel que, chaque tape, la distance le long de la direction
de i est multipli par un facteur (1 i ).
Aprs un nombre dtape total T, nous avons :
(T ) (0)
i = (1 i )T i (5.26)

*Si |1 i | < 1etT +. alors i = 0 et daprs (5.25) w = w (le


vecteur de poids atteint le minimum de lerreur)
*Si nous rendons plus grand nous pouvons rendre le facteur (1 i )
plus petit et par consquent la vitesse de convergence sera amlior.
*Si |1 i | > 1, i divergera ceci limite la valeur de < 2/ max
o max est la plus grandes des valeurs propres et > min la plus petite
valeur propre.
Si est place sa plus grande valeur autorise, alors la convergence
le long
 de direction
 correspondant la plus petite valeur propre sera rgie
2min
par 1 max

5.3.1 Les avantages de cet algorithme


Il y a deux avantages principaux de cet algorithme :
Le premier cest quil est class parmi les mthodes les plus importantes
pour lapproche squentielle.
Le deuxime avantage cest que cet algorithme a employ linformation
de gradient.

5.3.2 Les inconvnients (limitation dalgorithme)


1)Dans la pratique, une valeur utilis de constante mene, gnralement,
amliorer les rsultats quoique la garantie de la convergence est perdue.
2)Il y a une difficult grave avec le fixage de car
Si est trop grand, lalgorithme peut entrainer une augmentation
de E et probablement aux oscillations divergentes ayant pour rsultat une
panne complte dans lalgorithme.

87
Si est choisi trs petit, la recherche peut etre extrmement lente
(le temps de calcul est trs long)
3)La courbe de E change de manire significative avec la direction. Dans
la plupart des points sur la surface derreur, le gradient local ne se dirige pas
vers le minimum. Alors, la descente de gradient prend beaucoup de petites
mesures pour atteindre le minimum, et cest donc clairement un procd
totalement inefficace. Comme cest prsent dans le schma (5.04) pour un
espace de poids bidimensionnel.
4)Si le rapport min /max est trs petit, alors le progrs vers le minimum
sera extrmement lent. Comme cest prsent dans le schma (5.04)

F. 5.4 Les tapes successives de la descente de gradient peuvent tre


converge vers le minimum trs lentement [6]

5)Nous pourrions trouver le minimum employ exactement comme va-


luation de la fonction derreur w(w+3)/2 tapes . La descente de gradient est
un algorithme inefficace, car le nombre des valuations de fonction derreur
peuvent facilement tre beaucoup plus grandes que ce nombre.
Il y a eu plusieurs tentatives ces dernires annes pour amliorer lex-
cution de descente de gradient pour la formation de rseau de neurones,en
faisant les diverses modifications suivantes :

5.4 Lalgorithme de gradient conjugu


5.4.1 Ligne de recherche
Les algorithmes qui sont dcrits dans ce chapitre impliquent une suite
dtapes dans lespace de poids, il est commode de considrer chacune de ces
tapes dans deux partis, premirement nous devons dcider la direction dans

88
laquelle se dplacer, et en second lieu, nous devons dcider quelle distance
est dplace cette direction. Par exemple, pour la descente de gradient simple,
la direction de chaque tape est donne par le gradient ngatif locale E
de fonction derreur, et la distance de dplacement ltape est dtermine
par un paramtre de taux dapprentissage arbitraire .
*Plus gnralement nous pouvons considrer une certaine direction de re-
cherche dans lespace de poids, et puis nous trouvons le minimum de fonction
derreur le long de cette direction. Ce procd est rfr en tant quune ligne
de recherche. Elle est la base de plusieurs algorithmes qui sont considrable-
ment plus puissants que la descente du gradient.
*Nous supposons qu ltape , la minimisation le long dune direction
de recherche particulire not d dans la prochaine valeur dans lespace de
poids est donne par :
w ( +1) = w ( ) + ( ) d( ) (5.27)

O ( ) est choisi pour rduire au minimum.


E(w) = E(w( ) + d( ) ) (5.28)

Si nous choisissons la direction de recherche, lexpression (5.26) nous don-


nera une procdure automatique pour placer la longueur dtape.

5.4.2 La procdure dalgorithme de gradient conjugu


*Pour appliquer la ligne de recherche du problme de minimisation de la
fonction derreur, nous devons choisir une direction appropri de recherche
chaque tape de lalgorithme.
*Nous notons que, au minimum de la ligne de recherche dans (5.26) nous
avons :

E(w ( ) + d( ) ) = 0 (5.29)

Daprs (5.26) alors :


d2 E(w() + d( ) ) = 0 (5.30)

w( ) + d( ) = w( +1)

d E(w ( +1) ) = 0

g ( +1)T d( ) = 0

89
O g E, alors le gradient au nouveau minimum est orthogonal
la direction de recherche prcdente.
lequation (5.28) est quivalente E au point w(+1) , nous avons :

g(w( +1) )T d( ) = 0 (5.31)

*Nous choisissons maintenant la prochaine direction de recherche d( +1)


Daprs (5.27),
g(w ( +1) )T d( +1) = 0 (5.32)

Alors

g(w ( +1) + d( +1) )T d( +1) = 0 (5.33)


g(w ( +1) + d( +1) )T d( ) = 0
g(w ( +1) )T d( ) + g(d( +1) )T d( ) = 0

Nous avons :

d( +1) Hd( ) = 0 (5.34)

O H est la matrice de HESSIEN valu au point w( +1)


Si la surface derreur est quadratique, la matrice de HESSIEN contient
des termes constants et valus dans lexpression de (5.28) et ou le terme
puissance multiplicatif de a disparu. Nous recherchons les directions conju-
gus qui satisfont (5.34) .
En effet, nous verrons quil est possible de construire une suite de direc-
tion de recherche d( ) successives tel que chaque direction est conjugue
toutes les directions prcdentes ; cest lalgorithme doptimisation de gra-
dient conjugu.

Fonction derreur quadratique


Afin de prsenter lalgorithme de gradient conjugu, nous considrons le
cas dune fonction derreur quadratique de la forme :

90
1
E(w) = E0 + bT w + wT Hw (5.35)
2
Dans ce cas les paramtres b et H sont constants.
Et nous assumons que H est dfini. Le gradient local de ceci est donn
par :

g(w) = b + Hw (5.36)
Et la fonction derreur (5.35) est
rduite au minimum au point w et en utilisant ( 5.36) pour donner :

b + Hw = 0 (5.37)
Supposons que
nous pouvons trouver un ensemble de w vecteurs (w est la dimensionnalit
despace de poids) qui sont mutuellement conjugus par rapport H, alors

dTj Hdi = 0 pour j = i (5.38)

Alors, nous montrons facilement que ces vecteurs seront linaire-


ment indpendant si H est dfini positif. De tels vecteurs forment une base
complete mais non orthogonale dans lespace de poids. Alors nous pouvons
crire la diffrence entre w1 et w (ou w1 sont les points de dpart ) comme
combinaison linaire des vecteurs de direction conjugus [16] sous la forme :
w


w wi = i di (5.39)
i=1

Noter que, si nous posons :


j1

wj = w1 + i dj (5.40)
i=1

Alors (5.39) peut tre crit


comme quation itrative sous la forme :

wj+1 = wj + j dj (5.41)

Afin de trouver des expressions pour les , nous multiplions


(5.39) par dTj H pour donner :
w

dTj H(w w1 ) = i dTj Hdi
i=1

91
w

dTj Hw dTj Hw1 = i dj Hdi (5.42)
i=1

Daprs ( 5.37) Hw = b, en substituant ce rsultat dans (5.42), nous


obtenons :
w

dTj (b + Hw1 ) = i dTj Hdi (5.43)
i=1

Et nous utilisons lexpression ( 3.36) pour obtenir :

dTj (b + Hw1 ) = j dTj Hdj


Alors

dTj (b + Hw1 )
j = (5.44)
dTj Hdj

Sans cette proprit, (5.44) qui reprsente un ensemble dquations cou-


ples pour i

nous pouvons crire (5.41) sous une forme plus commode(5.38) comme
suit. :
dTj Hwj = dTj Hw1 (5.45)
O nous avons encore employ ltat de conjugu (5.36). Ceci permet au
numrateur du ct droit de (5.41) de scrire sous la forme :

dTj (b + Hw1 ) = dTj (b + Hwj ) = dTj gj (5.46)

O gj = g (wj ) et nous utilisons (5.34). Alors, j , peut tre crit dans la


forme

dTj gj
j = (5.47)
dTj Hdj
Nous donnons maintenant un argument inductif simple pour montrer cela,
si les poids sont employs incrments (5.39) avec le i donn par (5.44)
alors le vecteur de gradient de gj ltape j sera orthogonal toutes les
directions conjugues prcdentes, et alors nous serons arrivs au minimum
de la forme quadratique .Voir le schma (5.5)
Pour driver la proprit dorthogonalit, nous notons (5.34) de celui

92
F. 5.5 Lapplication de lalgorithme de gradient conjugu la minimisa-
tion dune fonction erreur quadratique bidimensionnelle [6]

gj+1 gj = H (wj+1 wj ) = j Hdj (5.48)


O nous avons employ (5.39).
Nous prenons maintenant le produit scalaire de cette quation avec (5.48),
et employons la dfinition de j donne par (5.44), pour donner

dTj gj+1 = 0 (5.49)


De mme, de (5.45), nous avons :

dTk (gj+1 gj ) = j dTk Hdj = 0 pour tout k j W (5.50)


En appliquant la technique de linduction (5.46) et de (5.47), nous obte-
nons le rsultat suivant

dTk gj = 0 pour tout k j W (5.51)


Le prochain problme est comment construire un ensemble avec des di-
rections mutuellement conjugues. Ceci peut tre ralis en choisissant la
premire direction pour tre le gradient ngatif d1 = g1 , et puis le choix de
chaque direction successive pour tre une combinaison linaire du gradient
courant et de la direction prcdente de recherche

dj+1 = gj+1 + j dj (5.52)


Les coefficients j peuvent tre trouvs en imposant ltat de conjugu ce
qui donne
T
gJ+1 Hdj
j = T
(5.53)
dj Hdj

93
Daprs (5.49) le dk est donn par une combinaison linaire de touts les
vecteurs de gradient prcdents
k1

dk = gk + l gl (5.54)
l=1

Nous employons (5.48), nous avons alors


k1

gkT gj = l glT gj pour tout k j W (5.55)
l=1

Puisque la direction initiale de recherche est d1 = g1 ,nous pouvons


employer (5.49)pour montrer que g1T gj = 0 , de sorte que le gradient ltape
j soit orthogonal au gradient initial.
Si nous appliquons linduction de (5.55), nous constaterons que le gradient
courant est orthogonal touts les gradients prcdents

gkT gj = 0 pour tout k j W (5.56)


Nous avons maintenant dvelopp un algorithme pour trouver le mini-
mum dune fonction erreur quadratique gnral dans w tapes au maximum.

La procdure de lalgorithme de gradient conjugu


Nous avons maintenant dvelopp un algorithme pour trouver le mini-
mum dune fonction derreur quadratique gnrale, puisque lvaluation de
H est couteuse au point de vue calcul informatique. Pour les rseaux non
linaire, nous voudrions viter demployer la matrice de HESSIEN.
En effet, il savre que les coefficients j et j peuvent tre trouvs sans
connaissance explicite de H.
*Considrons dabord le coefficient j :
Daprs ( 5.53), nous avons :
gj+1 gj
= Hdj (5.57)
j

Nous substituons (5.51) dans ( 5.57) nous obtenons :


T
gj+1 (gj+1 gj )
j = T
(5.58)
dj (gj+1 gj )

Ce qui est connu comme expression de HESTENES-SLIEFET.

94
Nous multiplions (5.52) par gj+1 nous obtenons :

dTj gj+1 = gj+1


T
gj+1 + j dTj gj+1 (5.59)

Daprs (5.50), nous avons que dTj gj+1 = 0 . Alors, nous utilisons ( 5.59)
pour crire :

dTj gj = gjT gj (5.60)

Alors, (5.58) est crite dans la forme de POLAK-RIBIERE


T
gj+1 (gj+1 gj )
j = (5.61)
gjT gj
Nous avons daprs (5.56) (la
proprit dorthogonalit des gradients) que T
gj+1 gj
=0
Alors, simplifier (5.61) donne le rsultat de la forme de FELTCHU-REEVES :
T
gj+1 gj+1
j = T
(5.62)
gj gj

Nous notons que ces trois expressions pour j sont quivalentes[17]. Ils
expriment tous que la fonction derreur est exactement quadratique.
La forme de POLAK-RIBIERE savre gnralement donner des rsultats
lgrement meilleurs que les autres expressions.(petite valeur de j pour que
les vecteurs successifs de gradient soient trs semblables). Nous souhaitons
galement viter lutilisation de la matrice de HESSIEN pour valuer j .
Pour voir ceci, considrer une erreur quadratique donne par (5.47) comme
fonction du paramtre donn par :

dTj gj
j = T (5.63)
dj Hdj
Nous voyons que le rsultat dans (5.47) est quivalent celui trouv
dans (5.63). Alors, nous pouvons remplacer lvaluation explicite de j par
une procdure numrique impliquant une ligne (direction) de recherche de
minimisation dj .
Nous rcapitulons maintenant les tapes principales de lalgorithme :
1.Choisir un vecteur de poids initial w1 .
2.Evaluer le vecteur de gradientg1 , et prendre la direction de recherche
initiale d1 = g1

95
3.A ltape j, rduire au minimum E(wj + dj) par rapport pour
donner wj+1 = wj + min dj
4.Tester pour voir si le critre darrt est satisfait.
5.Evaluer le nouveau vecteur de gradient gj+1 .
6.Evaluer la direction de recherche nouvelle dj+1 ,nous employons (5.52)
dans laquelle j est donn par (5.62) ,(5.61) ou la formule (5.58).
7.Prendre j = j + 1 et aller 3.
Pour une fonction derreur non quadratique gnrale, lerreur dans
le voisinage dun point donn est approximativement quadratique, et alors
nous pouvons esprer de lapplication du procd ci-dessus une convergence
efficace avec un minimum de lerreur.

5.4.3 Les avantages de lalgorithme de gradient conju-


gu
1)Dans la pratique, lutilisation des techniques de la ligne de re-
cherche pour la minimisation assure que lerreur ne peut pas augmenter
aucune tape et de tels algorithmes savrent gnralement avoir la bonne
excution dans de vraies applications.
2)Comme nous avons vu, lalgorithme de gradient conjugu fournit
une technique de minimisation qui exige seulement lvaluation de la fonction
derreur et de son gradient.
3)Pour une fonction derreur quadratique, la technique de minimisa-
tion est garantie pour trouver le meilleur dans la plupart des tapes w.
4)Lalgorithme de gradient conjugu prsente clairement une amlio-
ration significative lapproche simple de descente de gradient (ne prend pas
plusieurs mesure pour atteindre le minimum) schmas (5.4) et (5.5).
5)Dans lalgorithme de gradient conjugu et pour une fonction derreur
non linaire gnrale, La matrice locale de HESSIEN na pas besoin dtre
dfinie positive.
6)Lutilisation dune ligne de recherche permet la taille dtape dans
lalgorithme choisie sans valuer la matrice de HESSIEN.

5.4.4 Les inconvnients de lalgorithme


Dans la pratique, la fonction derreur ne sera pas quadratique. Alors, les
diffrentes expressions pour j donnent diffrents rsultats.
Dans la pratique, la fonction derreur peut tre loin dune quation qua-
dratique, lalgorithme donc doit gnralement tre connu pour beaucoup
ditrations jusqu ce quun un critre darrt soit atteint(une erreur suf-
fisamment petite).

96
Lutilisation de la ligne de recherche prsente quelques problmes :
-Pour chaque ligne de recherche, la minimisation implique plusieurs va-
luations de la fonction derreur, dont chacune est chre( au plan informa-
tique).
-Lexcution globale de lalgorithme peut tre sensible la valeur de pa-
ramtre (ci-dessus), alors prcisment, la ligne de recherche peut reprsenter
beaucoup de gaspillage de calculs.

5.5 Lalgorithme de Newton


Nous nous tournons maintenant vers une classe dalgorithmes qui
font une utilisation explicite de la matrice de HESSIEN.
En utilisant lapproximation quadratique locale, nous pouvons ob-
tenir une expression directe pour la direction du minimum de la fonction
derreur.
Daprs (??), le gradient avec un poids quelconque w est donn par :

g = E = H(w w ) (5.64)

O w est le minimum de la fonction derreur.


Alors daprs (5.64) nous obtenons,
H 1 g = w w (5.65)
w = w H 1 g

Le vecteur H 1 g sappelle la direction de Newton ou tape de Newton.


La direction de Newton pour une surface derreur quadratique est value
tout point w directement au minimum de la fonction erreur.
Puisque lapproximation quadratique employ pour obtenir (5.65) ( non
exacte, alors elle est ncessaire pour sappliquer (5.65) itrativement, avec la
matrice de HESSIEN chaque nouveau point de recherche)

5.5.1 Les inconvnients de cette mthode


1). Lvaluation exacte de la matrice de HESSIEN pour les rseaux non
linaire exige O(Nw 2 ) tapes, o N est le nombre de donne et w le nombre
de poids dans le rseau.
2). La matrice de HESSIEN doit tre inverse, ce qui exige O(w3 )tapes
et alors une plus grande demande informatique.

97
F. 5.6 Le minimum de la fonction erreur, tandis que la direction de
newton H 1 g (w)

3). La taille dtape prvue par d = H 1 g peut tre suffisamment


grande et etre en dehors de la gamme de validit de lapproximation quadra-
tique. Dans ce cas, lalgorithme peut devenir instable.
Nous faisons diverses (diffrentes) modifications la rgle de NEWTON
pour tre transform en mthode doptimisation pratique.

5.6 Les algorithmes quasi-Newton


Il y a des approches alternatives (de lapplication directe de la m-
thode NEWTON) connues sous le nom de lalgorithme quasi-Newton. ces
mthodes sont bases sur (5.65) , mais au lieu de calculer la matrice de
HESSIEN directement, ils valuent son inverse. Alors, lalgorithme de quasi-
Newton accumule une approximation de linverse de la matrice H ,il implique
de produire une suite des matrices G( ) qui reprsente des approximations de
plus en plus prcises de linverse de HESSIEN H 1 . De la formule de Newton
(5.65), nous voyons que les vecteurs de poids aux tapes et + 1 sont lis
aux gradients correspondants par :
w ( +1) w( ) = H 1 (g ( +1) g ( ) ) (5.66)
Lapproximation de G( ) = H 1 est construite afin
de satisfaire cette condition galement. La formule la plus utilise de mise
jour est la procdure de Baoyden - Fletchen - Goldfard - Seramro (BFGS)
donne par :

( +1) ( ) PPT (G( ) V )V T G( )


G =G + T T ( )
+ (V T GT V )T (5.67)
P V V G V
98
O nous avons dfini les vecteurs suivants :

P = w ( +1) w( ) (5.68)

V = g ( +1) g ( ) (5.69)

P G( ) V
= (5.70)
PTV P T G( ) V
Il est facile de vrifier par la
substitution directe que (5.67)satisfait la condition de quasi-Newton donne
en (5.66)
Donc, nous pouvons faire une discussion comme suit
Linitialisation du procd employant la matrice didentit correspond
la premire tape dans la direction du gradient ngatif .
A chaque tape de lalgorithme , la direction Gg est garantie pour tre
une direction de descente , la matrice G etant dfinie positive .
La solution est demployer lalgorithme de ligne de recherche, comme
utilis avec des gradients conjugus, pour trouver le minimum de la fonction
derreur le long de la direction de recherche. Alors, le vecteur de poids varie
comme dans ce qui suit :

w ( +1) = w( ) + ( ) G( ) g ( ) (5.71)

o ( ) est trouv (5.71) par la ligne de minimisation.

Nous avons vu que les deux mthodes quasi-Newton et le gradient conju-


gu vitent lutilisation de la matrice de Hessien, mieux , la mthode de quasi-
Newton abandonne une autre tape qui est lapproximation de linverse de la
matrice de Hessien. En plus la mthode de quasi-Newton atteint une conver-
gence plus rapide avec la mthode de gradient conjugu. Mais le rsultat net
est que la complexit informatique de la mthode de quasi-Newton est O(w 2 ),
par contre la complexit informatique de la mthode de gradient conjugu
est O(w). La mthode de gradient conjugu est prfrable la mthode de
quasi-Newton en terme dinformatique . cause de ce dernier point, lutili-
sation de quasi-Newton est restreint, dans la pratique, au rseau de neurone
de petite taille[14].

99
Conclusion Gnrale
Notre tude nous a essentiellement permis de constater les horizons im-
menses qui souvrent la statistique par la voie des rseaux de neurones.
Dune part, lapproche nouvelle des anciennes mthodes, dveloppes dans
le cadre traditionnel. Dautre part, lapparition de nouvelles techniques per-
mettant une extension des techniques connues afin de rpondre des pro-
blmes reconnus difficiles.
Tout dcoule dun mme concept, et les diverses mthodes relevant de
la statistique traditionnelle dcoulent par la simple action sur les trois para-
mtres de base :
- Le processus dapprentissage (mode, rgle et algorithme dappren-
tissage)
- La nature des neurones constituant le rseau (reprsente par la
fonction dactivation)
- Larchitecture du rseau.
Ne serait-ce que sous le mode dapprentissage supervis, auquel nous
sommes limits dans cette tude, et avec larchitecture la plus triviale (qui est
faite dun seul neurone), nous sommes arrivs voir comment se reproduisent
un certain nombre de techniques classiques.
Ceci est obtenu uniquement par le fait dutiliser une fonction dactivation
ou une autre.
Fonction seuil : avec un rseau constitu dun seul neurone et qui
est muni de la fonction dactivation la plus basique, la fonction seuil, nous
pouvons reproduire la discrimination linaire simple.
Lespace des observations est spar en deux sous-espaces par une droite
discriminante qui est lquation du neurone.
Si nous devons diviser lespace en plusieurs rgions, il suffit de mettre en
parallle des neurones identiques en nombre gal au nombre de frontires que
nous voulons obtenir.
Fonction linaire : avec un seul neurone muni dune fonction linaire,
nous pouvons reproduire la rgression linaire simple.
La rgression linaire multiple est obtenue en mettant simplement en
parallle autant de neurones que de variables expliquer.
Fonction non linaire : avec un seul neurone muni dune fonction
non linaire, nous pouvons reproduire la rgression logistique.
Nous pouvons tracer une ligne de frontire discriminante dans lespace
des donnes.
Ainsi, avec larchitecture la plus lmentaire, et sous le seul mode dap-
prentissage supervis, nous obtenons dj plusieurs techniques.
Laugmentation du nombre de neurones et du nombre de couches permet

100
une meilleure flexibilit. Elle permet, comme cest le cas des PCM, dajuster
toute sorte de fonctions, quelle que soit sa complexit. Les problmes de
discrimination non linaire trouvent aussi leurs solutions par le moyen de ce
type de rseau.

101
Annexe A
nde malade chol/100g/l TA M groupe 30 200 110 1
1 102 100 0 31 205 119 0
2 112 105 0 32 208 120 0
3 113 92 0 33 208 116 0
4 117 106 0 34 217 110 0
5 123 94 0 35 218 161 0
6 125 95 0 36 225 143 0
7 131 93 0 37 227 116 0
8 146 105 0 38 227 138 1
9 149 103 0 39 229 110 0
10 151 107 0 40 235 124 1
11 151 115 0 41 238 119 1
12 152 95 0 42 240 149 1
13 155 102 0 43 242 131 1
14 157 118 0 44 249 105 0
15 157 116 0 45 252 125 1
16 159 113 0 46 255 134 0
17 162 98 0 47 257 154 1
18 167 104 0 48 265 141 1
19 169 109 0 49 269 129 1
20 169 90 0 50 273 150 1
21 173 100 0 51 290 142 1
22 175 110 0 52 295 132 1
23 179 119 0 53 298 148 1
24 182 112 0 54 301 160 1
25 186 106 0 55 305 138 1
26 186 109 1 56 307 150 1
27 189 105 0 57 352 142 1
28 192 108 0 58 361 154 1
29 194 110 0 59 401 162 1

102
Annexe B
ind1 gly j/100gr/l gl PP /100gr/l groupe 30 108 123 0
1 72 106 0 31 109 164 1
2 80 112 0 32 111 173 1
3 82 132 0 33 112 156 1
4 83 126 0 34 113 145 1
5 86 115 0 35 116 174 1
6 90 130 0 36 118 153 1
7 90 135 0 37 118 161 1
8 92 137 0 38 120 181 1
9 93 129 0 39 122 154 1
10 94 129 0 40 122 301 1
11 94 124 0 41 124 198 1
12 94 134 0 42 128 275 1
13 95 131 0 43 129 166 1
14 96 137 0 44 132 186 1
15 96 121 0 45 134 215 1
16 97 118 0 46 136 205 1
17 98 121 0 47 137 290 1
18 98 117 0 48 150 286 1
19 98 122 0 49 154 196 1
20 99 121 0 50 156 180 1
21 99 120 0 51 172 285 1
22 100 132 0 52 175 301 1
23 100 119 0 53 178 254 1
24 100 127 0 54 100 312 1
25 101 118 0 55 195 285 1
26 102 121 0 56 195 302 1
27 105 135 0 57 200 321 1
28 107 130 0 58 205 315 1
29 108 126 0 59 205 328 1

103
Annexe C
n de mal taille(mm) v de densit(UH) groupe 30 13 31 2
1 3 5 1 31 13.2 17 2
2 3 7 1 32 14 9 2
3 4.5 4 1 33 14.5 12 2
4 5 10 1 34 14.8 23 2
5 5 3 1 35 14.8 30 2
6 6 11 1 36 15.2 14 2
7 6 9 1 37 15.5 13 2
8 6.5 4 1 38 16.5 9 2
9 6.5 10 1 39 16.9 19 2
10 7.8 6 1 40 17.2 35 2
11 8 8 1 41 18.3 46 2
12 8.2 10 1 42 22.2 29 2
13 8.5 5 1 43 22.6 17 3
14 8.8 12 1 44 22.8 26 3
15 8.8 11 1 45 23 36 3
16 9 3 1 46 24.5 49 3
17 9.3 7 1 47 25 60 3
18 9.3 2 1 48 25.4 61 3
19 9.6 14 1 49 25.8 72 3
20 10 18 1 50 25.9 49 3
21 10.2 26 1 51 26.5 53 3
22 10.4 42 1 52 26.5 61 3
23 10.7 25 2 53 27 49 3
24 10.8 19 2 54 28.7 32 3
25 11 6 2 55 29 37 3
26 11.3 20 2 56 30 69 3
27 11.5 3 2 57 32 52 3
28 11.7 22 2 58 35 67 3
29 11.9 11 2 59 37 72 3

104
Bibliographie

[1] Anderson, M. J. and P. Legendre. (1999). An empiriques comparison


of permutation methods for tests of partial regression coefficients in a
linear model. Journal of Statistical Computation and Simulation. PP
271-303.
[2] Aima. (2005). Neurones Artificiels : modle et rseau. C. Pellegrini.
[3] Alani, T. (2008). Rseaux de neurones formels. Dpartement Informa-
tique A2SI ESIEE-Paris. PP 05-28
[4] Bishop, C. M. (1991). A fast procedure for retraining the multilayer
perceptron. International Journal of Neural System. 2(3). PP 299-236.
[5] Bishop, C. M. (1993). Curvature driven smoothing : a learning algo-
rithm for feedforword networks. IEEE Transactions on Neural Networks.
PP 882-884.
[6] Bishop, M. (1995). Neural Networks for Pattern Recognition. Oxford
University Press. PP253-290
[7] Bouveyron, Chales. (2006). Modlisation et classification des donns de
grande dimension : application lanalyse dimages. Universit Joseph
Fourier Grenoble1. PP 24-28.
[8] Bouzy, Bruno. (18 October 2005). Rseau de neurones.
[9] Cannu, Stphane. (19 Novembre 2001). Thorie Bayesienne de la dci-
sion.
[10] Chteau, Thieray. Reconnaissance des formes : dcision Bayesienne. 1.
LASMEA, UMR 6602 CNRS.
[11] Denis, Dollfus. (24 novembre 1997). Reconnaissance de Formes Natu-
relles par des Reseaux de Neurones Artificiels : Application au Nanno-
planction Calcaire. Aix-Marseille III. PP
[12] Forsythre, D et J. Ponce. (2003). Computer Vision : A Modern Ap-
proach. Prentice-Hall. PP

105
[13] Gosselin, Bernard. (1996). Application de Reseaux de Neurones Artifi-
ciels a la Reconnaissance Automatique de Caracteres Manuscrits. Fa-
cult Polytechnique de Mons.
[14] Haykin, Simon. (1999). A Neural Networks : A Comprehensive Founda-
tion. 2eme Ed. Prentice- Hall,Inc : USA. PP
[15] Hristev, A.M. (1998). Artificial Neural Networks. The GNU Public Li-
cense, ver 2. PP129-137
[16] Jedrzejewski, Franck. (2005). Introduction aux mthodes numriques.
2eme Ed. Spring-Verlag : France, Paris. PP 119-121.
[17] Kroise, Ben et Patrick Van Der Smaget. (1996). An Introduction to
Neural Networks. 8eme Ed. The University of Amsterdam. PP 14-44.
[18] Liming, Chen et Emmanuel Dellandra. Reconnaissance de forme : tho-
rie de la dcision Boysinne. Ecole centrale de lyon.
[19] Marine, Campedel. (avril 2005). Classification supervise. TELECOM
PARIS Ecole Nationale Suprieure des Tlcommunications. PP
[20] McCulloch, W. et W. Pitts. (1988). A logical calculus of the ideasimma-
nent in nervous activity. Bulletin of Math, Biophysics. Vol 5. PP115-133.
[21] Parizeau Marc. (Automne 2004). Rseaux de Neurones. University La-
val. PP 27-51
[22] Rakotomalala, Rick. Rseaux de neurons artificiel : perceptron simple
et multicouche. Application du reseaux de neurone lapprentissage
supervis. Laboratoire Eric.
[23] Samarasinghe, Sandhya. (2007). Neural Networks for applied Sciences
and Enginering From Fundamentals to Complex Patten Recognition.
Taylor and Francis Group, LLC. PP
[24] Samprit, Chatterjee et Bert Bamprice. (1991). Regression Analysis by
Example. 2eme Ed. John Wiley and sons, Inc. PP 193-197.
[25] Tomassone, R et al. (1992). La Rgression nouveaux regards sur une
ancienne mthode statistique. 2eme Ed. MASSON. PP 107-131.
[26] Touzet, Claude. Les rseaux de Neurones Artificiels : Introduction au Co-
nexionisme Neurosysteme. Parc Scientifique Georges Besse, 30000 Nime.
PP22-26

106
Rsum
Le but de ltude permis de constater les horizons immenses qui s'ouvrent

la statistique par la voie des rseaux de neurones.

D'une part, l'approche nouvelle des anciennes mthodes, dveloppes dans le

cadre traditionnel. Sous le mode d'apprentissage supervis, nous sommes arrivs

voir comment se reproduisent un certain nombre de techniques classiques.

Spcifiquement nous avons t montre quun perceptron simple et un

classificateur linaire, sont quivalentes lanalyse discriminante linaire dans

la statistique.

D'autre part, l'apparition de nouvelles techniques permettant une extension

des techniques connues afin de rpondre des problmes reconnus difficiles. Par

exemple le cas des PCM, qui traitent des problmes non linaires quelle que

soit son complexit. Les problmes de discrimination non linaire trouvent aussi

leurs solutions par le moyen de ce type de rseau.


Summary
The purpose of the study allowed noting the immense horizons which open

with the statistics by the way networks of neurons.

On the one hand, new approach of the old methods, developed within the

traditional framework. Under the mode of supervised training, we managed to

see how reproduce a certain number of traditional techniques. Specifically we

were shows that a simple perceptron and a linear classifier, are equivalent the

linear discriminating analysis in the statistics.

In addition, appearance of new techniques allowing an extension of the

known techniques in order to answer problems found difficult. For example the

case of the MLP which deal with nonlinear problems whatever its complexity.

The problems of nonlinear discrimination find also their solutions by the means

of this type of network.




&%  "!             

)  %"! (%  , - ./0 /- 3 4 ? 1, 2 )>= <% 9:  8556

%  E  A B) C  2  E5 , 52 K- > , 0%/J % % FG

R1  , LBMQ > P5 O1 . L LBM S  /-% - )2

, -  , 1 2 % 1 .  1 1 P   P  E5 U1   % % 

2 B " )  9 P 1 %V P Z&[ BM  2 )  %Y ,W2 .  %V O1 LBM

L Q\5 / W, 1 " \   .