Vous êtes sur la page 1sur 5

G. Dreyfus, J.-M. Martinez, M.

Samuelides
M. B. Gordon, F. Badran, S. Thiria
Sous la direction de Grard Dreyfus
Apprentissage
statistique
dreyf sstitre 3/09/08 17:13 Page 2
Groupe Eyrolles, 2002, 2004, 2008,
ISBN : 978-2-212-12229-9
Avant-propos et guide de lecture
En une vingtaine dannes, lapprentissage articiel est devenu une branche majeure des mathmatiques
appliques, lintersection des statistiques et de lintelligence articielle. Son objectif est de raliser des
modles qui apprennent par lexemple : il sappuie sur des donnes numriques (rsultats de mesures
ou de simulations), contrairement aux modles de connaissances qui sappuient sur des quations
issues des premiers principes de la physique, de la chimie, de la biologie, de lconomie, etc. Lapprentis-
sage statistique est dune grande utilit lorsque lon cherche modliser des processus complexes,
souvent non linaires, pour lesquels les connaissances thoriques sont trop imprcises pour permettre des
prdictions prcises. Ses domaines dapplications sont multiples : fouille de donnes, bio-informatique,
gnie des procds, aide au diagnostic mdical, tlcommunications, interface cerveau-machines, et bien
dautres.
Cet ouvrage rete en partie lvolution de cette discipline, depuis ses balbutiements au dbut des
annes 1980, jusqu sa situation actuelle ; il na pas du tout la prtention de faire un point, mme partiel,
sur lensemble des dveloppements passs et actuels, mais plutt dinsister sur les principes et sur les
mthodes prouvs, dont les bases scientiques sont sres. Dans un domaine sans cesse parcouru de
modes multiples et phmres, il est utile, pour qui cherche acqurir les connaissances et principes de
base, dinsister sur les aspects prennes du domaine.
Cet ouvrage fait suite Rseaux de neurones, mthodologies et applications, des mmes auteurs, paru
en 2000, rdit en 2004, chez le mme diteur, puis publi en traduction anglaise chez Springer.
Consacr essentiellement aux rseaux de neurones et aux cartes auto-adaptatives, il a largement contribu
populariser ces techniques et convaincre leurs utilisateurs quil est possible dobtenir des rsultats
remarquables, condition de mettre en uvre une mthodologie de conception rigoureuse, scientique-
ment fonde, dans un domaine o lempirisme a longtemps tenu lieu de mthode.
Tout en restant dle lesprit de cet ouvrage, combinant fondements mathmatiques et mthodologie de
mise en uvre, les auteurs ont largi le champ de la prsentation, an de permettre au lecteur daborder
dautres mthodes dapprentissage statistique que celles qui sont directement dcrites dans cet ouvrage.
En effet, les succs de lapprentissage dans un grand nombre de domaines ont pouss au dveloppement
de trs nombreuses variantes, souvent destines rpondre efcacement aux exigences de telle ou telle
classe dapplications. Toutes ces variantes ont nanmoins des bases thoriques et des aspects mthodolo-
giques communs, quil est important davoir prsents lesprit.
Le terme dapprentissage, comme celui de rseau de neurones, voque videmment le fonctionnement du
cerveau. Il ne faut pourtant pas sattendre trouver ici dexplications sur les mcanismes de traitement des
informations dans les systmes nerveux ; ces derniers sont dune grande complexit, rsultant de
processus lectriques et chimiques subtils, encore mal compris en dpit de la grande quantit de donnes
exprimentales disponibles. Si les mthodes dapprentissage statistique peuvent tre dune grande utilit
pour crer des modles empiriques de telle ou telle fonction ralise par le systme nerveux, celles qui
sont dcrites dans cet ouvrage nont aucunement la prtention dimiter, mme vaguement, le fonctionne-
ment du cerveau. Lapprentissage articiel, notamment statistique, permettra-t-il un jour de donner aux
ordinateurs des capacits analogues celles des tres humains ? Se rapprochera-t-on de cet objectif en
perfectionnant les techniques actuelles dapprentissage, ou bien des approches radicalement nouvelles
sont-elles indispensables ? Faut-il sinspirer de ce que lon sait, ou croit savoir, sur le fonctionnement du
cerveau ? Ces questions font lobjet de dbats passionns, et passionnants, au sein de la communaut
scientique : on nen trouvera pas les rponses ici.
Lapprentissage statistique
XI
Les objectifs de ce livre sont, plus modestement :
de convaincre les ingnieurs, chercheurs, et dcideurs, de lintrt et de la grande efcacit de lappren-
tissage statistique ;
de leur permettre de le mettre en uvre de manire simple et raisonne dans des applications.
Guide de lecture
La varit des motivations qui peuvent amener le lecteur aborder cet ouvrage justie sans doute un guide
de lecture. En effet, les applications de lapprentissage statistique ne ncessitent pas toutes la mise en
uvre des mmes mthodes.
Le premier chapitre ( Lapprentissage statistique : pourquoi, comment ? ) constitue une prsentation
gnrale des principes de lapprentissage statistique et des problmes fondamentaux rsoudre. partir
dexemples acadmiques trs simples, le lecteur est amen dcouvrir les problmes que pose la concep-
tion de modles par apprentissage. Ces problmes sont ensuite formaliss par la prsentation de quelques
lments de la thorie de lapprentissage. La conception des modles les plus simples les modles
linaires en leurs paramtres est dcrite. Enn, les diffrentes tapes de la conception dun modle par
apprentissage statistique sont dtailles : slection de variables, apprentissage, slection de modle, test
du modle slectionn.
Le chapitre 2 est entirement consacr aux rseaux de neurones, qui constituent une des familles de
modles les plus utiliss. Les lecteurs qui sintressent un problme de modlisation statique liront ce
chapitre jusqu la section Techniques et mthodologie de conception de modles statiques (rseaux
non boucls) incluse. Ils tireront galement prot de la lecture du chapitre 3 ( Complments de mtho-
dologie pour la modlisation : rduction de dimension et validation de modle par r-chantillonnage ).
Les lecteurs qui se posent un problme de modlisation dynamique liront le chapitre 2 en entier, le
chapitre 3 et le chapitre 4 ( Identication neuronale de systmes dynamiques commands et rseaux
boucls (rcurrents) . Sils veulent utiliser ce modle au sein dun dispositif de commande de processus,
ils liront ensuite le chapitre 5 ( Apprentissage dune commande en boucle ferme ).
Les lecteurs qui sintressent un problme de classication supervise (ou discrimination) liront le
chapitre 1, la section Rseaux de neurones apprentissage supervis et discrimination du chapitre 2,
puis le chapitres 3 ( Complments de mthodologie pour la modlisation : rduction de dimension et
validation de modle par r-chantillonnage ) et surtout le chapitre 6 ( Discrimination ), qui introduit,
de manire originale, les machines vecteurs supports.
Enn, les lecteurs qui cherchent rsoudre un problme qui relve de lapprentissage non supervis
passeront du chapitre 1 au chapitre 3, puis au chapitre 7 ( Cartes auto-organisatrices et classication
automatique ).
V
Avant-propos
X
Dtail des contributions
Chapitres 1 et 2 Grard Dreyfus est professeur lcole Suprieure de Physique et de Chimie Indus-
trielles (ESPCI-Paristech), et directeur du Laboratoire dlectronique de cet tablis-
sement. Il enseigne lapprentissage statistique lESPCI, ainsi que dans plusieurs
masters et mastres. Depuis 1988, il organise chaque anne deux sessions de forma-
tion continue pour ingnieurs, consacres lapprentissage statistique et ses appli-
cations industrielles et nancires. Depuis 1982, les recherches de son laboratoire
sont entirement consacres la modlisation et lapprentissage, pour lingnierie
et la neurobiologie.
ESPCI, Laboratoire dlectronique, 10 rue Vauquelin, F 75005 Paris France
Chapitre 3 Jean-Marc Martinez, ingnieur au Centre dtudes de Saclay, effectue des recher-
ches dans le domaine des mthodes adaptes la supervision de la simulation. Il
enseigne les mthodes dapprentissage statistique lINSTN de Saclay et vry en
collaboration avec le LSC, unit mixte CEA Universit.
DM2S/SFME Centre dtudes de Saclay, 91191 Gif sur Yvette France
V
Lapprentissage statistique
X I V
Chapitres 4 et 5 Manuel Samuelides, professeur lcole Nationale Suprieure de lAronautique et
de lEspace (Suparo), et chef du dpartement de Mathmatiques Appliques de cette
cole, enseigne les probabilits, loptimisation et les techniques probabilistes de
lapprentissage et de la reconnaissance des formes. Il effectue des recherches sur les
applications des rseaux de neurones au Dpartement de Traitement de lInformation
et Modlisation de lONERA.
cole Nationale Suprieure de lAronautique et de lEspace, dpartement Mathma-
tiques Appliques, 10 avenue douard Belin, BP 4032, 31055 Toulouse Cedex
France
Chapitre 6 Mirta B. Gordon, physicienne et directrice de recherches au CNRS, est responsable
de lquipe Apprentissage: Modles et Algorithmes (AMA) au sein du laboratoire
TIMC-IMAG (Grenoble). Elle effectue des recherches sur la modlisation des
systmes complexes adaptatifs, et sur la thorie et les algorithmes dapprentissage.
Elle enseigne ces sujets dans diffrentes coles doctorales.
Laboratoire TIMC IMAG, Domaine de la Merci Bt. Jean Roget, 38706 La Tr nche
France
Chapitre 7 Fouad Badran, professeur au CNAM (CEDRIC), y enseigne les rseaux de
neurones.
Mustapha Lebbah est matre de confrences luniversit de Paris 13.
Laboratoire dInformatique Mdicale et Bio-Informatique (LIMBIO), 74, rue Marcel
Cachin 93017 Bobigny Cedex France
Sylvie Thiria est professeur luniversit de Versailles Saint-Quentin-en-Yvelynes,
chercheur au LODYC (Laboratoire dOcanographie DYnamique et de Climato-
logie). Elle effectue des recherches sur la modlisation neuronale et sur son applica-
tion des domaines comme la gophysique.
Laboratoire dOcanographie Dynamique et de Climatologie (LODYC), case 100,
Universit Paris 6, 4 place Jussieu 75252 Paris cedex 05 France
o