Académique Documents
Professionnel Documents
Culture Documents
html
Apprentissage
statistique
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 1/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
CHEZ LE MÊME ÉDITEUR
Autres ouvrages
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 2/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
Apprentissage
statistique
G. Dreyfus, J.-M. Martinez, M. Samuelides
M. B. Gordon, F. Badran, S. Thiria
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 3/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
ÉDITIONS EYROLLES
61, bd Saint-Germain
75240 Paris Cedex 05
www.editions-eyrolles.com
Cet ouvrage est la troisième édition, avec mise à jour et nouveau titre,
de l’ouvrage paru à l’origine sous le titre
« Réseaux de neurones – Méthodologie et applications »
(ISBN : 978-2-212-11464-5)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 4/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
Remerciements
Je remercie la direction scientifique de l’ONERA et le chef de projet Jean-Louis Gobert pour le soutien
accordé à des recherches d’ordre général sur les réseaux de neurones notamment dans le cadre du projet
fédérateur de contrôle actif des écoulements.
Je tiens à remercier parmi mes étudiants en thèse actuels ou passés, ceux qui ont directement contribué à
faire progresser notre compréhension collective du contrôle neuronal à savoir : Emmanuel Daucé
(Université d’Aix-Marseille), Alain Dutech (INRIA, Nancy), Marc Lion (ingénieur informaticien),
Laurent Perrinet (ONERA-DTIM). Il faut aussi mentionner les étudiants de Supaéro dont j’ai guidé les
projets l’an dernier et dont les réactions m’ont aidées à améliorer le contenu des chapitres 4 et 5.
Enfin, je voudrais ajouter mes remerciements personnels à Gérard Dreyfus pour le dialogue scientifique
qui s’est instauré entre nous à travers ces échanges très enrichissants pour moi. Bien conscient que les
justifications mathématiques ne suffisent pas à évaluer l’intérêt d’un algorithme, j’ai donc attaché un
grand prix à l’expérience pratique que Gérard m’a transmise par ses observations.
Manuel Samuelides
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 5/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
II
Je remercie mes étudiants du DEA de Sciences Cognitives de Grenoble. Au fil des années, ils ont
contribué à faire évoluer mon cours par leurs remarques et leurs questions. Ils ont apporté des corrections
à mes notes, dont une partie a servi de base à la rédaction du chapitre 6.
Le travail avec mes étudiants de thèse : Juan Manuel Torres Moreno, Arnaud Buhot, Sebastian Risau
Gusman, Christelle Godin, m’a apporté la joie de la recherche partagée, et a enrichi ma compréhension
du domaine de l’apprentissage. Je les en remercie chaleureusement.
Enfin, je tiens à remercier mon collègue Bernard Amy pour sa relecture critique, amicale et pleine de
remarques pertinentes.
Mirta B. Gordon
Le chapitre qui est présenté est le résultat de nombreux efforts, il représente une collaboration fructueuse
entre informaticiens, physiciens et mathématiciens. Nous tenons à remercier amicalement tous les cher-
cheurs qui, par leur travail ou l’intérêt qu’ils lui ont porté, ont permis la réalisation de ce travail et tout
particulièrement : Méziane Yacoub, Carlos Mejia, Michel Crépon, Awa Niang, Ludvine Gross, F. Anouar,
Philippe Daigremont et Dominique Frayssinet.
Fouad Badran, Sylvie Thiria
Je tiens à remercier tous les collaborateurs du CEA et les étudiants qui ont participé à ces travaux de
recherche. Sans être exhaustif, je tiens à exprimer toute ma gratitude à Caroline Privault, Dominique
Derou-Madeline, Muriel Pitiot, Joël Feraud, Jean-Marc Bollon, Georges Gonon, Claire Jausions, Pierre
Puget et enfin Jean-Jacques Niez, qui a initié les recherches en réseaux de neurones au CEA-LETI.
Laurent Hérault
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 6/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
Sommaire
Introduction 1
Premier exemple : un problème élémentaire d’apprentissage statistique 2
Point de vue algorithmique 3
Point de vue statistique 4
Quelques définitions concernant les modèles 5
Modèles statiques 5
Modèles dynamiques 6
Deux exemples académiques d’apprentissage supervisé 7
Un exemple de modélisation pour la prédiction 7
Un exemple de classification 11
Conclusion 16
Éléments de théorie de l’apprentissage 16
Fonction de perte, erreur de prédiction théorique 17
Dilemme biais-variance 22
De la théorie à la pratique 25
Remplacer des intégrales par des sommes 26
Bornes sur l’erreur de généralisation 27
Minimisation du risque structurel 30
Conception de modèles en pratique 30
Collecte et prétraitement des données 30
Les données sont préexistantes 30
Les données peuvent être spécifiées par le concepteur 30
Prétraitement des données 31
Sélection des variables 31
Apprentissage des modèles 32
Sélection de modèles 32
Sélection de modèles 32
Validation simple (hold-out) 32
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 7/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
IV
Introduction 73
Réseaux de neurones : définitions et propriétés 73
Les neurones 74
Les réseaux de neurones 75
Propriété fondamentale des réseaux de neurones statiques (non bouclés) :
l’approximation parcimonieuse 82
À quoi servent les réseaux de neurones non bouclés à apprentissage supervisé ?
Modélisation statique et discrimination (classification) 84
À quoi servent les réseaux de neurones à apprentissage
non supervisé ? Analyse et visualisation de données 87
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 8/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Sommaire .html
V
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 9/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
VI
Pré-traitements 204
Pré-traitements des entrées 204
Pré-traitement des sorties pour la classification supervisée 204
Pré-traitement des sorties pour la régression 205
Réduction du nombre de composantes 206
Analyse en composantes principales 206
Principe de l’ACP 206
Analyse en composantes curvilignes 210
Formalisation de l’analyse en composantes curvilignes 211
Algorithme d’analyse en composantes curvilignes 212
Mise en œuvre de l’analyse en composantes curvilignes 213
Qualité de la projection 214
Difficultés présentées par l’analyse en composantes curvilignes 214
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 10/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Sommaire .html
VII
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 11/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
VIII
Apprentissage adaptatif d’un réseau de neurones par la méthode du filtrage de Kalman 252
Réseaux neuronaux récurrents ou bouclés 254
Simulateur neuronal d’un système dynamique commandé en boucle ouverte 254
Simulateur neuronal d’un système dynamique commandé en boucle fermée 255
Quelques réseaux bouclés particuliers 255
Mise sous forme canonique des réseaux bouclés 258
Apprentissage des réseaux de neurones récurrents ou bouclés 258
Apprentissage dirigé (teacher forcing) 259
Dépliement de la forme canonique et rétropropagation à travers le temps 260
Apprentissage en temps réel des réseaux bouclés 262
Application des réseaux neuronaux bouclés à l’identification de systèmes dynamiques
commandés mesurés 263
Compléments algorithmiques et théoriques 264
Calcul du gain de Kalman et propagation de la covariance 264
Importance de la distribution des retards dans un réseau récurrent 266
Bibliographie 267
Généralités sur la commande en boucle fermée des systèmes non linéaires 269
Principe de la commande en boucle fermée 269
Commandabilité 270
Stabilité des systèmes dynamiques commandés 271
Synthèse d’une commande « neuronale » par inversion du modèle du processus 273
Inversion directe 273
Utilisation d’un modèle de référence 276
Commande avec modèle interne 277
Commande prédictive et utilisation des réseaux récurrents 278
Programmation dynamique et commande optimale 280
Exemple de problème déterministe à espace d’états discret 280
Exemple de problème de décision markovienne 281
Définition d’un problème de décision markovienne 282
Programmation dynamique à horizon fini 286
Programmation dynamique à horizon infini et à coût actualisé 287
Problèmes de décision markovienne partiellement observés 288
Apprentissage par renforcement et programmation neuro-dynamique 289
Évaluation d’une politique par la méthode de Monte-Carlo et apprentissage
par renforcement 289
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 12/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Sommaire .html
IX
6 La discrimination 301
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 13/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
X
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 14/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Sommaire .html
XI
Exemple 2 436
Exemple 3 437
Exemple 4 437
Exemple 5 437
Installation des exemples 437
Compiler le code source 438
Exécuter le code source 438
Exécuter le code source Visual Basic 439
Visualiser les modèles 440
La librairie NDK (Neuro Developer Kit) 440
Programme de démonstration de la librairie 440
Les compilateurs C 441
Licence 442
Index 443
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 15/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 16/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
En une vingtaine d’années, l’apprentissage artificiel est devenu une branche majeure des mathématiques
appliquées, à l’intersection des statistiques et de l’intelligence artificielle. Son objectif est de réaliser des
modèles qui apprennent « par l’exemple » : il s’appuie sur des données numériques (résultats de mesures
ou de simulations), contrairement aux modèles « de connaissances » qui s’appuient sur des équations
issues des premiers principes de la physique, de la chimie, de la biologie, de l’économie, etc. L’apprentis-
sage statistique est d’une grande utilité lorsque l’on cherche à modéliser des processus complexes,
souvent non linéaires, pour lesquels les connaissances théoriques sont trop imprécises pour permettre des
prédictions précises. Ses domaines d’applications sont multiples : fouille de données, bio-informatique,
génie des procédés, aide au diagnostic médical, télécommunications, interface cerveau-machines, et bien
d’autres.
Cet ouvrage reflète en partie l’évolution de cette discipline, depuis ses balbutiements au début des
années 1980, jusqu’à sa situation actuelle ; il n’a pas du tout la prétention de faire un point, même partiel,
sur l’ensemble des développements passés et actuels, mais plutôt d’insister sur les principes et sur les
méthodes éprouvés, dont les bases scientifiques sont sûres. Dans un domaine sans cesse parcouru de
modes multiples et éphémères, il est utile, pour qui cherche à acquérir les connaissances et principes de
base, d’insister sur les aspects pérennes du domaine.
Cet ouvrage fait suite à Réseaux de neurones, méthodologies et applications, des mêmes auteurs, paru
en 2000, réédité en 2004, chez le même éditeur, puis publié en traduction anglaise chez Springer.
Consacré essentiellement aux réseaux de neurones et aux cartes auto-adaptatives, il a largement contribué
à populariser ces techniques et à convaincre leurs utilisateurs qu’il est possible d’obtenir des résultats
remarquables, à condition de mettre en œuvre une méthodologie de conception rigoureuse, scientifique-
ment fondée, dans un domaine où l’empirisme a longtemps tenu lieu de méthode.
Tout en restant fidèle à l’esprit de cet ouvrage, combinant fondements mathématiques et méthodologie de
mise en œuvre, les auteurs ont élargi le champ de la présentation, afin de permettre au lecteur d’aborder
d’autres méthodes d’apprentissage statistique que celles qui sont directement décrites dans cet ouvrage.
En effet, les succès de l’apprentissage dans un grand nombre de domaines ont poussé au développement
de très nombreuses variantes, souvent destinées à répondre efficacement aux exigences de telle ou telle
classe d’applications. Toutes ces variantes ont néanmoins des bases théoriques et des aspects méthodolo-
giques communs, qu’il est important d’avoir présents à l’esprit.
Le terme d’apprentissage, comme celui de réseau de neurones, évoque évidemment le fonctionnement du
cerveau. Il ne faut pourtant pas s’attendre à trouver ici d’explications sur les mécanismes de traitement des
informations dans les systèmes nerveux ; ces derniers sont d’une grande complexité, résultant de
processus électriques et chimiques subtils, encore mal compris en dépit de la grande quantité de données
expérimentales disponibles. Si les méthodes d’apprentissage statistique peuvent être d’une grande utilité
pour créer des modèles empiriques de telle ou telle fonction réalisée par le système nerveux, celles qui
sont décrites dans cet ouvrage n’ont aucunement la prétention d’imiter, même vaguement, le fonctionne-
ment du cerveau. L’apprentissage artificiel, notamment statistique, permettra-t-il un jour de donner aux
ordinateurs des capacités analogues à celles des êtres humains ? Se rapprochera-t-on de cet objectif en
perfectionnant les techniques actuelles d’apprentissage, ou bien des approches radicalement nouvelles
sont-elles indispensables ? Faut-il s’inspirer de ce que l’on sait, ou croit savoir, sur le fonctionnement du
cerveau ? Ces questions font l’objet de débats passionnés, et passionnants, au sein de la communauté
scientifique : on n’en trouvera pas les réponses ici.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 17/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
XII
Guide de lecture
La variété des motivations qui peuvent amener le lecteur à aborder cet ouvrage justifie sans doute un guide
de lecture. En effet, les applications de l’apprentissage statistique ne nécessitent pas toutes la mise en
œuvre des mêmes méthodes.
Le premier chapitre (« L’apprentissage statistique : pourquoi, comment ? ») constitue une présentation
générale des principes de l’apprentissage statistique et des problèmes fondamentaux à résoudre. À partir
d’exemples académiques très simples, le lecteur est amené à découvrir les problèmes que pose la concep-
tion de modèles par apprentissage. Ces problèmes sont ensuite formalisés par la présentation de quelques
éléments de la théorie de l’apprentissage. La conception des modèles les plus simples – les modèles
linéaires en leurs paramètres – est décrite. Enfin, les différentes étapes de la conception d’un modèle par
apprentissage statistique sont détaillées : sélection de variables, apprentissage, sélection de modèle, test
du modèle sélectionné.
Le chapitre 2 est entièrement consacré aux réseaux de neurones, qui constituent une des familles de
modèles les plus utilisés. Les lecteurs qui s’intéressent à un problème de modélisation statique liront ce
chapitre jusqu’à la section « Techniques et méthodologie de conception de modèles statiques (réseaux
non bouclés) » incluse. Ils tireront également profit de la lecture du chapitre 3 (« Compléments de métho-
dologie pour la modélisation : réduction de dimension et validation de modèle par ré-échantillonnage »).
Les lecteurs qui se posent un problème de modélisation dynamique liront le chapitre 2 en entier, le
chapitre 3 et le chapitre 4 (« Identification “neuronale” de systèmes dynamiques commandés et réseaux
bouclés (récurrents) ». S’ils veulent utiliser ce modèle au sein d’un dispositif de commande de processus,
ils liront ensuite le chapitre 5 (« Apprentissage d’une commande en boucle fermée »).
Les lecteurs qui s’intéressent à un problème de classification supervisée (ou discrimination) liront le
chapitre 1, la section « Réseaux de neurones à apprentissage supervisé et discrimination » du chapitre 2,
puis le chapitres 3 (« Compléments de méthodologie pour la modélisation : réduction de dimension et
validation de modèle par ré-échantillonnage ») et surtout le chapitre 6 (« Discrimination »), qui introduit,
de manière originale, les machines à vecteurs supports.
Enfin, les lecteurs qui cherchent à résoudre un problème qui relève de l’apprentissage non supervisé
passeront du chapitre 1 au chapitre 3, puis au chapitre 7 (« Cartes auto-organisatrices et classification
automatique »).
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 18/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Avant-propos .html
XIII
Chapitres 1 et 2 Gérard Dreyfus est professeur à l’École Supérieure de Physique et de Chimie Indus-
trielles (ESPCI-Paristech), et directeur du Laboratoire d’Électronique de cet établis-
sement. Il enseigne l’apprentissage statistique à l’ESPCI, ainsi que dans plusieurs
masters et mastères. Depuis 1988, il organise chaque année deux sessions de forma-
tion continue pour ingénieurs, consacrées à l’apprentissage statistique et à ses appli-
cations industrielles et financières. Depuis 1982, les recherches de son laboratoire
sont entièrement consacrées à la modélisation et à l’apprentissage, pour l’ingénierie
et la neurobiologie.
ESPCI, Laboratoire d’Électronique, 10 rue Vauquelin, F – 75005 Paris – France
Chapitre 3 Jean-Marc Martinez, ingénieur au Centre d’Études de Saclay, effectue des recher-
ches dans le domaine des méthodes adaptées à la supervision de la simulation. Il
enseigne les méthodes d’apprentissage statistique à l’INSTN de Saclay et à Évry en
collaboration avec le LSC, unité mixte CEA – Université.
DM2S/SFME Centre d’Études de Saclay, 91191 Gif sur Yvette – France
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 19/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
XIV
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 20/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
1
L’apprentissage statistique :
pourquoi, comment ?
Introduction
Une des tâches essentielles du cerveau consiste à transformer des informations en connaissances : identi-
fier les lettres qui constituent un texte, les assembler en mots et en phrases, en extraire un sens, sont des
activités qui nous paraissent naturelles une fois l’apprentissage nécessaire accompli avec succès.
L’objectif de l’apprentissage statistique est d’imiter, à l’aide d’algorithmes exécutés par des ordinateurs,
la capacité qu’ont les êtres vivants à apprendre par l’exemple. Ainsi, pour apprendre à un enfant la lecture
des lettres ou des chiffres, on lui présente des exemples de ceux-ci, écrits dans des styles et avec des
polices différents. On ne fournit généralement pas à l’enfant une description analytique et discursive de la
forme et de la topologie des caractères : on se contente de lui montrer des exemples. À la fin de l’appren-
tissage, on attend de l’enfant qu’il soit capable de lire non seulement tous les chiffres et lettres qui lui ont
été présentés durant son apprentissage, mais également tous les chiffres et lettres qu’il est susceptible de
rencontrer : en d’autres termes, on attend de lui qu’il ait une capacité degénéralisation à partir des exem-
ples qui lui ont été présentés. De même, à l’issue de l’apprentissage d’un modèle statistique à partir
d’exemples, celui-ci doit être capable de généraliser, c’est-à-dire de fournir un résultat correct, dans des
situations qu’il n’a pas connues pendant l’apprentissage.
Considérons deux exemples simples de tâches qui peuvent être accomplies par apprentissage artificiel :
• Dans les centres de tri postal, la lecture automatique des codes postaux, et des autres éléments de
l’adresse des lettres et paquets, est fréquemment effectuée à l’aide de modèles obtenus par apprentissage
statistique, à partir d’exemples de chacune des classes de chiffres. Il s’agit là d’un problème de
classification : chaque chiffre inconnu doit être attribué à une classe parmi les 10 classes de chiffres
possibles (ou être attribué à une classe dite « de rejet » si le chiffre est trop mal écrit pour être reconnu
par la machine : l’objet postal doit alors être traité manuellement).
• Dans l’industrie pharmaceutique, on cherche à prédire l’activité thérapeutique d’une molécule à partir
de sa structure, avant même de synthétiser cette molécule, afin d’éviter qu’une synthèse coûteuse risque
de se révéler finalement inutile. Cette prédiction est fréquemment effectuée par des modèles, construits
par apprentissage statistique, à partir de bases de données de molécules dont les activités thérapeutiques
sont connues.
Ces deux problèmes, quoique très différents, ont une caractéristique commune essentielle : ils ne peuvent
pas être résolus par l’application de connaissances existant a priori. Il n’existe pas d’équation mathéma-
tique, issue des connaissances des chimistes et des pharmaciens, qui permette de prédire précisément
l’activité d’une molécule connaissant sa structure ; de même, il n’existe pas d’équation qui décrive les
propriétés topologiques des chiffres manuscrits. C’est dans de telles conditions que le recours à l’appren-
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 21/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
2
tissage statistique à partir d’exemples se révèle très fructueux. Nous présenterons bien d’autres exemples
d’applications dans ce chapitre et les suivants.
Cet ouvrage présente trois grandes familles de modèles statistiques obtenus par apprentissage artificiel –
les réseaux de neurones, les machines à vecteur supports et les cartes auto-adaptatives – qui connaissent
un grand succès, depuis plusieurs années ; ils font l’objet de très nombreuses applications.
L’objectif de ce chapitre est de présenter les bases de la conception d’un modèle par apprentissage, de
manière aussi intuitive que possible, mais avec la rigueur nécessaire pour une mise en œuvre raisonnable
et l’obtention de résultats fiables. On présente tout d’abord un exemple très élémentaire de modélisation
par apprentissage, qui montre la dualité entre l’approche algorithmique, traditionnelle en apprentissage,
d’une part, et l’approche statistique, qui en est devenue indissociable, d’autre part. La notion fondamen-
tale étant celle de modèle, on présente ensuite quelques définitions qui précisent ce que l’on entend par
modèle dans cet ouvrage ; on introduit notamment la distinction entre modèles linéaires et modèles non
linéaires en les paramètres, ainsi que la distinction entre modèles statiques et modèles dynamiques. La
section suivante décrit deux problèmes académiques d’apprentissage, l’un dans le domaine de la classifi-
cation, l’autre dans celui de la prédiction ; ces exemples simples permettent de mettre en évidence le
dilemme biais-variance, qui constitue un problème central pour la pratique de l’apprentissage statistique.
On présente ensuite, de manière plus formelle, les éléments de la théorie de l’apprentissage : fonction de
perte, erreur de prédiction théorique, classifieur de Bayes, dilemme biais-variance. Il s’agit là essentielle-
ment de résultats asymptotiques, valables dans l’hypothèse où le nombre d’exemples est infini. La
cinquième section est plus proche de la pratique, en ce sens que les résultats qui y sont présentés tiennent
compte du fait que les données sont en nombre fini : ce sont les bornes sur l’erreur de prédiction, fournies
par la théorie de V. Vapnik. Les quatre sections suivantes sont de nature entièrement pratique : elles expo-
sent les différentes tâches à accomplir pour concevoir un modèle par apprentissage – collecte des données,
prétraitements, sélection des variables, apprentissage, sélection de modèles. Ces deux dernières tâches
font l’objet de deux sections suivies d’un résumé de la stratégie de conception de modèles. On présente
ensuite a conception des modèles les plus simples : les modèles linéaires en leurs paramètres. Enfin, la
dernière section du chapitre fournit les éléments de statistiques nécessaires à une bonne compréhension
de la mise en œuvre des méthodes décrites tout au long de l’ouvrage.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 22/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
3
C HAPITRE 1
Dans cet ouvrage, toutes les variables seront regroupées en un vecteur noté x, et tous les paramètres en un
vecteur noté w. Un modèle statique sera désigné par g(x, w) : après apprentissage, c’est-à-dire estimation
des paramètres w, la valeur que prend la fonction, lorsque les variables prennent un ensemble de valeurs
x, constitue la prédiction effectuée par le modèle. Les modèles dynamiques seront définis dans la section
suivante, intitulée « Quelques définitions concernant les modèles ».
À titre d’exemple très simple de modèle statique, supposons que l’on ait effectué N mesures (p1, p2, …,
pN) du poids d’un objet, avec des balances et dans des lieux différents. Nous cherchons à estimer le poids
de cet objet. Nous observons que les résultats des mesures sont tous à peu près identiques, à des fluctua-
tions près qui peuvent être dues à l’imprécision des mesures, aux réglages différents des balances, ou à
des variations locales de l’accélération de la pesanteur. On peut donc supposer raisonnablement que la
masse de l’objet est constante ; en conséquence, la première étape de conception d’un modèle prédictif
consiste à postuler un modèle de la forme
g( x ,w) = w ,
où w est un paramètre constant dont la valeur est l’estimation du poids de l’objet. La deuxième étape consiste
à estimer la valeur de w à partir des mesures disponibles : c’est ce qui constitue l’apprentissage proprement
dit. Une fois l’apprentissage terminé, le modèle fournit une estimation du poids de l’objet, donc une prédic-
tion du résultat de la mesure de celle-ci, quels que soient la balance utilisée et le lieu de la mesure.
Cet exemple contient donc, sous une forme très simplifiée, les étapes que nous avons décrites plus haut :
• On s’est fixé un objectif : prédire la valeur d’une grandeur ; dans cet exemple très simple, cette valeur
est constante, mais, en général, la valeur prédite dépend de variables x.
• On a postulé un modèle g(x, w), où x est le vecteur des variables du modèle, et w est le vecteur des para-
mètres du modèle ; dans cet exemple, il n’y a pas de variable puisque la grandeur à prédire est constante,
et il y a un seul paramètre w. Le modèle postulé est donc simplement la fonction constante g(x, w) = w.
Il reste alors à estimer l’unique paramètre du modèle, c’est-à-dire à effectuer l’apprentissage du modèle à
partir des données disponibles.
Cet apprentissage peut être considéré sous deux points de vue, qui suggèrent deux méthodes d’estimation
différentes ; elles conduisent évidemment au même résultat.
(
J (w) = ∑ pk − g ( xk , w) , )
2
k =1
c’est-à-dire la somme des carrés des différences entre les prédictionsg(xk, w) et les mesures pk . xk désigne
le vecteur des valeurs que prennent les variables lors de la mesure k. Puisque nous avons postulé un
modèle constant, cette fonction de coût s’écrit
N
∑( p − w) .
2
J (w ) = k
k =1
Pour trouver la valeur de w pour laquelle cette fonction est minimale, il suffit d’écrire que sa dérivée est
nulle :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 23/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
4
dJ( w)
= 0,
dw
ce qui donne :
N
1
w=
N
∑p . k
k=1
Le meilleur modèle prédictif, au sens de la « distance » des moindres carrés que nous avons choisie, et
compte tenu des données dont nous disposons, sous l’hypothèse que la masse de l’objet est constante, est
donc
1 N
g (x ,w ) = ∑ pk.
N k=1
Le poids prédit est donc simplement la moyenne des poids mesurés.
1 N
∑ p k.
N k= 1
N
1
On retrouve donc le modèle prédictif obtenu par l’approche algorithmique :g ( x ,w) =
N
∑p k
.
k= 1
Ayant ainsi déterminé le modèle par apprentissage, il est très important d’estimer la confiance que l’on
peut avoir en cette prédiction : pour cela, on calcule un intervalle de confiance sur la prédiction fournie.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 24/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
5
C HAPITRE 1
Le calcul de l’intervalle de confiance sur la moyenne d’observations est décrit dans la dernière section de
ce chapitre.
Ces deux points de vue, algorithmique et statistique, ont longtemps été séparés. Les tout premiers déve-
loppements de la théorie de l’apprentissage, apparus dans les années 1980, étaient essentiellement
inspirés par le point de vue algorithmique, ce qui n’intéressait guère les statisticiens. Ce n’est que dans les
années 1990 qu’une véritable synergie s’est créée entre les deux approches, permettant le développement
de méthodologies efficaces et fiables pour la conception de modèles par apprentissage.
Modèles statiques
Un modèle statique est une fonction paramétrée notée g ( x ,w ) , où x est le vecteur dont les composantes
sont les valeurs des variables, et où w est le vecteur des paramètres du modèle.
où fi est une fonction connue, non paramétrée, ou à paramètres connus. Ce modèle peut encore s’écrire
sous la forme d’un produit scalaire :
g (x ,w ) = w ⋅ f ( x) ,
où f (x) est le vecteur dont les composantes sont les fonctions f(i x).
Les polynômes, par exemple, sont des modèles linéaires en leurs paramètres : les fonctions fi (x) sont les
monômes des variables x. Les polynômes sont néanmoins non linéaires en leurs variables.
On appelle modèle linéaire un modèle qui est linéaire en ses paramètres et en ses variables. Les modèles
linéaires sont donc de la forme :
p
g (x ,w ) = ∑w x i i = w⋅ x .
i=1
Un modèle affine est un modèle linéaire qui contient une constante additive :
p−1
g (x ,w ) = w 0 + ∑ wi xi .
i =1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 25/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
6
Remarque
Un modèle affine peut donc être considéré comme un modèle linéaire dont une des variables est constante, égale à 1. Il est donc inutile,
en général, de faire une distinction entre modèles linéaires et modèles affines.
où les fonctions fi sont des fonctions non linéaires, paramétrées par les composantes du vecteur w’. Le
vecteur w a donc pour composantes les paramètres wi (i = 1 à p) et les composantes de w’. Les réseaux de
neurones, qui sont largement étudiés dans cet ouvrage, constituent un exemple de modèles non linéaires
en leurs paramètres et non linéaires en leurs variables.
Modèles dynamiques
Dans les modèles décrits dans la section précédente, le temps ne joue aucun rôle fonctionnel : si les varia-
bles x sont indépendantes du temps, la valeur fournie par le modèle (ou sortie du modèle) est indépen-
dante du temps. Les modèles dynamiques, en revanche, ont une forme de mémoire : la sortie du modèle à
un instant donné dépend de ses sorties passées. En conséquence, elle peut évoluer dans le temps, à partir
d’un état initial, même si les variables x sont constantes, voire nulles.
La très grande majorité des applications des modèles statistiques sont réalisées à l’aide d’ordinateurs, ou
de circuits électroniques numériques. Dans les deux cas, les mesures des variables sont effectuées à inter-
valles réguliers, dont la durée est appelée période d’échantillonnage. De même, les prédictions du modèle
ne sont pas fournies de manière continue, mais à intervalles réguliers, généralement caractérisés par la
même période d’échantillonnage que les mesures des variables. De tels systèmes sont ditsà temps discret,
par opposition aux systèmes physiques naturels, qui sont des systèmes à temps continu.
Ces derniers sont décrits par des modèles dynamiques à temps continu, qui sont des équations (ou des
systèmes d’équations) différentielles du type :
dy
= g( y, x, w )
dt
où t désigne le temps, y la prédiction effectuée par le modèle, x et w les vecteurs des variables et des para-
mètres respectivement.
Pour les modèles à temps discret, le temps n’est plus une variable continue :
t = kT
où T désigne la période d’échantillonnage et k est un nombre entier positif. La prédiction de la valeur prise
par la grandeur à modéliser à l’instant kT, connaissant les prédictions effectuées aux n instants précédents,
et les valeurs des variables aux m instants précédents, peut alors être mise sous la forme :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 26/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
7
C HAPITRE 1
où n et n’ sont des entiers positifs ; n est appelé ordre du modèle. Cette forme de modèle est assez natu-
relle, mais nous verrons, dans les sections du chapitre 2 consacrées à la modélisation dynamique « boîte
noire », et dans les chapitres 4 et 5, qu’il existe des formes plus générales de modèles dynamiques.
Comme pour les modèles statiques, la fonction g(y, x, w) peut être soit linéaire, soit non linéaire, par
rapport à ses variables et à ses paramètres. Dans la suite de ce chapitre, nous ne considérerons que des
modèles statiques ; les modèles dynamiques seront abordés dans les chapitres 2, 4 et 5.
k
valeurs xk (k = 1 à N A) de la variable x. Elles sont repré-
sentées par des croix sur la figure 1-1. Nous cherchons
à établir un modèle g(x, w) qui permette de prédire la
valeur de la grandeur à modéliser pour une valeur quel-
conque de x dans le domaine considéré (−2 ≤ x ≤ +3).
-4 Il s’agit d’un problème académique en ce sens que le
-2 x +3
processus par lequel ont été créées ces données est
Figure 1-1. Un problème académique de modélisation connu, ce qui n’est jamais le cas pour un problème
réaliste d’apprentissage statistique : on sait que chaque
élément k de l’ensemble d’apprentissage a été obtenu
en ajoutant à la valeur de 10 sin(x k)/x k une réalisation d’une variable aléatoire obéissant à une loi normale
(gaussienne de moyenne nulle et d’écart type égal à 1).
Comme indiqué plus haut, il faut d’abord postuler une fonctiong(x, w). Puisque la grandeur à modéliser
ne dépend que de la variable x, le vecteur x se réduit à un scalaire x. En l’absence de toute indication sur
la nature du processus générateur des données, une démarche naturelle consiste à postuler des fonctions
de complexité croissante, dans une famille de fonctions données. Choisissons la famille des polynômes ;
dans cette famille, le modèle polynomial de degré d s’écrit :
g ( x , w ) = w0 + w1 x + w2x 2 + … + w d xd
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 27/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
8
C’est donc un modèle à d+1 paramètres w0, w1, …, wd . Le modèle le plus simple de cette famille est le
modèle constant g(x, w) = w 0, mis en œuvre dans la section intitulée « Premier exemple ».
Pour effectuer l’apprentissage de ces modèles, on peut utiliser la méthode des moindres carrés, déjà
mentionnée. Les détails en seront décrits plus loin, dans la section intitulée « Conception de modèles
linéaires par rapport à leur paramètres » ; pour l’instant, il est intéressant d’observer les résultats de ces
apprentissages, représentés sur la figure 1-2 pour d = 1 (fonction affine), d = 6 et d = 10 ; le même
graphique comporte également une représentation de la fonction 10 sin x / x.
20
d=1
d=6
Figure 1-2.
Trois modèles
d = 10 polynomiaux
10 sinx / x
-5
-2 x +3
Le modèle affine (d = 1) ne rend pas du tout compte des observations car il n’a pas la « souplesse » souhai-
table pour s’adapter aux données ; dans le jargon de l’apprentissage statistique, on dira que lacomplexité
du modèle est insuffisante. À l’inverse, le modèle polynomial de degré 10 est suffisamment complexe
pour passer très précisément par tous les points d’apprentissage ; on observe néanmoins que cette préci-
sion sur l’ensemble d’apprentissage est obtenue au détriment des qualités de généralisation du modèle :
c’est le phénomène de surajustement. En effet, au voisinage de x = −2 comme au voisinage de x = +3, ce
modèle fournit des prédictions très éloignées de la « réalité » représentée en trait plein. En revanche, le
modèle polynomial de degré 6 présente un bon compromis : la courbe ne passe pas exactement par tous
les points – ce qui est normal puisque ces points résultent en partie d’un tirage aléatoire – mais elle est
assez proche de la « vraie » fonction 10 sinx / x.
Afin de rendre ces considérations plus quantitatives, on a constitué, outre l’ensemble d’apprentissage, un
deuxième ensemble de données, dit ensemble de test, indépendant du précédent, mais dont les NT
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 28/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
9
C HAPITRE 1
éléments sont issus de la même distribution de probabilité. On définit l’erreur quadratique moyenne sur
l’ensemble d’apprentissage (EQMA) et l’erreur quadratique moyenne sur l’ensemble de test (EQMT) :
NA
1 1 NT p
∑ (y ) ( )
2 2
EQMA = p
k − g ( x k ,w) EQMT = ∑ y k − g ( x k ,w) .
NA k =1 NT k =1
L’ensemble de test, comprenant NT = 1000 éléments, est représenté sur la figure 1-3. De plus, 100 ensem-
bles d’apprentissage de N A = 15 éléments chacun ont été constitués.
+10
Figure 1-3.
Ensemble de test
yp
-4
-2 x +3
100 modèles ont été créés à partir de ces ensembles d’apprentissage, et, pour chacun de ces modèles,
l’EQMA et l’EQMT ont été calculées. La figure 1-4 montre l’évolution des moyennes des EQMA et
EQMT, en fonction de la complexité (degré) du modèle polynomial postulé.
Remarque 1
Le fait de présenter des moyennes des EQMA et EQMT, sur 100 modèles obtenus à partir de 100 ensembles d’apprentissage différents,
permet d’éviter l’observation de phénomènes liés à une réalisation particulière du bruit présent dans les observations d’un ensemble
d’apprentissage donné. Dans la pratique, on ne dispose évidemment que d’un seul ensemble d’apprentissage.
Remarque 2
Dans la pratique, si l’on disposait d’un ensemble de 1 000 exemples, on utiliserait beaucoup plus que 15 exemples pour effectuer l’appren-
tissage. Par exemple, on utiliserait 500 exemples pour l’apprentissage et 500 pour tester le modèle. Dans cette section, nous nous plaçons
volontairement dans un cadre académique, pour mettre en évidence les phénomènes importants. La méthodologie à adopter pour la
conception de modèles est présentée dans la section de ce chapitre intitulée « La conception de modèle en pratique », et elle est large-
ment développée dans le chapitre 2.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 29/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
10
6
EQMT EQMA
5
Figure 1-4.
Erreurs
quadratiques
4 moyennes
sur l’ensemble
d’apprentissage
et sur l’ensemble
3 de test
0
0 2 4 6 8 10 12 14
Degré du modèle polynomial
On observe que l’erreur d’apprentissage (EQMA) diminue lorsque la complexité du modèle augmente :
le modèle apprend de mieux en mieux les données d’apprentissage. En revanche, l’erreur sur l’ensemble
de test (EQMT) passe par un optimum (d = 6) puis augmente : l’augmentation de la complexité du modèle
au-delà de d = 6 se traduit par une dégradation de ses capacités de généralisation.
Remarque
Les brusques variations de l’EQMA et de l’EQMT observées lorsque l’on passe du degré 3 au degré 4 sont dues à la nature particulière de
l’exemple étudié : en effet, dans le domaine de variation de x considéré, la fonction sin x / x présente deux points d’inflexion (points où la
dérivée seconde de la fonction est nulle). Or un polynôme de degré d a au plus d − 2 points d’inflexion : pour que le modèle polynomial
puisse reproduire les deux points d’inflexion de la fonction génératrice des données, il faut donc qu’il soit au moins de degré 4.
On observe également que l’EQMT reste toujours supérieure à l’écart-type du bruit (qui vaut 1 dans cet
exemple), et que l’EQMT du modèle qui a la meilleure généralisation est voisine de l’écart-type du bruit.
Ainsi, le meilleur modèle réalise un compromis entre la précision de l’apprentissage et la qualité de la géné-
ralisation. Si le modèle postulé est trop peu complexe, l’apprentissage et la généralisation sont peu précis ;
si le modèle est trop complexe, l’apprentissage est satisfaisant, mais la généralisation ne l’est pas. Ce
compromis entre la qualité de l’apprentissage et celle de la généralisation, gouverné par la complexité du
modèle, est connu sous le terme de dilemme biais-variance : un modèle qui a un biais faible apprend très
bien les points d’apprentissage, mais il peut avoir une variance élevée car il peut être fortement tributaire de
détails de l’ensemble d’apprentissage (modèle surajusté). En revanche, un modèle peut avoir unbiais élevé
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 30/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
11
C HAPITRE 1
(il n’apprend pas parfaitement les éléments de l’ensemble d’apprentissage) mais une variance faible (il ne
dépend pas des détails de l’ensemble d’apprentissage). Le phénomène observé dans cet exemple est absolu-
ment général, comme nous le démontrerons dans la section intitulée « Dilemme biais-variance ».
Dans la section intitulée « Éléments de théorie de l’apprentissage », on donnera une expression quantita-
tive de la notion de complexité. On montrera notamment que, pour les modèles polynomiaux, la
complexité n’est rien d’autre que le nombre de paramètres du modèle, soitd + 1 pour un polynôme de
degré d ; on montrera également que le dilemme biais-variance est gouverné par le rapport du nombre de
paramètres au nombre d’exemples disponibles.
Retrouvons à présent le même phénomène sur un second exemple académique, qui est cette fois un
problème de classification.
Un exemple de classification
3 Rappelons qu’un problème de classification
consiste à affecter un objet inconnu à une classe
parmi plusieurs. Considérons un problème à deux
2
classes A et B. On souhaite que soit attribuée à tout
élément de la classe A une étiquette yp = +1, et à
1 tout élément de B une étiquette yp = −1. On dispose
d’un ensemble d’apprentissage, constitué d’exem-
ples de chacune des classes, dont la classe est
0 connue : des étiquettes exactes leur ont été affec-
x2
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 31/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
12
Le classifieur de Bayes présente donc une généralisation optimale ; malheureusement, on ne peut le déter-
miner que si les distributions des exemples sont connues, ce qui n’est généralement pas le cas dans un
problème réel. On peut seulement s’efforcer de trouver un classifieur qui en soit proche. C’est ce qui va
être tenté par les deux méthodes décrites ci-dessous.
Pour visualiser les résultats, le calcul est effectué pour 10 000 points disposés régulièrement sur une grille
de 100 × 100 points. La figure 1-6 montre les résultats obtenus pour k = 1, k = 7, k = 21 et k = 159 (cette
dernière valeur est la valeur maximale de k puisque l’ensemble d’apprentissage comporte en tout
160 exemples) ; les points affectés à la classe A par le classifieur sont représentés en gris foncé, ceux qui
sont affectés à la classe B en gris clair.
Pour k = 1, on observe que la frontière est très irrégulière, et définit des « îlots » de l’une des classes dans
l’autre classe. Ce phénomène s’explique facilement : comme chaque point de l’ensemble d’apprentissage
est son propre plus proche voisin, il est forcément bien classé. La frontière dépend donc complètement de
l’ensemble d’apprentissage choisi : un autre tirage aléatoire de points dans les mêmes distributions gaus-
siennes aurait produit une frontière très différente. C’est un modèle qui a un biais faible (tous les exemples
de l’ensemble d’apprentissage étant bien appris, le taux d’erreur sur l’ensemble d’apprentissage est nul)
et une variance élevée (la frontière varie beaucoup si l’on change l’ensemble d’apprentissage). La capa-
cité de généralisation est donc certainement très faible, le modèle étant complètement surajusté à
l’ensemble d’apprentissage disponible. La croix en traits épais (x1 = −2, x2 = −2,5), qui n’appartient pas à
l’ensemble d’apprentissage, est mal classée.
Lorsque l’on augmente k, la frontière devient plus régulière, et plus proche de la frontière optimale (k = 7,
k = 21). La croix en traits épais est correctement classée dans l’ensemble des croix. Pour k = 159, on
observe en revanche que la frontière devient très régulière, mais qu’elle est très éloignée de la solution
optimale (la diagonale du carré). La croix en traits épais est à nouveau mal classée.
On passe ainsi de modèles de faible biais et grande variance (faibles valeurs de k) à des modèles de faible
variance mais de biais élevé (grandes valeurs de k). Comme dans l’exemple précédent, on voit apparaître
la nécessité de trouver un compromis satisfaisant entre le biais et la variance ; ce compromis dépend la
valeur de 1 / k.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 32/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
13
C HAPITRE 1
3 3
2 2
1 1
0 0
x2
x2
-1 -1
-2 -2
-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x1 x1
k=1 k=7
3 3
2 2
1 1
0 0
x2
x2
-1 -1
-2 -2
-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x1 x1
k = 21 k = 159
Figure 1-6. Classification par la méthode des k plus proches voisins
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 33/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
14
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 34/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
15
C HAPITRE 1
1
g (x ) = ∑ yp
k k plus proches k
voisins de x
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 35/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
16
40
35
Ensemble de test Figure 1-9.
Taux d’erreur
en fonction
30
Taux d’erreur de classification (%)
du nombre
d’exemples, à
complexité fixée
25
Limite de Bayes
20
15
Ensemble d’apprentissage
10
5
0 4 8 12 16 20
Nombre d’exemples par classe
Conclusion
Dans cette section, deux problèmes académiques simples d’apprentissage supervisé ont été présentés : un
exemple de prédiction et un exemple de classification. Ces deux exemples ont permis de mettre en
évidence un problème central de l’apprentissage artificiel : le dilemme biais-variance, c’est-à-dire la
nécessité de trouver le meilleur compromis possible entre la capacité du modèle à apprendre les exemples
d’apprentissage et sa capacité à généraliser à des situations non apprises. Ces observations empiriques
vont à présent être justifiées de manière plus rigoureuse.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 36/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
17
C HAPITRE 1
π ⎡⎣ y p, g ( x, w) ⎤⎦ ≥ 0 ,
où yp est la valeur souhaitée et g(x, w) est la valeur prédite par le modèle, dont les paramètres sont les
composantes du vecteur w, étant donné le vecteur de variables x. Pour une tâche de prédiction, yp est la
valeur mesurée de la grandeur à prédire ; pour une tâche de classification à deux classes,yp vaut +1 pour
un objet d’une classe et −1 (ou 0) pour un objet de l’autre classe.
Exemples
Une distance naturelle, très fréquemment utilisée, est l’erreur quadratique de modélisation :
P 2 = EΠ = ∫ ∫ π ( y , g( x, w)) p
p
Y pX
,
dy p dx
P 2 == E X ⎡ EY p X ( Π )⎤
⎣ ⎦
où EY p X (Π ) désigne l’espérance mathématique de la variable aléatoire Π Y p X , c’est-à-dire l’espé- ( )
rance mathématique de la fonction de perte pour les prédictions effectuées par le modèlepour un vecteur
de variables x donné.
Démonstration
pY p ,X = pYp y x pX
La probabilité conjointe peut s’écrire p
( ) . L’erreur de prédiction théorique s’écrit donc
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 37/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
18
(
P = ∫ ∫ π y ,g(x ,w ) pYp y x pX dy dx
2 p p p
) ( )
( )
= ∫ ⎡⎣ ∫ π y p, g (x ,w) pY p yp x dyp ⎤⎦ pX dx ( )
= EX ⎡EYp
⎣ X
( Π ) ⎤⎦.
Considérons un exemple caractérisé par le vecteur de variables x. En ce point, le meilleur modèle est le
modèle pour lequel l’erreur de prédiction théorique est minimum. Appliquons cette propriété successive-
ment à deux tâches : la prédiction et la classification.
Prédiction
Comme indiqué plus haut, la fonction de perte la plus fréquemment utilisée pour la prédiction est
2
π ⎡⎣ y p , g ( x, w) ⎤⎦ = ⎡⎣ y p − g ( x, w)⎤⎦
f ( x) = EY p X
Démonstration
Rappelons que l’espérance mathématique de la fonction de perte est donnée par :
(Π ) = ∫ ( yP − g( x,w)) ( y x) dy.
2
p p
EYp X
pYp
Son minimum est obtenu pour le modèle
f(x) tel que
⎛ dEYp X ⎞
0 =⎜ ⎟
⎝dg (x ,w )⎟
⎜ ⎠ g( x, w) = f( x)
=⎜
∫ (
⎛d yP − g ( x, w) 2 p y p x dy p ⎞
Y
p
⎟
) ( )
⎜ dg (x ,w ) ⎟
⎝ ⎠g ( x, w)=f ( x)
(
= 2∫ yP − f ( x ) pp
Y
) ( y x ) dy p p
= 2∫ y pYp P
( y x) dy − 2 f( x) ∫ p (y x)dy .
p p
Yp
p p
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 38/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
19
CHAPITRE 1
Cette fonction doit être telle que l’erreur de prédiction théorique soit minimale (on trouvera dans le
chapitre 6 un traitement beaucoup plus détaillé de ce problème).
■ Règle de décision de Bayes
Pour la prédiction, considérée dans la section précédente, on a mis en œuvre, pour définir l’erreur théo-
rique, la fonction de perte des moindres carrés. Pour la classification, on ne cherche pas à approcher les
valeurs des résultats de mesures, mais à classer correctement des objets. On utilise donc une autre fonc-
tion de perte, mieux adaptée à ce problème :
E Π ( x) = 1 × PrΠ (1 x ) + 0 × PrΠ (0 x )
= PrΠ (1 x ) .
Cette quantité est inconnue : pour l’estimer, il faudrait disposer d’une infinité d’objets décrits parx, dont
les classes sont connues, et compter la fraction de ces objets qui est mal classée par le classifieur consi-
déré.
La variable aléatoire Π est fonction de Yp. Son espérance mathématique peut donc s’écrire :
( ) ( )
E Π ( x) = π + ,sgn( g ( x, w)) PrY p ( + x) + π − ,sgn( g ( x, )) PrY p (−1 ) .
1w x 1 1
La probabilité d’appartenance d’un objet à une classe C connaissant le vecteur de variables x qui décrit
cet objet, notée PrY p ( C x) , est appelée probabilité a posteriori de la classe C pour l’objet décrit par x.
On remarque que E Π ( x ) ne peut prendre que deux valeurs :
Rappelons que l’on cherche la fonction g( x ,w) pour laquelle la probabilité d’erreur de classification au
point x, c’est-à-dire EΠ ( x) , soit minimum. La fonction g ( x ,w ) pour laquelle E Π (x ) est minimum est
donc telle quesgn (g (x, w )) = +1 , puisque, dans ce cas, E Π (x ) = PrY p ( −1 x ) , qui est la plus petite des deux
valeurs possibles.
À l’inverse, si PrY p (− x) > PrYp ( + x ), la fonction g( ) qui garantit le plus petit taux d’erreur enx est
telle que sgn( g( x, w) )1=x −1
,w . 1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 39/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
20
En résumé, le meilleur classifieur possible est celui qui, pour tout x, affecte l’objet décrit par x à la classe
dont la probabilité a posteriori est la plus grande en ce point.
Cette règle de décision (dite règle de Bayes) garantit que le nombre d’erreurs de classification est
minimal ; pour pouvoir la mettre en œuvre, il faut calculer (ou estimer)les probabilités a posteriori des
classes.
■ Classifieur de Bayes
Le classifieur de Bayes utilise, pour le calcul des probabilités a posteriori, la formule de Bayes : étant
donné un problème à c classes Ci (i = 1 à c), la probabilité a posteriori de la classe Ci est donnée par la
relation
pX ( x Ci ) PrC i
Pr (C i x ) = c
∑p
j =1
X ( x C )Pr
j Cj
( )
où p X x C j est la densité de probabilité du vecteur x des variables observées pour les objets de la classe
C j (ou vraisemblance du vecteur x dans la classe C j), et PrC j est la probabilité a priori de la classe C j,
c’est-à-dire la probabilité pour qu’un objet tiré au hasard appartienne à la classeC j .
Si toutes les classes ont la même probabilité a priori 1/c, la règle de Bayes revient à classer l’objet inconnu
x dans la classe pour laquelle x a la plus grande vraisemblance : c’est une application de la méthode du
maximum de vraisemblance.
Ainsi, si l’on connaît analytiquement les vraisemblances, et si l’on connaît les probabilités a priori des
classes, on peut calculer exactement les probabilités a posteriori.
Reprenons le cas considéré plus haut, dans la section intitulée « un exemple de classification » : deux
classes A et B dans un espace à deux dimensions, telles que les vraisemblances des variables sont gaus-
siennes, de même variance σ , de centres xA (x1A, x2A) et xB (x1B, x 2B ) :
1 ⎡ ( x − x )2 ⎤ ⎡ ( x − x )2 ⎤
p X ( x A) = exp ⎢− 1 21A ⎥ exp ⎢ − 2 22A ⎥
σ 2π ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦
1 ⎡ ( x − x B )2 ⎤ ⎡ ( x − x B )2 ⎤
p X ( x B) = exp ⎢− 1 21 ⎥ exp ⎢ − 2 22 ⎥ .
σ 2π ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦
Supposons que les probabilités a priori des classes soient les mêmes, égales à 0,5.
Dans l’exemple considéré plus haut, chaque classe était représentée par le même nombre d’exemples. Si la probabilité a priori des classes
est estimée par la fréquence des exemples, c’est-à-dire le rapport du nombre d’exemples d’une classe au nombre total d’exemples, on est
dans le cas où les deux probabilités a priori sont égales à 0,5.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 40/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
21
CHAPITRE 1
1 ⎡ ( x − x A )2 ⎤ ⎡ (x − x )2 ⎤
0, 5 exp ⎢ − 1 21 ⎥exp ⎢ − 2 22A ⎥
σ 2π ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦
Pr ( A x ) =
1 ⎡ ( x − x A )2 ⎤ ⎡ ( x − x )2 ⎤ 1 ⎡ ( x1 − x1B )2 ⎤⎥ exp ⎡⎢− ( x2 − x2B ) 2 ⎤⎥
0, 5 exp ⎢ − 1 21 ⎥ exp ⎢ − 2 22 A ⎥ + 0, 5 ex p⎢ −
σ 2π ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦ σ 2π ⎢⎣ 2σ 2 ⎥⎦ ⎢⎣ 2σ 2 ⎥⎦
1 ⎡ ( x − x B )2 ⎤ ⎡ ( x − x B) 2 ⎤
0, 5 exp ⎢ − 1 21 ⎥ exp ⎢− 2 22 ⎥
σ 2π ⎣⎢ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦
Pr ( B x ) = .
1 ⎡ (x1 − x1A ) ⎥ exp ⎢− (x 2 − x 2 A ) ⎥ + , 1 exp ⎢− ( x1 − x1B ) 2 ⎤⎥ exp ⎡⎢ − (x 2 − x 2B )2 ⎤⎥
2
⎤ ⎡ 2
⎤ ⎡
0, 5 exp ⎢− 2 2
05 2 2
σ 2π ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦ σ 2π ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦
La règle de classification de Bayes affecte l’objet décrit parx à la classe dont la probabilité a posteriori est
la plus grande (ou, puisque les probabilités a priori sont égales, à la classe pour laquelle la vraisemblance
de x est la plus grande).
La frontière entre les classes est donc le lieu des points, dans l’espace des vecteurs x, où les vraisem-
blances sont égales : c’est le lieu des points tels que
⎡ ( x − x )2 ⎤ ⎡ ( x − x )2 ⎤ ⎡ (x − x )2 ⎤ ⎡ (x − x2 B )2 ⎤
exp ⎢ − 1 21 A ⎥ exp ⎢ − 2 22 A ⎥ = exp ⎢ − 1 21 B ⎥ exp ⎢ − 2 ⎥.
⎢⎣ 2 σ ⎥⎦ ⎢⎣ 2 σ ⎥⎦ ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ 2 ⎥⎦
soit encore
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 41/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
22
Dilemme biais-variance
Les deux exemples académiques considérés en début de chapitre ont permis de mettre en évidence le
dilemme biais-variance. Muni des éléments théoriques de la section précédente, on peut à présent forma-
liser ce problème.
Considérons le cas de la prédiction par un modèle dont les paramètres sont déterminés par apprentissage ;
comme indiqué plus haut, la fonction de perte la plus fréquemment utilisée dans ce cas est le carré de
l’erreur de modélisation :
2
π ⎡⎣ y p , g ( x, w) ⎤⎦ = ⎡⎣ y p − g ( x, w)⎤⎦
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 42/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
23
CHAPITRE 1
présentes dans l’ensemble d’apprentissage ; de même, les prédictions g(x, w) peuvent être considérées
comme des réalisations d’une variable aléatoire G(x, W) qui dépendent de Yp. Pour rendre les équations
plus lisibles, on remplace ici la notation varX par var (X) et EX par E(X).
L’erreur de prédiction théorique au pointx est alors donnée par :
2
P 2 ( x ) = σ 2 + var⎡⎣ G ( x ,W ) ⎤⎦ + ⎡⎣ E ⎡⎣ f (x ) − G ( x ,W ) ⎤⎦ ⎤⎦ ,
Démonstration
Rappelons que, pour une variable aléatoire Z, on a la relation
EZ2 = varZ + [ EZ ] .
2
Le modèle étant construit par apprentissage, ses paramètres, donc les prédictions du modèle, sont eux-mêmes des réalisations
ria- de va
bles aléatoires W et G(x, W) par l’intermédiairep de
. On
Y peut donc écrire :
2
P (x ) == E ⎡⎢ ⎡⎣ Y − G( x, W) ⎤⎦ ⎤⎥ = var ⎡⎣ Y − G
( x, w)⎤⎦ + ⎡⎣ E ⎡⎣ Yp − G(x ,W)⎤⎦ ⎤⎦
2 p 2 p
⎣ ⎦
2
= var ⎡⎣Y p − f( x ) + f( x) − G( x ,W
W) ⎤⎦ + ⎡⎣ E ⎡⎣ Y − f( x) + f( x) − G( x, W)⎤⎦ ⎤⎦
p
2
= var ⎡⎣ε +f ( x) − G( x W
, ) ⎤⎦ + ⎡⎣ E ⎡⎣ ε + f( )x− G( x ,W
)⎤⎦⎤⎦ .
La fonction
f(x) étant certaine (elle ne dépend pas de W, donc de l’ensemble d’apprentissage), sa variance est nulle. D’autre part, l’espé-
rance mathématique de ε est nulle : on a donc finalement :
2
P (x ) = σ + var ⎡⎣ G (x ,W)⎤⎦ + ⎡⎣ E⎡⎣ f( x) − G( x, W)⎤⎦ ⎤⎦ .
2 2
Le premier terme de la somme est la variance du bruit de mesure. Le deuxième est la variance de la prédic-
tion du modèle au point x, qui représente la sensibilité du modèle à l’ensemble d’apprentissage. Le troi-
sième est le biais du modèle, c’est-à-dire le carré de l’espérance mathématique de l’écart entre les prédic-
tions fournies par le modèle et celles qui sont fournies par le meilleur modèle possible (la fonction de
régression f(x)).
Cette relation très importante appelle plusieurs commentaires :
• La qualité d’un modèle ne peut être évaluée que par comparaison entre son erreur de prédiction et la
variance du bruit sur les mesures. Un modèle qui fournit des prédictions en désaccord de 10 % avec les
mesures est un excellent modèle si les mesures ont elles-mêmes une précision de 10 % ; mais si la préci-
sion sur les mesures est de 1 %, le modèle est très mauvais : il faut chercher à l’améliorer. Si la précision
sur les mesures est de 20 %, la performance de 10% annoncée pour le modèle est très suspecte : son esti-
mation doit être remise en cause. Les trois termes de la somme étant positifs, l’erreur de prédiction théo-
rique ne peut être inférieure à la variance des observations en x, c’est-à-dire à la variance du bruit qui
affecte les mesures ; en d’autres termes, on ne peut pas espérer qu’un modèle, conçu par apprentissage,
fournisse des prédictions plus précises que les mesures à partir desquelles il a été construit. C’est ce qui
a été observé sur la figure 1-4, où le minimum de la racine carrée de l’erreur de prédiction théorique,
estimée par l’EQMT, était de l’ordre de l’écart-type du bruit.
• On retrouve par cette relation le fait que le meilleur modèle est la fonction de régression : en effet, si
g(x, w) = f(x), la variance est nulle puisque le modèle ne dépend pas de w, et le biais est nul ; l’erreur de
prédiction est donc la plus petite possible, égale à la variance du bruit.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 43/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
24
• Si le modèle ne dépend pas de paramètres ajustables, la variance est nulle, mais le biais peut être très
grand puisque le modèle ne dépend pas des données. Par exemple, si g(x, w) = 0, la variance est nulle et
2
le biais vaut ⎡⎣ f ( x )⎤⎦ .
Dans les exemples académiques de prédiction et de classification que nous avons présentés, nous avons
observé que le biais et la variance varient en sens inverse en fonction de la complexité du modèle : un
modèle trop complexe par rapport aux données dont on dispose possède une variance élevée et un biais
faible, alors qu’un modèle de complexité insuffisante a une variance faible mais un biais élevé. Comme
l’erreur de généralisation fait intervenir la somme de ces deux termes, elle passe par un optimum qui est
au moins égal à la variance du bruit. C’est exactement ce que nous avons observé sur la figure 1-4 :
l’erreur quadratique moyenne sur l’ensemble de test, qui est une estimation de l’erreur de généralisation,
passe par un minimum pour un polynôme de degré 6, qui présente donc la complexité optimale compte
tenu des données d’apprentissage dont on dispose.
La relation qui vient d’être établie fournit l’erreur de prédiction théorique en un point x. L’erreur de
prédiction théorique est
P 2 = EX ⎡⎣ P 2 (x )⎤⎦ = ∫ P 2 (x ) pX dx
2
= σ 2 + E X ⎡⎣ var ⎡⎣G ( x , W) ⎦⎤ ⎤⎦ + EX ⎡⎣E ⎡⎣ f ( x) − G (x ,W ) ⎤⎦⎤⎦ .
Remarque
L’espérance mathématiqueXEn’a pas le même sens que l’espérance mathématique E : la première porte sur toutes les conditions expéri-
mentales possibles, tandis que la seconde porte sur toutes les réalisations possibles de l’ensemble d’apprentissage.
Pour vérifier numériquement cette relation, reprenons l’exemple de la modélisation par apprentissage à
partir de données qui ont été créées artificiellement en ajoutant à la fonction 10 sin(x)/x un bruit pseudo-
aléatoire de variance égale à 1, en N A = 15 points x k. Pour estimer le biais et la variance en un point x, 100
ensembles d’apprentissage différents ont été créés, en tirant au hasard, dans une distribution normale
centrée, 100 valeurs de yp pour chaque valeur de xk ; on a fait l’apprentissage de 100 modèles différents
g(x, wi ), i = 1 à 100, c’est-à-dire que 100 vecteurs de paramètres ont été estimés par la méthode des moin-
dres carrés (qui sera décrite plus loin). Un ensemble de test de 1 000 points a été créé, et, en chaque point
de cet ensemble, le biais et la variance du modèle de paramètres wi ont été estimés :
2
1 100 ⎛⎛ sinx test ⎞
• estimation du biais du modèle g(x, wi ) au point xtest
k :
100 i =1 ⎜
(
∑ ⎝10 x testk − g x test )
k , wi ⎟
⎠
k
( )
L’erreur de prédiction P 2 x test est estimée par :
k
100
1
∑( y ( )) .
2
test test
k − g x ,wi
k
100 i =1
Finalement, les espérances mathématiques de ces trois quantités sont estimées par la moyenne de chacune
d’elles sur les 1 000 points de test.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 44/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
25
CHAPITRE 1
sur un ensemble
de données indépendant
de l’ensemble d’apprentissage
sur l’ensemble
d’apprentissage
Complexité du modèle
De la théorie à la pratique
Les résultats qui ont été présentés dans la section précédente sont des résultats asymptotiques, c’est-à-dire
qu’ils sont exacts si l’on dispose d’une quantité infinie de données. Ils sont très utiles, car ils expliquent
les grandes lignes des phénomènes que l’on observe, et mettent en évidence les problèmes qu’il faut
résoudre. Néanmoins, dans une situation réelle de mise en œuvre des méthodes d’apprentissage artificiel,
on dispose toujours d’une quantité finie de données, insuffisante pour estimer de manière très précise les
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 45/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
26
intégrales nécessaires au calcul des espérances mathématiques ou des variances ; de plus, les distributions
de probabilités auxquelles obéissent les données sont également inconnues. Dans cette section, on
présente des résultats théoriques sur lesquels il est possible de s’appuyer pour trouver des méthodes prati-
ques de conception de modèles par apprentissage. Le lecteur qui ne cherche pas à approfondir la théorie
de l’apprentissage peut sans dommage omettre de lire cette section et passer directement à la section inti-
tulée « La conception de modèles en pratique ».
P 2 = EΠ = ∫ ∫ π ( y , g ( x, w ) ) p
p
Y p, X
dy pd x
est minimale. L’intégrale n’étant pas calculable, il convient donc de l’estimer à l’aide des données dispo-
nibles. On estime donc l’erreur de prédiction théorique par l’erreur de prédictionempirique (également
appelée risque empirique)
1 N
P *2 = (
∑π ykp , g ( xk, w)
N k =1
)
( )
où π y ,g ( xk , w) est la fonction de perte choisie.
k
p
L’apport fondamental de la théorie de l’apprentissage, par rapport aux statistiques classiques, réside dans
l’étude de la manière dont l’erreur empirique converge (ou ne converge pas) vers l’erreur théorique. Ainsi,
en statistique, on montre que la moyenne est un estimateur non biaisé de l’espérance mathématique ; la
théorie de l’apprentissage, pour sa part, s’intéresse à la façon dont la moyenne converge vers l’espérance
mathématique lorsque le nombre d’exemples augmente. Ainsi on peut évaluer le nombre d’exemples
nécessaires pour estimer l’espérance mathématique avec une précision donnée, ou bien évaluer l’erreur
que l’on commet en estimant l’espérance mathématique par la moyenne, pour un nombre d’exemples
donné.
Comme indiqué plus haut, la fonction de perte la plus utilisée dans le cas de la prédiction est le carré de
l’erreur, et l’erreur de prédiction empirique est donnée par
1 N p
P *2 = (
∑ yk − g (x k,w )
N k =1
2
)
où la somme porte sur un ensemble de données convenablement choisies parmi les données disponibles.
La première tâche consiste à estimer les paramètres w, c’est-à-dire à effectuer l’apprentissage proprement
dit. Pour cela, on choisit, parmi les données disponibles, un ensemble d’apprentissage, de cardinal NA , et
l’on cherche, à l’aide d’algorithmes appropriés, le vecteur w pour lequel la fonction de coût
NA
(
J = ∑ π ykp − g ( x k ,w) )
k=1
est minimale. Rappelons que, dans le cas où π est le carré de l’erreur, la fonction
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 46/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
27
CHAPITRE 1
NA
( )
J = ∑ ykp − g (x k ,w )
2
k =1
Supposons donc que l’on ait trouvé le minimum de la fonction de coût choisie ; la valeur de ce minimum
est-elle représentative de la qualité des prédictions que fournira le modèle, muni des paramètres ainsi
déterminés, pour des valeurs de x qui ne font pas partie de l’ensemble d’apprentissage ? Les exemples
précédents montrent que la réponse est généralement négative. Ainsi, la figure 1-4 montre que l’erreur
quadratique moyenne sur l’ensemble d’apprentissage (EQMA), qui vaut J , est très inférieure à l’erreur
quadratique moyenne sur l’ensemble de test pour des modèles trop complexes (de degré supérieur ou égal
à 7). De même, la figure 1-9 montre que l’erreur sur l’ensemble d’apprentissage est très optimiste, c’est-
à-dire très inférieure à l’erreur sur l’ensemble de test, lorsque le nombre d’exemples est petit. D’autre part,
l’erreur sur l’ensemble de test elle-même n’est qu’une estimation, à l’aide d’un nombre fini d’exemples,
de l’erreur de prédiction théorique. On peut donc en tirer deux enseignements :
• d’une part, il ne faut généralement pas estimer la performance d’un modèle à partir des résultats de
l’apprentissage ;
• d’autre part, il faut estimer le mieux possible l’erreur de prédiction.
Les deux sections suivantes décrivent, d’une part, des éléments théoriques qui permettent de borner
l’erreur que l’on commet en estimant les capacités de généralisation à partir des estimations obtenues à
l’aide de données en nombre fini, et, d’autre part, des éléments méthodologiques qui permettent de définir
les « bonnes pratiques » pour la conception de modèles par apprentissage.
Le résultat le plus remarquable de cette théorie consiste en une expression quantitative de la notion de
complexité du modèle : étant donnée une famille de fonction g(x, w), la complexité de cette famille peut
être caractérisée par une grandeur, appelée dimension de Vapnik-Chervonenkis. Le fait qu’il suffise d’une
seule grandeur pour définir la complexité d’une famille de fonctions quelconque est très remarquable ; il
faut néanmoins admettre que le calcul de la dimension de Vapnik-Chervonenkis pour une famille de fonc-
tions n’est pas toujours simple.
Pour la famille des polynômes de degré d, la dimension de Vapnik-Chervonenkis est égale au nombre de
paramètres du modèle, soit d+1.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 47/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
28
Exemple
Considérons la famille des fonctions affines à deux varia-
bles x1 et x2 . Il est facile de prouver que la dimension de
Vapnik-Chervonenkis de cette famille de fonctions est
égale à 3 : la figure 1-13 montre que les points appartenant
à toutes les configurations possibles de 3 points apparte-
nant à deux classes, en dimension 2, peuvent être séparés
par une fonction affine. En revanche, la figure 1-14 montre
une configuration de 4 points qui ne sont pas séparables
par une fonction de cette famille. Cette configuration admet
Figure 1-13. Toute configuration de 3 points dans le plan,
néanmoins un séparateur quadratique (une hyperbole), ce appartenant à deux classes, admet un séparateur affine.
qui prouve que la dimension de Vapnik-Chervonenkis des
fonctions affines de deux variables est égale à 3, et que
celle des fonctions quadratiques de deux variables est
supérieure à 3 ; comme indiqué plus haut, elle est égale au
nombre de paramètres, soit 6 pour les polynômes du
second degré à deux variables.
La dimension de Vapnik-Chervonenkis est Figure 1-14. Une configuration de 4 points qui n’admet
généralement une fonction croissante du pas de séparateur affine, mais qui admet un séparateur
quadratique.
nombre de paramètres. Mais ce n’est pas
toujours le cas. Ainsi, la fonction sgn sin wx ( )
a un seul paramètre, mais peut séparer un nombre quelconque de points : il suffit de choisir une longueur
d’onde 2π/w suffisamment petite. Sa dimension de Vapnik-Chervonenkis est infinie (figure 1-15).
de Vapnik-Chervonenkis
x o x oo x o xx o x xo x o xx o de la fonction sin(wx) est infinie.
x
Cette définition de la complexité permet d’établir des bornes sur l’erreur commise en remplaçant l’erreur
de prédiction théorique P2 par une erreur empirique P*2 estimée sur l’ensemble d’apprentissage. Ainsi,
supposons que l’on effectue l’apprentissage d’un classifieur en cherchant la fonction indicatrice
1 + sgn ⎡⎣g (x ,w )⎤⎦
γ (x ,w ) = (de valeur 0 ou 1, comme indiqué plus haut) qui minimise une erreur empi-
2
rique P*2 (w) sur un ensemble d’apprentissage de cardinal NA. Soit h la dimension de Vapnik-
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 48/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
29
CHAPITRE 1
Chervonenkis de g(x, w). On a le résultat suivant : si NA > h, alors, avec une probabilité au moins égale à
1 − η , pour toute fonction de cette famille, la différence entre l’erreur de généralisation (inconnue) P2(w)
commise par cette fonction et l’erreur empirique P*2(w) calculée sur les données d’apprentissage est
bornée supérieurement par la quantité
E ( N A, h , η ) ⎛ 4 P * 2 (w) ⎞
B ( N A , h,η ) = ⎜1 + 1 + ,
2 ⎝ E (N A , h, η ) ⎠
⎡ ⎛ N ⎞ ⎤ ⎛η ⎞
h ⎢ln ⎜2 A ⎟ +1 ⎥ − ln⎜ ⎟
⎝ h⎠ ⎦ ⎝4 ⎠
où E ( N A , h, η ) = 4 ⎣ .
NA
( )
De plus, pour la fonction g x , w * pour laquelle l’erreur empirique est minimale (c’est-à-dire pour le
modèle de la famille considérée qui est trouvé par apprentissage), avec une probabilité au moins égale à
1-2η , la différence entre l’erreur de généralisation P2(w*) commise par cette fonction et la plus petite
erreur de généralisation qui puisse être commise par un modèle de cette famille est bornée supérieurement par :
- ln η E (N A ,h , η ) ⎛⎛ 4 ⎞
B * ( NA , h, η ) = + ⎜1 + 1 + E N h η ⎟.
2N A 2 ⎝ ( A , , )⎠
La figure 1- 16 montre
l’évolution de B*(N A , h,
η ) en fonction du nombre
d’exemples et de la
40 dimension de Vapnik-
Chervonenkis ( η = 10-2 ).
35
On observe que cette
30 borne croît lorsque le
25 nombre d’exemples
)
B * NA , h,η
Dans la pratique, la mise en œuvre de ces bornes est peu utile, car elles sont généralement très
pessimistes ; elles peuvent éventuellement être utilisées pour comparer des modèles entre eux. Néan-
moins, l’approche possède le très grand mérite de mettre en évidence des comportements universels de
familles de fonctions, indépendamment de la distribution des exemples, pour des nombres d’exemples
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 49/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
30
finis, et de fournir des guides pour la conception de modèles utiles dans des applications difficiles. Ainsi,
les machines à vecteurs supports, décrites dans le chapitre 6, permettent un contrôle sur la dimension de
Vapnik-Chervonenkis.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 50/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
31
CHAPITRE 1
le nombre d’expériences, en n’effectuant que celles qui sont réellement utiles pour la conception du
modèle.
u− u
u' = ,
su
où u désigne la moyenne de la grandeur u considérée
1 N
u = ∑u ,
N k =1 k
1 N
∑( u − u ) 2
su = .
N − 1 k= 1
degré d vaut (n + d )!, où n est le nombre de variables ; elle croît donc très rapidement avec n. Conserver
n !d !
un contrôle sur le nombre de variables est donc un élément important dans une stratégie de modélisation
qui cherche à maîtriser la complexité des modèles. Nous décrirons plus en détail, dans ce chapitre, le
problème de la sélection de variables et nous proposerons une méthode efficace pour le résoudre.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 51/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
32
Les résultats de la sélection de variables sont susceptibles de remettre en cause des idées reçues concer-
nant le phénomène à modéliser, ou, au contraire, de conforter des conjectures ou des intuitions concernant
l’influence des variables candidates sur la grandeur à modéliser.
On peut également souhaiter diminuer le nombre de variables en réduisant la dimension de l’espace de
représentation de la grandeur que l’on cherche à modéliser. Les principales méthodes utilisées dans ce but
sont l’Analyse en Composantes Principales (ACP), l’Analyse en Composantes Indépendantes (ACI, ou
ICA pour Independent Component Analysis) ou encore l’Analyse en Composantes Curvilignes (ACC).
L’ACP et l’ACC sont décrites dans le chapitre 3 de cet ouvrage.
Sélection de modèles
Comme indiqué plus haut, la méthode de minimisation du risque structurel conduit à concevoir des
modèles de complexités différentes et à choisir celui qui est susceptible d’avoir les meilleures propriétés
de généralisation.
Nous avons vu qu’il est impossible, en général, d’estimer la capacité de généralisation d’un modèle à
partir des résultats de l’apprentissage ; une telle procédure conduirait systématiquement à sélectionner un
modèle de biais faible et de variance élevée, donc surajusté. Pour sélectionner le meilleur modèle parmi
des modèles de complexités différentes, il convient donc de les comparer sur la base des prédictions qu’ils
effectuent sur des données qui n’ont pas servi à l’apprentissage. Nous décrivons ci-dessous, dans la
section intitulée « Sélection de modèles », les méthodes les plus couramment utilisées.
Sélection de modèles
Comme indiqué plus haut, la sélection de modèles est une étape cruciale dans la conception d’un modèle
par apprentissage. Nous décrivons ici les trois méthodes les plus fréquemment mises en œuvre.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 52/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
33
CHAPITRE 1
• Un ensemble de validation de taille NV, disjoint de l’ensemble d’apprentissage, mais issu de la même
distribution de probabilité, qui est utilisé pour comparer les performances des modèles du point de vue
de leur aptitude à généraliser. On calcule, pour chaque modèle, son Erreur Quadratique Moyenne de
Validation (EQMV)
NV
1
∑( y ) 2
EQMV = p
k − g (x k ,w )
NV k =1
où la somme porte sur les éléments de la base de test ; ces données ne doivent évidemment pas être utili-
sées pendant toute la phase de sélection de modèle.
Parmi l’ensemble des modèles dont on a effectué l’apprentissage, on choisit évidemment celui dont
l’EQMV est la plus petite ; si plusieurs modèles de complexités différentes peuvent prétendre à être
choisis car leurs EQMV sont petites, et du même ordre de grandeur, on choisit celui dont la complexité
est la plus faible.
Une fois déterminée la famille de fonctions de complexité optimale, on effectue un dernier apprentissage
avec l’ensemble des données utilisées préalablement pour l’apprentissage et la validation ; la performance
du modèle ainsi obtenu est estimée sur les données réservées pour le test.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 53/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
34
Si = ∑ (y k
p
− g ( xk ,wi ) )
2
k ∈sous-ensemble
de valida
ation i
Apprentissage
Validation
Test
Figure 1-18. Validation croisée
Leave-one-out
Le leave-one-out (également appelé jackknife) est la limite de la validation croisée, dans laquelle le
nombre de partitions D de l’ensemble d’apprentissage-validation est égal au nombre de ses éléments N.
Chaque sous-ensemble de validation est donc constitué d’un seul exemple. Pour une famille de fonctions
de complexité donnée, il faut donc réaliser autant d’apprentissages qu’il y a d’exemples dans la base
d’apprentissage-validation. Pour chaque exemple k exclu de l’ensemble d’apprentissage, on calcule
l’erreur de prédiction
rk−k = ykp − g( x, w − k )
où g(x, w-k) désigne le modèle, de paramètres w-k, obtenu lorsque l’exemple k est exclu de l’ensemble
d’apprentissage.
Une fois la procédure effectuée, on calcule le score de leave-one-out
N
1
Et =
N
∑( r ) −k 2
k .
k=1
Comme dans les cas précédents, on choisit le modèle qui a le plus petit score de leave-one-out ; si
plusieurs modèles de complexités différentes peuvent prétendre à être choisis car leurs scores de leave-
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 54/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
35
CHAPITRE 1
one-out sont petits, et du même ordre de grandeur, on choisit celui dont la complexité est la plus faible.
L’apprentissage final est effectué avec l’ensemble des données disponibles.
3
Score de leave-one-out
La figure 1-19 montre le score de leave-one-out et
EQMA l’EQMA en fonction du degré du modèle polyno-
2,5 Écart-type du bruit mial, pour l’exemple étudié plus haut dans la
section intitulée « Un exemple de modélisation
pour la prédiction ». Les résultats sont remarqua-
2 blement voisins de ceux qui sont représentés sur la
figure 1-4 ; mais, à la différence de ces derniers,
l’erreur de généralisation n’est pas estimée sur un
1,5
ensemble de test de 1 000 exemples (il est tout à
fait exceptionnel de disposer de données de test
1 aussi abondantes), mais avec les seuls 30 points
disponibles. La procédure conduit à la sélection
d’un polynôme de degré 6 ; il faut noter que les
0,5
0 2 4 6 8 10 12
résultats présentés ici sont une moyenne sur
Degré du modèle polynomial 100 ensembles d’apprentissage.
Figure 1-19. EQMA et score de leave-one-out moyens
sur 100 bases d’apprentissage comprenant chacune
30 exemples
6 Dans la pratique, on ne dispose que d’un ensemble
Score de leave-one-out
d’apprentissage, ce qui introduit une plus grande
5
EQMA
v ariabilité dans les résultats ; ainsi, dans le cas
Écart-type du bruit
représenté sur la figure 1-20, les modèles de degré
4 6 et 8 peuvent prétendre à être choisis ; compte
tenu du fait que les scores de leave-one-out sont
3
très voisins, on choisit le modèle de degré 6.
Cette technique est donc gourmande en temps de
2 calcul, en raison du grand nombre d’apprentissages
nécessaires. Le calcul du PRESS, décrit dans la
1
section « Conception de modèles linéaires » de ce
chapitre, et la méthode du leave-one-out virtuel,
qui sera décrite dans le chapitre 2, constituent des
0
0 2 4 6 8 10 12 alternatives beaucoup plus économiques en temps
Degré du modèle polynomial de calcul.
Figure 1-20. EQMA et score de leave-one-out
pour un seul ensemble d’apprentissage
Sélection de variables
Comme souligné plus haut, la sélection de variables constitue un élément important dans une stratégie de
conception d’un modèle par apprentissage ; elle contribue en effet à la diminution de la complexité d’un
modèle. L’ouvrage [GUYON 2006] fournit une excellente vue d’ensemble des approches modernes de la
sélection de variables.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 55/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
36
Cadre théorique
Cette section pose les bases théoriques nécessaires à une appréhension générale du problème de sélection
de variables. Le lecteur peu soucieux de ce cadre théorique peut sans dommage omettre la lecture de cette
section et passer directement à la section intitulée « Méthode de la variable sonde ».
La présentation qui suit est inspirée de l’introduction de [GUYON 2006].
L’objectif de la sélection de variables est de discerner, dans un ensemble de variables candidates {x1, x2,
… xn }, qui constituent le vecteur de variables que nous avons noté x dans les sections précédentes, celles
qui sont pertinentes pour la modélisation de la grandeur yp. Comme précédemment, ces variables peuvent
être modélisées comme des réalisations des composantes X 1, X 2, …, Xn d’un vecteur aléatoire X. On
désigne par X–i le vecteur dont les composantes sont celles de X à l’exception de la variable xi . Enfin, on
désigne par S–i un vecteur aléatoire dont les composantes sont un sous-ensemble des composantes de X–i
(S–i peut être identique à X–i ). En résumé, le vecteur X modélise toutes les variables candidates, le vecteur
X–i modélise le vecteur des variables candidates dont on a supprimé la variable i, et le vecteur S–i modélise
le vecteur des variables candidates dont on a supprimé au moins la variable i, et éventuellement d’autres
variables.
Il va de soi que la variable i est certainement non pertinente pour prédire la grandeur yp si et seulement si
les variables xi et y p varient indépendamment l’une de l’autre lorsque toutes les autres variables sont
fixées, ce qui peut s’écrire :
( ) ( ) ( )
p X , Y p X i ,Y p S−i = pXi Xi S−i pY p Y p S− i .
i
Une variable qui est pertinente n’obéit donc pas à cette relation. Pour savoir si une variable est peu perti-
nente ou très pertinente, il est donc naturel de chercher à savoir si le membre de gauche de cette égalité
est peu différent, ou très différent, du membre de droite. S’agissant de distributions de probabilités, une
« différence » s’exprime généralement par la distance de Kullback-Leibler entre les distributions. La
distance de Kullback-Leibler entre deux distributions de probabilités p U et p V est définie par la
relation [KULLBACK 1959] :
+∞
⌠ ⎛pU ⎞
⎮ pV ln ⎜p ⎟ du dv.
⌡ −∞ ⎝V⎠
Elle s’écrit donc ici :
( )
+∞
⌠ ⎛ p p Xi ,Y p S− i ⎞
( ) ⎮ i
( )
I X i ,Y p S− i = ⎮ p X ,Y p X i ,Y p S− i ln ⎜
X i ,Y
( ) (
⎟dx i dyp .
)
⎜p X i Xi S−i p p Y p S− i ⎟
⌡ −∞ ⎝ Y ⎠
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 56/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
37
CHAPITRE 1
Cette quantité n’est autre que l’information mutuelle entre Xi et Yp, étant données toutes les autres varia-
bles. Plus elle est grande, plus la variable xi est pertinente pour la prédiction de yp , toutes les autres varia-
bles étant connues.
Puisque l’on cherche un indice de pertinence qui soit indépendant des autres variables candidates, il est
naturel de proposer comme indice de pertinence, pour la variable i, la moyenne de l’information
mutuelle :
r ( i) = ∑ Pr (S ) I ( X , Y
i
−i
i
p
)
S− i .
S−
On peut alors fixer un seuil ε et décider de rejeter toutes les variables telles que
r( i) < ε.
Il faut néanmoins remarquer que les intégrales qui interviennent dans l’expression de l’indice de perti-
nence ne sont pas calculables, puisque l’on ne dispose que d’un nombre fini N de réalisations de xi et de
yp. Ce critère de sélection n’est donc pas applicable en pratique ; en revanche, on peut, au moins en prin-
cipe, estimer la probabilité pour que l’indice de pertinence soit supérieur à un seuilε , et décider que la
variable candidate doit être rejetée si la probabilité pour que son indice de pertinence soit supérieur au
seuil est inférieure à une quantité δ :
où r(i, N) désigne l’indice de pertinence estimé pour la variable i à partir d’un échantillon de N exemples.
Les méthodes qui nécessitent l’estimation de densités de probabilité sont généralement de mise en œuvre
délicate, notamment lorsque les exemples sont en nombre limité. Nous décrivons ci-dessous une méthode
simple et robuste qui est fondée sur l’estimation de corrélations.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 57/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
38
fixée.
Variables non pertinentes Variables pertinentes Si l’on connaissait la
distribution de l’indice de
pertinence pour les varia-
bles non pertinentes, le
seul paramètre que le
concepteur du modèle
aurait à choisir serait
probabilité probabilité
donc cette probabilité δ.
de faux négatif de faux positif (δ)
L’intérêt de la méthode
de la variable sonde est
qu’elle permet d’estimer
ε la densité de probabilité
Indice de pertinence de l’indice de pertinence
Figure 1-21. Distributions de probabilité de l’indice de pertinence des variables non perti-
pour des variables pertinentes et pour des variables non pertinentes nentes. Muni de cette
connaissance, on procède
de la manière suivante : si
les données sont peu nombreuses, on choisit δ « petit », donc ε « grand », car il convient d’être très
sélectif afin de limiter le nombre de faux positifs. En revanche, si les données sont nombreuses, on peut
se permettre de diminuer le seuil ε , donc de sélectionner un plus grand nombre de variables, au risque de
conserver des variables non pertinentes.
Dans cette expression, fi (x) peut être soit la variable xi elle-même, qui est alors appelée « variable
primaire », soit une fonction non paramétrée des variables, alors appelée « variable secondaire ». Pour
simplifier, on désignera dans la suite parz i la variable candidate de numéro i, qu’il s’agisse d’une variable
primaire ou d’une variable secondaire :
p
g (x ,w ) = ∑ w iz i.
i =1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 58/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
39
CHAPITRE 1
La figure 1-22 illustre la notion de variables primaire et secondaire, à l’aide d’un graphisme qui sera large-
ment utilisé dans la suite de l’ouvrage. Les cercles représentent des fonctions ; le cercle contenant un
signe Σ représente une fonction sommation. Les carrés ne réalisent aucune fonction : ils symbolisent
simplement les variables du modèle. Le modèle représenté à gauche est un modèle linéaire en ses para-
mètres et en ses variables : les variables primaires et secondaires sont identiques. Le modèle de droite est
un modèle linéaire en ses paramètres mais non linéaire en ses variables ; les variables secondaires sont
obtenues à partir des variables primaires par des transformations non linéaires non paramétrées. Ainsi, le
modèle de droite pourrait représenter un polynôme, les fonctions ϕ i étant des monômes des variables
primaires.
g(x, w)
g(x, w) ∑
w1 w2 wp
∑
z1 z2 Variables secondaires zp
w1 w2 wp
1 x2 Variables primaires xp
...
1 x2 xm
Variables primaires
Le carré du coefficient de corrélation entre deux variables aléatoires U et V centrées (de moyenne nulle),
dont on connaît N réalisations, est estimé par la quantité
∑( u v )
2
k k
2 k =1
r
U, V = N N
.
∑u ∑ v 2
k
2
k
k =1 k =1
Cette quantité a une interprétation géométrique simple. Considéronsl’espace des observations, de dimen-
sion N. Dans cet espace, la grandeur u est représentée par un vecteur u, dont chaque composante est une
observation uk de u. Le carré du coefficient de corrélation est alors le carré du cosinus de l’angleθ uv entre
les vecteurs u et v dans cet espace :
( u ⋅v ) 2
rU2,V = cos2 θ uv =
(u ⋅ u ) (v ⋅v )
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 59/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
40
où le symbole ⋅ représente le produit scalaire dans l’espace des observations. Le coefficient de corrélation
est donc compris entre zéro (observations non corrélées, vecteurs représentatifs orthogonaux dans
l’espace des observations) et 1 (observations complètement corrélées, vecteurs représentatifs colinéaires).
Ainsi, le coefficient de corrélation entre la grandeur à modéliser yp et la variable candidate z i est donné
par :
rY2p ,Z =
(y
p
k ⋅ zi ) 2
i
(y
p
k ⋅y p
k )( z ⋅ z )
i i
où y kp et zi sont les vecteurs représentatifs, dans l’espace des observations, de la grandeur à modéliser et
de la variable candidate de numéro i (primaire ou secondaire) respectivement.
Attention
Ne pas confondre z et .izLe vecteur z, qui intervient par exemple dans la notation du modèle g(z, w), désigne le vecteur des variables du
modèle : il est de dimension p. En revanche, le vecteur
i représente
z la variable numéro i du modèle dans l’espace des observations : il est
de dimension N, où N désigne le nombre d’observations.
À partir de ce coefficient de corrélation, l’indice de pertinence des variables candidates est défini comme
le rang de la variable candidate dans un classement établi par orthogonalisation de Gram-Schmidt
[CHEN 1989]. La procédure est la suivante :
p
• calculer les coefficients de corrélation entre y k et lesp variables candidates, et choisir la variable candi-
date zi la plus corrélée à ykp ;
• projeter le vecteur y pk et toutes les variables non sélectionnées sur le sous-espace orthogonal à la variable
zi ;
• itérer dans ce sous-espace.
Les variables sont donc sélectionnées les unes après les autres. À chaque orthogonalisation, la contribu-
tion de la dernière variable sélectionnée au vecteur ykp est supprimée ; on obtient donc bien un classe-
ment des variables par ordre de pertinence décroissante. Il est alors naturel de considérer que le rang d’une
variable dans ce classement est le reflet de la pertinence de cette variable par rapport à la modélisation que
l’on cherche à effectuer.
La figure 1-23 illustre le processus dans un cas très
simple où l’on aurait trois exemples (N = 3) et deux
variables primaires ou secondaires candidates (p =
2), représentées par les vecteurs z1 et z2 dans l’espace yp
des observations. La première étape a pour effet de
sélectionner la variable z1 , car l’angle entre z1 et yP
z1
est plus petit que l’angle entre z2 et yp . La deuxième
étape consiste à projeter orthogonalement yP et la
variable non sélectionnée z2 sur le sous-espace ortho-
gonal à z1. Toutes les variables candidates étant clas-
sées, le processus s’arrête alors. S’il y avait plus de z2 1 y p1
deux variables candidates, le même processus serait
itéré dans le sous-espace orthogonal à z1.
Remarque 1 z2
En pratique, il est préférable d’utiliser une variante de l’algorithme de
Figure 1-23. Orthogonalisation de Gram-Schmidt pour
Gram-Schmidt, appelée algorithme de Gram-Schmidt modifié, quile classement de deux variables candidates dans un
est plus stable numériquement [BJÖRCK 1967]. espace des observations de dimension trois
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 60/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
41
CHAPITRE 1
Remarque 2
L’algorithme d’orthogonalisation de Gram-Schmidt décrit ci-dessus est un cas particulier d’un algorithme d’apprentissage de modèles
linéaires, décrit plus loin dans la section « Moindres carrés par orthogonalisation de Gram-Schmidt »
Exemple important x2
Pour illustrer l’importance de considérer les variables secondaires, et de ne pas se limiter aux varia-
1 2
bles primaires, considérons un problème simple de classification, illustré sur la figure 1-24.
On dispose de quatre exemples, appartenant à deux classes : la classe A, représentée par des croix,
o +
à laquelle on affecte l’étiquettep =y +1, et la classe B, représentée par des cercles, à laquelle on
affecte l’étiquettepy= –1. Considérons comme variables candidates les variables primaires1 = x1z
, z2
3 4 x1
= x2, ainsi que la variable secondaire3 z= x1 x2. Dans l’espace des observations, de dimension 4, les
vecteurs représentatifs des variables candidates sont (les numéros des observations sont indiqués + o
sur la figure 1-24)
⎛−1⎞ ⎛+1⎞⎞ ⎛−1⎞ Figure 1-24.
⎜+1⎟ ⎜+1⎟ ⎜+1⎟ Exemple illustrant
z 1 = ⎜ ⎟ ; z 2 = ⎜ ⎟ ; z3 = ⎜ ⎟ l’importance des variables
⎜−1⎟ ⎜−1⎟ ⎜+1⎟ secondaires
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝+1⎠ ⎝−1⎠ ⎝−1⎠
En revanche, le coefficient de corrélation entre 3 etzy vaut 1. Par conséquent, la variable secondaire
p
1x2xdétermine entièrement le
modèle, alors que les variables primaires sont complètement inopérantes pour résoudre ce problème de classification (connu sous le nom
de « problème du OU exclusif » ou « problème du XOR ») avec des modèles linéaires en leurs paramètres. Le modèle g1(xx2 , w) = x
sépare complètement les exemples disponibles puisque sgn(g(x, w)) = +1 pour les exemples de la classe A et sgn(g(x, w)) = – 1 pour ceux
de la classe B. Il faut néanmoins remarquer que le problème peut être résolu avec comme variables
1 et x2 si
x l’on met en œuvre des modè-
les non linéaires en leurs paramètres, des réseaux de neurones par exemple.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 61/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
42
Cette procédure est risquée : en effet, la décision de rejet est fondée sur le classement d’un seul vecteur
représentatif de la variable sonde, donc d’une seule réalisation de ce vecteur aléatoire. Si l’on procédait à
un autre tirage des valeurs de la variable sonde, on obtiendrait très probablement un autre rang, dans le
classement, pour cette variable : on prendrait donc une autre décision de rejet. En d’autres termes, le rang
de la variable sonde est lui-même une variable aléatoire, dont la distribution de probabilité est une estima-
tion de la distribution de probabilité du rang des variables non pertinentes.
■ Présentation rigoureuse
Cette dernière remarque renvoie à la condition de rejet établie dans la section « Cadre théorique » : une
variable candidate i est rejetée si
Pr ( r ( i, N ) > ε ) < δ
où r(i, N) est l’indice de pertinence de la variable i, estimé à partir de N observations. Dans le cadre de la
méthode de la variable sonde, l’indice de pertinence est le rang ρ(i, N) de la variable candidate i ; la
variable i est donc d’autant plus pertinente que son rang est petit. L’équation précédente s’écrit alors :
où ρ 0 est le rang au-delà duquel les variables candidates doivent être rejetées. Or on souhaite que toutes
les réalisations de la variable sonde soient rejetées ; l’application de la relation précédente aux variables
sondes s’écrit donc :
Pr ( ρ S < ρ 0 ) < δ
0,1
du rang des variables
0,7
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 62/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
43
CHAPITRE 1
dure ne contrôle pas le risque de rejeter d’éventuelles variables pertinentes qui seraient classées au-delà
du rang 15 (« risque de deuxième espèce ») ; on verra, dans la section intitulée « Limitations de la
méthode », qu’il est néanmoins possible d’estimer ce risque, sans toutefois le contrôler.
En pratique, deux techniques sont utilisables pour engendrer les réalisations de la variable sonde :
• mélanger aléatoirement les observations des variables candidates ;
• tirer des nombres aléatoires dans une distribution de moyenne nulle et de variance 1, puisque les varia-
bles candidates ont été préalablement normalisées et centrées, comme indiqué plus haut dans la section
« Prétraitement des données ».
Si les variables candidates obéissent à une distribution gaussienne, on peut légitimement considérer que
la variable sonde est gaussienne. Alors, la probabilité cumulée du rang de la variable sonde peut être
calculée analytiquement [STOPPIGLIA 2003], de sorte qu’il est inutile d’engendrer des réalisations de la
variable sonde. On procède de la manière suivante : à chaque étape du classement par la méthode de
Gram-Schmidt, on calcule la probabilité cumulée du rang de la variable sonde, et, lorsque celle-ci atteint
la valeur δ choisie, on arrête le processus.
Si les variables n’obéissent pas à une distribution gaussienne, on estime la probabilité cumulée du rang de
la variable sonde. Pour cela, on engendre un grand nombre de réalisations de la variable sonde, et l’on
procède à l’orthogonalisation de Gram-Schmidt. Chaque fois qu’une réalisation de la variable sonde est
rencontrée, on en prend note et l’on enlève cette variable du classement : on obtient ainsi une estimation
empirique de la probabilité cumulée du rang de la variable sonde. Comme dans le cas précédent, on arrête
le processus lorsque l’estimation de la probabilité cumulée atteint la valeurδ fixée à l’avance.
La figure 1-26 illustre cette approche à l’aide d’un 1 X
0,8
du rang de la variable sonde
Calculée
d’un ensemble de 15 observations, on cherche à 0,6
X
X
Limitations de la méthode
La principale limitation de la méthode de la variable sonde résulte de l’utilisation de l’algorithme de
Gram-Schmidt, qui exige que le nombre de variables sélectionnées soit supérieur au nombre d’exemples.
Il convient de noter que cette limitation porte sur le nombre de variablessélectionnées, et non sur le
nombre de variables candidates : à l’aide de la méthode de la variable sonde, on peut traiter des problèmes
où le nombre de variables candidates est très supérieur au nombre d’exemples.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 63/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
44
D’autre part, la méthode contrôle directement le risque de faux positif, c’est-à-dire le risque de conserver
une variable alors qu’elle n’est pas pertinente. Elle ne contrôle pas directement le risque de faux négatif,
c’est-à-dire le risque de rejeter une variable alors qu’elle est pertinente. Néanmoins, il est possible de
conserver également un contrôle sur ce phénomène en estimant le « taux de fausse découverte » (false
discovery rate ou FDR), comme décrit dans [D REYFUS 2006].
On observe que le taux d’erreur de classification moyen (en moyenne sur les 100 bases de données),
obtenu par un classifieur construit avec les descripteurs sélectionnés, est très voisin du taux d’erreur de
classification obtenu par un classifieur établi avec les vraies variables. Un test d’hypothèse (voir la
dernière section de ce chapitre) accepte l’hypothèse que la différence entre les taux d’erreurs moyens est
inférieur à 0,125, c’est à dire à une erreur sur 800 ; en d’autres termes, la différence observée entre les taux
d’erreurs des deux classifieurs n’est pas significative, puisque chaque base de données comprend
800 exemples d’apprentissage. Cela signifie que, lorsque la méthode n’a trouvé qu’une des deux vraies
variables, l’autre variable sélectionnée permettait de discriminer les exemples de manière aussi précise
que la vraie variable qui n’a pas été découverte. Les résultats sont semblables sur les bases de test.
À titre de comparaison, les taux d’erreurs sont d’environ 45 % si les deux variables sont choisies aléatoi-
rement, et de 30 % si une des vraies variables est utilisée, l’autre variable étant choisie aléatoirement. Si
l’on utilise un risque de 1% (δ = 0,1), les trois premières variables du classement sont sélectionnées, ce
qui ne dégrade pas les résultats de manière significative [STOPPIGLIA 2003].
■ Exemple 2
On construit 100 bases de données de 100 exemples tirés de distributions gaussiennes à deux variables x1
et x2 , les centres étant dans les positions du problème du XOR (figure 1-24) ; 50 variables aléatoires non
pertinentes sont ajoutées à l’ensemble des variables candidates. On utilise cette fois, outre les variables
primaires, les monômes du second degré de celles-ci, ce qui produit en tout 1 326 variables candidates
dont 52 variables indépendantes. Comme indiqué plus haut, la seule variable pertinente pour résoudre ce
problème est le produit x1x2 ; avec un risque de 1%, c’est effectivement la seule variable sélectionnée.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 64/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
45
CHAPITRE 1
EY p = wp ⋅ z.
Nous cherchons à construire un modèle g, à partir d’un ensemble de N mesures {ykp , k = 1 à N} qui cons-
tituent un ensemble de réalisations de la variable aléatoireY p ; nous désignons par yp le vecteur, de dimen-
sion N, dont les composantes sont les ykp . Ce modèle dépend de l’ensemble des mesures utilisées pour sa
construction : il est donc lui-même une réalisation d’une variable aléatoireG.
Supposons que l’on ait déterminé un ensemble de Q variables qui contient certainement les variables
mesurables pertinentes pour la grandeur à modéliser. Un modèle contenant toutes les variables mesurables
pertinentes est appelé modèle complet. On cherche alors un modèle de la forme
GQ = WQ ⋅ zQ
où zQ est le vecteur des variables du modèle (de dimension Q+1 puisque, outre les variables pertinentes,
le vecteur des variables contient une composante constante égale à 1) et oùW est un vecteur aléatoire qui
dépend de la réalisation du vecteurYp utilisée pour la construction du modèle. Rappelons que l’on dit que
ce modèle complet estvrai, pour indiquer qu’il existe certainement une réalisation wp du vecteur aléatoire
W telle que gQ = EY p .
Supposons que l’apprentissage soit effectué par minimisation de la fonction de coût des moindres carrés
N
( ) ( y − g ( z, w) ) ,
2 2
J ( w) = ∑ ykp − gQ ( zk , w) = p
Q
k =1
où w désigne une réalisation du vecteur des paramètres W, zk est le vecteur des Q+1 variables pour
l’exemple k, et où gQ (z, w) est le vecteur des valeurs des réalisations de GQ pour les N mesures effectuées.
Soit wQ le vecteur des paramètres pour lequel la fonction de coût J est minimum. Le modèle obtenu est
mc Q Q
donc de la forme gQ = wmc ⋅ z, et l’on peut définir le vecteur gQ = Zwmc , où :
• gQ est le vecteur dont les N composantes sont les prédictions du modèle pour chacune des N mesures
effectuées ;
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 65/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
46
• Z est une matrice (dite matrice des observations) dont la colonne i (i = 1 à Q+1) est le vecteur zi dont les
composantes sont les N mesures de la variable numéro i : la matrice Z a donc N lignes et Q+1 colonnes :
⎛ ⎞
⎜ z 11 … z1, Q + 1 ⎟
⎜z O z2, Q + 1 ⎟
Z = ⎜ 21 ⎟
⎜ M O M ⎟
⎜ ⎟
⎝ zN , 1 … zN , Q + 1 ⎠
On se pose la question suivante : les Q variables du modèle complet sont-elles toutes pertinentes ? Pour
répondre à cette question, on remarque que, si une variable n’est pas pertinente, le paramètre correspon-
dant du modèle complet doit être égal à zéro. On appelle sous-modèle du modèle complet un modèle
obtenu en mettant à zéro un ou plusieurs paramètres du modèle complet. Pour répondre à la question
posée, il faut donc comparer le modèle complet à tous ses sous-modèles. Considérons un de ceux-ci, par
exemple le modèle dont le vecteur w a ses q dernières composantes (numérotées de Q-q+2 à Q+1) égales
à zéro : gQ −q = Zwmc
Q− q
, où wQmc− q est le vecteur de paramètres obtenus en minimisant la fonction de coût des
( )
2
moindres carrés J (w) = yp − gQ −q ( z, w) sous la contrainte que les q dernières composantes du vecteur
des paramètres soient nulles. On veut tester l’hypothèse nulle H0 : les q derniers paramètres du vecteur
aléatoireW sont nuls. Si cette hypothèse est vraie, la variable aléatoire
p p 2 2 2
N − Q − 1 Y − GQ− q − Y − GQ N − Q − 1 GQ − GQ- q
U = 2
= 2
q p
Y − GQ q p
Y − GQ
Supposons que l’on dispose d’une très grande quantité de mesures ; si l’hypothèse nulle est vraie, le
numérateur de U est très petit car le procédé de minimisation de la fonction de coût donne des valeurs
nulles aux q paramètres « inutiles » du modèle complet, donc gQ et gQ-q sont très voisins. Si l’hypothèse
nulle est fausse, les deux modèles ne peuvent pas être très voisins, même si le nombre de mesures est très
grand, puisque le sous-modèle est trop pauvre pour rendre compte des données expérimentales. On
comprend ainsi que la valeur de la réalisation deU doit être petite si l’hypothèse nulle est vraie.
Le test de Fisher consiste donc à choisir un risqueα , et à trouver, en inversant la distribution de probabilité
cumulée de Fisher, la valeur uα telle que Pr(u < u α ) = α . On calcule alors la quantité u (réalisation de la
variable U avec les mesures disponibles) :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 66/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
47
CHAPITRE 1
( ) ( )
2 2
Q− q
N − Q −1 y − gQ − q z, wmc − yp − gQ z, wmc
p Q
u=
( )
2
q p Q
y − g Q z, wmc
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 67/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
48
Si l’on n’est pas sûr que la valeur de δ choisie pour effectuer cette procédure est optimale, on peut ajouter
une boucle extérieure portant sur différentes valeurs de δ.
Cette stratégie est applicable à toute méthode de sélection de variables fondée sur un classement des varia-
bles par ordre de pertinence.
Rappelons qu’il existe un grand nombre de méthodes de sélection de variables. La méthode de la variable
sonde, décrite ici, a été présentée car elle est simple et robuste ; elle a été validée sur une grande variété
d’applications ; néanmoins, il n’y a pas de méthode miracle, et dans certains cas, d’autres méthodes
peuvent se révéler plus efficaces. Une synthèse très complète des méthodes modernes de sélection de
variables est présentée dans l’ouvrage [GUYON 2006].
où les fonctions fi(x) sont des fonctions non paramétrées des variables (composantes du vecteur x), dites
variables primaires. Ces fonctions peuvent être considérées comme des variables secondaires zi, de sorte
que l’on écrira de manière générale un modèle linéaire en ses paramètres sous la forme
p
g (z ,w ) = ∑w i z i
i= 1
où les variables z i peuvent être soit les variables primaires elles-mêmes, soit des variables secondaires
déduites des variables primaires par une transformation non paramétrée (ou à paramètres fixés). On écrira
aussi un tel modèle sous la forme
g (z ,w ) = w ⋅ z
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 68/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
49
CHAPITRE 1
de sorte que l’on cherche les paramètres pour lesquels la fonction de coût des moindres carrésJ(w) est
minimum :
NA
(
J ( w) = ∑ ykp − g ( zk , w) ) 2
k =1
où NA est le nombre d’exemples de l’ensemble d’apprentissage, z k est le vecteur des variables pour
l’exemple k, et ypk est la valeur de la grandeur à modéliser pour l’exemple k.
Dans la section intitulée « Variable sonde et test de Fisher », on a défini la matrice des observationsZ, qui
est une matrice à N lignes et p colonnes, dont l’élément zij est la valeur prise par la variable numéro j du
modèle pour l’exemple i de l’ensemble d’apprentissage :
⎛ z ⎞
⎜ 11 … z 1, p ⎟
⎜ z O z2, p ⎟.
Z = ⎜ 21 ⎟
⎜ M O M ⎟
⎜ ⎟
⎝ zN , 1 … z N, p ⎠
où yp est le vecteur dont les N composantes sont les valeurs de la grandeur à mesurer pour chacun des N
exemples, et g(z, w) est le vecteur dont les N composantes sont les prédictions du modèle pour chacun des
exemples. Le vecteur wmc est le vecteur pour lequel la fonction de coût est minimum :
⎛dJ ( w) ⎞
∇w J = ⎜ = 0,
⎝ dw ⎟ ⎠w= wmc
qui représente un ensemble de p équations, dont les p inconnues sont les paramètres wi , i = 1 à p. Comme
la fonction J(w) est quadratique en fonction des wi, sa dérivée par rapport à wi est linéaire : il s’agit donc
d’un système linéaire dep équations à p inconnues, appelées équations canoniques.
On montre facilement que cette équation s’écrit
(
∇ w J = −2 Z T y p − Zwmc = 0 )
où Z T désigne la transposée de la matrice Z, soit encore
T
(
wmc = Z Z )
−1
T p
Z y .
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 69/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
50
Exemple 70
r 2 = 0,89
Considérons un modèle affine à une variable (p = 2) comme 60 w mc1 = - 0,3
w mc2 = 5,9
représenté sur la figure 1-27 :
50
yp
tions d’une variable aléatoire gaussienne de moyenne nulle et 20
Fonction de régression
d’écart-type égal à 3. Rappelons que, dans un problème réaliste, y=2+5x
10
la fonction de régression est inconnue : l’objectif de l’apprentis-
sage est de trouver un modèle qui soit aussi proche que possible 0
⎛1 x1 ⎞ -20
⎜ ⎟ -2 0 2 4 6 8 10
X =⎜
La matrice des observations vaut 1 x 2 ⎟ , où
⎟ xi désigne
x
⎜ Figure 1-27. Points expérimentaux et modèle obtenu par
⎜ M M⎟
⎝ 1 xN ⎠ la méthode des moindres carrés ; la somme des carrés des
longueurs des segments en pointillés est minimale ;
la valeur prise par pour l’observation
i de la variable x. On a alors : le coefficient de corrélation r 2 est défini ci-dessous, dans
N la section « Estimation de la qualité de l’apprentissage ».
⎛ ⎞
⎜ N ∑x ⎟ k
k =1
X X =⎜ N ⎟.
T
⎜ N
2⎟
⎜∑ xk
⎝k =1
∑( xk ) ⎟
⎠
k= 1
( )
−1
wmc = XT X
Par application de la relation XT py , on trouve les paramètres du modèle affine :
N N N
N∑ xk yk − ∑ xk ∑ yk
p p
p p
xy − x y
wmc2 = k=1 k =1 k =1
2
=
2 2
N
⎛N ⎞ x − x
N ∑ ( xk ) − ⎜∑ xk ⎟
2
k =1
⎝k =1 ⎠
1 N p 1 N
wmc1 = ∑ y k −w mc 2 N ∑ xk = yp − wmc2
N k= 1
x
k =1
Remarque 1
La droite des moindres carrés passe par le centre de gravité des mesures.
En effet :g ( x ,w) = wmc 1 + wmc 2 x = yp − wmc 2 x+ wmc 2 x= py .
Remarque 2
p
xy
Si les données sont centrées (x = yp = 0 ), la droite des moindres carrés passe par l’originemc1
car=w0. De plus :wmc 2 =
2
x
1 N
Si, de plus, les données sont normalisées, on a en outre∑ (x − x ) = 1=
2 p
x
2
wmc2 = xy
, par conséquent .
N k= 1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 70/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
51
CHAPITRE 1
Propriété
Le vecteur des paramètres w mc trouvés par la méthode des moindres carrés est un estimateur non
biaisé des paramètres w p de la fonction de régression.
Démonstration
( ) (=Z Z) ( )
−1 −1 −1
On a vu plus haut quew mc = Z T Z Z y . Par conséquent E: w mc
T p T
ZTE p = ZT Z
Y
ZT ZW
p
= W
p
, ce qui prouve la
propriété.
Théorème de Gauss-Markov
Théorème
Les paramètres des modèles obtenus par minimisation de la fonction de coût des moindres carrés sont
les paramètres de variance minimum.
Ainsi, dans la mesure où c’est l’augmentation de la variance qui produit le surajustement, la minimisation
de la fonction de coût des moindres carrés permet de limiter le phénomène (sans toutefois le supprimer,
bien entendu). L’expression de la variance des paramètres est établie plus loin, dans la section « Variance
des paramètres d’un modèle linéaire ».
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 71/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
52
0,14 0,14
0,12 0,12
0,10 0,10
mc1
mc2
0,08
Fréquence de w
Fréquence de w
0,08
0,06 0,06
0,04 0,04
0,02 0,02
0 0
1,5 2 2,5 4,5 5 5,5
w mc1 w mc2
Figure 1-28. Distributions des paramètres d’un modèle linéaire avec bruit gaussien
∑( g (x ,w ) − g ( x ,w ) ) ( y
mc mc
p
− yp )
k =1
r= N N
(N >> 1) .
∑( g( x, w ) − g ( x ,w ) ) ∑ (y )
2 2
p
mc mc − yp
k =1 k=1
Pour juger de la qualité du modèle, on utilise lecoefficient de détermination, dont on démontre qu’il est
une réalisation du carré du coefficient de corrélation entre les prédictions du modèle et les observations :
N
2
∑ (g( xk, w mc) – 〈y p 〉 )
2
r = k--------------------------------------------------------
=1
N
-.
2
∑ ( ypk – 〈 y p〉 )
k=1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 72/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
53
CHAPITRE 1
r2 =
( xy p ) 2
.
x 2
(y ) p 2
Remarque
On retrouve ici la formule du carré du coefficient de corrélation introduit comme critère de pertinence dans la section « Sélection de
variables » ; on trouve également dans cette section l’interprétation géométrique de ce coefficient.
Pour juger « visuellement » de la qualité d’un modèle, il est très commode d’utiliser son diagramme de
dispersion, qui présente les valeurs prédites par le modèle en fonction des valeurs expérimentales
correspondantes : les points de ce diagramme sont d’autant plus proches de la première bissectrice que la
qualité de l’apprentissage est meilleure.
Remarque très importante
Rappelons qu’un apprentissage de très bonne qualité ne signifie pas que le modèle obtenu soit capable de généraliser correctement : un
modèle qui a parfaitement appris les données d’apprentissage peut être surajusté, donc généraliser très mal. Il faut ainsi considérer le
diagramme de dispersion sur les données d’apprentissage pour juger de la qualité de l’apprentissage, mais également le diagramme de
dispersion sur des données non utilisées pour l’apprentissage, afin d’estimer la capacité de généralisation du modèle.
Interprétation géométrique 50
Prédictions du modèle
p 10
g ( z ,w) = ∑ w iz i = w ⋅ z
i =1 0
-20
(
wmc = Z TZ ) −1
Z Ty
p -20 0 20
Mesures
40 60 80
où Z est la matrice des observations. Par conséquent, Figure 1-29. Diagramme de dispersion pour les données
représentées sur la Figure 1-27.
le vecteur g(z, wmc) des prédictions du modèle sur
l’ensemble d’apprentissage est donné par
(
g ( z ,wmc ) = Zwmc = Z Z Z
T
) −1
T
Z y
p
Or la matrice Z ( Z Z )
−1
T T
Z (de dimensions N, N) n’est autre que la matrice de projection orthogonale sur
les vecteurs colonnes de la matrice Z. Le vecteur des prédictions du modèle sur l’ensemble d’apprentis-
sage est donc la projection orthogonale du vecteur yp sur le sous-espace de l’espace des observations
défini par les vecteurs colonnes de la matrice des observations Z. Ce dernier sous-espace est appelé
« espace des estimations ».
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 73/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
54
Remarque
( )
−1
La matrice Z ZT Z ZT est souvent appelée « matrice chapeau » et notée H. En effet, le vecteur des estimations effectuées par le
modèle à partir des observations y est souvent noté
ŷ ŷ = Hy
, donc : la matrice H est la matrice qui « met un chapeau » sur y.
⎝z ⎠
notés u et v respectivement. Le vecteur des 3
prédictions du modèle pour l’ensemble Figure 1-30. Méthode des moindres carrés : interprétation
d’apprentissage, ou vecteur des estimations, géométrique
est la projection orthogonale du vecteur des
observations yp sur le sous-espace des estimations. Le vecteur des différences entre les mesures et les prédic-
tions sur l’ensemble d’apprentissage est appelé vecteur des résidus. Le carré de son module est donc la somme
des carrés des erreurs sur les éléments de l’ensemble d’apprentissage. De tous les vecteurs qui joignent l’extré-
mité de yp à un point du sous-espace des estimations, c’est celui qui a le plus petit module.
où Z est la matrice des observations. Si l’on considère que les observations sont des réalisations de varia-
bles aléatoires, le vecteur des paramètres est lui-même une réalisation d’un vecteur aléatoire
( ) −1
Wmc = Z Z Z Y . Si les mesures de y p sont indépendantes et de même variance σ 2, la variance du
T T p
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 74/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
55
CHAPITRE 1
Démonstration
D’après la propriété rappelée ci-dessous dans la section « variance d’un vecteur aléatoire », on a :
(( Z Z) Z) = ( Z Z) Z(( Z Z) Z ) σ
T T
( )
−1 −1 −1 −1
2
varWmc = ZT Z T
Z varYp
T T T T T T
= ( Z Z) ( ) ( )
−1 −1 −1
2 2
T
ZT Z ZT Z σ = ZT Z σ
( )
D’autre part : E z zT z = E z ⎜∑ z 2k ⎟= ∑ E z z 2k = ∑ E z z k
⎝ ⎠ k= 1 k= 1
( )
k= 1
( ( )) + ∑var 2
k =1
zk
. Les données étant supposées
normalisées et centrées, le premier terme de la somme est nul, et le second est égal àp. Il reste donc :
p
Ez ⎡⎣ var ⎡⎣ G( z ,W )⎤⎦ ⎤⎦ = .
N
Ainsi, on retrouve le fait que, lorsque l’on 0,22
0,16
variance augmente. La figure 1-31 montre l’évolu-
0,14 Pente 1/100
tion de la variance en fonction du nombre de para-
mètres, pour l’exemple décrit dans la section « Un 0,12
par une moyenne sur 1 000 points de test. On Figure 1-31. Variance d’un modèle polynomial
observe que la variance augmente linéairement en fonction du degré du polynôme (N = 100, p = 2 à 21)
avec le nombre de paramètres, la pente de la droite
valant 1/N, conformément à la relation démontrée ci-dessus.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 75/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
56
Remarque
Dans l’exemple décrit par la figure 1-11, la variance (représentée par le symbole x) ne varie pas linéairement avec le degré du polynôme. Ceci
est dû au fait que l’expression de la variance que l’on vient d’établir est vraie dans la limite des très grands ensembles d’apprentissage (N infini)
pour N = 100 cette relation est raisonnablement bien vérifiée (figure 1-31) mais ce n’est pas le cas si N vaut seulement 15 (figure 1-11).
Dans le cas de modèles linéaires, il est possible de calculer ce score de manière exacte, en effectuant un
seul apprentissage avec toutes les données disponibles.
k =1
Si l’on effectue l’apprentissage avec les N exemples disponibles, le paramètre wmc vaut alors :
N
∑z y p
k k
( )
−1
p k =1
w mc = ZT Z ZT y = N .
∑z 2
k
k=1
Supposons que l’on retire l’exemple i de l’ensemble des données disponibles, et que l’on effectue
l’apprentissage avec tous les autres exemples. Le paramètre du modèle devient :
N
∑z y k k
p N
∑z y p
− z i y ip
k =1 k k
−i k ≠i k =1
w mc = N
= N
.
∑z 2
k ∑z 2
k
k =1 k =1
k ≠i k ≠i
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 76/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
57
CHAPITRE 1
L’influence du retrait de l’exemple i sur le modèle se traduit donc par la variation de son unique
paramètre :
N N
−i
∑z y p
k k − zi yip ∑z y p
k k
ri
k= 1 k= 1
w − wmc =
mc N − N = −zi N
∑z 2
k ∑z 2
k ∑z 2
k
k =1 k =1 k =1
k ≠i k ≠i
où ri est le résidu (erreur de modélisation) sur l’exemple i lorsque celui-ci est dans l’ensemble
d’apprentissage :
N
∑z y k k
p
ri = yi p − wmc zi = yi p − k=1
N
zi .
∑z 2
k
k =1
Montrons à présent que l’on peut calculer l’erreur ri–i commise lorsque l’exemple i a été retiré de
l’ensemble d’apprentissage en fonction de ri :
ri ri
(
ri−i − ri = − wmc
−i
)
− w mc z i = zi2 N = zi2 N
,
∑ z2k ∑ z 2k − z 2i
k =1 k =1
k ≠i
et par conséquent :
ri z2
ri−i = avec hii = N i .
1 − h ii
∑ z 2k
k =1
Cette relation rend donc inutile la réalisation de N apprentissages successifs, puisque l’on peut calculer
exactement l’erreur de modélisation qui aurait été commise sur l’exemplei si celui-ci avait été retiré de
l’ensemble d’apprentissage.
La quantité h ii est appelée levier de l’exemple i, compris entre 0 et 1. Elle est présentée de manière plus
détaillée dans la section suivante.
À partir de cette relation, on peut définir le PRESS (Predicted REsidual Sum of Squares)Ep, par analogie
avec le score de leave-one-out E t :
2
1 N ⎛ ri ⎞ .
Ep = ∑ ⎝1 − h ⎟
N k =1 ⎜ ii ⎠
Dans le chapitre 2, une extension de ces résultats aux modèles non linéaires sera présentée sous le nom de
« leave-one-out virtuel ».
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 77/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
58
Les leviers
Ce résultat peut être étendu au cas où le modèle possède p paramètres. Le levier de l’exemple i est alors
l’élément diagonal i de la matrice chapeau
( )
−1
T T
H= Z Z Z Z .
Cette matrice étant une matrice de projection orthogonale, les leviers possèdent les propriétés suivantes
(aisément vérifiées sur l’expression des leviers dans le cas d’un modèle à un seul paramètre, présenté dans
la section précédente) :
N
0 < hii < 1 ; ∑h ii = p.
i =1
Cette dernière relation fournit une interprétation intéressante des leviers :le levier de l’exemple i est la
proportion des paramètres qui est utilisée pour modéliser l’exemple i. Ainsi, un exemple qui possède un
grand levier a une grande importance pour le modèle : en d’autres termes, le modèle est très sensible au
bruit présent sur la mesure de yp pour l’exemple i. Il y a un risque de surajustement à l’exemple i.
Cet effet est illustré sur la figure 1-32.
1 + 1 +
(a) (b)
0,6 0,6
0,2 + 0,2
+ +
- 0,2 - 0,2
+
- 0,6
+ - 0,6
+
-1 -1
-1 - 0,6 - 0,2 x0,2 0,6 1 -1 - 0,6 - 0,2 x0,2 0,6 1
1 +
(c)
Leviers = 0,495
0,6
0,2 +
+
- 0,2 Leviers = 0,005
+
- 0,6
-1
-1 - 0,6 - 0,2 x0,2 0,6 1
Figure 1-32. Interprétation des leviers
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 78/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
59
CHAPITRE 1
On dispose de 4 points expérimentaux, et l’on postule un modèle à un paramètre. La figure (a) montre le
modèle linéaire ainsi obtenu. Supposons qu’une autre mesure effectuée en x = − 0,1 donne un résultat
différent, comme indiqué sur la figure (b) ; on obtient alors le modèle représenté en trait plein, très peu
différent du modèle précédent, représenté en pointillé. Supposons en revanche que ce soit le point en
x = − 1 qui soit affecté (figure (c)). On obtient alors le modèle représenté en trait plein, très différent du
modèle initial. On observe ainsi que le point situé enx = − 1 a beaucoup plus d’influence sur le modèle
que le point situé en x = − 0,1. Ceci se traduit par des leviers de valeurs très différentes, dans un facteur à
peu près égal à 100 : les points situés enx = − 1 et x = 1 sont 100 fois plus importants pour le modèle que
les points situés en x = − 0,1 et x = + 0,1. Les expériences qui ont été effectuées pour obtenir ces deux
résultats étaient donc à peu près inutiles : il aurait été plus profitable de répéter les mesures enx = − 1 et x = +
1, afin de « moyenner » le bruit en ces points. On note que, conformément à ce qui a été indiqué plus haut,
la somme des leviers est égale à 1, qui est le nombre de paramètres du modèle postulé.
Cette illustration numérique met en lumière l’intérêt des plans d’expériences, qui permettent de choisir
les mesures les plus judicieuses pour établir un modèle prédictif précis.
On considère l’espace des observations, de dimension N, dans lequel la grandeur à modéliser est repré-
sentée par un vecteur yp , et chacune des variables est représentée par un vecteur zi, i = 1 à p ; rappelons
que p est le nombre de paramètres du modèle et que N est le nombre d’observations de l’ensemble
d’apprentissage. L’algorithme est une application simple du théorème des trois perpendiculaires :
• choisir une variable i représentée par le vecteur zi ;
yp ⋅ zi
• projeter yp sur la direction de zi , ce qui fournit le paramètre wmci de la variable i : w mci = ;
zi
• projeter le vecteur des résidus ri = yp − w mci zi , le vecteur yp, et tous les vecteurs zji sur le sous-espace
orthogonal à zi ;
• projeter la projection de y p sur la projection d’un deuxième vecteur zj, ce qui fournit un deuxième para-
mètre du modèle ;
• itérer jusqu’à épuisement des variables du modèle.
La figure 1-33 présente l’algorithme dans le cas N = 3, p = 2. Les prédictions du modèle pour l’ensemble
d’apprentissage sont représentées par g(z, w), projection orthogonale de yp sur l’espace des estimations,
qui est donc une combinaison linéaire de z1 et z2. On peut obtenir ce vecteur en projetant d’abord sur un
des vecteurs des variables (iciz1), puis en projetant orthogonalement r1 et z2 sur le sous-espace orthogonal
à z1. Ce résultat s’obtient par application répétée du théorème des trois perpendiculaires.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 79/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
60
Définition
Soit pY(y) la densité de probabilité d’une variable aléatoire Y : la probabilité pour que la valeur d’une
réalisation de Y soit comprise entre y et y+dy vaut pY(y)dy.
Ainsi, si l’on traite une grandeur mesurable comme une variable aléatoire, on fait comme si le résultat de
la mesure de cette grandeur était le résultat d’un tirage au sort dans un ensemble de valeurs possibles de
y, avec la distribution (généralement inconnue) pY(y). Utiliser une variable aléatoire pour modéliser le
résultat d’une mesure ne signifie pas du tout que l’on considère la grandeur mesurée comme régie par des
lois non déterministes : la variable aléatoire est un outil mathématique, dont l’utilisation est très commode
lorsque les facteurs qui déterminent le résultat de la mesure ne sont pas connus, ou sont connus mais non
maîtrisés ni mesurés.
Ainsi, le lancer d’un dé est un phénomène parfaitement déterministe, qui obéit à toutes les lois de la
physique : si l’on connaissait la position initiale de la main du joueur, si l’on pouvait mesurer la vitesse
initiale du dé, et si l’on connaissait les caractéristiques mécaniques de la matière dont sont constitués le
dé et la table sur laquelle on le lance, on pourrait prédire exactement le résultat du lancer. Dans la pratique,
comme toutes ces grandeurs ne sont pas connues et pas mesurées, il est commode demodéliser ce résultat
comme la réalisation d’une variable aléatoire. Dans ce cas particulier, cette variableY est une variable
discrète, qui ne peut prendre que 6 valeurs, et, pour un dé non pipé, la probabilité de réalisation de
chacune de ces valeurs est égale à 1/6.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 80/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
61
CHAPITRE 1
De même, les méthodes statistiques sont susceptibles de prévoir les résultats d’une élection, alors que
chaque citoyen ne vote pas au hasard, mais en fonction de ses convictions.
Propriété
Remarque
Toute réalisation y de la variable aléatoire Y étant comprise entre – ∞ et + ∞, on a évidemment
+∞
FY ( −∞) = 0 , FY (+∞ ) = 1 et ∫ p Y ( y ) dy = 1.
-∞
Variable certaine
Une variable certaine de valeur y0 est une variable aléatoire dont la densité de probabilité est une
distribution de Dirac δ ( y − y0 ).
0,2
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 81/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
62
Deux variables aléatoires X et Y sont indépendantes si la probabilité de réalisation d’une des variables
est indépendante de la probabilité de réalisation de l’autre. On a donc p X ,Y ( x, y ) = p X ( x ) pY ( y ).
p X ,Y (x , y ) = pY ( y x ) p X ( x ) = p X ( x y ) pY ( y)
Remarque :
Si les variables sont indépendantesp:Y (y x ) = pY ( y) et pX( x y) = pX ( x) .
Vecteur aléatoire
Un vecteur aléatoire est un vecteur dont les composantes sont des variables aléatoires.
Définition
+∞
L’espérance mathématique d’une variable aléatoire Y est EY = ∫ ypY ( y ) dy .
−∞
L’espérance mathématique d’une variable aléatoire est donc le premier moment de sa densité de probabi-
lité.
Propriétés
Il est facile de démontrer les propriétés suivantes :
• l’espérance mathématique d’une somme de variables aléatoires est la somme des espérances mathéma-
tiques des variables aléatoires ;
• l’espérance mathématique du produit de deux variables indépendantes est égale au produit de leurs
espérances mathématiques ;
• l’espérance mathématique d’une variable certaine de valeur y0 est égale à y0 ;
• si une variable Y obéit à une distribution uniforme sur un intervalle [a, b], son espérance mathématique
vaut (a+b)/2 ;
• si une variable Y suit une loi gaussienne de moyenne μ , son espérance mathématique vaut μ .
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 82/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
63
CHAPITRE 1
Comme nous l’avons vu dans la section « Éléments de la théorie de l’apprentissage », l’objectif de tout
apprentissage est d’obtenir une estimation fiable de l’espérance mathématique de la grandeur à modéliser.
À cet effet, il est utile d’introduire le concept d’estimateur.
Définition
Un estimateur H d’un paramètre de la distribution d’une variable aléatoire observable Y est dit « non
biaisé » si son espérance mathématique E H est égale à ce paramètre. Alors une réalisation de H
constitue une estimation non biaisée du paramètre de la distribution.
D’après la définition précédente, un estimateur d’une variable certaine est non biaisé si son espérance mathématique est égale la valeur
de la variable certaine.
Ainsi, chercher à estimer les paramètres w d’un modèle, c’est-à-dire faire l’apprentissage d’un modèle,
revient à chercher des estimateurs non biaisés des paramètres, ces derniers étant considérés comme des
variables certaines. C’est cette approche, dite fréquentiste, qui est décrite dans le présent ouvrage.
L’approche bayesienne qui considère les paramètres du modèle comme des variables aléatoires, permet
également d’obtenir d’excellents résultats, comme décrit par exemple dans [NEAL 1996] ; la description
de cette approche sort du cadre de cet ouvrage.
Il reste à évaluer la qualité de cette estimation : le fait qu’elle soit non biaisée ne garantit pas qu’elle soit
précise : sa précision dépend du nombre et de la « qualité » des mesures effectuées, c’est-à-dire de la
dispersion des mesures autour de l’espérance mathématique. Pour caractériser numériquement cette
dispersion, on utilise la notion devariance.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 83/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
64
Définition
Remarque
La variance est également l’espérance mathématique [de
Y − EY ] varY: = E
2
.
(Y − EY ) 2
Propriétés
• Une variable certaine a une variance nulle.
• varY = E Y 2 − ( EY ) .
2
• varaY = a 2 varY .
• Si une variable aléatoire obéit à une distribution uniforme sur un intervalle [a, b], sa variance vaut
(b–a)2 /12.
• Si une variable aléatoire obéit à une loi gaussienne d’écart-typeσ , sa variance vaut σ2.
1 N
∑ (Yi − M) est un estimateur non biaisé de la variance de Y.
2
La variable aléatoireS2 =
N −1 i= 1
Si l’on dispose de N résultats de mesures yi , il faut donc, pour estimer la variance, calculer d’abord la
N
1
valeur de la moyenne m =
N
∑y , i puis calculer l’estimation de la variance par la relation :
i =1
1 N
∑ ( yi − m) .
2
s2 =
N − 1 i=1
L’estimation de la variance permet donc d’évaluer, de manière quantitative, la dispersion des résultats des
mesures autour de leur moyenne. La moyenne étant elle-même une variable aléatoire, elle possède une
variance : on pourrait effectuer plusieurs séries de mesures, calculer la moyenne de chacune de ces séries,
puis estimer la variance de la moyenne, laquelle caractériserait la dispersion de l’estimation de la grandeur
à modéliser. Néanmoins, cette procédure est lourde puisqu’elle requiert que l’on effectue plusieurs séries
de mesures, dans des conditions supposées identiques.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 84/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
65
CHAPITRE 1
Remarque
On a vu plus haut que
varY = E .
(Y− EY )
2
La variance d’une variable aléatoire est donc la covariance de cette variable et d’elle-même.
⎛u ⎞
⎜ 1 ⎟
⎜ ⎟
Étant donné un vecteur aléatoire U = ⎜ u 2 ⎟, de dimension p, sa variance est la matrice (p, p) donnée
⎜M ⎟
⎜ ⎟
⎝ up ⎠
par :
Propriété
Loi de Student
Si Y1 est une variable de distribution normale, et si Y2 est une variable aléatoire, indépendante de Y1, obéis-
Y1
sant à une loi de Pearson àN degrés de liberté, alors la variable aléatoire Z = obéit à une loi de
Y2 / N
Student à N degrés de liberté.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 85/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
66
Loi de Fisher
Si Y1 est une variable aléatoire de Pearson à N1 degrés de liberté, et si Y 2 est une variable aléatoire de
Y / N1
Pearson à N 2 degrés de liberté, alors la variable aléatoire Z = 1 obéit à une loi de Fisher à N1 et N2
degrés de liberté. Y2 / N2
Intervalles de confiance
Dans les sections précédentes, nous avons vu que l’estimation d’une grandeur dépend à la fois du nombre
d’expériences et de la variabilité des observations. On peut combiner élégamment la taille de l’échantillon
et sa variabilité pour évaluer la différence qui peut exister entre l’estimation d’une grandeur et sa « vraie »
valeur.
Définition
Un intervalle de confiance, au seuil de confiance 1 – α , pour une variable aléatoire Y, est un intervalle
qui, avec une probabilité 1 – α , contient la valeur de l’espérance mathématique de Y.
En conséquence, plus l’intervalle de confiance est petit, plus on peut avoir confiance en l’estimation de la
grandeur à modéliser.
Ainsi, supposons que l’on ait réalisé 100 ensembles de mesures ; à partir de celles-ci, on peut calculer 100
moyennes, 100 estimations de la variance, et 100 intervalles de confiance à 95 % (α = 0,05). Alors, pour
95 % de ces ensembles de données, l’intervalle de confiance contient la moyenne ; on ne peut évidem-
ment pas garantir que, pour un ensemble particulier de mesures, la vraie valeur soit à l’intérieur de l’inter-
valle de confiance calculé à partir de cet ensemble de mesures.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 86/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
67
CHAPITRE 1
Il est facile de démontrer que la somme de N variables gaussiennes indépendantes est une variable gaus-
sienne dont la moyenne est la somme des moyennes, et dont la variance est la somme des variances. Ici
les distributions des N variables sont identiques, dont la moyenne est une gaussienne de moyenne Nμ et
de variance Nσ 2. Leur moyenne M obéit donc à une loi gaussienne de moyenne μ et de variance σ 2/N ; par
conséquent la variable aléatoire M − μ obéit à une loi normale (gaussienne de moyenne nulle et de
σ / N
variance unité).
Rappelons que l’on cherche à établir deux bornes pour l’espérance mathématiqueμ, qui doivent être de la
forme m ± a, où m est la moyenne des mesures et a le demi-intervalle de confiance. On peut prévoir que
l’intervalle de confiance croît avec la variance des mesures et décroît avec leur nombre.
1 N Comme2 indiqué
plus haut, l’estimateur non biaisé de la variance est la variable aléatoireS 2 = ∑(Yi − M ) . Il est
N − 1 i=σ12 ; les variables Y
commode de normaliser cette variable en la divisant par son espérance mathématique i
étant supposées gaussiennes, la variable aléatoire M est également gaussienne, donc (N – 1) S2/ σ2 est la
somme de N – 1 variables gaussiennes indépendantes (il n’y a que N – 1 variables indépendantes puisque
M dépend des Yi ) ; elle obéit donc à une loi de Pearson.
M μ
D’autre part, comme indiqué plus haut, la variable aléatoire − obéit à une loi normale.
σ/ N
M −μ
M −μ
Par conséquent, la variable aléatoire Z = σ / N = obéit à une loi de Student à N – 1 degrés
S2 /σ 2 S2 / N
de liberté. La distribution de Student étant symétrique, il suffit alors de chercher la valeur de z0 telle
qu’une variable de Student soit comprise entre –z0 et +z0 avec la probabilité 1 − α , soit encore telle qu’une
variable de Student soit comprise entre−∞ et z0 avec la probabilité α / 2. À partir des résultats expérimen-
taux, on peut calculer une réalisation m de M, une réalisation s de S, et une réalisation z de Z par les rela-
1 N 1 N m−μ
∑ yi , s = N − 1 ∑= ( yi − m) et z = s 2 / N . Avec une probabilité 1− α, l’estimation m de
2
tions m =
N i= 1 i 1
μ se trouve à l’intérieur de l’intervalle de confiance si z est dans l’intervalle [− z0 , + z0] :
m− μ
−z0 < < + z0
s2 / N
soit
m − z0 s 2 / N < μ < m + z 0 s2 / N .
L’intervalle de confiance recherché est donc l’intervalle centré sur l’estimation de la moyennem, et de
demi-largeur z 0 s 2 / N .
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 87/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
68
Variable de Student
1
Tests d’hypothèse
On a vu plus haut que des étapes importantes dans la conception d’un modèle par apprentissage artificiel,
telles que la sélection de variables ou la sélection de modèles, nécessitent de prendre des décisions (sélec-
tionner ou rejeter un modèle ou une variable) à partir des informations disponibles, qui sont généralement
en nombre limité. Il faut donc prendre ces décisions de manière raisonnée. Les tests d’hypothèse sont les
outils appropriés pour ce genre de situation. Ils permettent de faire une hypothèse et d’établir une des deux
conclusions suivantes, avec un risque d’erreur fixé :
• les données confirment cette hypothèse,
• le fait que les données semblent confirmer cette hypothèse est simplement le résultat d’un concours de
circonstances improbable, lié à la petite taille de l’échantillon et à la variabilité des mesures.
De nombreux tests d’hypothèses, adaptés à une grande variété de situations, ont été proposés (voir par
exemple [LEHMANN 1993]).
Le principe d’un test d’hypothèse est le suivant : pour tester la validité d’une hypothèse (appelée
« hypothèse nulle » et traditionnellement notée H 0), on cherche à établir l’expression d’une variable aléa-
toire qui suit une loi connue si l’hypothèse nulle est vraie, et dont on peut calculer une réalisation à partir
des données disponibles. Si la probabilité pour que cette réalisation se trouve dans un intervalle donné est
« trop faible », on considère que la probabilité pour que l’hypothèse nulle soit vraie est trop faible : on la
rejette donc.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 88/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
69
CHAPITRE 1
À titre de première illustration, supposons qu’un modèle prédise que la grandeur à modéliser, par exemple
l’unique paramètre d’un modèle constant a une certaine valeur 0. On dispose d’un ensemble de N obser-
,w si elles confirment l’hypothèse selon laquelle la grandeur a
vations de cette grandeur, et l’on veut savoir
pour « vraie » valeur w0 . Ces mesures sont modélisées comme des réalisations de N variables aléatoires Yi
supposées gaussiennes, d’espérance mathématique μ et de variance σ 2. L’hypothèse nulle est donc
H0 : w0 = μ, et l’hypothèse alternative est w0 ≠ μ.
Nous avons vu dans la section précédente que, si l’hypothèse nulle est vraie, c’est-à-dire siw 0 = μ, la
M − w0
variable aléatoire Z = , obéit à une loi de Student à N – 1 degrés de liberté (M est l’estimateur de
S2 / N
l’espérance mathématique, S2 est l’estimateur de la variance). À partir des N données disponibles, on peut
calculer une réalisation z de cette variable aléatoire. D’autre part on peut calculer la valeur z0 telle que la
probabilité pour qu’une réalisation de la variable aléatoire soit à l’extérieur de l’intervalle [–z0 , +z0 ] est
égale au risque choisi 1 − α . Si la réalisation observée z est à l’extérieur de cet intervalle, on peut consi-
dérer que les données ne confirment pas de manière significative l’hypothèseH 0 ; on rejette donc celle-ci,
avec un risque 1 − α de se tromper. En outre, il faut définir le niveau de risque d’erreur, noté 1 − α, que
l’on est disposé à admettre, l’erreur consistant à rejeter l’hypothèse nulle alors quelle est vraie (erreur de
type 1).
Supposons par exemple qu’une théorie prévoie qu’une grandeur vautw 0 = 1. Supposons que l’on dispose
de 100 mesures de cette grandeur, dont la moyennem vaut 2 et l’écart-type vaut s = 10 : ces mesures sont
donc très dispersées autour de la moyenne. On se pose la question : ces données confirment-elles l’hypo-
thèse selon laquelle w0 vaut 1 ? La réalisation de la variable aléatoire z vaut
m − w0
z= = 1.
s2 / N
En se reportant à la figure 1-35, on voit que z0 ≈ 2
(pour α = 0,95), de sorte que z est dans l’intervalle
[– z0 , +z0 ]. On accepte donc l’hypothèse nulle au
vu des données disponibles. À l’inverse, si les 5
1
ACCEPTATION
La « certitude » avec laquelle on accepte l’hypo- 0 DE L’HYPOTHÈSE NULLE
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 89/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
70
Notons que la p-valeur de z = 0 vaut 1, ce qui veut dire que l’on accepte l’hypothèse nulle avec la plus
grande certitude possible ; c’est naturel, puisque z = 0 correspond au cas où la moyenne est égale à la
valeur postulée de l’espérance mathématique.
Remarque
Dans ce cas particulier, le test d’hypothèse consiste à regarder si la valeur de la moyenne dont on fait l’hypothèse se trouve dans l’intervalle
de confiance calculé au paragraphe précédent, et à rejeter l’hypothèse nulle si cette valeur est à l’extérieur de cet intervalle.
Un autre exemple de test d’hypothèses (test de Fisher) est décrit dans la section « Sélection de variables ».
Conclusion
Dans ce chapitre, les fondements de l’apprentissage statistique et de sa mise en œuvre ont été décrits de
manière succincte ; on en trouvera une présentation beaucoup plus détaillée dans [HASTIE 2001] par
exemple. Pendant longtemps, les efforts de recherche en apprentissage artificiel ont porté essentiellement
sur les familles de modèles et les algorithmes d’apprentissage. Le nombre et la variété des applications,
leur difficulté et leur exigence croissantes, ont rendu nécessaires la mise en place d’un corps de doctrine
et d’une méthodologie qui englobent tous les aspects de la conception de modèle par apprentissage
statistique : sélection de variables, sélection de modèle, planification d’expériences, estimation d’inter-
valles de confiance sur les prédictions, sont au moins aussi importantes que l’apprentissage lui-même. Les
méthodes qui ont été décrites ou esquissées dans ce chapitre peuvent être mises en œuvre pour la plupart
des grandes familles de modèles. Les chapitres suivants de cet ouvrage sont consacrés à différents types
de modèles − réseaux de neurones, cartes auto-organisatrices, machines à vecteurs supports – dont on
montrera les spécificités, la mise en œuvre, et les applications.
Bibliographie
BJÖRCK A. [1967], Solving linear least squares problems by Gram-Schmidt orthogonalization. BIT, 7,
p. 1-27.
C HEN S., BILLINGS S. A., LUO W. [1989], Orthogonal least squares methods and their application to non-
linear system identification, International Journal of Control, 50, p. 1873-1896.
DRAPER N. R., SMITH H. [1998], Applied regression analysis, John Wiley & Sons.
DREYFUS G., G UYON I. [2006], Assessment Methods, in Feature Extraction, Foundations and Applica-
tions, I. Guyon, S. Gunn, M. Nikraveh, L. Zadeh, eds. (Springer), p. 65-88.
G L. [2006],
Springer.
UYON I., GUNN S., NIKRAVESH M., ZADEHFeature Extraction, Foundations and Applications,
HASTIE T, T IBSHIRANI R., F RIEDMAN J. [2001], The elements of statistical learning, data mining, infer-
ence and predictions, Springer.
KULLBACK S. [1959], Information Theory and Statistics, Dover Publications.
L AGARDE DE J. [1983], Initiation à l’analyse des données, Dunod, Paris.
L EHMANN E. L. [1993], Testing statistical hypotheses, Chapman & Hall.
MOOD A. M., GRAYBILL F. A., BOES D. C. [1974], Introduction to the Theory of Statistics, McGraw-Hill.
NEAL R. M. [1996] Bayesian Learning for Neural Networks, Springer.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 90/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
71
CHAPITRE 1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 91/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 92/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
2
Les réseaux de neurones
Introduction
Le premier chapitre de cet ouvrage a présenté les principes de l’apprentissage statistique, ainsi qu’une
méthodologie globale permettant de résoudre les problèmes pratiques qui se posent lorsque l’on souhaite
concevoir un modèle précis et fiable. Il reste à appliquer ces principes à des familles de modèles répondant
à des besoins spécifiques notamment, en ce qui concerne ce chapitre, aux réseaux de neurones.
Le terme de « réseau de neurones » suggère un lien fort avec la biologie. Ce lien existe : les méthodes
mathématiques décrites dans ce chapitre ont été appliquées avec succès à la modélisation des systèmes
nerveux vivants. Néanmoins, le terme est plus métaphorique que scientifique : si le lien avec la biologie a
constitué une motivation majeure des pionniers du domaine, les réels développements des réseaux de
neurones sont de nature purement mathématique et statistique ; leurs applications se situent dans des
domaines qui n’ont généralement aucun rapport avec la neurobiologie. C’est la raison pour laquelle, après
avoir fourni les définitions essentielles et énoncé la propriété fondamentale des réseaux de neurones –
l’approximation non linéaire parcimonieuse – , les classes de problèmes que les réseaux de neurones sont
susceptibles de résoudre sont rappelées : modélisation non linéaire statique ou dynamique, classification
(discrimination), modélisation semi-physique (« boîte grise ») et traitement de données structurées
(graphes). Des applications très diverses, choisies en raison de leur caractère exemplaire, sont décrites en
détail afin de fournir au lecteur des idées précises sur le type de problèmes auxquels les réseaux de
neurones sont susceptibles d’apporter des solutions élégantes.
C’est seulement après avoir décrit ces applications que sont présentés, de manière plus détaillée, les algo-
rithmes et la méthodologie de conception qu’il convient de suivre pour obtenir des résultats solides. Les
étapes de conception, décrites de manière générique dans le premier chapitre, sont abordées en détail ici :
sélection des variables, apprentissage, sélection de modèles statiques. Les modèles dynamiques sont
également présentés dans une optique de méthodologie ; ils sont décrits de manière plus détaillée dans le
chapitre 4. Des compléments théoriques et algorithmiques clôturent ce chapitre.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 93/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
74
où le vecteur w est le vecteur des paramètres du modèle, et où les fonctions fi (x) sont des fonctions non
paramétrées, ou à paramètres fixés et connus, des variables x.
Les réseaux de neurones entrent dans la catégorie des modèles non linéaires en leurs paramètres. La
forme la plus courante de réseau de neurones statique est une extension simple de la relation précédente :
p
g (x ,w ) = ∑ w i f i ( x ,w′ )
i =1
où les fonctions fi (x, w’), appelées « neurones », sont des fonctions paramétrées qui seront définies dans
la section suivante.
Les neurones
Définition
Suivant en cela l’usage, on utilisera fréquemment, par abus de langage, le terme de « neurone linéaire »
pour désigner une fonction paramétrée linéaire ou affine (qui n’est donc pas bornée).
Les variables sur lesquelles opère le neurone sont souvent y
désignées sous le terme d’entrées du neurone, et la valeur de la
fonction sous le terme de sortie. Reprenant le graphisme de la
figure 1-22 du premier chapitre, il est commode de représenter
graphiquement un neurone comme indiqué sur la figure 2-1.
Cette représentation est le reflet de l’inspiration biologique qui
a été à l’origine de la première vague d’intérêt pour f
les neurones formels, dans les années 1940 à 1970
[McC ULLOCH 1943] [MINSKY 1969].
La fonction f peut être paramétrée de manière quelconque.
Deux types de paramétrage sont fréquemment utilisés :
• les paramètres sont attachés aux variables du neurone : la x1 x 2 xn
sortie du neurone est une fonction non linéaire d’une combi-
naison des variables {x i} pondérées par les paramètres {wi}, Figure 2-1. Un neurone réalise une fonction
qui sont alors souvent désignés sous le nom de « poids » ou, non linéaire paramétrée bornée y = f (x , w)
en raison de l’inspiration biologique des réseaux de neurones, où les composantes du vecteur x
« poids synaptiques ». Conformément à l’usage (également sont les variables et celles du vecteur w
sont les paramètres.
inspiré par la biologie), cette combinaison linéaire sera
appelée « potentiel » dans tout cet ouvrage. Le potentiel v le
plus fréquemment utilisé est la somme pondérée, à laquelle s’ajoute un terme constant ou « biais »1 :
n
v = w 0 + ∑ wi x i .
i =1
1. Ce terme de « biais » est malheureux, mais consacré par l’usage. Il n’a rien à voir le biais d’un estimateur, défini dans la section
« Éléments de statistiques » du premier chapitre.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 94/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
75
CHAPITRE 2
La fonction f est appelée fonction d’activation. Pour des raisons qui seront exposées plus loin, il est
recommandé d’utiliser pour f une fonction « sigmoïde » (c’est-à-dire une fonction en forme de « s »)
symétrique par rapport à l’origine, telle que la tangente hyperbolique ou la fonction Arctangente. Ainsi,
dans la très grande majorité des applications qui seront décrites dans ce chapitre, la sortie d’un neurone
a pour équation :
n
⎡ ⎤
y = th ⎢ w0 + ∑wi xi ⎥.
⎣ i= 1 ⎦
Le biais w0 peut être considéré comme le produit du paramètre w0 par la constante 1, de sorte qu’il est
commode d’introduire une variable égale à 1 dans le vecteur des variables. La relation précédente peut
alors s’écrire :
y = th( w ⋅ x)
⎡ n 2 ⎤
⎢ ∑( xi − wi ) ⎥
y = exp ⎢ − i =1 ⎥
⎢ 2 w 2n+1 ⎥
⎢ ⎥
⎣ ⎦
La différence pratique essentielle entre les deux types de neurones qui viennent d’être décrits est la
suivante : les neurones tels que les RBF ou les ondelettes ont des non-linéarités locales, qui tendent vers
zéro dans toutes les directions de l’espace des variables ; leur zone d’influence est donc limitée dans
l’espace, ce qui n’est pas le cas des neurones à fonction d’activation sigmoïde.
Dans le premier chapitre, on a introduit la distinction entre modèles statiques et modèles dynamiques.
Bien entendu, la même distinction s’applique aux réseaux de neurones : on différencie les réseaux stati-
ques (ou réseaux non bouclés) et les réseaux dynamiques (ou réseaux bouclés).
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 95/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
76
Définition
Un réseau de neurones non bouclé réalise une (ou plusieurs) fonction(s) de ses entrées par composition des
fonctions réalisées par chacun des neurones.
Un réseau de neurones non bouclé peut donc être imaginé comme un ensemble de neurones « connectés »
entre eux, l’information circulant des entrées vers les sorties sans « retour en arrière ». On peut alors
représenter le réseau par un graphe acyclique dont les nœuds sont les neurones et les arêtes les
« connexions » entre ceux-ci. Si l’on se déplace dans le réseau, à partir d’un neurone quelconque, en
suivant les connexions et en respectant leurs sens, on ne peut pas revenir au neurone de départ. La repré-
sentation de la topologie d’un réseau par un graphe est très utile, notamment pour les réseaux bouclés,
comme on le verra dans la section « Réseaux de neurones dynamiques ». Les neurones qui effectuent le
dernier calcul de la composition de fonctions sont les neurones de sortie ; ceux qui effectuent des calculs
intermédiaires sont les neurones cachés (voir figure 2-2).
Remarque
Le terme de « connexions » doit être pris dans un sens métaphorique : dans la très grande majorité des applications, les opérations effec-
tuées par un réseau de neurones sont programmées (n’importe quel langage de programmation convient) et exécutées par un ordinateur
conventionnel. Le réseau de neurones n’est donc pas, en général, un objet tel qu’un circuit électronique, et les « connexions » n’ont pas de
réalité physique ; néanmoins, le terme de connexion, issu des origines biologiques des réseaux de neurones, est passé dans l’usage, car
il est commode quoique trompeur ; il a même donné naissance au terme de connexionnisme.
■ Réseaux à couches
La seule contrainte sur le graphe des connexions d’un
réseau de neurones non bouclé est qu’il ne contient
pas de cycle. On peut donc imaginer une grande ..... N s neurone(s) de sortie
variété de topologies pour ces réseaux. Néanmoins,
pour des raisons qui seront développées dans la
.... N c neurones cachés
section « Propriété fondamentale », la très grande
majorité des applications des réseaux de neurones
mettent en jeu des « réseaux à couches », dont un ....
x1 x2 x3 xn n variables
exemple est représenté sur la figure 2-2.
Forme générale Figure 2-2. Un réseau de neurones à n variables,
une couche de Nc neurones cachés et N s neurones
Ce réseau réalise NS fonctions algébriques des de sortie
n variables du réseau ; chacune des sorties est une
fonction, réalisée par le neurone de sortie correspondant, des fonctions non linéaires réalisées par
les neurones cachés.
Le temps ne joue aucun rôle fonctionnel dans un réseau de neurones non bouclé : si les variables sont
indépendantes du temps, les sorties le sont également. Le temps nécessaire pour le calcul de la fonction
réalisée par chaque neurone est négligeable et, fonctionnellement, on peut considérer ce calcul comme
instantané. Pour cette raison, les réseaux non bouclés sont souvent appelés « réseaux statiques », par
opposition aux réseaux bouclés ou « dynamiques » qui seront introduits plus loin.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 96/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
77
CHAPITRE 2
Terminologie
Les réseaux de neurones non bouclés à couches, dont les neurones cachés ont une fonction d’activation sigmoïde, sont souvent appelés
« Perceptrons multicouche » (ou MLP pour Multi-Layer Perceptron).
À proscrire
On mentionne souvent, outre la couche cachée et la couche de sortie, une « couche d’entrée » voire des « neurones d’entrée ». Cette
expression est trompeuse, car les entrées (représentées par des carrés sur la figure 2-2) ne sont pas des neurones : elles ne réalisent
aucun traitement de l’information.
Forme de réseau la plus utile : les réseaux à une couche cachée de sigmoïdes
et un neurone de sortie linéaire
Comme indiqué dans le chapitre 1 et rappelé au début de ce chapitre, l’extension la plus naturelle des
modèles linéaires de la forme :
p
g ( x ,w) = ∑w f (x)
i i
i=1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 97/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
78
= w 2 ⋅f (W1 x) + w3 ⋅x '
Nc +1
“Termes directs”
w2 w3
f 1 1 .... Nc
W1
⎛ n
( ) ⎞⎟
2
Nc ⎜ ∑ x j − wij
g (x ,w ) = ∑ w N c +1,i exp ⎜− =1
j
⎟
i ==1 ⎜ 2 w2i ⎟
⎜
⎝ ⎟
⎠⎠
où x est le vecteur des entrées du réseau (de dimension n) et w est le vecteur des paramètres du réseau (de
dimension (n+2) Nc +1) [BROOMHEAD 1988] [MOODY 1989] ; les neurones cachés sont numérotés de 1 à
N c, et le neurone de sortie porte le numéro Nc +1.
Remarquons que deux catégories de paramètres interviennent ici : ceux de la dernière couche (qui relient
les N c fonctions radiales au neurone de sortie) et les paramètres des fonctions radiales (centres et écarts-
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 98/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
79
CHAPITRE 2
types pour des fonctions radiales gaussiennes). Les connexions de la première couche ont toutes des para-
mètres égaux à 1. Dans ces réseaux, la sortie est une fonction linéaire des paramètres de la dernière
couche de connexions, et elle est une fonction non linéaire des paramètres des gaussiennes. Les consé-
quences de cette propriété seront examinées plus loin.
Les réseaux d’ondelettes ont exactement la même structure, l’équation de la gaussienne étant remplacée
par celle d’une ondelette multidimensionnelle. Les paramètres attachés à la non-linéarité sont alors les
centres et les dilatations des ondelettes [BENVENISTE 1994] [OUSSAR 2000].
■ Forme générale
L’architecture la plus générale, pour un réseau de neurones, est celle des « réseaux bouclés », dont le
graphe des connexions est cyclique : lorsque l’on se déplace dans le réseau en suivant le sens des
connexions, il est possible de trouver au moins un chemin qui revient à son point de départ (un tel chemin
est désigné sous le terme de « cycle »). La sortie d’un neurone du réseau peut donc être fonction d’elle-
même ; ceci n’est évidemment concevable que si la notion detemps est explicitement prise en considéra-
tion.
À l’heure actuelle, l’immense majorité des applications des réseaux de neurones est réalisée par des
systèmes numériques (ordinateurs conventionnels ou circuits numériques spécialisés pour le traitement de
signal) : il est donc naturel de se placer dans le cadre des systèmes à temps discret, régis par des
« équations aux différences » (ou « équations récurrentes », d’où le terme de « réseaux récurrents »). Ces
équations jouent le même rôle, en temps discret, que les équations différentielles en temps continu.
Ainsi, à chaque connexion d’un réseau de neurones bouclé (ou à chaque arête de son graphe) est attaché,
outre un paramètre comme pour les réseaux non bouclés, unretard, multiple entier (éventuellement nul)
de l’unité de temps choisie. Une grandeur, à un instant donné, ne pouvant pas être fonction de sa propre
valeur au même instant, tout cycle du graphe du réseau doit contenir au moins une arête dont le retard
n’est pas nul.
Définition
Un réseau de neurones bouclé à temps discret réalise une (ou plusieurs) équation(s) aux différences non
linéaires, par composition des fonctions réalisées par chacun des neurones et des retards associés à chacune
des connexions.
Propriété
Tout cycle du graphe des connexions d’un réseau de neurones bouclé doit comprendre au moins une
connexion de retard non nul.
La figure 2-5 présente un exemple de réseau de neurones bouclé. Les chiffres dans les carrés indiquent le
retard attaché à chaque connexion, exprimé en multiple de l’unité de temps (ou période d’échantillonnage)
T. Ce réseau contient un cycle qui part du neurone 3 et revient à celui-ci en passant par le neurone 4 ; la
connexion de 4 vers 3 ayant un retard non nul, ce réseau est causal.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 99/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
80
Explications g(kT)
À l’instant kT : le neurone 3 calcule 3(kT)
y en fonction de4[(
yk – 1)T], 1u(kT), u2[(k – 1)T] (où k est un
entier positif eti(kTy ) désigne la sortie du neurone i à l’instant kT). Le neurone 4 calcule 4(kT) y
en
5
fonction de 3y(kT) et 2u(kT). Le neurone 5 calcule la sortie du réseau de neurones, g(kT), en fonction
de y3(kT), y4 [(k – 1)T] et1(kT).
u Les équations récurrentes qui gouvernent le réseau sont donc :
y3 (k) = 3f [y4 (k – 1) u1 (k), u2 (k – 1)] 0 1
y4 (k) = f [y
4 3 (k), u2 (k)]
0
g (k) = 5f [y – (k), 4y(k – 1), u1 (k)]
3 0 4
où, pour alléger les notations, la période d’échantillonnage T a été omise.
3, f4, f5f sont les fonctions 1
non linéaires réalisées par les neurones 3, 4 et 5 respectivement.
0 1 0
■ Forme canonique des réseaux de neurones bouclés
Dans la mesure où les réseaux de neurones bouclés réalisent des équations u 1(kT) u 2 (kT)
récurrentes non linéaires, il est utile d’examiner les liens entre ces modèles
non linéaires et les modèles dynamiques linéaires, utilisés notamment en Figure 2-5. Un réseau
automatique des systèmes linéaires. de neurones bouclé
à deux variables.
La description la plus générale d’un système linéaire est la description d’état : Les chiffres dans les carrés
x (k ) = Ax ( k − 1) + Bu ( k − 1) indiquent le retard attaché
à chaque connexion,
g ( k ) = Cx( k) + Du ( k) multiple de l’unité de temps
(ou période d’échantillon-
où x(k) est le vecteur des variables d’état à l’instant (discret) kT, u(k) est le nage) T. Le réseau contient
vecteur des variables de commande à l’instant kT, g(k) est le vecteur des un cycle qui part du
neurone 3, va au neurone 4,
prévisions du modèle à l’instant kT, et A, B, C, D sont des matrices. Rappe- et revient au neurone 3.
lons que les variables d’état sont un ensemble de variables, en nombre
minimal, telles que l’on peut calculer leurs valeurs à l’instant (k+1)T si l’on connaît leurs valeurs initiales
et si l’on connaît les valeurs des variables de commande à tout instant compris entre 0 et kT. Le nombre
de variables d’état est appelé ordre du système.
De manière analogue, on définit la forme canonique d’un système non linéaire à temps discret par les
équations suivantes :
x (k ) = Φ (x ( k − 1) ,u ( k − 1) )
g ( k ) = Ψ ( x ( k − 1), u ( k − 1 ) ) Prédictions du modèle Variables d’état
à l’instant k à l’instant k
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 100/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
81
CHAPITRE 2
( )
g (k ) = f5 z3 , z4 , u1( k) .
Ces équations sont bien identiques à celles de la forme non canonique :
y3 (k) = 3f [y4 (k – 1) 1u (k), u2 (k – 1)]
y4 (k) = 4f [y3 (k), u2 (k)]
g (k) = 5f [y3 (k), y4 (k – 1), u1 (k)]
en identifiantz 3 ≡ y 3 (k ) etz 4 ≡ y 4 (k − 1) .
Les réseaux bouclés (et leur forme canonique) seront étudiés en détail dans la section « Techniques et
méthodologie de conception de modèles dynamiques » de ce chapitre, ainsi que dans les chapitres 4 et 8.
Résumé
Les définitions essentielles concernant les réseaux de neurones ont été présentées dans cette section.
Reprenant la distinction générale entre modèles statiques et modèles dynamiques, on a introduit :
• les réseaux de neurones non bouclés, statiques, qui réalisent des fonctions non linéaires ;
• les réseaux de neurones bouclés, dynamiques, régis par des équations aux différences (ou équations
récurrentes) non linéaires.
On a vu également que tout réseau de neurones bouclé peut être mis sous une forme canonique, compre-
nant un réseau de neurones non bouclé dont les variables d’état sont ramenées à ses entrées avec un retard
unité.
L’élément de base est donc le réseau de neurones non bouclé ; ses propriétés sont exposées dans la
section suivante.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 101/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
82
Polynôme
exemple, le nombre de paramètres d’un polynôme de de degré 5
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 102/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
83
CHAPITRE 2
nombre de variables est petit, de l’ordre de 1 ou 2. En revanche, dès que le nombre de variables devient
supérieur à 2, il est généralement avantageux de mettre en œuvre des réseaux de neurones avec une
couche de neurones cachés à non-linéarité sigmoïde, plutôt que des polynômes, ou des réseaux de RBF
ou d’ondelettes à paramètres fixés. Si, en revanche, on considère que les centres et écarts-types des RBF
gaussiennes (ou les centres et les dilatations des ondelettes) sont des paramètres ajustables au même titre
que les paramètres des connexions, il n’y a pas, à l’heure actuelle, d’avantage mathématiquement
démontré à utiliser un type de neurones plutôt qu’un autre. En revanche, des arguments pratiques décisifs
peuvent justifier une préférence : connaissances a priori sur le type de non-linéarité souhaitable, caractère
localisé ou non de la fonction, rapidité de calcul, facilité d’initialisation de l’apprentissage (voir la section
« Initialisation des paramètres »), facilité de réalisation en circuit spécialisé, etc.
Expliquons qualitativement l’origine de la parcimonie. Considérons un modèle linéaire par rapport à ses
paramètres, un modèle polynomial par exemple :
g(x) = 4 + 2x + 4x2 – 0,5x3 .
Le modèle g(x) est une combinaison linéaire des fonctions y = 1, y = x, y = x2 , y = x3, avec les paramètres
w0 = 4, w1 = 2, w2 = 4, w 3 = – 0,5. Ces fonctions ont une forme qui est fixée une fois pour toutes.
Considérons à présent le modèle neuronal représenté sur la figure 2-9, g(x, w)
dont l’équation est :
g(x) = 0,5 – 2 th(10 + 0,5 x) + 3 th(1+ 0,25 x) – 2 th(3 – 0,25 x).
Ce modèle est aussi une combinaison linéaire de fonctions (y = 1,
w2
y = th(10 + 0,5 x), y = th(1+ 0,25 x), y = th(3 – 0,25 x)), mais la 0,5 -2 3 -2
forme de ces fonctions dépend des valeurs des paramètres de la
matrice W1 . f 1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 103/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
84
0,15
g Paramètres
0 -1,02 0,1
1 2,73
5 6 2 1,02 0,05
3 2,73
4 7,23 0 Figure 2-10. Interpolation
4
5 4,58 d’une parabole
1 3 0 2 6 -4,57 -0,005 par un réseau à 2 neurones
cachés : (a) réseau ;
x 1 -0,1
(b) points d’apprentissage
-0.15 -0,1 -0,05 0 0,05 0,1 0,15 (croix) et modèle après
(a
(a) (b
(b)
18
apprentissage ;
6
(c) fonctions réalisées
4 par les deux neurones cachés
14
(sigmoïdes) après
2
apprentissage ; (d) points
10
0 de test (croix) et modèle
après apprentissage :
-2 6 l’approximation se dégrade
-4 en dehors de la zone
2 d’apprentissage.
-6
-8 -2
-1 -0,5 0 0,5 1 -1 -0,5 0 0,5 1
(c) (d)
Remarque
Bien entendu, approcher une parabole à une variable par un réseau de neurones ne présente aucun intérêt pratique, puisque la parabole
a deux paramètres alors que le réseau de neurones en a sept ! La seule justification de cet exemple est que, étant mono-dimensionnel, il
permet d’utiliser des représentations graphiques simples.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 104/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
85
CHAPITRE 2
Le plus souvent, le problème qui se pose est celui qui a été étudié en détail dans le chapitre 1 : on dispose
d’un ensemble de variables mesurées {x k , k = 1 à N} et d’un ensemble de mesures {yp (xk), k = 1 à N}
d’une grandeur relative à un processus de nature quelconque (physique, chimique, biologique, finan-
cier...). On suppose qu’il existe une relation entre le vecteur des variablesx et la grandeur à modéliser, et
l’on cherche à déterminer une forme mathématique de cette relation, valable dans le domaine où les
mesures ont été effectuées, sachant que (1) les mesures sont en nombre fini, et que (2) ces mesures sont
certainement entachées de bruit. De plus, toutes les variables qui déterminent la grandeur à modéliserne
sont pas forcément mesurées. En d’autres termes, on cherche à établir unmodèle du processus, à partir des
mesures disponibles, et d’elles seules : on dit que l’on effectue une modélisation « boîte noire ». On
étudiera plus loin la modélisation « boîte noire » du comportement d’un processus (l’actionneur hydrau-
lique d’un bras de robot) : l’ensemble de variables {x} est constitué d’une seule variable (l’angle d’ouver-
ture de la vanne d’admission de liquide hydraulique) et la grandeuryp est la pression d’huile dans l’action-
neur. On verra également plus loin un exemple de prédiction de propriétés chimiques ou d’activités
thérapeutiques de molécules : on cherche une relation déterministe entre une propriété des molécules (par
exemple leurs points d’ébullition, leur action anti-HIV, leur toxicité…) et des descripteurs de ces molé-
cules (masse molaire, nombre d’atomes, « volume », moment dipolaire, etc.) ; on peut ainsi prédire les
propriétés ou activités thérapeutiques de molécules dont la synthèse n’a pas été effectuée. Le lecteur
rencontrera dans cet ouvrage de nombreux cas de ce genre.
Le terme de « boîte noire » qui vient d’être introduit s’oppose au terme de « modèle de connaissance » ou
« modèle de comportement interne », qui désigne un modèle mathématique établi à partir d’une analyse
physique (ou chimique, physico-chimique, économique, etc.) du processus que l’on étudie ; ce modèle
peut contenir un nombre limité de paramètres ajustables, qui possèdent une signification physique. On
verra, dans la section « Modélisation dynamique “boîte grise” », que les réseaux de neurones peuvent être
utilisés pour l’élaboration de modèles « semi-physiques », intermédiaires entre les modèles « boîtes
noires » et les modèles de connaissance.
Modélisation statique
Rappelons que l’apprentissage statistique d’un modèle consiste à estimer les valeurs des paramètres du
modèle pour lesquelles l’erreur de prédiction empirique est minimale. Le plus souvent, pour la modélisa-
tion par réseau de neurones, la fonction de perte utilisée est le carré de l’erreur de modélisation, de sorte
que la fonction de coût à minimiser est la fonction de coûtdes moindres carrés
N
∑( y ) 2
J (w) = p
k − g( xk , w)
k =1
où y pk est la valeur prise par la grandeur à modéliser pour l’exemple k, et g(xk , w) est la prédiction du
modèle pour l’exemple k. Rappelons également que l’on a démontré, au chapitre 1, que le meilleur
modèle possible est la fonction de régression du processus, laquelle est inconnue. La démarche de modé-
lisation consiste donc à postuler un modèle de complexité donnée (un réseau de neurones à trois neurones
cachés, par exemple), à en effectuer l’apprentissage par des méthodes qui seront décrites dans la section
« Estimation des paramètres (apprentissage) d’un réseau de neurones non bouclé », et à estimer la capa-
cité de généralisation de ce modèle, afin de la comparer à celles d’autres modèles, de complexités diffé-
rentes. Cette estimation permet finalement de choisir le meilleur modèle compte tenu des données dispo-
nibles.
Cette procédure pose deux questions, centrales dans la pratique des réseaux de neurones :
• comment, en pratique, dans une famille de réseaux de neurones de complexité donnée, trouver celui
pour lequel la fonction de coût des moindres carrés est minimale ?
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 105/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
86
• une fois que celui-ci a été trouvé, comment juger si ses capacités de généralisation sont satisfaisantes ?
Ces questions pratiques seront abordées en détail dans la section « Techniques et méthodologie de
conception de modèles statiques ».
Classification (discrimination)
Comme indiqué dans le chapitre 1, classer un ensemble d’objets, c’est attribuer à chacun une classe (ou
« catégorie ») parmi plusieurs classes définies à l’avance. Cette tâche est appelée « classification » ou
« discrimination ». Un algorithme qui réalise automatiquement une classification est appelé classifieur.
Les applications des classifieurs sont très nombreuses : dans le domaine de la reconnaissance des formes
(chiffres et caractères manuscrits ou imprimés, images, parole, signaux temporels...), mais également
dans bien d’autres domaines (économie, finance, sociologie, traitement du langage...). De manière géné-
rale, on désignera sous le terme de « forme » n’importe quel objet décrit par un ensemble de nombres
(« descripteurs ») : ainsi, une image pourra être décrite par l’ensemble des valeurs d’intensité de
ses pixels (contraction de picture elements ou éléments d’image), un signal temporel par ses valeurs
successives au cours d’une période de temps définie, une entreprise par l’ensemble des éléments de son
bilan, un texte par l’ensemble des mots importants qu’il contient, etc. Schématiquement, la question à
laquelle un classifieur doit apporter un élément de réponse est du type : le caractère inconnu est-il un a,
un b, un c, etc. ? Le signal observé est-il normal ou anormal ? L’entreprise examinée constitue-t-elle un
excellent, très bon, bon, médiocre, mauvais, très mauvais, support d’investissement ? La dépêche
d’agence reçue est-elle relative à une prise de participation entre entreprises ? Y aura-t-il demain une
alerte à la pollution par l’ozone ? Les statisticiens appellent aussi « classification » la tâche qui consiste à
regrouper des données qui se ressemblent dans des classes qui ne sont pas définies à l’avance ; les réseaux
de neurones à apprentissage non supervisé, mentionnés dans le chapitre 1 et décrits en détail dans le
chapitre 7, peuvent réaliser ce genre de tâches ; il y a donc une certaine confusion dans les termes. On
s’efforcera toujours de préciser ce dont il s’agit, lorsque le contexte ne rend pas la distinction évidente.
Dans tout ce paragraphe, on considère le cas où les classes sont connues à l’avance.
Il faut noter que le classifieur n’est pas nécessairement conçu pour donner une réponse complète : il peut
apporter seulement un élément de réponse. En effet, il faut bien distinguer l’aide à la décision et la déci-
sion elle-même : un classifieur peut apporter une information qui aidera un être humain, ou un système
automatique, à prendre une décision concernant l’appartenance de l’objet inconnu à telle ou telle classe.
Historiquement, les premiers réseaux de neurones utilisés pour la classification étaient conçus pour
fournir une décision. Néanmoins, on a vu, dans le chapitre 1, que l’on peut également, par apprentissage,
obtenir une information beaucoup plus riche et fine qu’une simple décision binaire : on peut estimer la
probabilité d’appartenance de l’objet inconnu à chacune des classes. Ceci permet notamment de conce-
voir des systèmes de reconnaissance complexes qui utilisent plusieurs systèmes de classification diffé-
rents, chacun d’eux fournissant une estimation de la probabilité d’appartenance de l’objet inconnu à
chacune des classes. La décision finale est prise au vu de ces estimations et en fonction, par exemple, des
« domaines d’excellence » de chacun des classifieurs.
De même, dans le domaine de la « fouille de données » (data mining), une problématique de plus en plus
fréquente est celle du « filtrage d’information » : trouver automatiquement, dans un corpus de données,
les textes qui sont pertinents pour un thème donné, et présenter ces textes par ordre de probabilité de perti-
nence décroissante, afin que l’utilisateur puisse faire un choix rapide parmi les documents qui lui sont
présentés. Là encore, il est indispensable que le classifieur ne se contente pas de donner une réponse
binaire (document pertinent ou non), mais bien qu’il détermine une probabilité d’appartenance à une
classe. Comme on le verra plus loin, les modèles obtenus par apprentissage, notamment les réseaux de
neurones non bouclés, sont bien adaptés à ce type de tâche, dont l’importance est de plus en plus évidente.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 106/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
87
CHAPITRE 2
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 107/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
88
Modélisation semi-physique
Il est très fréquent, notamment dans l’industrie manufacturière, que l’on dispose d’un modèle de connais-
sance d’un procédé, mais que celui-ci ne soit pas satisfaisant ; cela peut s’expliquer par plusieurs raisons :
• le modèle peut être insuffisamment précis pour l’objectif que l’on s’est fixé. Par exemple, si l’on désire
détecter une anomalie de fonctionnement en analysant la différence entre l’état du processus prévu par
le modèle du fonctionnement normal et l’état réellement mesuré, il faut que le modèle de fonctionne-
ment normal soit précis ;
• le modèle peut être précis, mais être trop complexe pour pouvoir être intégré numériquement en temps
réel (pour une application de surveillance ou de commande, par exemple).
Si l’on dispose de mesures, on peut alors légitimement décider d’avoir recours à un modèle « boîte
noire », non linéaire si nécessaire. Toutefois il serait néanmoins maladroit d’abandonner complètement
toutes les connaissances accumulées lors de la conception du modèle, pour construire un autre modèle
fondé uniquement sur les mesures. La modélisation semi-physique permet de réconcilier ces deux points
de vue, en utilisant toutes les connaissances avérées dont on peut disposer sur le processus (sous réserve
qu’elles soient sous la forme d’équations algébriques ou différentielles) pour structurer le réseau et définir
son architecture. La méthodologie de conception d’un tel modèle sera présentée dans la section
« Modélisation dynamique “boîte grise” », et un exemple d’application industrielle sera décrit dans la
section « Modélisation semi-physique d’un procédé manufacturier ».
La commande de processus
Commander un système, c’est lui imposer une dynamique de réponse à une commande. S’il s’agit d’une
régulation, il faut imposer au système de rester dans un état déterminé quelles que soient les perturbations,
mesurables ou non, auxquelles il est soumis : pour un système de régulation de vitesse d’une voiture
(cruise control), il faut agir automatiquement sur l’accélérateur afin que la voiture conserve une vitesse
constante égale à la vitesse de consigne, indépendamment de perturbations telles que des bourrasques de
vent, des changements de la pente de la route, etc. S’il s’agit d’un système de poursuite, il faut imposer à
celui-ci de suivre une trajectoire de consigne : par exemple, dans un fermenteur, agir sur le système de
chauffage pour que la température suive un profil temporel déterminé à l’avance, indépendamment de la
température du four, de la température des ingrédients que l’on ajoute durant la fermentation, des réac-
tions exothermiques ou endothermiques qui peuvent se produire, etc. Pour réaliser ces tâches, il faut géné-
ralement disposer d’un modèle qui, si les non-linéarités sont importantes, peut être un réseau de neurones.
Le chapitre 5 est entièrement consacré à la commande de processus non linéaires.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 108/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
89
CHAPITRE 2
Il peut donc être avantageux de mettre en œuvre des réseaux de neurones pour toute application nécessi-
tant de trouver, par apprentissage, une relation non linéaire entre des données numériques.
Sous quelles conditions peut-on utiliser une telle approche ?
• Une première condition est nécessaire mais non suffisante : puisque les réseaux de neurones utilisent
des techniques issues des statistiques, il faut disposer d’un ensemble de données de taille suffisamment
grande, et bien représentatif.
• Une fois ces données recueillies, il faut s’assurer de l’intérêt réel d’un modèlenon linéaire pour l’appli-
cation considérée : en effet, la mise en œuvre d’un modèle linéaire (ou affine) est toujours plus simple,
et moins coûteuse en temps de calcul, que celle d’un réseau de neurones. Par conséquent, en l’absence
de toute connaissance a priori sur l’intérêt d’un modèle non linéaire, il faut d’abord utiliser les
méthodes simples et éprouvées d’élaboration d’un modèle linéaire,qui ont été exposées dans le chapitre
1. S’il apparaît que la précision du modèle est insuffisante bien que toutes les variables pertinentes
soient présentes dans le modèle, alors on doit envisager la mise en œuvre de modèles non linéaires tels
que les réseaux de neurones.
• Si les données sont disponibles, et si l’on s’est assuré qu’un modèle non linéaire est utile, il faut s’inter-
roger sur l’opportunité d’utiliser un réseau de neurones de préférence à une autre famille de fonctions non
linéaire, les polynômes par exemple. Comme indiqué plus haut, les réseaux de neurones, notamment à
fonction d’activation sigmoïde, sont d’autant plus avantageux que le nombre de variables est « grand » ;
dans la majorité des cas, « grand » signifie, en pratique et de manière empirique, supérieur ou égal à 3.
En résumé : si l’on dispose de données numériques suffisamment nombreuses et représentatives, il est
généralement avantageux d’utiliser des réseaux de neurones dans toute application mettant en jeu l’esti-
mation des paramètres d’une fonction non linéaire possédant au moins trois variables. Si le nombre
de variables est supérieur ou égal à 3, il est généralement avantageux d’utiliser des réseaux de neurones à
fonction d’activation sigmoïde ; dans le cas contraire, des réseaux de neurones utilisant des RBF à centres
et écarts-types fixés, ou des ondelettes à centres et dilatations fixés, ou encore des polynômes, peuvent être
aussi précis et plus simples à mettre en œuvre.
Bien entendu, si les données ne sont pas numériques (mais linguistiques, par exemple), les réseaux de
neurones ne peuvent les traiter directement. Il faut avoir recours à des prétraitements permettant de
« quantifier » ces données (par exemple, à l’aide de techniques issues de la théorie des ensembles flous).
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 109/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
90
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 110/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
91
CHAPITRE 2
d’expériences » présente quelques éléments qui permettent de construire itérativement un plan d’expé-
riences pour un modèle neuronal.
où xk désigne le vecteur des valeurs des variables pour l’exemple k, etykp la valeur de la mesure correspon-
dante.
• Si l’on met en œuvre des modèles linéaires en leurs paramètres (des fonctions radiales gaussiennes dont
les centres et écarts-types sont fixés, par exemple), les méthodes décrites dans le chapitre 1, section
« Conception de modèles linéaires », sont directement applicables. La qualité du résultat dépend essen-
tiellement du choix des centres et les écarts-types des fonctions non linéaires mises en œuvre ; ce choix
doit être effectué par des techniques de sélection de modèle analogues à celles qui sont décrites dans la
section « Sélection de modèles » du chapitre 1.
• Si, en revanche, on met en œuvre des modèles non linéaires en leurs paramètres, tels que des Percep-
trons multicouche ou des réseaux de RBF à centres et écarts-types variables, on doit résoudre un
problème d’optimisation non linéaire multivariable. Les méthodes utilisées à cet effet seront exposées
en détail dans la section « Estimation des paramètres (apprentissage) d’un réseau de neurones non
bouclé ». Il s’agit de techniques itératives qui, à partir d’un réseau muni de paramètres dont les valeurs
sont aléatoires, modifient ceux-ci jusqu’à ce qu’un minimum de la fonction de coût empirique soit
atteint, ou qu’un critère d’arrêt soit satisfait.
Dans ce dernier cas, les techniques d’optimisation sont des méthodes de gradient : elles sont fondées sur
le calcul, à chaque itération, du gradientde la fonction de coût par rapport aux paramètres du modèle,
gradient qui est ensuite utilisé pour calculer une modification des paramètres. Le calcul du gradient peut
être effectué de diverses manières : il en est une, appelée rétropropagation (voir la section « Évaluation
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 111/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
92
du gradient de la fonction de coût »), qui est généralement plus économe que les autres en termes de
nombres d’opérations arithmétiques à effectuer pour évaluer le gradient. Contrairement à une idée trop
répandue, la rétropropagation n’est pas un algorithme d’apprentissage : c’est simplement une technique
d’évaluation du gradient de la fonction de coût, qui est fréquemment, mais pas obligatoirement, utilisée
au sein d’algorithmes d’apprentissage. Il faut noter que, contrairement à bien des affirmations, ce n’est pas
l’invention de la rétropropagation qui a permis l’apprentissage des réseaux de neurones à couches ; en
effet, les spécialistes de traitement du signal connaissaient, bien avant la rétropropagation, des méthodes
d’évaluation du gradient d’une fonction de coût des moindres carrés, méthodes qui auraient pu être mises
en œuvre pour effectuer l’apprentissage de réseaux [MARCOS 1992].
Ces algorithmes d’apprentissage ont fait d’énormes progrès au cours des dernières années. Alors que, au
début des années 1990, les publications faisaient état de dizaines ou de centaines de milliers d’itérations,
représentant des journées de calcul sur des ordinateurs puissants, les nombres d’itérations typiques à
l’heure actuelle sont de l’ordre de quelques dizaines à quelques centaines. La figure 2-12 montre le dérou-
lement de l’apprentissage d’un modèle à une variable.
2 2
1,5 5 itérations 1,5 10 itérations
1
0,5 0,5
0
-0,5 -0,5
-1
-1,5 -1,5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
2 2
1,5 30 itérations 1,5 50 itérations
1 1
0,5 0,5
0 0
-0,5 -0,5
-1 -1
-1,5 -1,5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
Figure 2-12. Apprentissage d’un réseau de neurones à une variable et 3 neurones cachés. Le trait continu représente
la prédiction du modèle après 5, 10, 30 et 50 itérations de l’algorithme d’apprentissage (reproduit avec l’autorisation de
Netral S.A.).
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 112/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
93
CHAPITRE 2
Les croix représentent les mesures de l’ensemble d’apprentissage. Initialement, on donne aux paramètres
du réseau des valeurs « petites » (voir la section « Initialisation des paramètres »). Le résultat obtenu au
bout de 50 itérations est satisfaisant « visuellement » ; quantitativement, l’EQMA et l’EQMT (cette
dernière étant calculée sur un ensemble de points non représentés sur la figure) sont du même ordre de
grandeur, et de l’ordre de l’écart-type du bruit, de sorte que le modèle est satisfaisant.
Conclusion
Dans ce paragraphe, on a expliqué quand et comment utiliser les réseaux de neurones pour la modélisa-
tion. Rappelons que l’utilisation des réseaux de neurones peut être avantageuse chaque fois que l’on
cherche à établir une relation non linéaire entre des données numériques. Les réseaux de neurones entrent
dans le cadre général des méthodes statistiques d’apprentissage décrites dans le chapitre 1. Une vue géné-
rale de la mise en œuvre de ces méthodes a été présentée, en insistant sur les conditions qui doivent être
remplies pour qu’un réseau de neurones donne des résultats satisfaisants. Les techniques d’apprentissage,
de sélection de variables et de sélection de modèle proprement dites, dont l’efficacité conditionne en
grande partie les performances des réseaux, seront abordées en détail dans la section « Techniques et
méthodologie de conception de modèles statiques ».
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 113/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
94
d’utilisation des classifieurs statistiques, considérons quelques exemples plus ou moins académiques, qui
illustrent plusieurs aspects de cette tâche. Pour chacun des exemples, on se posera trois questions :
• les connaissances a priori sur le problème permettent-elles de déterminer simplement des descripteurs
pertinents ?
• ces descripteurs sont-ils mesurables (ou calculables à partir de mesures) ?
• quel est le rôle de la classe de rejet ?
Les exemples suivants sont extraits de [STOPPIGLIA 1997].
Chacun a eu l’occasion d’utiliser un distributeur de tickets de métro, ou un automate de péage, qui recon-
naît les pièces de monnaie utilisées en paiement, et rejette les pièces fausses ou étrangères. Considérons
ce problème sous l’angle des trois questions ci-dessus :
• il est facile de déterminer des descripteurs pertinents : le diamètre de la pièce, son poids, son épaisseur,
la composition de l’alliage, etc. ; ces descripteurs sont en petit nombre (les nouvelles pièces de monnaie
sont conçues de manière à en faciliter la discrimination) ;
• les descripteurs sont des grandeurs physiques mesurables ;
• la classe de rejet peut être aussi grande que l’on veut : elle n’est limitée que par la patience des usagers
qui n’aiment pas voir leurs pièces rejetées sans raison ; ainsi, dans l’espace des descripteurs, les classes
sont de petits « parallélépipèdes » délimités par les seuils de tolérance qui tiennent compte de la varia-
bilité de la fabrication et des erreurs de mesure ; tout le reste de l’espace constitue la classe de rejet.
Dans ces conditions, il est facile de concevoir un automate qui met en œuvre des règles simples portant
sur les descripteurs des pièces à classer. Ces règles résultent d’une analyse du problème, effectuée par les
concepteurs de la machine, qui conduit à un arbre de décision implanté dans l’automate.Dans un tel cas,
l’utilisation d’une méthode statistique de classification n’est pas appropriée.
Considérons à présent l’évaluation du confort d’une voiture. Pour prévoir les réactions des clients poten-
tiels à la mise sur le marché d’un nouveau modèle, les constructeurs automobiles ont recours à des
« panels » d’individus, supposés représentatifs de la clientèle, qui doivent émettre un jugement sur le
confort. Mais qu’est-ce que le confort ? C’est une notion complexe dans laquelle interviennent la qualité
de la suspension, la conception des sièges, l’insonorisation du véhicule, la visibilité, etc. Exprimer un
jugement (classer le confort du véhicule dans l’une des trois classes « bon », « moyen », « insuffisant »)
est alors un processus impossible à formaliser, fondé sur des impressions plus que sur des mesures. Ce
problème a donc les caractéristiques suivantes :
• les descripteurs ne sont pas forcément tous connus et exprimés clairement par les membres des panels ;
même si les descripteurs sont bien définis, les jugements sont très variables : deux personnes placées
dans les mêmes conditions peuvent émettre des jugements différents ;
• les descripteurs ne sont pas nécessairement mesurables ;
• il n’y a pas de classe de rejet : un consommateur a forcément une opinion sur le confort de sa voiture.
Le fait que les descripteurs ne soient pas connus et pas nécessairement mesurables empêche (ou rend très
difficile) l’utilisation d’une méthode de classification statistique. Dans ce contexte, une méthode de clas-
sification floue serait mieux adaptée.
La reconnaissance automatique des chiffres manuscrits, par exemple celle des codes postaux, a fait l’objet
de nombreuses études et réalisations. Considérons ce problème sous les mêmes angles que les deux exem-
ples précédents :
• contrairement au cas du tri des pièces de monnaie, la variabilité des styles d’écriture pose un problème
majeur pour le choix des descripteurs ; néanmoins, contrairement au cas de l’évaluation du confort, les
personnes qui savent lire identifient généralement de la même manière une image de chiffre donnée
(sauf si le chiffre est vraiment mal écrit) ;
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 114/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
95
CHAPITRE 2
• les descripteurs sont des nombres que l’on peut extraire de l’image : dans le cas d’une description « de
bas niveau », c’est l’intensité des pixels ; dans le cas d’une description « de haut niveau », c’est le
nombre de boucles, de pointes, leur position, l’orientation et la position des segments, etc. ;
• la taille de la classe de rejet constitue un critère de performance : pour un taux d’erreur donné, le pour-
centage de rejet doit être aussi faible que possible. En effet, tout objet postal rejeté nécessite l’interven-
tion d’un préposé, et il est plus coûteux d’envoyer une lettre dans une mauvaise direction que d’avoir
recours à une intervention humaine pour lire le code postal. Le cahier des charges est donc exprimé de
la manière suivante : pour un taux d’erreur donné (par exemple 1 %), on veut un taux de rejet aussi
faible que possible. En effet, il serait facile de concevoir un classifieur qui ne se trompe jamais : il suffi-
rait qu’il ne prenne jamais de décision. Compte tenu des données économiques du problème, un bon
classifieur est un classifieur qui prend une décision le plus souvent possible, tout en ne se trompant pas
plus d’une fois sur cent. Si les conditions économiques étaient inversées, c’est-à-dire si une erreur
coûtait moins cher que l’intervention d’un expert, le critère de qualité serait différent : on chercherait à
obtenir le taux d’erreur le plus petit possible pour un taux de rejet donné (c’est le cas pour les diagnos-
tics médicaux automatisés à l’échelle de toute une population, où l’intervention d’un médecin coûte
plus cher qu’une erreur de diagnostic de type « faux positif »).
Dans ces conditions, la mise en œuvre d’une méthode statistique telle que les réseaux de neurone est
opportune, sous réserve que l’on dispose d’une base de données convenable. Le problème central est celui
du choix de la représentation des données. C’est d’ailleurs le cas dans la majorité des problèmes de clas-
sification non académiques : la réflexion du concepteur, et la mise en œuvre de techniques de prétraite-
ment des données adaptées au problème (des exemples sont décrits dans le chapitre 3), sont bien souvent
plus importantes que l’algorithme de classification lui-même.
p X (x C i )PrCi
Pr( Ci x) = c
∑p
j =1
X ( x C )Pr
j C j
où Pr (C i x ) désigne la probabilité a posteriori de la classeCi sachant que l’on observe l’objet décrit par
le vecteur x, pX ( x Ci ) désigne la vraisemblance du vecteur de descripteurs x sachant que l’objet décrit par
x appartient à la classe Ci, et où PrC désigne la probabilité a priori de la classe Ci . Le classifieur de Bayes
i
consiste en l’estimation de la probabilité a posteriori d’un objet décrit par x à l’aide de la formule de
Bayes, suivie d’une prise de décision selon la règle de décision de Bayes : attribuer l’objet à la classe dont
la probabilité a posteriori est la plus grande. Ce classifieur est le meilleur possible si toutes les erreurs ont
le même coût. Son utilisation nécessite néanmoins de connaître aussi précisément que possible les proba-
bilités a priori et les vraisemblances ; ces dernières sont particulièrement difficiles à estimer lorsque le
vecteur x est de grande dimension, ce qui est fréquent dans des applications réelles. Le classifieur de
Bayes présente donc un intérêt plus théorique que pratique. Il peut néanmoins servir de référence lorsque
l’on cherche à évaluer la qualité d’un classifieur : on peut appliquer celui-ci à un problème fictif pour
lequel les probabilités a priori et les vraisemblances sont connues exactement, et comparer ses perfor-
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 115/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
96
mances à celles du classifieur de Bayes sur ce même problème. Introduisons ici le problème fictif à l’aide
duquel on testera quelques classifieurs.
Il s’agit d’un problème à deux classes et
une variable ; les éléments de la classe A sont des Classe A Classe B
réalisations de nombres aléatoires obéissant à une
loi qui est la somme de deux gaussiennes ; ceux de -15 -10 -5 0 +5 +10
la classe B sont des réalisations de nombres aléa- Figure 2-13. Densités de probabilité pour les classes A
toires obéissant à une loi uniforme dans un inter- et B
valle borné (figure 2-13).
On peut donc calculer analytiquement les probabi-
1
lités a posteriori (figure 2-14), et déterminer les
limites de chaque classe (figure 2-15). Pour estimer
0,5
le taux d’erreur, on réalise un grand nombre
d’exemples de chaque classe et l’on compte la 0
proportion de ces réalisations qui se trouve du -15 -10 -5 0 +5
« mauvais côté » des limites déterminées par le Figure 2-14. Probabilité a posteriori de la classe A,
classifieur de Bayes ; dans ce problème, on dispose calculée par la formule de Bayes
de 600 exemples pour chaque classe (figure 2-16) à
partir desquels, par simple dénombrement, on estime le taux d’erreur à 30,1 %. Ainsi, on peut affirmer
que, pour ce problème, aucun classifieur, aussi bien conçu soit-il, ne peut réaliser une performance
meilleure que 69,9 % de classification correcte ; le meilleur classifieur réel est celui qui s’approche le plus
de cette limite théorique.
A B A B A 600 exemples
-15 -10 -5 0 +5
0 Répartition des 1200 exemples
Figure 2-15. Classification réalisée par le classifieur
de Bayes
600 exemples
-15 -10 -5 0 5 10
Classification et régression
Le lien entre classification et estimation de la fonction de régression s’établit de manière très simple dans
le cas d’un problème à deux classes. On montrera ensuite comment on peut traiter les problèmes à plus de
deux classes.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 116/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
97
CHAPITRE 2
Propriété
Démonstration
Γ(x) est l’espérance mathématique de
La fonction de régression de Γ étant donné x, notéeEΓ x . Or,
Estimation de la probabilité
Classe C 1
a posteriori de la classe C 1
0 Classe C 2 sachant que l’on observe le descripteur x 1
1
Figure 2-17. Estimation
Frontière entre de la probabilité a posteriori
Pr (C 1 | x)
00 0 0 0000000 000
00
x1 x
La complexité de la frontière entre les classes dépend de la complexité du modèle choisi. Le modèle le plus
simple est le modèle sans neurone caché, avec un neurone de sortie à fonction sigmoïde. Il définit une surface
de séparation qui est une droite pour un problème à deux variables, un plan pour un problème à trois variables,
et une surface appelée hyperplan dans les autres cas. Considérons en effet un classifieur à un neurone :
g( x ,w) = th ( v) avec v = w⋅ x.
Après apprentissage, et après la transformation mentionnée ci-dessus pour que la prédiction du modèle
puisse constituer une estimation d’une probabilité, cette dernière devient:
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 117/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
98
1 + th (w ⋅ x )
.
2
La frontière est le lieu des points où les
probabilités a posteriori sont égales à 1
0,5, donc le lieu des points pour
lesquels th(w⋅x) = 0, soit encore : 0,8
w ⋅ x = 0, 0,6 (1 ) ( 2 ) Pr C x = Pr C x = 0,5
2 1
1 0,8
Frontière entre les classes:
0 0,6
( ) (
Pr C 1 x = Pr C 2 x = 0,5)
g(x, w)
-1
x2
0,4
-2
0,2
-3
0
-4
4 5
2
-5 0
-2 0
-6 x2 -4
-5 x1
-5 0 5 -6
x1
Figure 2-19. Classification non linéaire par un réseau de neurones à deux neurones cachés et un neurone de sortie
à activation sigmoïde
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 118/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
99
CHAPITRE 2
L’excellent ouvrage [BISHOP 1995] est entièrement consacré à la mise en œuvre de réseaux de neurones
pour la classification. Le chapitre 6 du présent ouvrage présente en détail les réseaux de neurones
(binaires ou non) ainsi que les machines à vecteurs supports pour la classification.
Problème à C classes
Lorsque le problème de classification est un problème à plus de deux classes, plusieurs approches sont
possibles :
• résoudre globalement le problème en estimant simultanément, pour un objet donné, ses probabilités
d’appartenance aux différentes classes ;
• diviser le problème en sous-problèmes à deux classes, concevoir un ensemble de « classifieurs deux à
deux » et combiner les résultats de ces derniers pour estimer les probabilités a posterioriglobales.
Ces deux approches vont être examinées successivement.
■ Approche globale
Cette approche est fréquemment mise en œuvre, bien
C neurones qu’elle ne soit pas toujours la plus efficace pour des
..... à fonction d’activation problèmes difficiles. Elle consiste à utiliser un réseau
sigmoïde
de neurones à C sorties (figure 2-20), le résultat étant
.... codé à l’aide d’un code 1-parmi-C : à l’événement
« l’objet appartient à la classe Ci » est associé un
vecteur g dont seule la composante i est égale à 1, les
x1 x2 x3 .... x n Descripteurs autres composantes étant égales à 0. De manière
analogue au cas de deux classes, on démontre facile-
Figure 2-20. Classification non linéaire à C classes : ment que l’espérance mathématique de chacune des
Perceptron multicouche à C neurones de sortie
à fonction d’activation sigmoïde composantes est égale à la probabilité a posteriori de la
classe correspondante.
Terminologie
Dans le jargon des réseaux de neurones, un codage « un-parmi-C » est appelé « codage grand-mère ». Cette appellation provient de la
neurobiologie : l’une des théories de la représentation des informations dans les systèmes nerveux soutient que certains de nos neurones
sont spécialisés dans la reconnaissance de formes usuelles, notamment du visage de notre grand-mère.
Il convient de noter plusieurs différences pratiques entre un Perceptron multicouche pour la classification
et un Perceptron multicouche pour la modélisation statique :
• contrairement au cas de la modélisation, les neurones de sortie d’un réseau pour la classification ont une
fonction d’activation sigmoïde, pour assurer que l’estimation de la probabilité soit comprise entre 0 et
1 ; on trouvera, dans le chapitre 6, une justification théorique à l’utilisation de la tangente hyperbolique
comme fonction d’activation des neurones de sortie pour la classification ;
• pour la classification, il est parfois plus efficace, pour estimer les probabilités, de minimiser la fonction
de coût d’entropie croisée plutôt que la fonction de coût des moindres carrés [HOPFIELD 1987] [BAUM
1988] [HAMPSHIRE 1990] ; les algorithmes d’apprentissage qui seront présentés dans la section
« Estimation des paramètres (apprentissage) d’un réseau de neurones non bouclé » s’appliquent sans
difficulté pour cette fonction de coût :
C
⎡ g ( x , w) ⎤ ⎡ 1 − g i ( x k ,w) ⎤
(
J = − ∑ ∑γ ki ln ⎢ i kk ⎥ + 1 − γik ln ⎢ ) ⎥
⎣ γi ⎣ 1−γ i
k
k i =1 ⎦ ⎦
où γ ik est la valeur (0 ou 1) de la variable indicatrice pour la sortie i lorsque l’on présente à l’entrée
l’exemple k, décrit par le vecteur de descripteurs xk, et où gi (xk,w) est la valeur de la sortie i du classifieur
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 119/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
100
pour cet exemple. On vérifie facilement que cette fonction est minimale lorsque tous les exemples sont
correctement classés.
Bien entendu, il convient de vérifier que la somme des sorties vaut 1 à la fin de l’apprentissage. La
méthode Softmax permet de garantir que cette condition est automatiquement remplie [BRIDLE 1990].
Cette difficulté ne se présente évidemment pas si l’on utilise un ensemble de classifieurs « deux à deux ».
Comme indiqué dans le
Classification : Théorique Estimée avec 4 neurones cachés
chapitre 1, le dilemme 1
biais-variance existe pour
la classification comme
pour la régression. Des 0,5
exemples de surajustement
en classification ont été
présentés dans le chapitre 0
1, figure 1-6. Il faut donc -15 -10 -5 0 5 10
mettre en œuvre, pour (a)
sélectionner le meilleur
modèle, les techniques de
sélection de modèles intro- Classification : Théorique Estimée avec 5 neurones cachés
duites dans le chapitre 1. 1
Essentiellement, il faut
trouver un réseau dont les
taux d’erreurs de classifi- 0,5
cation sur l’ensemble
d’apprentissage et sur un
ensemble de validation 0
soient du même ordre de -15 -10 -5 0 5 10
grandeur, et les plus petits (b)
possibles.
La figure 2-21 montre un Classification : Estimée avec 6 neurones cachés
Théorique
exemple de surajustement 1
dans l’estimation de la
probabilité d’appartenance
à la classe A pour l’exem- 0,5
ple présenté sur la figure
2-16 ; on voit que le réseau
à 4 neurones cachés est trop 0
peu complexe pour estimer -15 -10 -5 0 5 10
correctement la probabi- (c)
lité, alors qu’un réseau à Figure 2-21. Estimation des probabilités d’appartenance à la classe A avec trois
6 neurones cachés s’ajuste classifieurs de complexités différentes : (a) 4 neurones cachés (complexité insuffisante),
sur les fluctuations de la (b) 5 neurones cachés (performance très proche de la meilleure performance théorique),
(c) 6 neurones cachés (surajustement manifeste)
densité des points utilisés
pour l’apprentissage. Le
taux de classification incorrecte, estimé sur un ensemble de validation de plusieurs millions de points, est
de 30,3 %, alors que le classifieur théorique de Bayes donne une erreur minimale de 30,1 %. On vérifie
bien ici que les réseaux de neurones peuvent approcher les meilleures performances possibles, celles du
classifieur théorique de Bayes.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 120/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
101
CHAPITRE 2
■ Classification 2 à 2
Il est souvent beaucoup plus sûr, pour des problèmes difficiles, de traiter une classification à C classes
comme C(C-1)/2 problèmes de classification à 2 classes, pour les raisons suivantes :
• on peut bénéficier de nombreux résultats et algorithmes, notamment concernant la séparation linéaire
entre classes. Ces éléments sont largement développés dans le chapitre 6 ; ils seront introduits très briè-
vement dans le paragraphe suivant, intitulé « Séparabilité linéaire » ;
• on obtient des réseaux beaucoup plus petits, dont l’apprentissage est court et la manipulation simple ;
chacun d’eux ayant une seule sortie, son interprétation comme une probabilité est immédiate;
• les descripteurs pertinents pour séparer la classeA de la classe B ne sont pas nécessairement les mêmes
que ceux utiles pour discriminer la classe A de la classe C. En reconnaissance de formes notamment, le
fait de ne pas utiliser tous les descripteurs, mais seulement ceux qui sont utiles, constitue un avantage
considérable ; les techniques de sélection des variables exposées dans le chapitre 1 sont directement
utilisables.
Une fois que les C(C-1)/2 probabilités des classes deux à deux ont été estimées, éventuellement par de
simples réseaux sans couche cachée, la probabilité pour qu’un objet décrit par le vecteur de descripteurs
x appartienne à la classe Ci est calculée par la relation [PRICE 1994] :
1
Pr( Ci x) = C
1
∑ Pr − ( C − 2 )
j =1 ij
j ≠i
On peut donc considérer un Perceptron comme la limite d’un réseau à un seul neurone, lorsque la pente à
l’origine de la tangente hyperbolique tend vers l’infini. La frontière est l’hyperplan d’équation x⋅w = 0.
Lorsque l’on découpe le problème en sous-problèmes de séparation de classes deux à deux, il apparaît que
la séparation linéaire entre deux classes présente très souvent une complexité suffisante ; il est même
fréquent que, dans des problèmes multiclasses réputés « difficiles », les exemples soient, en fait, linéaire-
ment séparables si l’on considère les classes deux à deux. Or, dans ce dernier cas, des algorithmes simples
et élégants permettent de trouver une très bonne solution, comme expliqué en détail dans le chapitre 6 : la
première étape, dans la conception d’un classifieur, est donc de chercher à savoir si les exemples des
classes sont séparables deux à deux. L’algorithme de Ho et Kashyap [HO 1965], largement antérieur aux
réseaux de neurones, fournit rapidement une réponse à cette question :
• si les exemples sont linéairement séparables, l’algorithme converge en un nombre fini d’itérations vers
une solution ;
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 121/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
102
• si les exemples ne sont pas linéairement séparables, l’algorithme l’indique également après un nombre
fini d’itérations.
Par exemple, pour la base de données de codes postaux fournie par le National Institute of Standards and
Technology, qui a servi de support à de très nombreux travaux, les classes de chiffres sont linéairement
séparables deux à deux, même si l’on utilise une représentation par pixels [KNERR 1992] ! De même, il
existe une base de données, relative à des signaux sonar, qui a fait l’objet de très nombreuses études et a
donné lieu à la conception de nombreux classifieurs fort compliqués ; en quelques secondes de calcul,
l’algorithme de Ho et Kashyap montre que les exemples des deux classes sont linéairement séparables. Il
est donc tout à fait inutile, pour cette application, de concevoir un classifieur plus complexe qu’un réseau
à un neurone ; cette application sera reprise dans le chapitre 6.
Attention
Si le nombre d’exemples n’est pas grand devant la dimension du vecteur d’entrée dans la représentation choisie, il est inutile d’aller plus
loin, en vertu du théorème de CoverOVER[C 1965], présenté dans le chapitre 6 : il faut chercher une représentation plus « compacte » ou
bien collecter d’autres exemples avant de passer aux étapes suivantes, ou encore, lors de l’apprentissage, adopter une méthode de régu-
larisation sévère telle que la modération des poids (weight decay, décrite dans la section « Régularisation par modération des poids »).
• pour chaque paire de classes, effectuer la sélection des variables selon les méthodes décrites dans le
chapitre 1 ; en effet, il n’est pas du tout certain que les mêmes descripteurs soient utiles pour séparer les
classes A et B et pour séparer les classes A et C ;
• pour chaque paire de classes, tester la séparabilité linéaire des exemples des classes deux à deux à l’aide
de l’algorithme de Ho et Kashyap ;
• pour toutes les classes dont les exemples sont séparables deux à deux, mettre en œuvre les méthodes de
séparation linéaire (décrites dans le chapitre 6), et obtenir une estimation des probabilités a posteriori ;
• pour les classes non linéairement séparables, mettre en œuvre de petits Perceptrons multicouches ou des
Perceptrons sphériques décrits dans le chapitre 6, avec estimation des probabilités ; mettre en œuvre des
méthodes de validation croisée ou de leave-one-out (voir chapitres 1 et 2) pour la sélection de modèles ;
• estimer la probabilité d’appartenance à chaque classe à partir des probabilités déterminées à l’étape
précédente, selon la formule indiquée plus haut dans la section « Classification 2 à 2 » ;
• fixer les seuils de décision pour définir les classes de rejet.
Cette stratégie constitue une variante de la procédure STEPNET [KNERR 1990] [K NERR 1991], utilisée
efficacement dans plusieurs applications industrielles.
Dans la planification d’un tel projet, il ne faut pas sous-estimer le temps nécessaire pour la première et
pour la dernière étape : dans les applications réelles non triviales, ce sont fréquemment les deux étapes les
plus longues. La dernière d’entre elles est susceptible de remettre en cause les résultats obtenus lors des
étapes précédentes.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 122/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
103
CHAPITRE 2
L’application de cette stratégie est évidemment limitée par le fait que le nombre de classifieurs varie
comme le carré du nombre de classes. Néanmoins, chacun des classifieurs est très simple, de sorte que
cette démarche s’applique sans difficulté jusqu’à quelques dizaines de classes, ce qui couvre l’immense
majorité des applications. Si le nombre de classes est plus élevé, il faut avoir recours à des stratégies
hiérarchiques.
Rappelons que le chapitre 6 est entièrement consacré à la classification. Il présente notamment les
machines à vecteurs supports, qui sont des outils de classification très puissants, notamment par le fait
qu’ils permettent de contrôler la complexité du modèle.
L’idée de l’apprentissage à partir de données structurées remonte au début des années 1990, où les
« mémoires auto-associatives récursives » ont été conçues afin de fournir un codage compact pour une
catégorie particulière de graphes appelés « arbres » [POLLAK 1990]. Une synthèse sur le développement
de l’apprentissage numérique à partir de données structurées est présentée dans [GOULON 2005].
Le principe des « graph machines » est simple : au lieu de construire une fonctiong(x, w) qui est la même
pour tous les exemples, on construit, pour chaque graphe, une fonction (ou « machine » dans le jargon de
l’apprentissage) par combinaison de fonctions élémentaires, cette combinaison ayant la structure du
graphe. Les fonctions élémentaires qui constituent les machines sont identiques, mais c’est la façon de les
combiner qui change d’un exemple à l’autre : c’est elle qui reflète la structure du graphe auquel on veut
associer la grandeur que l’on cherche à prédire.
Ainsi, au lieu de concevoir une seule machine qui réalise la prédiction pour tous les exemples, on construit
autant de machines que d’exemples ; toutes ces machines ont des structures différentes, qui reflètent la
structure des données que l’on veut traiter, mais elles sont constituées des mêmes fonctions munies des
mêmes paramètres. Les sections suivantes présentent cette approche de manière un peu plus détaillée.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 123/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
104
Définitions
Graphes acycliques
Rappelons qu’un graphe est défini par un ensemble de nœuds et un ensemble d’arêtes entre ces nœuds, les
arêtes pouvant être orientées. S’il n’est pas possible de trouver un chemin dans le graphe, respectant
l’orientation des arêtes, dont le point de départ et le point d’arrivée sont identiques, le graphe est dit
acyclique.
La figure 2-22 représente un ensemble de trois graphes ; les machines correspondantes sont obtenues en
remplaçant chaque nœud par une fonction paramétréef(z, w), où w est le vecteur des paramètres. La fonc-
tion du nœud qui effectue le dernier calcul (nœud « racine ») peut être différente des autres ; elle est notée
F(z, W). Pour chaque graphe acyclique Gi , on construit une fonction gi (« graph machine ») qui est une
combinaison de fonctions paramétrées (« fonctions de nœuds ») identiques. Ces fonctions de nœuds
peuvent être, par exemple, des réseaux de neurones ; les fonctions g i sont parfois appelées « réseaux
récursifs » [FRASCONI 1998].
1
Graphe G1: g w , W( x1, x 2, x3, x4 ) F W x4 f ( z1, w ) f ( z2 , w ) f ( z3 ) où :
• x1, x 2, x 3 , sont des vecteurs = ( de, variables,
, de dimension
, X1, W
qui), w
fournissent une information sur les
nœuds ; ces variables ne sont pas obligatoires, mais elles peuvent être utiles pour fournir une informa-
tion spécifique aux nœuds (un exemple en est présenté dans la section « Aide à la découverte de
médicaments »). Si ces informations ne sont pas utiles, on a X1 = 0, et, dans ce cas, la valeur de
g 1w, W ( x1 , x2 , x3 , x4 ) ne dépend que du graphe et des paramètres des fonctions de nœud ;
• z1, z2, z 3 sont des vecteurs de dimension D 1 + 1 ; soit dk le degré du nœud k, c’est-à-dire le nombre
d’arêtes adjacentes à ce nœud, et M1 = maxkd k . On a : D1 = M 1 + X1 ; dans cet exemple M1 = 3, donc
D 1 = 3. Ces vecteurs sont construits de la manière suivante :
– pour tous les nœuds, la première composante z0 est égale à 1 ;
– pour le nœud k, de degré dk, les composantes 2 à dk + 1 de zk sont les valeurs de fw calculées
par les nœuds parents du nœud k, c’est-à-dire les nœuds j tels qu’il existe dans le graphe une
arête orientée de j vers k ; si d k < Mk, les composantes dk + 2 à M1 + 1 sont égales à zéro ; si
X1 = 0, les composantes M1 + 2 à M1 + 1 + X 1 sont les composantes de xk.
7 7
9
4
10 8
6
5 4
6
1 3 5
1 2 3 3
Graphe G 1
1
2 2 4
Graphe G 2 Graphe G 3
Figure 2-22. Trois graphes acycliques orientés
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 124/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
105
CHAPITRE 2
Dans l’exemple représenté sur la figure 2-22, s’il n’est pas nécessaire de fournir une information sur les
nœuds (X 1 = 0), on a D 1 = 3.
Graphe G 2 :
( ( ( ) )
g2w, W (x1 , x2 , x 3 , x 4 , x 5 , x 6 ,x 7 ) = FW x 7 , f (z 6 ,w ) , fw x 5 , f (z 4 , w ), fw x3, f ( z2 , w), f ( z1 , w), w , w , W )
où les vecteurs x 1 à x7 et z1 à z6 sont construits comme les variables correspondantes de G1, avec M2= 2.
S’il n’est pas nécessaire d’étiqueter les nœuds (X 2 = 0), on a :
( ) ( )
T T
D2 = 2, z1 = z2 = z4 = z6 = (1 0 0 ) , z3 = 1 f ( z1, w) f ( z2 , w) , z 5 = 1 f ( z3, w) f ( z4, w) ,
T
( )
T
z7 = 1 f ( z5 , w) f ( z6 , w)
Graphe G 3 :
( ( ( ( ( ) ( ) ) ) )
g3w, W ( x1 ,..., x10 ) = FW x10 , f w x9 , f w x8 , f (z7 , w ) , f x 6 , f x 5 , fw ( z 4 ,w) , w , f x3 , f ( z2 , w) , f ( z1 , w) , w, w , w , w , W )
où les vecteurs x 1 à x 10 et z 1 à z9 sont construits comme indiqué plus haut, avec M3= 2.
Si ces trois graphes sont utilisés comme ensemble d’apprentissage, les trois graph machines doivent
posséder les mêmes fonctions de nœuds, de sorte que le nombre de variables de la fonction de nœud soit
D = max Di , i = 1 à 3.
i
Graphes cycliques
Les graph machines peuvent manipuler les cycles et les arêtes parallèles, ce qui est important notamment
pour leurs applications en aide à la découverte de médicaments. Le graphe initial subit un prétraitement
qui consiste à supprimer des arêtes, en nombre égal au nombre de cycles, et à détruire toutes les arêtes
parallèles sauf une ; de plus, on affecte à chaque nœud une étiquette qui est égale à son degré dans le
graphe initial, ce qui permet de conserver l’information complète sur la structure du graphe original.
Enfin, on choisit un nœud racine et l’on affecte les orientations convenables aux arêtes.
Apprentissage
L’apprentissage des graph machines entre dans le cadre habituel de minimisation du risque structurel,
présenté dans le chapitre 1. Il nécessite la définition d’une fonction de perte et la minimisation d’une fonc-
tion de coût par rapport aux paramètres de la fonction de nœud. La fonction de coût peut, si nécessaire,
contenir un ou des termes de régularisation(voir la section « Apprentissage avec régularisation »). Typi-
quement, la fonction de coût est de la forme :
N
( ) 2
J ( w, W) = ∑ yip − giw, W + λ1 w + λ 2 W
i =1
où N est le nombre d’exemples de l’ensemble d’apprentissage, yip est la valeur de la grandeur à modéliser
pour l’exemple i, λ 1 et λ2 sont des constantes de régularisation convenablement choisies. Rappelons que
les paramètres w et W sont les mêmes pour toutes les machines i, de sorte qu’il faut utiliser la technique
des « poids partagés » qui sera décrite dans la section « Évaluation du gradient sous contrainte d’égalité
des paramètres ».
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 125/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
106
Les algorithmes d’optimisation, décrits dans la section « Modification des paramètres en fonction du
gradient de la fonction de coût » sont directement applicables.
fw ( x) = w0 + w1 z1 + w2 z2 + w3 z3 .
Toutes les arêtes étant équivalentes, on a w 1 = w2 = w3 = w. Il n’y a donc que deux paramètres indépen-
dants, w et w0 .
Ce problème admet une solution évidente : w = w0 = 1. Ainsi, pour le graphe G1 , on a :
( )
g1w ,W (x 1, x 2 , x 3, x 4 ) = f 1, f (z1, w ), f ( z2 , w), f ( z3 , w) , 0 3 1 0 4
w
où z1 = z2 = z3 = (1 0 0 0) . On obtient bien le wrésultat
T
= w cherché.
w+ =
De même, considérons l’apprentissage du nombre 5 5
d’arêtes d’un graphe. Supposons que, en plus des trois
graphes précédents, l’ensemble d’apprentissage
contienne le graphe G4, représenté sur la figure 2-23. 3 4 3 4
Ce graphe est cyclique, de sorte qu’il doit subir le
prétraitement indiqué plus haut : une des arêtes du
cycle doit être supprimée, par exemple l’arête entre 1
et 2. Afin de conserver l’information sur l’existence de 1 2 1 2
cette arête dans le graphe initial, on affecte à chaque Graphe G 4 Graphe acyclique
nœud une étiquette égale à son degré ; on a donc à orienté
présent Xk = 1 pour tous les nœuds de tous les graphes Figure 2-23. Graphe cyclique
de l’ensemble d’apprentissage. Aucune autre informa-
tion n’est nécessaire pour le problème que l’on cherche à résoudre. On a donc, pour le grapheG 4 :
avec :
x1 = 2 , x2 = 2, x 3 = 3, x 4 = 1, x5 = 2, z1 = z2 = (1 0 0 0 2) ,
T
z3 = 1( f ( z1, w) ) T
f ( z2 , w) 0 3 , z4 = (1 0 0 0 1) , z5 = 1 f ( z3, w)
T
( f ( z4 , w) 0 2 .) T
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 126/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
107
CHAPITRE 2
gw4 ( x1, x2 , x3 , x4 , x5 ) = 1 + 2 w + 2 w2 = 5
obtenus pour l’apprentissage de l’indice de Wiener Figure 2-24. Prédiction de l’indice de Wiener
d’un graphe, c’est-à-dire l’apprentissage de la somme par une graph machine
des distances entre ses nœuds. La base de données
utilisée contient 150 graphes engendrés aléatoirement, dont les indices de Wiener varient entre 1 et 426.
Les résultats présentés ont été obtenus avec des fonctions de nœuds qui sont des réseaux de neurones à
4 neurones cachés ; la sélection de modèle a été effectuée par validation croisée. D’autres problèmes
académiques sont décrits dans [GOULON 2007].
Des exemples d’application des graph machines à la prédiction de propriétés et d’activités de molécules
sont présentés dans la section « Aide à la découverte de médicaments ».
Exemples d’applications
Introduction
Le début de ce chapitre a été consacré à l’exposé du contexte mathématique qui est essentiel pour
comprendre ce que sont réellement les réseaux de neurones et les principes sur lesquels repose leur mise
en œuvre. Certains aspects peuvent paraître un peu « techniques », mais il est important d’avoir bien
compris ces bases. En effet, la simplicité même de mise en œuvre des réseaux de neurones constitue un
danger, car elle peut conduire à une application irréfléchie qui donne des performances médiocres ou
mauvaises.
Les réponses aux questions que se pose tout ingénieur ou chercheur qui envisage d’utiliser des réseaux de
neurones peuvent également être éclairées par l’exposé de quelques applications typiques. Bien entendu,
il n’est pas question ici de faire un exposé exhaustif des applications des réseaux de neurones : plusieurs
livres n’y suffiraient pas. Il s’agit plutôt de montrer quelques applications ayant un caractère exemplaire,
en insistant sur les raisons pour lesquelles les réseaux de neurones ont un apport important, voire décisif.
Reconnaissance de formes :
la lecture automatique de codes postaux
C’est sans doute dans le domaine de la reconnaissance de caractères que les réseaux de neurones ont
acquis leurs lettres de noblesse, et ont prouvé qu’ils constituent des alternatives fiables à d’autres
méthodes de classification. On citera ici quelques exemples et résultats, qui s’appuient sur les considéra-
tions pratiques développées dans le paragraphe consacré aux réseaux de neurones pour la classification.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 127/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
108
La reconnaissance automatique de codes postaux a probablement été l’un des problèmes de reconnais-
sance d’images les plus étudiés. En effet, si le traitement automatique du courrier à adresse dactylogra-
phiée ou imprimée est relativement simple, celui du courrier à adresse manuscrite est beaucoup plus
complexe, en raison de la variabilité des styles d’écriture. Pour chaque objet postal, une machine automa-
tique doit soit identifier le code, soit indiquer qu’elle ne peut pas l’identifier, et donc faire appel à un
opérateur humain. Comme indiqué plus haut, il est plus onéreux de rectifier une erreur de tri commise par
une machine que de faire lire un code postal par un opérateur, de sorte que le critère de performance le
plus fréquemment utilisé pour les machines de lecture de codes postaux est le suivant : pour un taux
d’erreur maximal fixé (par exemple, 1 %) sur les codes identifiés, quelle est la fraction du courrier qui
devra être traitée par un opérateur ? À l’heure actuelle, les machines les plus performantes font appel à des
réseaux de neurones (conjointement à d’autres techniques), et le taux de rejet est inférieur à 5 % pour un
taux d’erreur inférieur à 1 %.
L’essor des études sur la reconnaissance des codes postaux est dû à deux facteurs : d’une part, l’enjeu
économique du problème ; d’autre part, le fait que, dès 1990, des bases de données de grande taille ont été
mises dans le domaine public par le Service postal des États-Unis (USPS), puis par le National Institute
of Science and Technology (NIST). Cette disponibilité de bases de données, accessibles à tous, a permis
à de nombreux laboratoires (universitaires et industriels), de valider, de manière statistiquement significa-
tive, les méthodes et procédures qu’ils avaient développées. Cette politique a permis de faire progresser
l’état de l’art sur la reconnaissance des codes postaux et, de manière plus générale, sur les problèmes de
classification complexes.
La figure 2-25 présente quelques extraits de la base
USPS, qui comprend en tout 9 000 caractères (ce qui
est encore relativement peu, eu égard à la complexité
du problème). On observe immédiatement la diversité
des styles et les difficultés auxquelles il faut faire face.
Considérons l’exemple du code postal situé en haut à
droite de l’image ; on lit sans effort le code 68544,
mais on constate :
• que le chiffre 6 est coupé en deux morceaux ;
• que le 8 et le 5 sont attachés ;
• mais que le 5 est coupé en deux, et sa partie droite
attachée au 4 ! Figure 2-25. Quelques morceaux choisis de la base
Donc, si l’on fonde la reconnaissance du code sur la de données USPS
reconnaissance de chacun de ses chiffres séparément,
il faut d’abord résoudre le problème de la « segmentation » : comment séparer les chiffres les uns des
autres ? Une fois ce difficile problème résolu, il reste à traiter la très grande diversité des styles, des tailles,
des orientations, des chiffres isolés : il faut pour cela résoudre le problème crucial de la « représentation »
des formes à classer, c’est-à-dire du choix des descripteurs qui seront utilisés par un ou plusieurs classi-
fieurs, éventuellement neuronaux. Il est impossible de traiter ce problème de représentation de manière
générale, car il dépend complètement de l’application mise en œuvre : il est évident que l’on ne peut pas
représenter, de la même manière, des images de trait telles que des caractères manuscrits ou imprimés, des
images issues de satellites météorologiques, ou encore des radiographies médicales.
En dépit de la grande diversité des traitements mis en œuvre pour les images, il existe quelques opérations
de base que l’on retrouve dans toutes les applications réelles : détection de contours, rehaussement de
contraste, etc. (certaines de ces opérations se trouvent également dans le système visuel humain). Dans le
cas de la reconnaissance de caractères, la normalisation est également incontournable, pour que tous les
traitements portent sur des chiffres de même taille. L’ingénieur doit toujours réaliser un compromis entre
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 128/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
109
CHAPITRE 2
Connectivité complète
30 neurones cachés
Connectivité partielle
(poids partagés)
12 x 64
neurones cachés
Connectivité partielle
(poids partagés)
256 variables
L’entrée du réseau est une matrice de 16× 16 pixels. Une première couche de neurones cachés est
composée de 12 ensembles de 64 neurones cachés, chacun des 64 neurones cachés recevant des informa-
tions concernant un « champ réceptif » de 5× 5 pixels. Ces ensembles de 64 neurones sont appelés
« cartes de caractéristiques », car les variables de tous les neurones d’une carte donnée sont affectées des
mêmes paramètres (technique des « poids partagés », décrite dans la section « Évaluation du gradient
sous contrainte d’égalité des paramètres »). Ainsi, on fait agir le même opérateur, localement, sur chaque
ensemble de 25 pixels, de sorte que l’ensemble des sorties d’un groupe de 64 neurones constitue une carte
du résultat de l’application de l’opérateur à l’image. Si la technique des opérateurs locaux est classique en
traitement d’images, l’originalité de la présente méthode réside dans le fait que ces derniers ne sont pas
conçus par l’ingénieur : ils sont déterminés par apprentissage à partir d’exemples. L’opération est renou-
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 129/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
110
velée dans une deuxième couche d’opérateurs qui traitent les résultats de la première couche. On obtient
ainsi 12 cartes de 16 neurones cachés, soit 192 neurones dont les sorties constituent le vecteur de descrip-
teurs utilisé pour la classification. Celle-ci est effectuée avec un réseau à une couche de 30 neurones
cachés et 10 neurones de sortie. Les neurones de sortie utilisent un codage 1-parmi-C, qui a été défini
plus haut : il y a autant de neurones dans la couche de sortie que de classes. La sortie du neurone i doit
être égale à 1 si la forme à classer appartient à la classe i, et doit être sinon égale à 0.
Ainsi, un tel réseau réalise automatiquement le prétraitement et la classification, opérations qui sont tradi-
tionnellement conçues séparément. Le prix à payer est évidemment une certaine lourdeur d’apprentissage
et, compte tenu du grand nombre de paramètres, la nécessité de faire preuve d’une grande vigilance rela-
tivement au surajustement.
Pour traiter le même problème, une approche très différente [KNERR 1992] consiste à réaliser un prétrai-
tement plus élaboré de l’image, afin d’extraire des caractéristiques discriminantes qui permettent
d’utiliser un classifieur relativement simple. Le prétraitement est la détection de contours suivie d’une
normalisation, qui produit 4 cartes de caractéristiques de 64 éléments, soit un vecteur de 256 compo-
santes. Mettant en œuvre la méthodologie de conception d’un classifieur décrite plus haut, les dix classes
ont été séparées deux à deux : 45 classifieurs différents ont été élaborés, dont l’apprentissage a été effectué
séparément et qui sont très simples puisque, dans l’application considérée, il se trouve que tous les exem-
ples de l’ensemble d’apprentissage sont linéairement séparables deux à deux. Chacun des 45 classifieurs
est donc constitué d’un seul neurone.
La figure 2-27 montre les 18 erreurs commises par ce classifieur sur les 9 000 caractères de la base de
données USPS. Pour chaque chiffre manuscrit, l’indication en haut à droite est la classe d’appartenance
du chiffre indiquée dans la base, et le chiffre en bas à droite est la classe affectée par le classifieur. On
remarquera notamment le cas du dernier chiffre (en bas à droite de la figure) qui est reconnu comme un
chiffre 1 alors qu’il est classé dans la base comme un chiffre 8, ce qui est évidemment une erreur d’étique-
tage.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 130/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
111
CHAPITRE 2
Le tableau 2-1 met en évidence l’amélioration de performances qui résulte de la mise en œuvre d’une
meilleure représentation : après ajustement des seuils de décision afin d’obtenir, dans les deux cas, un taux
d’erreur de 1 %, le taux de rejet pour la représentation par pixels est beaucoup plus élevé que pour la
représentation par caractéristiques. Il faut noter que les deux représentations ont la même dimension (dans
les deux cas, chaque chiffre est représenté par un vecteur de 256 composantes) : l’amélioration ne
provient pas de la compacité de la représentation, mais de sa bonne adéquation au problème posé. C’est
la réflexion de l’ingénieur qui fait la différence.
1,2
1,0
0,8
0,6
0,4
0,2
0
1 5 9 13 17 21 25 29 33 37 41
Couple de classes
Pixels Caractéristiques
Figure 2-28. Distances entre classes pour deux représentations : la représentation par cartes de caractéristiques éloigne
les classes les unes des autres, et donc facilite le travail ultérieur des classifieurs
Taux de chiffres bien classés Taux de rejet Taux d’exemples mal classés
Représentation par pixels 70,9 % 28,1 % 1%
Représentation par caractéristiques 90,3 % 8,7 % 1 %
Tableau 2-1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 131/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
112
seur qui dépend de la fréquence du champ magnétique. Ces courants sont détectés par un second
bobinage ; la présence de défauts dans le métal modifie le signal recueilli, à la fois en amplitude et en
phase. Ainsi, le signal induit constitue une signature des défauts. Comme il existe toujours plusieurs caté-
gories de défauts, qui peuvent être plus ou moins graves, il est important de pouvoir non seulement
détecter ces défauts, mais encore les classer. Il faut aussi pouvoir faire une distinction entre des défauts et
des phénomènes normaux qui peuvent également avoir une influence sur le signal : la jointure entre deux
rails provoque une modification des courants de Foucault, analogue à celle engendrée par une fissure,
alors qu’il s’agit d’un événement normal (mais sa position est connue, ce qui facilite la discrimination).
Dans l’application considérée, le système de création et de détection des courants de Foucault est monté
sous la voiture, à quelques dizaines de millimètres du rail, comme représenté sur la figure 2-29.
Comme toujours, le choix des descripteurs du signal conditionne en grande partie l’efficacité de la discri-
mination. Comme il s’agit ici d’images « mono-dimensionnelles » (par opposition aux images
« bidimensionnelles » traitées précédemment), on peut utiliser un relativement petit nombre de descrip-
teurs qui sont fondés sur les composantes de Fourier du signal, à condition que ces descripteurs soient
bien choisis. La méthode de la variable sonde, exposée dans le chapitre 1, a été mise en œuvre pour déve-
lopper cette application [OUKHELLOU 1998].
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 132/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
113
CHAPITRE 2
l’information qu’il juge pertinente, devient une nécessité absolue. Comme la plupart de ces outils sont
destinés à être utilisés dans un cadre professionnel, les exigences de fiabilité et de convivialité sont très
importantes ; les problèmes à résoudre pour satisfaire ces exigences sont nombreux et difficiles. L’accès
à l’information pertinente peut être réalisée en fournissant à un utilisateur des documents pertinents, ou
en lui proposant des passages de documents pertinents (ou des réponses à des questions). Le premier cas
relève du domaine de la recherche de textes, le second du domaine de l’extraction d’informations.
La catégorisation de textes, appelée également « filtrage », consiste à trouver, dans un ensemble de docu-
ments (comme un fil de dépêches d’agence de presse, ou un ensemble de pages Web), ceux relatifs à un sujet
défini par avance. On peut ainsi fournir à un utilisateur, en temps réel, toutes les informations importantes
pour l’exercice de son métier. Dans ce cas, l’utilisateur n’exprime pas son intérêt par une requête, mais par
un ensemble de documents pertinents qui définissent un thème ou une catégorie. Pour un thème donné, la
catégorisation consiste donc à résoudre un problème de classification supervisée à deux classes ; celui-ci
peut être résolu notamment par les méthodes décrites dans cet ouvrage : les réseaux de neurones, les
machines à vecteurs supports (chapitre 6) ou les modèles de Markov cachés (chapitre 4).
C’est un problème très difficile, qui va bien au-delà de la recherche par mots-clés. En effet, supposons,
que l’on cherche à sélectionner, dans le flot des dépêches de l’AFP, celles qui sont pertinentes pour le
thème « prises de participations entre entreprises » ; des textes qui contiennent les phrases : « la société A
a racheté la société B » ou bien « A est entré dans le capital de B à hauteur de 10 % », ou encore « A vient
de franchir à la hausse le cap des 20 % des parts sociales de B », sont tous pertinents, et pourtant ils ne
contiennent aucun des mots qui définissent le thème. En revanche, la phrase « la participation des commu-
nistes au gouvernement inquiète les chefs d’entreprises » n’est pas pertinente, bien qu’elle contienne deux
des mots du thème.
L’application (extraite de [STRICKER 2000]) a été développée pour la Caisse des dépôts et consignations,
qui offre, sur l’intranet du groupe, un service de filtrage de dépêches de l’AFP en temps réel. Les objectifs
sont doubles :
• développement d’une application permettant à un utilisateur d’obtenir automatiquement un filtre
d’information sur un thème de son choix, sous réserve de fournir des exemples de textes pertinents pour
le thème considéré ;
• développement d’un outil permettant de surveiller l’obsolescence des filtres classiques, constitués de
systèmes à base de règles.
Pour atteindre le second objectif, on fabrique une copie d’un filtre à base de règles avec un filtre utilisant
un réseau de neurones. Comme le réseau de neurones fournit une probabilitéde pertinence et non une
réponse binaire, il est possible d’analyser les plus grandes divergences entre les deux filtres : les docu-
ments considérés comme pertinents par la méthode à base de règles, mais obtenant une probabilité proche
de zéro avec le réseau de neurones, et les documents considérés comme non pertinents avec le premier et
obtenant une probabilité de pertinence proche de un avec le second [WOLINSKI 2000].
Le premier de ces objectifs consiste donc en la conception et la réalisation d’un système de création auto-
matique de filtres, dont la caractéristique majeure est l’absence d’intervention d’un expert, par opposition
à la mise en œuvre d’un système à base de règles. Il s’agit donc de concevoir un système de discrimination
à deux classes ; à partir d’une base de documents étiquetés comme pertinents ou non pertinents pour le
thème considéré, il faut :
• trouver une représentation des textes par des nombres, représentation qui doit être aussi compacte que
possible ;
• concevoir et mettre en œuvre un classifieur utilisant cette représentation.
Le problème de la représentation des textes, et donc de la sélection des variables, est évidemment central
dans cette application.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 133/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
114
0 t
0 1 2 3
log r(m)
4 5 les documents pertinents : le vocabulaire spécifique du thème
est l’ensemble des mots dont la composante dans v est non
Figure 2-30. Vérification expérimentale
de la loi de Zipf sur le corpus Reuters, nulle. La figure 2-30 montre que, sur le corpus des dépêches
et représentation des mots du vocabulaire Reuters, la loi de Zipf est assez bien vérifiée, et que les mots
spécifique au thème « Falkland petroleum du vocabulaire spécifique du thème « Falkland petroleum
exploration » exploration » sont bien au milieu de la distribution.
Sélection finale
À l’intérieur du vocabulaire spécifique ainsi défini, qui peut être encore vaste (une à quelques centaines
de mots), une sélection finale est effectuée par la méthode de la variable sonde, décrite dans le chapitre 1.
À la fin de cette étape, il apparaît que, en moyenne sur 500 thèmes étudiés, le vocabulaire spécifique d’un
thème comprend 25 mots, ce qui est tout à fait raisonnable pour un vecteur de variables d’un réseau de
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 134/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
115
CHAPITRE 2
neurones. Néanmoins, cette représentation n’est pas encore satisfaisante, même si elle est compacte. En
effet, les mots seuls sont ambigus : dans une application comme celle-ci, il est indispensable de tenir
compte du contexte.
Détermination du contexte
Pour introduire le contexte dans la représentation des textes, on cherche des mots de contexte dans une
fenêtre de 5 mots de part et d’autre de chaque mot du vocabulaire spécifique. On définit :
• des mots de contexte positifs, qui sont les mots que l’on trouve dans le voisinage des mots du vocabu-
laire spécifique, dans les documents pertinents ;
• des mots de contexte négatifs, qui sont les mots que l’on trouve dans le voisinage des mots du vocabu-
laire spécifique, dans les documents non pertinents.
Pour sélectionner les mots de contexte, on utilise exactement la même procédure que pour la détermination
du vocabulaire spécifique. Typiquement, pour l’exemple de « prise de participation entre entreprises », on
constate que pour le mot « capital », qui fait partie du vocabulaire spécifique, les mots « détient » et
« droits » se trouvent dans les mots de contexte spécifique, et les mots « risque » et « fonds » dans le
contexte négatif.
En moyenne sur 500 thèmes différents, un thème est défini par 25 mots de vocabulaire spécifique, chacun
de ces mots ayant 3 mots de contexte.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 135/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
116
des poids a été mise en œuvre dans cette application ; on en verra l’effet dans la section consacrée à
l’apprentissage avec régularisation.
0,8
0,8
0,6
Scor e
0,6
0,385
0,4 0,343 0,326 0,317
0,237 0,234
0,185 0,177
0,2 0,4 0,335
0,099 0,081
0,253
0
) ) 0,2 0,158
) ) ) ) )
r2 r1 po po r1 2) r2 0) 00
N N f2 fr2 UN
r er
9
no
0 po
2R 2R 9r UN tr
(S (S ok 9r (K (M rp an
ok en
(K nt .(
0 ,0078
D
C C t( t( en IG (a
IC D of of eg eg /S U. sU
0
IC os os ijm IT er
icr ci r N ijm IR ers g ICDC Microsoft Rutgers U Rutgers U (antrpms00)
N tg t
M M U. U. Ru Ru (S2RNsamp) (ok9rf r2ps) (antrpnms00)
Figure 2-32. Résultats de l’épreuve de « routing » de TREC-9 : en noir : résultats obtenus par la méthode décrite ci-dessus ;
en gris : résultats obtenus par d’autres méthodes
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 136/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
117
CHAPITRE 2
Pourquoi les méthodes d’apprentissage statistique peuvent-elles être mises en œuvre avec profit dans ce
contexte ? Si l’on admet qu’il existe une relation déterministe entre certains descripteurs de la molécule
et la propriété que l’on veut prédire, alors on est ramené à un problème de détermination de la fonction de
régression de la propriété envisagée, en fonction des descripteurs choisis.
La première question qu’il convient de se poser est celle des données utilisables pour l’apprentissage et pour
l’évaluation des performances du réseau. Compte tenu de l’importance des enjeux, il existe de nombreuses
bases de données concernant des propriétés telles que le point d’ébullition, la solubilité dans l’eau ou le coeffi-
cient de partage eau-octanol, ou encore des activités telles que l’action anti-VIH, la toxicité, etc.
La deuxième question à se poser est celle des variables pertinentes pour le modèle envisagé. Ici, les
connaissances du chimiste doivent nécessairement guider le choix de ces variables. On peut envisager
plusieurs catégories de descripteurs :
• des descripteurs chimiques tels que la masse moléculaire, le nombre d’atomes de carbone… ;
• des descripteurs géométriques tels que le volume de la molécule, sa surface, son ovalité… ;
• des descripteurs électriques tels que les charges portées par les différents atomes, le moment dipolaire… ;
• etc.
Pour chaque propriété que l’on cherche à prédire, il faut donc établir un ensemble de descripteurs que l’on
peut supposer pertinents, et utiliser une technique de sélectionde variables, comme celles décrites dans le
premier chapitre, afin de déterminer les descripteurs qui sont réellement utiles pour les molécules et la
propriété considérées. En raison de leur parcimonie, des réseaux de neurones de très petite taille (5 à
7 neurones cachés) fournissent généralement des résultats de meilleure qualité que les techniques de
régression multilinéaire habituellement mises en œuvre dans ce domaine D [ UPRAT 1998].
Néanmoins, les propriétés et activités des molécules dépendent en grande partie de la structure de celles-
ci ; c’est pourquoi il est particulièrement intéressant d’utiliser des méthodes de régression ou de classifi-
cation de données structurées telles que les graph machines décrites précédemment dans la section
« Modélisation et classification de données structurées ». En effet, elles permettent de s’affranchir
complètement de la détermination, du calcul et de la sélection des descripteurs, puisque la structure
chimique détermine directement les prédictions du modèle.
À titre d’exemple, considérons la prédiction des 9
Ensemble d’apprentissage-validation
propriétés anti-VIH de dérivés de la tétrahydroimi-
8 Ensemble de test
dazobenzo-diazepinone (TIBO), qui agit en
bloquant l’activité de l’enzyme qui permet la dupli- 7
Activité prédite
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 137/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
118
fonction de nœud constituée d’un réseau de neurones à 3 neurones cachés, qui ne commet aucune erreur,
ni sur les données d’apprentissage, ni sur les données de test.
De nombreux autres exemples d’applications sont décrits dans [GOULON 2007].
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 138/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
119
CHAPITRE 2
6 neurones
1600
cachés
1500
1400
1300
1200
1100
1000
900
800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700
(a)
1600
1500
Polynôme de degré 3
1400
1300
1200
1100
1000
900
800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700
(b)
1600
1500
0 neurones cachés
1400 (modèle linéaire)
1300
1200
1100
1000
900
800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700
(c)
Figure 2-34. Diagrammes de dispersion (température prédite en fonction de la température observée) pour la prédiction
de la température de liquidus de verres d’oxydes en fonction de la composition, pour trois modèles différents.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 139/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
120
• le temps nécessaire pour intégrer numériquement les équations différentielles et les équations aux déri-
vées partielles du modèle de connaissance est supérieur, de plusieurs ordres de grandeur, à la durée
d’une soudure : on ne peut donc pas utiliser un tel modèle pour une prédiction en temps réel ;
• certains paramètres physiques, qui interviennent dans les équations du modèle de connaissance, sont
mal connus.
La modélisation par apprentissage est donc une alternative intéressante à un modèle de connaissance. Le
procédé étant non linéaire et présentant plusieurs variables, les réseaux de neurones sont de bons candi-
dats pour effectuer une prédiction, en temps réel, du diamètre du point fondu, et donc de la qualité de la
soudure, en fonction de mesures effectuées pendant la soudure [MONARI 1999].
Les difficultés sont, d’une part, le choix des variables du modèle et, d’autre part, le fait que la constitution
d’une base de données est onéreuse : le nombre d’exemples est donc limité.
Les grandeurs candidates pour constituer des variables du modèle sont des grandeurs mécaniques et élec-
triques qui peuvent être mesurées durant le processus. La sélection des variables a été effectuée à l’aide
des méthodes décrites dans le chapitre 1, et le choix ainsi effectué a été validé par les experts impliqués
dans le développement du modèle de connaissance du procédé.
Comme il n’existe pas de méthode non destructive simple pour prédire le diamètre du point fondu, la base
de données est construite de la manière suivante : un ensemble de soudures est effectué dans des condi-
tions bien contrôlées ; elles sont ensuite arrachées (« déboutonnées ») et le diamètre du « bouton fondu »,
qui reste solidaire d’une des tôles, est mesuré. C’est un processus long et coûteux, de sorte que l’ensemble
d’apprentissage initial comprenait seulement 250 exemples. En utilisant l’estimation des intervalles de
confiance qui sera exposée dans la section « Effet du retrait d’un exemple sur l’intervalle de confiance
pour sa prédiction », un plan d’expériences a été établi, qui a permis d’enrichir progressivement la base
de données disponible. La moitié de ces données a été utilisée pour l’apprentissage, l’autre pour le test ;
la sélection de modèle a été effectuée par la procédure de leave-one-out virtuel, de sorte qu’il n’a pas été
nécessaire d’utiliser un ensemble de validation.
La figure 2-35 présente des diagrammes de dispersion typiques, où chaque prédiction figure avec son
intervalle de confiance. L’erreur de généralisation estimée (score de leave-one-out, voir chapitre 1 et
section « Sélection de modèles » du présent chapitre) est de 0,27 mm, et l’EQMT de l’ordre de 0,23 mm.
Ces quantités étant de l’ordre de grandeur de l’incertitude de mesure, ces résultats sont très satisfaisants.
8 8
7 7
Diamètre prédit (mm)
6 6
Figure 2-35.
5 5 Diagrammes
de dispersion
4 4 pour la prédiction
du diamètre
3 3 de soudures
par points,
2 2 et intervalles
2 3 4 5 6 7 8 2 3 4 5 6 7 8 de confiance sur
Diamètre mesuré (mm) Diamètre mesuré (mm) les prédictions
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 140/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
121
CHAPITRE 2
Application en robotique :
modélisation de l’actionneur hydraulique d’un bras de robot
On cherche à concevoir un modèle d’un bras de robot dont la position est commandée par un actionneur
hydraulique. La position du bras dépend de la pression de liquide hydraulique dans l’actionneur, pression
commandée par l’ouverture d’une vanne. Il s’agit d’un processus dynamique, commandé en temps discret ;
comme indiqué dans la section « À quoi servent les réseaux de neurones bouclés ? », on omet de mentionner
la période d’échantillonnageT afin d’alléger les notations. Les variations de l’ouverture de la vanne, c’est-à-
dire la séquence de signaux de commande {u(k)}, et la pression d’huile correspondante, c’est-à-dire la
séquence de la grandeur à modéliser {yp(k)}, sont représentées sur la figure 2-36. Cet ensemble de données
contient 1 024 points de mesure : la première moitié d’entre eux est utilisée pour l’apprentissage, la seconde
pour l’estimation de la performance (séquence de test). On ne dispose d’aucune autre information sur le
processus : on a donc nécessairement recours à une modélisation boîte noire.
1,5
Commande
1
0,5
0
-0,5
-1
-1,5
0 200 400 (a) 600 800 1000
-2
-4
0 200 400 (b) 600 800 1000
Figure 2-36. Séquences d’apprentissage et de test pour la modélisation d’un bras de robot
L’examen des données montre que le processus n’est certainement pas linéaire et que, compte tenu des
oscillations observées en réponse à des variations de u(k) qui sont presque des échelons, le processus est
au moins d’ordre 2. On observe aussi que les séquences d’apprentissage et de test n’explorent qu’approxi-
mativement le même domaine de fonctionnement (signaux de sortie et de commande de même type et de
même amplitude). On note qu’aux instants 600 et 850 environ de la séquence de validation, l’amplitude
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 141/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
122
g (k + 1) = x 1 (k + 1) = Ψ 1 ( x1 ( k ) , x 2 ( k ) , u ( k ))
x 2 (k + 1 ) = Ψ 2 ( x 1 ( k ) , x 2 ( k ) , u ( k ) )
g(k+1) = x 1(k+1)
x2(k+1)
q-1
5
yp
g
1 u(k) x2 (k)
-5
g(k) = x 1 (k) 0 100 200 300 400 500
Figure 2-37. Modèle neuronal d’état pour l’actionneur Figure 2-38. Modélisation d’état de l’actionneur hydraulique
hydraulique. La sortie est l’une des variables d’état.
L’erreur quadratique moyenne obtenue avec le modèle de la figure 2-37 est de 0,07 sur la séquence
d’apprentissage et de 0,12 sur la séquence de validation, ce qui est une très bonne performance compte
tenu de la représentativité des données disponibles. Les résultats obtenus sur la séquence de test sont
représentés sur la figure 2-38. Les défauts de modélisation résultent du fait qu’il y ait des perturbations
non mesurées, qui ne figurent pas dans les variables du réseau.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 142/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
123
CHAPITRE 2
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 143/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
124
tion optimale du réseau et une bonne anticipation des difficultés qui peuvent résulter de pluies impor-
tantes. La fiabilité du système dépend donc largement de la fiabilité des capteurs des niveaux d’eau dans
les collecteurs : il est donc important de pouvoir détecter automatiquement qu’un capteur est en panne
[ROUSSEL 2001].
La possibilité de créer, par apprentissage, des modèles statiques ou dynamiques a permis la réalisation de
nombreux systèmes de détection de dysfonctionnements : si l’on dispose d’un modèle précis du fonction-
nement normal du processus que l’on veut surveiller, et que l’on observe une différence significative entre
les prédictions du modèle et les mesures effectuées, on peut en conclure que le système est en fonction-
nement anormal ou, dans l’exemple décrit ici, que le capteur considéré est en panne.
Deux types de pannes doivent être considérés :
• capteur bloqué (fournissant une mesure constante) ;
• capteur subissant une dérive lente.
Ces deux types de pannes peuvent êtres détectés en utilisant des réseaux de neurones bouclés, notamment
des modèles NARMAX, qui seront décrits en détail dans la section « Techniques et méthodologie de
conception de modèles dynamiques » de ce chapitre, ainsi que dans le chapitre 4. Ainsi, la figure 2-39
montre clairement la différence de comportement de l’erreur de modélisation lorsque le capteur est en
fonctionnement normal et lorsqu’il dérive.
0,04
0,02
Erreur moyenne de modélisation
0
1 3 5 7 9 11 13
-0,02
Dérive Figure 2-39.
-0,04
Fonctionnement Détection
-0,06 normal de panne
de capteur dans
-0,08 un collecteur
-0,10 d’eau pluviale
-0,12
Jour
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 144/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
125
CHAPITRE 2
il faut généralement disposer d’un modèle de celui-ci ; les réseaux de neurones interviennent donc dans
les systèmes de commande non linéaires comme modèles du processus, soit pendant la phase d’appren-
tissage, soit en tant qu’élément du système de commande lui-même (commande avec modèle interne).
D’autre part, l’élaboration du signal de commande (par exemple l’angle dont il faut faire tourner le volant,
et la vitesse angulaire avec laquelle il faut le faire tourner) à partir de l’information de consigne (le cap
que doit suivre le véhicule) implique généralement la réalisation d’une fonction non linéaire, donc les
réseaux de neurones peuvent avantageusement assurer cette fonction : celle du correcteur.
Le véhicule expérimental REMI est équipé d’actionneurs (moteur électrique pour faire tourner le volant,
actionneur hydraulique pour le circuit de freinage, moteur électrique pour le papillon d’admission d’air)
et de capteurs de deux types :
• des capteurs qui permettent de connaître l’état du véhicule (capteurs proprioceptifs) : odomètres sur les
roues, capteur angulaire sur le volant et le papillon d’admission d’air, capteur hydraulique sur le circuit
de freinage ;
• un capteur qui permet de connaître la position du véhicule par rapport au monde extérieur (capteur
extéroceptif) : une centrale inertielle.
Le système de navigation et de pilotage est constitué des éléments suivants :
• un module de planification qui, à partir de l’objectif à atteindre et des contraintes (routes), détermine la
trajectoire que doit suivre le véhicule, et le profil de vitesse à respecter durant le trajet ;
• un module de guidage, qui élabore les consignes de cap et de vitesse ;
• un module de pilotage, qui détermine les positions souhaitées pour les actionneurs ;
• un module de commande des actionneurs eux-mêmes.
Dans cette structure, les réseaux de neurones interviennent au niveau du pilotage pour déterminer les
actions souhaitables en fonction des consignes de cap et de vitesse [RIVALS 1994] [RIVALS 1995].
L’application a nécessité la conception et la réalisation de deux systèmes de commande destinés à réaliser
deux tâches :
• la commande du volant, pour maintenir le véhicule sur sa trajectoire : un régulateur neuronal de la posi-
tion a été réalisé, qui permet une erreur latérale maximale de 40 cm, pour des courbures jusqu’à 0,1 m-1 ,
et des dévers jusqu’à 30 %, sur route et en tout-terrain ; cet asservissement a mis en œuvre, en certains
de ses éléments, une modélisation semi-physique ;
• la commande de l’accélérateur et du frein, pour respecter le profil de vitesse imposé par le module de
guidage.
Il faut noter que les divers réseaux de neurones mis en jeu dans cette application, qu’ils jouent le rôle de
modèles ou de correcteurs, sont tous de très petite taille (moins d’une dizaine de neurones cachés). Leur
mise en œuvre en temps réel n’a nécessité aucun matériel spécialisé : ils ont été réalisés sous forme
uniquement logicielle, exécutés sur une carte à microprocesseur standard qui remplissait diverses autres
fonctions.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 145/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
126
jusqu’à présent. On reprendra ici les éléments de méthodologie exposés succinctement dans le premier
chapitre : sélection de variables, apprentissage, sélection de modèles.
(
J (w ) = ∑ y pk − g (xk , w ) .) 2
k =1
Les méthodes qui peuvent être mises en œuvre pour minimiser la fonction de coût sont de deux types :
• des méthodes non adaptatives d’apprentissage : elles consistent à estimer les paramètres du modèle par
minimisation de la fonction de coût des moindres carrés, qui tient compte simultanément de tous les
exemples de l’ensemble d’apprentissage ; l’utilisation d’une telle méthode nécessite évidemment que
les N exemples soient disponibles dès le début de l’apprentissage ;
• des méthodes adaptatives d’apprentissage : elles consistent à modifier les paramètres du modèle,
(2
successivement en utilisant la fonction de perte relative à chaque exemple k : π (xk ,w ) = yk − g ( x k , w ) .
p
)
Cette technique est la seule qui soit applicable lorsqu’on désire effectuer l’apprentissage sans attendre
que tous les exemples soient disponibles ; elle permet également de mettre à jour un modèle si le
processus qu’il modélise est soumis à des dérives lentes (usures, encrassements…).
Terminologie
En anglais, on désigne l’apprentissage non adaptatif sous le terme de batch training ou off-line training, et l’apprentissage adaptatif sous le
terme de on-line training.
L’apprentissage non adaptatif, le plus fréquemment utilisé, est décrit dans la section suivante.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 146/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
127
CHAPITRE 2
Terminologie
Pour l’apprentissage non adaptatif, on utilise aussi, au lieu du terme d’itération, le terme d’époque.
Ces deux points vont être abordés successivement ; on rappelle tout d’abord le préalable indispensable :
la normalisation des variables.
■ Normalisation des variables et de la grandeur à modéliser
Rappelons que, avant tout apprentissage, il est indispensable de normaliser et de centrer toutes
les variables, ainsi que la grandeur à modéliser. La procédure de normalisation a été décrite dans le
chapitre 1, section « Prétraitement des données ».
À proscrire
On trouve trop souvent l’expression « réseau de neurones à rétropropagation » (quand ce n’est pas « réseau backprop »...) pour désigner
un réseau de neurones non bouclé. Cette expression est doublement absurde : d’une part, il est parfaitement possible de faire l’apprentis-
sage d’un réseau non bouclé sans utiliser la rétropropagation, comme on le verra dans le paragraphe intitulé « Évaluation du gradient de
la fonction de coût dans le sens direct » ; d’autre part, on utilise aussi la rétropropagation dans l’apprentissage de réseaux bouclés, comme
on le montrera dans les paragraphes consacrés à l’apprentissage de modèles dynamiques. Il n’y a donc aucun lien entre l’architecture du
réseau (bouclé ou non bouclé) et l’utilisation, ou la non-utilisation, de la rétropropagation.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 147/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
128
⎛ni ⎞
yi = f (v i ) = f ⎜∑w ij x ij ,
⎝j=1 ⎠
où x ij désigne la variable j du neurone i. Les ni variables du neurone i peuvent être soit les sorties
d’autres neurones, soit les variables du réseau. Dans toute la suite, x ij désignera donc indifféremment soit
la sortie yj du neurone j, soit la variable j du réseau, l’une ou l’autre constituant une variable du neurone i.
La fonction de coût dont on cherche à évaluer le gradient est de la forme :
N N
( ) 2
J (w ) = ∑ y pk − g (xk , w ) = ∑ π ( xk , w) ,
k =1 k =1
où π (xk,w) est la fonction de perte relative à l’exemple k. Pour évaluer le gradient de la fonction de coût,
il suffit donc d’évaluer le gradient de la fonction de perte relative à l’observationk, et de faire ensuite la
somme sur tous les exemples.
L’algorithme de rétropropagation consiste essentiellement en l’application répétée de la règle des dérivées
composées. On remarque tout d’abord que la fonction de perte ne dépend du paramètrew ij que par l’inter-
médiaire de la valeur de la sortie du neurone i, qui est elle-même fonction uniquement du potentiel du
neurone i ; on peut donc écrire :
⎛∂π (x , w ) ⎞ ⎛∂ π ( x, w) ⎞ ⎛ ∂v i ⎞ k i
⎜ ∂w ⎟ = ⎜ ∂ v ⎟ ⎜∂w ⎟ = δ i xj ,k ,
⎝ ij ⎠x= xk ⎝ i ⎠x= x k ⎝ ij ⎠x = x
k
où
⎛∂π ( x, w)⎞
•⎜ = δ ki désigne la valeur du gradient de la fonction de perte par rapport au potentiel du
⎝ ∂ vi ⎟ ⎠x =x
k
neurone i lorsque les valeurs des variables du réseau sont celles qui correspondent à l’exemple k ;
⎛∂ v ⎞
• ⎜ i ⎟ = xij, k désigne la valeur de la dérivée partielle du potentiel du neurone i par rapport au para-
⎝∂wij ⎠x =x k
mètre w ij lorsque les variables du réseau sont celles qui correspondent à l’exemple k ;
• x ij, k est la valeur de la variable j du neurone i lorsque les variables du réseau sont celles qui correspon-
dent à l’exemple k.
Cette dernière quantité est entièrement calculable si l’on connaît les valeurs des paramètres. Or celles-ci
sont connues à tout moment pendant l’apprentissage, puisqu’elles ont initialement des valeurs aléatoires,
qui sont ensuite modifiées selon les algorithmes qui seront présentés dans la section « Modification des
paramètres en fonction du gradient de la fonction de coût » ; les quantités x ij, k sont donc connues. Il reste
donc à évaluer les quantités δ ik présentes dans le membre de droite de l’équation. On va démontrer que ces
quantités peuvent être avantageusement calculées d’une manière récursive en menant les calculs depuis la
(ou les) sortie(s) du réseau vers ses entrées.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 148/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
129
CHAPITRE 2
En effet :
• pour le neurone de sortie, de potentiel vs :
⎛∂ π ( x, w) ⎞ ⎛∂ 2 ⎞ ⎛∂ g (x ,w ) ⎞
δ sk = ⎜ = ⎜ ⎡ ( ykp − g (x k , w )) ⎤ ⎟= −2e (xk , w )⎜ ,
⎝ ∂vs ⎟ ⎠x =x ⎝∂ vs ⎣ ⎦⎠ ⎝ ∂ vs ⎟ ⎠x =x
k k
où e( x k ,w) = y kp − g (xk ,w ) est l’erreur de modélisation commise par le réseau, muni du vecteur de para-
mètres w, pour l’exemple xk.
Or, la prédiction du modèle est le résultat du calcul du neurone de sortie ; cette relation s’écrit donc :
( ) ( )
δ sk = −2 e (x k ,w ) f ′ v sk , où f ′ v ks désigne la dérivée de la fonction d’activation du neurone de sortie
lorsque les entrées du réseau sont celles de l’exemple k. Si, comme c’est le cas lorsque le réseau est
utilisé en modélisation, le neurone de sortie est linéaire, l’expression se réduit à : δ sk = −2 e( x k , w) ;
• pour un neurone caché i : la fonction de coût ne dépend du potentiel du neurone i que par l’intermédiaire
des potentiels des neurones m dont une des variables est la valeur de la sortie du neurone i, c’est-à-dire
de tous les neurones qui, dans le graphe des connexions du réseau, sont adjacents au neuronei, entre ce
neurone et la sortie :
⎛∂ π ( x, w) ⎞ ⎛∂π ( x, w) ⎞ ⎛∂vm ⎞ k ⎛∂ v m ⎞
δ ik ≡ ⎜
⎝ ∂ vi ⎠ ⎟ = ∑⎝ ⎜ ∂v ⎟ ⎝
⎠ ⎟ = ∑ δm ⎝
⎜∂ v ⎠ ⎜ ∂v ⎠ ⎟ .
x =x m m x =x i x =x m i x =x
k k k k
Désignant par vkm le potentiel du neurone m lorsque les variables du réseau sont celles de l’exemple k, on
⎛∂v ⎞
( )
a : vkm = ∑ w mi x im, k = ∑ w mi f vik . Par conséquent ⎜ m ⎟ = w mi f ′ vik .
⎝ ∂vi ⎠x =xk
( )
i i
Ainsi, les quantités δ ik peuvent être calculées récursivement, en parcourant le graphe des connexions
« dans le sens rétrograde », depuis la (les) sortie(s) vers les variables du réseau (ce qui explique le terme
de rétropropagation).
Une fois que les gradients des fonctions de perte ont été calculés, il suffit d’en faire la somme pour obtenir
le gradient de la fonction de coût.
Résumé de la rétropropagation
L’algorithme de rétropropagation comporte deux phases pour chaque exemple k :
• une phase de propagation, au cours de laquelle les variables correspondant à l’exemple k sont utilisées
pour calculer les sorties et les potentiels de tous les neurones ;
• une phase de rétropropagation, au cours de laquelle sont calculées les quantitésδ ik .
Une fois que ces quantités sont disponibles, on calcule les gradients des fonctions de perte par les relations
⎛∂π (x ,w )⎞ ∂J (w) N ∂π (x k ,w )
⎟ = δ i x j , k, puis le gradient du coût total ∂w = ∑ ∂w .
k i
⎜ ∂w
⎝ ij ⎠x =x k ij k =1 ij
L’algorithme de rétropropagation peut être interprété sous une forme graphique, en introduisant le
« réseau adjoint » du réseau dont on veut estimer les paramètres. Cette approche, parfois utile, est
présentée dans le chapitre 4 traitant de l’identification de systèmes dynamiques.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 149/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
130
Remarque importante
L’algorithme de rétropropagation a été présenté ici dans le cadre de la minimisation de la fonction de coût des moindres carrés. Il est facile
de l’adapter au calcul du gradient de n’importe quelle autre fonction de coût dérivable, notamment, pour la classification, à la fonction de
coût d’entropie croisée.
⎛∂π (x , w ) ⎞ ⎛ ∂ 2 ⎞ ⎛∂ g( x , w) ⎞
(
⎜ ∂ w ⎟ = ⎜∂ w ⎣ yk − g( x ,w) ⎦ ⎟
⎡ p ⎤ )
= −2e xk , w ⎜ (
⎟ . )
⎝ ij ⎠x = xk ⎝ ij ⎠x= xk ⎝ ∂ w ij ⎠x =xk
Or, g(x, w) est la sortie d’un neurone du réseau, donc la dernière dérivée peut être calculée récursivement
par le même procédé que toutes les autres. Une fois évalué le gradient de la fonction de perte pour chaque
exemple, on fait la somme de ces gradients comme pour la rétropropagation.
Comparaison entre l’évaluation du gradient de la fonction de coût par rétropropagation et par calcul
dans le sens direct
Les calculs qui viennent d’être exposés montrent que la rétropropagation nécessite l’évaluation d’un
gradient par neurone, alors que le calcul direct requiert l’évaluation d’un gradient par connexion. Comme
le nombre de connexions est à peu près proportionnel au carré du nombre de neurones, le nombre
d’évaluations de gradient est plus important pour le calcul direct que pour la rétropropagation.
Donc, pour l’apprentissage de réseaux non bouclés, on utilisera avantageusement la rétropropagation pour
évaluer le gradient de la fonction de coût.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 150/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
131
CHAPITRE 2
Évaluation du gradient sous contrainte d’égalité des paramètres : les « poids partagés »
On a vu dans la section « Modélisation et classification de données structurées », qu’il est nécessaire, pour
l’apprentissage des graph machines, d’effectuer l’apprentissage sous la contrainte qu’un certain nombre
de paramètres doivent être égaux entre eux à la fin de l’apprentissage. On retrouve la même contrainte
pour l’apprentissage des réseaux de convolution (section « Reconnaissance des formes : la lecture auto-
matique de codes postaux »). Enfin, la même contrainte est imposée pour l’apprentissage des réseaux
dynamiques, qui sera abordé dans la section « Techniques et méthodologie de conception de modèles
dynamiques ». Cette contrainte est appelée « contrainte des poids partagés », introduite initialement dans
le contexte de la reconnaissance de la parole [WAIBEL 1989]). Or on verra, dans la section suivante, que
l’évolution des paramètres, à chaque itération de l’algorithme d’apprentissage, dépend du gradient de la
fonction de coût ; pour que plusieurs paramètres restent égaux, il faut donc que le gradient de la fonction
de coût utilisé pour leur mise à jour soit le même pour tous.
Supposons donc que, dans un même réseau,v paramètres doivent être égaux :
w1 = w2 = … = wv = w
On peut écrire le gradient de la fonction de coût sous la forme :
∂J ∂J ∂w1 ∂J ∂ w2 ∂ J ∂ wν ,
= + + ... +
∂ w ∂w1 ∂w ∂w 2 ∂ w ∂w ν ∂ w
ν
∂w 1 ∂w 2 ∂w ∂J ∂J
or =
∂w ∂w
= ... = ν = 1 , donc
∂w ∂w
= ∑ ∂w .
i =1 i
Ainsi, lorsqu’un réseau contient des poids partagés, il faut, à chaque itération, effectuer la rétropropaga-
tion de la manière habituelle pour calculer les gradients par rapport à ces paramètres, puis calculer la
somme de ces gradients, et affecter cette valeur à chacun de ces gradients, avant de procéder à la modifi-
cation de ces paramètres.
■ Modification des paramètres en fonction du gradient de la fonction de coût
Dans la section précédente, on a vu comment évaluer le gradient de la fonction de coût par rapport aux
paramètres du modèle, à chaque itération du processus d’apprentissage. Une fois que l’on dispose de cette
évaluation, on effectue une modification des paramètres, afin d’approcher d’un minimum de la fonction
de coût. On examine à présent quelques algorithmes de minimisation itérative des paramètres du modèle.
La méthode du gradient simple
La méthode du gradient simple consiste à modifier les paramètres par la formule suivante, à l’itération i
de l’apprentissage :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 151/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
132
• Au voisinage d’un minimum de la fonction de coût, le gradient de cette dernière tend vers zéro : l’évolu-
tion du vecteur des coefficients devient donc très lente. Il en va de même si la fonction de coût présente
des « plateaux » où sa pente est très faible ; ces plateaux peuvent être très éloignés d’un minimum, et,
dans la pratique, il est impossible de savoir si une évolution très lente du gradient est due au fait que l’on
est au voisinage d’un minimum, ou que l’on se trouve sur un plateau de la fonction de coût.
• Si la courbure de la surface de coût varie beaucoup, la direction du gradient peut être très différente de
la direction qui mènerait vers le minimum ; c’est le cas si le minimum recherché se trouve dans une
« vallée » longue et étroite (les courbes de niveau sont des ellipsoïdes allongés au voisinage du
minimum), comme on le voit également sur la figure 2-40.
Figure 2-40.
Minimisation
de la fonction
de coût par
la méthode
du gradient
simple
Pour porter remède au premier inconvénient, de très nombreuses heuristiques ont été proposées, avec des
succès divers. Les méthodes de recherche unidimensionnelle (notamment celle qui est présentée dans les
compléments théoriques et algorithmiques à la fin de ce chapitre), fondées sur des principes solides, sont
recommandées.
Pour faire face aux deux autres problèmes, on utilise des méthodes du second ordre qui, au lieu de modi-
fier les coefficients uniquement en fonction du gradient de la fonction de coût, utilisent les dérivées
secondes de cette dernière. Certaines de ces méthodes font également intervenir un paramètre μ suscep-
tible d’être choisi à l’aide de méthodes de recherche unidimensionnelle.
Les grandes lignes des méthodes du second ordre les plus fréquemment utilisées, ainsi que les méthodes
de recherche unidimensionnelle du pas, sont présentées dans les sections suivantes.
Les méthodes de gradient du second ordre
Toutes les méthodes du second ordre sont dérivées de la méthode de Newton, dont on décrit ici le principe.
Le développement de Taylor d’une fonction f(x) d’une seule variable x au voisinage d’un minimum x* est
donné par la relation :
1 ⎛d 2 f ⎞
f ( x ) = f ( x *) +
2
( )
( x − x *)2 ⎜ 2 ⎟ + O x 3 ,
⎝dx ⎠x= x*
car le gradient de la fonction de coût f(x) est nul au minimum. Une approximation du gradient de la fonc-
tion de coût au voisinage du minimum est obtenue aisément à partir de la relation précédente, en la déri-
vant par rapport à w :
df ⎛d 2 f ⎞
≈ ( x − x *)⎜ 2 ⎟ .
dx ⎝dx ⎠x= x*
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 152/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
133
CHAPITRE 2
Par conséquent, lorsque la variable x est au voisinage de x*, on pourrait atteindre ce minimum en une
seule itération si l’on connaissait la dérivée seconde de la fonction à son minimum : il suffirait pour cela
⎛df
------ ⎞
⎝dx ⎠
de modifier la variable w de la quantité Δx = -----------------------.
d2 f ⎞
⎛--------
⎝d x2 ⎠
x = x*
Le même raisonnement s’applique à une fonction de plusieurs variables, la dérivée seconde étant
∂ 2f
remplacée par la matrice hessienne H( w ) de la fonction à optimiser, de terme général : pour
∂ x i∂ x j
atteindre le minimum de la fonction de coût en une itération, il suffirait d’appliquer au vecteur des poids
la modification suivante (sous réserve que la matrice hessienne soit inversible) :
−1
Δx = − H ( x *) ∇ f (x ).
Remarque
Ainsi, à la différence de la méthode du gradient simple, les méthodes du second ordre adoptent une direction de déplacement, dans
l’espace des variables, qui n’est plus la direction du gradient, mais qui résulte d’une transformation linéaire de celui-ci.
Cette dernière formule n’est évidemment pas applicable en pratique, puisque le vecteur x* n’est pas
connu. Néanmoins, elle suggère plusieurs techniques qui mettent en œuvre une approximation itérative de
la matrice hessienne (ou de son inverse). Deux d’entre elles seront présentées en annexe théorique et algo-
rithmique de ce chapitre : la méthode de Broyden-Fletcher-Goldfarb-Shanno (algorithme BFGS,
[BROYDEN 1970]) et l’algorithme de Levenberg-Marquardt ([LEVENBERG 1944] [MARQUARDT 1963]). Il
faut noter que ces méthodes ne sont pas spécifiques aux réseaux de neurones : ce sont des méthodes très
générales d’optimisation. On en trouvera des descriptions détaillées dans [PRESS 1992] ; cet ouvrage
présente également la technique du « gradient conjugué », qui utilise la matrice hessienne de manière
implicite.
Pour l’apprentissage des réseaux de neurones, la fonction à optimiserf(x) en fonction des variables x n’est
autre que la fonction de coûtJ(w), qu’il faut optimiser par rapport aux paramètres w du réseau. Le gradient
de J(w) est évalué par l’algorithme de rétropropagation décrit plus haut.
Que faire en pratique ?
En premier lieu, il ne faut pas utiliser la méthode du gradient simple et ses variantes, dont les temps de
convergence (en nombre d’itérations) sont supérieurs de plusieurs ordres de grandeur à ceux des
méthodes du second ordre (voir ci-après le paragraphe présentant quelques problèmes tests). L’utilisation
de la méthode du gradient simple ne peut se justifier que dans le cas où l’on utilise de très gros réseaux
(plusieurs milliers de paramètres), ce qui peut se produire pour des problèmes de classification dans
lesquels les objets à classer ont de très nombreux descripteurs (typiquement, des images représentées par
des descripteurs de bas niveau). Dans ce cas, on arrête la descente avant d’atteindre un minimum de la
fonction de coût, afin d’éviter le surajustement ; cette technique, dite d’arrêt prématuré (early stopping),
constitue une forme de régularisation, sur laquelle on reviendra dans la section consacrée à l’apprentis-
sage avec régularisation.
Remarque
On mentionne souvent dans la littérature l’heuristique du « terme de moment » (momentumLAUT term1986])
[P qui consiste à ajouter au
terme de gradient – μ ∇J un terme proportionnel à la variation des coefficients à l’itération précédente [ w(i – 1) – w (i – 2)] ; on réalise ainsi
une sorte de filtre passe-bas qui peut éviter les oscillations et augmenter un peu la vitesse de convergence si λ est bien choisi.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 153/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
134
Le choix entre les méthodes de BFGS et de Levenberg-Marquardt repose essentiellement sur des consi-
dérations relatives au temps de calcul et à la taille de la mémoire. La méthode de BFGS nécessite de
choisir le moment où l’on passe du gradient simple à BFGS ; il n’y a pas, à cet effet, de règle fondée sur
des arguments théoriques. Quelques tâtonnements sont parfois nécessaires pour trouver le « bon »
nombre d’itérations (typiquement, une centaine), mais celui-ci n’est pas critique. La méthode de Leven-
berg-Marquardt ne présente pas cet inconvénient, mais elle devient lourde pour des « gros » réseaux (une
centaine de paramètres), en raison de l’inversion de matrice nécessaire à chaque itération. Globalement,
on a donc intérêt à choisir la méthode de Levenberg-Marquardt si le réseau est « petit », et celle de BFGS
dans le cas contraire. Si l’on dispose du temps nécessaire, il est recommandé d’essayer les deux. La
méthode du gradient conjugué peut également constituer une solution efficace au problème d’optimisa-
tion de la fonction de coût.
Initialisation des paramètres
Quelle que soit la méthode mise en œuvre, il est nécessaire de fixer les valeurs des paramètres du réseau
au début de l’apprentissage. Les considérations suivantes doivent guider l’initialisation de ces grandeurs :
• les paramètres relatifs aux biais (entrées constantes égales à 1) doivent être initialisés à zéro, pour
s’assurer que les sigmoïdes des neurones sont initialement situées autour de zéro ; alors, si les entrées,
ainsi que les paramètres (autres que ceux des biais), ont été normalisés et centrés comme cela est recom-
mandé plus haut, les valeurs des sorties des neurones cachés le sont également ;
• il reste à s’assurer que ces valeurs des sorties des neurones cachés ne sont pas trop voisines de +1 ou –1.
En effet, rappelons que le gradient de la fonction de coût, qui est le « moteur » de la minimisation,
dépend de la dérivée de la fonction d’activation des neurones cachés par rapport au potentiel. Or, au
voisinage de leurs saturations à +1 et –1, les dérivées des sigmoïdes sont voisines de zéro : dans ces
conditions, le processus de minimisation ne démarre pas.
Soit n le nombre de variables du modèle ; chaque neurone a donc n–1 variables xi et un biais. Les paramè-
tres non nuls doivent être suffisamment petits pour que les potentiels des neurones cachés aient une
variance de l’ordre de 1, afin que les sigmoïdes ne soient pas saturées. Supposons que les xi puissent être
considérées comme des variables aléatoires indépendantes Xi , tirées de distributions identiques, centrées
et normalisées. On veut tirer les paramètres initiaux au hasard dans une distribution centrée autour de
zéro, dont on cherche la variance. Rappelons que le paramètre relatif au biais est initialisé à zéro comme
n
indiqué à l’alinéa précédent. Le potentiel v = ∑w x i i
de chaque neurone est donc la somme den − 1 varia-
i=1
bles aléatoires qui sont les produits de variables aléatoires indépendantes, centrées, ayant toutes la même
distribution. On démontre facilement, à partir des définitions et propriétés indiquées dans les notions
élémentaires de statistiques présentées à la fin du chapitre 1, que l’on a :
varV = ( n − 1) varW i varX i
Ainsi, si l’on veut que la variance du potentiel soit 1, on tirera les valeurs initiales des paramètres aléatoi-
rement dans une distribution centrée de variance 1/(n–1). Si l’on veut prendre une distribution uniforme
2 3
entre –w max et +wmax, on a : varW i = wmax / 3 , donc il faut prendre w max = .
n −1
Les points précédents concernent les réseaux à fonctions d’activation sigmoïde. Pour les réseaux de RBF
ou d’ondelettes, le problème est beaucoup plus critique, en raison du caractère localisé de ces fonctions :
si, initialement, elles sont situées très loin de l’endroit où elles devraient être, ou si leur extension spatiale
(écart-type ou dilatation) n’est pas convenable, l’apprentissage a peu de chances de réussir. Le test des
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 154/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
135
CHAPITRE 2
« problèmes maître-élève », qui sera introduit dans le paragraphe suivant, est beaucoup plus difficile à
réussir avec des RBF ou des ondelettes qu’avec des réseaux de sigmoïdes. Il faut mettre en œuvre une stra-
tégie plus élaborée, décrite en détail dans [OUSSAR 2000] : on prépare une « bibliothèque » d’ondelettes
ou de RBF, c’est-à-dire un ensemble d’un grand nombre de ces fonctions, et l’on applique une méthode
de sélection analogue aux méthodes de sélection des variables décrites plus haut. On effectue ensuite
l’apprentissage en donnant aux paramètres les valeurs des paramètres des ondelettes, ou des RBF, qui ont
été sélectionnées.
L’expérience d’années d’enseignement et de recherche montre qu’il est très facile d’écrire un algorithme
d’apprentissage faux, ou un programme d’apprentissage « bogué », qui converge néanmoins, parfois très
lentement, et aboutit à un modèle qui n’est pas complètement ridicule. Les erreurs algorithmiques ou de
programmation peuvent alors passer inaperçues si l’on ne fait pas preuve de vigilance. Il est donc impor-
tant de tester la validité d’une procédure d’apprentissage que l’on a écrite soi-même, ou téléchargée
gratuitement sur leWeb.
À cet effet, la méthode suivante (souvent appelée « problème maître-élève ») est commode et simple à
mettre en œuvre. On crée un réseau de neurones, le « réseau maître », dont les paramètres sont arbitraires,
mais fixés et connus (par exemple, tirés au hasard, une fois pour toutes, dans une distribution uniforme
entre –4 et +4). On utilise ce réseau pour créer une base d’apprentissage, aussi grande que l’on veut, en
lui présentant des variables aléatoires (par exemple, tirées dans une distribution uniforme entre –1 et +1)
et en calculant les sorties correspondantes. On utilise cette base pour faire l’apprentissage d’un second
réseau (le « réseau élève ») qui a le même nombre de variables et le même nombre de neurones cachés
que le réseau maître. Si l’algorithme d’apprentissage et le programme sont corrects, on doit retrouver les
paramètres du réseau maître avec une précision correspondant aux seules erreurs d’arrondi (typiquement,
l’erreur quadratique moyenne est de l’ordre de 10–30 , et chaque paramètre du réseau élève est égal au para-
mètre correspondant du réseau maître, aux erreurs d’arrondi près). Si ce n’est pas le cas, l’algorithme
d’apprentissage, et/ou sa programmation, doivent généralement être mis en cause.
Remarque
La structure du réseau élève obtenu est identique à celle du réseau maître à une permutation près pour les neurones cachés. C’est une
conséquence du théorème d’unicité [SONTAG 1993].
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 155/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
136
Remarque
Pour les mêmes problèmes, le taux de réussite est strictement nul si l’on utilise l’algorithme du gradient simple ou du gradient stochastique
(décrit dans la section suivante), avec ou sans terme de moment.
Il faut noter que le problème maître-élève est difficile pour certaines architectures en raison d’un grand
nombre de minima locaux. C’est pourquoi il est recommandé de tester tout algorithme ou procédure
d’apprentissage sur les architectures que l’on vient de mentionner.
■ En résumé
Résumons ici la démarche qu’il convient d’adopter pour l’apprentissage d’un réseau non bouclé, dont on
a fixé le nombre de variables, ainsi que le nombre de neurones cachés :
• initialiser les paramètres selon la méthode indiquée dans le paragraphe précédent ;
• calculer le gradient de la fonction de coût par l’algorithme de rétropropagation ;
• modifier les paramètres par une méthode de minimisation (gradient simple, BFGS, Levenberg-
Marquardt, gradient conjugué...) ;
• si un nombre maximal d’itérations (ou époques) a été atteint, ou si la variation du module du vecteur des
poids est inférieure à une limite fixée, ou si la variation du module du gradient est inférieure à une limite
fixée (l’algorithme n’évolue plus), ou encore si le module du gradient de la fonction de coût est inférieur
à une valeur fixée (on est arrivé à un minimum ou dans un voisinage très proche), arrêter la procédure ;
sinon, reprendre le calcul du gradient et effectuer une nouvelle itération.
w
k +1
( )
= wk − μ k ∇ J k wk
où wk désigne la valeur du vecteur des paramètres après l’itération k, c’est-à-dire après présentation de
l’exemple k et modification correspondante des coefficients. Pour l’apprentissage adaptatif des modèles
linéaires, cet algorithme est appelé « algorithme LMS ».
Certains résultats empiriques suggèrent que la méthode du gradient stochastique permet d’éviter les
minima locaux. Il n’y a aucun élément théorique qui appuie cette affirmation.
Une autre technique, inspirée notamment du filtrage adaptatif, a été utilisée pour l’apprentissage adaptatif des
réseaux de neurones : le filtre de Kalman étendu [PUSKORIUS 1994]. Elle est plus efficace que le gradient
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 156/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
137
CHAPITRE 2
stochastique en termes de vitesse de convergence, mais elle est beaucoup plus lourde en termes de nombre
d’opérations par itération. Cette approche est présentée en détail au chapitre 4 du présent ouvrage.
2
riser les fonctions régulières. La fonction à mini-
1,5
miser est alors de la forme : J’ = J + α иΩ , où J est,
1
par exemple, la fonction de coût des moindres carrés.
0,5
La fonction la plus largement utilisée est celle qui
0
pénalise les modèles ayant des paramètres élevés :
Ω = ∑ wi (méthode de « modération des poids »
2
-0,5
0 2 4 6 8 10 12 14
i
ou « weight decay »). Degré du polynôme
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 157/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
138
■ Arrêt prématuré
Principe
Comme dans la section précédente, l’apprentissage consiste à minimiser, grâce à un algorithme itératif,
une fonction de coût calculée sur la base d’apprentissage, par exemple la fonction de coût des moindres
carrés. La différence avec l’apprentissage sans régularisation réside dans le critère d’arrêt de
l’apprentissage : on arrête celui-ci prématurément, c’est-à-dire avant convergence complète de l’algo-
rithme. Ainsi, le modèle ne s’ajuste pas trop finement aux données d’apprentissage : le surajustement est
limité. La difficulté réside alors évidemment dans la détermination du moment où arrêter l’apprentissage.
La méthode la plus classique consiste à suivre l’évolution de la fonction de coût sur une base de valida-
tion, et à arrêter les itérations lorsque le coût calculé sur cette base commence à croître.
Exemple (tiré de [STRICKER 2000])
Il s’agit d’un problème de classification à deux classes ; comme indiqué dans le chapitre 1, on désire que
la sortie du réseau soit +1 pour tous les éléments de l’une des classes (classe A), et 0 pour tous les
éléments de l’autre classe (classe B). Après apprentissage, la sortie est une estimation de la probabilité
d’appartenance de l’objet inconnu à la classe A. Dans ce problème, l’espace de description est un espace
à deux dimensions, et les exemples sont tirés de deux distributions qui se recouvrent partiellement,
comme indiqué sur la figure 2-42.
Dans cet exemple académique, les distributions sont connues a priori : il est donc possible de calculer, par
la formule de Bayes, la probabilité d’appartenance d’un objet décrit par les coordonnées (x, y) à la classe
A, comme indiqué au chapitre 1 ; la figure 2-43 montre les probabilités a posteriori d’appartenance à la
classe A, calculées par la formule de Bayes.
1 1
0 0,8
)Pr A x, y
-1
0,6
0,4
(
-2
0,2
-3
-4 -3 -2 -1 0 1 2 3 4 0
Figure 2-42. Les exemples de la classe A
5
5
(cercles) sont tirés d’une distribution 0
de probabilité qui est le produit de deux 0
distributions gaussiennes selon x et y ; y x
-5 -5
la distribution selon x est une gaussienne
centrée en –1, d’écart-type 1, et la distribu- Figure 2-43. Probabilité d’appartenance à la classe A calculée
tion selon y est une gaussienne centrée en 1 et par la formule de Bayes
d’écart-type 0,5. Les exemples de la classe B
(croix) sont tirés d’une distribution
de probabilité qui est le produit de deux
distributions de probabilité selon x et y ;
la distribution selon x est la somme de deux
gaussiennes d’écart-type 0,5, centrées en –2
et 1.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 158/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
139
CHAPITRE 2
L’apprentissage est effectué à l’aide de 500 points. La figure 2-44 montre les probabilités a posteriori esti-
mées par un réseau à 2 neurones cachés et par un réseau à 10 neurones cachés.
1 1
0,8 0,8
)
)
Pr A x, y
Pr A x, y
0,6 0,6
0,4 0,4
(
(
0,2 0,2
0 0
4
4 4
0 0 0
0
x -4 -4 y x y
-4 -4
Figure 2-44. Probabilités a posteriori estimées par un réseau à 2 neurones cachés (à gauche) et par un réseau à 10 neurones
cachés (à droite)
On constate que le résultat obtenu avec un réseau à 2 neurones cachés est très proche de la surface théo-
rique représentée sur la figure 2-43, alors que la surface obtenue avec 10 neurones cachés est quasi
binaire : dans la zone de recouvrement entre les classes, une très petite variation de l’un des descripteurs
x ou y entraîne une brusque variation de la probabilité d’appartenance. Le réseau à 10 neurones cachés est
donc exagérément « spécialisé » sur les exemples proches de la zone de recouvrement : il est surajusté.
Ces variations sont très caractéristiques des réseaux dont les paramètres sont suffisamment grands pour
que les sigmoïdes des neurones cachés soient toujours dans leurs zones « saturées », comme illustré sur
la figure 2-45.
0,8
0,6
0,4
0,2
0,25
Erreur sur la base de validation
th(wx)
0 2 NC
0,20 5 NC
-0,2 10 NC
0,15
-0,4 0,10
-0,6 0,05
L’évolution de l’erreur quadratique moyenne sur la base de validation de 300 exemples, en fonction du
nombre d’itérations de l’apprentissage, est représentée sur la figure 2-46, pour divers nombres de
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 159/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
140
neurones cachés. On voit qu’il est difficile de savoir exactement où il faut arrêter l’apprentissage, car
l’erreur porte pour l’essentiel sur les exemples qui sont proches de la surface de séparation entre les
classes, ce qui correspond à un nombre relativement petit de points.
Cette méthode est donc malaisée à appliquer, notamment pour les problèmes de classification. C’est pour-
quoi l’on préfère souvent mettre en œuvre des méthodes de régularisation par pénalisation des paramètres
de fortes valeurs ; il a été prouvé théoriquement [SJÖBERG 1995] que l’arrêt prématuré est équivalent à
l’introduction d’un terme de pénalisation dans la fonction de coût.
■ Régularisation par modération des poids (weight decay)
Pendant l’apprentissage, certains paramètres des réseaux à 5 et 10 neurones cachés augmentent et finis-
sent par atteindre des valeurs très élevées, exactement comme dans le cas de la régression polynomiale
illustré par la figure 2-41. Ce n’est pas le cas pour le réseau à deux neurones cachés.
La méthode de régularisation par modération des poids a précisément pour objectif d’empêcher les para-
mètres de prendre des valeurs exagérées, en minimisant, pendant l’apprentissage, une fonction de coûtJ’
qui est la somme de la fonction de coût des moindres carrés J (ou de tout autre fonction de coût, telle que
l’entropie croisée qui est introduite dans le chapitre 1) et d’un terme de régularisation proportionnel à la
α p
somme des carrés des paramètres : J’ = J + ∑ w2i , où p est le nombre de paramètres du réseau, et α est
2 i=1
un hyperparamètre dont la valeur doit être déterminée par un compromis : si est trop grand, la minimisa-
tion tend à faire diminuer les valeurs des paramètres sans se préoccuper de l’erreur de modélisation ; à
l’inverse, si α est trop petit, le terme de régularisation a très peu d’effet sur l’apprentissage, donc le sura-
justement risque d’apparaître.
Le principe de la mise en œuvre de la méthode est très simple. On calcule le gradient de la fonction de
coût J par rétropropagation, puis on lui ajoute la contribution du terme de régularisation :
∇J = ∇J’ + α w.
Il faut noter néanmoins que tous les paramètres du réseau n’ont pas le même effet :
• les paramètres de la première couche de connexions (matriceW1 de la figure 2-3) déterminent la vitesse
de variation des sigmoïdes des neurones cachés, sauf les éléments de W1 relatifs au biais, qui détermi-
nent une translation horizontale des sigmoïdes des neurones cachés ;
• les paramètres de la deuxième couche de connexions (vecteur w2 de la figure 2-3) déterminent
l’influence de chaque neurone caché sur la sortie, sauf les éléments de w2 relatifs au biais, qui détermi-
nent une translation verticale de la sortie du réseau.
Il est donc naturel d’introduire des hyperparamètres différents pour ces différents types de paramètres
[MCKAY 1992]. La fonction de coût devient alors :
α0 α α
J’ = J + ∑wi2 + 21 ∑ w 2i + 22 ∑wi2,
2 W0 W1 W2
où W 0 représente l’ensemble des paramètres des biais des neurones cachés, où W1 représente l’ensemble
des paramètres relatifs aux variables des neurones cachés à l’exception des biais, et W3 l’ensemble des
paramètres relatifs aux variables du neurone de sortie (y compris le biais de celui-ci). Il convient donc de
déterminer les valeurs des trois hyperparamètres α 0, α 1, α 2. Dans ce but, [MCKAY 1992] propose une
démarche fondée statistiquement d’une manière solide, mais qui repose sur de nombreuses hypothèses et
conduit à des calculs lourds. En pratique, il apparaît que les valeurs de ces hyperparamètres ne sont pas
critiques ; une démarche heuristique, qui consiste à effectuer plusieurs apprentissages avec des valeurs
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 160/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
141
CHAPITRE 2
différentes des paramètres, à tester les modèles obtenus sur un ensemble de données de validation, et à
choisir le meilleur, est généralement suffisante.
Voici un exemple de classification à deux classes ; il s’agit de déterminer, dans un ensemble de textes (les
dépêches de l’agence France-Presse), celles qui sont pertinentes pour un sujet donné. C’est donc un
problème à deux classes (une dépêche est soit pertinente, soit non pertinente), pour lequel on dispose
d’une base de données étiquetées. La base d’apprentissage est constituée de 1 400 exemples de dépêches
pertinentes et de 8 000 dépêches non pertinentes. On mesure la qualité du classement à l’aide d’un indice
F qui est calculé à partir de la précision du classifieur (pourcentage de documents réellement pertinents
dans l’ensemble des documents considérés comme pertinents par le classifieur) et de son taux de rappel
(pourcentage de documents considérés comme pertinents par le classifieur parmi les documents pertinents
présents dans la base de données). La performance du classifieur est d’autant meilleure que F est grand.
On considère un classifieur à zéro neurone caché, et un neurone de sortie à fonction d’activation sigmoïde,
c’est-à-dire un séparateur linéaire. Il n’est évidemment pas possible de réduire le nombre de ses paramè-
tres tout en maintenant constant le nombre de ses variables : seules les méthodes de régularisation peuvent
éviter le surajustement. La figure 2-47 montre l’évolution deF sur la base de test, lorsque aucune méthode
de régularisation n’est mise en œuvre, en fonction des proportions des exemples pertinents et non perti-
nents dans la base d’apprentissage. La figure 2-48 montre la norme du vecteur des paramètres w des
réseaux correspondants. On observe que les performances se dégradent, et que, corrélativement, la norme
des paramètres augmente lorsque le nombre d’éléments de la base d’apprentissage diminue.
0,95 5000
4000
0,90
3000
0,85
2000
0,80
1000
0,75 0
8000 8000
6000 1500 6000 1500
4000 1000 4000 1000
2000 500 2000 500
Nombre de textes non pertinents 0 Nombre de textes pertinents Nombre de textes non pertinents Nombre de textes pertinents
0 0
dans la base d’apprentissage dans la base d’apprentissage dans la base d’apprentissage dans la base d’apprentissage
Figure 2-47. Apprentissage sans régularisation : Figure 2-48. Norme des paramètres en fonction
évolution de l’efficacité d’un classifieur linéaire du nombre de textes de la base d’apprentissage
en fonction des proportions des exemples pertinents
et non pertinents dans la base d’apprentissage
Avec les mêmes bases d’apprentissage et de test, on a effectué un apprentissage avec arrêt prématuré. Les
résultats (indice de performanceF et norme des paramètres), présentés sur la figure 2-49, montrent que
les performances sont sensiblement améliorées dans la zone où le nombre d’exemples de la base
d’apprentissage est faible, mais qu’elles sont dégradées dans la zone où les exemples sont nombreux
(F < 0,9), ce qui prouve que l’arrêt de l’apprentissage ne permet pas d’exploiter au mieux les données
présentes dans la base d’apprentissage. La norme du vecteur des paramètres (non représentée sur la
figure) est très faible dans tout le domaine exploré.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 161/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
142
F sur la
F sur la
base
base
de test
de test
1
0,95
0,95
0,90 0,90
0,85 0,85
0,80 0,80
0,75 0,75
8000 8000
6000 1500 6000 1500
4000 1000 4000 1000
2000 500 2000 500
Nombre de textes non pertinents 0 0 Nombre de textes pertinents Nombre de textes non pertinents 0 0 Nombre de textes pertinents
dans la base d’apprentissage dans la base d’apprentissage dans la base d’apprentissage dans la base d’apprentissage
Figure 2-49. Apprentissage avec régularisation par arrêt Figure 2-50. Apprentissage avec régularisation
prématuré : évolution de l’efficacité d’un classifieur par modération des poids : évolution de la norme
linéaire en fonction des proportions des exemples des poids en fonction des proportions des exemples
pertinents et non pertinents dans la base d’apprentissage pertinents et non pertinents dans la base d’apprentissage
La méthode de modération des poids a également été mise en œuvre sur cet exemple, en utilisant deux
hyperparamètres : un pour le biais (αb = 0,001) et un pour les connexions entre les entrées et le neurone
de sortie (α 1 = 1). Les résultats sont présentés sur la figure 2-50 ; on observe que, cette fois, les perfor-
mances sont nettement améliorées dans la zone où le nombre d’exemples est faible, et que, contrairement
au cas de l’arrêt prématuré, elles restent satisfaisantes dans la zone où les exemples sont nombreux. Il faut
noter qu’aucun effort particulier n’a été fourni pour optimiser les hyperparamètres. Comme précédem-
ment, la norme du vecteur des paramètres reste uniformément faible.
Remarque
On peut également pénaliser les modèles dont les sorties varient trop vite, en pénalisant les valeurs élevées des dérivées [BISHOP 1993].
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 162/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
143
CHAPITRE 2
Sélection de modèles
Dans le chapitre 1, le dilemme biais-variance et les méthodes de sélection de modèles dont il nécessite la
mise en œuvre ont été décrits en détail. Les trois méthodes principales qui ont été présentées – validation
simple, validation croisée et leave-one-out – peuvent être appliquées directement à l’apprentissage des
réseaux de neurones comme à l’apprentissage des modèles linéaires. Néanmoins, les modèles non
linéaires en leurs paramètres ont une particularité qu’il faut prendre en considération : la fonction de coût
des moindres carrés présente des minima locaux, de sorte que des initialisations différentes des paramè-
tres peuvent produire, en fin d’apprentissage, des modèles dont les performances sont différentes bien
qu’ils aient la même complexité.
Pour un modèle non linéaire par rapport à ses paramètres, la problématique de la sélection de modèle est
donc double :
• parmi les modèles de même complexité, trouver celui qui réalise le meilleur compromis biais-variance ;
• parmi les meilleurs modèles de complexités différentes, de trouver celui qui réalise le meilleur
compromis biais-variance.
Toutes les techniques qui sont présentées dans cette section ont pour objet, d’une part, d’éliminer les
modèles manifestement surajustés, et, d’autre part, d’estimer l’erreur de généralisation des autres
modèles, afin de choisir celui qui commet la plus petite erreur de généralisation. On commencera donc,
en préliminaire, par montrer comment il est possible d’éliminer les modèles manifestement surajustés.
Deux techniques de sélection seront ensuite abordées :
• une méthode globale de sélection par estimation de l’erreur de généralisation : la validation croisée ;
• une méthode locale de sélection qui permet d’estimer l’influence de chaque exemple sur le modèle : la
méthode LOCL (Local Overfitting Control via Leverages), fondée sur la méthode des moindres carrés
locaux, qui fait appel notamment à l’estimation d’intervalles de confiance pour les prédictions du
réseau.
Ces deux approches seront combinées pour construire une méthodologie complète de conception de
modèles non linéaires.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 163/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
144
existe donc, dans le modèle, des paramètres redondants : le modèle considéré possède trop de paramètres,
donc une variance certainement trop grande. Un tel modèle doit donc être éliminé de l’ensemble des
modèles candidats à la sélection. De plus, cette déficience du rang a un effet négatif sur le déroulement de
l’apprentissage [SAARINEN 1993] [ZHOU 1998].
■ Calcul de la matrice jacobienne
Dans la section consacrée à l’estimation des paramètres d’un modèle non linéaire, on a vu que l’on peut
facilement calculer, par rétropropagation, le gradient de la fonction de coût :
( 2
⎛ ∂ J ⎞ ⎛∂ y − g (x ,w ) ⎞
p
) ∂ g (x , w )
⎜ ⎟
⎝∂wi ⎠ ⎜
=⎜
∂ wi
⎟= − 2 yp − g ( x, w)
⎟
( ∂ wi
) .
⎝ ⎠
Si l’erreur de modélisation yp – g(x, w) vaut −1/2, le gradient de la fonction de coût est égal au gradient
de la prédiction du modèle. Ainsi, la matrice jacobienne est aisément calculée par rétropropagation d’une
erreur égale à −1/2. Le temps supplémentaire nécessité par le calcul de la matrice jacobienne est donc
marginal, puisqu’il s’agit d’un calcul de rétropropagation effectué une seule fois par modèle, à la fin de
l’apprentissage, alors que la rétropropagation est effectuée lors de chaque itération de l’apprentissage.
(σ 2
+ σ 22 )
Δ=
1
4 σ 12σ 22 ⎣ 1
( )
⎡ σ 2 − σ 22 + (μ 1 − μ 2 )2 ⎤ .
⎦
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 164/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
145
CHAPITRE 2
Pour chaque famille de modèles, on calcule le score de validation croisée. Le surajustement se traduit par
une augmentation significative du score de validation croisée. On arrête la procédure lorsque cette
augmentation apparaît, et l’on sélectionne la complexité pour laquelle la plus petite EQMV a été obtenue.
On effectue alors l’apprentissage d’un modèle de cette complexité à l’aide de l’ensemble des données
disponibles (tout en laissant de côté des données destinées au test de ce modèle).
■ Leave-one-out
Rappelons que l’estimation de l’erreur de généralisation par leave-one-out est un cas particulier de la vali-
dation croisée, pour lequel D = N : à l’itération k, on extrait l’exemple k de l’ensemble d’apprentissage,
on effectue des apprentissages (avec des initialisations différentes des paramètres) avec lesN-1 éléments
de la base d’apprentissage. Pour chacun des modèles obtenus, on calcule l’erreur de prédiction commise
sur l’observation k lorsque celle-ci est extraite de l’ensemble d’apprentissage, et l’on retient la plus petite
1 N −k 2
de ces erreurs, notée rk− k . On définit le score de leave-one-out E t =
N k =1 k
( )
∑ r . On utilise ce score,
comme dans le cas de la validation croisée, en augmentant progressivement la complexité des modèles.
Cette technique a l’inconvénient d’être très lourde en temps de calcul, mais on démontre que le score de
validation croisée est un estimateur non biaisé de l’erreur de généralisation [VAPNIK 1995].
Dans les sections suivantes, on présente une autre technique, très avantageuse, qui permet de diviser le
temps de calcul par un facteur N (le nombre d’observations disponibles). Elle est fondée sur l’idée que le
retrait d’un exemple de l’ensemble d’apprentissage ne doit pas beaucoup perturber le modèle ; on peut
alors construire un modèle localement linéaire dans l’espace des paramètres, ce qui permet de bénéficier
des résultats théoriques connus, relatifs aux modèles linéaires.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 165/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
146
de la statistique PRESS, qui est exactement le score que l’on obtiendrait si l’on faisait un leave-one-out
sur les données disponibles. Dans ce paragraphe, on montre comment étendre ce résultat aux modèles non
linéaires, et calculer le « score de leave-one-out virtuel » sans avoir à réaliser un vrai leave-one-out, c’est-
à-dire en faisant un apprentissage avec toutes les données disponibles (en gardant toujours un ensemble
de test). On introduit également le calcul des leviers des observations pour un modèle non linéaire.
■ Approximation locale de la méthode des moindres carrés
Considérons un modèle g(x, w*) obtenu par minimisation de la fonction de coût des moindres carrés. Un
développement du modèle au premier ordre, dans l’espace des paramètres, au voisinage dew*, s’écrit
(x w ) ≈ (x w )+ Z (w − w )
g , g , * *
où Z est la matrice jacobienne du modèle, définie plus haut. Ce modèle est linéaire par rapport à ses para-
mètres w, et la matrice Z joue exactement le rôle de la matrice des observations.
Pour établir une approximation locale de la solution des moindres carrésw mc, il faut obtenir une approxi-
mation, au premier ordre en w – wmc, du gradient de la fonction de coût des moindres carrés ; pour cela, il
faut partir d’une approximation du second ordre de cette fonction de coût, donc, d’une approximation du
second ordre du modèle ([MONARI 2000] ; le même résultat est établi dans [SEBER 1989], mais avec une
démonstration incorrecte) On obtient alors une approximation de la solution des moindres carréswmc :
( )
−1
wmc ≈ w *+ Z Z Z ⎡⎣ y − g ( x, w *) ⎤⎦ .
T T p
Ce résultat est approché dans le cas d’un modèle non linéaire, et il est exact dans le cas d’un modèle
linéaire.
En effet, dans le cas d’un modèle linéaire, Z est la matrice des observations, et g(x, w*) = Z w*. La rela-
tion précédente devient alors
( )
T
wmc ≈ w * + Z Z
−1 T p T
Z y − Z Z( ) −1
Z g( x, w *)
T
= w * +( Z Z) − ( Z Z) ( )
T −1 T p T −1 T T −1 T p
Z y Z Zw* = Z Z Z y
ce qui est le résultat exact, démontré dans le chapitre 1, section « Apprentissage de modèles linéaires en
leurs paramètres ».
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 166/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
147
CHAPITRE 2
rk
−k T
wmc ≈ wmc − Z Z ( )
−1
z
k
1 − hkk
où zk est le vecteur dont les composantes sont la k-ième ligne de la matrice jacobienne Z, rk est l’erreur de
prédiction (ou résidu) sur l’exemple k lorsque celui-ci fait partie de l’ensemble d’apprentissage :
rk = y p − g ( x k ,wmc ),
( )( )
T −1
et où hkk = zk Z Z z est le levier de l’exemple k [LAWRANCE 1995]. Géométriquement, h kk est la
T k
composante k de la projection, sur le sous-espace des solutions, du vecteur unitaire porté par l’axe k.
Rappelons (voir chapitre 1) que les leviers sont compris entre 0 et 1, et que leur somme est égale au
nombre de paramètres du modèle.
Une procédure numérique efficace de calcul des leviers est présentée dans les compléments théoriques et
algorithmiques à la fin de ce chapitre.
La méthode du « leave-one-out virtuel » est une conséquence des résultats précédents : on démontre que
l’erreur de prédiction commise sur l’exemple k, lorsque celui-ci est retiré de l’ensemble d’apprentissage,
peut être estimée simplement à partir de l’erreur de prédiction commise sur ce même exemple, s’il est
dans l’ensemble d’apprentissage :
rk .
rk−k =
1 − h kk
Comme indiqué dans le chapitre 1, ce résultat est exact pour un modèle linéaire, (PRESS, voir par
exemple [ANTONIADIS 1992]), et il est approché pour un modèle non linéaire.
Remarque
Une approche analogue a été proposée dans ANSEN
[H 1996] pour les modèles dont l’apprentissage est effectué avec régularisation.
Illustrons cette méthode sur un exemple académique : un ensemble de 50 points d’apprentissage est créé
en ajoutant à la fonction sinx/x un bruit gaussien de moyenne nulle et de variance 10–2.
Ensemble d’apprentissage
0,3
1 Intervalle de confiance à 95 %
Prédiction du modèle
0,5
rk− k
0 - 0,3 0 0,3
rk
Figure 2-52. Précision de l’estimation des résidus
par leave-one-out virtuel 1− h kk
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 167/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
148
La figure 2-51 représente les points de l’ensemble d’apprentissage et la prédiction d’un modèle à
deux neurones cachés. Une procédure conventionnelle de leave-one-out, décrite au paragraphe précédent,
a été effectuée, fournissant ainsi les valeurs des quantités r −k présentées en ordonnée de la figure 2-52, et
k
la formule précédente a été appliquée, fournissant les valeurs présentées en abscisse. Le fait que tous les
points soient alignés sur la bissectrice du graphe montre que l’approximation est très précise.
On peut donc, d’une façon très avantageuse en temps de calcul, remplacer le score de leave-one-out Et ,
qui a été défini plus haut
N
1
∑( r( ) )
2
−k
Et = k
N k=1
qui constitue une très bonne approximation de l’erreur de généralisation. Cette quantité est un élément
essentiel de la procédure de sélection de modèles qui sera exposée dans la section suivante : elle fournit
une estimation de l’erreur de généralisation, au prix d’un temps de calcul qui est N fois plus petit que la
procédure traditionnelle de leave-one-out, puisque l’apprentissage est effectué une seule fois, avec tous
les exemples disponibles, au lieu de l’être N fois avec N-1 exemples.
■ Effet du retrait d’un exemple sur l’intervalle de confiance pour sa prédiction
Dans [SEBER 1989], un intervalle de confiance approché est proposé pour un modèle non linéaire, avec
une confiance 1 – α :
( )
−1
E Y p ( x) ∈ g ( x ,wmc ) ± t αN− p s zT ZT Z z
où tαN − p est la valeur d’une variable de Student à N-p degrés de liberté et un niveau de confiance 1 – α , et
s est une estimation de la variance de l’erreur de prédiction du modèle. La figure 2-51 représente l’inter-
valle de confiance calculé par cette formule, en tous points de l’intervalle considéré.
Remarque
Il est possible de définir de nombreux intervalles de confiance pour des modèles non linéaires [T 1996], que l’on peut soit calculer
IBSHIRANI
analytiquement, soit estimer à l’aide de méthodes de ré-échantillonnage, telles que celles qui sont décrites dans le chapitre 3 de cet
ouvrage. Les intervalles de confiance utilisés dans le présent chapitre ont l’avantage de mettre en œuvre les mêmes quantités que celles
qui permettent de prédire le score de leave-one-out.
( )
E Y p ( x) ∈ g ( x ,wmc ) ± t αN− p s zT ZT Z
−1
z = g ( x, wmc ) ± tαα s h kk .
N−p
On voit ainsi que les intervalles de confiance sur les prédictions du modèle font intervenir les mêmes
quantités hkk que la prédiction du retrait d’un exemple sur l’erreur de prédiction du modèle. Cela n’est pas
surprenant car les deux groupes de relations proviennent du même développement de Taylor du modèle
dans l’espace des paramètres.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 168/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
149
CHAPITRE 2
Comme dans le cas précédent, il est possible d’estimer l’intervalle de confiance sur la prédiction d’un
exemple extrait de l’ensemble d’apprentissage : étant donné un vecteur de variables xk , l’intervalle de
confiance approché sur la prédiction de cet exemple est donné par ([SEBER 1989])
h kk
EY−pk ( x ) ∈ g (x , wmc ) ± tαN − p s − k .
1 − hkk
Remarque
Le fait que l’intervalle de confiance soit nul signifie que l’on est sûr que la prédiction du modèle en ce point est exacte. Ce n’est pas contra-
dictoire avec le fait que l’erreur de prédiction
k ne rsoit pas nulle. En effet, l’erreur de prédiction est la différence entre la valeur mesurée et
la valeur prédite : elle est due à la fois à l’erreur de modélisation (différence entre la grandeur prédite et son espérance mathématique
inconnue) et au bruit (différence entre la grandeur mesurée et son espérance mathématique inconnue). Si le modèle est parfait, l’erreur de
prédiction est due uniquement au bruit. On ne peut donc avoir un levier nul que si la famille de fonctions dans laquelle on cherche l’approxi-
mation de la régression contient la fonction de régression elle-même.
• Si un levier est très proche de 1, le vecteur unitaire porté par l’axe correspondant à l’exemple k est très
proche du sous-espace des solutions ; cet exemple est donc presque parfaitement appris, et il a une très
grande influence sur les paramètres du modèle. L’erreur de prédiction sur cet exemple est presque nulle
lorsque l’exemple fait partie de l’ensemble d’apprentissage, et elle est très grande lorsque l’exemple
n’en fait pas partie. Le modèle est donc exagérément ajusté à cet exemple. L’intervalle de confiance est
très petit lorsque l’exemple fait partie de l’ensemble d’apprentissage, et il est très grand lorsque
l’exemple en est extrait.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 169/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
150
Remarque
Pour un modèle linéaire par rapport aux paramètres, la première étape est très simple puisque la fonction de coût ne possède qu’un
minimum : on effectue un seul apprentissage.
• Ayant effectué ce choix pour plusieurs familles de fonctions de complexités croissantes, on choisit le
meilleur modèle, selon une procédure qui sera décrite dans la section « Choix de la complexité
optimale ».
■ Sélection d’un modèle dans une famille de modèles de complexité donnée : critères globaux
Pour une complexité de modèle donnée, plusieurs apprentissages sont effectués, et, à l’issue de chacun
d’eux, le rang de la matrice jacobienne du modèle obtenu est évalué. Si cette matrice n’est pas de rang
plein, le modèle doit être éliminé, comme indiqué plus haut.
Il faut noter que, contrairement à ce qui a parfois été publié, la valeur du nombre de conditionnement de
la matrice jacobienne ne doit pas être utilisé comme critère de comparaison entre modèles. Ainsi, dans
[RIVALS 2000] [RIVALS 2004], les auteurs indiquent que les modèles dont la matrice de conditionnement
est supérieure à 108 doivent être rejetés. Dans [OUSSAR 2004], de nombreux contre-exemples montrent
qu’il n’y a essentiellement aucun rapport entre le surajustement et le nombre de conditionnement de la
matrice jacobienne : des modèles très fortement surajustés peuvent avoir des nombres de conditionnement
inférieurs à cette limite, et des modèles dont le nombre de conditionnement est très supérieur à cette limite
peuvent ne pas présenter de surajustement.
Remarque
Le fait de trouver, pour une complexité donnée, que le minimum global de la fonction de coût correspond à un modèle dont la matrice jaco-
bienne n’est pas de rang plein ne signifie pas que tous les modèles de même complexité doivent être éliminés : un minimum local peut fort
bien fournir un excellent modèle même si le minimum global fournit un modèle surajusté. On retrouve ici une idée analogue à celle de l’arrê
prématuré, qui a été exposée dans la section consacrée à la régularisation : choisir un modèle qui ne correspond pas au minimum global
de la fonction de coût peut constituer une forme de régularisation.
Ayant effectué cette première élimination, il faut faire une sélection parmi les modèles restants. Dans ce
but, on met en œuvre la technique du « leave-one-out virtuel », décrite plus haut. Rappelons la définition
du score de leave-one-out virtuel
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 170/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
151
CHAPITRE 2
2
1 N ⎛ rk ⎞ .
Ep = ∑ ⎝1 − h ⎟
N k =1 ⎜ kk ⎠
Il doit être comparé à l’erreur quadratique moyenne sur l’ensemble d’apprentissage (EQMA), définie plus
haut :
1 N
EA = ∑ rk
N k=1
( ) 2
.
Rappelons également que, dans la procédure de leave-one-out virtuel, l’apprentissage est effectué à partir
de tous les exemples disponibles, à l’exception des exemples de l’ensemble de test. C’est donc bien la
même quantité N qui est présente dans les relations présentées ci-dessus pour Ep et EA.
Pour illustrer cela, considérons l’exemple d’un réseau à 4 neurones cachés, dont l’apprentissage est
effectué à l’aide des exemples représentés sur la figure 2-51. Cinq cents apprentissages ont été effectués,
avec des initialisations différentes des paramètres, en utilisant l’algorithme de Levenberg-Marquardt. La
figure 2-53 représente les résultats obtenus, avec les conventions suivantes :
• pour les modèles dont la matrice jacobienne est de rang plein, chaque modèle est représenté par un point
dans un plan ; l’axe des abscisses représente l’EQMA, et l’axe des ordonnées le score de leave-one-out
virtuel (estimation de l’erreur de généralisation du modèle) ; notez l’échelle logarithmique en
ordonnées ;
• pour les modèles dont la matrice jacobienne n’est pas de rang plein, les points correspondants sont
représentés en dessous du graphique précédent, sur un axe figurant les EQMA de ces modèles.
On remarque :
• que la matrice jacobienne du modèle dont l’EQMA est la plus petite (modèle « qui a le mieux appris les
données ») n’est pas de rang plein : ce modèle est donc écarté ;
• que, dans cet exemple, 70 % des minima trouvés n’ont pas une matrice jacobienne de rang plein ;
• que l’estimation de l’erreur de généralisation varie de plusieurs ordres de grandeur, ce qui nécessite
l’utilisation d’une échelle logarithmique pour E p. Les modèles correspondant aux minima dont les
scores de leave-one-out virtuel sont élevés sont très « spécialisés » sur un ou quelques points, avec des
leviers très voisins de 1.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 171/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
152
10 5
p
10 4
de leave-one-out virtuel E
(échelle logarithmique)
10 3
Figure 2-53. Scores
Score
10 2
de leave-one-out virtuels
10 de cinq cents modèles différents
10 -1
0,075 0,080 0,085 0,09 0,095 0,1 0,105 0,110
Rang(Z) < p
La figure 2-54 montre les prédictions des modèles qui ont la plus petite valeur de EA et la plus petite valeur
de Ep (représentées respectivement par un cercle gris et par un triangle gris sur la figure 2-53). On
remarque que le modèle correspondant au minimum de EA fournit une prédiction plus « irrégulière » que
le modèle correspondant au minimum de E p . Ce dernier est donc plus satisfaisant ; il faut noter cependant
qu’il est le modèle le plus satisfaisant trouvé dans la famille des réseaux à 4 neurones cachés. Pour
terminer la sélection, il reste à comparer ce modèle aux meilleurs modèles trouvés pour des complexités
différentes.
1,5
La figure 2-55 représente les scores de leave-one-out virtuel et les EQMA des meilleurs réseaux, trouvés
par cette procédure, pour des complexités croissantes à partir d’un réseau à 0 neurone caché (modèle
linéaire) jusqu’à un modèle à 5 neurones cachés. À titre indicatif, on a porté aussi, sur ce graphe, l’écart-
type du bruit. On note que, comme attendu, l’EQMA diminue lorsqu’on augmente le nombre de neurones
cachés, tandis que le score de leave-one-out virtuel passe par un minimum et augmente lorsque la
complexité du réseau croît. Néanmoins, le choix entre les architectures à 2, 3 et 4 neurones cachés n’est
pas évident, dans la mesure où les scores de leave-one-out virtuel sont peu différents. Le paragraphe
suivant est consacré à ce problème : celui du choix de la complexité optimale.
Remarque
À partir de 3 neurones cachés, l’EQMA passe au-dessous de l’écart-type du bruit ; on peut donc en déduire que les modèles possédant
plus de 3 neurones cachés sont surajustés. Cela ne peut néanmoins pas être considéré comme un critère pratique de sélection sauf si
l’écart-type du bruit est connu.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 172/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
153
CHAPITRE 2
0,3
EQMA
0,25
Ep
0,20
Écart-type du bruit
0,15
0,10
0,05
0 NC 1 NC 2 NC 3 NC 4 NC 5 NC
Nombre de neurones cachés
Figure 2-55. Évolution de l’EQMA et du score de leave-one-out virtuel en fonction du nombre de neurones cachés
0 0
3 8 3 8 13
-0,5 -0,5
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 173/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
154
On observe que l’intervalle de confiance pour le modèle à 2 neurones cachés est à peu près uniforme sur
tout le domaine d’apprentissage, alors que, pour le modèle à 4 neurones cachés, l’intervalle de confiance
est important dans la région [8, 12], où une oscillation de la sortie du modèle est observée, dont on n’est
pas sûr qu’elle soit significative. Si l’on considère la distribution des leviers, représentée sur la figure 2-
57, on observe une plus grande dispersion de ces derniers pour le modèle à 4 neurones cachés (traits
grisés) que pour le modèle à 2 neurones cachés (traits noirs).
40
35 p/N
Nombre d’exemples
30
25 2 neurones cachés
20 4 neurones cachés
15
10
5
0
0,1 0,3 0,5 0,7 0,9
Leviers
Figure 2-57. Histogramme des leviers pour des modèles à 2 et 4 neurones cachés
1 N N
μ= ∑ hkk .
N k =1 p
Cette quantité est toujours inférieure à 1, et elle vaut 1 si et seulement si tous les leviers sont égaux à
p/N.
Elle constitue donc un paramètre normalisé qui caractérise la distribution des leviers : plusμ est proche
de 1, plus la distribution des leviers est étroite autour de p/N. Ainsi, parmi les modèles de complexités
différentes ayant des scores de leave-one-out virtuel du même ordre de grandeur, on choisira celui qui
possède le paramètre μ le plus voisin de 1.
• On peut également caractériser la distribution des leviers par son écart-type normalisé
N 2
N p⎞
σn = ∑⎛ ⎜h kk − N ⎠
p( N − p) k =1 ⎝ ⎟
qui vaut zéro si tous les leviers sont égaux à p/N, et qui vaut 1 dans le pire cas de surapprentissage, c’est-
à-dire si p leviers sont égaux à 1 et les (p – N) autres leviers sont égaux à zéro. Ainsi, un modèle est
d’autant plus satisfaisant que σ n est petit.
À titre d’illustration, la figure 2-58 présente un modèle à une variable dont l’apprentissage a été effectué
à partir des points obtenus en ajoutant un bruit uniforme d’écart-type égal à 0,1 à la courbe représentée en
trait fin. On observe que les leviers ont une distribution assez peu dispersée si l’on fait abstraction des
points qui sont aux frontières du domaine, qui ont inévitablement une grande importance dans un modèle
à une variable ; 3 leviers sont supérieurs à 0,95 ; de plus, μ = 0,984 et σ n = 0,38.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 174/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
155
CHAPITRE 2
2 2
1,5 1,5
Modèle et fonction de régression
0,5 0,5
0 0
-0,5 -0,5
-1 -1
-1,5 -1,5
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
1
1
0,8
0,8
0,6
Leviers
0,6
Leviers
0,4 0,4
0,2
0,2
0
0
0 1 2 3 4 5 6 7
x 0 1 2 3 4 5 6 7
x
Figure 2-58. Modèle, fonction de régression et leviers Figure 2-59. Modèle, fonction de régression et leviers
pour un modèle non surajusté pour un modèle surajusté
À partir du même ensemble d’apprentissage, on a obtenu un autre modèle, représenté sur la figure 2-59.
Ce modèle présente clairement un fort surajustement pour 1≤ x ≤ 2. On observe que les leviers sont très
élevés pour ces valeurs de x, et que, pour ce modèle, les leviers sont beaucoup plus dispersés que dans
l’exemple précédent : on a en effet μ = 0,979 et σ n = 0,56.
14 14
12 12
p/N
/
10 10
p/N
8 8
6 6
4 4
2 2
0 0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Figure 2-60. Histogrammes des leviers : à gauche, pour le modèle non surajusté (figure 2-58) ;
à droite, pour un modèle surajusté (figure 2-59)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 175/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
156
La figure 2-60 montre l’histogramme des leviers pour chacun des deux modèles : la distribution des
leviers du premier est clairement plus étroite, avec un pic pour p/N, que la distribution des leviers du
second modèle.
Ces exemples montrent clairement que les leviers permettent de repérer localement les risques de surajus-
tement, et doivent donc contribuer à la sélection du meilleur modèle et/ou à la planification d’expériences
supplémentaires.
■ Que faire en pratique ?
Résumons la démarche de sélection de modèle qui vient d’être décrite.
Réaliser les opérations suivantes pour une complexité donnée (si les modèles sont des réseaux de
neurones : pour un nombre de neurones cachés donné) :
• effectuer des apprentissages, avec toutes les données disponibles, pour des initialisations différentes des
paramètres du réseau ;
• évaluer le rang de la matrice jacobienne des modèles ainsi trouvés et éliminer ceux dont la matrice jaco-
bienne est de rang inférieur au nombre de paramètres ajustables du modèle ;
• pour chaque modèle dont la matrice jacobienne est de rang plein, calculer son score de leave-one-out
virtuel et son paramètre σ n (ou son paramètre μ).
Réaliser les opérations précédentes pour des modèles de complexités croissantes ; lorsque les scores de
leave-one-out virtuel deviennent trop grands, ou la distribution des leviers trop large, arrêter la procédure
et choisir le modèle. Deux stratégies sont envisageables :
• si l’ensemble d’apprentissage est définitivement fixé et ne peut pas être enrichi, il faut choisir, parmi les
modèles qui ont de petits scores de leave-one-out virtuel, le modèle avec le μ le plus élevé ou le σ n le
plus faible ;
• s’il est possible d’enrichir l’ensemble d’apprentissage en effectuant quelques expériences supplémen-
taires, il est préférable de choisir un modèle légèrement surajusté, et d’effectuer des expériences supplé-
mentaires dans les zones qui correspondent à des leviers élevés (ou des intervalles de confiance grands) ;
on choisira alors un modèle qui a le score de leave-one-out le plus petit possible, même s’il ne corres-
pond pas à la plus grande valeur de μ, ou à la plus petite valeur de σn .
■ Élaboration de plans d’expériences
Après avoir suivi la démarche d’élaboration et de sélection de modèles qui vient d’être décrite, il peut
s’avérer nécessaire de compléter la base de données utilisée pour l’élaboration du modèle. Il convient
alors de construire un « plan d’expériences », en profitant des résultats obtenus lors de l’élaboration du
modèle, notamment des intervalles de confiance. En effet, un intervalle de confiance élevé dans une
certaine zone de l’espace peut être dû à un nombre de points insuffisant. Il suffit donc de repérer les zones
de l’espace des variables où les intervalles de confiance sont excessifs, et d’effectuer ensuite les mesures
dans ces zones.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 176/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
157
CHAPITRE 2
On s’intéresse à présent aux modèles dynamiques, dont les variables et les prédictions sont reliées entre
elles par des équations différentielles, ou, pour des systèmes à temps discret, par des équations récur-
rentes ou équations aux différences. Dans tout cet ouvrage, on se placera uniquement dans le cadre de
systèmes à temps discret, car les applications réelles des réseaux de neurones dynamiques pour la modé-
lisation font appel à des ordinateurs ou à des circuits intégrés numériques, qui sont des systèmes
échantillonnés : les grandeurs ne sont mesurées qu’à des instants discrets, multiples d’une période
d’échantillonnageT.
Remarque
Pour alléger les notations, on omettra systématiquement T dans les équations : la valeur d’une variable x à l’instant kT, k entier positif, sera
notée x(k).
Le chapitre 4 de cet ouvrage propose une présentation générale des systèmes dynamiques non linéaires.
Dans le présent chapitre, on se contentera d’une introduction méthodologique succincte de la modélisa-
tion stochastique à états continus, qui découle directement des considérations relatives à la modélisation
statique décrite dans les sections précédentes. Les éléments de modélisation dynamique présentés ici sont
suffisants pour aborder, dans la dernière partie de ce chapitre, la méthodologie de « modélisation semi-
physique », très importante en raison de ses applications industrielles.
Représentation d’état
Un modèle est sous la forme d’une représentation d’état s’il est constitué d’un ensemble d’équations de
la forme :
où le vecteur x(k) est appelé « vecteur d’état » (dont les composantes sont les « variables d’état »), le
vecteur u(k) est le vecteur des variables de commande, b1(k) et b2(k) sont les vecteurs des perturbations,
et le scalaire y(k) est la prédiction fournie par le modèle. f est une fonction vectorielle non linéaire, et g
est une fonction scalaire non linéaire. La dimension du vecteur d’état (c’est-à-dire le nombre de variables
d’état) est appelée ordre du modèle. Les variables d’état peuvent être mesurées ou non mesurées.
Remarque 1
Pour un processus mono-entrée u(k), le vecteur u(k) peut être constitué de u(k) et de valeurs de la commande à plusieurs instants passés :
u(k) = [u(k), u(k – 1), …, u(k –T.m)]
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 177/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
158
Remarque 2
Les perturbations sont des facteurs qui affectent la sortie, ou l’état, ou les deux à la fois, et qui, contrairement aux variables de commande,
ne sont pas mesurées ; elles ne peuvent donc pas constituer des variables du modèle, bien qu’elles aient un effet sur la grandeur à modé-
liser. Par exemple, pour un four, l’intensité qui passe dans la résistance chauffante est une grandeur de commande ; la dégradation de
l’isolant thermique du four et le bruit de mesure du thermocouple constituent des perturbations, que l’on peut, si nécessaire, modéliser par
des variables aléatoires.
Remarque 3
Rien ne s’oppose à ce que la sortie elle-même soit une des variables d’état (on en verra un exemple dans le paragraphe intitulé « Que faire
en pratique ? »)
L’objectif du concepteur d’un modèle sous forme de représentation d’état est donc de trouver des approxi-
mations des deux fonctions f et g, par apprentissage, à partir de séquences des entrées, des sorties, et,
éventuellement, des variables d’état si celles-ci sont mesurées.
Représentation entrée-sortie
Un modèle est sous la forme d’une représentation entrée-sortie s’il est constitué d’équations de la forme :
y (k ) = h ( y (k −
) ,...,y (k − n ) , ( k − ) ,..., (k − m ) , ( ) b( − ))
u u b
1 k - 1non
où h est une fonction ,...,linéaire, 1 l’ordre du modèle, m et p sont deux constantes positives, u(k) est
k p n est
le vecteur des signaux de commande, b(k) est le vecteur des perturbations. Remarquons que les représen-
tations entrée-sortie constituent des formes particulières des représentations d’état, où le vecteur d’état a
pour composantes [y(k-1), y(k-2), …y(k-n)].
Attention
Pour réaliser un modèle linéaire, les représentations d’état et entrée-sortie sont strictement
équivalentes : le choix de l’une ou l’autre repose sur des considérations qui ont trait à leur commo-
dité, compte tenu des objectifs de la modélisation considérée. En revanche, pour la réalisation d’un
modèle non linéaire, une représentation d’état est plus générale et plus parcimonieuse qu’une repré-
sentation entrée-sortie ([L EVIN 1993]), comme on le verra plus loin sur un exemple ; néanmoins, elle
peut être plus délicate à mettre en œuvre, puisque deux fonctions f et g doivent être approchées, alors
que les modèles entrée-sortie nécessitent l’approximation de la seule fonctionh.
Une fois effectué le choix entre représentation entrée-sortie et représentation d’état, il convient de faire
une hypothèse sur la façon dont le bruit intervient dans le processus. Cette distinction fondamentale est
souvent négligée dans la littérature sur les réseaux de neurones, alors qu’elle est bien connue dans le cas
de la modélisation dynamique linéaire, comme on le verra au chapitre 4. On va montrer que l’hypothèse
effectuée sur le bruit conditionne à la fois l’algorithme d’apprentissage qu’il faut utiliser et la structure
du modèle qui doit être mis en œuvre. On va donc passer en revue les principales hypothèses relatives au
bruit, et en déduire, dans chaque cas, la structure du modèle dont il faut estimer les paramètres.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 178/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
159
CHAPITRE 2
sage et l’utilisation des modèles entrée-sortie, puis sur la structure, l’apprentissage et l’utilisation des
modèles d’état.
( )
y p ( k ) = ϕ y p ( k −1) ,..., y p ( k − n ), u ( k − 1) ,...,u ( k − m ) + b ( k )
Remarque
On emploie parfois, au lieu du vocable « hypothèse », l’expression « modèle hypothèse », traduction de l’anglais postulated model. Pour éviter
toute confusion entre hypothèse et modèle, et pour ne pas alourdir inutilement la nomenclature, nous n’utiliserons pas ces derniers termes.
Par hypothèse, le bruit agit donc sur la sortie, non seulement d’une manière directe à l’instant k, mais
également par l’intermédiaire des sorties aux n instants précédents ; puisque l’on souhaite obtenir un
modèle tel que l’erreur de modélisation à l’instantk soit égale au bruit au même instant, il faut qu’il tienne
compte des sorties du processus aux n instants précédents. Considérons donc un réseau de neurones non
bouclé, représenté sur la figure 2-62, régi par l’équation
(
g( k) = ϕ RN yp ( k − 1),..., yp ( k − n), u ( k − 1) ,...u ( k − m) ,w )
où w est un vecteur des paramètres, et où la fonction ϕ RN est réalisée par un réseau de neurones (non
bouclé). Supposons que l’on ait effectué l’apprentissage du réseau de neuronesϕ RN de telle manière qu’il
réalise exactement la fonction ϕ . On a alors yp (k) – g(k) = b(k) pour tout k. Ainsi, ce modèle est tel que
l’erreur de modélisation soit égale au bruit : c’est donc le modèle idéal, puisqu’il modélise parfaitement
tout ce qui est déterministe dans le processus, et ne modélise pas le bruit.
Il est important de remarquer que les variables du modèle sont les variables de commande et les valeurs
de la grandeur à modéliser, mesurées sur le processus : le modèle (également appelé « prédicteur ») idéal,
représenté sur la figure 2-62 n’est donc pas un réseau de neurones bouclé.
Apprentissage du modèle : apprentissage dirigé
Puisque le modèle obtenu est un modèle non bouclé, son apprentissage s’effectue en mettant en œuvre les techniques présentées dans
la section « Apprentissage non adaptatif de modèles entrée-sortie non bouclés : apprentissage dirigé ».
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 179/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
160
g(k) g(k)
.....
yp (k-1) yp (k-n+1)
....
ϕRN ϕ RN
q-1
y (k-1)
p
Figure 2-62. Modèle idéal pour une représentation entrée-sortie avec l’hypothèse « bruit d’état » ; les deux dessins
sont équivalents, mais le fait que le réseau n’est pas bouclé apparaît plus clairement sur celui de droite.
Utilisation du modèle
Puisqu’une partie des variables du prédicteur sont les valeurs de la grandeur à modéliser, mesurées du processus, on ne peut calculer la
sortie qu’au temps immédiatement suivant : on dit que l’on réalise un prédicteur « à un pas ». Si l’on désire utiliser le modèle comme simula-
teur, c’est-à-dire prévoir la réponse du processus sur un horizon supérieur à un pas d’échantillonnage, il faut nécessairement utiliser
comme variables les prédictions faites par le modèle aux instants précédents : le prédicteur n’est plus utilisé dans des conditions optimales.
(
⎪x p ( k ) = ϕ x p (k − 1),..., x p ( k − n ), u ( k − 1) ,...,u ( k − m )
⎧ )
⎨p
⎩y ( k ) = xp ( k) + b ( k )
⎪
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 180/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
161
CHAPITRE 2
Utilisation du modèle
Contrairement au cas précédent, ce modèle peut être utilisé comme simulateur dans des conditions optimales. Il peut aussi, bien sûr, être
utilisé comme prédicteur à un pas.
■ Illustration
Avant de continuer à passer en revue les principales hypothèses possibles, on va illustrer l’importance du
choix du modèle en fonction de la manière dont le bruit intervient dans le processus. Cette illustration est
tirée de [NERRAND 1992] et de [NERRAND 1994].
Modélisation d’un processus avec bruit de sortie
Considérons un processus, simulé sur ordinateur, qui obéit aux équations suivantes :
⎧ ⎡ T ⎤ ⎡ c + dx p ( k − 1) ⎤
⎪x p (k ) = ⎢1 − ⎥ xp ( k − 1) + ⎢T ⎥ u ( k − 1) ,
⎨ ⎢⎣ a + bxp ( k − 1) ⎥⎦ ⎢⎣ a + bx p ( k −1) ⎥⎦
⎪p
⎩y (k ) = x p ( k ) + b (k )
⎪
avec a = − 0,139, b = 1,2, c = 5,633, d = − 0,326, et une période d’échantillonnage T = 0,1 s. b(k) est un
bruit blanc d’amplitude maximale 0,5. Il s’agit donc d’un processus avec bruit de sortie. La figure 2-65
montre la réponse du processus simulé à une séquence de créneaux pseudo-aléatoires.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 181/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
162
Amplitude
6
ce type de bruit ; on effectue l’apprentissage en fonction
4
d’une hypothèse retenue, et l’on compare les résultats de u
cet apprentissage avec les résultats obtenus avec 2
Erreur de modélisation
d’un réseau de neurones bouclé à 5 neurones cachés. 0,2
On observe que l’erreur de modélisation est un bruit 0
blanc d’amplitude 0,5 : on vérifie que, ayant effectué -0,2
l’hypothèse exacte et ayant choisi la structure du
-0,4
modèle en conséquence, l’erreur de modélisation est
bien égale au bruit, ce qui constitue le meilleur résultat 0 100 200 300 400 500 600 700
de modélisation que l’on puisse obtenir. Temps (0,1 sec)
Figure 2-66. Erreur de modélisation d’un processus
Hypothèse « bruit d’état » avec bruit de sortie après apprentissage
Considérons à présent l’hypothèse (inexacte) avec hypothèse « bruit de sortie »
selon laquelle le bruit serait un bruit d’état.
Conformément à cette hypothèse, effectuons
0,4
Erreur de modélisation
⎡ T ⎤ p ⎡ c + dy p ( k − 1 ) ⎤
y p (k ) = ⎢ 1 − ⎥ y ( k − 1) + ⎢T ⎥ u( k − 1) + b( k)
⎢⎣ a + bxp ( k − 1) ⎥⎦ ⎣ a + by ( k − 1) ⎦
p
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 182/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
163
CHAPITRE 2
Il s’agit donc d’un processus avec bruit d’état, dont la partie déterministe est la même que dans le cas
précédent : elle sera donc modélisée par un réseau de neurones à cinq neurones cachés, comme précédem-
ment. Faisons à nouveau successivement les deux hypothèses « bruit de sortie » et « bruit d’état ».
Hypothèse « bruit de sortie » 1,5
Erreur de modélisation
Considérons tout d’abord l’hypothèse 1,0
(inexacte) selon laquelle le bruit serait un bruit
de sortie. On a vu que le modèle idéal est alors 0,5
un modèle bouclé. La figure 2-68 montre l’erreur 0
de modélisation après apprentissage d’un
-0,5
réseau de neurones bouclé à 5 neurones cachés.
On observe que l’erreur de modélisation ne se -1,5
présente pas du tout comme un bruit blanc : il 0 100 200 300 400 500 600 700
est manifeste que l’erreur de modélisation Temps (0,1 sec)
contient de l’information que l’apprentissage
Figure 2-68. Erreur de modélisation d’un processus avec bruit
du modèle n’a pas permis d’appréhender. Là d’état après apprentissage avec l’hypothèse « bruit
encore, cet échec n’est pas dû à une raison tech- de sortie »
nique (modèle insuffisamment complexe,
apprentissage inefficace…) : c’est l’hypothèse sur le bruit, donc la structure du modèle (ici, modèle
bouclé), qui est en cause.
Hypothèse « bruit d’état »
0,4
Erreur de modélisation
(
x p ( k ) = ϕ x p ( k − 1) ,..., x p (k − n ), u ( k − 1),...,u (k − m ), b (k − 1),...b( k − p) )
y p ( k ) = x p ( k ) + b (k )
représenté sur la figure 2-70. On nomme parfois cette hypothèse NARMAX (Non linéaire Auto-Régressif
à Moyenne Ajustée et entrées eXogènes).
Il faut cette fois que le modèle tienne compte simultanément des valeurs passées de la sortie du processus et des
valeurs passées de la sortie du modèle. Considérons donc un réseau de neurones bouclé, régi par l’équation
(
g( k) = ϕ RN yp ( k − 1),... yp ( k − n) , u ( k − 1) ,...,u ( k − m) , r ( k − 1),..., r( k − p) , w )
où r(k) = yp (k) – g(k) (figure 2-71). Supposons que l’on ait effectué l’apprentissage du réseau de neurones
ϕRN de telle manière qu’il réalise exactement la fonction ϕ . Supposons de plus que l’erreur de prédiction
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 183/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
164
soit égale au bruit aux p premiers instants : yp(k) – g(k) = b(k) pour k = 0 à p – 1. On a alors
yp(k) – g(k) = b(k) pour tout k. Ainsi, ce modèle est tel que l’erreur de modélisation soit égale au bruit :
c’est donc le modèle idéal, puisqu’il modélise parfaitement tout ce qui est déterministe dans la représen-
tation, et ne modélise pas le bruit.
yp (k)
Σ
g(k)
r(k)
– Σ + ...... r(k-p+1)
xp(k) x p(k-1) x p (k-n+1) .... y p(k) r(k-1)
ϕ
q-1 ϕ RN q-1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 184/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
165
CHAPITRE 2
⎪x ( k) = ϕ (x ( k − 1), u ( k − 1) )
⎧ y p(k)
⎨
⎩y (k ) = ψ ( x (k )) + b ( k )
⎪
Σ
comme représenté sur la figure 2-72 pour un modèle du
deuxième ordre.
Le bruit n’intervenant que dans l’équation d’observa- ψ
tion, il n’a aucune influence sur la dynamique du
modèle. Pour des raisons analogues à celles qui ont été
développées dans le cas des représentations entrée- xp1 (k)
sortie, le modèle idéal est un modèle bouclé, représenté xp2 (k)
sur la figure 2-73 :
⎪x ( k) = ϕ RN ( x ( k − 1) ,u ( k − 1 ))
⎧ ϕ
⎨
⎪y (k ) = ψ RN (x ( k ) )
⎩
q-1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 185/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
166
⎪⎪x( k ) = ϕ ( x( k − 1) , u( k − 1 ), b1 ( k − 1) )
⎧
⎨
⎩y( k ) = ψ ( x( k))
⎪
(
⎧⎪x( k ) = ϕ x( k − 1), u( k − 1 ), y p ( k − 1 )
⎪ )
⎨
⎪y( k ) = ψ ( x( k))
⎩
Tableau 2-2. Conséquences des hypothèses de bruit sur l’apprentissage des modèles d’état dynamiques
x (k + 1) = Φ (x ( k ) ,u (k ) )
g ( k + 1) = Ψ ( x ( k ), u ( k ))
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 186/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
167
CHAPITRE 2
où x(k) est l’ensemble minimal, composé de ν variables, qui permet de calculer complètement l’état du
modèle à l’instant k+1, connaissant l’état du modèle et ses variables externes à l’instant k, et où les fonc-
tions vectorielles F et y sont réalisées par un ou plusieurs réseaux de neurones non bouclés. ν est l’ordre
de la forme canonique. Cette forme est donc la représentation d’état minimale ; si le vecteur d’état est de
la forme
⎛ g( k ) ⎞
⎜ ⎟
g( k ) = ⎜ g( k – 1 ) ⎟
⎜ M ⎟
⎜ ⎟
⎝ g( k – v + 1 ) ⎠
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 187/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
168
T
⎪xk = ⎡⎣ u( k ), u( k − 1),..., u ( k − m + 1), y ( k ), y (k − 1 ),..., y ( k − n + 1)⎤⎦
⎧ p p p
⎨
⎩yk = y ( k + 1)
p
⎪
(
J (w ) = ∑ y p (k ) − g ( xk , w) ) 2
k =1
par rapport aux paramètres w du réseau non bouclé de Réseau de neurones non bouclé
la forme canonique. de la forme canonique
Le piège du « prédicteur stupide »
En apprentissage dirigé, le modèle prend en considération, à chaque
pas de temps, les valeurs de la grandeur à modéliser mesurées sur le
..... .....
processus. Il est donc très facile d’obtenir des résultats qui peuvent
donner l’impression d’une grande qualité, surtout si l’on se contente u(k-1) u(k-m) y (k-1) y (k-2) y p (k-n)
p p
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 188/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
169
CHAPITRE 2
temps. Le vecteur des sorties de la copie k constitue le vecteur des variables de la copie suivante, corres-
pondant à l’instant k+1. Le dépliement temporel pour l’apprentissage d’un réseau d’ordre 2, avec m = 1,
à l’aide d’une séquence de longueurN, est représenté sur la figure 2-77.
Le concepteur doit choisir le vecteur des variables à l’instant initial. Si la grandeur à modéliser est connue
au cours des n premiers instants, il est naturel de prendre ces valeurs pour l’état initial. Les valeurs de la
grandeur à modéliser n’interviennent donc que pour l’initialisation : c’est la raison pour laquelle cet algo-
rithme est appelé semi-dirigé, par opposition aux algorithmes dirigés qui sont utilisés pour les réseaux non
bouclés, dans lesquels les mesures effectuées sur le processus interviennent à tous les instants (figure 2-75).
Remarque très importante
Toutes les copies étant identiques, il fautt utiliser la technique des poids partagés, décrite plus haut.
Vecteur des prédictions
à l’instant k +1 et aux n -1 instants précédents
...... ......
u(k) u(k-m+1) g(k) g(k-1) g(k-n+2) g(k-n+1)
g(N )
u(N )
Réseau non bouclé g(N -1) g(N-2) Figure 2-77.
Dépliement
g(2) g (1) temporel pour
u(k +1) g(k +1) g(k)
l’apprentissage
semi-dirigé
Réseau non bouclé
Réseau non bouclé d’un réseau
dynamique
u(1) g(1) g (0) d’ordre 2
u(k )
g(k ) g(k -1) sous forme
canonique,
Réseau non bouclé avec m = 1
u(0)
g(0) g (0)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 189/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
170
■ Hypothèse NARMAX
Le prédicteur étant bouclé, son apprentissage nécessite, comme dans le cas précédent, de « déplier » le
réseau en un grand réseau non bouclé, composé de N copies identiques (c’est-à-dire possédant toutes les
mêmes paramètres). Les variables de la copie k (représentée sur la figure 2-78) sont :
• le vecteur [u(k), ..., u(k-m+1)]T (on suppose, pour simplifier le schéma, que le processus a une
seule variable de commande) ;
• le vecteur [yp (k), ..., yp (k-n+1)]T ;
• le vecteur des erreurs à l’instant k et aux p instants précédents [r(k), ...,
r(k-p+1)]T.
Le vecteur de sortie de la copie k est le vecteur des erreurs à l’instant k+1 et aux p instants précédents
[r(k+1), ..., r(k-p+2)]T. Le réseau ne calcule donc que r(k+1), les autres composantes du vecteur des
erreurs à l’instant k+1 étant déduites de celles du vecteur des erreurs à l’instant k par décalage d’une unité
de temps. Le vecteur des erreurs à l’instant k+1 entre dans la constitution du vecteur des variables de la
copie suivante, correspondant à l’instant k+1.
– Σ +
Figure 2-78.
g(k+1) y p(k+1) Copie k du réseau non bouclé
de la forme canonique
pour l’apprentissage
d’un modèle NARMAX
Réseau non bouclé
de la forme canonique
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 190/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
171
CHAPITRE 2
Ce dernier vecteur constitue le vecteur des variables d’état de la copie suivante, correspondant à l’instant
k+1 (voir figure 2-79).
Pour l’initialisation de la première copie, le problème est plus délicat que dans les cas précédents, puisque
l’état initial n’est pas connu. On peut, par exemple, prendre un vecteur nul.
L’état n’étant imposé que pour la première copie, il s’agit encore d’un algorithme semi-dirigé.
......
u(k) x1(k) x 2 (k) xn (k)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 191/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
172
Remarque
La remarque concernant le « prédicteur stupide », formulée à propos de l’apprentissage dirigé des modèles entrée-sortie, s’applique
également à l’apprentissage dirigé des modèles d’état.
État prédit
à l’instant k+1
g(k+1)
x1 (k+1) xn (k+1)
Figure 2-80.
Réseau non bouclé Réseau non bouclé Copie k pour l’apprentissage
d’un réseau d’état
comprenant deux réseaux
distincts pour l’état et pour
x1p (k) xnp (k) u(k) x 1(k+1) x n (k+1) la grandeur à modéliser
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 192/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
173
CHAPITRE 2
• comme indiqué au début de la section sur la modélisation dynamique « boîte noire », les modèles d’état
sont plus généraux et plus parcimonieux, mais d’apprentissage moins aisé, que les modèles entrée-
sortie; il est donc recommandé d’essayer d’abord des modèles entrée-sortie, puis, si ceux-ci ne sont pas
satisfaisants, d’essayer des modèles d’état ;
• des connaissances, même très sommaires, sur le processus à modéliser, fournissent souvent des indica-
tions sur la nature du bruit qui agit sur le processus ;
• de même, l’observation de la réponse du processus fournit souvent des indications concernant l’ordre
souhaitable pour le modèle.
Pour illustrer cette démarche de conception, on présente ici un exemple : la modélisation « boîte noire »
de l’actionneur hydraulique d’un bras de robot utilisé pour l’exploitation forestière. Les données ont été
recueillies par l’Université de Linköping (Suède)2, et ont fait l’objet de modélisations « boîte noire »
effectuées par plusieurs équipes (voir notamment [SJÖBERG 1995]).
1,5
1 Commande u
0,5
0
Figure 2-81.
-0,5 Séquences
d’apprentissage
-1 et de test pour
la modélisation
-1,5 de l’actionneur
0 200 400 (a)600 800 1000 d’un bras
Séquence d'apprentissage de robot
Séquence de test
4
Grandeur à modéliser y p
-2
-4
0 200 400 (b)600 800 1000
La variable de commande est l’ouverture de la vanne d’admission du liquide dans le vérin, et la grandeur
à modéliser est la pression hydraulique dans l’actionneur. Deux séquences d’observations sont
disponibles ; chacune d’elles comprend 512 points. La première de ces séquences est destinée à l’appren-
tissage, la seconde au test. La figure 2-81(a) montre la séquence des signaux de commande, et la figure 2-81(b)
représente les réponses correspondantes.
Remarque
Aucun ensemble de validation n’étant fourni, les performances indiquées sont les meilleures performances obtenues sur l’ensemble de test.
2. Ces données proviennent de la Division of Oil Hydraulics and Pneumatics, Dept. of Mechanical Eng., Linköping University, et
nous ont été aimablement communiquées par P.-Y. Glorennec (IRISA, Rennes).
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 193/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
174
Tout d’abord, on observe facilement que le modèle doit être non linéaire pour rendre compte des
observations : par exemple, des commandes dont les amplitudes sont dans un rapport 2 (par exemple les
variations rapides présentes aux instants 10 et 380 environ) n’entraînent pas des réponses dans un rapport 2.
On ne dispose ici d’aucune indication sur la physique du dispositif, et notamment sur les sources de
perturbation. Il faut donc tester les hypothèses de bruit d’état et de bruit de sortie.
De plus, les réponses à des variations brusques (par exemple au voisinage de l’instant 220) suggèrent que
le modèle doit être d’ordre supérieur à 1.
Enfin, l’application ne nécessitant pas un apprentissage adaptatif, seuls les apprentissages non adaptatifs
seront envisagés.
Modélisation entrée-sortie
Comme indiqué plus haut, la modélisation entrée-sortie est plus simple à mettre en œuvre que la modéli-
sation d’état : c’est donc celle que l’on essaie en priorité. En l’absence de toute connaissance sur le
processus, il faut faire successivement les hypothèses de bruit d’état (apprentissage dirigé d’un modèle
non bouclé, modèle NARX), de bruit de sortie (apprentissage semi-dirigé d’un modèle bouclé), et de
présence simultanée des deux (apprentissage avec présence simultanée, en entrée, des prédictions du
modèle et des mesures de la sortie du processus).
Les hypothèses faisant intervenir un bruit d’état donnent des résultats de très mauvaise qualité lorsqu’ils
sont utilisés comme simulateurs, c’est-à-dire si on leur demande une prédiction à plus d’un pas de temps ;
ils ne seront pas présentés ici. On ne présente que les résultats obtenus par modélisation par apprentissage
semi-dirigé d’un modèle bouclé. Le meilleur modèle est un modèle d’ordre 2, à 3 neurones cachés avec
fonction d’activation sigmoïde, avec un horizon de 1 sur l’entrée. Son équation est donc :
g (k ) = ϕ RN (g ( k − 1) , g (k − 2 ), u ( k − 1) ,w )
Modélisation d’état
Compte tenu des résultats obtenus avec les modèles entrée-sortie, on cherche à concevoir des modèles
d’ordre 2. Deux possibilités se présentent :
• modèles à deux variables d’état (non mesurées dans cette application) ;
• modèles dont la prédiction constitue une des variables d’état (une des variables d’état est donc mesurée).
Là encore, les modèles dont l’apprentissage est effectué à l’aide d’un algorithme dirigé (hypothèse « bruit
d’état ») donnent de très mauvais résultats lorsqu’ils sont testés en simulateurs.
Le tableau 2-3 présente les meilleurs résultats obtenus après apprentissage semi-dirigé mettant en œuvre
l’algorithme de Levenberg-Marquardt, pour un réseau à trois neurones cachés.
EQMA EQMT
Réseau sans variable d’état mesurée 0,091 0,18
Réseau dont une des variables d’état est la sortie 0,071 0,12
Tableau 2-3. Résultats obtenus après apprentissage semi-dirigé avec optimisation par l’algorithme de Levenberg-Marquardt
(trois neurones cachés)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 194/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
175
CHAPITRE 2
Le meilleur modèle est donc le réseau dont la sortie est une des variables d’état. Son équation est
⎧x1 ( k ) = ϕ 1RN ( x1 (k − 1 ), x 2 (k − 1) ,u (k − 1 ))
⎪
⎪
⎨x2 ( k ) = ϕ RN ( x1 ( k − 1), x2 ( k − 1), u( k − 1) )
2
⎪
⎩( )
⎪g k = x2 ( k )
Remarque
À notre connaissance, ces résultats sont les meilleurs résultats publiés sur cette application. On peut en trouver le détail, ainsi que des
résultats obtenus avec des réseaux d’ondelettes, dansUSSAR
[O 1998].
Propriété
Tout réseau de neurones bouclé, aussi complexe soit-il, peut être mis sous une forme d’état minimale,
dite « forme canonique », à laquelle s’appliquent directement les algorithmes décrits dans les para-
graphes précédents. Ces derniers sont donc complètement génériques, en ce sens qu’ils s’appliquent
à n’importe quelle structure de réseau bouclé, sous réserve d’avoir préalablement ramené celle-ci à
une forme canonique.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 195/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
176
On va donc montrer comment, étant donnée une structure arbitraire de réseau, provenant, par exemple,
d’une modélisation de connaissance, on peut trouver la forme canonique correspondante. Cette opération
peut se décomposer en deux étapes :
• détermination de l’ordre du réseau ;
• détermination d’un vecteur d’état et de la forme canonique correspondante.
Rappel
Lorsqu’on procède à une modélisation purement « boîte noire », c’est-à-dire que l’on ne dispose d’aucun modèle mathématique, même
approximatif, dont on désire s’inspirer pour concevoir le modèle, on utilise directement la forme canonique : le problème de la mise sous
forme canonique ne se pose pas.
Définition
Forme canonique
On appelle forme canonique d’un réseau de neurones bouclé la forme d’état minimale
x (k ) = Φ (x (k − 1 ),u ( k −1 ))
g( k) = Ψ ( x ( k − 1 ), u ( k − 1 ))
où x(k) est l’ensemble minimal, composé de ν variables, qui permet de calculer complètement l’état
du modèle à l’instant k+1, connaissant l’état du modèle et ses entrées à l’instant k, et où les fonctions
F et Y sont des fonctions qui peuvent notamment être réalisées par des réseaux de neurones non
bouclés.
ν est l’ordre de la forme canonique. Il s’avère commode, mais pas obligatoire, d’utiliser un seul
réseau de neurones pour réaliser le prédicteur, dont les variables sont les variables externes et
les variables d’état à un instant donné, et les sorties sont lesvariables d’état et les prédictions à
l’instant suivant (voir figure 2-6).
⎧ẋ˙ = φ ( x , x , x , u )
⎪2 1 1 2 3
⎪x 2 = φ2( x1 , x 3)
⎨
⎪ẋ˙3 = φ3( x1 , x 2)
⎪
⎩g = x 3
Un équivalent, en temps discret, de ces équations, établi à l’aide de la méthode d’Euler, est donné par des
relations de la forme :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 196/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
177
CHAPITRE 2
⎧x1 ( k + 1 )) = Ψ 1 ( x 1 ( k ) , x1 (k − 1 ), x 2 (k − 1 ),x 3 ( k − 1) ,u (k −1 ))
⎪
⎪x2 ( k + 1) = Ψ 2 ( x2 ( k + 1) , x3 ( k + 1))
⎨
⎪x3 ( k + 1) = Ψ 3 (x 3 (k ), x 3 ( k − 1), x 1 ( k − 1), x 2 (k ), x2 (k − 1) )
⎪
⎩g ( k + 1) = x3 ( k + 1)
Rappel
La méthode de discrétisation d’Euler consiste à remplacer la dérivée f’(t) d’une fonction à l’instant kT (où T est la période d’échantillonnage
et k un entier positif) par l’expression approchée [ f(kT) – f((k – 1)T)] / T. Dans la section consacrée à la modélisation « boîte grise », on
reviendra en détail sur les problèmes de discrétisation des équations différentielles d’un modèle à temps continu.
Il est clair que ces équations ne sont pas sous une forme canonique. Il est souhaitable, pour la clarté de
l’analyse du réseau, et pour faciliter l’apprentissage si les fonctions inconnues sont paramétrées, de
connaître le nombre minimal de variables qui permettent de décrire ce modèle, et de le mettre sous forme
canonique. Il faut noter que cette forme canonique n’est pas unique : pour un réseau donné, on peut géné-
ralement trouver plusieurs formes canoniques, qui, bien entendu, ont toutes le même nombre de variables
d’état.
Il s’avère intéressant de représenter cette structure par le graphe du réseau, dont les nœuds sont
les neurones, et les arêtes les connexions entre neurones ; on attribue à chaque arête une longueur qui est
le retard (exprimé en multiple entier, éventuellement nul, de la période d’échantillonnage) associé à celle-
ci, et une direction (qui est celle de la circulation de l’information dans la connexion considérée). La
longueur d’un chemin dans le graphe est égale à la somme des longueurs des arêtes de ce chemin.
Attention
Pour qu’un réseau de neurones à temps discret soit causal, il ne doit pas posséder de cycle de
longueur nulle.
Remarque
Un cycle dans un graphe est un chemin qui va d’un nœud à lui-même, sans passer deux fois par un autre nœud, en respectant la direction
des arêtes. La longueur d’un cycle est la somme des longueurs de ses arêtes.
En effet, si un cycle était de longueur nulle, cela signifierait que la valeur de la sortie d’un neurone du
réseau à un instant donné dépendrait de la valeur de cette même sortieau même instant.
La figure 2-82 montre une représentation des équations du modèle sous forme du graphe d’un réseau de
neurones bouclé ; les nœuds 1, 2 et 3 représentent des neurones de fonction d’activationΨ 1, Ψ2 et Ψ3 ,
respectivement, si ces dernières sont connues; si elles ne le sont pas, chacun de ces nœuds représente un
réseau de neurones non bouclé réalisant une de ces fonctions. Les nombres représentés dans des carrés
sont les retards associés à chacune des connexions, exprimés en nombre de périodes d’échantillonnage.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 197/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
178
g(k+1)
2
0 2 Figure 2-82
1 2 1 2 3 2 1
Graphe
d’un modèle
2 0 dynamique
u(k)
On peut choisir comme vecteur d’état le vecteur z(k) = [x1(k), x2 (k-1), x3(k), x3(k-1)]T. La forme canonique
correspondante est représentée sur la figure 2-83.
g(k+1)
x3 (k-1) x2(k)
q -1
2 2 q -1
Elle comprend un réseau non bouclé avec trois neurones cachés (le neurone 1, et le neurone 2, qui est
dupliqué dans la forme canonique (avec des poids partagés)), un neurone de sortie (le neurone 3), qui est
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 198/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
179
CHAPITRE 2
un neurone d’état ; le neurone 1 est également un neurone d’état. Le modèle étant d’ordre quatre, il y a
quatre sorties d’état, reliées aux entrées d’état par des retards unité, représentés par l’opérateur retardq –1 .
Remarque
Le réseau représenté sur la figure 2-83 est strictement équivalent à celui qui est représenté sur la figure 2-82 : il s’agit seulement d’une
réécriture très commode, qui permet, en premier lieu, de rendre la structure du modèle plus lisible, et surtout d’utiliser les algorithmes
d’apprentissage conventionnels exposés plus haut, rendant ainsi inutile la conception d’un algorithme d’apprentissage spécifique pour
chaque architecture de réseau.
Cette forme est bien une forme canonique du type représenté sur la figure 2-6. Les détails algorithmiques
de la mise sous forme canonique de ce modèle sont donnés dans [DREYFUS 1998].
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 199/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
180
chercheur possède sur le processus, à condition que celles-ci puissent être exprimées par des équations
algébriques ou différentielles. De surcroît, ce modèle peut utiliser des fonctions paramétrées, dont les
paramètres sont déterminés par apprentissage. Dans la mesure où l’on met en œuvre davantage de
connaissances expertes, les données expérimentales nécessaires pour estimer les paramètres d’une
manière significative peuvent être en quantité plus réduite.
dx
= f ( x (t ), u (t ))
dt
y (t ) = g ( x ( t ))
où x est le vecteur des variables d’état, y est le vecteur des grandeurs à modéliser, u est le vecteur des
signaux de commande, et où f et g sont des fonctions connues. Comme indiqué plus haut, ce modèle peut
ne pas être satisfaisant pour des raisons diverses : les fonctions f et g peuvent être trop imprécises compte
tenu de l’objectif d’utilisation du modèle, ou mettre en jeu un trop grand nombre de paramètres, ou encore
nécessiter un temps de calcul trop grand, etc. Dans un modèle semi-physique, les fonctions qui ne sont pas
connues avec suffisamment de précision sont réalisées par des réseaux de neurones dont on effectue
l’apprentissage à partir de données expérimentales, tandis que les fonctions qui sont connues d’une
manière fiable sont conservées sous forme analytique, ou encore mises sous la forme de neurones dont la
fonction d’activation est connue et ne fait pas intervenir de paramètres ajustables.
En général, la conception d’un modèle semi-physique comprend trois étapes :
• étape 1 : obtention, à partir du modèle de connaissance, d’un modèle à temps discret : cela nécessite le
choix d’une méthode de discrétisation appropriée ;
• étape 2 : apprentissage du modèle semi-physique, ou de parties de celui-ci, à partir de données obtenues
par intégration numérique du modèle de connaissance ; cette étape est en général nécessaire pour
obtenir de bonnes valeurs initiales des paramètres, qui sont utilisées lors de l’étape suivante ;
• étape 3 : apprentissage du modèle semi-physique à partir de données expérimentales.
Cette stratégie de conception de modèle semi-physique va être illustrée au moyen d’un exemple simple.
■ Exemple illustratif
Un modèle de connaissance est décrit par les équations suivantes :
dx1 ( t )
= − ( x1 ( t ) + 2 x2 (t )) + u ( t )
2
dt
dx2 ( t )
= 8, 32 x1 ( t )
dt
y (t ) = x 2 (t )
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 200/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
181
CHAPITRE 2
Les variables d’état x1 et x 2 sont mesurables. La figure 2-84 montre la réponse du processus à deux
séquences d’entrée ; dans tout ce paragraphe, la séquence de gauche est utilisée comme ensemble
d’apprentissage, et la séquence de droite comme ensemble de test.
5 5
y(t) y(t)
4,5 4,5
4 4
(ensemble d’apprentissage)
Grandeur à modéliser
3,5
Grandeur à modéliser
3,5
0,5
bruit qui vaut 0,01 (voir figure 2-85).
Les experts indiquent que la première équation d’état 0
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 201/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
182
x1 ( k + 1) = x 1 (k ) + T ⎡− (x1 ( k ) + 2x 2 (k ) ) + u (k ) ⎤
2
⎣ ⎦
x2 (k + 1 ) = x2 ( k) + T (8 ,32 x1 ( k) )
Le réseau de neurones semi-physique le plus simple est alors décrit par les équations suivantes :
x1 ( k + 1) = x 1 (k ) + T ⎡− (x1 ( k ) + 2x 2 (k ) ) + u (k ) ⎤
2
⎣ ⎦
x2 (k + 1 ) = x2 ( k) + T ( wx1 ( k ) )
où w est un paramètre qui est estimé par apprentissage à partir des données expérimentales. Ces équations
sont sous la forme conventionnelle d’un modèle d’état : il n’est donc pas nécessaire de les mettre sous
forme canonique ; si ce n’était pas le cas, il faudrait avoir recours à la technique de mise sous forme cano-
nique décrite précédemment. Le réseau ainsi obtenu est représenté sur la figure 2-86.
Pour simplifier les schémas, l’entrée constante (biais) ne y(k+1)
sera pas représentée ; de plus, le temps discret kT sera
simplement noté k. Sur la figure 2-86, le neurone 1 réalise x 1 (k+1) x2 (k+1)
une somme pondérée s de x 1(kT) et x 2(kT) avec les poids
3 4
indiqués sur la figure, puis la non-linéarité –s2, et ajoute
u(kT). Le neurone 2 multiplie son entrée par le paramètre
1 T T 1
w. Les neurones 3 et 4 réalisent simplement des sommes
pondérées. Si w valait 8,32, les résultats du modèle
seraient exactement les résultats de l’intégration numé- 1 2 q -1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 202/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
183
CHAPITRE 2
y(k+1)
1,5
x1 (k+1) x 2(k+1)
1
3 44
0,5 T
Ereur de modélisation
1 T 1
0 w4 w 5 w6
1 q -1
-0,5
w1 w2 w3
1
-1
1 2
-1,5
0 500 1000 1500 2000 2500 3000 3500 4000 u(k) x 1 (k) x2(k)
Temps
Figure 2-87. Erreur de modélisation sur l’ensemble Figure 2-88. Forme canonique d’un modèle semi-
de test physique
La figure 2-89 montre l’erreur de modélisation obtenue avec ce modèle, en utilisant deux neurones dans
la couche cachée du réseau « boîte noire » non bouclé. L’erreur quadratique moyenne sur l’ensemble de
test devient égale à 0,02, ce qui constitue une amélioration importante par rapport au modèle précédent.
y(k+1)
1,5
x1 (k+1) x 2(k+1)
1 3 44
Erreur de modélisation
T
0,5
1 T 1
0
1 q -1
-0,5
-1
1 1 2
-1,5
0 1000 2000 3000 4000
Temps u(k) x 1(k) x2 (k)
Figure 2-89. Erreur de modélisation sur l’ensemble Figure 2-90. Forme canonique d’un modèle semi-
de test physique
Les résultats n’étant pas encore satisfaisants (l’erreur quadratique sur l’ensemble de test est deux fois plus
grande que la variance du bruit), on peut mettre en œuvre un réseau qui réponde au troisième niveau de
critique émise contre le modèle de connaissance : la seconde équation d’état est non linéaire par rapport
àx1 et par rapport à x2. Ce modèle est représenté sur la figure 2-90 (avec trois neurones cachés).
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 203/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
184
Erreur de modélisation
égale à la variance du bruit (voir figure 2-91), le
0,5
modèle peut être considéré comme satisfaisant.
0
Discrétisation du modèle
de connaissance -0,5
x (k + 1 ) = ϕ ( x ( k ) ,T )
• où T est le pas de discrétisation qui est, le plus souvent, égal à la période d’échantillonnage des données
expérimentales ;
• où k est un entier positif ;
• et où la fonction ϕ dépend de la technique de discrétisation choisie (on verra au paragraphe suivant des
exemples de techniques de discrétisation).
Un schéma de discrétisation « implicite » transforme la même équation différentielle en une équation à
temps discret de la forme suivante :
x (k + 1 ) = Ψ ⎡⎣ x (k + 1 ), x (k ), T ⎤⎦.
La différence essentielle entre ces deux formes réside en ceci que la quantité x[(k+1)T] est présente
uniquement dans le membre de gauche, si l’on utilise un schéma explicite, tandis que ce terme est présent
dans les deux membres, si l’on utilise un schéma implicite. En conséquence, si l’on veut réaliser un
prédicteur à un pas, c’est-à-dire un modèle qui permette de calculer les quantités à l’instant (k+1)T,
connaissant les quantités à l’instant kT, il faut résoudre une équation non linéaire lorsqu’on utilise un
schéma implicite, alors que le calcul est immédiat si l’on utilise un schéma explicite.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 204/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
185
CHAPITRE 2
De façon plus générale, considérons un ensemble d’équations d’état écrit sous la forme vectorielle :
dx ( t)
= f ( x ( t ), u ( t ))
dt
K ⎡⎣ x( k) ⎤⎦ x( k + 1) + Ψ ⎡⎣ x( k), u ( k), T ⎤⎦ = 0
où K est une matrice et Y est une fonction vectorielle qui dépendent de la technique de discrétisation
utilisée, tandis que, si un schéma implicite est mis en œuvre, les équations discrétisées peuvent être mises
sous la forme générale :
K ⎡⎣ x ( k + 1)⎤⎦ x (k + 1 ) + Ψ ⎡⎣ x ( k + 1) ,x ( k ) ,u (k + 1) ,T ⎤⎦ = 0
Là encore, on observe que le calcul du vecteur d’étatx[(k+1)T] à partir de l’état et des variables à l’instant
kT est immédiat si l’on utilise un schéma explicite (si la matrice K est inversible) :
x (k + 1) = −K ⎡⎣ x (k )⎤⎦ Ψ ⎡⎣ x (k ), u (k ),T ⎤⎦
−1
alors qu’il nécessite la résolution d’un système d’équations non linéaires si l’on utilise un schéma impli-
cite.
Exemples
dx
Reprenons l’exemple de l’équation différentielle du premier ordre = f ⎡⎣ x( t) , u( t) ⎤⎦ .
dt
La méthode d’Eulerexplicite consiste à considérer que la fonction f est constante, égale à f ⎡⎣ x (kT ) ⎤⎦ entre
les instants kT et (k+1)T, de sorte que l’intégration de l’équation différentielle entre kT et (k+1)T donne
immédiatement :
x ( k + 1) = x ( k ) + Tf ⎡⎣ x (k )⎤⎦
En revanche, le schéma d’Euler implicite consiste à considérer que la fonction f est constante, égale à
f ⎡⎣ x ( k + 1)T ⎤⎦ entre kT et (k+1)T, de sorte que l’intégration de l’équation différentielle entre kT et (k+1)T
donne immédiatement :
x ( k + 1) = x ( k ) + Tf ⎡⎣ x (k +1 )⎤⎦
De même, la méthode des trapèzes (ou méthode de Tustin) consiste à considérer que la fonctionf varie
linéairement entre kT et (k+1)T, de sorte que l’intégration de l’équation différentielle donne :
T
x ( k +1 ) = x ( k ) + ⎡ f ( x ( k + 1) ) + f ( x( k)) ⎤⎦.
2⎣
Cette méthode est donc une méthode implicite, puisque des valeurs des grandeurs à l’instant (k+1)T appa-
raissent dans les deux membres de l’équation : le calcul de x(k+1) nécessite la résolution d’une équation
algébrique non linéaire.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 205/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
186
Application
Considérons le modèle de connaissance traité plus haut, décrit par les équations :
dx1 ( t )
= − ( x1 ( t ) + 2 x2 (t )) + u ( t )
2
dt
dx2 ( t )
= 8, 32 x1 ( t )
dt
y (t ) = x 2 (t )
Il est facile de vérifier que sa discrétisation par la méthode d’Euler explicite donne :
x1 ( k + 1) = x 1 (k ) + T ⎡− (x1 ( k ) + 2x 2 (k ) ) + u (k ) ⎤
2
⎣ ⎦
x2 (k + 1 ) = x2 ( k) + T (8 ,32 x1 ( k) )
avec :
⎛1 + T x1 ( k + 1) + 4T x2 (k + 1) 4T x2 ( k + 1) ⎞
K ⎡⎣x ( k + 1) ⎤⎦ = ⎜ ⎟
⎝ −T w 1 ⎠
et :
⎛x ( k ) + Tu (k +1 )⎞
Ψ ⎡⎣ x (k + 1), x (k ), u ( k + 1) , T ⎤⎦ = ⎜ 1 ⎟
⎝ x2 ( k ) ⎠
du ( t )
= −α u (t ), α > 0
dt
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 206/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
187
CHAPITRE 2
Ainsi, u(k + 1) se déduit de u(0) par une progression géométrique de raison (1 –α T), qui converge si, et
seulement si, sa raison est inférieure à 1, soit T < 2/α . Le temps de calcul nécessaire pour intégrer numé-
riquement cette équation est donc proportionnel à 1/α : si la quantité α est très petite, le temps de calcul
peut être prohibitif car le pas d’échantillonnage doit être très fin.
Considérons à présent la discrétisation de la même équation par la méthode d’Euler implicite ; on obtient
alors :
u (k + 1) − u ( k )
= −α u ( k + 1) ,
T
soit encore :
1
u ( k + 1) = u(k)
1 +α T
Comme le dénominateur du membre de droite est nécessairement supérieur à 1, la raison de la progression
géométrique est inférieure à 1 : elle converge donc quelle que soit la valeur deα . Ainsi, le choix du pas
d’échantillonnage peut être effectué indépendamment de la valeur deα .
Néanmoins, cette propriété se paie, comme cela a été indiqué plus haut, par le fait que, en général (et
contrairement à l’exemple très simple ci-dessus), on ne peut pas calculer directement les valeurs des quan-
tités à l’instant (k + 1)T : il faut résoudre une équation algébrique non linéaire. Cela a des conséquences
sur la forme du modèle neuronal qui en résulte.
■ Schémas explicites et schémas implicites : conséquences sur l’architecture du modèle
neuronal
Un modèle de connaissance discrétisé par un schéma Variables d'état
explicite est très simple à mettre sous la forme d’un à l’instant k+1
réseau de neurones bouclé : comme cela a été vu plus x(k+1)
haut, on a
x ( k + 1) = −K −1
⎡⎣x (k )⎤⎦Ψ ⎡⎣x (k ), u (k ),T ⎤⎦ Réseau de neurones non bouclé
q -1 q -1
ce qui est directement la forme canonique d’un réseau
de neurones bouclé comme cela est représenté sur la
figure 2-92, où le réseau de neurones non bouclé
x(k)
réalise une approximation de la fonction –K–1 Ψ . u(k-1)
L’exemple didactique présenté plus haut est un
Signaux de commande Variables d'état
exemple de réalisation d’un modèle semi-physique à à l’instant k-1 à l’instant k
partir d’un modèle physique discrétisé par une Figure 2-92. Forme canonique du réseau obtenu
méthode explicite. par discrétisation avec un schéma explicite
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 207/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
188
Lorsque, pour des raisons de stabilité numérique évoquées plus haut, on met en œuvre une méthode impli-
cite de discrétisation, la réalisation du modèle semi-physique sous forme d’un réseau de neurones bouclé
est moins simple, mais elle est tout à fait possible. La description de cette technique dépasse le cadre de
cet ouvrage. Le lecteur en trouvera une description détaillée dans [OUSSAR 2001].
Dans la pratique, l’ingénieur ou le chercheur, s’il se doit d’avoir compris les fondements des outils qu’il
utilise ainsi que la méthodologie qu’il doit impérativement mettre en œuvre s’il veut obtenir des résultats
fiables, n’a certainement ni le goût ni le loisir de programmer lui-même tous les algorithmes qui ont été
présentés. Il a donc le souci de choisir un bon outil pour atteindre ses objectifs.
À l’heure où ces lignes sont écrites, deux types d’outils de développement sont disponibles :
• des « boîtes à outils » spécifiques aux réseaux de neurones, à l’intérieur d’outils généraux de calcul ;
typiquement, Matlab et SAS proposent des boîtes à outils qui permettent un apprentissage et une mise
en œuvre aisée de réseaux de neurones non bouclés ; l’effort de programmation est très réduit pour les
fonctions classiques, mais peut être important, notamment pour la mise en œuvre des éléments de
méthodologie qui ne sont pas spécifiquement « neuronaux » » (calcul des leviers, des intervalles de
confiance, du score de leave-one-out virtuel) ou pour celle des réseaux de neurones bouclés ;
• des outils de développement spécifiques qui incluent une méthodologie complète, et pour lesquels
aucune programmation n’est nécessaire ; c’est le cas du logiciel français NeuroOne3 ; ces logiciels
n’autorisent pas l’infinie variété de la programmation personnelle, mais ils permettent d’obtenir rapide-
ment des résultats dont la qualité dépend évidemment de celle des algorithmes implantés. Le CD-ROM
joint à cet ouvrage propose une version d’évaluation de ce logiciel.
Remarque
Il faut aussi mentionner des logiciels universitaires disponibles sur le Web, qui peuvent être utiles pour une formation, mais qui ne sont pas
à conseiller pour la réalisation d’applications réalistes, destinées à fonctionner en environnement industriel.
L’ingénieur ou le chercheur choisira donc son outil en fonction de ses objectifs, de ses méthodes de
travail, des délais et des obligations de résultats auxquels il est soumis, et de l’ampleur de l’application à
réaliser ; l’idéal est évidemment de disposer des deux types d’outils qui, dans bien des cas, se révèlent très
complémentaires. En tout état de cause, et quel que soit l’outil mis en œuvre, on ne saurait trop insister
sur l’importance d’une bonne compréhension des bases, et sur la nécessité absolue d’une approche
méthodologique raisonnée.
3. Édité par NETRAL S.A. ; plusieurs illustrations et exemples d’applications de ce chapitre et du précédent ont été réalisés à l’aide
de ce logiciel.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 208/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
189
CHAPITRE 2
Figure 2-93.
0,5 Sortie
d’un neurone
à 3 variables
0 {x 0=1, x 1, x2}
y
munies
des paramètres
{w 0 =0, w1 =+1,
-0,5 w2 =-1}, dont
la fonction
d’activation
-1 est une tangente
hyperbolique :
5 y=th(x 1-x 2)
0 5
x2
0
x1
-5 -5
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 209/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
190
0,8
0,2
0
2
1 2
0 1
0
-1 -1
-2 -2
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 210/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
191
CHAPITRE 2
Algorithme de Ho et Kashyap
L’algorithme de Ho et Kashyap permet de déterminer, en un nombre fini d’itérations, si deux ensembles
d’exemples sont linéairement séparables ; dans l’affirmative, cet algorithme fournit une solution (parmi
une infinité de solutions possibles). Contrairement à certains algorithmes développés dans le chapitre 6, il
ne fournit pas une solution optimisée. Son intérêt essentiel est donc de déterminer si deux classes sont
linéairement séparables, ou si elles ne le sont pas ; dans l’affirmative, on utilisera, pour trouver une bonne
solution, un des algorithmes présentés dans le chapitre 6.
Considérons deux ensembles d’exemples, appartenant à deux classes A et B, en nombre na et n b ; si les
exemples sont décrits par n descripteurs, chacun d’eux peut être représenté par un vecteur dans un espace
de dimension n. On désigne par xkA le vecteur représentatif de l’exemple k de la classe A (k = 1 à na), et
par w le vecteur des paramètres du séparateur linéaire ; si un tel séparateur existe, il doit obéir aux
conditions :
A
xk ⋅ w >
x ⋅0 pour
< tout élement de la classe , A
B
k
w 0 pour tout élément de la classe B.
Soit M la matrice dont les lignes sont les vecteurs représentatifs des exemples de A et les opposés des
vecteurs représentatifs des vecteurs de B. Un séparateur linéaire existe si et seulement si il existe un
vecteur w tel que
Mw > 0
soit encore s’il existe un vecteur y > 0 et un vecteur w tels que M w = y.
On a alors w = M* y, où M* est la matrice pseudo-inverse de la matrice M : M* = MT (M M T) –1, qui peut
être calculée par la méthode de Choleski [PRESS 1992].
L’algorithme de Ho et Kashyap est le suivant :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 211/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
192
Algorithme de BFGS
L’algorithme de BFGS consiste à modifier les paramètres, à l’itération i de l’algorithme, par la relation
w( i) = w( i − 1) − μi Mi ∇ J( w( i− 1))
où μ i est une constante positive, et où M i est une approximation, calculée itérativement, de l’inverse de la
matrice hessienne ; elle est évaluée à chaque itération par la relation :
Algorithme de Levenberg-Marquardt
L’algorithme de Levenberg-Marquardt consiste à modifier les paramètres, à l’itération i, par la relation :
−1
w( i) = w( i − 1) − ⎡⎣ H ( w( i − 1)) + μ i I ⎤⎦ ∇ J ( w ( i− 1)).
Pour de petites valeurs du pas μ i, la méthode de Levenberg-Marquardt s’approche de celle de Newton.
Inversement, pour de grandes valeurs de μ i, l’algorithme de Levenberg-Marquardt est équivalent à l’appli-
cation de la règle du gradient simple avec un pas de 1/μ i .
L’application de cet algorithme nécessite l’inversion de la matrice ⎡⎣ H (w(i − 1) ) + μ i I ⎤⎦ . L’expression
exacte de la matrice hessienne de la fonction de coût totale J(w) est :
T
N
⎛∂ ek ⎞ ⎛∂ ek ⎞
N
⎛ ∂2 ek ⎞
H (w( i ) ) = ∑⎜ + ∑⎜ ek,
⎝∂ w ⎟
k= 1
⎠ w =w( i)
⎜
⎝∂ w ⎟⎠w= w( i) ⎝∂w∂w
k =1
T ⎟
⎠w= w( i)
avec ek = yk p – g(x k, w).
Remarque
Ce qui vient d’être exposé s’applique au cas d’un modèle à une sortie ; l’extension à un modèle à plusieurs sorties ne présente pas de
difficulté.
Le second terme de cette expression étant proportionnel à l’erreur, on peut le négliger en première
approximation, ce qui fournit une expression approchée :
T
∂ g( xk , w) ⎞ ⎛∂ g( xk , w) ⎞⎞
N T N ⎛
⎛∂ek ⎞ ⎛∂ek ⎞
H̃ (w ( i ) ) = ∑ ⎜ ⎝ ⎟ ⎜
⎝ ⎟
= ∑⎜ .
⎠ ⎠
k= 1 ∂ w w= w(i ) ∂ w w= w( i) k =1 ⎝ ∂w ⎟ ⎜
⎠w= w(i ) ⎝ ∂w ⎠w= w( i)
⎟
Dans le cas d’un modèle linéaire par rapport aux paramètres, g(xk , w) est une fonction linéaire de w, donc
le second terme de l’expression de H est nul : l’expression qui été approchée devient exacte.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 212/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
193
CHAPITRE 2
( )
−1
( A + BCD ) −1 = A−1 − A−1 B C−1 + DA−1 B DA−1
⎛∂ g (x k , w ) ⎞
Par ailleurs, en posant ζ k = ⎜ ⎟ , on peut construire récursivement la matrice H̃ en définis-
⎝ ∂ w ⎠w= w(i )
˜ k , de dimension (k, k) par :
sant des matrices partielles H
T
H̃ k H̃ k – 1 + Zk Z k 1
= On a bien =H ˜ ,…,
= HN˜ N, .k
Si l’on applique le lemme d’inversion à la relation précédente en choisissant A = H̃ ,B = z k, C = I, et
D = ζ k , on obtient la relation suivante :
T
–1 T –1
˜ –k 1– 1 –H̃ k – 1 ζk ζ k H̃ k – 1
H˜ k = H
–1
----------------------------------
T –1
-
1 + ζ k H̃k – 1 ζ k
En prenant, à la première étape (k = 1), H ˜ 0 = μ i I , on obtient, à l’étape N : H˜ –N1 = [ H
˜ + μ i I ] –1 .
• Inversion directe
Plusieurs méthodes directes d’inversion existent. Comme l’algorithme est itératif, et que la procédure de
recherche du pas nécessite souvent plusieurs inversions de matrice, on a intérêt à utiliser une méthode
qui n’engage pas trop de calculs. Comme l’approximation de la matrice hessienne augmentée de μ i I
reste une matrice symétrique définie comme positive, il est avantageux d’utiliser la méthode de
Cholesky [PRESS 1992].
Comme pour l’algorithme du gradient simple et celui de BFGS, le pasμ i doit être ajusté à chaque itéra-
tion. Une méthode de recherche unidimensionnelle peut être utilisée à cet effet, comme indiqué dans la
section suivante.
Il faut noter que l’expression de la matrice hessienne de la fonction de coût ne s’applique que si la fonc-
tion à optimiser est la fonction de coût des moindres carrés ; contrairement à la méthode de BFGS, la
méthode de Levenberg-Marquardt ne peut donc pas s’appliquer à l’optimisation de n’importe quelle fonc-
tion de coût, notamment à la minimisation de la fonction de coût d’entropie croisée pour la classification.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 213/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
194
ordre, on peut se contenter d’une méthode assez rudimentaire. La méthode de Nash permet d’obtenir des
résultats satisfaisants : elle recherche un pas qui satisfasse une borne supérieure de la valeur de la fonction
de coût atteinte à l’issue de l’itération courante.
Plus précisément, cette technique recherche un pas qui vérifie la condition de descente :
Complément théorique :
distance de Kullback-Leibler entre deux distributions gaussiennes
On cherche la distance de Kullback-Leibler entre deux gaussiennes (μ 1, σ 1) et (μ 2 , σ 2 ).
On rappelle les relations suivantes :
+∞
1 ⌠ ⎛ ( x − μ )2 ⎞
⎮ exp ⎜− ⎟dx = 1
σ 2π ⎮
⌡ −∞ ⎝ 2σ
2
⎠
+∞
1 ⌠ ⎛ (x − μ )2 ⎞
⎮ x exp ⎜− ⎟dx = μ
σ 2π ⎮
⌡ −∞ ⎝ 2σ
2
⎠
+∞
(x − μ )2 exp⎜− ( 2 )
1 ⌠ ⎛ x −μ 2 ⎞ 2
⎮
⎮ ⎟dx = σ
σ 2π ⌡ −∞ ⎝ 2σ ⎠
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 214/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
195
CHAPITRE 2
Cette expression n’étant pas symétrique par rapport aux indices, on préfère calculer la quantité :
D ( p1 , p2 ) + D ( p2 , p1 )
Δ=
2
Or
+∞
1 ⌠ ⎛ (x − μ 1 )2 ⎞⎡ σ1 ( x − μ1)
2
(x − μ2 )2 ⎤⎥ dx
D( p1 , p2 ) = ⎮ exp ⎜− ⎟⎢Log − +
σ1 ⎮
2π ⌡ 2
⎝ 2σ 1 ⎠⎢⎣ σ2 2σ1 2
2σ 22 ⎥
−∞ ⎦
1
=
σ 1 2π
⎡⌠ +∞ +∞
⎤ ⌠ +∞
⎢⎮ exp ⎜− ( x − μ 1 ) ⎟Log σ 1 dx − ⎮
⎛ 2
⎞ ⌠ ⎛ ( x − μ 1 )2 ⎞( x − μ 1 )2 ⎛ ( x − μ1 ) 2 ⎞(x − μ 2 )2
⎮exp ⎜− ⎟ dx +⎥ ⎮ exp ⎜− ⎟ dx
⎢⎮⎮ ⎝ 2 σ 2
⎠ σ ⎮ ⎝ 2 σ 2
⎠ 2 σ 2
⎥ ⎮ 2
⎝ 2 σ 1 ⎠ 2σ 2
2
⎣⌡ −∞ 1 2 ⌡ −∞ 1 1
⎦ ⌡ −∞
( x − μ 2 )2 = ( x − μ 1 + μ 1 −μ 2 )2 = ( x −μ 1 )2 + (μ 1 −μ 2 )2 + 2 ( x −μ 1 ) (x − μ2 )
D’où :
+∞
1 ⌠ ⎛ ( x − μ1 )2 ⎞( x − μ 2 )2 σ2
⎮ exp ⎜− 2 ⎟ 2 dx = 1 2
⎮
σ 2π ⌡ ⎝ 2σ 1 ⎠ 2σ 2 2 σ2
−∞
+∞
1 ⌠ ⎛ ( x − μ1 )2 ⎞2( x − μ 1 )( μ1 − μ 2 )
⎮ exp ⎜− ⎟ dx = 0
σ 2π ⎮
⌡ −∞ ⎝ 2σ 21 ⎠ 2σ 22
⎛σ ⎞ 1 ⎛ σ 2 ⎞ ( μ − μ )
2
D( p1 , p2 ) = Log ⎜ 2 ⎟− ⎜1 − 12 ⎟+ 1 2 2
⎝σ 1 ⎠ 2 ⎝ σ 2 ⎠ 2σ 2
(σ1 +σ 2
2 2
)
Δ=
4 σ 12σ 22 ⎣ 1
( )
⎡ σ 2 − σ 22 + (μ 1 − μ 2 )2 ⎤⎦
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 215/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
196
( )
−1
hkk = zTk ZT Z zk
En tant qu’éléments diagonaux d’une matrice de projection orthogonale, les termes hkk , k = 1, …, N ne
sont définis que dans le cas où Z est de rang plein, c’est-à-dire si ZT Z est inversible. Dans ce cas, ils véri-
fient les propriétés suivantes :
⎧0 ≤ hkk ≤ 1 ∀ k
⎪ N
⎨
⎪Trace( H ) = ∑ hkk = rang( Z)
⎩ k =1
Une première méthode de calcul des leviers consiste à calculer la matrice ZT Z, à l’inverser par une
méthode classique (Cholesky, décomposition LU...), puis à la multiplier à droite et à gauche par les
vecteurs zk et zkT. Cette méthode ne donne cependant de bons résultats que si la matrice ZT Z est suffisam-
ment bien conditionnée pour que son inversion se déroule sans problème. Dans le cas contraire, ce calcul
donne des valeurs supérieures à 1, voire négatives.
Une meilleure solution consiste à décomposer la matrice Z sous la forme :
Z = U W VT
avec :
• U matrice (N, p) telle que UT U = I,
• W matrice (p, p) diagonale, dont les termes diagonaux, appelés valeurs singulières de Z, sont positifs ou
nuls, et classés par ordre décroissant,
• V matrice (p, p) telle que VT V = V VT = I.
Cette décomposition, connue sous le nom de décomposition en valeurs singulières ou décomposition
SVD (Singular Value Decomposition), est précise et très robuste, même si la matrice Z est mal condi-
tionnée ou de rang inférieur à q (voir [P RESS 1992], et chapitre 3 sur les compléments de méthodologie)
On obtient donc :
Z T Z = V W UT U W VT = V W 2 VT
Puis :
(Z T Z) -1 = V W -2 VT
Cette décomposition permet donc le calcul direct de la matrice (ZT Z)–1, dont les éléments s’écrivent :
p
Vlk Vjk
( Z Z)
T −1
lj
=∑
Wkk2
k =1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 216/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
197
CHAPITRE 2
soit, finalement :
2
p ⎛ p ⎞
1
hkk = ∑ ⎜ ∑Z kj V ji ⎟
i =1 ⎝Wij j=1 ⎠
Cette méthode permet de calculer les leviers sans devoir procéder explicitement aux calculs des termes de
la matrice (ZT Z) –1, ce qui est important pour la précision du calcul, dans le cas de matrices mal condition-
nées. D’un point de vue numérique, étant donné que les valeurs singulières de Z sont classées par ordre
décroissant, il est conseillé de calculer les leviers en faisant varier i de q à 1, et non pas de 1 à q.
Cette méthode de calcul fournit des termes systématiquement positifs ou nuls.
Bibliographie
R. [1992],
ANTONIADIS A., BERRUYER J., CARMONARégression non linéaire et applications, Economica.
BARRON A. [1993], Universal approximation bounds for superposition of a sigmoidal function, IEEE
Transactions on Information Theory, 39, p. 930-945.
BARTLETT P. L. [1997], For valid generalization, the size of the weights is more important than the size of
the network, Neural Information Processing Systems, 9, Morgan Kaufmann.
BAUM E. B., W ILCZEK F. [1988], Supervised learning of probability distributions by neural networks,
Neural Information Processing Systems, p. 52-61.
BENVENISTE A., JUDITSKY A., D ELYON B., Z HANG Q., G LORENNEC P.-Y. [1994], Wavelets in identifica-
tion, 10th IFAC Symposium on Identification, Copenhague.
BISHOP C. [1995], Neural networks for pattern recognition, Oxford University Press.
BISHOP C. [1993], Curvature-driven smoothing : a learning algorithm for feedforward networks, IEEE
Transactions on Neural Networks, 4, p. 882-884.
BRIDLE J. S. [1990], Probabilistic interpretation of feedforward classification network outputs, with rela-
tionship to statistical pattern recognition, Neurocomputing : algorithms, architectures and applications,
p. 227-236 Springer.
BROOMHEAD D. S., L OWE D. [1988], Multivariable functional interpolation and adaptive networks,
Complex Systems, 2, p. 321-355.
BROYDEN C. G. [1970], The convergence of a class of double-rank minimization algorithms 2 : the new
algorithm,Journal of the Institute of Mathematics and its Applications, 6, p. 222-231.
CHEN S., B ILLINGS S. A., L UO W., Orthogonal least squares methods and their application to non-linear
system identification, International Journal of Control, 50, p. 1873-1896.
COVER T. M. [1965], Geometrical and statistical properties of systems of linear inequalities with applica-
tions in pattern recognition, IEEE Transactions on Electronic Computers, 14, p. 326-334.
DREYFUS G., I DAN Y. [1998], The canonical form of discrete-time nonlinear models, Neural Computa-
tion, 10, p. 133-164.
DUPRAT A., HUYNH T., DREYFUS G. [1998], Towards a principled methodology for neural network design
and performance evaluation in QSAR ; application to the prediction of LogP,Journal of Chemical Infor-
mation and Computer Sciences, 38, p. 586-594.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 217/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
198
M., SPERDUTI
A. [1998],
tures, IEEE Transactions on Neural Networks, 9, 768-786.
FRASCONI
G P., GORIA general framework for adapative processing of data struc-
ALLINARI P., C IBAS T. [1999], Practical complexity control in multilayer perceptrons. Signal
Processing, 74, p. 29-46.
G K. S. [1984],
GOODWIN G. C., SINAdaptive Filtering Prediction and [2005], Prentice-Hall, New Jersey.
G.Control,
graph-S
toOULON IGWALT,-A
machines BRAM A., D
Theoretical UPRAT A.,Science,
Computer DREYFUS344,
Fromp. Hopfied
298-334.nets to recursive networks
G G. [2006],
toOULON-SIGWALT-ADrug
Computer-Aided A., DUPRAT
BRAMDesign: A.,Approach
a New DREYFUSGraph Machines
to Learning fromand Their Applications
Structured Data, Unconventional
Computing 2006, Lecture Notes in Computer Science, 4135, p. 1 – 19, Springer (2006).
GOULON-SIGWALT-ABRAM A., P ICOT T., DUPRAT A., DREYFUS G. [2007], Predicting activities without
computing descriptors: graph machines for QSAR, SAR and QSAR in Environmental Resesarch, 18,
p. 141 - 153
HAMPSHIRE J. B., P EARLMUTTER B. [1990], Equivalence proofs for multilayer perceptron classifiers and
the Bayesian discriminant function, Proceedings of the 1990 connectionist models summer school,
p. 159-172, Morgan Kaufmann.
H A. [1995],
ANSCH C.,
American L EOExploring
Chemical QSAR, Fundamentals and applications in chemistry and biology;
Society.
HANSEN L.K., L ARSEN J. [1996], Linear unlearning for cross-validation, Advances in Computational
Mathematics, 5, p. 269-280.
HAYKIN S. [1994], Neural Networks : a comprehensive approach, MacMillan.
HO E., K ASHYAP R. L. [1965], An algorithm for linear inequalities and its applications, IEEE Transac-
tions on Electronic Computers, 14, p. 683-688.
HOPFIELD J. J. [1987], Learning algorithms and probability distributions in feedforward and feedback
neural networks, Proceedings of the National Academy of Sciences, 84, p. 8429-433.
HORNIK K., S TINCHCOMBE M., W HITE H. [1989], Multilayer feedforward networks are universal
approoximators, Neural Networks, 2, p. 359-366.
HORNIK K., S TINCHCOMBE M., WHITE H. [1990], Universal approximation of an unknown mapping and
its derivatives using multilayer feedforward networks, Neural Networks, 3, p. 551-560.
HORNIK K. [1991], Approximation capabilities of multilayer feedforward networks, Neural Networks, 4,
p. 251-257.
KIM S. S., SANDERS T. H. Jr [1991], Thermodynamic modeling of phase diagrams in binary alkali silicate
systems, Journal of the American Ceramic Society, 74, p. 1833-1840.
KNERR S., PERSONNAZ L., DREYFUS G. [1990], Single-layer learning revisited : a stepwise procedure for
building and training a neural network, Neurocomputing : algorithms, architectures and applications,
p. 41-50, Springer.
KNERR S. [1991], Un méthode nouvelle de création automatique de réseaux de neurones pour la clas-
sification de données : application à la reconnaissance de chiffres manuscrits, Thèse de Doctorat de
l'Université Pierre et Marie Curie, Paris.
KNERR S., P ERSONNAZ L., D REYFUS G. [1992], Handwritten digit recognition by neural networks with
single-layer training, IEEE Transactions on Neural Networks, 3, p. 962-968.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 218/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
199
CHAPITRE 2
KULLBACK S., LEIBLER R. A. [1951], On information and sufficiency, Annals of mathematical Statistics,
22, p. 79-86.
KULLBACK S. [1959], Information Theory and Statistics, Dover Publications.
KUO B. C. [1992], Digital Control Systems, Saunders College Publishing.
KUO B. C. [1995], Automatic Control Systems, Prentice Hall.
LAWRANCE A. J. [1995], Deletion, influence and masking in regression, Journal of the Royal Statistical
Society, B 57, p. 181-189.
LECUN Y., BOSER B., D ENKER J.S., H ENDERSON D., H OWARD R.E., H UBBARD W., JACKEL L.D. [1989],
Backpropagation applied to handwritten zip code recognition,Neural Computation, 1, p. 541-551.
LEVENBERG K. [1944], A method for the solution of certain non-linear problems in least squares, Quar-
terly Journal of Applied Mathematics, 2, p. 164-168.
LEVIN A., N ARENDRA K.S. [1993], Control of nonlinear dynamical systems using neural networks :
controllability and stabilization,IEEE Transaction on Neural Networks, 4, p. 1011-1020.
LJUNG L. [1987], System Identification; Theory for the User, Prentice Hall.
MCCULLOCH W. S., PITTS W. [1943], A logical calculus of the ideas immanent in nervous activity, Bulletin
of Mathematical Biophysics, 5, p. 115-133.
MCKAY D. J. C. [1992], A practical bayesian framework for backpropagation networks, Neural Compu-
tation, 4, p. 448-472.
MALLAT S. [1989], A theory for multiresolution signal decomposition : the wavelet transform, IEEE
Transactions on Pattern Analysis and Machine Intelligence, 11, p. 674-693.
MARCOS S., MACCHI O., VIGNAT C., DREYFUS G., PERSONNAZ L., ROUSSEL-RAGOT P. [1992], A unified
framework for gradient algorithms used for filter adaptation and neural network training,International
Journal of Circuit Theory and Applications, 20, p. 159-200.
MARQUARDT D. W. [1963], An algorithm for least-quares estimation of nonlinear parameters, Journal of
the Society of Industrial and Applied Mathematics,11, p. 431-441.
MINSKY M., PAPERT S. [1969] Perceptrons. MIT Press.
M G. [1999],
des Sélection
réseaux
ONARI de modèles
de neurones non linéaires
au procédé par leave-one-out
de soudage ; étudedethéorique
par points, Thèse Doctoratetdeapplication
l'Université Pierre et
Marie Curie, Paris. Disponible sur le site http://www.neurones.espci.fr.
MONARI G., D REYFUS G. [2000], Withdrawing an example from the training set : an analytic estimation
of its effect on a non-linear parameterised model,Neurocomputing, 35, p. 195-201.
MONARI G., D REYFUS G. [2002], Local overfitting control via leverages, Neural Computation, 14,
p. 1481-1506.
MOODY J., D ARKEN C. J. [1989], Fast learning in networks of locally-tuned processing units, Neural
Computation,1, p. 281-294.
NARENDRA K. S, ANNASWAMY A. M. [1989], Stable Adaptative Systems, Prentice-Hall.
NERRAND O., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G., MARCOS S. [1993], Neural networks and
non-linear adaptive filtering : unifying concepts and new algorithms,Neural Computation, 5, p. 165-197.
NERRAND O. [1992], Réseaux de neurones pour le filtrage adaptatif, l'identification et la commande de
processus, thèse de doctorat de l’Université Pierre et Marie-Curie.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 219/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
200
NERRAND O., U RBANI D., R OUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G. [1994], Training recurrent
neural networks : why and how ? An illustration in process modeling, IEEE Transactions on Neural
Networks 5, p. 178-184.
OSADCHY M., L ECUN Y., MILLER M. [2007], Synergistic Face Detection and Pose Estimation with
Energy-Based Models, Journal of Machine Learning Research, 8, p 1197-1215.
O L [1997],
tion Paramétrisation
à la Reconnaissance
UKHELLOU desetDéfauts
Classification
de Railsdepar
Signaux en Contrôle
Courants Non, Thèse
de Foucault Destructif. Applica- de Paris
de l’Université
XI-Orsay.
OUKHELLOU L., AKNIN P., STOPPIGLIA H., DREYFUS G. [1998], A new decision criterion for feature selec-
tion: application to the classification of non destructive testing signatures, European SIgnal Processing
COnference (EUSIPCO'98).
OUSSAR Y. [1998], Réseaux d’ondelettes et réseaux de neurones pour la modélisation statique et dyna-
mique de processus, Thèse de Doctorat de l'Université Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
OUSSAR Y., D REYFUS G. [2000], Initialization by selection for wavelet network training, Neurocompu-
ting, 34, p. 131-143.
OUSSAR Y., DREYFUS G. [2001], How to be a gray box : dynamic semi-physical modeling, Neural
Networks, 14, 1161-1172.
OUSSAR Y., MONARI G., DREYFUS G. [2004], Reply to the comments on « Local Overfitting Control via
Leverages » in « Jacobian Conditioning Analysis for Model Validation » by I. Rivals and L. Personnaz,
Neural Computation, 10, p. 419-443.
PLAUT D., N OWLAN S., H INTON G. E. [1986], Experiments on learning by back propagation, Technical
Report, Carnegie-Mellon University.
PLOIX J. L., G. DREYFUS [1997], Early fault detection in a distillation column: an industrial application of
knowledge-based neural modelling, Neural Networks: Best Practice in Europe, p. 21-31, World Scien-
tific.
POGGIO T., T ORRE V., K OCH C. [1985], Computational vision and regularization theory, Nature, 317,
p. 314-319.
POLLACK J. B. [1990], Recursive distributed representations, Artificial Intelligence, 46, p. 77-105.
POWELL M. J. D. [1987], Radial basis functions for multivariable interpolation : a review, Algorithms for
approximation, p. 143-167.
PRESS W. H., TEUKOLSKY S. A., VETTERLING W. T., FLANNERY B. P. [1992], Numerical recipes in C : the
art of scientific computing, Cambridge University Press.
PRICE D., KNERR S., PERSONNAZ L., DREYFUS G. [1994], Pairwise neural network classifiers with proba-
bilistic outputs, Neural Information Processing Systems, 7 , p. 1109-1116, Morgan Kaufmann.
PRICE P.E., WANG S., ROMDHANE I.H. [1997], Extracting effective diffusion parameters from drying
experiments. AIChE Journal, 43, p. 1925-1934.
PUSKORIUS G. V., FELDKAMP L. A. [1994], Neurocontrol of nonlinear dynamical systems with Kalman
Filter trained recurrent networks,IEEE Trans. on Neural Networks, 5, p. 279-297.
R IVALS I., PERSONNAZ L. [2000], Construction of confidence intervals for neural networks based on least
squares estimation, Neural Networks, 13, p. 463-484.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 220/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
201
CHAPITRE 2
RIVALS I., PERSONNAZ L. [2004], Jacobian conditioning analysis for model validation, Neural Computa-
tion, 16, p. 401-418.
RIVALS I., C ANAS D., P ERSONNAZ L., D REYFUS G. [1994], Modeling and control of mobile robots and
intelligent vehicles by neural networks, Proceedings of the IEEE Conference on Intelligent Vehicles,
p. 137 – 142.
R I. [1995],
tage Modélisation
d’un
IVALS et commande
véhicule autonome, dede
Thèse processus
doctoratpar réseaux de neurones
de l’Université Pierre et:Marie
application
Curie,au pilo-Disponible
Paris.
sur le site http://www.neurones.espci.fr.
ROUSSEL P., MONCET F., BARRIEU B., VIOLA A. [2001], Modélisation d’un processus dynamique à l’aide
de réseaux de neurones bouclés. Application à la modélisation de la relation pluie-hauteur d’eau dans un
réseau d’assainissement et à la détection de défaillances de capteurs, Innovative technologies in urban
drainage, 1, 919-926, G.R.A.I.E.
RUMELHART D. E., HINTON G. E., WILLIAMS R. J. [1986], Learning internal representations by error back-
propagation, Parallel Distributed Processing : Explorations in the Microstructure of Cognition, p. 318-
362, MIT Press.
SAARINEN S., B RAMLEY R., C YBENKO G. [1993], Ill-conditioning in neural network training problems,
SIAM J. Sci. Stat. Comp., 14, p. 693-714.
SEBER G.A.F., WILD C.J. [1989], Nonlinear regression, Wiley Series in Probability and Mathematical
Statistics, John Wiley & Sons.
SINGHAL A. [1996], Pivoted length normalization. Proceedings of the 19th Annual International Confer-
ence on Research and Development in Information Retrieval(SIGIR'96), p. 21-29.
SJÖBERG J., ZHANG Q., LJUNG L., BENVENISTE A., DELYON B. [1995], Nonlinear black–box modeling in
system identification: a unified overview, Automatica, 31, p. 1691-1724.
SONTAG E. D. [1993], Neural networks for control, Essays on control : perspectives in the theory and its
applications, p. 339-380, Birkhäuser.
STOPPIGLIA H. [1997], Méthodes statistiques de sélection de modèles neuronaux ; applications finan-
cières et bancaires, Thèse de Doctorat de l'Université Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
STRICKER M. [2000], Réseaux de neurones pour le traitement automatique du langage : conception et
réalisation de filtres d'informations, Thèse de Doctorat de l'Université Pierre et Marie Curie, Paris. Dispo-
nible sur le site http://www.neurones.espci.fr.
STRICKER M., V ICHOT F., D REYFUS G., W OLINSKI F. [2001], Training context-sensitive neural networks
with few relevant examples for the TREC-9 routing, Proceedings of the TREC-9 Conference.
TIBSHIRANI R. J. [1996], A comparison of some error estimates for neural models, Neural Computation,
8, p. 152-163.
TIKHONOV A. N., ARSENIN V. Y. [1977], Solutions of Ill-Posed Problems, Winston.
VAPNIK V. [1995], The nature of statistical learning theory, Springer.
W
delay neural networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, 37, p. 328-339.
WERBOS P. J. [1974], Beyond regression : new tools for prediction and analysis in the behavioural
G., SHIKANO
sciences, Ph. D. thesis, Harvard University.
K., and LANG
AIBEL, HANAZAWA T., HINTON K. [1989], Phoneme recognition using time-
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 221/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
202
ZHOU G., SI J. [1998], A systematic and effective supervised learning mechanism based on jacobian rank
deficiency, Neural Computation, 10, p. 1031-1045.
W OLINSKI F., VICHOT F., STRICKER M. [2000], Using Learning-Based Filters to Detect Rule-based Filte-
ring Obsolescence, Conférence sur la Recherche d’Information Assistée par Ordinateur RIAO'2000,
Paris.
Z IPF G. K. [1949], Human Behavior and the Principle of Least Effort. Addison-Wesley.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 222/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
3
Compléments de méthodologie
pour la modélisation : réduction
de dimension et ré-échantillonnage
Ce chapitre propose quelques compléments à la méthodologie de mise en œuvre des réseaux de neurones.
Il apporte des éléments de réponses à des questions méthodologiques que le concepteur de modèles se
pose lorsqu’il souhaite mettre en œuvre un modèle statistique utilisant des réseaux de neurones. En effet,
comme nous l’avons souligné dans le chapitre précédent, la conception d’un modèle « neuronal » ne se
réduit pas au choix du nombre de neurones dans la couche cachée et à la bonne exécution d’un algorithme
d’apprentissage :
• avant de mettre en œuvre un réseau de neurones, ou tout autre modèle statistique, il peut s’avérer néces-
saire de construire de nouvelles variables d’entrée afin de réduire leur nombre, tout en perdant le moins
d’information possible sur leur répartition ;
• après l’estimation des paramètres du modèle (par l’apprentissage si le modèle est un réseau de
neurones), l’utilisateur doit évaluer le risque lié à l’utilisation du modèle construit, lequel est relatif à
l’erreur de généralisation qui, par définition, n’est pas calculable : elle doit donc être estimée. Nous
avons vu dans le chapitre précédent une méthode d’estimation de l’erreur de généralisation par calcul du
score de « leave-one-out » virtuel ; nous présentons ici une autre technique statistique récente, fondée
sur le ré-échantillonnage, qui permet d’estimer avec précision les caractéristiques statistiques de l’erreur
de généralisation.
Les éléments de méthodologie présentés dans ce chapitre portent donc sur :
• les pré-traitements à effectuer sur les données,
• les techniques de réduction du nombre d’entrées, fondées surl’analyse en composantes principales et
l’analyse en composantes curvilignes,
• l’estimation de l’erreur de généralisation par les techniques statistiques de ré-échantillonnage, notam-
ment le bootstrap.
La réduction de dimension ne vise pas seulement à diminuer le nombre de variables décrivant chaque
exemple : elle permet également de construire des représentations plus synthétiques des données, en faci-
litant l’analyse. La méthode classique utilisée dans le cadre linéaire est l’analyse en composantes princi-
pales (ACP) : cette dernière, procédant par projection, est limitée aux variétés linéaires. Pour traiter les
représentations non linéaires, nous présenterons une seconde méthode, l’analyse en composantes curvi-
lignes (ACC), qui peut être vue comme une extension « non linéaire » de l’ACP. Elle est similaire aux
« cartes de Kohonen » (voir chapitre 7), mais elle est plus souple, car la structure de l’espace de projection
n’est pas imposée a priori.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 223/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
204
Les méthodes de ré-échantillonnage sont utilisées pour réaliser des estimations lorsqu’on ne connaît pas
les lois de probabilité des variables à analyser. Dans les problèmes posés par la régression, notamment la
régression par réseaux de neurones, elles permettent d’estimer l’erreur de généralisation, et d’évaluer,
avec efficacité et robustesse, la variabilité du réseau par rapport aux données, élément clé du dilemme
biais-variance (présenté dans le chapitre 2) qui conditionne l’élaboration de tout modèle statistique. Ces
techniques très performantes sont gourmandes en temps de calcul, mais l’accroissement de la vitesse des
calculateurs permet de plus en plus fréquemment leur mise en œuvre. Une nouvelle méthode sera
présentée, associant le bootstrap et l’arrêt prématuré (early stopping, également présenté dans le chapitre
précédent), pour automatiser et contrôler l’apprentissage des réseaux de neurones.
Pré-traitements
Normaliser ou réduire
3 de
Pour des distributions d’entrée uniforme et centrée, le rapport entre une normalisation et une réduction n’est que sur l’écart-type.
l ⁄ (de
En effet, l’écart-type d’une loi uniforme sur un intervalle l est 2 3) et une normalisation sur le même intervalle divise la variable
par l⁄2.
Variables booléennes
Les valeurs 0 et 1 des variables booléennes doivent être respectivement transformées en –1 et +1 ; les variables qui résultent d’un codage
flou doivent subir un traitement analogue.
La figure 3-1 montre l’effet du pré-traitement. Il correspond à une translation du centre de gravité du
nuage des points, suivie d’une normalisation de la dispersion des valeurs sur chacun des axes sans modi-
fication de la répartition des points.
Ce pré-traitement simple, appliqué à toutes les composantes, permet souvent de détecter des
« anomalies » dans la base de données. Un écart-type trop faible peut signifier que la composante corres-
pondante varie trop peu pour influencer le modèle. Les composantes d’écart-type nul doivent évidemment
être écartées dans la mesure où elles n’apportent aucune information dans la construction du modèle. Pour
un diagnostic plus profond de ces « anomalies », il faut informer l’expert du domaine.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 224/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Compléments de méthodologie pour la modélisation .html
205
CHAPITRE 3
J = y* ln y + (1 − y*) ln(1 − y)
zi = ∑ wikx k + wi0 .
k
Règles d’apprentissage
Le lecteur curieux pourra s’apercevoir que cette approche, malgré les apparences, ne complique pas les calculs : bien au contraire, elle les
simplifie. En fait, cela revient à ne pas tenir compte des non-linéarités apportées par la fonction logistique dans le calcul des gradients :
∂E - = y y *
--------- ( i – k ) xk
∂wik
On retrouve la règle du Perceptron de Rosenblatt et donc aussi celle de Widrow-Hoff, introduites dans le chapitre 2, à propos de l’appren-
tissage adaptatif.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 225/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
206
N
1 2 2
EQM r = ---- ∑ ( ỹ k – ỹ k* ) ⇒ EQM = EQM r × σ y
N
k=1
Principe de l’ACP
Pour réduire le nombre de facteurs (composantes), l’ACP détermine des sous-espaces vectoriels de
dimension plus réduite que le nombre de facteurs, dans lesquels la répartition des observations (points) est
préservée au mieux. Le critère retenu sur la répartition est l’inertie totale du nuage des points. L’ACP se
présente donc comme une méthode de projection linéaire qui maximise l’inertie du nuage des points.
Avant de présenter les développements théoriques, reprenons, à titre d’illustration simple, l’exemple de la
distribution d’un nuage de points dans R2 représenté par la figure 3-1. L’ACP détermine le premier axe
principal comme étant celui par rapport auquel l’inertie du nuage de points est maximale. Le deuxième
axe est, parmi les axes orthogonaux au précédent, celui par rapport auquel l’inertie du nuage de points est
maximale. Les autres axes sont définis orthogonaux deux à deux sur le même critère de maximisation de
l’inertie.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 226/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Compléments de méthodologie pour la modélisation .html
207
CHAPITRE 3
Montrons que la notion « mécanique » d’inertie totale du nuage de points est équivalente à la notion
« statistique » de variance. Le calcul de l’inertie des points s’effectue par rapport au centre de gravité du
nuage des points. En notant g le centre de gravité et I n l’inertie du nuage des points définis dans Rn :
n n n
1- 2
N ∑ ij ∑ ∑ (x ij – g j )
g i = --- x ⇒ In = .
i=1 j=1 i=1
L’inertie In est donc égale à la trace de la matrice de variance-covariance des données X définie par :
V = (X – Ig )T(X – Ig ) où I désigne la matrice unité.
L’inertie étant invariante par translation, on peut centrer les données par X = X – Ig, et obtenir une relation
simple entre l’inertie et la matrice de variance-covariance sur les nouvelles données centréesX :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 227/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
208
I n = Trace(XT X).
Pour des données centrées et réduites Trace(X T X) = n.
En considérant le sous-espace de dimension q < n et en notant Vn×q la matrice associée au projecteur
sur Rq, le nuage des points projetés sur Rq est représenté par la matrice XV, dont l’inertie est :
I q = Trace(VTX TXV).
L’ACP définit la projection linéaire qui maximise Iq, valeur de l’inertie des points calculée dans Rq. Ce
problème est résolu en recherchant un premier axe sur lequel l’inertie est maximale, puis un deuxième
orthogonal au premier pour poursuivre la maximisation de l’inertie, et ainsi de suite jusqu’au pième axe.
Les axes obtenus correspondent aux vecteurs propres de la matrice XTX, ordonnés en fonction de leurs
valeurs propres, de la plus grande λ 1 à la plus petite λn . Les valeurs propres λj, j = 1, …, n sont positives
ou nulles, car la matrice XTX est une symétrique définie positive. En notant Vn×q la matrice des vecteurs
propres, la transformation à effectuer sur des données centrées pour obtenir les composantes principales
s’exprime par :
x ∈ Rn → VTn×q x ∈ R q < n.
Les règles utilisées pour retenir les composantes principales (q parmi p) dépendent d’une analyse qui
s’effectue sur les valeurs propres. Avant de les présenter, il nous semble utile de rappeler une technique
similaire à l’ACP et largement utilisée en algèbre linéaire, qui porte sur la décomposition en valeurs
singulières, notée SVD pour Singular Value Decomposition [CICHOKI 93]. Cette technique, très utile dans
les problèmes de résolution de systèmes linéaires, a été mentionnée dans le chapitre précédent comme
outil de calcul des leviers pour des modèles non linéaires.
Théorème
La matrice diagonale S est composée par les valeurs singulières σ j ordonnées par valeurs décroissantes.
Les valeurs singulières σj sont les racines carrées des valeurs propres λj de la matrice symétrique définie
positive A TA ou de la matrice AAT si m < n. La matrice V associée au changement de base est représentée
par les vecteurs propres de la matrice A TA.
ACP et SVD
Sur des données centrées, il y a donc équivalence entre une analyse en composantes principales et une décomposition en valeurs singulières.
Contrairement aux techniques de diagonalisation des matrices carrées, la décomposition en valeurs singu-
lières s’applique à tout type de matrice. L’indice de la 1re valeur singulière égale à 0 détermine le rang de
la matrice ; son conditionnement, au sens de la norme L2, est égal au rapport des valeurs singulières
extrêmes σ1 σp.
À partir de l’orthogonalité des matrices U et V, il vient :
UT AV = S ⇒ A = USV T.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 228/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Compléments de méthodologie pour la modélisation .html
209
CHAPITRE 3
Dans une application de modélisation, si A représente la matrice des observations (définie dans le chapitre
précédent) centrées, la matrice US = AV décrit les mêmes exemples dans une représentation
« orthogonale » : les nouvelles entrées obtenues après transformation sont non corrélées linéairement. La
même technique est utilisée en traitement du signal pour « blanchir » les signaux [DAVAUD 91]. Pour
réduire les nouvelles entrées, il suffit de retenir la matriceU comme nouvelle base d’exemples. La trans-
formation linéaire devient S -1 VT x au lieu de VTx.
La décomposition en valeurs singulières, appliquée aux données centrées de la matrice X, permet
d’exprimer l’inertie en fonction des valeurs singulières σ j ou en fonction des valeurs propres λ j de la
matrice XTX :
p p
2
Ip = Trace(XT T) ⇒ I p = ∑ λj ⇒ Ip = ∑ σj .
j=1 j=1
Ce résultat est bien connu en algèbre linéaire puisque l’inertie du nuage de points correspond à la norme
matricielle de Frobenius qui s’exprime en fonction des valeurs singulières :
2 2
X F = ∑ xij = ∑σj .
i, j j
La matrice de projection p p×q associée aux q premiers axes est donc représentée par les q premiers
vecteurs de la matriceV p×q. La contribution relative à l’inertie de chaque axe principal est donnée par le
rapport entreσ 2j et la somme σ12 + σ 22 + … + σp2. La contribution relative des q premiers axes est :
q≤n
2
q
2
∑ σj
j=1
Iq = ∑ σj ⇒ Iq = I n -------------
n
-.
2
j=1
∑ σj
j=1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 229/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
210
du nuage de points. Dans certains problèmes, la composante principale n’est pas l’élément le plus infor-
matif, bien au contraire. Par exemple, sur une série de visages provenant de différentes parties du monde,
la reconnaissance de leur origine portera davantage sur la seconde composante et les suivantes, la
première composante représentant plutôt les caractéristiques moyennes des visages.
1 1
0.5
0.5 0
– 0.5
0 –1
1 1
0.5 0.5
–1 0 –1 0
– 0.5 – 0.5 – 0.5
0 0 – 0.5
0.5 0.5
1 –1 1 –1
1 4
3.5
0.5 3
2.5
0
2
1.5
– 0.5
1
0.5
–1
0
– 1.5 – 0.5
–1 – 0.5 0 0.5 1 – 1 – 0.5 0 0.5 1 1.5 2 2.5
Figure 3-4. Projection par ACC d’une demi- Figure 3-5. Projection par ACC d’une
sphère. sphère.
Sur des structures fermées, telles qu’une sphère ou un cylindre, la réduction de dimension introduira
nécessairement des distorsions locales. C’est le cas illustré par la figure 3-4, qui montre une projection
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 230/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Compléments de méthodologie pour la modélisation .html
211
CHAPITRE 3
d’une sphère sur le plan. L’idée centrale de l’ACC est un contrôle graduel de la distorsion locale, effectué
au cours de l’apprentissage.
Ayant pour objectif une réduction de dimension qui préserve la topologie locale, l’ACC est adaptée à la
représentation de variétés non linéaires. Une variété dans R p peut être grosso modo définie comme un
ensemble de points dont la dimension « locale » est inférieure àp. L’enveloppe d’une sphère définie dans
R3 est un exemple : la variété est de dimension 2. De façon plus rigoureuse, une variété de dimension q
dans Rq est un sous-ensemble de Rn obtenu par application d’une fonction définie de Rq dans Rq . En un
point, le rang de la différentielle de l’application détermine la dimension locale de la variété.
Par rapport à l’ACP, la méthode permet donc de représenter des structures de données distribuées d’une
façon non linéaire. Elle se rapproche des méthodes fondées sur les cartes auto-adaptatives de Kohonen,
mais son principe est différent. En effet, aucune contrainte n’est imposée sur les points dans l’espace de
projection ; il n’y a pas de voisinage défini a priori entre les points dans l’espace de projection. Cela
permet de représenter toutes sortes de variétés.
n″
2
• espace réduit Yij = ∑ ( yik – y jk ) .
k=1
La transformation des composantes engendre une distorsion sur la variété. En gardant la même métrique
(distance euclidienne), une mesure de la distorsion peut être donnée en comparant les distances Xij aux
distancesYij p n 2
• distorsion due à la réduction ∑ ∑ (X ij – Y ij ) .
i = 1 j = i+1
Un parallèle peut être fait avec l’ACP, qui définit la projection linéaire en minimisant la « fonction
2 2 2
objectif » : ∑ X ij = ∑ Y ij Cette fonction traduit l’écart entre la moyenne des distances X ij calculées
i, j i, j
2
dans l’espace d’origine et la moyenne des distances Y ij calculées dans l’espace réduit. La fonction de
coût retenue par l’ACC préserve davantage les écarts de distance X ij – Yij, et permet donc de représenter
des variétés non linéaires avec un minimum de déformation.
Attention
Pour pouvoir déplier des variétés, Demartines a introduit, dans la fonction de coût, un terme de pondé-
ration F(Yij, ρ), fonction positive monotone décroissante de la distance Yij.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 231/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
212
Le terme F(Yij) favorise les petites distances dans l’espace de projection. Le paramètre ρ joue le même
rôle que le paramètre rayon, défini dans les cartes de Kohonen : dans l’espace de sortie, les distances supé-
rieures à ρ ne seront plus prises en compte. La décroissance du paramètre ρ au cours de l’adaptation
permet de déplier et même de couper certaines variétés non linéaires. La projection d’une sphère de R3
dans R2 (figure 3-4) montre l’exemple d’une variété pour laquelle la projection nécessite une coupure. La
fonction permet donc de déplier certaines variétés en préservant au maximum la topologie locale.
La « fonction objectif », visée par ACC, se présente Figure 3-6. F(Yij)
alors sous la forme suivante : Fonction de
pondération
p n 2
des distances.
E= ∑ ∑ ( X ij – Y ij ) F( Y ij, ρ ) . ρ décroissant
i = 1 j = i+1
Algorithme d’analyse en
composantes curvilignes
Yij
L’algorithme consiste à minimiser la fonction de coût
par rapport aux coordonnées de chaque point de la base
d’exemples dans l’espace réduit. Comme il en va pour effectuer un apprentissage, on peut utiliser
n’importe lequel des algorithmes d’optimisation présentés dans le chapitre 2. Nous présentons ici la mini-
misation de la fonction de coût par l’algorithme du gradient stochastique.
On calcule donc les dérivées partielles de la fonction de coût par rapport à chacun des paramètres ; en
notant yik la k-ième coordonnée du point i, il vient :
∂E- = ∂E - ∂Y
--------
∂y ik ∑ -------- --------ij-
∂Y ij ∂yik
j≠i
∂E- = – X ij – Y ij
--------
∂y ik ∑ ------------------
Y ij
- [ 2F ( Y ij) – ( X ij – Y ij)F ’ (yij )] (y ik – yjk ) .
j ≠i
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 232/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Compléments de méthodologie pour la modélisation .html
213
CHAPITRE 3
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 233/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
214
Qualité de la projection
Un des points forts des travaux de Demartines porte sur le critère qui permet le contrôle de la projection.
Ce critère est fondé sur la comparaison des valeurs Xij et Y ij correspondant aux distances entre points,
distances calculées respectivement dans l’espace d’origine et dans l’espace réduit. Les distances sont
représentées dans un plan dx-dy par un point d’abscisse dx = Yij et d’ordonnée dy = Xij. Les points proches
de la droite dx = dy correspondent à des distances voisines. La déformation due à la réduction est donc
proportionnelle à la distance moyenne des points à la droite dx = dy. La figure 3-8 montre la distribution
moyenne des distances pour l’exemple de la demi-sphère et sur celui de la sphère.
Sur des variétés non
linéaires illustrées par ces
exemples, la projection va
nécessairement éloigner
certains points. C’est le cas
de la carte du globe terrestre
obtenue par la projection de
Mercator. La projection
« occidentale » sépare les
côtes du détroit de Béring.
Dans le plan dy – dx, le
nuage des points a une
forme en cloche : des points
proches dans l’espace Figure 3-8. Distribution des distances dans le plan (dy – dx) pour la demi-sphère et la sphère.
d’origine (dx petit) vont se
trouver éloignés (dy grand) dans l’espace de projection. La forme en cloche apparaît nettement dans le cas de
la projection de la sphère, où le dépliage a séparé les points situés sur le grand diamètre (figure 3-5). Le contrôle
de la projection consiste à vérifier que cette forme en cloche préserve au maximum la topologie locale : si deux
points sont proches dans l’espace réduit, ils le sont nécessairement dans l’espace d’origine.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 234/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Compléments de méthodologie pour la modélisation .html
215
CHAPITRE 3
barycentre des 3 ou 4 points yk correspondant aux points xk les plus proches de x0 . Le calcul de la projec-
tion y0 est obtenu par le même algorithme :
X i 0 – Yi 0
Δy0 = μ ∑ ----------------------
- ( y0 – yj ) si Y i0 < ρ et 0 sinon.
j ≠i
Yi 0
Cette méthode d’initialisation des composantes du point projeté paraît très efficace ; la convergence est
obtenue en quelques itérations (moins d’une dizaine) [PILATO 1998].
Application en spectrométrie
L’application présentée ci-après a été réalisée au Centre d’études de Saclay [PILATO 1998]. Elle porte sur
la mesure de la concentration de matières radioactives. Le contrôle d’installations nucléaires (centrales,
usines de retraitement) exige que l’on mesure des concentrations de certaines matières radioactives. Des
mesures de concentration sont effectuées sur des solutions issues des circuits d’eau des installations. Une
des techniques utilisées est la fluorescence X, qui permet de réaliser des analyses rapides et non destruc-
tives directement à partir de cruchons de prélèvement ou sur canalisations. La fluorescence X consiste à
exciter la matière concernée, puis à analyser les spectres des photons issus des désactivations.
La figure 3-9 montre un exemple de 40000
spectre obtenu par fluorescence X sur un
cruchon contenant de l’uranium 235 et du 35000
thorium. Les pics caractérisent la présence
30000
et la concentration de ces deux éléments.
Dans notre application, chaque spectre est 25000
quantifié sur 4096 valeurs d’énergie.
Chaque valeur en ordonnée correspond au 20000
nombre de photons qui sont comptés sur
15000
un niveau d’énergie donné.
Les méthodes classiques d’analyse de spec- 10000
tres reposent sur des modèles physiques, qui
5000
établissent des corrélations entre la propor-
tion d’un élément et l’intégrale autour des 0
pics correspondant à certaines raies de 0 500 1000 1500 2000 2500 3000 3500 4000 4500
l’élément à analyser. La « physique » ici est Figure 3-9. Exemple de spectre.
relativement complexe : chevauchement des
pics, effets parasites ou bruit de mesures. La méthode est fondée sur une analyse locale des phénomènes. L’esti-
mation des concentrations est effectuée à partir de calculs effectués sur des données du spectre centrées autour
des raies.
L’approche par ACC est différente. Elle repose sur une analyse globale de la courbe. Le spectre est consi-
déré en tant qu’élément d’un espace à 4096 composantes. Dans cet espace R4096 , les surfaces de réparti-
tion des points spectres ont une dimension intrinsèque égale à 2. En effet, la variété des spectres est
obtenue en ne faisant varier que deux paramètres : la concentration d’uranium et celle du thorium. Une
réduction de dimension de R4096 à R2 s’est avérée adaptée au problème : l’information « perdue » par
projection n’est pas discriminante pour la mesure des concentrations.
La base d’exemples comprend 60 spectres. Chaque spectre comprend 4096 composantes. La matrice de
l’échantillon des données est de dimension 60 × 4096. La réduction par ACC consiste donc à transformer
cet échantillon en une matrice 60 × 2.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 235/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
216
La figure 3-10 visualise, dans l’espace réduit à deux dimensions, l’ensemble des exemples. Nous avons
volontairement maillé la représentation en visualisant la topologie spatiale de la quantification réalisée par
les expérimentateurs sur les valeurs des concentrations d’uranium et de thorium.
La projection obtenue par ACC a la même topologie que la quantification expérimentale. Les concentra-
tions d’uranium et de thorium ont été quantifiées sur le produit cartésien [(u1 , u2, …, u 6) × (t 1 , t 2, …, t10)].
En réalité, on constate, en y regardant de plus près, qu’il manque un essai. En effet, la base ne comportait
que 59 spectres. On retrouve figure 3-10 la donnée manquante dans la projection ACC.
L’exemple illustre l’intérêt de l’ACC : en dépit de
combinaisons non linéaires de plusieurs effets sur
les spectres, la réduction permet de faire apparaître 100
Concentration Thorium
la dimension intrinsèque des données, celle de la
variation par rapport à la concentration du thorium
et celle relative à l’uranium. À partir des spectres
réduits, l’estimation des concentrations en 10
uranium et en thorium n’est plus un problème
difficile : une régression à l’aide d’un petit réseau
de neurones, voire une simple interpolation
linéaire, suffisent amplement. 1
1 10
Appliquée à des problèmes plus complexes, Concentration Uranium
lorsque la dimension intrinsèque n’est pas aussi 50
évidente, on peut procéder d’une manière itérative
40
en augmentant, si c’est nécessaire, le nombre de
composantes de l’espace de projection, tout en 30
contrôlant la préservation de la topologie locale 20
sur la bissectrice pour les petites distances.
10
0
Le bootstrap et les réseaux -10
de neurones -20
-30
Cette dernière partie présente une nouvelle approche -30 -20 -10 0 10 20 30 40
qui permet d’automatiser la construction et l’appren-
tissage des réseaux de neurones. Elle s’articule Figure 3-10. Quantification expérimentale –
autour de la méthode statistique du bootstrap et de la Représentation par ACC.
technique de l’arrêt prématuré ou early stopping
(cette dernière technique est présentée dans le chapitre 2). L’orientation prise est donc celle qui consiste à
utiliser des réseaux suffisamment complexes, puis à les régulariser par arrêt de l’apprentissage. Avecbootstrap,
il est possible d’évaluer avec efficacité la variabilité du réseau, et de son erreur par rapport aux données. Associé
à l’arrêt prématuré, il permet le contrôle de l’apprentissage en optimisant automatiquement le nombre de cycles
nécessaire, tout en fournissant les caractéristiques statistiques de l’erreur de généralisation.
Le bootstrap, proposé par [EFRON 1993], est une technique aujourd’hui très étudiée dans le cadre de
l’inférence statistique, notamment pour les tests d’hypothèses et l’estimation des intervalles de confiance.
Elle ne nécessite aucune hypothèse a priori sur les lois de distribution. Appliqué à la régression, leboots-
trap permet d’estimer les caractéristiques statistiques de l’écart entre l’erreur d’apprentissage et celle de
généralisation. L’approche est particulièrement adaptée aux problèmes pour lesquels les échantillons
d’exemples sont de petite taille. C’est le cas notamment du calcul scientifique et de la simulation de
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 236/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Compléments de méthodologie pour la modélisation .html
217
CHAPITRE 3
systèmes complexes. À partir d’une base de calculs, des fonctions analytiques sont construites par régres-
sion ou interpolation, afin d’être utilisées en lieu et place de modules plus coûteux en temps de calcul.
Dans le chapitre précédent, nous avons souligné l’importance de la validation des modèles (estimation de
l’erreur de modélisation, d’intervalles de confiance, etc.) dans le cadre général de la modélisation, notam-
ment non linéaire. Dans le type d’applications susmentionnées (remplacement d’un code de calcul complexe
par une régression à partir de données engendrées par ce code), la problématique est exactement la même, à
ceci près que les données issues de calculs ne sont généralement pas bruitées. On va donc présenter cette
approche qui peut être substituée à celles qui ont été développées dans le chapitre précédent.
Principe du bootstrap
Nous allons illustrer le principe du bootstrap sur l’exemple du calcul de l’intervalle de confiance de
l’espérance μ d’une variable aléatoire. L’exemple tiré de [WONNACOOT 1990] a simplement pour objet de
montrer clairement le principe du bootstrap. En effet, pour cet exemple, l’intervalle de confiance de
l’espérance d’une variable aléatoire est parfaitement déterminé à partir de la moyenne et de la variance
calculées sur l’échantillon (vu au chapitre 2). Ce résultat découle du théorème de la limite centrale, selon
lequel la distribution de la moyenne d’un échantillon converge assez rapidement vers une loi normale.
On considère un échantillon de la variable aléatoire composé de n = 10 observations : x = (16, 12, 14, 6,
10
xi
43, 7, 0, 54, 25, 13). La moyenne de l’échantillon est X = ∑ ------ =
i = 1 10
19.0 et son écart-type est
10
2
S= ∑ ( xi – 19.0 ) 9 = 17.09 . L’intervalle de confiance de l’espéranceμ à 95 % est :
i=1
s
μ = X ± t .025------- = 19.0 ± 2.26 17.09
------------- ≈ 19 ± 12 ⇒ 7 < μ < 31
n 10
L’intervalle de confiance peut être également calculé par bootstrap. Il est alors obtenu par l’algorithme
suivant.
À partir de l’échantillon initial, on simule de nouveaux échantillons, appelés « répliques », de taillen, par
tirages aléatoires avec remise. Prenons par exemple l’échantillon initial défini précédemment x = (16, 12,
14, 6, 43, 7, 0, 54, 25, 13). Par tirages aléatoires avec remise, on obtient ainsi la réplique suivante x* = (54,
0, 16, 7, 43, 54, 0, 25, 25, 6), dans laquelle certaines valeurs de l’échantillon initial ne figurent pas, et où
d’autres apparaissent plusieurs fois. Plusieurs échantillons sont ainsi simulés. Pour chaque échantillon
simulé, une moyenne est calculée. L’intervalle de confiance à 95 % est défini sur cet ensemble de
moyennes. La simulation donne :
9 < μ < 26
On note que l’intervalle obtenu parbootstrap est pratiquement identique à l’intervalle de confiance à 95 %
calculé précédemment et issu du théorème central limite.
Généralité du bootstrap
Le bootstrap ne fait appel à aucune hypothèse sur la distribution statistique sous-jacente ; d’où sa
généralité et sa puissance.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 237/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
218
Le bootstrap peut donc être appliqué à tout estimateur autre que la moyenne, tel que la médiane, le coeffi-
cient de corrélation entre deux variables aléatoires ou la valeur propre principale d’une matrice de variance-
covariance. Pour ces estimateurs, il n’existe pas de formule mathématique qui définisse l’erreur standard ou
l’intervalle de confiance. Les seules méthodes applicables sont les méthodes dites de ré-échantillonnage qui
procèdent par simulation d’échantillons comme le bootstrap ou le jackknife [E FRON 1993].
Un des théorèmes démontrés par Efron porte sur la consistance de l’estimateur bootstrap. L’estimation
σ̂ B converge vers l’écart-type σ F̂ ( θ̂* ) du paramètre θ évalué sur la distribution de l’échantillon :
lim σ̂ B = σ F̂
B →∞
Cet algorithme peut s’appliquer à tout estimateur. Prenons l’exemple du calcul de la valeur propre princi-
pale lors d’une ACP. Elle correspond à la plus grande valeur propre de la matrice de variance-covariance
X TX des observations Xn×p . Le bootstrap consiste à simuler des répliques X*n×p obtenues par n tirages aléa-
toires des lignes de la matrice Xn×p . Puis la statistique (moyenne et écart-type) pourra être établie sans
difficulté. On voit ici la puissance de la méthode et sa facilité de mise en œuvre. On comprend aussi que
cette méthode n’ait pas été très utilisée par le passé, en raison du nombre de calculs nécessaires : 50 à 200
répliques suffisent à estimer une moyenne, mais plusieurs milliers de répliques sont nécessaires si l’on
souhaite déterminer des intervalles de confiance.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 238/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Compléments de méthodologie pour la modélisation .html
219
CHAPITRE 3
La probabilité qu’un élément n’apparaisse pas dans la base bootstrapée est donc P(0) = (1 – 1 nn). Pour
n suffisamment grand P(0) n → ∞ = e– 1 ≈ 0.368. En moyenne, 37 % des exemples ne seront pas utilisés en
apprentissage.
L’écart entre l’erreur d’apprentissage calculée sur la base bootstrapée et l’erreur de test évaluée sur la
base initiale est considéré comme une variable aléatoire représentative de l’écart entre l’erreur
d’apprentissage et l’erreur de généralisation.
Une statistique est faite sur l’ensemble de ces écarts (un par base bootstrapée) afin d’estimer la loi de
distribution de l’écart entre l’apprentissage et l’erreur de généralisation.
Soient B la base initiale des exemples et B *b , b = 1, …, N l’ensemble des répliques. Désignons par ε*b
et par b l’erreur du même réseau calculée sur
l’erreur
la d’apprentissage
base initiale B. L’écart du
δ b réseau
= εb – εentraîné
* entre sur
b les la réplique
deux k,εpeut alors être considéré comme une variable
erreurs
aléatoire représentative du phénomène de surapprentissage. Cet écart peut être considéré comme le biais
qui apparaît sur l’estimation de l’erreur de généralisation par l’erreur d’apprentissage. L’espérance δ et
la variance σδ du biais peuvent alors être estimées sur l’ensemble des valeurs δb :
B B
1 2 1 2
δb = ε b εb* δ = --- ∑ δ b σ δ = ------------ ∑ ( δb – δ ) – .
B B–1
b=1 b=1
La méthode NeMo
L’algorithme proposé précédemment a été programmé dans le logiciel NeMo. Le bootstrap y est associé
à l’arrêt prématuré de l’apprentissage early stopping) afin d’automatiser le contrôle de l’apprentissage du
réseau.
Outil NeMo
NeMo est un outil développé au Centre d’études de Saclay au département de modélisation de systèmes et structures à partir du simula-
teur SNNS (Stuttgart Neural Network Simulator) disponible sur http://www-ra.informatik.uni-tuebingen.de/SNNS, visant à simpli-
fier les tâches d’apprentissage et de test des réseaux de neurones.
L’erreur quadratique moyenne EQMr est calculée sur les variables de sortie (estimées et désirées) centrées
et réduites. L’analyse de l’erreur porte donc sur la part de la variance non expliquée par le modèle ou coef-
ficient d’indétermination introduit au chapitre sur les pré-traitements des sorties.
Avant de donner le détail de la méthode, désignons par j le rang de la réplique et par i l’itération sur le
nombre de cycles ; les erreurs quadratiques moyennes d’apprentissage et de test sont représentées par les
deux tableaux suivants :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 239/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
220
ε1*1 ε1*2 ۙ ε *B
1 ε 11 ε12 ۙ ε B
1
ε2*1 ε2*2 ۙ ε *B
2 ε 12 ε22 ۙ ε B
2
ۛۛۘ ۘ ۛۛۘ ۘ
⎧ εNc*1 ε *2 ۙ ε
Nc
*B
Nc ε 1Nc εNc
2 ۙ ε B
Nc
⎪
⎪
⎨
⎪
⎪
⎩
⎧
⎪
⎪
⎨
⎪
⎪
⎩
erreur d’apprentissage erreur de test
Après cette phase, NeMo détermine le nombre de cycles selon une heuristique rappelant la théorie des
jeux. Un premier joueur « pessimiste » se place, pour chaque valeur du nombre de cycles, dans la pire des
situations sur l’erreur de test :
Max
εi = Maxb { εbi } .
Le second joueur détermine alors le nombre de cycles de façon à minimiser la pire des situations obte-
nues, c’est-à-dire celle qui correspond à l’erreur de test maximale :
optimal
Nc = Argi { Min ε bi } .
optimal
Cette stratégie sur le choix de N c peut être assouplie en ne retenant qu’une fraction de l’ensemble
des B apprentissages. Pour la rendre plus robuste, il suffit en effet d’exclure les cas extrêmes (« outliers »),
c’est-à-dire les situations d’apprentissage très différentes de la moyenne. Par défaut, NeMo détermine le
nombre de cycles optimal sur le 90e percentile de l’erreur de test.
Percentile
Le α ème percentile correspond à l’intervalle constitué des valeurs pour lesquelles la fonction de répar-
tition est inférieure à α : une fraction (1 – α) des valeurs maximales est exclue.
L’estimation du nombre optimal de cycles peut également être faite par la méthode du tri médian, plus
stable mais plus risquée car rejetant a priori 25 % des cas : le dernier quartile correspond aux erreurs de
test les plus importantes.
Quartile
Tri médian
Le tri médian correspond à 0,25 Q1 (1er quartile) + 0,5 Q2 (2e quartile ou médiane) + 0,25 Q3 (3e quartile).
Après avoir déterminé le nombre de cycles optimal selon une des stratégies, NeMo lance un nouvel
apprentissage fondé sur la totalité des exemples, avec, pour nombre de cycles, le nombre de cycles opti-
misé N optimal
c défini à l’étape précédente. Pour ce dernier apprentissage, les mêmes paramètres d’appren-
tissage sont utilisés : la valeur initiale et la loi de décroissance du pas d’adaptation. En notant εa l’erreur
moyenne calculée sur la base initiale, et δ la valeur moyenne du biais, l’erreur de généralisation est
estimée par :
εg = εa + δ .
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 240/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Compléments de méthodologie pour la modélisation .html
221
CHAPITRE 3
D’une façon plus générale, la fonction de répartition de l’erreur de généralisation est estimée par la fonc-
tion empirique de répartition du biais translatée de la valeurε a. On remarque l’apport du bootstrap associé
au early stopping par rapport à la validation croisée :
• une certaine automatisation dans la construction du réseau en adaptant le nombre de cycle duearly stop-
ping,
• une plus grande estimation de la variabilté du modèle par rapport au jeu de données,
• estimation des intervalles de confiance (marges, incertitudes),
• l’utilisation de l’ensemble des exemples pour construire le réseau.
Notons enfin que NeMo peut contrôler l’adéquation du modèle aux données : si le nombre de cycle opti-
misé est trop proche du nombre de cycle maximal fixé par l’utilisateur, l’erreur de test ne passe pas par un
minimum ; l’utilisateur devra alors accroître la complexité du réseau (nombre de neurones cachés) ou
augmenter le nombre de cycles d’apprentissage.
Grande dimension
f densité des points dans12R; 1500 points dans 12
À noter la trèsaible R correspondent à un nombre mo
yen inférieur à 2 par axe :
d 12 = 1 500→ d ≈ 1,8.
L’erreur réelle est obtenue à partir de 106 tirages aléatoires en utilisant la même loi de génération des
entrées (loi uniforme) et en calculant l’erreur moyenne quadratique réduite EQMr entre la sortie désirée
et la sortie estimée.
Ci-après, les figures présentent la comparaison (en échelle log-log) de l’erreur EQMr « vraie » (en
abscisse) à l’erreur estimée (en ordonnée) par NeMo. Les points visualisés correspondent aux différents
réseaux élèves construits sur l’ensemble des bases d’exemples. Chaque réseau a été entraîné 15 fois sur
des bases d’exemples comprenant respectivement 100, 200, …, 1500 exemples.
L’analyse de l’ensemble des résultats illustrés par les figures 3-11 et 3-12 fait apparaître les propriétés
essentielles de la méthode NeMo :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 241/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
222
• l’erreur de généralisation est estimée avec précision, même dans les cas complexes (grand nombre
d’entrées + faible nombre d’exemples) ;
• le bootstrap permet d’automatiser la régularisation du réseau aux données par contrôle de l’arrêt de
l’apprentissage.
Les figures 3-11et 3-12 font en effet apparaître des estimations de l’erreur de généralisation très proches
des valeurs exactes. Les faibles valeurs de l’erreur correspondent aux apprentissages réalisés avec les
bases d’exemples qui en comportent suffisamment. Pour ces cas, l’erreur estimée en ordonnée est quasi
égale à l’erreur vraie en abscisse.
Il faut noter une légère surestimation sur 4 cas parmi 75 entre les valeurs 0,01 et 0,02 pour le casφ8 (figure
3-11) et une moindre précision sur le cas plus complexe φ12 (figure 3-12). Pour ce dernier cas, la régres-
sion porte sur une relation de R12 à R avec un maximum de 1500 points pour représenter la relation. Il
apparaît une surestimation de l’erreur pour les faibles valeurs et une sous-estimation pour les valeurs
supérieures à 0,2. Néanmoins, malgré la grande dimension de l’espace d’entrées, la relation de R12 dans
R est correctement modélisée à partir de quelques centaines d’exemples.
1
Figure 3-11. R8_4_1
Générateur φ 8. R8_6_1
R8_8_1
R8_10_1
R8_12_1
0.1
Erreur estimée par NeMo
0.01
0.001
0.001 0.01 0.1 1
Erreur fonctionnelle
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 242/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Compléments de méthodologie pour la modélisation .html
223
CHAPITRE 3
1
R12_10_1
Figure 3-12. R12_14_1
R12_18_1
Générateur φ12. R12_22_1
R12_26_1
R12_30_1
Erreur estimée par NeMo
0.1
0.01
0.01 0.1 1
Erreur fonctionnelle
Conclusions
Plusieurs points peuvent être tirés de cette étude.
• Les réseaux construits automatiquement sont suffisamment bien régularisés, même dans les cas les plus
difficiles lorsque le nombre d’exemples est faible. La statistique apportée par le bootstrap permet le
contrôle automatique de l’arrêt prématuré de l’apprentissage et fournit une statistique robuste de l’erreur
de généralisation.
• Le deuxième point est lié au problème de la dimension de l’espace d’entrée. Même dans l’exemple de
la relation de R12 dans R, quelques centaines de points suffisent à la représentation de la relation. Dans
de nombreux problèmes, des relations non linéaires peuvent ainsi être facilement approchées à partir
d’une densité d’exemples faible. À noter qu’à partir d’un certain niveau de complexité, les réseaux cons-
truits et régularisés sur un même échantillon semblent équivalents. Des réseaux différents peuvent être
adaptés pour représenter la même relation.
Dans le cadre de la théorie de l’apprentissage statistique, la régularisation des modèles peut être contrôlée
et donc optimisée par bootstrap. Cette voie est à approcher des méthodes plus formelles fondées sur la
théorie proposée par [VAPNIK 1995], l’enjeu étant l’adaptation des capacités calculatoires (dimension VC)
du modèle aux données. Dans ce cadre, les méthodes statistiques de ré-échantillonnage apportent de
réelles solutions par leur facilité de mise en œuvre et surtout, reconnaissons-le, par les puissances de
calculs aujourd’hui disponibles sur nos bureaux.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 243/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
224
Bibliographie
CICHOKI A., U NBEHAUEN R. [1993], Neural Networks for Optimization and Signal Processing, Wiley,
1993.
DEMARTINES P. [1995], Analyse de données par réseaux de neurones auto-organisées, thèse de l’Institut
national polytechnique de Grenoble.
DAVAUD Patrick [1991], Traitement du signal. Concepts et applications, Hermès, 1991.
E FRON Bradley, TIBSHIRANI Robert J. [1993], An Introduction to the Bootstrap, Chapman & Hall, 1993.
HÉRAULT Jeanny, JUTTEN Christian [1993], Réseaux de neurones et traitement du signal, Hermès, 1993.
PILATO Vincent [1998], Application des réseaux de neurones aux méthodes de mesure basées sur l’inte-
raction rayonnement matière, thèse Université Paris-Sud, 4.11.1998.
SAPORTA Gilbert [1990], Probabilités. Analyse des données et statistique, Éditions Technip, 1990.
VAPNIK Vladimir N. [1995], The Nature of Statistical Learning Theory, Springer, 1995.
VIGNERON Vincent [1997], Méthodes d’apprentissage statistiques et problèmes inverses – Applications à
la spectrographie, thèse Université d’Évry-Val-d’Essonne, 5.5.1997.
W ONNACOOT Thomas H., W ONNACOTT Ronald J. [1990], Statistique économie-gestion-sciences-méde-
cine, Economica, 4e édition, 1990.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 244/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
4
Identification « neuronale » de systèmes
dynamiques commandés et réseaux
bouclés (récurrents)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 245/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
226
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 246/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
227
CHAPITRE 4
Par exemple, dans le modèle linéaire stationnaire, on représente l’erreur de modèle par un bruit additif
généralement blanc et gaussien, et l’équation d’évolution a la forme
(k
x+ 1) = Ax(k) + Bu(k) + v(k+1)
où les v(k) sont des vecteurs aléatoires gaussiens indépendants normaux centrés (espérance 0) de matrice
de variance-covariance G.
Dans ce cas, la trajectoire d’état est aléatoire et s’appelle un processus stochastique. On va maintenant
donner quelques exemples de systèmes dynamiques commandés qui nous serviront d’illustrations tout au
long de ce chapitre.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 247/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
228
où l’état comporte la position du mobile x1 et sa vitesse x2. Pour obtenir une évolution à temps discret,
nous devons intégrer l’équation différentielle sur la période d’échantillonnageT. Ici, l’équation différen-
tielle linéaire s’intègre exactement et la fonction f qui associe à l’état au temps t l’état au temps t + T peut
être écrite analytiquement. Comme ce ne sera généralement pas le cas dans les modèles considérés ici ou
dans la plupart des applications, il faudra tendre vers l’évolution en utilisant un algorithme approché de
résolution de l’équation différentielle (algorithme de Runge-Kutta par exemple [DEMAILLY 1991]).
Pour commander le système, nous ajoutons une commande scalaire additive de vitesseu.
Par exemple, pour fixer les idées, dans le cas précédent, on obtient facilement l’expression de la dérivée
seconde de l’état par :
d2 ⎛x 1 ⎞ ⎛−x1 ⎞
⎜ ⎟= ⎜− ⎟
dt 2 ⎝x 2 ⎠ ⎝ x2 ⎠
cela permet d’écrire l’approximation de Taylor au second ordre de l’évolution de l’état :
⎛x 1⎞ ⎛x 1 ⎞ d ⎛x1 ⎞ T 2 d 2 ⎛x1 ⎞ ⎛0 ⎞
⎜ ⎟( t + T) = ⎜ ⎟(t ) + T ⎜ ⎟(t ) + ⎜ ⎟(t ) + ⎜ ⎟
⎝x 2⎠ ⎝x 2 ⎠ dt ⎝x 2 ⎠ 2 dt 2 ⎝x2 ⎠ ⎝u(t ) ⎠
dont les trajectoires approchent l’échantillonnage de celles du système dynamique à temps continu.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 248/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
229
CHAPITRE 4
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 249/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
230
Par exemple, dans le cas de la marche aléatoire sur le triangle, la matrice de transition est
⎛0 0, 9 0,1⎞
P = ⎜0, 1 0 0, 9⎟
⎜ ⎟
⎝0, 9 0, 1 0 ⎠
On peut vérifier que la distribution stationnaire est invariante par la matrice de transition qui structurelle-
ment possède toujours une valeur propre de plus grand module égale à 1 (dans le cas d’un espace d’état
fini). Ainsi, dans l’exemple précédent, les valeurs propres de la matrice P sont (approximativement) 1,
– 0,5 + 0.6928i et – 0,5 – 0,6928i. On vérifie facilement que la loi de probabilité uniforme qui attribue une
égale probabilité à chaque état est invariante :
⎛ 0 0, 9 0, 1⎞
(1/ 3 1/ 3 1/ 3)⎜0 ,1 0 0 , 9⎟= (1 / 3 1 / 3 1 / 3)
⎜ ⎟
⎝0, 9 0,1 0 ⎠
La probabilité invariante est l’objet aléatoire correspondant à l’état d’équilibre de la dynamique détermi-
niste. Elle porte d’ailleurs ce nom « d’état d’équilibre » dans la terminologie de la physique statistique
(état de Gibbs).
Voici un autre exemple de dynamique sur le triangle qui brise la symétrie entre les sommets.
Ici, la dynamique de référence est :
f ( a) = a, f ( b) = a, f ( c) = a
La matrice de transition de la chaîne de Markov est alors
⎛1 0 0⎞
P = ⎜0 ,9 0 0 ,1⎟
⎜ ⎟
⎝0 ,9 0 ,1 0 ⎠
ses valeurs propres sont 1 et 0,1 et sa distribution stationnaire est (1, 0, 0). Dans ce cas, l’état d’équilibre
est déterministe même si la dynamique est aléatoire.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 250/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
231
CHAPITRE 4
Comme précédemment, on peut introduire un bruit d’état dans le système dynamique commandé. Dans
ce cas, la probabilité de transition de l’étatx(k) à l’état x(k+1) dépend aussi du contrôle u(k) appliqué au
tempsk.
Par exemple, dans le cas du labyrinthe présenté au début de ce paragraphe, f(13, N) = 13. Si nous intro-
duisons un bruit d’état selon lequel le système de commande peut se tromper avec la probabilité 0,1,
uniformément répartie sur les autres commandes admissibles,f(13, N) est une variable aléatoire prenant
les valeurs 13, 12 et 14 avec les probabilités respectives 0,9, 0,05, 0,05.
Modèles auto-régressifs
Le fichier du nombre de taches solaires de Wolf est un exemple de données astronomiques qui est très
utilisé pour éprouver les méthodes d’identification et de prédiction ; il est maintenu depuis plus de deux
siècles ; ses variations sont représentées sur la figure 4-5.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 251/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
232
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 252/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
233
CHAPITRE 4
le vecteur x(k), à p + q dimensions, de composantes [x1(k) = x(k),…, xp(k) = x(k – p + 1), xp+1 (k) = v(k)…,
xp+q (k) = v(k – q + 1)], et l’équation d’état est :
x1(k + 1) = f[x 1(k),…, xp(k), v(k + 1), xp+1(k)…, ), x p+q(k)]
x2(k + 1) = x 1(k)
………………………..….
xp(k + 1) = x p-1(k)
xp+1 (k + 1) = v(k + 1)
xp+2 (k + 1) = xp+1(k)
………………………..….
xp+q (k + 1) = xp+q-1(k).
De même que nous avons envisagé, outre les systèmes dynamiques autonomes, des systèmes dynamiques
commandés, de même, la théorie des séries temporelles envisage des modèles auto-régressifs avec
variables exogènes, ou modèles ARMAX et NARMAX. Dans ces modèles, l’équation d’évolution prend
en considération des variables exogènes au temps courant ou dans le passé, qui sont connues et sont
l’équivalent du signal de commande. On obtient ainsi les modèles ARMAX (p, q, r)
x(k + 1) = a1 x(k) + … + apx(k – p + 1) + b0v(k + 1) + b 1v(k)…+ b q v(k – q + 1) + c1u(k) +… + cru(k – r + 1)
et NARMAX (p, q ,r)
x(k + 1) = f[x(k), …, x(k – p + 1), v(k + 1), v(k)…, v(k – q + 1), u(k), …, u(k – r + 1)].
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 253/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
234
de N variables scalaires de sortie (y1,…, yk ,…, yN), le vecteur colonne (n, 1) w = (w1 ; … ; wn ) qui minimise
la fonction de coût des moindres carrés :
N
J = ∑ ( yk − x kw ) 2
k=1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 254/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
235
CHAPITRE 4
Ces résultats moins bons s’expliquent par une mauvaise modélisation : la trajectoire de commande étant,
dans cette expérience, un bruit blanc, l’estimateur d’un modèle AR a été utilisé pour traiter des données
produites, en réalité, par un modèle ARMA à bruit vectoriel (uk , vk ).
Si, au lieu de simuler le modèle précédent, un bruit de mesure est introduit dans la simulation qui perturbe
l’observation de l’état sans entraîner de conséquences ultérieures sur la dynamique (ce point sera déve-
loppé au début de la section consacrée au filtrage), les données sont produites par simulation du modèle
suivant :
⎧x (k +1) =a 1x (k ) +a 2x (k −1) +c 1u (k ) +c 2u(k −1)
⎨ .
⎩ y( k ) = x( k ) + b0 w( k )
Dans ce cas, l’application de la procédure d’identification ARX produit de mauvais résultats malgré la
connaissance de la trajectoire de commande. On obtient :
â 1 = 0,61, â2 = – 0,36, ĉ 1 = 0,49, ĉ2 = – 0,11.
Cette expérience montre l’importance d’une modélisation correcte des bruits pour l’estimation par régres-
sion linéaire. Nous avons déjà traité ce problème dans le cadre de la modélisation dynamique par réseaux
de neurones (chapitre 2), et nous le retrouverons plus loin dans ce chapitre. L’addition d’un bruit de
mesure ajoute un problème nouveau, celui du filtrage qui sera traité dans ce chapitre.
Justification mathématique
L’analyse statistique linéaire des séries temporelles est bien connue et sort du cadre de cet ouvrage. Pour
un exposé permettant d’accéder aux méthodes statistiques classiques d’identification et de prévision, on
se reportera à [CHATFIELD 1994] pour un exposé pratique et à [GOURIÉROUX 1995], [A ZENCOTT 1984],
pour les justifications mathématiques. Esquissons la justification de la procédure des moindres carrés dans
le cas le plus simple, celui d’un modèle auto-régressif linéaire stable, en régime stationnaire, et d’un bruit
gaussien centré. On note en majuscules les inconnues qui sont considérées comme des variables aléa-
toires.
Considérons le processus gaussien stationnaire du second ordre produit par le modèle auto-régressif
AR(p) :
X(k + 1) = a1X(k) + … + apX(k – p + 1) + b0V(k + 1)
où le modèle est stable (c’est-à-dire où le polynôme P( z) = 1 − a1 z − ... − a p z p a ses racines à l’extérieur
du disque unité) et où le bruit blanc (Vk) est gaussien centré. Dans ce cas, en notant rj = Cov(Xk , X k-j), on
obtient les relations de Yule-Walker en prenant la covariance des deux membres de l’équation présentée
ci-avant avec les variables (Xk-i)i = 0...p–1 :
⎧ r1 = a 1r 0 +... + a pr p
⎪
⎨..................................
⎪r = a r + ... + a r
⎩p 1 p −1 p 0
Les mêmes relations relient approximativement (aux erreurs de troncatures près, tendant vers 0 avec le
p
rapport ---- ) les estimateurs empiriques des moindres carrés de la covariance :
Nk N
=
1
rˆi = ∑ x (k )x (k −i )
N − p k= i+1
et les estimateurs des moindres carrés des coefficients de la régression â i . D’autre part, les estimateurs r̂ i
sont consistants, sans biais et asymptotiquement normaux avec une variance de l’ordre de 1/N. On peut
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 255/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
236
alors en déduire que les estimateurs â i sont consistants, asymptotiquement sans biais et asymptotique-
ment normaux avec une variance de l’ordre de 1/N, ce qui permet de faire des tests d’adéquation du
modèle.
Remarque
Un estimateur est dit « consistant » si sa variance tend vers zéro lorsque le nombre d’échantillons tend vers l’infini.
Notons que, dans le cas des systèmes linéaires, les méthodes présentées ici sont tout à fait élémentaires et
ont été considérablement améliorées tant par les automaticiens que par les statisticiens. Les principales
améliorations portent sur l’introduction du point de vue spectral, c’est-à-dire par l’identification de la
fonction de transfert des filtres sous-jacents aux modèles ARMA. On trouvera facilement ces techniques
dans les livres de base, notamment ceux cités en référence. Leur exposé dépasse le cadre de cet ouvrage,
puisque les réseaux de neurones se situent dans le cadre des modèles non linéaires.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 256/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
237
CHAPITRE 4
Dans l’exemple de l’oscillateur de Van der Pol décrit dans la section précédente (qui, rappelons-le, est un
oscillateur non linéaire), aucun modèle linéaire d’oscillateur ne peut présenter un équilibre instable et un
cycle limite stable. On voit que l’algorithme de régression linéaire a bien capturé la fréquence de l’oscilla-
teur. Le comportement non linéaire ne peut être décrit par un modèle linéaire.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 257/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
238
La fonction ϕ RN est réalisée par un réseau de neurones non bouclé. L’entrée du réseau est constituée des
signaux que l’on cherche à identifier (c’est-à-dire les sorties du processus) du temps k au temps k – p + 1
(où p est l’ordre du modèle) et des commandes du temps k au temps k – r + 1 (où r est l’horizon sur la
commande). L’estimation des paramètres est réalisée à partir de l’erreur de modélisation, c’est-à-dire la
différence entre la sortie du processus x(k + 1) et la prédiction effectuée par le modèle g(k + 1). C’est donc
exactement le schéma d’estimation des paramètres que nous avons présenté dans le paragraphe sur la
modélisation dynamique avec hypothèse bruit d’état et représentation entrée-sortie, dans le chapitre 2.
Comme nous l’avons déjà indiqué, une base d’apprentissage est formée de l’entrée qui est un vecteur du
type xk = [x(k) ;…; x(k – p + 1) ; u(k) ;…; u(k – r + 1)] et de la sortie qui est la variable gk = x(k + 1). Cette
base d’apprentissage peut être réalisée de deux manières.
• Si l’on utilise un simulateur du procédé que l’on cherche à commander, on constituera la base en faisant
fonctionner le simulateur sur un échantillonnage représentatif de l’espace des entrées (maillage régulier),
ou sur une distribution privilégiant les points les plus courants, ou au contraire les points limites au voisi-
nage desquels on veut sécuriser la performance du réseau. Cette situation est fréquente lorsqu’on cherche
à réaliser une modélisation semi-physique ou boîte grise, comme nous l’avons indiqué dans le chapitre 2.
• Si, en revanche, la base est construite par utilisation en temps réel d’un dispositif expérimental, on n’a
généralement pas la possibilité de réaliser un tel échantillonnage des entrées : la base d’apprentissage est
construite à partir de l’échantillonnage de trajectoires expérimentales des entrées et des sorties du système.
Il importe alors que la ou les trajectoires échantillonnées visitent avec une régularité suffisante l’espace des
entrées du réseau (produit de l’espace d’état par l’espace des commandes). Dans le cas d’un système dyna-
mique commandé, ce résultat est généralement obtenu en excitant le système par des commandes aléa-
toires. La question du choix d’une telle trajectoire de commande est une question délicate, qui dépend
fortement du système qu’on cherche à identifier. Dans le cas d’un système linéaire, les excitations sont, par
exemple, harmoniques, et l’on cherche à identifier ainsi la fonction de transfert du processus. Dans le cas
du système non linéaire, on choisit ordinairement une trajectoire aléatoire. Il peut être cependant judicieux
de choisir pour trajectoires de commandes des bruits filtrés dans des plages de fréquence variable. Le
chapitre 2 fournit quelques éléments qui permettent de construire des plans d’expérience.
Système cible
Système cible
Comparaison des positions Modèle neuronal
3 Comparaison des positions Modèle neuronal
3
2
2
1
1
0
0
–1 –1
–2 –2
–3 –3
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
Time (sec) Time (sec)
Comparaison des vitesses Comparaison des vitesses
3 6
2 4
1 2
0 0
–1
–2
–2
–3 –4
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
Time (sec) Time (sec)
(a) (b)
Figure 4-9. Comparaison de l’oscillateur de Van der Pol commandé et de son identification par régression non linéaire :
(a) Trajectoire de commande nulle (b) Trajectoire de commande aléatoire.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 258/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
239
CHAPITRE 4
La figure 4-9 présente un exemple d’identification de l’oscillateur de Van der Pol, où l’apprentissage a été
effectué sur une base de 153 = 3375 exemples, obtenus par l’échantillonnage de la trajectoire de l’oscilla-
teur excité par une commande aléatoire. Cette base a déjà été utilisée pour la régression linéaire dont les
résultats sont représentés sur la figure 4-7. Les résultats sont ici bien meilleurs.
Ces résultats sont obtenus avec une architecture à trois entrées, dix neurones cachés et deux neurones de
sortie. Si l’on effectue l’apprentissage avec une base d’apprentissage de même dimension, obtenue par un
maillage régulier de l’espace d’états et de l’ensemble des commandes admissibles, l’apprentissage ne
peut se faire convenablement dans les mêmes conditions (sans pré-traitement particulier de la base
d’entrée). L’importance du choix de la base d’apprentissage est ainsi illustrée. Comme nous l’avons déjà
indiqué dans le chapitre 2, il est important de constituer la base d’apprentissage par un échantillonnage
représentatif de la densité avec laquelle le système visite l’espace d’états et l’espace des commandes. Ce
point sera précisé dans la section suivante sur l’apprentissage en ligne. On retiendra en particulier l’impor-
tance, pour l’apprentissage, d’une commande aléatoire permettant une visite effective de ce domaine
(politique d’exploration), notamment dans le cas où le système dynamique possède un attracteur stable
(oscillateur de Van der Pol). On reviendra, dans le chapitre suivant, sur l’importance de la politique
d’exploration dans le cadre de la programmation neuro-dynamique.
Le choix de l’ordre du système est important puisqu’il conditionne le nombre de paramètres de configu-
ration du réseau à identifier. C’est un paramètre plus sensible que dans le cas linéaire. Le choix de l’ordre
des modèles est une question en théorie mal résolue en régression non linéaire. Pratiquement, on combine
une approche empirique et l’adaptation de critères d’information mis au point pour les modèles linéaires
[GOURIEROUX 1995], ou bien l’on utilise une approche par test d’hypothèses [U RBANI 1993]. Comme
nous l’avons vu dans le chapitre 2, l’identification non adaptative par réseau de neurones à partir d’une
base d’apprentissage représentative de tout le domaine des entrées ne pose pas de problème particulier au
concepteur de modèle neuronal, sous réserve de l’utilisation d’une méthodologie sérieuse et d’algo-
rithmes d’apprentissage efficaces.
Ces problèmes se posent toujours dans le cas de l’identification adaptative, où l’on veut traiter les
données obtenues par l’observation du système dynamique en flux, c’est-à-dire au fur et à mesure de leur
production. En revanche, le caractère adaptatif de l’algorithme les situe dans un cadre nouveau que nous
allons aborder dans la section suivante.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 259/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
240
Cet estimateur possède toutes les propriétés générales des estimateurs de régression linéaire énoncées
précédemment : consistant, sans biais, et de variance minimale parmi les estimateurs sans biais. Sa
consistance, c’est-à-dire sa convergence vers a, est appelée la loi des grands nombres, exprimant intuiti-
vement que la moyenne arithmétique d’une suite de résultats d’expériences aléatoires, indépendantes,
permet d’approcher l’espérance mathématique de la variable aléatoire modélisant le résultat de l’expé-
rience.
Une simple récriture de la formule de définition précédente nous permet d’obtenir une formulation
récursive :
N
( N + 1)aˆ N+ 1 = ∑ x k + x N + 1 = Naˆ N + x N + 1
k =1
d’où
1
aˆ N +1 = aˆ N + (x − a N ) .
N + 1 k+1
L’intérêt de cette formulation récursive est qu’elle permet
une estimation adaptative. Une seule observation est Signal
(a) 20
nécessaire pour initialiser l’estimation. Par la suite, la mise
à jour de l’estimation ne demande pas la disposition de 15
l’ensemble des mesures : il suffit de disposer de l’estima- 10
tion précédente et de la mesure au temps courant. Le coef- 5
ficient γκ + 1 =1/(N + 1) s’appelle le gain de l’algorithme ou 0
le taux d’apprentissage. –5
– 10
Un autre avantage de l’estimateur récursif de moyenne
– 15
empirique est qu’il permet de poursuivre les variations
– 20
lentes du paramètre qu’on estime dans le cas d’un modèle 0 5 10 15
non stationnaire. Pour que l’estimateur soit adaptatif, il
(b) Estimation du paramètre : gain constant
faut remplacer le gain en 1/N lentement décroissant vers 0 8
de la formule précédente par un petit gain constant. Dans Paramètre source
6 Estimation (gain = 0.007)
ce cas, l’estimateur est identique à un filtre (ici un filtre du
Estimation (gain = 0.025)
premier ordre). Pour comparer les filtres du premier ordre 4
et les estimateurs récursifs de la moyenne, on a représenté,
2
figure 4-10, le comportement d’un tel estimateur pour
poursuivre des variations quasi périodiques de la moyenne 0
du signal avec un rapport signal/bruit de 1/5. Le signal
–2
traité est représenté dans le graphique (a). Dans le
graphique (b), on compare le résultat pour différentes –4
0 5 10 15
valeurs du gain : on remarque que, à gain bas, le bruit est
plus atténué, mais la capacité de poursuite du filtre plus (c) Estimation du paramètre : gain décroissant
12
basse. Dans le graphique (c), on compare les perfor- 10
Paramètre source
mances d’estimateurs récursifs dont les exposants de Estimation (exposant = 1)
8 Estimation (exposant = 0.55)
décroissance des gains sont respectivement 1 (moyenne
6
empirique) et 0,55. On remarque que les capacités de
4
poursuite de l’estimateur moyenne empirique ne sont pas
2
suffisantes dans cet exemple.
0
Figure 4-10. Comportement de l’estimateur de moyenne empirique : –2
(a) Signal utilisé, (b) Estimation du paramètre par filtrage IIR à gain –4
constant, (c) Estimation du paramètre par filtrage à gain décroissant. 0 5 10 15
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 260/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
241
CHAPITRE 4
On peut remarquer que l’estimateur de la moyenne empirique est un estimateur fondé sur la minimisation
du critère quadratique par une descente de gradient. En effet, dans le cas du modèle stationnaire, les
données sont un échantillon de la loi de probabilité de la variable aléatoireX. On cherche à minimiser la
1
[ ]
fonction de coût théorique J(a) = E ( X − a) 2 ; notons qu’il n’est pas possible de calculer cette fonction,
2
puisqu’elle fait intervenir l’espérance mathématique d’une variable aléatoire dont la loi de probabilité est
inconnue de l’utilisateur. Le gradient de J (ici sa dérivée) est : ∇J(a) = E(X-a). Un algorithme de descente
de gradient est
ak+1 = ak – γ κ+1 ∇J(ak )
où γk + 1 est une quantité positive.
Pour obtenir l’estimateur moyenne empirique récursive, on remplace dans l’algorithme ∇J(ak) par
(X k+1-a k) :
ak+1= a k – γκ +1 (Xk+1 – a k ).
On reconnaît ici l’algorithme de gradient stochastique, que nous avons mentionné dans le chapitre 2. On
peut remarquer que la grandeur aléatoire (Xk+1 – ak) a ∇J(a k ) pour espérance. C’est pour cette raison que
cet algorithme est dit de gradient stochastique : le vrai gradient de la fonction de coût des moindres carrés
a été remplacé par un terme aléatoire qui a pour moyenne ce gradient. Tandis que le gradient total∇J(a k)
dépend de la loi de X que l’on ne connaît pas, et qu’il faudrait préalablement estimer, le gradient stochas-
tique est, lui, connu à chaque moment.
Ainsi, l’algorithme récursif aborde directement l’optimisation sans passer par l’étape d’identification du
modèle : il effectue en même temps les étapes d’estimation et d’optimisation. En revanche, l’algorithme
d’estimation traditionnel commence par une phase d’estimation où le critère à minimiser
J(a)= 1 E ( X − a) 2
[ ] est d’abord estimé par la fonction de coût empirique des moindres carrés
2
N
1
∑(x k −a )
2
JN(a) = avant d’effectuer l’optimisation sur le critère estimé. Il se trouve que les deux
2N k =1
démarches aboutissent au même résultat dans cet exemple, car le modèle est linéaire par rapport au para-
mètre à estimer a. La programmation des deux algorithmes est pourtant différente : l’algorithme de
gradient stochastique est récursif.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 261/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
242
On dispose, pour résoudre le problème, d’échantillons (X1 , Y1 ), …, (Xk, Y k) fournis « en ligne » (c’est-à-
dire pendant l’estimation des paramètres), indépendants de la loi du vecteur aléatoire des entrées-sorties.
On peut alors mettre en œuvre un algorithme de gradient stochastique pour estimer ces paramètres.
L’estimateur récursif du gradient stochastique est donc défini par l’algorithme
⎧a k+1 = a k +γ k +1( Yk+1 − X k +1a k − bk )X k+1 .
⎨
⎩ bk+1 = bk + γ k +1 (Yk +1 − X k +1 a k − bk )
On a le résultat de convergence suivant :
∞ ∞
Sous les conditions suivantes sur le gain de l’algorithme ∑ γ k = ∞, ∑ γ k 2 < ∞, l’algorithme converge
k =1 k =1
(avec quasi-certitude) vers les coefficients de la régression linéaire deY en X.
Les conditions sur le gain, énoncées ci-dessus, sont générales ; nous les appellerons dans la suite
« conditions de l’approximation stochastique relatives au gain ».
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 262/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
243
CHAPITRE 4
Les algorithmes d’optimisation du second ordre (règle de Newton) ont aussi des versions récursives qui
fournissent des estimateurs consistants. Leur convergence se démontre dans le cadre de l’approximation
stochastique. Ils sont particulièrement employés dans les modèles linéaires où ils accélèrent la conver-
gence. Rappelons (chapitre 2) que la formule de Newton peut s’écrire
–1
ŵ = w* – H J [w * ] ∇J [w * ]
où HJ[w*] est la matrice hessienne de la fonction de coût, matrice symétrique formée par les dérivées
partielles secondes, relativement aux composantes de la variable vectorielle. Cette relation suggère la
relation récursive suivante :
ŵ (k + 1) = ŵ (k) – HΦ [ ŵ (k)]−1 ∇ Φ [ ŵ (k)]. Dans le cas d’une fonction strictement convexe et notam-
ment d’un critère quadratique, cette matrice est définie positive et donc inversible. Dans l’exemple du
modèle AR(p), il s’agit de la matrice de variance-covariance du vecteur aléatoire stationnaire Xk. L’algo-
rithme récursif du second ordre enchaîne donc optimisation du second ordre du critèreJ et estimation
récursive R̂ (k)- de la matrice de variance-covariance :
ŵ (k + 1) = ŵ (k) + γk+1ϑ (k + 1) R̂ (k)-1 (k R̂ R̂ γk+1X(k + 1)X(k + 1)t.
X) (k + 1) = (k) +
Cette méthode appelée « méthode de l’erreur de prédiction récursive » est amplement développée dans
[LJUNG 1983], qui insiste sur les applications à l’identification de la méthode d’approximation stochas-
tique. Elle se généralise au cas non linéaire, et peut ainsi s’appliquer à l’apprentissage adaptatif des
réseaux de neurones quand les données nécessaires à l’apprentissage sont fournies en ligne par un
processus ou une simulation.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 263/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
244
Pour appliquer la méthode du gradient stochastique, on calcule le gradient, par rapport à , de la fonction w
1 ϑ ( x, y, w) 2 . Ce gradient est donc : – ∂g (y, x, u,
2 ∂w
w
) J(y, x, u, ). w
w
On le notera dans la suite G(y, x, u, ). Nous noterons de même G(k+1) = G[X(k+1), X(k), u(k), (k)]. w
On considère les algorithmes suivants.
■ Algorithme du gradient stochastique :
w(k + 1) = w(k) – γk+1 G(k + 1) = w(k) + γk+1 ∂∂wg [X (k + 1),X(k ), u (k ), w(k )]J (k + 1)
■ Algorithme de Gauss-Newton stochastique :
R(k+1) = R(k) + γ k+1 ∂ g [X (k + 1), X ( k), u ( k), w( k)] ∂g [X ( k + 1), X ( k), u ( k), w( k)] T
∂w ∂w
w(k + 1) = w(k)-γk+1 R(k + 1) -1G(k + 1)
Sous les conditions habituelles de l’approximation stochastique relatives au gain, et si l’algorithme reste borné,
ces algorithmes convergent vers une valeur du paramètre qui est un minimum local du critère quadratique.
L’hypothèse pour l’algorithme de rester borné est impossible à assurer a priori dans les cas pratiques.
Aussi, dans [L JUNG 1983], en suivant les théories antérieures de l’approximation stochastique, on impose
de plus à l’algorithme une projection non linéaire assurant qu’il reste dans un domaine borné. Cette
projection respecte la propriété de convergence.
Comme nous l’avons vu en détail dans le chapitre 2, l’inversion de la matrice hessienne, nécessaire dans
l’algorithme de Gauss-Newton, peut être approchée par d’autres algorithmes classiques du second ordre
(quasi-Newton, Gradient conjugué, Levenberg-Marquardt). Un bon exposé empirique de la méthode de
l’erreur de prédiction pour l’apprentissage des réseaux de neurones pour l’identification est donné dans
[NORGAARD 2000].
Si le gain est constant et petit, les capacités de poursuite de l’algorithme sont analogues à celles d’une
technique particulière de commande appelée « régime glissant » [BENVENISTE 1987].
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 264/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
245
CHAPITRE 4
L’état et la commande au temps courant sont envoyés en entrée au réseau de neurones dans sa configura-
tion courante.
Notons que l’état est supposé être entièrement mesuré. Dans le cas d’un modèle auto-régressif, le signal
courant et la commande courante sont utilisés pour reconstruire l’état courant par des lignes à retard repré-
sentées dans la figure 4-8. Le réseau calcule sa prédiction de l’état au temps suivant qui est comparé à
l’état du processus. L’erreur de prédiction calculée par cette comparaison est renvoyée au réseau pour
rétropropagation, calcul du gradient et mise en œuvre de l’algorithme. Cet apprentissage estdirigé (il est
appelé en théorie de la commande « teacher forcing ») car l’état complètement connu peut être imposé
comme sortie désirée au réseau après chaque pas de calcul. Rappelons que cet algorithme a été présenté
dans le cadre de l’apprentissage des systèmes dynamiques non linéaires, au chapitre 2.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 265/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
246
On suppose le système stationnaire pour simplifier les notations. Dans le cas linéaire, cette équation prend
la forme particulière :
x(k + 1) = Ax(k) + Bu(k).
On suppose maintenant que l’état n’est plus complètement observé. On introduit alors une équation de
mesure (ou équation de sortie, ou équation d’observation) de la forme :
y(k) = h[x(k)]
ou, pour le modèle linéaire stationnaire :
y(k) = H x(k).
Pour identifier la trajectoire d’état à partir des mesures, il faut donc trouver l’état initialx(0) dont la
connaissance déterminera toute la trajectoire d’états. À partir des équations :
k −1
y(k) = ∑ HAk-1-j Bu(j) + HAk x(0)
j= 0
où la séquence des commandes u(k) est connue, on obtient le système linéaire d’inconnue x(0) suivant
quand k varie de 0 à n où n est la dimension de l’espace d’état :
k−1
HAk x(0) = y(k) – ∑ HAk-1-j Bu(j).
j=0
Ce système linéaire détermine sans ambiguïté l’état initial x(0) pourvu que le rang de la matrice conca-
ténée [H ; … ; HAn ] soit n . On dit dans ce cas que le couple (H, A) est complètement observable.
Cette notion peut s’étendre au cas des systèmes dynamiques mesurés non linéaires ([SONTAG 1990],
[SLOTINE 1991]) en introduisant des concepts de géométrie différentielle (crochets de Lie) qui dépassent
le cadre de cet ouvrage.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 266/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
247
CHAPITRE 4
Ce critère des moindres carrés réalise un équilibre ajustable entre l’incertitude sur le modèle, pondérée par
le paramètre de pénalisation λ , et l’incertitude sur la mesure, pondérée par le paramètre de pénalisation μ.
On peut alors calculer à chaque étape le gain d’innovation en résolvant le problème d’optimisation
quadratique, ce qui donne immédiatement, en annulant le gradient de la fonction de coût :
0 = 2 (λ I + μ HT H) vk+1 – 2 μH T [ y(k) – HAx(k – 1) – HBu(k-1)].
On détermine ainsi le gain d’innovation optimal :
Kk+1 = (λ I + μ HT H) -1 μ HT = μH T(λ I + μHT H)-1.
Notons que nous aurions pu faire dépendre les pénalisationsλ et μ du temps k, ou choisir des pénalisations
matricielles. Mais le problème reste d’avoir une interprétation de ces pénalisations qui nous aide à les
choisir dans les problèmes pratiques. Par ailleurs, il faut s’assurer que le choix du gain laisse stable le
processus d’estimation récursive. Ces questions sont résolues par l’interprétation probabiliste de la
théorie du filtrage de Kalman, qui fait l’objet de la suite de cette section.
Filtrage de Kalman
Définition du filtre de Kalman d’un système linéaire stationnaire
Les algorithmes à partir desquels on peut identifier l’état à partir des mesures sont appelés des filtres.
Cette terminologie est justifiée par l’idée que ces algorithmes permettent la restitution de l’état en élimi-
nant les incertitudes et les bruits qui perturbent l’information que nous avons sur cet état. Les filtres du
type précédent sont fondés sur des schémas du type prédicteur-correcteur, utilisant l’information d’inno-
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 267/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
248
vation pour corriger la prédiction de l’état sur la base de l’estimation antérieure. Ce fonctionnement est
illustré par la figure 4-12. On les appelle, pour cette raison, des filtres d’innovation.
Le principe du filtrage de Kalman q -1
[ANDERSON 1979], [H AYKIN 1996],
consiste à se placer dans une modélisa-
tion probabiliste des incertitudes de
modélisation et des bruits de mesure Évolution
pour calculer le gain d’innovation. La Mesure
reconstruction de l’état au vu des
mesures est alors un problème d’estima- –
Innovation
Contrôleur
tion bayésienne : on détermine la loi de
probabilité de l’état a posteriori au vu des Gain
mesures disponibles, et l’on choisit Mesure K d’innovation
Équation
l’estimateur des moindres carrés ou celui d’évolution (Prédicteur)
du maximum de vraisemblance (estima- (prédicteur)
+
teur MAP). Il peut cependant être très
difficile à résoudre pratiquement dans le
q -1
cas général. Dans le cas du modèle
linéaire gaussien, il fournit simplement Figure 4-12. Schéma d’un filtre d’innovation. Le filtre d’innovation
un algorithme de filtrage récursif qui est du type prédicteur-correcteur : la correction est apportée au filtre
coïncide avec celui du filtrage optimal du par l’information de mesure en provenance du dispositif réel. Le filtre
paragraphe précédent. Cela provient de est récursif et l’estimation est réinjectée dans le filtre, ce qui pose le
problème de la stabilité du filtre.
la propriété fondamentale suivante, bien
connue en calcul des probabilités.
Propriété fondamentale
La loi conditionnelle d’un vecteur gaussien par une statistique linéaire est gaussienne. Donc, l’estima-
teur MAP coïncide avec l’estimateur des moindres carrés et avec la régression linéaire.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 268/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
249
CHAPITRE 4
Pour obtenir cette régression linéaire, nous allons décomposer le vecteur Y(k + 1) des mesures disponi-
bles au temps k + 1 en la somme de deux vecteurs aléatoires décorrélés : le vecteur Y(k) des mesures
disponibles au temps k et le résidu de la régression de Y(k + 1) sur ce vecteur. La régression linéaire cher-
chée est alors la somme des deux régressions linéaires sur les deux termes de cette somme (théorème de
la projection orthogonale). Calculons donc la régression de la dernière mesureY(k + 1) sur le vecteur Y(k)
des mesures précédentes.
On a :
Y(k + 1) = HX(k + 1) + W(k + 1) = HAX(k) + HBu(k) + HV(k + 1) + W(k + 1).
Comme HAX(k) est le seul terme de la somme qui dépende du passé, la régression cherchée est HAX̂ (k)
+ HBu(k) où l’estimateur optimal X̂ (k) est, par définition, la régression linéaire de l’état aléatoire X(k)
sur le vecteur aléatoire des mesures accumulées jusqu’à l’instantk : Y(k) =[Y(1) …; Y(k)].
Le résidu de la régression deY(k + 1) sur Y(k) est donc :
Y(k + 1) – HA X̂ (k) – HBu(k) = HA[X(k) – X̂ (k)] + HV(k + 1) + W(k + 1).
On retrouve précisément l’expression de l’innovation apparue au paragraphe précédent dans la formula-
tion déterministe et variationnelle de la reconstruction de l’état en fonction des mesures. On notera désor-
mais l’innovation au temps k+1 par
(k X̂
J+ 1) = Y(k+1) – HA k + (k1) –estHBu
une(kvariable
) aléatoire indépendante de Y(k).
l’innovation au temps
L’estimateur de l’état au temps k+1 peut donc se décomposer en la somme de deux termes :
• un terme de prédiction qui dépend des mesures disponibles à l’instant k
A X̂ (k) + Bu(k) ;
• un terme de correction qui est le terme ϑ(k + 1) dépendant linéairement de l’innovation au temps k + 1,
que l’on peut donc écrire
Kk+1ϑ(k + 1) = K k+1 [Y(k + 1) – HAX(k) – HBu(k)]
où Kk+1 est appelé le gain de Kalman du filtre au temps k + 1.La définition du filtre est donc récursive et
s’écrit
X̂ (k + 1) = A X̂ (k) + Bu(k) + K k+1ϑ(k + 1).
On retrouve la forme précédente du filtrage optimal par innovation. Le gain de Kalman est le coefficient
matriciel de la régression linéaire de l’état X(k + 1) au temps k + 1 sur l’innovation. Ce coefficient est
connu (la régression linéaire est rappelée au chapitre 2) et s’obtient à partir des matrices de covariance et
de variance :
Kk+1 = Cov[X(k + 1), J(k + 1)] Var[J (k + 1)] -1.
Pour calculer le gain de Kalman, il est donc nécessaire de calculer la dynamique des erreurs. Ce calcul est
effectué en complément. On en expose ci-après les résultats :
Si on note P k la matrice de variance-covariance de l’erreur d’estimation X(k) – X̂ (k) et P°
k+1 la matrice de
variance-covariance de l’erreur de prédiction X(k+1) – AX̂ (k) – Bu(k), le gain de Kalman est donné par
la formule suivante
Kk+1 = P°k+1HT [HP°k+1H T + R]-1
où la dynamique des matrices Pk et P°k+1 est définie par les équations suivantes, appelées équations de
propagation de la covariance:
P°k+1 = A P k AT + Q
Pk+1 = (I - Kk+1H) (AP k AT + Q) (I – Kk+1 H) T + Kk+1RKk+1T.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 269/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
250
Ainsi l’évolution des matrices de variance-covariance de l’erreur est-elle fixée une fois pour toutes par le
modèle et l’erreur initiale. Ces matrices peuvent être précalculées avant le déroulement du processus,
ainsi que la suite des gains de Kalman. Cette propriété est fort intéressante dans la pratique et elle est
utilisée dans les applications embarquées du filtrage de Kalman.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 270/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
251
CHAPITRE 4
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 271/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
252
problèmes d’identification. Dans le paragraphe suivant, nous allons aborder cette application à l’aide
d’une méthode d’extension d’état.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 272/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
253
CHAPITRE 4
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 273/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
254
en ensembles supposés décorrélés (par exemple, les poids afférents à un même neurone). La matrice de
covariance garde alors une structure en blocs qui simplifie sa mise à jour et son inversion approchée
[PUSKORIUS 1994], [HAYKIN 1999].
La méthode du filtre de Kalman est encore peu utilisée en pratique à cause de la complexité relative de sa
mise en œuvre. Elle ouvre néanmoins des perspectives très intéressantes, dans la mesure où il s’agit d’une
méthode du second ordre qui est naturellement adaptative, contrairement aux autres méthodes du second
ordre utilisées communément pour accélérer l’apprentissage. Le caractère qui semble arbitraire des
matrices de covariance, peut permettre d’injecter une forme de connaissance empirique sur les perturba-
tions et les bruits du système qu’on cherche à modéliser, et ainsi de régler les capacités de poursuite du
processus de modélisation. Cette méthode est appliquée à la commande par réseaux de neurones, que
nous décrirons plus précisément à la fin du chapitre suivant.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 274/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
255
CHAPITRE 4
ouverte. Nous allons voir dans le paragraphe suivant qu’il est également possible de modéliser, par une
combinaison de réseaux de neurones, un système commandé en boucle fermée.
Rappel
Pour qu’un réseau de neurones bouclé soit causal, il faut que tout cycle dans le graphe du réseau
possède un retard non nul.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 275/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
256
Nous avons vu également, dans le chapitre 2, plusieurs exemples de réseaux de neurones bouclés, de
structures plus ou moins complexes. Nous présentons ici deux types de réseaux bouclés particuliers,
d’intérêt plus historique que pratique.
Réseau de Elman
Le réseau de Elman est un réseau de Sorties g (k)
neurones à couches, proposé à l’ori-
gine, comme beaucoup de structures
particulières de réseaux récurrents à la
fin des années 1980, pour modéliser
des phénomènes de contexte dans les
applications des réseaux de neurones à x(k+1)
.....
l’analyse linguistique [ELMAN 1990].
q -
1
La particularité d’un contexte relative-
ment à la modélisation d’état d’un
.....
système physique est que ce contexte
n’a aucune raison d’être connu, voire Entrées externes u(k)
d’être déterminé par une loi physique
donnée (équation différentielle, prin- Entrées d’état x (k)
cipe variationnel…) dont il faut identi- Figure 4-16. Réseau de Elman appliqué à la modélisation d’un système
fier les paramètres. Les modèles de dynamique.
Markov cachés se révélaient efficaces
malgré leur complexité dans les
problèmes d’analyse de la parole. Le modèle de réseau de Elman se rattache à ces idées : il a comme parti-
cularité de proposer de représenter le contexte (ou l’état du système) dans une couche cachée du réseau.
En effet, il est inutile de le présenter à la sortie du réseau puisqu’on sera dans l’incapacité de la comparer
à une mesure. La figure 4-16 montre un schéma du réseau récurrent de Elman.
Définition
Le réseau de Elman est un réseau à une couche de neurones cachés dont la sortie constitue l’état :
l’ordre du modèle est donc égal au nombre de neurones cachés. Les entrées d’état (appelées « unités
de contexte » par Elman) sont donc les sorties des neurones cachés à l’instant précédent. La sortie du
réseau à un instant donné est donc une fonction non linéaire de l’entrée externe et de la sortie des
neurones cachés à l’instant précédent.
On distingue bien dans le réseau de Elman les composantes essentielles d’un système dynamique
observé : les entrées qui sont associées à la commande d’un système, les unités de contexte associées à
l’état du système et les unités de sortie associées à la mesure de l’état. L’association effectuée entre la
couche d’entrée et la couche cachée correspond à l’équation d’évolution d’un système dynamique
commandé qui associe à l’état et aux entrées du système l’état au temps suivant.
Réseau de Hopfield
Les réseaux de Hopfield ont joué un rôle historique important pendant quelques années, à partir de 1982.
Motivés par les progrès de la physique statistique des milieux désordonnés et leur application aux
systèmes complexes, Hopfield propose en 1982 [HOPFIELD 1982] un réseau neuronal en rupture délibérée
avec le perceptron (qui est étudié en détail dans le chapitre6 de cet ouvrage). Il insiste sur le caractère
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 276/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
257
CHAPITRE 4
dynamique des réseaux de neurones naturels provoqué par la récurrence des connexions. Un réseau
neuronal récurrent est un système dynamique ; il a donc des attracteurs qui sont des états d’équilibre.
Un réseau de Hopfield est constitué de neurones binaires, c’est-à-dire de neurones dont la fonction d’acti-
vation est un échelon : la sortie y d’un neurone est donnée par la relation :
y= H Σw x
j
ij j où H(x) = 1 si Σ w x ≥ 0 et H(x) = 0 sinon,
j
ij j
et où les x j sont les entrées du neurone i, c’est-à-dire les sorties des autres neurones du réseau. Ainsi,
chaque neurone porte une information binaire, et l’état du réseau, c’est-à-dire le vecteur constitué des
sorties des neurones, constitue un vecteur binaire qui peut être considéré comme le code d’une informa-
tion.
Il faut noter tout d’abord qu’un réseau de Hopfield est dépourvu
d’entrées externes : son comportement est autonome, dicté unique-
ment par sa dynamique propre. Pour assurer qu’un tel réseau est
stable (c’est-à-dire que, quel que soit son état initial, il évolue jusqu’à
ce qu’il ait atteint un état d’équilibre, indépendant du temps), et pour
calculer facilement ces états d’équilibre, Hopfield introduit une règle
qui n’a rien de biologique : la symétrie des connexions. Les
connexions sont symétriques : le poids wji de la connexion reliant le
neuronei au neurone j est égal au poids wij de la connexion qui relie
le neuronej au neurone i ; de plus, à chaque connexion est associé un
retard égal à une unité de temps. La figure 4-17 est le schéma d’un
réseau de Hopfield à six neurones binaires, avec des connexions
complètes et symétriques (les symbolesq-1 représentant le retard unité Figure 4-17. Réseau de Hopfield
de chaque connexion ont été omis). Pour Hopfield, ces états d’équi- complètement connecté à connexions
libre correspondent à des codes d’information, et le processus dyna- symétriques (pour simplifier la figure,
mique allant d’un état initial à un état d’équilibre est interprété comme les retards unités associés à chaque
le processus de rappel d’une mémoire associative : l’état initial peut connexion ont été omis).
être le code binaire d’une information incomplète ou partiellement
erronée, et l’état final est le code binaire de l’information exacte.
L’apprentissage du réseau consiste alors à calculer les paramètres du réseau de telle manière que les codes
des informations que l’on souhaite mémoriser soient des états stables du réseau. Pour cela, Hopfield
propose que la matrice des connexions soit la matrice de corrélation du codage des mémoires. Plus préci-
sément, supposons que le réseau comporte N neurones. Les informations que l’on veut coder sont au
nombre de p, représentées par des vecteurs xi = (ξij ). La matrice des poids est notée w = (wjl ) avec
p
wjl = 1 ∑ ξijξ li si j ≠ l et w jj =0. On remarque que la matrice de connexion est bien symétrique. Cette
p i =1
règle d’apprentissage est une version très simpliste de la règle de Hebb, proposée pour rendre compte de
certains phénomènes d’apprentissage dans les systèmes biologiques. D’autres règles d’apprentissage,
sans aucune vraisemblance biologique, ont permis de garantir que tout ensemble donné de vecteurs en
nombre inférieur à N/2) (ou tout ensemble de séquences d’états) peut être mémorisé comme un point fixe
(ou comme un cycle) de la dynamique du réseau.
En conclusion, vingt ans après leur invention, on peut faire un bilan actuel des réseaux de Hopfield :
• En tant que modèle du fonctionnement biologique, le modèle de Hopfield a l’avantage de mettre en
lumière, après d’autres modèles plus anciens mais moins connus, le rôle de la dynamique dans les fonc-
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 277/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
258
tions cognitives des réseaux de neurones et le lien établi par la règle de Hebb entre apprentissage et
corrélation. Des modèles plus « biologiquement plausibles » lui ont succédé, qui intègrent des
propriétés nouvelles : codage temporel de l’information par les « potentiels d’action » (spikes), carac-
tère dilué et hétérogène des connexions qui excluent toute idée de symétrie des poids synaptiques
malgré la règle de Hebb. Ces propriétés nouvelles excluent tout prolongement direct des méthodes
employées par Hopfield malgré la richesse des innovations conceptuelles qu’on a citées.
• En tant que prototype de mémoires associatives, et malgré le développement, dans les années 1980, de
nouvelles variantes (réseaux de Hopfield de champ moyen à fonctions d’activation continues, réseaux
de Hopfield stochastiques et machines de Boltzmann), et la publication d’une littérature considérable,
les performances faibles des réseaux de Hopfield ont entraîné, à juste titre, l’abandon des recherches à
leur sujet, notamment celles qui concernent leur applications potentielles en reconnaissance des formes
et à la correction d’erreurs. Les réseaux de neurones qui font l’objet de l’essentiel de ce livre sont beau-
coup plus efficaces, et ont une bien plus grande richesse de comportement, que les réseaux de Hopfield.
• On a rapproché assez vite le modèle de Hopfield de l’algorithme derecuit simulé mis au point à la même
époque par Kirkpatrick, Gelatt et Vecchi [KIRKPATRICK 1983]. Ce rapprochement est à l’origine d’une
importante branche de recherche, l’application des réseaux de neurones à l’optimisation, traitée au
chapitre 8 de ce livre.
Rappel
Tout réseau de neurones bouclé, aussi complexe soit-il, peut être mis sous une forme d’état minimale,
dite « forme canonique », à laquelle les algorithmes décrits dans les paragraphes précédents s’appli-
quent directement.
Le paragraphe intitulé « Mise sous forme canonique des modèles dynamiques » du chapitre 2, ainsi que les
compléments de ce dernier sont consacrés à ce problème ; plusieurs exemples illustratifs y sont présentés.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 278/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
259
CHAPITRE 4
être infinie. En toute rigueur, pour effectuer le calcul du gradient de la fonction de coût, il faudrait, pour
chaque instance de la base d’exemples et pour chaque étape d’apprentissage, effectuer le calcul sur tout
l’horizon de prédiction, calculer la correction du réseau et recommencer. L’apprentissage des réseaux
bouclés sans modification par rapport aux réseaux classiques serait donc une procédure très lourde, très
gourmande en temps de calcul et en espace mémoire ; de plus il serait impossible de la mettre en œuvre
dans toutes les applications où le temps réel est requis, et où le retour en arrière et la reproduction de
conditions expérimentales exactes sont impossibles. Dès que les architectures neuronales récurrentes ont
été appliquées à l’identification et au contrôle de systèmes dynamiques, le problème de l’apprentissage a
reçu plusieurs solutions approchées, notamment dans l’article fondamental de [WILLIAMS 1989].
Dans le cas où l’état du système que l’on veut identifier est complètement connu par mesure à chaque
instant, il n’y a pas en réalité de difficulté particulière : on peut mettre en œuvre un « algorithme dirigé »
(teacher forcing), dans lequel les entrées d’état du réseau reçoivent les sorties du processus. Rappelons
que, comme nous l’avons indiqué dans le chapitre 2, cette technique ne doit être mise en œuvre que dans
le cas où le système à modéliser présente un bruit d’état ; nous avons montré théoriquement, et démontré
expérimentalement, qu’elle peut donner de très mauvais résultats pour modéliser un processus ayant un
bruit de sortie (ou bruit de mesure).
Dans le cas général où la connaissance que l’on a de l’état réel du système à un instant donné est incom-
plète ou corrompue par un bruit de mesure, il faut en pratique choisir entre deux approximations :
• soit calculer le gradient effectif par rapport aux poids courants mais en tronquant la période de calcul et
en la limitant à une fenêtre glissante de petite taille (rétro-propagation à travers le temps) ;
• soit approcher le gradient des états antérieurs par rapport aux poids courants par la valeur de ces
gradients par rapport aux anciens poids (algorithme RTRL).
Nous allons maintenant exposer ces méthodes plus en détail.
dirigé d’un - - -
réseau bouclé.
…tat prédit
…tat prédit
…tat prédit
…tat prédit
Entrées d'état
Entrées d'état
mesurées
mesurées
mesurées
mesurées
de la forme canoni que
de la forme canoniq ue
de la forme canoni que
de commande
de commande
de commande
Entrée
Entrée
Entrée
Entrée
Dans la méthode dite de l’apprentissage dirigé (teacher forcing), toutes les entrées de la forme canonique
du réseau sont connues pendant l’apprentissage, puisque ce sont les quantités (sorties ou variables d’état)
qui sont mesurées sur le processus. La métaphore à l’origine de la dénomination de cet algorithme pitto-
resque est que « le professeur rectifie le comportement de l’élève à chaque instant au lieu d’observer son
comportement pendant une certaine durée avant de le rectifier ». L’ingénieur, quant à lui, dit simplement
que le modèle est « calé » à chaque instant sur les données expérimentales. L’apprentissage du réseau se
résume donc à une régression non linéaire de la sortie du réseau sur son entrée (NARX) comme on l’a vu
dans la section « Identification de systèmes dynamiques commandés par régression » de ce chapitre, ainsi
que dans le chapitre 2. Le schéma de cet apprentissage est présenté dans la figure 4-18.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 279/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
260
On utilise pour l’apprentissage une trajectoire dans l’espace des états (ensemble de N couples entrée-état).
Les états intermédiaires (temps k) sont utilisés à la fois comme sortie pour évaluer les performances du
réseau calculant l’évolution du temps k – 1 au temps k, et comme entrée pour calculer l’évolution du
temps k au temps k + 1. La pratique de cette méthode simple exige que l’entrée du réseau à chaque étape
de temps soit connue et donc interdit son application directe dans le cas général de système dynamique
mesuré commandé.
Figure 4-19.
Processus Processus
D épliement Processus Processus
temporel de la Sortie Sortie Sortie Sortie
mesurée + mesurée
forme cano- mesurée + mesurée +
+
nique d’un - - - -
réseau bouclé
prédite
prédite
prédite
prédite
Sortie
Sortie
Sortie
Sortie
de la f orme canonir q ue
de la f orme canonir q ue
sur toute la
de la f orme canonir q ue
de la forme canonirq ue
longueur de la
séquence
Entrée de
commande
Entrée de
Entrée de
Entrée de
commande
commande
commande
d’apprentissage.
Si les séquences d’apprentissage sont longues, ou si l’on désire effectuer un apprentissage adaptatif
(c’est-à-dire un apprentissage qui se poursuit continuellement durant le fonctionnement du réseau), on ne
peut pas utiliser l’ensemble des données à partir de l’instant initial, car le temps de calcul augmenterait
indéfiniment. On est alors conduit à tronquer les séquences d’apprentissage, c’est-à-dire à ne prendre en
considération, à chaque étape de l’apprentissage, qu’un horizon limité dans le passé à un nombre fini p
d’instants. Ainsi, à l’instant n, on ne prend en considération que les instants n – p + 1 à n. Cela conduit à
introduire un changement de notation : nous désignerons désormais par k le numéro de la copie par
rapport à l’origine de l’horizon considéré à l’étape n ; k varie donc dorénavant de 1 à p. Le schéma
d’apprentissage est exactement le même que celui qui est représenté sur la figure 4-19, avec néanmoins
les différences suivantes :
• la séquence ne s’étend pas sur n instants, mais sur p instants ;
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 280/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
261
CHAPITRE 4
• les entrées d’état au premier de ces p instants peuvent être fixées de deux manières différentes :
– si l’état du processus est mesuré, on peut affecter à ces entrées les valeurs mesurées sur le processus :
l’algorithme est alors semi-dirigé ;
– si l’état du processus n’est pas mesuré, on doit affecter à ces entrées la dernière valeur calculée de la
copie correspondante (c’est-à-dire celle qui a été calculée lors des calculs qui ont été effectués à
l’étape n – 1 de l’apprentissage) : l’algorithme est alors dit non dirigé, puisque l’état mesuré du pro-
cessus n’est jamais pris en considération durant l’apprentissage. Dans ce dernier cas, cette affectation
intégrant récursivement les informations de tout le passé jusqu’au temps n – p + 1 et ayant été révisée
par p étapes précédentes peut être considérée comme fiable. Cependant, elle introduit à la fois une
cause d’erreur et un risque d’instabilité. On peut montrer [LION 2000] en introduisant une projection
et en utilisant la théorie de l’approximation stochastique que cette approximation est contrôlée et
n’entrave pas la convergence du système vers un minimum (local puisqu’on est dans un cadre non
linéaire et non nécessairement convexe).
Il y a donc ici deux indices temporels à ne pas confondre, celui de l’étape d’apprentissage notén et celui
de l’étape de temps dans le réseau déplié à l’étape n, noté k avec 1 ≤ k ≤ p. Une copie du réseau est carac-
térisée par les deux fonctions de transfertg et h qui déterminent respectivement l’état et la sortie du réseau
à l’étape k (voir mise sous forme canonique) en fonction de l’état du réseau, de son entrée et de ses para-
mètres de configuration à l’étape précédente. On va détailler les opérations nécessaires pour calculer le
gradient par rétropropagation à travers le temps pendant l’étape d’apprentissage n + 1. Tous les paramè-
tres de configuration du réseau pris à leur valeur courante sont stockés dans le vecteurw.
Pour la n-ième étape d’apprentissage, on va utiliser le vecteur des données d’entrée de composantes
k–1
u n + 1 = u n–p+k, pour k variant de 1 à p,
et celui des données de sortie de composantes
ψkn + 1 = y n–p+k+1 , pour k variant de 1 à p.
Si on est dans la situation où l’état du réseau n’est pas mesuré en apprentissage non dirigé, on choisit
comme état initial du réseau déplié à l’étape d’apprentissagen + 1 l’estimation de l’état obtenu à l’étape
précédente
0 1
x n + 1 = x̂n – p + 1 = xn .
À l’étape d’apprentissage n + 1, on va effectuer à travers le réseau déplié, configuré à l’étape d’apprentis-
sage précédente, les opérations suivantes :
• calcul de l’état et de la sortie pour k variant de 1 à p,
k k–1 k–1
x n + 1 = g ( u n + 1, x n + 1 , w )
k k–1 k–1
y n + 1 = h (u n + 1, x n + 1 , w )
• comparaison avec les sorties désirées pourk variant de 1 à p,
k k k
ε n + 1 = ψn + 1 – y n + 1
• calcul du réseau déplié adjoint obtenu en inversant le sens de propagation des signaux, en remplaçant les
nœuds par des additionneurs et les fonctions d’activation non linéaires par leurs dérivées, rétropropaga-
tion de l’erreur à travers le réseau adjoint déplié, pourk variant de 1 à p,
k–1
ξn + 1 = g * (ε kn + 1 , ξ kn + 1 , w )
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 281/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
262
Calcul du gradient
Ce résultat a été démontré dans le chapitre 2, dans le paragraphe consacré à la technique des poids
partagés.
Remarque
Le lecteur qui désirerait programmer lui-même un des algorithmes sus mentionnés trouvera, présentées de manière synthétique, toutes les
formules nécessaires dans le chapitre 3 de la thèse de Yacine Oussar « Réseaux d’ondelettes et réseaux de neurones pour la modélisation
statique et dynamique de processus », pages 64 à 69 (modèles entrée-sortie) et 72 à 81 (modèles d’état). Cette thèse est disponible en version
pdf à l’URL http://www.neurones.espci.fr. Une discussion technique très complète, qu’il serait trop long de reproduire ici, y est présentée.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 282/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
263
CHAPITRE 4
n+ 1 n+ 1
On cherche à calculer en w(n) le gradient de l’applicationΨ 1 qui à w associe y =Ψ 1 (w) par la suite
de calculs (à partir d’une donnée initiale déterminéex(0)) :
Pour k variant de 0 à n, x(k+1) = g[u(k), x(k), w]
et y = h[u(n), x(n), w]
au lieu du calcul :
x(n) = g[u(n-1), x(n-1), w(n)]
et avec une trajectoire d’états différente qui est calculée en temps réel avec une trajectoire de poidsw(k)
au lieu d’être recalculée avec une configuration constantew(n).
L’idée est de mettre à jour une approximation notée ∇ˆ w Φ 1 de∇ Φ [w(n)] par la formule récursive
n n
w 1
n n–1
∇ˆ wΦ 1 = ∇ g [u(n – 1), x(n – 1), w(n – 1)] .∇ˆ w Φ1
Cette approximation peut être justifiée mathématiquement par l’approximation stochastique dans le cadre
de la théorie des chaînes de Markov contrôlées [BENVENISTE 1987] sous des hypothèses que nous ne
détaillerons pas.
Remarque
Sur le plan pratique de l’enchaînement des calculs, on remarquera que la méthode d’apprentissage en temps réel n’utilise pas le réseau
adjoint, en effet contrairement à la rétropropagation, on ne se contente pas de calculer la sensibilité ou la part dans l’erreur attribuée à
chaque variable, mais on doit calculer effectivement le gradient. Le calcul se fait donc dans le sens du temps et non pas dans le sens rétro-
grade.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 283/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
264
apprentissage semi-dirigé avec une architecture de complexité comparable, on peut exhiber de nombreux
contre-exemples dans des applications réelles : en effet, il est très fréquent, dans un processus bien conçu,
que le bruit soit essentiellement du bruit de sortie, ce qui nécessite absolument l’utilisation d’un algo-
rithme semi-dirigé ou non dirigé, comme nous l’avons montré sur des exemples dans le chapitre 2. De
plus, de nombreux résultats d’apprentissages dirigés – même publiés dans la littérature internationale – ne
résistent pas à la comparaison avec le « prédicteur stupide », comme nous l’avons indiqué dans le
chapitre 2.
Pour les réseaux non bouclés, les questions qui constituent la méthodologie de conception sont
• la sélection des entrées,
• la sélection du modèle, c’est-à-dire essentiellement la sélection du nombre de neurones constituant la
couche cachée.
Pour les réseaux bouclés, trois questions supplémentaires se posent :
• le choix de la représentation (représentation entrée-sortie ou représentation d’état),
• le choix de l’ordre du modèle,
• dans le cas d’un apprentissage par rétropropagation tronquée : l’horizon de troncature.
Pour le choix de l’ordre, une identification linéaire préalable (où les tests structurels sont mieux maîtrisés)
peut être très utile. La recherche de l’horizon de troncature dans la méthode BPTT est aussi un problème
délicat : en théorie, un dépliement de l’ordre de l’indice rendant observable le modèle est suffisant ; en
pratique, les trop grands ordres de dépliement peuvent alourdir la rétropropagation.
Une des difficultés dans l’apprentissage de réseaux récurrents est la difficulté de capturer des dépendances
temporelles à longue portée quand on remonte dans le temps. Cette difficulté est étudiée dans [BENGIO
1994]. Néanmoins, pour de vraies applications pratiques, on recherche rarement des dépendances tempo-
relles très longues, car les processus que l’on cherche à modéliser sont eux-mêmes rarement stables sur de
très longues périodes : il existe des dérives lentes qui nécessitent de refaire un « calage » périodique du
modèle à l’aide des méthodes adaptatives développées dans ce chapitre. En cas de grande difficulté, l’utili-
sation de procédures d’apprentissage évolutives et guidées, augmentant progressivement la profondeur
temporelle de l’apprentissage, et de méthodes d’optimisation robustes, peuvent permettre de surmonter ces
problèmes.La solution efficace pour des applications non académiques consiste à mettre en œuvre la tech-
nique de modélisation « boîte grise » que nous avons présentée au chapitre 2, ce qui permet de mettre à
profit toutes les connaissances disponibles sur le processus à modéliser, notamment la forme mathématique
des équations du modèle, son ordre, etc. On réduit ainsi le nombre de degrés de liberté dont dispose le
concepteur, qui peut ainsi concentrer son attention sur un nombre réduit de problèmes.
Bien entendu, les pré-traitements des données, l’apprentissage par des méthodes non linéaires des résidus
d’analyse par des méthodes linéaires, permettent souvent, en découplant les difficultés, d’améliorer la
précision des méthodes non linéaires d’identification.
Les réseaux de neurones bouclés peuvent aussi être utilisés dans la synthèse de contrôleurs, comme nous
allons le voir dans le chapitre suivant.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 284/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
265
CHAPITRE 4
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 285/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
266
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 286/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Identification « neuronale » .html
267
CHAPITRE 4
l’entrée commande du modèle interne. Cette règle est d’autant plus importante que, dans ce cas, les
entrées sont destinées à évoluer avec le temps.
Remarque
Il faudra d’ailleurs distinguer dans ce cas la représentation du temps (un pas de temps pour la simulation de l’ensemble du réseau
composé du modèle de contrôleur et du modèle interne) de celle des étapes de mise à jour des différentes couches du réseau total à l’inté-
rieur d’un pas de temps de l’algorithme.
Examinons maintenant les cas (c) et (d) de la figure 4-16. Les schémas représentent l’architecture d’un
réseau récurrent. Cette architecture est identique relativement aux caractéristiques statiques, et différente
par l’adjonction d’un opérateur retard dans le cas (d). Au temps 2, l’état de l’unité 3 est différent dans les
cas (c) et (d), dépendant dans le cas (c) des états initiaux des unités 2 et 4, et dans le cas (d) des unités 2
et 1. Cette différence se propage au temps suivant à l’état de l’unité 4 puis à l’état de l’unité 1 et ainsi de
suite, en introduisant à chaque cycle des différences supplémentaires.
Remarque
L’état des unités des réseaux récurrents ne se stabilise pas en général même si le réseau est soumis à des entrées statiques. La
dynamique de cet état dépend fortement de la distribution des retards et de l’ordre de mise à jour des unités du réseau.
Bibliographie
Une bibliographie commune aux chapitres 4 et 5 est donnée en fin de chapitre 5 (p. 255).
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 287/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 288/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
5
Apprentissage d’une commande
en boucle fermée
Le chapitre précédent était consacré à la modélisation, par apprentissage (notamment par apprentissage
de réseaux de neurones), des systèmes dynamiques commandés ; le présent chapitre prolonge cet exposé,
en abordant le problème de la synthèse, par apprentissage, d’un système de commande en boucle fermée.
La commande non linéaire est une discipline en plein essor depuis une vingtaine d’années, sans que l’on
puisse dire qu’il existe un corpus unifié et synthétique des méthodes employées, comparable à celui dont
on dispose pour la commande linéaire. On compte au contraire pléthore de méthodes ; certaines études
sont très théoriques et établissent des théorèmes de commandabilité, d’existence d’une commande stabi-
lisante, de validité des techniques de linéarisation, qu’il ne peut être question d’évoquer complètement
dans le cadre de cet ouvrage.
Nous rappellerons cependant certains éléments de la théorie de la commande, en insistant sur le rapport entre
système linéaire et non linéaire, dans la section suivante. En effet, comme c’est souvent le cas pour l’utilisa-
tion des réseaux de neurones dans les sciences de l’ingénieur, les techniques de commande « neuronale »
prolongent les techniques classiques de l’automatique non linéaire en les appliquant à un modèle du système
précédemment identifié par apprentissage. Ces techniques sont exposées dans la section « Synthèse d’une
commande ‘neuronale’par inversion du modèle du processus », où l’on aborde successivement l’inversion
directe – simple mais souvent inefficace –, la méthode du modèle de référence la plus couramment
employée, et l’utilisation des réseaux récurrents d’une pratique plus délicate. Les sections suivantes sont
consacrées à l’exposé des problèmes de décision optimale dans le cadre classique de la programmation
dynamique (section « Programmation dynamique et commande optimale »), puis à sa contrepartie en théorie
de l’apprentissage (section « Apprentissage par renforcement et programmation neuro-dynamique »). Les
techniques exposées ont été découvertes antérieurement à l’utilisation des réseaux de neurones, dans le cas
des espaces d’états discret, sous le nom d’apprentissage « par renforcement ». L’utilisation de l’apprentis-
sage neuronal pour trouver de bonnes approximations a permis d’étendre le champ d’application de ces
méthodes en évitant l’explosion combinatoire qui limite trop souvent l’emploi de l’apprentissage par renfor-
cement classique. Cet ensemble de techniques plus modernes, sur l’exposé duquel s’achève ce chapitre, a
reçu récemment le nom de « programmation neuro-dynamique ».
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 289/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
270
signal de commande à l’état du système. Cette opération est effectuée en construisant un système de
commande, ou correcteur, ou encore contrôleur, c’est-à-dire un dispositif qui, prenant en entrée l’état du
processus que l’on cherche à commander (ou plus généralement la sortie du processus si l’état de celui-ci
n’est pas complètement connu), lui associe la valeur du signal de commande à appliquer au système à
l’instant suivant. Considérons un système dynamique commandé tel qu’il est défini dans le chapitre 4 :
x(k + 1)=f[x(k), u(k)]
où x(k) est le vecteur d’état du modèle à l’instant k, et u(k) est le vecteur des signaux de commande à l’instant
k. Le système de commande calcule la valeur de la commande à partir de l’état selon une fonctionψ :
u(k) = ψ [x(k)].
Cette fonction est appelée la loi de commande.
L’objectif le plus simple assigné à un système de commande consiste à maintenir le processus dans un état
désiré en dépit des perturbations (on dit que la commande « rejette les perturbations ») : on réalise alors
un « asservissement ». Un autre objectif possible est que la trajectoire d’état du système commandée soit
asservie à une trajectoire d’états désirée : on réalise alors un « système de poursuite » (tracking system).
Dans ces cas qui reviennent dans toutes les applications, l’état désiré au temps courant s’appelle la
consigne et la forme naturelle de la loi de commande est celle d’une fonction de la différence entre l’état
courant et la consigne.
Un tel dispositif de commande en boucle fermée est Consigne
schématisé dans la figure 5-1. (objectif désiré)
Commandabilité
La commande du système ne permet pas toujours d’atteindre l’objectif souhaité. La propriété, pour le
système commandé, de pouvoir atteindre l’objectif souhaité s’appelle la commandabilité. Même les
modèles les plus simples de systèmes dynamiques commandés, comme les modèles linéaires, ne
possèdent pas nécessairement la propriété de commandabilité quand leur ordre est supérieur à 1 (rappe-
lons que l’ordre est la dimension du vecteur d’état).
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 290/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
271
CHAPITRE 5
Il n’est pas commandable : aucune commande ne peut changer la deuxième composante de l’état. En
revanche, il est facile de montrer directement que le système linéaire suivant
⎛ ⎞ ⎛ ⎞
x(k + 1) = ⎜ 1 1 ⎟x(k) + ⎜ 0 ⎟u(k)
⎝0 1 ⎠ ⎝1 ⎠
est commandable.
Les propriétés de commandabilité sont assez faciles à écrire pour un système linéaire, où, pour pouvoir
atteindre un objectif donné à partir de n’importe quel état, il suffit d’atteindre l’objectif 0 [K WAKERNAAK
et al. 1972].
Quand l’état n’est pas complètement observé, il faut d’abord reconstruire l’état par filtrage avant de le
commander. On montre que l’observabilité et la commandabilité du système complètement observé est une
condition suffisante de commandabilité du système partiellement observé [KWAKERNAAK et al. 1972]. Les
conditions de commandabilité sont plus difficiles à formuler pour un système non linéaire ; elles font appel
à des techniques algébriques plus complexes dont l’énoncé dépasse le cadre de cet ouvrage.
Dans les systèmes réels, une commande d’amplitude arbitraire ne peut être réalisée. Des contraintes sont
formulées sur l’ensemble des commandes effectivement réalisables et définissent l’ensemble des
commandes admissibles. De telles contraintes, imposées par des considérations techniques souvent
incontournables, bornent en général l’ensemble des commandes admissibles, si bien que, en pratique, les
lois de commande établies par les méthodes linéaires ne peuvent s’appliquer directement sans
précaution : des phénomènes de saturation des commandes peuvent apparaître.
Définitions
On appelle équilibre de ce système dynamique un état x* tel que f(x* ) = x*. On dit aussi que x* est un
point fixe de f.
Un équilibre x * est dit stable si "e, $h, x ( 0 ) – x* ≤ η ⇒ "k, x ( k ) – x*≤ ε
Un équilibre x* est dit asymptotiquement stable, de bassin d’attraction Ω, si pour toute condition
initiale dans Ω , la trajectoire d’état issue de cette condition initiale tend vers l’équilibre x*.
La stabilité des systèmes linéaires x(k + 1) = A.x(k) se déduit facilement des propriétés spectrales de la
matrice A. Le point 0 est un équilibre du système linéaire. Si les valeurs propres de A sont strictement
incluses dans le disque unité ouvert, l’équilibre 0 est stable et asymptotiquement stable. Si une valeur
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 291/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
272
propre est de module supérieur à 1, l’équilibre 0 n’est ni stable ni asymptotiquement stable. Le cas
critique des valeurs propres de module 1 nécessite une analyse particulière.
Cette caractérisation simple des systèmes dynamiques linéaires est à la base de la méthodologie de
synthèse des lois de commande des systèmes dynamiques linéaires par placement des pôles des fonctions
de transfert [KWAKERNAAK et al. 1972]. Cette méthodologie est, depuis le début de l’automatique, à la
base de cette discipline dans ses applications les plus courantes. Popularisée d’abord dans le cadre des
systèmes à une variable par une utilisation intensive de la transformation de Laplace, elle a été étendue
aux systèmes multivariables. Si ces techniques de l’automatique sont bonnes à connaître, pour celui qui
veut mettre en œuvre des systèmes de commande à base de réseaux de neurones, elles ne sont pas direc-
tement transposables aux systèmes non linéaires. Nous ne les mentionnons ici que pour mémoire.
Dans le cas asymptotiquement stable, la stabilité des équilibres des systèmes non linéaires se déduit de la
stabilité du système dynamique linéarisé. Si x * est un équilibre du système dynamique x(k + 1) = f[x(k)],
on appelle « système dynamique linéarisé en x* », le système dynamique, linéaire au point fixe x*,
d’équation : x(k + 1) = ∇ f x * [x(k) – x *] + x*, où ∇ f x* est la matrice des dérivées partielles de f en x *. On
a alors le résultat fondamental suivant :
Théorème de linéarisation
Avec la linéarisation, les fonctions de transfert du système linéarisé deviennent un outil usuel d’analyse et
de synthèse des lois de commande des systèmes non linéaires [SLOTINE et al. 1991]. Plus précisément, un
théorème de linéarisation des systèmes dynamiques commandés permet d’affirmer que, dans le cas où le
système linéarisé est commandable, la loi de commande du système linéarisé, introduite en boucle fermée
dans le système non linéaire, permet de stabiliser localement ce système [SONTAG 1990].
La méthode de la fonction de Liapounov [SLOTINE et al. 1991], directement inspirée de l’étude de la stabi-
lité des systèmes dissipatifs en physique, offre une méthode générale d’étude de la stabilité des équilibres
des systèmes dynamiques non linéaires.
Malgré l’important théorème de linéarisation que l’on vient d’énoncer, les difficultés d’étude de la stabi-
lité des systèmes non linéaires restent nombreuses :
• il peut exister plusieurs équilibres dont les stabilités sont différentes : le théorème de linéarisation est un théo-
rème local, qui ne dit rien sur la taille des bassins d’attraction des équilibres asymptotiquement stables ;
• il peut exister des attracteurs dynamiques, conférant au système une stabilité globale même s’il n’existe
aucun équilibre stable : l’exemple le plus simple de tels attracteurs est le cycle limite stable, tel qu’il
existe dans l’oscillateur de Van der Pol décrit dans le chapitre précédent.
L’introduction de bruit dans les équations change la nature de l’étude de la stabilité des systèmes. On a vu,
dans la section du chapitre précédent consacrée à la modélisation de systèmes dynamiques, que l’équivalent
stochastique d’un système dynamique déterministe mis sous forme d’état est un processus de Markov, et que
l’équivalent stochastique d’un équilibre est la mesure de probabilité invariante (définie dans le chapitre 4) de
ce processus. Dans le cas d’un système linéaire stable perturbé par un bruit d’état gaussien, cette probabilité
décrit la statistique des fluctuations de l’état du processus autour de l’équilibre 0 du système non perturbé.
Dans le cas d’un système non linéaire avec plusieurs équilibres attracteurs, la situation est beaucoup plus
complexe : en effet, il se produit « avec quasi-certitude », aux temps longs, des fluctuations qui font passer
l’état d’un bassin d’attraction déterministe à l’autre. La théorie dite des « grandes déviations » permet de
mesurer ces probabilités de passage ([BENVENISTE et al. 1987], [DUFLO 1996]).
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 292/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
273
CHAPITRE 5
Néanmoins, le but général des systèmes de commande développés dans ce chapitre (et dans la plupart des
applications) étant de ramener l’état sur un équilibre ou de poursuivre une trajectoire de référence, l’étude
des systèmes à plusieurs attracteurs ne nous concerne pas directement.
État mesuré x
Sortie du
modèle – +
(a) sortie RN
(optionnelle)
CONTRÔLEUR Modèle du
processus
Consigne RN Figure 5-2. Principe de
Commande u
l’apprentissage (a) et de
l’utilisation (b) d’une
commande neuronale en
Apprentissage boucle fermée par inversion
du modèle.
État mesuré x
(b)
CONTRÔLEUR Sortie du
Processus processus
Consigne RN Commande u
RN
Dans cette figure, on a adjoint au réseau de neurones qui constitue le modèle du processus un réseau de
neurones qui calcule la loi de commande. Ce réseau est aussi un réseau non bouclé qui a pour entrée l’état
et, d’une façon optionnelle, la consigne désirée (état au temps suivant) dans le cas où l’on souhaite que
cette consigne soit variable. Sinon, le contrôleur admet pour entrée unique l’état du système au tempsk.
La sortie du contrôleur neuronal est la commande au temps k qui, lors de l’apprentissage, est appliquée à
l’entrée de commande du modèle, et qui, lors de l’utilisation, est appliquée à l’entrée du processus.
L’ensemble (contrôleur + modèle) constitue un réseau de neurones non bouclé qui admet pour sortie l’état
au temps suivant. L’apprentissage s’effectue en minimisant la différence entre l’état désiré ou consigne et
la sortie du réseau. Seuls les paramètres du contrôleur (poids et biais) sont variables et modifiés par le
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 293/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
274
processus d’apprentissage. Les paramètres du modèle restent inchangés par le processus d’apprentissage,
ce qui est traduit dans la figure par des hachures de style différent.
La fonction de coût est généralement un écart quadratique entre la sortie désirée et la sortie mesurée. Si
des contraintes sont imposées à la commande, elles peuvent l’être directement dans le réseau contrôleur.
Par exemple, si la commande admissible est bornée, on peut exprimer ces contraintes dans les fonctions
d’activation de la couche de sortie du contrôleur (sigmoïde). On peut aussi exprimer ces contraintes en
introduisant une sortie auxiliaire au niveau du contrôleur, et en rétropropageant une pénalité qui dépend
de la commande produite.
Cette démarche directe ne donne de bons résultats que pour les problèmes simples où l’objectif peut
s’exprimer instantanément en fonction de l’état. Si l’objectif porte sur l’état final ou l’ensemble d’une
trajectoire d’états, la méthode directe ne peut être mise en œuvre. On pourra utiliser le dépliement
temporel de l’ensemble contrôleur + modèle, et l’apprentissage du contrôleur par rétropropagation à
travers le temps. Cette stratégie sera développée dans la suite de cette section. Même dans le cas où l’on
peut construire un objectif portant sur l’état courant, l’apprentissage n’est pas toujours efficace : pendant
l’apprentissage, la rétropropagation à travers le modèle peut fournir au contrôleur un signal d’erreur très
affaibli, insuffisant pour permettre d’atteindre les objectifs assignés au contrôleur.
Par ailleurs, cette méthode n’est évidemment pas robuste par rapport aux erreurs de modélisation : la
commande étant calculée à partir du modèle, elle ne peut pas être précise si le modèle lui-même ne l’est
pas. L’utilisation de la commande avec modèle interne qui sera développée dans la suite de cette section
peut permettre de surmonter l’imprécision de la modélisation.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 294/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
275
CHAPITRE 5
Angle (rad)
supérieure à celle de l’écart d’angle. Le 0.2
système n’est stabilisé que pour un 0
facteur de bruit de commande inférieur à
0,5. Un facteur de bruit supérieur entraîne – 0.2
0 2 4 6 8 10 12 14 16 18 20
généralement une sortie du domaine de Temps (sec)
viabilité dans une durée inférieure à celle
Variations de la vitesse commandée
choisie pour l’expérience (20 secondes). 0.4
La vitesse est stabilisée autour de la
consigne comme le montre la figure 5-3. 0.2
Angle (rad/s)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 295/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
276
Remarque
On utilise toujours implicitement un modèle de référence : dans la commande simple décrite dans le
paragraphe précédent, le modèle de référence se réduit à un simple retard.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 296/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
277
CHAPITRE 5
CONTRÔLEUR
–
– Commande u
Consigne RN Figure 5-8.
Sortie du
modèle interne + Commande avec
+ RN modèle interne.
Modèle du
processsus,
appelé “modèle
interne”
Sortie
du processus
Processus
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 297/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
278
L’apprentissage du contrôleur se fait selon le schéma de la figure 5-5 ; néanmoins, il faut remarquer que
le contrôleur n’a pas pour entrée l’état du processus, mais celui du modèle interne. Il faut donc que
l’apprentissage soit effectué à partir de séquences qui soient bien représentatives du domaine de variation
des variables d’état de ce modèle.
Cette stratégie de commande a permis de nombreuses applications pratiques ; on trouvera une description
détaillée de l’utilisation de cette technique pour le pilotage autonome d’un véhicule dans [RIVALS 1995].
Apprentissage
Modèle de référence
Dans ce cas, le réseau total, constitué de la concaténation du contrôleur neuronal et du modèle interne
admettant comme entrée l’état du système et comme sortie l’état du système au temps suivant, est rendu
récurrent par une boucle de retour d’état. On trouvera des applications concrètes de contrôle prédictif
utilisant des modèles neuronaux dans [GRONDIN 1994], [HENRIQUES et al. 2002], [GIL et al. 2002].
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 298/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
279
CHAPITRE 5
Apprentissage
Modèle de référence
Le problème est rendu plus difficile par l’adjonction d’un bruit de commande analogue à celui qui a été
décrit plus haut dans l’étude sur la robustesse du contrôleur neuronal du pendule inversé. Cette technique
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 299/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
280
permet de résoudre le problème de stabilisation du système de façon satisfaisante dans diverses conditions
expérimentales.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 300/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
281
CHAPITRE 5
est associée la fonction de coût JN qui vaut, sur les trajectoires précédentes, dans le cas où l’on ne prend
pas en considération un coût terminal :
JN(w1) = 10, JN(w2) = 10, J N (w3 ) = 10, JN (w4 ) = 3 − 7A ...
Dans la modélisation de cet exemple, on peut aussi, plus naturellement, attribuer à chaque couple état-
action le coût unité, et choisir un coût terminal égal à –A sur l’état-cible 35, et égal à A sur tout autre état.
On obtient alors comme coût total sur les trajectoires précédentes :
JN(w1) = 10 + Α , JN (w2) = 10 + Α, J N(w3) = 10 + Α , JN(w 4) = 10 − Α ...
Hélas, on ne connaît généralement pas l’horizon à l’issue duquel on peut atteindre son objectif – même si
on le souhaite le plus court possible – et, dans ce cas, il n’est pas possible de restreindre son horizon. On
est alors conduit à considérer des problèmes à horizon infini. Pour ces problèmes, on ne peut pas toujours
définir le coût total comme la somme effective des coûts des transitions. En effet, la somme de la série
représentant le coût total d’une trajectoire peut diverger. On dispose alors de plusieurs solutions pour
définir le coût d’une trajectoire infinie.
On peut le définir comme la limite quand N tend vers l’infini quand elle existe du coût moyen sur les N
premières transitions de la trajectoire. Dans notre problème simple, cette solution serait peu efficace. Elle
reviendrait à attribuer à toute trajectoire d’état-action se terminant sur l’équilibre souhaité (35) le coût –A,
et à toute autre trajectoire le coût 1. On ne peut pas discriminer, parmi les trajectoires menant à l’état
souhaité, celles qui y mènent plus rapidement.
Quand le problème consiste à rejoindre un état spécifié ou état terminal en un nombre fini de transitions, on
peut prendre comme fonction de coût total la somme du coût des transitions. C’est le cas dans notre exemple.
Dans le cas général, on choisit de prendre comme critère, pour les problèmes à horizon infini, la minimi-
sation du coût actualisé J α , inspiré des calculs financiers où les coûts futurs sont escomptés d’un taux
d’actualisation α. Ainsi, dans notre exemple, pour un modèle à horizon infini, nous aurions
1
Jα (w 1) = J α (w2 ) = Jα (w3 ) = 1 + α + α 2 + … = ------------
1– α
Aα 3
Jα (w 4) = 1 + α + α 2 – Aα 3 – Aα 4 – … = 1 + α + α 2 – ------------
1– α
ce qui valorise bien les trajectoires qui atteignent la sortie et, parmi elles, les trajectoires les plus rapides.
Le problème consiste donc à trouver une politique optimale π * telle que le coût total de la trajectoire
d’état-action associée à cette politique soit minimal pour chaque état initial.
1. On rappelle que l’espérance mathématique est la moyenne d’une variable aléatoire pour sa loi de probabilité. Comme il
s’agit d’un phénomène dynamique, la probabilité est définie sur l’espace des trajectoires.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 301/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
282
Définition
Une chaîne de Markov commandée est définie par la donnée d’un espace d’états E, d’un ensemble
d’actionsA, d’un sous-ensemble A Ã E ¥ A des couples d’état-action admissibles, et d’une application
p de A dans l’ensemble des lois de probabilités sur E qui, au couple état-action admissible (x, u), associe
la probabilité notée Pu(x, y) de se trouver dans l’état y quand on effectue l’action u dans l’état x.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 302/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
283
CHAPITRE 5
Remarque
Pu est bien une probabilité et non une densité de probabilité ; il s’agit d’une probabilité de transition.
Ainsi, partant d’un couple initial (x0, a0), la probabilité de la trajectoire à l’horizon N
w = ((x0, a 0), (x1 , a1),…, (xN-1, aN-1), (xN))
est définie par :
P( ω ) = P a0 (x0 , x1 )Pa 1 ( x 1, x 2)…Pa N – 1 ( xN – 1 , xN ) .
Définition
On appelle politique de la chaîne de Markov commandée une application π de E × N dans A telle que,
pour tout état x et pour tout instant k, le couple état-action (x, π(x, k)) soit admissible.
Si la politique π ne dépend pas du temps, on dit que c’est une politique stationnaire. Pour simplifier les
notations, on notera aussi π une politique stationnaire comme fonction de l’état. À toute politique station-
naire π est associée une chaîne de Markov de probabilité de transition Pπ définie par :
Pπ(x, y) = P π (x) (x, y).
Définition
On appelle coût élémentaire une application c de A × E dans R, et coût terminal une application C de
E dans R.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 303/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
284
N–1
× c( x, π ( x, k ) xk + 1 ) + ∑ c( xk’, π( x k’, k’ )x k’ + 1) + C ( x N ) .
kk’ = k + 1
Le problème qui consiste à rejoindre un état particulier noté x* est appelé « problème du plus court chemin
stochastique » [BERTSEKAS et al. 1996]. Dans ce type de problème, il existe nécessairement un état unique
appelé état terminal et noté x * tel que, pour toute action admissible, la seule transition possible à partir de
cet état terminal soit la transition triviale x* → x*. On suppose, par ailleurs, qu’il existe au moins une poli-
tique stationnaire telle que son application donne une probabilité non nulle de rejoindre, à partir de tout
état, l’état terminal. De telles politiques stationnaires sont appelées des politiques stationnaires propres.
Ainsi, l’état terminal est l’état d’équilibre (déterministe) de la chaîne de Markov définie par une politique
stationnaire propre.
En ce qui concerne les problèmes à horizon infini, les coûts élémentaires étant stationnaires et le coût
terminal n’existant pas, il est inutile de rechercher une politique optimale non stationnaire. Pour un état
donné, l’action optimale ne dépend pas du temps.
On convient que le coût élémentaire de la transition triviale à partir de l’état terminal est nul, et que le coût
élémentaire de toute autre transition est strictement positif, et donc borné inférieurement par une cons-
tante positive puisque l’ensemble des états est fini.
que l’on peut aussi écrire, d’une façon plus formelle, en utilisant le formalisme des variables aléatoires
∞
J π (x) = E Pπ, x c( x, π ( x ), X 1 ) + ∑ c ( X k, π (X k ), X k + 1)
k=1
où Pπ, x est la loi de probabilité de la chaîne de Markov associée à la politique stationnaire π et d’état
initial x.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 304/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
285
CHAPITRE 5
On en déduit que, pour toute politique stationnaire impropre, il existe au moins un état initial tel que le
coût moyen total soit infini.
Le problème du plus court chemin stochastique consiste à trouver la politique stationnaire propre opti-
male π* , minimisant la fonction de coût Jπ .
que l’on peut aussi écrire, comme dans le cas du problème du plus court chemin stochastique :
∞
Jπα (x) = E Pπ, x c ( x , π ( x ) , X 1 ) + ∑ α k c( X k, π ( X k), X k + 1) .
k=1
Le problème de décision markovienne à l’horizon infini pour le taux d’actualisationγ consiste à trou-
ver la politique stationnaire optimale π* minimisant la fonction de coût Jπα .
Dans la suite, chaque fois que le contexte indiquera clairement la nature du problème, horizon fini ou
infini actualisé, nous noterons l’horizon fini N dans le premier cas et le taux d’actualisation α dans le
second cas, et nous omettrons l’indice supérieur de la fonction de coût pour alléger les notations.
On peut transformer un problème à horizon infini et à coût actualisé en un problème de plus court chemin
stochastique de la façon suivante. On ramène par translation les coûts élémentaires à des quantités stric-
tement positives. On ajoute ensuite artificiellement un état terminalx* , et l’on modifie les transitions du
problème de décision markovienne, quel que soit le couple état-action admissible, en les faisant précéder
d’un tirage aléatoire préalable qui peut interrompre le processus avec la probabilité 1 –α pour l’envoyer
dans l’état terminal (« état cimetière »). Toutes les politiques stationnaires du problème primitif sont des
politiques stationnaires propres pour le problème de plus court chemin stochastique (au sens du para-
graphe précédent), et il y a égalité entre le coût total moyen du problème transformé et le coût total moyen
actualisé du problème primitif. Cette transformation est formelle et vise à montrer que les méthodes utili-
sées pour les problèmes de plus court chemin stochastique se transposent facilement aux problèmes à
horizon infini et à coût actualisé.
Réciproquement, étant donné un problème de plus court chemin stochastique, on peut, dans la pratique
des simulations, le transformer en un problème à horizon infini et à coût moyen actualisé, en faisant suivre
l’atteinte de l’état terminal, non pas de la transition triviale, mais de la réinitialisation dans un état initial
choisi aléatoirement.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 305/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
286
N–1
¥ ∑ c ( xk , π( x k, k )x k + 1 ) + C( xN )
k=1
soit
J 0π, N (x) = ∑ Pπ ( x, 0 ) ( x x1 ) [ ( ,
+ J 1π, N (x 1 ) ] = E p π ( x, 0 ) [ ( , π
, 1)
1, N ( X ) ]
1) + Jπ 1
x1 ∈ E c ,x π ( x, 0 ) x x
c (
une conséquence très simple de l’additivité du coût d’une trajectoire étape par étape. x , 0 )X
Cette écriture montre que la politique optimaleπ * qui minimise J 0π, N minimise aussi les coûts J kπ, N . On
peut donc écrire
J 0π*, N( x ) = min u ⁄ ( x, u ) ∈ AE p u( x ) [ c ( ( x, u ), X 1 ) + J 1π*, N ( X 1 ) ] .
1
Cette équation, vérifiée par la politique optimale, s’appelle leprincipe d’optimalité de Bellman.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 306/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
287
CHAPITRE 5
qui exprime le principe d’optimalité de Bellman à horizon infini. Comme dans les problèmes à horizon
fini, on peut associer à une fonction de coût donnée J, définie sur l’espace d’états, une fonction de valeur
Q, définie sur l’ensemble des couples état-action admissibles par :
α
Q J ( x, u ) = ∑ P u( ) .
y∈ E c x u y
( ) α
Avec cette définition de la fonction valeur, l’équation d’optimalité de Bellman s’écrit :
J y α
J α* ( x ) = minu ⁄ ( x, u ) ∈ AQ J *( x, u ) .
[ + ( ,) x] , y
Cette équation est une équation de point fixe sur la fonction de coût optimale J π* . Contrairement au
problème à horizon fini, elle ne fournit pas directement un algorithme pour calculer, en un nombre fini
d’itérations, la fonction de coût optimale et la politique optimale. En revanche, on peut montrer le théo-
rème de caractérisation suivant [BERTSEKAS et al. 1996].
Théorème
Ce théorème se prouve selon une technique dite de la contraction. L’intérêt de cette technique est que,
outre l’obtention d’un théorème mathématique d’existence et d’unicité, elle permet de fournir les preuves
de convergence d’algorithmes qui aboutissent à la solution. Ces algorithmes sont des algorithmes itératifs
que nous allons décrire dans les paragraphes suivants. Pour alléger les notations, nous omettons de
réécrire α en indice.
L’intérêt de cet algorithme est qu’il permet d’obtenir explicitement une suite de politiques s’améliorant
d’une façon monotone, et dont on peut contrôler le coût. Cette itération nous permet d’introduire les
méthodes « acteur-critique ». On nomme ainsi ces méthodes où une politique est d’abord « appliquée»
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 307/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
288
(calcul de Jn), puis « critiquée » (ici par minimisation), pour obtenir une nouvelle politique. Évidemment,
l’application de la politique est ici théorique (simulation), et assez lourde puisqu’elle demande à chaque
étape de calculer Jn .
Ce calcul se fait par la résolution du système linéaire suivant :
"x ∈ E, J n(x) = ∑ P π ( x) (
)[
n
+ n ( y) ] .
c x
y∈ E
π
On montre que cet algorithme converge « linéairement » (c’est-à-dire à vitesse géométrique ) vers la politique
optimale π*, autrement dit (que ) l’écart entre le coût de la politique courante et celui de la politique optimale tend
vers 0, en étant( majoré
, ,en
yx) xvaleur
, yαJ absolue par une progression géométrique de raison inférieure à 1. Dans
certains cas qui relèvent de problèmes classiques, l’algorithme se termine en un nombre fini d’itérations.
J n+ 1 ( x ) = min u⁄ ( x, u) ∈ A QJ n( x, u)
On montre que cet algorithme converge « linéairement » (c’est-à-dire à vitesse géométrique) en montrant
que la fonction de valeur Q n converge à vitesse géométrique vers la fonction de valeur Q* associée à la
politique optimale. Cette dernière s’obtient ensuite par la minimisation classique :
π *( x ) = Arg min u ⁄ ( x, u ) ∈ AQ *( x, u )
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 308/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
289
CHAPITRE 5
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 309/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
290
méthode que nous allons présenter dans le paragraphe suivant essaie d’utiliser toute l’information obtenue
par la simulation ou l’expérimentation d’une trajectoire d’états, associée à une politique stationnaire.
Nous allons la présenter dans le cadre des problèmes de décision markovienne à horizon infini et à coût actua-
lisé, cadre dans lequel les algorithmes de cette méthode sont le plus nécessaires et le plus employés ; néan-
moins, elle s’adapte aussi aux problèmes à horizon fini. Nous présentons les algorithmes avec un taux d’actua-
lisation α , qui s’appliquent aussi très bien à des résolutions de problèmes du plus court chemin stochastique.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 310/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
291
CHAPITRE 5
poids dans la mise à jour de l’estimation Ĵ π (x) aux différences temporelles qui résultent de la transition
immédiate à partir de l’étatx et des transitions moins probables qui interviennent dans un horizon plus loin-
tain. Il a donc été proposé, dans l’article de base sur l’apprentissage par renforcement [BARTO et al. 1983],
d’escompter, par un taux d’actualisation noté λ ∈ ]0, 1[, les coûts des transitions selon leur éloignement
temporel ; on obtient ainsi l’algorithme suivant appelé TD(λ ) :
"k ∈ {1…N – 1], Ĵ π+ ( xk ) = Ĵ π ( xk ) + γ[ d k + α λ d k + 1 + … + ( α λ )N – k – 1 d N – 1 ] .
On notera que, historiquement, l’idée d’actualisation parλ est d’abord intervenue dans des problèmes à horizon
fini ou infini, où le critère n’était pas actualisé parα , et où l’introduction d’un taux d’actualisation apportait plus
de nouveauté qu’un simple changement de paramètres comme dans le problème qui est envisagé ici.
Les algorithmes TD(λ ) convergent avec les hypothèses habituelles de l’approximation stochastique
[SUTTON 1988]. En particulier, il est indispensable que tous les états soient visités « une infinité de fois »,
c’est-à-dire, en pratique, à un rythme suffisant ; c’est notamment important pour les états qui sont intéres-
sants pour la politique optimale, ce que l’on ne peut généralement pas prévoir avant l’avancement du
calcul. Dans les paragraphes suivants, nous reviendrons sur l’importance de la politique d’exploration
dans les algorithmes d’apprentissage par renforcement. Si l’on utilise un simulateur, il est indispensable
d’assurer cette hypothèse en ne se contentant pas de suivre une trajectoire, mais en relançant périodique-
ment ou aléatoirement une trajectoire, par un choix au hasard d’un nouvel état initial. Dans le cas d’une
expérience sur le processus réel, il faut veiller à une exploration correcte de l’espace d’état compatible
avec les contraintes expérimentales. Si ces conditions sont réalisées, l’algorithme d’approximation
stochastique converge sans que ce résultat soit pollué par l’existence de minima locaux sous-optimaux.
Des algorithmes variés ont été engendrés par l’application de la méthode des différences temporelles à
divers problèmes de jeux, de planification optimale et d’optimisation combinatoire. La convergence de
ces algorithmes a pu être prouvée, et l’on a montré [BERTSEKAS et al. 1996] qu’ils entrent tous dans le
cadre général suivant, dit des « traces d’éligibilité ».
Dans cette formulation générale, k est un entier qui indexe les étapes de l’algorithme. À l’étape k, on choisit,
selon une règle qui dépend de l’histoire passée de l’algorithme et assure globalement une infinité de visites de
k
chaque état, un état initial x 0 , et, par application de la politiqueπ que l’on cherche à évaluer, on engendre une
k k k k
trajectoire ω k = ( x 0, x 1, …, xm , x N ) et l’on observe les coûts associés. On calcule alors les différences
k
temporelles associées d m .
k
On choisit une suite finie de fonctions d’état positives zm , indexée par la longueur de la trajectoire,
appelée trace d’éligibilité et vérifiant les propriétés suivantes :
k k
• z0 ( x ) = δ xk ( x ) , de plus zm (x) = 1 quand m est le temps de première atteinte de l’état x pour la trajec-
0
toire w k ,
k k
• zm + 1 ( x ) £ z m( x )δ x k ( x ) .
m+1
Considérons par ailleurs une suite de fonctions d’état (γk) décroissante à valeurs dans ]0, 1[, suite des gains
ou taux d’apprentissage vérifiant les hypothèses classiques de la théorie de l’approximation stochastique :
• ∑γ k( x ) = ∞ ;
k
2
• ∑γ k( x ) <∞.
k
On montre alors que l’algorithme TD généralisé de mise à jour de l’estimation du coût par la formule :
N–1
Ĵ k + 1 ( x ) = Ĵ k ( x ) + γ k( x ) ∑ z mk ( x )d mk
m=0
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 311/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
292
Qn (x, u) = ∑ p(u ) + n( y )
y ∈E c x u y
( , x, , y) αJ
La politique π n est définie par minimisation de la fonction valeur Q n par le calcul
πn ( x )= Arg min u⁄ ( x, u) ∈ A Q(n x, u)
Une ou plusieurs itérations d’un algorithme d’évaluation par une méthode de différences tem-
porelles utilisant les résultats d’une simulation ou d’un processus expérimental réel sont
pratiquées sur la base de la politique πn pour obtenir une nouvelle approximation J n + 1 de la
fonction de coût optimale.
J n + 1 ( x ) = min u⁄ ( x, u) ∈ A Q(n x, u)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 312/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
293
CHAPITRE 5
Cet algorithme converge vers la fonction de valeur Q* associée à la politique optimale π* dès lors que
tous les couples état-action sont visités une infinité de fois et que la suite des taux d’apprentissage qui
leur sont appliqués vérifie, pour chaque couple état-action, les hypothèses de l’approximation stochas-
tique (par exemple, convergence linéairement décroissante par rapport au numéro d’ordre de la visite).
Après convergence vers une estimation acceptée de la fonction valeur optimale Q* , considérée comme
apprise, la politique optimale π* est déterminée par minimisation, comme dans l’algorithme d’itération de
la fonction valeur :
π* ( x ) = Arg min u ⁄ ( x, u ) ∈ AQ *( x, u ) .
Il n’y a aucun lien nécessaire entre la politique d’exploration et la politique optimale. Une politique
d’exploration aveugle est hélas très coûteuse et, dans la pratique, on essaie de suivre, dans l’exploration,
des politiques sous-optimales qui se rapprochent graduellement de la politique optimale ; c’est ce que
nous allons voir dans le paragraphe suivant.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 313/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
294
d’exploration qui permettent d’explorer des couples état-action nouveaux ou peu fréquentés, et de satis-
faire ainsi aux exigences du théorème de convergence cité dans le paragraphe précédent.
• Le schéma itératif exploration-optimisation réserve dans l’algorithme, alternativement, des séquences de k1
itérations pour la politique gloutonne optimiste et de k2 itérations pour la politique aveugle d’exploration.
• Le schéma « randomisé » prévoit, pour chaque itération, un tirage aléatoire qui détermine si la politique
appliquée est une politique d’exploration aveugle (probabilité ε ) ou une politique gloutonne optimiste
(probabilité 1 – ε).
• Le schéma de type recuit simulé, inspiré de l’algorithme de recuit en optimisation combinatoire
(présenté en détail dans le chapitre 8), préconise d’appliquer une politique aléatoire suivant une loi de
Gibbs du type
Qk ( xk , u )
– ----------------------
-
Tk
e
P (π k (x k ) = u ) = -----------------------------------------
Q ( x , u)
-
k k
– ----------------------
-
Tk
∑ e
u ⁄ ( x, u ) ∈ A
où la suite des températures (T k) suit une loi de refroidissement à régler selon le problème. Plusieurs lois
de refroidissement sont présentées dans le chapitre 8.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 314/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
295
CHAPITRE 5
grand, la visite d’un couple donné est rare : en conséquence, les mises à jour se succèdent à un rythme
étiré qui provoque des difficultés de convergence de l’algorithme en un temps raisonnable.
Une solution de substitution consiste à utiliser les méthodes d’apprentissage supervisé pour produire une
approximation de la fonction que l’on cherche à mettre à jour. On peut utiliser une approximation linéaire
ou un réseau de neurones qui code en entrée l’état (méthode d’évaluation-itération de la politique opti-
miste) ou la fonction de valeur (Q-learning), et délivre en sortie une approximation de la mise à jour de la
fonction que l’on veut apprendre.
Plus précisément, il existe nombre d’algorithmes possibles, selon que l’on utilise un simulateur qui
permet d’explorer l’espace des états d’une façon complète, ou un dispositif expérimental qui commande
de suivre une trajectoire suffisamment longtemps, selon que l’on utilise un schéma de mise à jour complè-
tement adaptatif ou hybride, et encore selon la politique d’exploration utilisée.
Voici la description de la boucle de calcul d’une famille d’algorithmes de Q-learning approché fréquem-
ment utilisés :
Un cycle d’apprentissage supervisé est alors mis en œuvre pour modifier la fonction de valeur
approchée Q n et lui substitue une nouvelle approximation Q n+1 .
Après modification de la fonction de valeur et de la politique d’exploration courante asso-
ciée, on reprend le processus, soit en prenant pour nouvel ensemble d’états En + 1 ={y k } (conti-
nuant ainsi les trajectoires utilisées à l’étape précédente), soit en sélectionnant
aléatoirement un nouvel ensemble d’états E n + 1.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 315/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
296
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 316/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
297
CHAPITRE 5
Bibliographie
ANDERSON B. D. O., MOORE J. B. [1979], Optimal Filtering, Prentice Hall.
A D. [1984],
sion,
ZENCOTT R., DACUNHA-CASTELLESéries d’observations irrégulières. Modélisation et prévi-
Masson.
BARTO A. G., SUTTON R. S., ANDERSON C. W. [1983], Neuron-like elements than can solve difficult lear-
ning control problemes, IEEE Trans. On Systems, Man and Cybernetics, 13, p. 835-846.
BENVENISTE A., MÉTIVIER M., PRIOURET P. [1987], Algorithmes adaptatifs et approximations stochastiques.
Théorie et application à l’identification, au traitement du signal et à la reconnaissance des formes, Masson.
BENGIO Y., SIMARD P, F RASCONI F. [1994], Learning long term dependencies with gradient descent is
difficult, IEEE Trans. on Neural Networks, 5, p. 157-166.
BERTSEKAS D. P., TSITSIKLIS J. N. [1996], Neuro-dynamic programming, Athena Scientific, Belmont, MA.
CHATFIELD C. [1994], The Analysis of Time series, an Introduction, Chapman&Hall.
DEMAILLY J.-P. [1991], Analyse numérique et équations différentielles, Presses universitaires de Grenoble.
DOYA K. [2000], Reinforcement learning in continuous time and space, Neural computation, p. 219-244.
DUFLO M. [1996], Algorithmes stochastiques, Springer.
DUTECH A., SAMUELIDES M. [2003], Un algorithme d’apprentissage par renforcement pour les processus
de Markov partiellement observés : apprendre une extension sélective du passé,Revue d’Intelligence Arti-
ficielle, 17-4, p. 559-589.
DUVAUT P. [1994], Traitement du signal : concepts et applications, Hermès.
ELMAN J. L. [1990], Finding structure in time, Cognitive Science, 14, p. 1179-211.
GIL P., DOURADO A., HENRIQUES J.O., CARVALHO P. [2002], Adaptive Neural Model Based Predictive
Control Of A Solar Power Plant,IJCNN, International Joint Conference on Neural Networks,
G
A. [1995],
OURIÉROUX C., MONFORT Séries temporelles et modèles dynamiques, Economica.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 317/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
298
GRONDIN B. [1994], Les réseaux de neurones pour la modélisation et la conduite des réacteurs
chimiques : simulations et expérimentations, thèse de doctorat de l’Université de Bordeaux I.
HAYKIN S. [1996], Adaptive Filter Theory, Prentice Hall.
HAYKIN S. [1999], Neural Networks: a comprehensive foundation, Prentice Hall.
HENRIQUES J.O., GIL P., DOURADO A. [2002], Non-linear Multivariable Predictive Control: Neural versus
First Principle Modelling Approach, IASTED, Control and Applications.
HOPFIELD J. J. [1982], Neural networks and physical systems with emergent collective computational
abilities, Proceedings of the National Academy of Sciences, États-Unis, 79, p. 2554-2558.
I SERMANN R., LACHMANN K. H., MATKO D. [1992], Adaptive Control Systems, Prentice Hall.
JAZWINSKY A H. [1970], Stochastic Processes and Filtering Theory, Academic Press.
KIRKPATRICK S., GELATT C. D., VECCHI M. P. [1983], Optimization by simulated annealing, Science, 220,
p. 671-680.
KUSHNER K. H. J., C LARK D. S. [1978] Stochastic Approximation Method for constrained and uncons-
trained Systems, Applied Mathematical Sciences, 26, Springer-Verlag.
KWAKERNAAK H., SIVAN R. [1972], Linear Optimal Control Systems, Wiley.
L ANDAU I. D., DUGARD L. [1986], Commande adaptative, aspects pratiques et théoriques, Masson.
L ANDAU I. D. [1993], Identification et commande des systèmes, Hermès.
L EE, J. H. [2000], Modeling for Nonlinear Model Predictive Control: Requirements, Current Status and
Future Research Needs, in Nonlinear Model Predictive Control , F. Allgower and A. Zheng (Eds.),
Progress in systems and Control Theory Series, vol. 26 Birkhauser.
L EVIN A. U., NARENDRA K. S. [1993], Control of non linear dynamical systems using neural networks,
IEEE Transactions on neural networks, 4.2, p. 192-207.
L EVIN A. U., NARENDRA K. S. [1997], Identification of non linear dynamical systems using neural
networks in Neural Systems for Control, O. Omivar, D. L. Elliott, éd., Academic Press, p. 129-160.
L ION M. [2000], Filtrage adaptatif par réseaux neuronaux, application à la trajectographie, thèse de
doctorat de l’École nationale supérieure de l’aéronautique et de l’espace.
L JUNG L., SÖDERSTROM T. [1983], Theory and Practice of Recursive Identification, MIT Press.
L JUNG L., S JOBERG J., H JALMARSSON H. [1996], On neural network model structures in system identifi-
cation, in Identification, Adaptation, Learning. The science of learning models from data, S. Bittanti, G.
Pici, éd., NATO ASI Series, Springer.
MORARI M., L EE J.H. [1999], Model predictive control: Past, present and future. Computers and
Chemical Engineering, 23, p. 667-682.
MUNOS R., BAIRD L.C., MOORE A.W. [1999], Descent Approaches to Neural-Net-Based Solutions of the
Hamilton-Jacobi-Bellman Equation, International Joint Conference on Neural Networks.
MUNOS R. [2000], A study of reinforcement learning in the continuous case by the means of viscosity
solutions, Machine Learning Journal, 40, p. 265-299.
NERRAND O., R OUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G. [1993], Neural networks and nonlinear
adaptive filtering: unifying concepts and new algorithms, Neural Computation, 5, p. 165-199.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 318/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Apprentissage d’une commande en boucle fermée .html
299
CHAPITRE 5
NERRAND O., R OUSSEL-RAGOT P., URBANI D., PERSONNAZ L., DREYFUS G. [1994], Training recurrent
neural networks: why and how ? An illustration in dynamical processes modeling,IEEE Transactions on
neural networks, 5.2, p. 178-184.
NORGAARD M., R AVN O., P OULSEN N. K., H ANSEN L. K. [2000], Neural Networks for Modelling and
Control of Dynamical Systems, Springer.
PUSKORIUS G. V., FELDKAMP L. A. [1994], Neurocontrol of non linear dynamical systems with Kalman
filter-trained recurrent networks,IEEE Transactions on Neural Networks, vol. 5, p. 279-297.
RIVALS I. [1995], Modélisation et commande de processus par réseaux de neurones; application au pilo-
tage d’un véhicule autonome, thèse de doctorat de l’Université Pierre et Marie-Curie, Paris VI.
RIVALS I., PERSONNAZ L. [2000], Nonlinear Internal Model Control Using Neural Networks, IEEE Tran-
sactions on Neural Networks, vol. 11, p. 80-90.
SINGH S. P., JAAKKOLA T., JORDAN M. [1995], Learning without state estimation in a partially observable
Markov decision problems, Proceedings of the 11th Machine Learning conference.
SLOTINE J. J. E., LI W. [1991], Applied Non Linear Control, Prentice Hall.
SLOTINE J. J. E., SANNER R. M. [1993], Neural Networks for Adaptive Control and Recursive Identification: A
Theoretical Framework, in Essays on Control, H. L. Trentelman, J. C. Willems, éd., Birkhauser, p. 381-435.
SONTAG E. D. [1990], Mathematic Control Theory. Deterministic finite dimensional systems, Springer Verlag.
SONTAG E. D. [1996], Recurrent Neural Networks: Some Systems-Theoretic Aspects, Dept. of Mathema-
tics, Rutgers University, NB, États-Unis.
SUTTON R. S. [1988], Learning to predict by the method of temporal differences, Machine Learning, 3, p. 9-44.
THRUN S. B. [1992], The role of exploration in learning control, in Handbook of intelligent control, D. A.
White, D. A. Sofge, éd., p. 527-559, Van Nostrand.
TONG H. [1995], Non-Linear Time Series, a dynamical system approach, Clarendon Press.
URBANI D., R OUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G. [1993], The selection of non-linear dyna-
mical systems by statistical tests, Neural Netwworks for Signal Processing, 4, p. 229-237.
WATKINS C. J. C. H., DAYAN P. [1992] Q-learning, Machine Learning, 8, p. 279-292.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 319/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 320/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
6
La discrimination
On entend par discrimination la tâche qui consiste à séparer des données en classes distinctes, à partir de
leurs caractéristiques. Par exemple, le diagnostic médical, la reconnaissance de caractères manuscrits ou
les tests non destructifs de défauts, sont des cas particuliers de tâches de discrimination.
Dans le chapitre 1, nous avons présenté une introduction générale au problème de la discrimination, avons
préconisé une méthodologie générale de conception de classifieurs statistiques qui fait appel notamment
aux considérations développées dans le présent chapitre, et avons présenté en détail quelques applications
réelles qui illustrent cette démarche. Nous avons souligné que l’on peut considérer le problème de la clas-
sification automatique sous deux angles complémentaires, en fonction de l’application considérée :
• dans certains cas, on désire estimer les probabilités d’appartenance des objets aux classes : on peut
alors, soit ramener le problème de la classification à un problème de régression non linéaire, soit mettre
en œuvre les techniques que nous exposons dans ce chapitre et appliquer l’interprétation probabiliste
décrite dans la section intitulée « Interprétation probabiliste des fonctions de coût du perceptron » ;
• pour d’autres applications, on peut se contenter de déterminer directement les frontières entre les classes
ou surfaces discriminantes avec des neurones binaires mettant en oeuvre les techniques exposées dans le
présent chapitre ; historiquement, cette approche a été étudiée dès les années 1960, et a connu un regain
d’intérêt à partir des années 1980.
C’est ce dernier point de vue qui est largement détaillé dans le présent chapitre : il présente en détail les
techniques modernes permettant de déterminer des séparations linéaires entre classes, et éventuellement
des séparations plus complexes.
Ce chapitre est orienté vers des justifications théoriques solides inspirées essentiellement, comme en
témoigne la bibliographie, des travaux de physiciens. Il est néanmoins indispensable de rappeler l’impor-
tance des considérations pratiques suivantes :
• la détermination de la représentation des formes à classer est une question qu’il faut, dans la conception
d’un projet de développement, mettre en plus haute priorité, car la réponse qu’on lui apporte détermine, de
manière cruciale, la qualité des résultats ; c’est très souvent la représentation des données,et elle seule, qui
fait la différence entre un système qui devient opérationnel et un système qui reste à l’état de projet ;
• la détermination des classes de rejet, qui permet d’optimiser le classifieur, est également cruciale.
Nous allons considérer le cas où les données à discriminer sont des vecteurs. Leurs composantes sont des
caractéristiques que l’on suppose pertinentes pour la discrimination : par exemple, des données concer-
nant un patient (son âge, sa tension artérielle, etc.) dans le cas du diagnostic médical, ou la forme à recon-
naître (les pixels d’une image) dans le cas de la reconnaissance de formes. On peut coder les classes par
des nombres entiers, qui représentent soit la maladie du patient, soit le type d’image dont il s’agit, etc.,
selon l’application. Dans ce chapitre, nous aborderons essentiellement les problèmes de classification où
les données à classer ne peuvent appartenir qu’à deux classes. Si l’on se trouve face à un problème à plus
de deux classes, on peut toujours le réduire à un ensemble de problèmes à deux classes, comme cela sera
démontré dans la section qui traite des problèmes à plusieurs classes.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 321/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
302
Le chapitre est divisé en cinq parties. Après une présentation générale du problème, nous abordons
l’apprentissage de classifieurs destinés à séparer linéairement les classes. Ensuite, nous avançons diffé-
rentes solutions qui ont été proposées pour l’apprentissage de discriminations plus complexes. Nous
présentons en particulier les machines à vecteurs supports. Dans la quatrième partie, nous abordons le cas
où le nombre de classes à discriminer est supérieur à deux. À la fin du chapitre, nous introduisons des
notions théoriques, telles que la dimension de Vapnik-Chervonenkis ou la capacité d’un classifieur, qui
peuvent être utiles dans les applications.
Apprentissage de la discrimination
Le problème posé est le suivant : peut-on apprendre à discriminer de nouvelles données, à partir de
l’information contenue dans un ensemble d’exemples classés par un expert ? On retrouve ici la probléma-
tique générale rencontrée dans les chapitres précédents, dans lesquels on s’efforçait de prévoir le compor-
tement d’un processus dans de nouvelles situations, non contenues dans l’ensemble des données utilisées
pour ajuster les paramètres du modèle. Comme nous l’avons souligné dans le chapitre 1, la recherche
d’une régression, comme la discrimination, entre dans la catégorie des « problèmes mal posés ».
Remarque
Certains auteurs réservent le nom de discrimination à la classification de données lorsque les classes parmi lesquelles on doit discriminer
sont données à l’avance. L’apprentissage est dit dans ce cas supervisé, par opposition à l’apprentissage non supervisé, où l’on cherche à
organiser les données en classes, inconnues au départ, exclusivement à partir d’un ensemble d’entrées non préalablement classées.
Dans ce chapitre, nous considérons l’apprentissage supervisé de la classification, que nous appellerons indifféremment classification ou
discrimination.
Comme dans d’autres problèmes où l’on a recours à un apprentissage, nous cherchons à déterminer les
paramètres d’un classifieur à partir d’un ensemble d’apprentissage LM de M exemples, chaque exemple
étant un couple formé d’un vecteur de variables, appelé vecteur d’entrée, et de sa classe :
LM = {( x , y ), ( x , y ),..., ( x
1 1 2 2 M
,y M )} (1)
où l’entrée
T
k k
x = ⎡⎣ x1 x2
k
x kN ⎤⎦ (2)
est un vecteur de N composantes, qui peuvent prendre des valeurs réelles, discrètes, ou binaires, décrivant
l’exemple k (k = 1, 2, ..., M), et où yk ∈ {–1, +1} représente la classe1 de x k.
Remarque
On peut coder les deux classes par z ∈
{0, 1}. Les codages {–1, +1} et {0, 1} sont formellement équivalents. En effet, la transformation
y = 2z – 1 permet de passer de l’un à l’autre. Le codage ±1 adopté dans ce chapitre autorise une écriture élégante des équations, et
présente des avantages pour la programmation. En revanche, dans les implantations en électronique numérique, il peut être plus convena-
ble d’utiliser le codage en {0, 1}.
La sortie du classifieur, réseau de neurones ou autres, dépend de son entrée x, et de ses paramètres (que
l’on notera w en général, même si le classifieur n’est pas neuronal) ; pour rappeler que cette sortie est
binaire, on utilise la notation σ (x ,w ), de préférence à la notation g (x ,w ) utilisée pour la prédiction d’un
modèle dans le chapitre 1. La sortie du classifieur en réponse à l’entréexk ∈ L M sera notée σ k ( x ,w) , ou
1. Dans le chapitre 1, l’étiquette (+1 ou –1) indiquant la classe de l’exemple k était notée ykp . Dans ce chapitre, elle est notée y k dans
un souci de simplification des formules.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 322/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
303
CHAPITRE 6
où Q (u) est la fonction de Heaviside, qui prend la valeur 1 si son argument u est positif ou nul, et 0 s’il
est négatif :
⎧1 si u ≥ 0
Θ (u ) = ⎨ . (5)
⎩0 si u < 0
Or, l’apprentissage n’a pas forcément pour objet d’apprendre à bien classer les exemples deLM , mais
plutôt de déterminer les paramètres du classifieur qui permettent, avec une forte probabilité, de classer
correctement des entrées nouvelles. Si tel est le cas, on dit que le classifieur généralise correctement. En
général, on ne connaît pas les données que l’on sera amené à classer après l’apprentissage. Si l’on consi-
dère que le vecteur des entrées x est une réalisation d’un vecteur aléatoire à valeurs réelles X, et que la
sortie y (qui est le code de la classe) est la réalisation d’une variable aléatoire discrète Y, on peut faire
l’hypothèse qu’il existe une densité de probabilité p X ,Y ( x , y ) ≡ p X ( x ) PY ( y x ) que l’on ignore, d’où sont
tirées :
• les entrées et les classes de l’ensemble d’apprentissage ;
• les nouvelles entrées, dont la classe, réalisation d’une variable aléatoire discrète de probabilitéPY ( y x) ,
est inconnue.
Théoriquement, la quantité que l’on aimerait minimiser lors de l’apprentissage est l’erreur de généralisa-
tion eg(w), définie par :
εg ( w) = ∑ Θ ( − yσ (x,w )) p ( x, y )d x
X, y
(6)
y ∈{± 1}
où σ ( x ,w) est la classe attribuée à l’entrée x par le classifieur. L’erreur de généralisation est la probabilité
que le classifieur, de paramètres w, commette une erreur de classification sur une entrée x, tirée avec la
densité de probabilité p X(x), dont la classe y a la probabilité PY(y|x) (probabilité a posteriori de la classe
d’étiquettey pour l’objet décrit par le vecteur x). L’expression (6) ne peut pas être calculée dans les appli-
cations, car pX ,y ( x, y ) est inconnue. Dans la pratique, on estime eg par des méthodes statistiques, notam-
ment par validation croisée, comme indiqué dans le chapitre 1. Dans la dernière partie de ce chapitre, nous
reviendrons plus en détail sur cette formulation probabiliste. Elle permet d’interpréter les notions
d’apprentissage et de généralisation dans un cadre formel, qui est utilisé dans les approches théoriques de
l’apprentissage pour borner ou prédire la valeur typique de l’erreur de généralisation. Plus généralement,
du point de vue fondamental, on se pose les questions suivantes :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 323/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
304
Surfaces discriminantes
Supposons que les entrées soient des vecteurs x ∈ RN (l’hypo- σ
thèse selon laquelle les valeurs prises par les composantes des
entrées sont réelles n’est pas essentielle : les résultats de ce
chapitre sont valables quelles que soient ces valeurs, réelles ou
discrètes). On peut les représenter comme des points colorés
dans un espace à N dimensions, chaque couleur indiquant la x2
classe du point correspondant. La surface qui sépare les points
de classes différentes s’appelle surface discriminante. Comme
on le voit sur la figure 6-1, cette surface n’est pas nécessaire- x1
ment unique, et, de plus, elle peut être constituée de plusieurs
parties. Le but de l’apprentissage est de déterminer l’équation
d’une surface discriminante qui soit la plus adéquate possible, Figure 6-2. Exemples en dimension 2,
en noir ceux de classe +1, en blanc ceux
c’est-à-dire qui permette la meilleure généralisation. de classe –1. La surface ombrée correspond
Comme nous l’avons indiqué dans le chapitre 1, on peut consi- à la régression ; la surface discriminante
dérer l’apprentissage d’un classifieur comme un cas particulier (une ligne dans ce cas) est représentée
en traits pointillés.
de régression. Dans ce cadre, on cherche une surface continue
g(x, w), qui soit proche de la sortie voulue, +1 pour tous les
points xk de la classe codée par yk = 1, et proche de –1 pour tous les exemples de la classe codée par yk = –1,
comme cela est représenté sur la figure 6-2. Il suffit alors d’utiliser les techniques présentées dans les chapi-
tres 1 et 2. On appelle surface discriminante le lieu des points où g(x, w) change de signe.
Rappelons (voir chapitre 1) que deux situations peuvent se présenter dans une application :
• si l’on cherche à réaliser un classifieur qui fournit directement la classe d’appartenance de l’objet repré-
senté par x, seule la surface discriminante revêt un intérêt, puisque le classifieur réalise une fonction
binaire de ses entrées ; nous verrons plus loin qu’il est alors possible de déterminer l’équation de la
surface discriminante avec des neurones exclusivement binaires, ce que l’on ne peut pas faire si l’on
transforme le problème en une régression;
• si l’on cherche à réaliser un classifieur qui détermine la probabilité d’appartenance de la donnée
inconnue à l’une des classes, en vue d’une prise de décision ultérieure (qui peut, par exemple, tenir
compte des résultats de plusieurs classifieurs en fonction de plusieurs types de données), la seule
connaissance de la surface discriminante est insuffisante. Dans ce cas, on peut utiliser des neurones à
sortie continue, notamment sigmoïde, ou des neurones binaires, et faire appel à l’interprétation proba-
biliste (bayésienne) présentée plus loin dans ce chapitre.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 324/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
305
CHAPITRE 6
Définition : potentiel
vL = ∑ wx i i =w⋅x (7)
i=0
σ L = sgn ( vL ) (8)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 325/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
306
Géométrie de la classification
Nous allons analyser quelques aspects géométriques de la classification. On vient de voir qu’il y a 2M
façons différentes d’attribuer des classes aux M vecteurs xk ∈ LM , 1 ≤ k ≤ M. Chacune correspond :
• à une fonction booléenne (application de {–1, +1}N+1 dans {–1, +1}) particulière des entrées si ces
dernières sont binaires (une fonction est définie par les valeurs qu’elle prend pour chaque point de son
domaine de définition) ;
• à une fonction à valeurs binaires (application deR N dans {–1, +1}) lorsque les entrées sont des réels (ce
qui est le cas dans la très grande majorité des applications en classification).
Quand on détermine les valeurs des poids, on sélectionne une fonction particulière qui, si l’apprentissage
aboutit à une solution sans erreurs, prend exactement les valeurs yk pour les M éléments de L M. Par
l’apprentissage, on sélectionne donc une seule fonction, déterminée par les poids du réseau. Même si l’on
se restreint à des poids qui discriminent correctement les exemples, les fonctions qu’ils représentent
peuvent différer sur des points x n’appartenant pas à LM. En conséquence, chacune de ces fonctions
produit des généralisations différentes.
Comme le montre l’équation (7), le potentiel (linéaire) est le produit scalaire du vecteur des poidsw et du
vecteur d’entrée x.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 326/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
307
CHAPITRE 6
Remarque
Si les exemples de l’ensemble d’apprentissage sont linéairement séparables, il existe un continuum, c’est-à-dire un nombre infini, d’hyper-
plans qui classent correctement ces exemples.
Considérons une entrée quelconque x. Nous avons vu que si w ⋅ x > 0, alors le perceptron lui attribue la
classe +1 ; si w ⋅ x < 0, la classe est –1. Dans les deux cas, le vecteur x se trouve à une distance |d| de
l’hyperplan, où d est donnée par :
w⋅ x
d= (10)
w
et où
N
w = ∑w 2
j ≡ w ⋅w (11)
j= 0
Remarque w x2
H
x̃ ∈ R N
Il peut être utile de revenir à l’espace original, de dimension N. Les points qui
satisfont
N
H
x1
∑ w j x̃j = –w 0 (12)
j =1
T
w̃ = w1 w2 L w N
se trouvent sur un hyperplan normal au vecteur , dont la distance à l’origine est la valeur absolue de
H w0 . (13)
d =
0
N
∑w 2
j
j=1
Pour résumer, chaque ensemble de poids w détermine un hyperplan d’équation (9) qui sépare l’espace des
entrées en deux régions. Ces poids attribuent des sorties +1 aux entréesx dont la projection sur w est posi-
tive, et des sorties –1 aux autres. Un perceptron fait donc des séparations (ou discriminations) linéaires,
car l’équation de la surface séparatrice (discriminante) est une fonction linéaire (hyperplan) des entrées.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 327/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
308
Comme nous le verrons plus loin dans ce chapitre, pour faire des séparations plus complexes avec des
neurones binaires, il faut utiliser soit des potentiels plus complexes, comme c’est le cas du perceptron
sphérique ou des machines à vecteurs support, soit des réseaux avec des unités cachées, décrits dans la
section consacrée aux heuristiques constructives.
Considérons un élément xk de LM , de classe y k. Une quantité utile par la suite est son champ aligné zk par
rapport à un perceptron de poids w, défini par :
z k = y k w ⋅ xk (14)
D’après les relations (3) et (8), on voit que la sortie du perceptron de poidsw est correcte si
zk > 0 (15)
Les propriétés de la séparation linéaire ne dépendent pas de la norme du vecteurw, mais seulement de son
orientation. Si l’on change la norme des poids sans modifier la direction de w, en multipliant toutes les
composantes wi (y compris w0 ) par une même constante positive, la sortie du perceptron sera la même.
Seule l’orientation de l’hyperplan, définie par le vecteur unitaire w/||w||, est pertinente pour la classifica-
tion. Pour l’étude des propriétés d’apprentissage des neurones binaires, il est utile d’introduire le concept
de stabilité γ d’un exemple, qui est ainsi défini :
y k w⋅ xk zk
γk = = (16)
w w
Définition de la marge
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 328/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
309
CHAPITRE 6
Parmi tous les hyperplans séparateurs possibles, celui de marge maximale, aussi appelé perceptron de
stabilité optimale, a des propriétés intéressantes : il est le plus robuste par rapport à des perturbations
des entrées ou à une détérioration des poids. Les « machines à vecteurs supports », que nous introdui-
rons plus loin, sont fondées sur le concept de marge maximale.
Algorithme du perceptron 1
3
Nous avons vu qu’un perceptron est capable de réaliser n’importe
quelle séparation linéaire, à condition que ses poids soient ajustés
correctement.
2,4
Remarque
Si les exemples de l’ensemble d’apprentissage sont linéairement séparables, un Figure 6-7. Vecteur w après 5 itérations
perceptron devrait donc, en principe, pouvoir apprendre à les classer sans erreurs. de l’algorithme du perceptron :
les exemples utilisés pour l’apprentissage
L’algorithme du perceptron procède de la manière suivante : (cercles noirs : classe –1, cercles blancs :
Algorithme classe +1) sont numérotés dans l’ordre
d’utilisation. w* est un vecteur solution.
• initialisation : Le vecteur w(t = 5) permet de séparer
1. t = 0 (compteur des mises à jour) ; tous les exemples.
2. w(0) = 0 (initialisation tabula rasa), ou bien chaque
composante de w(0) est tirée au hasard.
• apprentissage :
1. on choisit un exemple k de l’ensemble d’apprentissage LM , soit en le tirant au hasard, soit en
suivant un ordre pré-établi ;
2. si zk ≡ yk w( t ) ⋅ xk ≤ 0, c’est-à-dire si l’exemple k est mal classé, on modifie les poids selon la
relation wi (t + 1) = wi (t ) + y k x ki pour tout i (0 ≤ i ≤ N) ;
3. on incrémente le compteur des mises à jour : t = t + 1.
• test :
1. si zk ≡ yk w (t ) ⋅ xk > 0, pour tous les exemples k = 1, 2, ..., M, alors ils sont tous bien appris ;
l’algorithme s’arrête ;
2. sinon, on va à apprentissage.
L’algorithme du perceptron itère donc les modifications des poids tant qu’il reste des exemples dont le
champ aligné zk est négatif, c’est-à-dire des exemples qui sont mal classés. La figure 6-7 illustre l’appli-
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 329/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
310
cation de l’algorithme du perceptron. Il est évident que si l’ensemble d’apprentissage n’est pas linéaire-
ment séparable, l’algorithme ne s’arrête jamais (contrairement à l’algorithme de Ho et Kashyap présenté
dans le chapitre 2). Si les exemples sont linéairement séparables, l’algorithme du perceptron converge,
comme le démontre le théorème ci-dessous.
Remarque
On ne peut donc pas utiliser l’algorithme du perceptron pour déterminer si un ensemble d’exemples est, ou n’est pas, linéairement sépara-
bles. En effet, on ne peut pas, en un temps de calcul « raisonnable », distinguer un algorithme du perceptron qui ne converge pas (parce
que les exemples ne sont pas linéairement séparables) et un algorithme du perceptron qui converge très lentement (bien que les exemples
soient linéairement séparables). Comme nous l’avons indiqué dans le chapitre 2, il faut utiliser l’algorithme de Ho et Kashyap [HO 1965], qu
fournit la réponse en un nombre fini d’itérations : si les exemples sont linéairement séparables, il trouve une solution (qui n’est pas du tout
optimale) ; si les exemples ne sont pas linéairement séparables, l’algorithme l’indique après un nombre fini d’itérations.
Théorème
Pour la démonstration, on supposera que l’on a initialisé les poids à zéro, suivant l’option tabula rasa.
Cette hypothèse n’est pas nécessaire, car on peut tout aussi bien commencer avec des poids quelconques,
mais elle rend la démonstration plus simple.
Puisque, par hypothèse, les exemples de l’ensemble d’apprentissage L M sont linéairement séparables, il
existe un vecteur de poids w* , qu’on appellera perceptron de référence, qui classe correctement les exem-
ples. Sans perte de généralité, nous supposerons que w* est unitaire. Si ce n’était pas le cas, il suffirait de
le diviser par sa norme. Les stabilités des exemples dans L M par rapport à l’hyperplan de référence sont
positives. Puisque w* est unitaire, elles sont égales aux champs alignés correspondants :
γ *k = y k x k ⋅ w* = z*k . (17)
15 Pour démontrer le théorème, on détermine des bornes, supé-
rieure et inférieure, de la norme du vecteur de poids engendré
inf
par l’algorithme du perceptron. On peut démontrer(voir nos
w (t + 1) |
sup
« Compléments » en fin de ce chapitre) que ces bornes sont
10
des fonctions croissantes du nombre t d’itérations, mais elles
augmentent à une allure différente. En effet, la borne infé-
rieure croît linéairement avec le nombre d’itérations t, tandis
Bornes à |
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 330/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
311
CHAPITRE 6
L’algorithme du perceptron converge donc nécessairement, car le nombre d’itérations ne peut pas
dépasser T. S’il y a des exemples très proches (avec γ petit relativement à x max ) de l’hyperplan de réfé-
rence, le temps de convergence peut être très long. Cependant, l’algorithme peut converger en un temps
bien plus court que celui qui est donné par la relation (18), pour deux raisons :
• d’une part, parce que l’hyperplan de référence w* est arbitraire et que la valeur de γ min
* correspondante
peut être particulièrement petite,
• d’autre part, parce que le temps de convergence dépend de la séquence particulière d’exemples qui est
utilisée pour les mises à jour successives. De ce fait, il est une variable aléatoire.
Remarque 1
Le résultat (18) a une interprétation intuitive simple. La correction des poids lors de chaque itération de l’algorithme est bornée, car sa
norme ne peut être supérieure à celle de l’exemple appris à cette itération-là,
k||. En
||x revanche, l’apprentissage des exemples successifs
augmente la norme des poids. La correction qu’un même exemple produit à chaque itération où il est appris perturbe donc de moins en
moins w : les ajustements successifs orientent l’hyperplan par des modifications relativement décroissantes. S’il existe des exemples très
proches de l’hyperplan séparateur, il faut que les corrections deviennent suffisamment faibles pour atteindre la précision nécessaire. C’est
ce qui explique que le temps de convergence soit inversement proportionnelγ min
* à .
Remarque 2
Puisque, par hypothèse, les exemples de l’ensemble d’apprentissage sont linéairement séparables, au lieu de considérer les entrées
k de x
classes yk, on peut les remplacer par des entréesx ′ k ≡ y k xk de classes
y ′k = +1 . En effet, si w classe correctement l’ensemblek,des x
il procède de même avec lesx ′k , cary′kw ⋅ x ′k ≡ ykw ⋅ x k > 0 .
Elle dépend des poids w par l’intermédiaire des champs alignés des exemples. Nous verrons plus loin que
le fait que (19) soit une somme sur les exemples est cohérent avec l’hypothèse que les exemples sont des
variables aléatoires indépendantes.
Remarque
Le facteur 1/M devant la somme dans (19) ne joue aucun rôle dans la minimisation du coût. Il permet de définir le coût moyen unitaire,
c’ést-à-dire le coùt moyen de chaque exemple, quantité qui peut être utile si l’on veut comparer des résultats sur des bases d’apprentissage
de tailles différentes.
La fonction V qui entre dans la définition (19) doit satisfaire certaines contraintes pour que la minimisa-
tion du coût permette de trouver des poids adéquats. Les poids w qui produisent des champs alignés néga-
tifs sur un grand nombre d’exemples doivent avoir un coût plus fort que ceux qui produisent une majorité
de champs alignés positifs. V(z) doit donc être une fonction non croissante de son argument. Remarquons
que, si les exemples de l’ensemble d’apprentissage LM sont linéairement séparables par w*, alors tout
vecteur de la forme aw* avec a > 1 produit la même séparation que w* , mais avec un coût inférieur. En
conséquence, si V est une fonction non croissante du champ aligné, un algorithme de minimisation peut
ne pas converger, car, quand l’ensemble LM est linéairement séparable, on peut toujours diminuer le coût
en augmentant la norme de w sans modification de l’orientation de l’hyperplan. Pour éviter cela, on peut
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 331/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
312
imposer la contrainte ||w|| = cte. Les normalisations ||w|| = 1 et ||w|| = N + 1 dans l’espace élargi (ou
||w|| = N, si l’on travaille dans l’espace des entrées de dimension N), sont celles qui sont les plus utilisées.
Si V(z) est dérivable, alors V’(z) ≤ 0. Dans ce cas, la méthode la plus simple pour procéder à une minimi-
sation de (19) est la méthode du gradient simple, décrite au chapitre 2. Rappelons qu’elle consiste à modi-
fier les poids itérativement, suivant
w( t +1) = w( t) + Δ w( t) (20)
avec
Δw(t ) = −μ
∂C (w) 1 N ∂V z
(t ) = −μ ∑
( ) (t ) y x
k
k k
(21)
∂w M k =1 ∂ z k
M
= ∑c (t )y k k
x
k
(22)
k =1
où μ est le pas d’apprentissage. Dans (22) on a utilisé la relation ∂zk/∂w = yk xk (cf. (14)) et l’on a intro-
. Comme
( )
∂V z k ( )
≤ 0 , ck(t) ≥ 0. Il convient de
M ∂z k ∂zk
normaliser les poids après chaque itération (20).
Le résultat (22) montre que, d’une manière générale, les poids obtenus avec des algorithmes d’apprentis-
sage peuvent s’écrire comme suit :
M
w = ∑ ck yk xk (23)
k=1
où les coefficients ck, qui sont la somme des ck (t) sur toutes les itérations, sont positifs ou nuls. Leurs
valeurs dépendent de l’algorithme d’apprentissage. Nous verrons plus bas comment les propriétés des
machines à vecteurs supports se déduisent de celles des coefficients c k. L’expression (23) avec ck = c > 0
(où c est une constante quelconque) est connue sous le nom de règle de Hebb. Elle exprime mathémati-
quement (quoique de façon non rigoureuse) un modèle d’apprentissage neuronal proposé par D. Hebb
pour expliquer la capacité de mémoire du système nerveux (voir le livre de P. Peretto pour une discussion
plus approfondie de cette règle). Remarquons tout de suite que la règle de Hebb a de très mauvaises
performances pour faire des discriminations de données. Même si, dans le contexte de l’apprentissage
automatique, son intérêt est plutôt historique, on verra que l’on peut accélérer la convergence de certains
algorithmes en initialisant les poids avec la règle de Hebb.
Remarque
Si l’on ne normalisait pas les poids après chaque itération de l’algorithme pour satisfaire la contrainte ||w|| = cte, on pourrait contrôler la
convergence en arrêtant les itérations dès que les corrections aux poids deviennent parallèles aux poids eux-mêmes, c’est-à-dire, si
(dans les limites de la précision requise par l’application).
Danst la suite de ce paragraphe, nous présentons quelques coûts partiels V(z) proposés dans la littérature.
( )
w
( )
⋅ = wt w
(t++1 1 ) w ( t )
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 332/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
313
CHAPITRE 6
0.75 V ( z ) = Θ ( −z ) (24)
V(z)
où Θ (x) est la fonction de Heaviside définie par la rela-
0.50 tion (5). Elle vaut 1 si l’exemple est mal classé, et 0
autrement. À son minimum, le coût total est donc
0.25 proportionnel au plus petit nombre d’exemples mal
classés. Cette fonction n’étant pas différentiable, on ne
peut pas la minimiser par une méthode de gradient. Il
0.00
faut faire appel à des techniques d’optimisation combi-
–6 –4 –2 0 2 4 6 natoire, comme, par exemple, le recuit simulé.
z
Considérons maintenant des coûts dérivables. Le coût
Figure 6-9. Coût partiel correspondant
au nombre d’erreurs d’apprentissage
partiel suivant, représenté sur la figure 6-10,
V ( z ) = −z (25)
6
V(z) est la fonction monotone décroissante la plus simple.
Règle de Hebb
4 V(z)=- z Après introduction de sa dérivée dans (22), on trouve
1 M k k
2 Δw = μ ∑y x
M k=1
(26)
0
qui n’est autre que la règle de Hebb. Comme cela a été
discuté plus haut, le coût partiel étant monotone décrois-
–2 sant, il faut, pour que l’algorithme s’arrête, introduire la
contrainte de normalisation des poids. Une seule itéra-
–4 tion suffit alors pour trouver le minimum du coût. Dans
la suite de cette section, nous utiliserons ce résultat pour
–6 initialiser l’algorithme Minimerror.
–6 –4 –2 0 2 4 6
z L’algorithme du perceptron correspond à l’utilisation du
Figure 6-10. Coût partiel correspondant coût partiel suivant :
à la règle de Hebb
V ( z ) = −zΘ (−z ) (27)
représenté sur la figure 6-11. Les corrections des poids à chaque itération lors de la minimisation du coût
correspondant sont :
1 M
Δw = μ
M k= 1
( )
∑ Θ −zk yk xk (28)
ce qui équivaut à une version non adaptative (« batch ») de l’algorithme du perceptron car ici, à chaque
itération, les poids sont mis à jour avec tous les exemples mal classés (grâce à la fonction Θ dans (30)),
alors que, dans l’algorithme du perceptron, on ne prend en considération qu’un seul exemple à chaque
mise à jour des poids.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 333/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
314
V(z)
Algorithme du perceptron
V(z)= – zΘ(z)
4
–4 –2 0 2 4 6
z
1 2
V ( z) = z Θ (− z ) , (29)
2
représenté sur la figure 6-12.
30
V(z) Règle Delta
V(z)=z 2 Θ(z)/ 2
20
10
0
–6 –4 –2 0 2 4 6
z
Les modifications des poids lors des itérations successives sont données par :
M
1
Δ w = −μ
M
∑ z Θ ( −z ) y
k k k
xk . (30)
k =1
Remarque
Si les exemples de l’ensemble d’apprentissage sont linéairement séparables les algorithmes que l’on vient de présenter trouveront géné-
μ, le que
ralement une solution w sans erreurs d’apprentissage, avec plus ou moins d’itérations suivant l’algorithme. Pour cela, rappelons
pas d’apprentissage, doit être suffisamment petit.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 334/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
315
CHAPITRE 6
Les algorithmes précédents pénalisent les poids qui donnent des erreurs d’apprentissage, car les coûts
partiels correspondant à des champs alignés négatifs ont des valeurs positives. Les exemples bien classés
ont un coût nul (sauf pour la règle de Hebb), où qu’ils se trouvent. Or, l’intuition nous dit qu’on est plus
« sûr » de la classification des exemples très éloignés de l’hyperplan que de ceux qui en sont tout près. On
devrait donc pénaliser les hyperplans qui se placent trop près des exemples, même s’ils les classent bien.
C’est le but des algorithmes qui cherchent l’hyperplan de marge κ , c’est-à-dire, les poids w(κ) tels que,
pour tous les exemples k,
zk
γk ≡ ≥κ. (31)
w
Afin de pénaliser les poids qui, même s’ils classent bien tous les exemples, présentent des exemples plus
proches de l’hyperplan que la marge κ , il suffit de modifier les coûts (24), (25), (27) et (29) en remplaçant
partout le champ aligné zk par z k − w κ . Dans ce cas, les solutions de coût nul vérifient (31) pour tous les
exemples. La plus grande valeur de κ pour laquelle il existe une solution de coût nul correspond au
perceptron de marge maximale. Il faut remarquer que, dans la pratique, le procédé qui consiste à maxi-
miser κ peut être assez complexe et coûteux en temps de calcul.
D’autres fonctions de coût ont un paramètre ajustable, plus ou moins équivalent à κ , que l’on appelle
hyperparamètre. Elles permettent de trouver des solutions qui ont de meilleures propriétés de généralisa-
tion que celles que l’on vient de présenter [3, 4, 5, 6].
En général, quand les exemples de l’ensemble d’apprentissage ne sont pas linéairement séparables, on
peut représenter la surface discriminante à l’aide de neurones cachés. L’hyperplan défini par chaque
neurone doit séparer correctement les exemples de classes différentes, au moins dans un voisinage limité
de l’hyperplan. Or, lorsque les exemples ne sont pas séparables, les fonctions de coût présentées dans ce
paragraphe ont plusieurs minima locaux, et, généralement, la solution vers laquelle convergent les algo-
rithmes ne possède pas cette propriété de séparation locale. Une fonction qui permet de trouver une telle
solution est le coût partiel suivant (utilisé par l’algorithme Minimerror qui est décrit plus bas), lequel est
fonction de la stabilité γ, définie par (16), et non pas du champ aligné z :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 335/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
316
Remarque 1
Par rapport aux algorithmes dont le coût partiel est fonction du champ aligné, la dérivée de (32) par rapport aux poids fait apparaître un
terme supplémentaire,γ w/||w||, qui provient de la norme des poids au dénominateur de la stabilité (définie par l’équation (16)). La quantité
γ w/||w|| est la composante de l’exemple parallèle à w. Dans le terme entre parenthèses de l’équationyx(33),−γ w w est la compo-
sante de yx (le terme hebbien qui apparaît dans tous les algorithmes d’apprentissage) orthogonale à w. Seule cette composante contribue
effectivement à l’apprentissage ; la composante parallèle à w n’est pas utile pour l’apprentissage car elle ne peut pas contribuer à changer
l’orientation de w. Si l’on normalise les poids après chaque itération de l’algorithme, γlew/||w||
termepeut être négligé.
Remarque 2
γ > 0, contribuent à l’apprentissage ; ils le font d’autant plus qu’ils sont proches de l’hyperplan.
Même les exemples bien classés, avec
Remarque 3
Si β est suffisamment petitβγ( k << 1 pour tout k), alors tous les exemples contribuent à l’apprentissage avec pratiquement le même préfac-
β → 0, les stabilités de tous les exemples se trouvent dans
teur, comme dans la règle de Hebb discutée plus haut. En effet, dans la limite
la région où le coût décroît linéairement (autourγ de= 0), et le préfacteur dans (33) est le même pour tous les exemples.
Remarque 4
Pour des valeurs intermédiaires de β, les exemples suffisamment éloignés de l’hyperplan pour satisfaire βγ >> 1 , c’est-à-dire ceux dont
les stabilités sont grandes par rapport àβ1/ , contribuent peu à l’apprentissage, car leur préfacteur dans (35) est exponentiellement faible
1 < - 4 exp ( – β γ2 ) . Par exemple,βγ
(dans la limiteβγ >> 1 , on a----------------------------
2
si > 5, le préfacteur est de l’ordre de -410
.
cosh (βγ )
Les remarques précédentes sont à la base de l’algorithme Minimerror, qui permet non seulement
d’obtenir une séparation linéaire de grande marge si elle existe, mais, dans les cas où la séparation linéaire
n’existe pas, trouve une surface localement discriminante grâce à l’hyperparamètre β , qu’il ajuste pour
optimiser la solution. Pour cela, on initialise les poids avec la règle de Hebb (donnée par (23) avec
ck = cte). On commence les itérations avec une valeur initiale deβ , βini , suffisamment petite pour que tous
les exemples figurent à l’intérieur de la fenêtre d’apprentissage. Si ||x max|| correspond à la plus grande
norme parmi les vecteurs de L M, il suffit de prendre, par exemple, β ini = 0,01/||xmax||. Ensuite, à chaque pas
d’apprentissage, on modifie les poids et l’on augmente β d’une petite quantité δβ . Ce procédé est connu
dans la littérature comme étant celui du recuit déterministe ; il est conceptuellement proche du recuit
simulé, utilisé en particulier pour des problèmes d’optimisation. En effet, l’hyperparamètre β peut être
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 336/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
317
CHAPITRE 6
interprété comme l’inverse d’un bruit, ou d’une température, T = 1/β [GORDON 1995]. Nous reviendrons
sur cette interprétation. L’expérience a montré que, dans de nombreuses applications, il est convenable
d’utiliser deux valeurs de β différentes, β+ pour les exemples de stabilité positive (bien appris), et β – pour
ceux de stabilité négative. Pour ne pas introduire trop de paramètres, on garde le rapport β+/ β– constant
pendant tout l’apprentissage. L’algorithme Minimerror a donc trois paramètres : le pas d’apprentissageμ ,
le pas de recuit δβ et l’asymétrie β± ≡ β+/β –. Il procède comme suit :
Algorithme Minimerror
• Choisir :
1. μ, le pas d’apprentissage (valeur conseillée : 10–2),
2. β +, l’hyperparamètre (valeur conseillée β + = 10–2/||x max||),
3. β ±, le rapport β+ /β – (valeur conseillée : 6),
4. δβ +, le pas du recuit (valeur conseillée : 10–2).
• Initialisation :
1. compteur de mises à jour : t = 0,
2. poids : w(0) (initialisation conseillée : appliquer la règle de Hebb et normaliser les poids à
||w|| = N + 1).
• Apprentissage :
1. à chaque itération, on modifie et l’on normalise les poids selon :
w( t ) + Δ w μ
w( t + 1) = avec Δw = − ( δw+ + δ w− ) (34)
w( t ) + Δ w M
et
β±
∑
k k
δw ± = -γ x (35)
-----------------------
k
k ⁄ γ k ∈ γ± cosh2β ± γ
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 337/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
318
Remarque
L’algorithme Minimerror combine une descente de gradient avec une modification de l’hyperparamètreβ . Il converge vers un minimum
local. On a démontré [GORDON 1995] que, si les exemples de l’ensemble d’apprentissage sont linéairement séparables, la minimisation de
(19), avec V donné par (32), pour des valeurs croissantesβ de
permet de trouver l’hyperplan de marge maximale. Si les exemples ne sont
pas linéairement séparables, l’algorithme converge vers des poids qui minimisent le nombre d’erreurs d’apprentissage et maximisent la
marge localement (au voisinage de l’hyperplan). Ces propriétés sont très utiles pour les algorithmes d’apprentissage constructifs, présen-
tés plus bas dans ce chapitre.
On trouvera plus de détails, ainsi que des exemples d’utilisation de Minimerror, dans [TORRES
MORENO 1997] et [GODIN 2000].
Remarque
Un coût partiel assez intéressant est celui des moindres carrés appliqué à un réseau sans neurones cachés, et dont le neurone de sortie
a une fonction d’activation sigmoïdale. Puisque
k = ±1,
y on a :
k 1 k k 2
V ( z ) = ---( y – th( w ⋅ x ) )
2
1 k k 2 (36)
= ---( 1 – y th (w ⋅ x ) )
2
1 k 2
= ---( 1– th( z ) )
2
car th(–z) = – th(z). Remarquons que l’argument de V n’est pas la stabilité, mais le champ aligné. La modification des poids par l’algorithme
du gradient simple prend la forme (22), avec :
k μ 1 – th( zk )
c (t ) --------------------------
-
Mcosh2 ( z k)
μ 1 – th( w γk )- .
-----------------------------------
(37)
Mcosh2 ( w γ k)
L’expression (37) est similaire à celle de l’algorithme Minimerror. joue|| le même rôle queβ . La différence essentielle entre les deux
w|| Ici,
algorithmes est queβ est un paramètre contrôlable par Minimerror, tandis que ||w|| ne peut pas être contrôlé lors de la minimisation de
(36) .
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 338/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
319
CHAPITRE 6
les 104 exemples de test, on en trouve 23 qui sont mal classés par cet hyperplan. À droite de la figure 6-
14, on a représenté les distances des données à l’hyperplan (avec le signe donné par le classifieur) lorsque
l’apprentissage est effectué avec l’ensemble des 208 signaux. La marge dans ce cas est plus petite
(κ = 0,0028). Nous avons représenté sur la figure 6-15 l’histogramme des stabilités de toutes les données
par rapport à ce dernier hyperplan. Nous verrons qu’en faisant l’hypothèse que les données sont des
mesures bruitées de grandeurs physiques, ces distances permettent d’attribuer un degré de plausibilité (ou
une densité de probabilité) à la classe que le perceptron attribue aux entrées.
0
après apprentissage. À gauche :
-1 apprentissage avec les M = 104 premiers
exemples de la base. Les derniers
ε g =0.22 exemples G = 104 exemples appartiennent
-2
exemples
k
y =+1 k
y =+1 à la base de test. À droite : distances
k
y =-1 k
y =-1 par rapport à l’hyperplan déterminé
-3
0 40 80 120 160 200 0 40 80 120 160 200 avec toutes les données, montrant
k k qu’elles sont linéairement séparables.
50 Histogramme de stabilité
SONAR Benchmark
N = 60 M = 208
40
10
0
0.0 0.5 1.0 1.5 2.0 2.5
k
γ
Remarque 1
Le fait que l’on ait trouvé que les 208 données de ce problème sont linéairement séparables n’est pas étonnant, comme le démontre le
théorème de Cover (et sa généralisation par Gardner au cas de données corrélées [E et al. 2001]) mentionné au dernier paragraphe
NGEL
du chapitre, et dont la grande importance a déjà été mentionnée dans le chapitre 2. Ils ont établi que la probabilité qu’un ensemble de
données (en position générale, c’est-à-dire tel qu’il n’y ait pas
N points dans un même hyperplan) soit linéairement séparable ne dépend
que du rapportM/N, où M est le nombre de données et N la dimension de l’espace des entrées. En particulier, si N = 60 et M = 208, et si
les données présentent des corrélations, ce qui est le cas dans ce problème du sonar, cette probabilité n’est pas négligeable.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 339/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
320
Remarque 2
On peut se demander pourquoi on n’a pas découvert plus tôt que les données étaient linéairement séparables, alors que l’algorithme de
Ho et Kashyap [HO 1965] fournit le résultat en quelques minutes. Ceci résulte du caractère fondamentalement pluridisciplinaire du domaine
des réseaux de neurones, qui amène à ignorer, voire à redécouvrir, des résultats importants établis dans d’autres disciplines ; les auteurs
de cet ouvrage espèrent que celui-ci contribuera à surmonter cette difficulté.
k
(t ) = −
μ ∂V z ( )
k
(t) (38)
F
M ∂w
Figure 6-16. Forces sur l’hyperplan.
=−
μ ∂V z ( )
k
( t ) yk xk
À l’itération t, l’exemple k, mal classé,
produit une force attractive sur l’hyperplan.
M ∂zk
Sa contribution à la correction des poids = c (t ) y x
k k k
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 340/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
321
CHAPITRE 6
Remarque
μ. S’il est grand, l’effet de la force peut être excessif, et risque d’introduire des
L’angle de rotation est proportionnel au pas d’apprentissage
oscillations au cours des itérations successives.
L’orientation de l’hyperplan se stabilise, et donc l’algorithme converge, quand les forces dues aux exem-
ples des deux côtés s’équilibrent. Si le coût partielV est nul pour les stabilités positives, seuls les exemples
non appris exercent des forces, qui sont attractives, sur l’hyperplan. SiV > 0 pour les stabilités positives,
comme c’est le cas de l’algorithme Minimerror, les exemples bien classés exercent aussi des forces (répul-
sives) sur l’hyperplan.
Si l’ensemble d’apprentissage n’est pas linéairement séparable, les algorithmes dont le coût partiel
diverge pour les stabilités négatives peuvent avoir des problèmes de convergence. En effet, s’il y a des
exemples de la même classe des deux côtés de l’hyperplan, comme cela arrive dans les cas non séparables,
les exemples mal classés exercent des forces attractives, d’autant plus grandes qu’ils sont éloignés de
l’hyperplan. L’orientation de ce dernier peut alors osciller au cours des itérations successives, sans jamais
se stabiliser. Pour éviter ce problème, on diminue le pas d’apprentissageμ au fur et à mesure que l’appren-
tissage progresse. La même remarque s’applique à l’apprentissage adaptatif (« en ligne ») : la solution
que l’on trouve dépend non seulement de la vitesse à laquelle μ a été modifié, mais aussi de l’ordre de
présentation des exemples.
Perceptron sphérique
On peut produire des surfaces discriminantes hypersphériques à partir d’une généralisation très simple du
perceptron. En effet, au lieu du potentiel linéaire (7) on définit un potentiel ou activité sphérique
N
2 2
vS = ∑ (x i – w̃i ) – w 0 (39)
i=1
où la somme sur i est le carré de la distance entre l’entrée x et le vecteur des poids dans l’espace non élargi
w̃ = w 1 w2 L w N . Le vecteur w̃ est le centre d’une hypersphère de rayon w0. La sortie du perceptron
sphérique est :
σ S = sgn ( v S) . (40)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 341/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
322
zkS = yk vS . (41)
Remarquons que, dans ce cas, il ne faut pas normaliser
les poids, car cela reviendrait à imposer que le centre
de l’hypersphère se trouve à une distance de l’origine
qui serait fixée par la constante de normalisation.
Heuristiques constructives
Comme cela a déjà été mentionné, on peut transformer
la classification en un problème de régression et appli-
quer les techniques d’apprentissage et de sélection de
( )
modèle décrites aux chapitres 1 et 2. Notons que, dans
ce cadre, tous les neurones du réseau doivent avoir des
fonctions d’activation dérivables ; comme nous
Figure 6-17. Deux surfaces discriminantes l’avons indiqué au début de ce chapitre, des unités
sphériques en dimension N = 2. La première cachées binaires peuvent suffire si l’on cherche à déter-
(en haut) a un rayon w(01) et son centre se trouve miner directement les surfaces discriminantes. Si la
( 1)
au point w̃ . La deuxième, de rayon w(02 ) ,
(2)
est centrée sur w̃ . On peut remarquer que surface discriminante n’est ni linéaire ni sphérique, on
le centre de la surface discriminante peut se trouver peut la décomposer en morceaux (linéaires ou sphéri-
à l’extérieur de la région occupée par les exemples. ques) à l’aide de neurones cachés. Alors, les probabi-
lités d’appartenance à chaque classe se déterminent à
partir des stabilités, utilisant les résultats présentés dans la section Questions Théoriques, plus loin dans
ce chapitre.
Définition : représentation interne
L’état des neurones cachés associé à un exemple s’appelle représentation interne de l’exemple. Remarquons que plusieurs exemples
peuvent avoir la même représentation. Cela est souhaitable, pourvu qu’ils appartiennent à la même classe, car ainsi on comprime l’infor-
mation contenue dans ML.
En général, on incorpore les unités cachées au réseau les unes après les autres, suivant des heuristiques
constructives qui utilisent différents critères pour associer une représentation interne binaire à chaque
élément de l’ensemble d’apprentissage. Si ces représentations internes sont linéairement séparables, un
perceptron de sortie, connecté aux unités cachées, peut apprendre à les discriminer.
Remarque
On dit que les représentations internes de l’ensemble d’apprentissage sont fidèles si les exemples de classes différentes ont des représen-
tations différentes. Si deux exemples de classes différentes ont la même représentation interne, la représentation n’est pas fidèle. Dans ce
cas, comme le neurone de sortie est connecté seulement aux neurones cachés, il attribuera la même classe aux deux exemples, faisant
donc nécessairement une erreur de classification.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 342/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
323
CHAPITRE 6
Les différents algorithmes constructifs ou incrémentaux qui existent dans la littérature permettent
d’engendrer les représentations internes par des ajouts successifs d’unités cachées. Ces algorithmes cons-
tituent donc une approche de l’apprentissage avec des réseaux de neurones spécialement adaptés aux
problèmes de discrimination. Ils diffèrent les uns des autres par l’heuristique qui est proposée (ce qu’il
faut apprendre aux unités ajoutées), par l’architecture du réseau obtenu (en arbre, en couches, etc.) et par
l’algorithme d’apprentissage qui est utilisé pour déterminer les poids de chaque neurone. En particulier,
le nombre d’unités cachées, qui détermine la dimension des représentations internes, dépend, de façon
cruciale, de l’efficacité de l’algorithme d’apprentissage utilisé.
2
–+
+++
+–+
+– + +++
3 Figure 6-18. (a) Surfaces discriminantes
1 déterminées avec l’algorithme NetLS.
(b) Représentations internes correspondant
–++
–+ aux régions de la figure (a). La surface indiquée
classe + correspond précisément à la séparation linéaire
–+– classe – des représentations internes, qui est effectuée
(a) (b) par le neurone de sortie.
Dans la suite, nous décrivons brièvement l’algorithme constructif NetLS, qui permet de réaliser des sépa-
rations comme celle qui est montrée sur la figure 6-18(a). Dans cet exemple, le premier neurone caché
(dont l’hyperplan est indiqué par le chiffre 1 sur la figure) fait une séparation linéaire des entrées. Le
deuxième effectue une séparation sphérique, et le troisième une séparation linéaire. Ils découpent l’espace
des entrées en régions auxquelles ils attribuent des représentations internes fidèles, représentées sur la
figure 6-18(b). Ces derniers sont des vecteurs binaires (de dimension 3 car dans notre exemple il y a 3
neurones cachés). Ils se situent à des sommets de l’hypercube en dimension 3. Sur la même figure est
représenté un hyperplan séparateur : ces représentations internes sont linéairement séparables. Un percep-
tron de sortie, connecté aux unités cachées, peut faire la discrimination correctement. Remarquons que,
pour obtenir des représentations internes binaires, il faut que les neurones cachés soient des perceptrons.
Or, comme leur fonction d’activation n’est pas dérivable, il est impossible d’entraîner le réseau avec un
algorithme de gradient. La seule façon d’obtenir un réseau dont les neurones cachés sont binaires est de
le construire par ajouts successifs de neurones.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 343/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
324
2. On entraîne deux perceptrons, linéaire et sphérique, avec LM,h , et l’on garde celui des deux qui fait le
moins d’erreurs d’apprentissage.
3. On connecte un neurone de sortie aux h neurones cachés, et on lui fait apprendre les cibles originales
yk avec, comme entrées, les représentations internes apprises, s k = (σ 1k ,..., σ hk). S’il le fait sans
erreurs, l’algorithme s’arrête. Autrement, on supprime le neurone de sortie, on augmente le compteur
de neurones cachés, h ← h + 1, et l’on revient à 1.
1 t
t= =2 xN x 1 x2 t =x3
x1 x2 xi xi N x1 x 2 xi xN
Remarque 2
On construit un réseau avec une seule couche cachée parce que l’on a démontré [C 1989] qu’une seule couche cachée est suffi-
YBENKO
sante pour représenter n’importe quelle fonction des entrées.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 344/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
325
CHAPITRE 6
Remarque 3
Un des principaux défauts que présentent les algorithmes constructifs tient à ce que le résultat dépend beaucoup de la séparation qui est
faite par le premier neurone caché introduit. Dans certains cas, garder le neurone qui fait le moins d’erreurs peut ne pas être la meilleure
stratégie. Puisque les neurones suivants apprennent à corriger les représentations internes afin de les rendre fidèles, un mauvais choix
pour la première séparation (c’est-à-dire, du premier neurone) a des conséquences importantes sur la qualité du classifieur. Pour surmon-
ter cette difficulté, il convient donc de réaliser plusieurs séparations initiales, et d’utiliser des techniques de sélection de modèles, selon une
démarche analogue à celle que nous avons décrite dans les chapitres 1 et 2, pour surmonter le problème des minima locaux de la fonction
de coût.
est un exemple où le vecteur F a N’ = N + N(N + 1)/2 composantes : les N composantes de x plus les
N(N + 1)/2 monômes formés par les produits de paires de composantes de x.
Remarque
Φ0 = x0 pour pouvoir traiter le
Comme pour le perceptron, nous travaillerons dans l’espace élargi, qui inclut une composante constante
seuil w0 comme un poids supplémentaire dans l’espace des caractéristiques. Cette convention n’est pas utilisée par tous les auteurs.
Certains explicitent le seuil, généralement dénoté b. Cela oblige à ajouter des équations dans la relation (48) (voir plus loin), compliquant
inutilement la formulation du problème.
Un ensemble d’apprentissage qui serait séparable par une fonction quadratique dans l’espace des entrées
x ∈ RN devient linéairement séparable dans l’espace des caractéristiques quadratiques RN’. Alors, un
simple perceptron dans l’espace des vecteurs F peut résoudre le problème de discrimination. Remarquons
que le perceptron sphérique présenté plus haut dans ce chapitre est une application particulière de la
même idée : le potentiel sphérique est une fonction quadratique des variables.
Par exemple, supposons que N = 2, et que l’on ait choisi l’espace des caractéristiques quadratiques défini
par (42). On aura :
x → Φ = x1 ( x2 x12 x1 x2 x22 ) T
(43)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 345/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
326
qui a N’ = 5. Si l’on tient compte du seuil, les poids d’un perceptron dans cet espace aura 6 composantes.
Le potentiel (7) dans cet espace s’écrit :
où les indices de chaque poids rappellent la forme du monôme qu’il pondère. L’ensemble d’apprentissage
est bien classé par ce perceptron dans l’espace F si les poids w satisfont, pour tous les exemples, la condi-
k k
( )
tion (15) qu’on réécrit ici : y Φ x ⋅ w > 0 .
Un autre exemple simple, qui a l’avantage d’être facile à
visualiser car les entrées sont unidimensionelles, est repré-
senté sur la figure 6-20. Pour séparer ces exemples, il faut
deux hyperplans séparateurs, représentés sur la figure 6-20
(a). Comme nous l’avons vu avec les méthodes construc-
tives, il faudrait un réseau avec au moins deux unités
cachées pour apprendre cette séparation. Par contre, si l’on
représente les points dans un espace de caractéristiques
( )
T
quadratiques Φ ( x) = x x 2 à deux dimensions (voir
figure 6-20 (b)), où, mis à part le seuil x0 (non repré-
senté), la première coordonnée de chaque point est x et
l’autre est son carré x2, l’ensemble est linéairement sépa-
rable. Dans l’espace F, les poids w = ( w 0 w1 w 2 ) qui
T
( ( ))
y k w 0 + w 1x k + w 2 x k
2
> 0 , pour tous les exemples.
classes en dimension 1, avec deux « hyperplans »
séparateurs. (b) Représentation dans l’espace
Or, nous avons déjà vu que, en général, si un problème des caractéristiques quadratiques
( )
T
est linéairement séparable, il existe une infinité d’hyper- Φ (x )= x 0 x x 2 où l’ensemble
plans séparateurs. La solution SVM consiste à choisir, est linéairement séparable (par souci de clarté,
nous avons représenté la séparation dans le sous-
dans l’espace F, l’hyperplan de marge maximale. Mais espace x 0=1 ; voir aussi la figure 6-5).
au lieu d’utiliser un des algorithmes présentés plus haut
dans ce chapitre, on utilise une formulation qui ouvre
d’autres possibilités.
Les poids w qui définissent l’hyperplan séparateur des SVM dans l’espace F doivent satisfaire les condi-
tions suivantes, pour tous les exemples :
( )
yk Φ xk ⋅ w ≥ 1 ; 1 ≤ k ≤ M (44)
Remarque
Les contraintes (44) sont plus fortes que les conditions (15). Ces dernières assurent simplement que tous les exemples sont bien classés.
Si l’on divise les deux membres de (44) par la norme des poids, ces conditions s’écrivent :
( )≥
y k w ⋅Φ x k 1 . (45)
w w
Le membre de gauche n’est autre que la stabilité de l’exemple k dans l’espace F. Comme nous l’avons vu
dans la géométrie de la classification, la valeur absolue de cette quantité est la distance de l’exemple à
l’hyperplan séparateur. Si (44) est vérifiée, les exemples qui satisfontl’égalité sont à une distance 1/||w||
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 346/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
327
CHAPITRE 6
de l’hyperplan séparateur, tous les autres se trouvent plus loin. Autrement dit, 1/||w|| est la marge de
l’hyperplan défini par les poids w. Donc, la marge est maximale si ||w|| est le plus petit possible, compa-
tible avec les conditions (44). Remarquons que ces conditions ne sont pas triviales : si ||w|| est trop petit,
certains exemples, même bien classés, pourraient ne pas les satisfaire.
Ainsi posée, la recherche d’une SVM devient un problème de minimisation quadratique sous contraintes.
En effet, il faut minimiser ||w|| (ou, ce qui est équivalent, son carré) :
1
E= w⋅w (46)
2
sous les M contraintes (44). On introduit le facteur 1/2 dans (46) pour des raisons purement pratiques
(quand on dérive par rapport à w, le 2 au dénominateur se simplifie).
Si l’ensemble d’apprentissage est linéairement séparable dans l’espace F, alors le domaine de minimisa-
tion est convexe, défini par les contraintes (44). Dans le cadre de la théorie de la programmation non
linéaire, que nous ne présenterons pas ici mais dont nous utiliserons certains résultats, on démontre que,
dans ce cas, le minimum de (46) est unique ; on l’appelle SVM à marge dure. Par contre, si l’ensemble
d’apprentissage n’est pas linéairement séparable dans l’espace des caractéristiques choisi, les contraintes
(44) sont incompatibles. Alors, le problème de minimisation n’a pas de solution. Dans ce cas, quand on
applique l’algorithme que nous détaillons par la suite, on reçoit des messages d’erreur. Il y a alors deux
possibilités : soit on change d’application F, soit on accepte des solutions avec des erreurs d’apprentis-
sage. Mais alors, il faut reformuler le problème, comme nous le verrons plus loin.
( { }) = 12 w ⋅ w + ∑ c ⎡⎣1 − y w ⋅Φ ( x )⎤⎦
L w , ck
k =1
k k k (47)
qui est une fonction de N’ + M +1 variables (les N’ + 1 poids plus les M coefficients ck ).
La théorie de la programmation non linéaire établit que la solution recherchée s’obtient au point col de
(47) : c’est un minimum par rapport aux w, mais un maximum par rapport aux multiplicateurs de
Lagrange.
Remarque
Pour tenir compte du fait que les contraintes (44) sont des inégalités et non pas des égalités, il faut modifier un peu la méthode des multi-
plicateurs de Lagrange habituelle. En particulier, il faut faire attention aux signes des différents termes dans (47). Avec
vention
la con
utili-
sée, il faut imposer une condition sur les coefficients
c k qui n’existe pas dans la méthode des multiplicateurs de Lagrange habituellek: les c
doivent être non négatifs, pour assurer que l’extremum de (47) minimise (46).
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 347/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
328
La solution recherchée doit satisfaire les conditions suivantes, qu’on appelle de Karush-Kuhn-Tucker :
k
⎫
c ≥0 ⎪
∂L ⎪
k k
-------k = 1 – y w ⋅ Φ ( x ) ≤ 0 ⎪
∂c ⎬ ∀ k = 1, K, M
⎪ (48)
∂L ck 1 y k Φ xk
ck ------- ⎪
[ w ] ⎪
= ∂ck = 0 – ⋅ ( ) ⎭
M
∂L = w – k k k
-------
∂ck
i ∑c y Φ i (x ) = 0 ∀ i = 0,1, K, N’.
k=1
La première ligne de (48) est la condition mentionnée dans la remarque. Les autres correspondent à
l’annulation des dérivées partielles de L(w, {ck}) par rapport à chacune des variables. En particulier la
deuxième ligne n’est autre que l’ensemble des contraintes (44).
La quatrième ligne nous dit que, tout comme dans le cas général du perceptron (voir équation (23)), les
poids de la SVM sont une combinaison linéaire des exemples (dans l’espace F) avec coefficients positifs
ck. La troisième ligne nous indique que certains de ces coefficients sont strictement nuls. Dans l’ensemble
d’apprentissage il y a donc deux types d’exemples, ceux pour lesquels ck > 0, et alors nécessairement
( ) ( )
yk w ⋅ Φ xk = 1, et ceux qui ont ck = 0, qui peuvent avoir yk w ⋅Φ xk > 1 . Les exemples qui ont ck > 0
sont essentiels : ce sont les seuls qui contribuent à la valeur des poids. On les appelle vecteurs supports.
Pour la suite on dénotera SV l’ensemble des vecteurs supports, et MSV leur nombre. La relation (45)
montre que tous les vecteurs supports se trouvent à une distance 1/||w|| de l’hyperplan séparateur : ils sont
exactement sur la marge. Les vecteurs supports sont finalement les seuls exemples importants. Si
l’ensemble d’apprentissage ne contenait que ces exemples, la solution SVM serait la même. Mais,
évidemment, on ne les connaît pas a priori.
Remarque 1
Il est tout à fait possible d’utiliser une minimisation quadratique sous contraintes, comme celle que l’on vient de présenter, pour trouver le
perceptron de marge maximale dans l’espace des entrées. Cependant, si les exemples de l’ensemble d’apprentissage ne sont pas linéai-
rement séparables, l’algorithme ne converge pas, et, par conséquent, il ne fournit même pas une approximation de la solution cherchée.
Remarque 2
L’espace des caractéristiques nécessaire pour la séparation (et donc, pour que l’algorithme d’apprentissage converge) peut être de très
grande dimension.
Remarque 3
Si l’apprentissage se fait par minimisation d’un coût, comme nous l’avons présenté au paragraphe correspondant, on déduit que les coef-
ficients ck sont non négatifs. Dans le cadre des SVM, on l’impose.
Formulation duale
En pratique, on ne fait pas la minimisation de (47) par rapport aux N’ + M + 1 variables. Il est bien plus
convenable d’aller un peu plus loin dans la formulation théorique avant d’aborder l’aspect algorithmique.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 348/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
329
CHAPITRE 6
( )
wi = ∑ c k y kΦ i x k (49)
k =1
dans l’expression du lagrangien (47), pour éliminer les poids. On obtient alors le lagrangien dual, qui est
une fonction des seuls multiplicateurs de Lagrange :
M
1
{ }
LD ( c k ) = ∑ ck − ∑ ck Dkk ' ck '
2 k, k'
(50)
k=1
où
( ) ( )
D kk ' ≡ y k yk ' Φ xk ⋅Φ xk ' (51)
est l’élément d’indices k et k’ de la matrice D qui ne dépend que des produits scalaires des paires d’exem-
ples. Maintenant il faut maximiser (50) par rapport aux ck, sous les contraintes ck ≥ 0. Cette maximisation
s’appelle problème dual, le primal étant la minimisation de (46) sous les contraintes (44).
Le problème dual a des caractéristiques intéressantes. D’abord, comme il ne dépend que desck , le nombre
d’inconnues est M, indépendamment de la dimension de l’espace des caractéristiques. Ceci est intéressant
si >>
(à N’ M, comme
condition c’est existe
qu’elle souvent!).leEt,
cas.
ceOn
quipeut démontrer
est très que la
important, il ysolution qui maximise
a des algorithmes très(50) est uniquepour
performants
maximiser une fonction quadratique sous contraintes. On peut en obtenir quelques-uns à l’URL
http://www.kernel-machines.org .
Conséquences
Une fois obtenus les ck par maximisation de (50), on peut calculer les poids en utilisant (49). Cependant,
il n’est pas nécessaire de garder en mémoire les poids (dont le nombreN’+1 peut être très grand). Il peut
être avantageux de ne garder que les vecteurs support xk avec leurs classes y k et les MSV multiplicateurs de
Lagrange c k correspondants, dont le nombre est au plus égal à M car, dans le pire des cas, tous les exem-
ples sont supports.
La sortie de la SVM, qui est un perceptron dans l’espace F, est donnée par y = sgn ( w ⋅Φ ( x )). En prin-
cipe, pour classer un nouveau vecteur x, il faut le transformer en F(x) utilisant l’application choisie, et
remplacer les valeurs des wi par leurs expressions (49). On obtient :
⎛ ⎞
⎝k∈SV
( )
y = signe ⎜∑ c k y kΦ x k ⋅Φ ( x )⎟.
⎠
(52)
Φ ( x) ⋅Φ ( y ) = K ( x, y) (53)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 349/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
330
où la fonction K(x, y) s’appelle fonction noyau (kernel en anglais). Par exemple, il est facile de vérifier
que le noyau correspondant aux transformations quadratiques (42) et (43) s’écrit :
K ( x , y) = x ⋅ y (1 + x ⋅ y ). (54)
Remarque
En réalité, avec (54) on ne retrouve pas exactement les produits scalaires des caractéristiques (42) et (43), mais des expressions qui ont
On( xa )⋅Φ ( y) = x1 y1 + x2 y2 + x1 1y + 1x 2x 1y 2y+ 2x2 y
2 2 2 2
d’autres coefficients. Par exemple, considérons le cas à dimension 2. Φ tandis
que, si l’on utilise l’expression (54), onKa( x),=
y x1 y1 + x2 y2 + x21 1y2 + 2 1x 2x 1y 2y+ 2 2
x y
2 2 , qui correspond en fait à l’application
Φ ← x1 ( x2
2
x1 2 x1 x2 )
2
x2 . La quatrième composante de cette dernière diffère, d’un facteur
2 , de l’application (45).
La propriété (54) permet d’exprimer les SVM en termes de fonctions noyaux. Introduisant l’expression
(53) dans (51) et (52), on obtient :
(
D kk ' = y k y k ' K xk , xk ' ) (55)
y = sgn ∑ c k y k K xk , x . ( ) (56)
k ∈SV
On peut donc résoudre le problème dual et classer toute entrée nouvelle en ne faisant des calculs que dans
l’espace des entrées, au moyen du noyau K. Il n’est pas nécessaire d’expliciter l’application F : il suffit
de connaître le noyau correspondant. Mieux encore, tout noyau ayant les propriétés d’un produit scalaire
peut être utilisé par une SVM, même si l’on ne sait pas expliciter l’application F correspondante. C’est
pour cela que les SVM sont aussi appelées machines à noyaux, ou en anglais, kernel machines.
Les noyaux acceptables, qui possèdent les propriétés des produits scalaires, sont symétriques et semi-
définis positifs. Autrement dit, ils doivent satisfaire les conditions suivantes (théorème de Mercer) :
K ( x, y) = K ( y, x )
(57)
∫ K ( x , y) g ( x) g ( y) d x d y ≥ 0 ∀ g ( x ) tel quue ∫ g (x ) dx < ∞ .
2
L’application correspondante peut être déterminée à partir des vecteurs propres et des valeurs propres du
noyau. Cependant, nous avons vu que cela n’est pas nécessaire.
Le noyau gaussien est un des plus utilisés :
⎛− x − y 2 ⎞
K ( x , y ) = exp⎜ 2 ⎟ (58)
⎝ 2σ ⎠
qui correspond à un espace de caractéristiques de dimension infinie. Les classifieurs qui les utilisent sont
appelés SVM à fonctions de base radiales. Pour comprendre le sens de ce noyau, on peut l’introduire dans
(56), ce qui donne :
2
⎛ x − xk ⎞
y = sgn ∑ c k y k exp ⎜− 2
⎟. (59)
k ∈SV ⎝ 2σ
⎜ ⎟
⎠
La classe d’une nouvelle entrée x est donnée par une somme pondérée de gaussiennes centrées sur les
vecteurs supports. Comme les gaussiennes ont une décroissance rapide, il y a, en général, un seul terme
dominant dans la somme : celui du vecteur support le plus proche dex. Les ck étant positifs, la classe sera
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 350/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
331
CHAPITRE 6
celle de ce SV. Bien que cette conclusion ne soit pas rigoureuse, car il peut y avoir des contributions de
plusieurs gaussiennes, elle permet de se faire une idée intuitive sur ces noyaux. La figure 6-21 illustre le
fonctionnement des SVM à fonctions de base radiales.
( )
y kw ⋅Φ xk ≥ 1 − ζ k pour 1 ≤ k ≤ M (60)
ζk ≥ 0. (61)
Rappelons que si l’on divise par ||w|| le membre de gauche de (60) on obtient la distance des exemples à
l’hyperplan séparateur dans l’espace Φ. Donc, les exemples qui sont tels que 0 < ζk < 1 sont à une distance
de l’hyperplan inférieure à 1/||w||, mais sont bien classés. En revanche, ceux pour lesquelsζ k > 1 sont mal
classés. Pour minimiser le nombre d’exemples mal classés, il faut les pénaliser. Alors, au lieu de mini-
miser (46), on cherche à minimiser
M
1
Γ (C ) =
2
( )
w⋅ w+ C ∑ ζ
k n
(62)
k =1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 351/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
332
propriétés de généralisation des machines à marge floue. Une grande valeur de C donne plus d’importance
aux variables de relaxation qu’à la norme des poids. Elle induit des solutions ayant plutôt peu d’exemples
mal classés quitte à avoir une marge faible. Inversement, une petite valeur de C induit des solutions ayant
une grande marge, avec éventuellement plus d’exemples mal classés. Généralement, on cherche un
compromis par tâtonnements, ce qui impose une exploration coûteuse, car il faut résoudre le problème
plusieurs fois avec des valeurs de C différentes.
L’exposant n permet de contrôler l’influence des exemples mal classés. Plus il est grand, plus on pénalise
les exemples mal classés, qui ont ζk > 1, et plus on s’approche alors d’une solution qui minimise le
nombre d’exemples mal classés. Cependant, pour rester dans le cadre de la minimisation quadratique
sous contraintes, et pouvoir généraliser ce qui a été développé pour les machines à marge dure, on est
limité aux valeurs n = 1 ou n = 2. Dans ces conditions, la solution de marge floue est unique, et on peut la
trouver avec des algorithmes de minimisation quadratique sous contraintes. Elle s’exprime, comme (49),
en termes des seuls vecteurs supports, dont maintenant les exemples qui ont des ζ k ≠ 0 font partie.
Introduisant les contraintes (60) et (61) dans (62), on définit le lagrangien des SVM à marge floue :
M M M
( { }) = 12 w ⋅ w + C ∑(ζ ) + ∑ c
L soft w , c k
k= 1
k
n
k=1
k
( )
⋅ x k ⎤⎦ − ∑ dkζ k .
⎡⎣1 −ζ k − y k wΦ
k =1
(63)
k k
c ≥0 ; d ≥ 0 ⎫
⎪
k k
dζ =0 ⎪
k k k k
⎪
c [1 – ζ y w Φ x ] ⎪
=∂ L0soft – k ⋅ ( ) ⎪
------------ = – ζ ≤ 0 ⎪
∂d k ⎬ ∀ k = 1, K, M
⎪ (64)
∂Lsoft k k k ⎪
------------
k
= 1 – ζ – yw ⋅ Φ ( x ) ≤ 0 ⎪
∂c ⎪
∂Lsoft k n– 1 k k
⎪
------------ = nC ( ζ ) – c – d = 0 ⎪
∂ζ k ⎭
M
∂L soft
∑c
k
------------ = wi – yk Φ i (x k ) = 0 ∀ i = 0,1, K, N’.
∂wi k=1
Introduisant ces équations dans (63), on obtient, après quelques manipulations, le lagrangien dual. Nous
considérons dans la suite les cas n = 1 et n = 2 séparément.
Cas n = 1
Pour n = 1, le lagrangien dual a exactement la même expression que dans le cas de marge dure (équation
(50)), mais les coefficients ck doivent satisfaire 0 ≤ ck ≤ C. Comme pour le cas de marge dure, on appelle
vecteurs supports les exemples pour lesquels ck > 0. Mais maintenant, il y a deux sortes de vecteurs
supports :
• ceux qui satisfont ck < C : ils sont tels que ζ k = 0, donc ils se trouvent exactement sur la marge, comme
dans le cas des SVM à marge dure ;
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 352/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
333
CHAPITRE 6
• ceux qui satisfont ck = C : ils sont tels que ζ k > 0. On peut remarquer que, parmi ces derniers, il y a tous
les exemples bien classés qui se trouvent à l’intérieur de la marge, mais aussi tous les exemples mal
classés (pour lesquels ζ k > 1).
Cas n = 2
Pour n = 2, le lagrangien dual est
M
1 M k kk' k' 1 M
LDf ( {c }) = ∑ c
k
k=1
k
−
2 k ,k '
( )
∑ c D c − 4 C ∑ ck
k =1
2
(65)
qui peut s’écrire comme (50) si l’on redéfinit la matriceD comme suit :
1
Dkk ' ← Dkk ' + δk k . (66)
2C , '
On peut démontrer, à partir des équations (64), que les contraintes sur lesc k pour n = 2 sont les mêmes
que pour les SVM à marge dure, ck ≥ 0. La constante C n’est pas une borne comme pour n = 1. Mais, à
présent, seuls sont vecteurs supports les exemples pour lesquels ζ k > 0. Les exemples qui se trouvent sur
la marge, et pour lesquels ζk = 0, ne sont pas vecteurs supports.
SVM pratique
Pour résumer cette introduction aux SVM, nous présentons la démarche à suivre dans les applications.
Dans la pratique, l’apprentissage avec des SVM comporte les étapes suivantes :
1. choisir un noyau K (x , y ) ;
2. choisir la valeur de C : si C = 0, on cherche une SVM à marge dure ; si C > 0, on cherche une SVM à
marge floue. Dans ce dernier cas il faut choisir n (n = 1 ou n = 2) ;
3. calculer la matrice Dkk’ où les indices k, k’ parcourent toutes les paires d’exemples (si C = 0, ou si
C > 0 et n = 1, on utilise la définition (55) ; si C > 0 et n = 2, on utilise la définition (66) ;
4. minimiser le lagrangien dual pour trouver les coefficientsc k, à l’aide d’un des algorithmes disponibles
(voir sur le site http://www.kernel-machines.org )
5. garder en mémoire les exemples (entrées et classes) qui sont vecteurs supports (pour lesquels ck > 0)
et les coefficients c k correspondants.
Ensuite, pour classer une entrée quelconque, on utilise l’équation (56), que nous réécrivons ici :
y = sgn ∑ c k y k K xk , x . ( )
k∈ SV
Remarque
Les SVM constituent une approche élégante pour l’apprentissage de la discrimination. Cependant, leurs propriétés de généralisation ne
sont pas nécessairement supérieures à celles que l’on peut obtenir avec d’autres méthodes et algorithmes, comme par exemple avec des
réseaux de neurones. La popularité des SVM est, en grand partie, due à leur simplicité d’application et au fait satisfaisant que leur solution
est unique. Il faut quand même garder à l’esprit qu’unicité n’est pas synonyme de qualité. Dans tous les cas, de bonnes performances ne
sont atteintes que par une application judicieuse et réfléchie des méthodes.
Nous avons vu dans le chapitre 1, et nous verrons à nouveau à la fin du présent chapitre, que l’erreur de
généralisation d’un classifieur obtenu par apprentissage est une fonction décroissante du rapport entre le
nombre d’exemples M et le nombre de paramètres du classifieur. Dans le cas d’un perceptron, ce nombre
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 353/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
334
est la dimension de l’espace où il effectue la séparation, lequel, dans le cas des SVM, est l’espace des
caractéristiques. Si la dimension de ce dernier augmente mais que M reste constant, on peut se demander
si les SVM sont capables de généralisation [BUHOT et al. 2000]. Une première réponse à cette question
réside dans le fait que l’erreur de généralisation des SVM est bornée par la fraction d’exemples qui sont
vecteurs supports (cette fraction est donc inférieure à 1). Bien qu’elle soit quantifiable lors des applica-
tions (il suffit de déterminer la fraction de vecteurs supports), cette borne a souvent des valeurs trop
grandes : elle surestime la probabilité de faire des erreurs de classification. Ce problème, ainsi que
d’autres propriétés des SVM, fait l’objet de nombreuses études théoriques (voir par exemple [RISAU-
GUSMAN et al. 2000a], [RISAU-GUSMAN et al. 2000b], [R ISAU-GUSMAN et al. 2001], [DIETRICH et al.
1999], [RISAU-GUSMAN et al. 2002]). Le lecteur intéressé peut consulter la thèse de [RISAU-GUSMAN
2001]
Il y a une autre façon d’aborder le problème des classes multiples : on peut construire des arbres de
réseaux. On choisit une séquence de classes dans un ordre quelconque. Par exemple yK, y 2, …, y 1 et l’on
apprend à séparer la première des K – 1 autres. Dans notre exemple, on prend comme cibles y = 1 pour les
exemples de la première classe (en l’occurrence, yK), et y = –1 pour tous les autres. Ensuite, on restreint
l’ensemble d’apprentissage aux exemples des classes encore non discriminées (y2, ..., y1 dans notre
exemple), et l’on sépare y 2 des autres, et ainsi de suite, jusqu’à ce qu’il ne reste que les deux dernières
classes. L’intérêt de cette heuristique réside dans le fait que les ensembles d’apprentissage des réseaux
successifs sont de taille décroissante. Le réseau qui en résulte est un arbre, en ce sens que, pour classer
une entrée nouvelle, il faut d’abord la classer avec le premier réseau. S’il lui attribue la sortieσ = +1, la
classe est yK. Mais si la sortie est σ = –1, cela veut dire que l’entrée n’est pas de la classe yK, et qu’il faut
alors la faire classer par le deuxième réseau. On s’arrête dès qu’un réseau reconnaît l’entrée.
Puisque la séquence des classes choisie est arbitraire, en principe il faudrait comparer les sorties de
plusieurs arbres, chacun correspondant à une séquence différente de classes. Les arbres de réseaux ont été
appliqués au problème des ondes de Breiman dans [TORRES MORENO 1997].
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 354/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
335
CHAPITRE 6
Enfin, comme nous l’avons préconisé dans le chapitre 2, section « Méthodologie de conception d’un
classifieur », on peut, si chaque classe n’est pas linéairement séparable de toutes les autres, séparer les
classes deux à deux, ce qui, pour un problème à K classes, conduit à la construction de K(K−1)/2 petits
classifieurs, souvent linéaires. Contrairement à l’approche par arbres, on ne choisit pas de séquence arbi-
trairement, donc il n’est pas nécessaire de comparer les résultats obtenus avec lesK! séquences possibles ;
de plus, il n’est pas nécessaire d’utiliser les mêmes ensembles de descripteurs pour les différentes sépara-
tions, ce qui peut simplifier considérablement le problème. Nous avons également montré, dans le
chapitre 2, qu’il est très facile d’estimer les probabilités d’appartenance de l’objet à chaque classe, à partir
des résultats obtenus par chacun des classifieurs « deux à deux ». Le lecteur trouvera, dans le chapitre 2,
plusieurs applications réelles mettant en œuvre cette démarche, et les références bibliographiques corres-
pondantes.
Questions théoriques
Dans la première partie de ce chapitre nous avons présenté une liste de questions conceptuelles posées par
l’apprentissage automatique. La théorie de l’apprentissage tente de répondre à ces questions dans un cadre
statistique, en supposant que l’ensemble d’apprentissage, ainsi que les nouvelles entrées qu’on doit
classer, sont indépendants, tirés au hasard à partir d’une densité de probabilité inconnue. Cette formula-
tion, que nous présentons dans le prochain paragraphe, permet d’interpréter les hypothèses sous-jacentes
aux applications algorithmiques, et constitue un cadre cohérent pour la théorie. Bien que ce chapitre n’ait
pas pour objet d’entrer dans les détails théoriques, nous décrivons quelques résultats intéressants qui,
étant donné la nature probabiliste de la théorie, sont des résultats statistiques. Le premier permet d’estimer
l’espérance d’erreur de classification d’un perceptron binaire. Ensuite nous présentons : l’approche bayé-
sienne de la discrimination ; une borne inférieure de l’erreur de généralisation, qui ne dépend que des
caractéristiques du classifieur, du nombre d’exemples et de la dimension de l’espace des entrées ; la capa-
cité du perceptron, qui est l’espérance mathématique du nombre d’exemples linéairement séparables dans
un espace d’entrée de grande dimension, quelles que soient leurs classes.
Avertissement
Les sections qui suivent ne peuvent être abordées avec profit que par les lecteurs qui ont bien assimilé les bases des statistiques et proba-
bilités.
Le deuxième terme de (67) correspond au processus suivant : on tire d’abord l’entréexk avec la densité de
probabilité p(xk), puis on tire la classe yk, étant donnée l’entrée xk, avec une probabilité conditionnelle
( ) ( )
P yk x k . Un cas particulier de probabilité conditionnelle P yk xk est le cas déterministe.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 355/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
336
Remarque
Le paradigme « maître-élève », suggéré au chapitre 2 pour tester des programmes, est souvent utilisé pour formuler, dans ce cadre proba-
biliste, les questions théoriques. Ainsi, on suppose souvent que chaque composante des entrées est tirée aléatoirement avec une densité
1 ( )
⎛ xk 2 ⎞
( )
( )
qui est soit gaussiennep xik = exp⎜−
i
⎟ , soit uniforme dans un certain intervalle avecp x ki = 1/ a . On demande
a],[0,
2π ⎝ 2 ⎟
⎜ ⎠
ensuite au « réseau maître », de poids w*, la sortie qu’il attribue à l’entrée
k. Parxexemple, si le maître est un perceptron déterministe de
( ) ( )
poids w*, on aP yk x k = Θ ykw *⋅ x k . Le but de l’apprentissage est de trouver les poids w d’un réseau dit élève. En principe, il doit
classer correctement les exemples de
LM , mais surtout des entrées nouvelles, tirées avec probabilité p(x).
Puisque LM suit une loi probabiliste, suivant la réalisation particulière de LM , les poids appris w seront
différents (dans cette section, on notera w les poids appris, qu’il s’agisse d’un perceptron ou d’un réseau
plus complexe). Donc, w est une variable aléatoire, de distribution de probabilité p(w|LM ), dont la déter-
mination pose un problème d’inférence statistique. Dans ce paragraphe, nous présentons la méthode
d’inférence bayésienne. Elle part du théorème de Bayes, introduit dans le chapitre 1, que l’on peut écrire
formellement comme suit :
p (w LM ) pB ( LM ) = p ( LM w) p0 ( w) (68)
où pB (L M) est défini ci-après (équation (70)) ; p0(w) est la probabilité a priori des paramètres du classifieur
(les poids dans le cas d’un réseau de neurones) avant de commencer l’apprentissage, et p(LM |w), appelée
évidence, est la probabilité de l’ensemble d’apprentissage LM prédite par un élève qui aurait des paramè-
tres w. Pour réaliser l’inférence, on doit faire des hypothèses sur l’a priori et l’évidence, qui apparaissent
dans le membre de droite de l’équation (68) de l’inférence bayésienne. On peut alors déduire la densité de
probabilité a posteriori des poids:
p ( L M w ) p 0 ( w)
p (w LM ) = (69)
pB ( LM )
où
( ) ∫ p ( L w) p ( w) dw
p B LM = M 0
(70)
est la probabilité marginale des exemples dans la classe des élèves (des réseaux) correspondant à notre a
priori p 0 . Suivant les hypothèses implicites dans la probabilité a priori p0(w) et l’évidence p(LM |w), on
obtiendra des résultats différents.
Remarque
La relation (69) est la formule de Bayes appliquée aux paramètres du classifieur qui sont considérés comme des variables aléatoires
dépendant de l’ensemble d’apprentissage. Il faut noter que, dans le chapitre 1, nous avons appliqué la formule de
auxBayes
classes que
nous avons considérées comme des réalisations de variables aléatoires dépendant du vecteur des descripteurs
x. Ce sont donc là deux
utilisations entièrement différentes de la formule de Bayes, appliquée à deux problèmes distincts dans le cadre de la classification.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 356/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
337
CHAPITRE 6
Les a priori les plus usuels, au niveau de chaque neurone du réseau, sont l’a priori gaussien,
1 ⎛ w2 ⎞
p0 ( w) = exp ⎜− ⎟ (71)
( 2π ) N
⎝ 2 ⎠
ou la loi uniforme sur une hypersphère dont le rayon est la norme du vecteur des poids. Par exemple,
(
p0 ( w) = δ w − 1
2
) (72)
impose que la norme soit unitaire. Dans le cas d’un élève perceptron qui fait de la discrimination avec des
hyperplans, (72) est un choix judicieux, car nous avons vu que seule l’orientation dew est pertinente et
doit être apprise. Il faut remarquer que les a priori (71) et (72) n’introduisent aucune information. Ils attri-
buent une probabilité non nulle, et uniforme dans le cas (72), à tous les poids possibles. Si l’on a des infor-
mations supplémentaires sur le problème à traiter, par exemple, si l’on possède des connaissances sur
l’orientation la plus probable de l’hyperplan, ou sur un modèle des données, il faut les inclure dans l’a
priori par un choix judicieux de p0 (w). L’autre terme de (69) qu’il faut expliciter est l’évidence, qui
contient toute l’information sur les performances du classifieur par rapport à l’ensemble d’apprentissage
(s’il classe correctement ou non les exemples). Si les exemples sont indépendants, on peut écrire :
M
p ( LM w) = ∏ P yk xk , w p xk
k =1
( ) ( ) (73)
où p(xk) est la densité de probabilité des entrées. P(yk|xk, w) est la probabilité que le réseau, muni des poids
w, attribue la classe correcte, yk , à l’entrée xk de LM .
Remarque 1
Tous les choix faits avant l’apprentissage, quelle que soit l’architecture du réseau (réseau multicouche, fonction d’activation binaire ou
réelle, espace des caractéristiques des SVM, etc.), correspondent à des a priori différents ; ils sont inclus
0(w).
dans p
Remarque 2
Rappelons que si l’évidence est multiplicative, comme on l’a supposé, l’espérance mathématique de toute fonction additive des exemples
est la somme des espérances. Cette remarque, développée dans le paragraphe suivant, permet de justifier le fait que les fonctions de coût
que l’on utilise soient des sommes des coûts partiels des exemples.
( )
P y k x k , w = Θ zk ( ) (74)
k k k
où z = y x ⋅ w est le champ aligné (14). Notons que l’espérance mathématique que l’élève de poids w
fasse une erreur de classification sur l’exemple k est :
ε kt = 0 × Θ ( zk ) + 1 × Θ ( − zk ) . (75)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 357/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
338
– 6 –4 – 2 0 2 4 6
−γ k δh
( )
P γ k + δ k < 0 = P δ k < −γ k = ( ) ∫ −∞
( )
p δ k d δ k . (77) Figure 6-22. Comparaison entre une gaussienne
et la distribution de bruit proposée dans le texte
Suivant la forme du terme de bruit p(δ), la probabilité
d’erreur de classification a des expressions différentes. Supposons quep( δ) soit de la forme
β
p ( δ) = ---------------------------
- (78)
2cosh 2 (βδ )
qui est une distribution en forme de cloche, similaire à une gaussienne, comme le montre la figure 6-22.
Dans (78), le paramètre β joue le même rôle que l’inverse de la variance de la gaussienne : plus β est
grand, plus la distribution (78) est étroite. En introduisant (78) dans (77), on obtient l’espérance mathé-
matique de l’erreur d’apprentissage sur l’exemple k en présence de bruit additif sur les entrées :
1
ε kt =
2⎣
(
⎡1 − th βγ k ⎤⎦ . ) (79)
Remarque 2
1 ⎛ δ2 ⎞
p (δ ) =
Si l’on suppose que le bruit est gaussien, exp ⎜− 2 ⎟ , on trouve que l’erreur d’apprentissage est proportionnelle à la fonc-
2π ⎝ 2σ ⎠
tion Erreur. Cette dernière est moins aisée à traiter numériquement que la tangente hyperbolique, ce qui justifie de faire l’hypothèse (78)
dans les algorithmes d’apprentissage.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 358/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
339
CHAPITRE 6
où p(w|LM ) est la probabilité a posteriori (69), qui dépend de l’évidence p(LM |w) et de l’a priori p0(w).
Remarque
Si le classifieur élève est déterministe, et si ses poids ont des valeurs w, apprises par la minimisation d’un coût, comme c’est le cas des
appris
classifieurs considérés dans tout ce chapitre, alors ( ) (
p w LM =δ w − wappris ) ( )
,Pet σ x ,wappris dans (80) est soit 1, soit 0. Pour un élève
( ) (
perceptron, P σ x ,w appris =Θ σ x ⋅w appris . Donc, si) ( ) (
x ⋅w appris > 0 , on Pa σ = + 1 x ,wappris = 1 et )
P σ = − 1 x ,wappris = 0 , et symétri-
quement pourx ⋅wappris <0 . La sortie d’un perceptron déterministe bayésien n’est en conséquence rien d’autre que la sortie du perceptron
simple. Il dépend de l’algorithme d’apprentissage par l’intermédiaire de l’évidence.
Certains classifieurs ne sont pas déterministes. Il en est ainsi si la sortie suit une loi de probabilité P(σ | x, w)
qui n’est pas une fonction Theta, comme nous l’avons supposé dans ce chapitre, ou parce qu’il existe un
ensemble de poids acceptables, dont la distribution p(w|LM) n’est pas un pic delta. Ainsi, la sortie σ d’un
perceptron linéaire avec l’hypothèse de bruit additif δ sur le champ (dû à des entrées bruitées) a une
probabilité :
( (
P ( σ x, LM ) = P σ x ⋅ wappris +δ > 0 ) )
(
= P σδ > −σ x ⋅ wappris ) (81)
+∞
= ∫ p (δ )dδ
− σ x⋅wappris
P ( σ x, LM ) = ∫{ }
wappris ( L M )
( )
Θ σ x ⋅ wappris d wappris (82)
où l’intégrale doit être calculée sur tous les poids correspondant à une erreur d’apprentissage nulle.
Comme nous l’avons vu dans le chapitre 1 (règle de décision de Bayes), le classifieur bayésien optimal
classe les entrées de façon à maximiser la probabilité a posteriori de la classe, P(σ |x, LM), équation (80).
Dans le cas du perceptron, il attribue à chaque nouvel exemple x la classe σ qui maximise (81), ou (82),
suivant les hypothèses faites. Si P(+1|x, L M) > P(–1|x, LM), la décision bayésienne optimale est que la
classe de x est σ = +1, autrement elle est σ = –1.
Remarque
Dans le cas d’un perceptron qui apprend une classification linéaire, la décision bayésienne optimale est celle qui classe les nouvelles
entrées comme la majorité des vecteursappris
w (LM).
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 359/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
340
( )
lim M→∞ ε t wappris , L M = infw ε g ( w) (83)
où w appris est le vecteur des poids du classifieur, par exemple ceux qui minimisent le coût. Si la relation
(83) est vérifiée, l’erreur d’apprentissage est un bon estimateur de l’erreur de généralisation. Dans ce cas,
minimiser la première est une bonne manière de minimiser la seconde. On peut remarquer que si l’élève
a une architecture bien adaptée à la tâche, le membre de droite de (83) s’annule. C’est en particulier le cas
d’un perceptron qui apprend des exemples linéairement séparables. Nous avons vu qu’il y a alors une infi-
nité de poids qui annulent et. On peut dire qu’il y a un volume fini de solutions wappris dans l’espace w.
Dans ce cas, la relation (83) est vérifiée par tout algorithme d’apprentissage capable de trouver la sépara-
tion linéaire. Cependant, dans le cas général, l’architecture de l’élève n’est pas nécessairement adaptée au
problème ; alors infw εg (w) 0 et il est difficile d’assurer qu’un algorithme trouvera les poids qui vérifient
(83), surtout s’il existe des minima locaux. Puisque l’ensemble d’apprentissage est aléatoire, il faut établir
les conditions générales qui assurent la convergence (83) quel que soit LM . Vapnik a établi que la relation
(83) est vérifiée si et seulement si la probabilité du plus grand écart entre les deux membres de (83)
s’annule uniformément :
{ }
limM →∞ P sup w,L M ⎡⎣εg ( w) − εt ( w, LM )⎤⎦ > δ = 0 . (84)
Voici le sens de (84) : supposons que l’on dispose de tous les ensembles de M exemples d’apprentissage
LM possibles, tirés au hasard avec une probabilité inconnue. L’argument entre crochets dans (84) signifie
que l’on détermine, pour chaque LM , la valeur des poids qui correspondent au plus grand écart entre
l’erreur ε t (la fraction d’exemples mal classés) et l’erreur de généralisation ε g. La probabilité P dans (84)
représente alors la fraction des ensembles d’apprentissage pour lesquels cet écart est supérieur àδ . Il faut
noter que, de cette manière, P est la probabilité du pire cas possible : c’est la fraction des ensembles
d’apprentissage pour lesquels on peut trouver des poids tels que l’erreur d’apprentissage soit très diffé-
rente de l’erreur de généralisation. Or, pour avoir confiance dans la qualité de l’apprentissage, on veut
s’assurer que ces deux quantités soient proches dans tous les cas (c’est la raison pour laquelle on consi-
dère le pire des cas). Si la condition (84) de convergence uniforme est vérifiée, alorsεt est une bonne esti-
mation de ε g quel que soit L M et quel que soit l’algorithme d’apprentissage. Elle garantit que l’on ne
pourra pas avoir de classifieur pour lequel εt est minimum, mais qui, néanmoins, généralise très mal, au
moins si le nombre d’exemples M est supérieur à un certain seuil, car (84) est une loi asymptotique
(valable pour M suffisamment grand). Plus précisément, Vapnik a établi l’inégalité suivante, quel que soitδ :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 360/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
341
CHAPITRE 6
{
lim M →∞ P sup w, LM εg ( w) − εt ( w, LM ) > δ } ≤ 4 exp ⎡⎣ − ( M δ 2 − G ( 2M )) ⎤⎦ (85)
où G(2M), appelée fonction de croissance (growth function), permet de donner une borne supérieure au
nombre N de dichotomies (séparations en deux sous-ensembles) que le réseau élève peut faire des M
points x1 , ..., xM de l’ensemble d’apprentissage. G(2M) est une fonction croissante de son argument, indé-
pendante de la tâche à réaliser ; elle ne dépend que des caractéristiques de la machine : le nombre de para-
mètres, le nombre de neurones cachés, etc. Remarquons que, pour que le membre de droite de l’équation
(85) soit une borne utile (≤ 1), il est nécessaire que G(2M)/M < δ2. (85) a donc un sens seulement si G
augmente avec M plus lentement qu’une fonction linéaire.
Ainsi, le problème de la convergence uniforme (84), qui garantit généralisation à partir de l’apprentissage
de M exemples, est ramené à celui qui consiste à déterminer la fonction de croissance de la machine,
G(2M). La borne (85) établit que, si G augmente plus lentement qu’une fonction linéaire du nombre
d’exemples M, l’erreur de généralisation est inférieure à 1.
La conséquence de ces considérations théoriques est qu’il suffit de connaître la fonction G pour tous les
types de classifieurs. La borne (85) établit alors le degré de confiance dans la classification de nouvelles
données, car comme ε t et M sont des quantités connues, elle nous permet de borner εg.
Dimension de Vapnik-Chervonenkis
Étant donné un classifieur, la question qui se pose est celle de savoir comment varie G avec M. Plus préci-
sément, exp ⎡⎣G ( M ) ⎤⎦ est un majorant du nombre de dichotomies N(LM) réalisables par l’élève. Autrement
dit,
Il faut donc calculer le nombre de dichotomies de M points que le réseau est capable de faire. Une dicho-
tomie d’un ensemble L M de M points est une séparation de LM en deux sous-ensembles. Par exemple, il y
a 2M dichotomies possibles de M points dans l’espace des entrées. Elles correspondent à toutes les
manières possibles d’attribuer des classes ±1 aux exemples. Si le réseau est capable de les réaliser toutes,
alors G(M) = M ln 2 ∝ M (où ∝ signifie proportionnel), et la borne est complètement inutile. Or, il est
clair que si le nombre de points M est suffisamment petit, même un perceptron pourra réaliser toutes les
dichotomies. Ainsi, comme nous l’avons vu dans le chapitre 1, deux exemples dans l’espace à deux
dimensions sont toujours séparables par un perceptron. Si les exemples sont au nombre de trois, ils sont
séparables, à condition qu’ils soient en position générale (ce qui signifie qu’aucun sous-ensemble de plus
de N points ne se trouve sur un même hyperplan). Au-delà de trois points, seule une fraction de toutes les
dichotomies possibles est linéairement séparable. Tant que toutes les 2M dichotomies sont réalisables, on
peut dire que le réseau « apprend par cœur », queG(M) ∝ M, et que la borne est inutile.
En général, quelle que soit la complexité du réseau élève, il y a un nombre d’exemples maximal,M VC,
appelé dimension de Vapnik-Chervonenkis, au-delà duquel le réseau ne peut réaliser qu’un sous-ensemble
de toutes les dichotomies possibles. Pour M > M VC, G(M) augmente plus lentement avec M, et (85) est
une vraie borne. Voici le comportement de G :
⎧M si M < M VC
⎪
G(M ) ∝ ⎨ M . (87)
M
⎪ VC M ln si M > M VC
⎩ VC
Si M < MVC, les données de l’ensemble d’apprentissage ne constituent pas une contrainte suffisamment
forte pour appréhender les régularités de la tâche avec le réseau utilisé : celui-ci est sur-dimensionné. Il
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 361/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
342
est donc très important de connaître la dimension MVC des réseaux. Pour le perceptron de N entrées et un
seuil, on a :
M VC = N + 1 . (88)
En effet, si l’on a M exemples à apprendre, il faut trouver des poids w qui vérifient les M inégalités
γk(w) > 0 (k = 1, ..., M). Or, le nombre maximal d’inéquations indépendantes compatibles (c’est-à-dire,
qui admettent une solution non triviale) est N + 1. Si l’on en compte davantage, le système d’inéquations
peut être incompatible. Donc, pour M > N + 1, on n’est pas certain qu’il y ait une solution quel que soit
l’ensemble d’apprentissage. En fait, il en existe seulement si l’ensemble d’apprentissage est linéairement
séparable. Pour des réseaux plus complexes, MVC est en général difficile à déterminer, et l’on n’en connaît
que des estimations pour certaines architectures de réseaux particulières. Ainsi, pour un réseau à une
couche cachée de H neurones comportant Nw = (N + 1)H + (H + 1) poids (biais inclus), on a [BAUM
1989]
⎡H⎤
2 N ⎢ ⎥ ≤ M VC ≤ 2 N w log 2 (eH ) (89)
⎢2⎥
où ⎢⎡ ⎥⎤ représente la partie entière et e la base du logarithme népérien. Puisqu’il faut que M << MVC pour
avoir une bonne généralisation, bien des efforts théoriques ont été consacrés à la détermination de la
dimension de Vapnik-Chervonenkis des réseaux de neurones. Le terme de gauche dans (89) nous dit que,
si l’on a M exemples, on doit utiliser un nombre d’unités cachées H << M/N. Ce résultat confirme simple-
ment qu’il faut que le nombre de paramètres du réseau (qui est de l’ordre de NH) soit très inférieur au
nombre de données.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 362/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
343
CHAPITRE 6
restreignons dans la suite, ces deux limites coïncident puisque le nombre de paramètres du réseau est égal
à la dimension de l’espace des entrées.
⎛ −1⎞
N −1 M
D( M , N ) = 2 ∑ ⎜ ⎟. (90)
m =0 ⎝ m ⎠
Le résultat (90) est une propriété géométrique des points dans l’espace de N dimensions ; il est indépen-
dant de l’algorithme d’apprentissage.
Puisque le nombre total de dichotomies possibles de M points est 2 M, la probabilité PLS (LM) qu’un
ensemble de M points dans l’espace de N dimensions soit linéairement séparable est :
D( M, N )
PLS ( L M ) = (91)
2M
que l’on peut écrire comme la somme desN – 1 premiers termes du développement du binôme (1/2 + 1/2)M-1.
Cette somme vaut 1/2 lorsque N – 1 = M/2. La figure 6-21 montre la probabilité (91) pour différentes
valeurs de M et N. On voit que, lorsque la dimension de l’espace est grande, la probabilité de séparation
linéaire est pratiquement égale à 1 pour M ≤ 2N. Cette probabilité tombe abruptement à zéro au voisinage
de M/N ~ 2. En conséquence, bien que l’on ne puisse pas assurer que tout ensemble d’apprentissage de
M = 2N exemples soit linéairement séparable, la probabilité qu’il le soit est très grande ; elle est d’autant
plus grande que N et M sont grands. Dans la limite thermodynamique N → ∞, M → ∞, avec α ≡ M/
N = cte, la capacité typique (ou plus probable) du perceptron correspond à α c = 2. Strictement, cette
valeur marque la transition entre la probabilité 1 et la probabilité 0 de séparation linéaire, dans la limite
thermodynamique considérée. Il est néanmoins important de remarquer que, pour des valeurs de N de
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 363/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
344
l’ordre de 100, le comportement de (91) est déjà proche du comportement asymptotique. Cela montre
bien que le calcul des propriétés typiques d’apprentissage fournit des résultats utiles à dimension N
grande mais finie.
Compléments
Bornes du nombre d’itérations de l’algorithme du perceptron
Nous allons détailler le calcul des bornes qui permettent de démontrer le théorème du perceptron. Pour
établir une borne inférieure à la norme des poids, on tient compte de ce que w* est unitaire, pour écrire :
où l’on a tenu compte de l’initialisation w(0) = 0. En prenant le produit scalaire de (93) avec le vecteur
unitaire w*, compte tenu de (92), on déduit la borne inférieure suivante :
t
w(t + 1) ≥ ∑ γ w*
k (i )
i =1 (94)
≥ tγ min (w * )
où γmin (w* ) est la plus petite stabilité parmi les exemples de LM. Puisque w* est un hyperplan séparateur,
γmin(w*) > 0.
Par ailleurs, on peut établir une borne supérieure de ||w(t + 1)||2 , à partir de l’expression suivante :
2
( )(
w( t+ 1) = w( t) + yk (t ) xk (t ) ⋅ w( t) + yk (t ) xk (t ) ) (95)
2 2
= w( t) + 2 yk( t) xk( t ) ⋅ w( t) + yk( t ) xk( t ) .
Le produit croisé dans (95) est négatif. En adoptant la même démarche que pour la projection, on a :
2 () 2 2
w(t + 1) ≤ w(t ) + x
kt
≤L
t
2 (96)
≤ ∑ y ( )x ( ) ki ki
i=1
2
≤ t x maax
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 364/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
345
CHAPITRE 6
où l’on a utilisé le fait que |yk| = 1. ||x max || correspond à l’exemple de LM dont la norme est maximale. La
figure 6-7 illustre la croissance du module du vecteur w au cours de l’apprentissage. De (94) et (96) on
déduit
tγ min ( w *) ≤ w( t + 1) ≤ t xmax . (97)
D( m + 1) = 2 D ( 1 n) 2 mn (98)
; , = tout ,
pour
car il y a deux façons de séparer m points (attribuer des classes ±1) en une dimension avec un plan qui
passe par l’origine, ou de séparer un seul point en dimension n quelconque. Si l’on ajoute un nouveau
point à l’ensemble d’apprentissage L m+1 = L m ∪ x m+1 , il peut arriver que deux hyperplans qui induisaient
la même dichotomie de Lm attribuent à xm+1 des classes différentes. Dans ce cas, il existe un hyperplan H0
qui contient xm+1, et qui induit la même dichotomie de Lm. On dit que H0 est ambigu par rapport à xm+1 .
Projetons les points de L m dans le sous-espace de dimension n – 1 orthogonal à xm+1 . H0 induit une dicho-
tomie de Lm dans le sous-espace de dimension n – 1. Il y a donc une correspondance biunivoque entre les
D(m, n – 1) dichotomies dans l’espace projeté et les dichotomies ambiguës par rapport au nouveau point
dans l’espace de n dimensions. Puisqu’il y a D(m, n) dichotomies de Lm, et que chaque dichotomie
ambiguë donne lieu à deux dichotomies deL m+1, on a la formule de récurrence suivante
D( m +1, n) = D ( m, n) + D( m, n − 1) . (99)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 365/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
346
BUHOT A., TORRES MORENO J. M., GORDON M. B. [1997], Finite size scaling of the Bayesian Perceptron,
Phys. Rev. E 55, p. 7434-7440.
B UHOT A., TORRES MORENO J. M., GORDON M. B. [1997], Numerical simulations of an optimal algorithm
for supervised learning, European Symposium on Artificial Neural Networks, Proceedings, M. Verleysen
éd., p. 151-156.
B UHOT A., GORDON M. B. [2000], Storage capacity of a constructive learning algorithm, J. Phys. A 33,
p. 1713-1727.
COVER T. M. [1965], IEEE Trans. Elect. Comp., 14, p. 326-334.
C OVER T. M., THOMAS J. A. [1991], Elements of Information Theory, John Wiley.
C YBENKO G. [1989], Approximation by superpositions of a sigmoidal function, Mathematics of Control,
Signals and Sytems 2, p. 303-314.
DIETRICH R., O PPER M., S OMPOLINSKY H. [1999], Statistical Mechanics of Support Vectors Networks,
Phys. Rev. Lett. 82, p. 2975-2978.
DUDA R. O., HART P. E, STORK D. G. [2000], Pattern Classification (Wiley-Interscience)
E NGEL A., B ROECK C. [2001], Statistical Mechanics of Learning, Cambridge University Press, ISBN
0521774799, 9780521774796, 329 pages.
GODIN Ch. [2000], Contributions à l’embarquabilité et à la robustesse des réseaux de neurones en envi-
ronnement radiatif, thèse de l’École nationale supérieure de l’aéronautique et de l’espace.
GORDON M. B., GREMPEL D. [1995], Learning with a temperature dependant algorithm. Europhys. Lett.
29, p. 257-262.
GORMAN, R.P., SEJNOWSKI T.J. [1998], Analysis of hidden units in a layered network trained to clasiffy
sonar targets, Neural Networks 1.
HOPFIELD J. J. [1982], Proc. Natl. Acad. Sci. USA, 79, p. 2554.
KRAUTH W., MÉZARD M. [1987], Learning algorithms with optimal stability in neural networks, J. Phys.
A 20, L745-L752.
MCCULLOCH W. S., PITTS W. [1943], A logical calculus of ideas immanent in nervous activity, Bull. Math.
Biophys 5, p. 115.
MEIR R., F ONTANARI J. F. [1992], Learning from examples in weight-constrained neural networks,
J. Phys. A : Math. Gen. 25, p. 1149-1168.
MINSKY M., PAPERT S. [1969], Perceptrons, MIT Press, Cambridge, MA, États-Unis.
R ISAU-GUSMÁN S., G ORDON M. B. [2000a], Understanding stepwise generalization of Support Vector
Machines : a toy model, Advances in Neural Information Processing Systems 12, S. A. Solla, T. K. Leen,
K.-R. Miller (éd.), MIT Press, p. 321-327.
R ISAU-GUSMÁN S., G ORDON M. B. [2000b], Generalization properties of finite size polynomial Support
Vector Machines, Phys Rev E 62, p. 7092-7099.
R ISAU-GUSMÁN S., G ORDON M. B. [2001], Statistical Mechanics of Soft Margin Classifiers, Phys. Rev.
E 64, 031907.
RISAU-GUSMÁN S. [2001], Étude de propriétés d’apprentissage des machines à exemples supports (SVM)
par des méthodes de physique statistique, thèse de l’Université de Grenoble I – Joseph-Fourier.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 366/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
La discrimination .html
347
CHAPITRE 6
RISAU-GUSMÁN S., GORDON M. B. [2002], Hierarchical learning in polynomial support vector machines,
à paraître dans Machine Learning.
ROSENBLATT F. [1958], The Perceptron : A probabilistic model for information storage and organization
in the brain, Phys. Rev. 65, p. 386.
TORRES MORENO J. M. [1997], Apprentissage et généralisation par des réseaux de neurones : étude de
nouveaux algorithmes constructifs, thèse de l’Institut national polytechnique de Grenoble, disponible sur
le site Web à l’adresse http://www.professeurs.polymtl.ca/juan-manuel.torres-moreno/homepage/publica-
ciones/doctorado/index.html.
TORRES MORENO J. M., GORDON M. B. [1998], Characterization of the Sonar Signals Benchmark, Neural
Processing Letters 7, p. 1-4.
VAPNIK V. [1998], The nature of statistical learning theory, Springer.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 367/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 368/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
7
Cartes auto-organisatrices
et classification automatique
Ce chapitre est consacré à la seconde grande famille de réseaux de neurones : les cartes topologiques auto-
organisatrices. Ces dernières font partie de la famille des modèles dits à « apprentissage non supervisé » ;
par opposition avec les perceptrons multicouches qui ont été présentés précédemment. Cela signifie que,
dans une première approche, ces modèles seront utilisés dans un but descriptif. Les données à analyser
sont maintenant constituées d’observations dont on cherche à comprendre la structure : il n’y a pas de but
précis à atteindre, ni de réponse souhaitée.
Les méthodes, dites d’apprentissage « non supervisé », utilisées par les modèles de cartes topologiques
auto-organisatrices, proviennent des techniques initialement mises au point pour l’apprentissage compé-
titif. Parmi les premiers travaux dans le domaine, on peut citer ceux de Didday [DIDDAY 1970] et de von
der Malsburg [VON DER M ALSBURG 1973]. Les modèles proposés à cette époque définissent des ensem-
bles de filtres qui effectuent en parallèle l’analyse d’une même observation. Pour cette observation, la
réponse produite par chaque filtre est différente, et l’un des filtres (le « gagnant ») produit une réponse
supérieure aux autres. « L’apprentissage compétitif » favorise alors ce filtre, et cherche à le rendre plus
sensible encore à l’observation qu’il vient de « gagner ». La même opération est itérée pour toutes les
observations de l’ensemble d’apprentissage jusqu’à stabilisation des valeurs attribuées aux différents
filtres. Chacun des filtres est, à ce stade, rendu sensible à un ensemble de caractéristiques communes à une
partie des observations étudiées : il se transforme en détecteur de caractéristiques.
Les cartes topologiques ou cartes auto-organisatrices ont été introduites pour la première fois par T.
Kohonen en 1981. Les premiers modèles cherchaient tout particulièrement à représenter des données
multidimensionnelles. Les applications visées devaient pouvoir concerner de très grands ensembles de
données, pour lesquelles les observations traitées pouvaient atteindre de grandes dimensions. Afin de
répondre à ces critères, la visualisation par cartes topologiques envisagée par Kohonen cherche, par
apprentissage à partir des données, à partitionner l’ensemble des observations disponibles en groupe-
ments similaires. Les groupements proposés possèdent la particularité caractéristique d’avoir une struc-
ture de voisinage qui peut être matérialisée à l’aide d’un espace discret que l’on appelle « carte
topologique ». Il s’agit le plus souvent d’un treillis de faible dimension (grille 1D, 2D ou 3D) sur lequel
les structures de voisinages sont prises en considération par le modèle.
La particularité la plus importante des cartes auto-organisatrices est qu’elles rendent possible la compa-
raison des groupements qui ont été réalisés directement à partir des données. Une observation est affectée
à un groupe qui est projeté en un nœud de la carte. La comparaison des projections liées à deux observa-
tions distinctes permet d’apprécier la proximité des groupes dont elles sont issues. Les observations
« semblables » ont la même projection ; si les projections sont différentes, la dissemblance grandit avec
la distance qui existe entre les projections ; cette distance est calculée sur la carte. Ainsi, l’espace des
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 369/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
350
sous-ensembles s’identifie à la carte, et il est possible, d’une certaine manière, de regarder simultanément
l’espace des sous-ensembles et celui des observations.
Classification automatique et cartes auto-organisatrices sont proches, puisque la plupart des méthodes de
classification automatiques cherchent à regrouper les données « similaires », ce dernier mot signifiant
dans ce cas proche pour le domaine d’application dont les données sont issues et pour la métrique utilisée.
La notion d’ordre topologique constitue l’apport des réseaux de neurones à apprentissage non supervisé
au domaine de la classification automatique, qui est un des grands thèmes abordés en analyse des données
[DUDA et al. 1973], [JAIN et al. 1988], [SAPORTA 1990].
Toutes les méthodes de classification automatique, si l’on considère les systèmes de décision actuels,
permettent d’aborder aussi des tâches de type supervisé. Une grande partie des applications qui ont été
développées à l’aide des cartes auto-organisatrices sont des classifieurs, certaines effectuent même des
tâches de régression. Cela peut s’expliquer de plusieurs manières :
• des modifications simples de l’algorithme de base permettent de l’utiliser en tant qu’algorithme super-
visé [CERKASSKY et al. 1991] ;
• les résultats des algorithmes « non supervisés » peuvent facilement être intégrés dans des chaînes de
traitement concernant les mêmes domaines applicatifs que ceux qui sont abordés par les perceptrons
multicouches. Les cartes auto-organisatrices sont utilisées pour effectuer un prétraitement des données.
Les informations extraites par les cartes peuvent alors être facilement employées par d’autres algo-
rithmes (régression, classification) d’une manière spécifique.
La discrimination (ou « classification supervisée »), présentée au chapitre 6, et la classification « non
supervisée » sont en fait complémentaires. On peut considérer, dans un certain sens, que toutes les appli-
cations que l’on cherche à résoudre utilisent une proportion d’information « supervisée ». Avant d’utiliser
un système, il faut le valider, ce qui sous-entend que l’on a recours à un expert capable de juger des résul-
tats. Il existe donc toujours un certain nombre de données expertisées pour lesquelles la réponse
« désirée » est connue. Ces données peuvent être utilisées pour faire progresser les modèles non super-
visés. Si l’on possède beaucoup d’expertise on peut l’introduire dès le début de l’analyse en recourant aux
formes supervisées des cartes auto-organisatrices. En revanche, si l’expertise n’est disponible qu’en petite
quantité, elle ne peut servir qu’à l’interprétation des résultats. Cette seconde possibilité conduit à se servir
du groupement produit par les cartes auto-organisatrices et à le faire suivre d’une phase d’introduction
d’expertise. L’approche est alors séquentielle : on cherche d’abord une partition de l’espace des données,
la reconnaissance n’intervenant que dans une seconde phase.
La suite de ce chapitre présente les cartes topologiques auto-organisatrices et leurs fondements théo-
riques. Ces algorithmes sont présentés en utilisant un formalisme unifié qui permet de faire le lien avec
les méthodes d’analyse des données dont elles découlent. Les algorithmes de cartes auto-organisatrices
peuvent être vus comme des extensions d’algorithmes très connus du domaine de la reconnaissance des
formes et de la classification automatique. Ce formalisme est légèrement différent de celui qui est
employé dans les premiers modèles proposés par Kohonen. Tous les liens qui permettent de situer les
différentes versions de l’algorithme initial seront présentés. Un paragraphe détaille les méthodologies
possibles d’introduction d’expertise qui font suite à l’apprentissage « non supervisé ».
Ce chapitre a également un but pratique : il présente donc deux études détaillées de cas réels. Les domaines
d’application qui comptent des réalisations fondées en grande partie sur les méthodes de cartes auto-organi-
satrices sont très nombreux. Plusieurs livres récents présentent ces applications [OJA et al. 1999], [KOHONEN
2001]. Un article présente une bibliographie complète de tous les articles parus entre 1981 et 1997 ([KASKI
et al. 1998] www.icsi.berkeley.edu/ jagota/NCS/ ). Le site de l’Université de Helsinki (http://www.cis.hut.fi/research/
som-research/ ) aborde des thèmes très divers : vision, analyse d’image, compression d’image, imagerie médi-
cale, reconnaissance de l’écriture, reconnaissance de la parole continue, analyse du signal, de la musique,
commande de processus, robotique, recherche sur le Web, etc.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 370/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
351
CHAPITRE 7
Notations et définitions
Ce paragraphe introduit les notations utilisées dans l’ensemble de ce chapitre. L’ensemble ᑞ représente
l’espace des observations ; les observations sont supposées réelles et de dimension multiple ; on suppose
que l’espace des observations est de dimension n et que ᑞ ʚ R n . Chaque vecteur de ᑞ correspond à un
codage particulier des individus issus d’une population donnée. On suppose, par la suite, que l’on dispose
d’observations correspondant à N individus, représentées par le sous-ensemble = {zi; i = 1, ..., N} de
ᑞ. On fait, bien entendu, l’hypothèse que est représentatif de la population en cours d’étude, et qu’il
constituera l’ensemble d’apprentissage permettant d’estimer les paramètres des différents modèles.
L’ensemble de toutes les méthodes présentées cherchent, dans un premier temps, à réduire l’information
contenue dans ᑞ ; elles le font :
• en la résumant sous la forme d’un ensemble ᐃ = {w c ; c = 1, ..., p} de p vecteurs de ᑞ ; ces vecteurs de
dimension n seront appelés les référents dans toute la suite du chapitre ;
• en définissant une fonction d’affectation χ qui est une application de ᑞ dans l’ensemble des indices
{1, ..., p} ; cette fonction permet de réaliser une partition P = {P 1, ..., P c, ..., Pp } de ᑞ en p sous-ensem-
bles, Pc = {z ∈ ᑞ/χ(z) = c}.
La figure 7-1 montre le principe général de la χ Ensemble
modélisation : une observation z est associée à un des indices
indice c choisi parmi p à l’aide de la fonction χ ; cet
indice permet de définir le référent wc. On peut donc Observation z 1 2 . . . c . . . p
considérer que le vecteur référent wc est un représentant Référent w χ (z)= w
c
de l’ensemble P c dont il résume l’ensemble des obser-
vations. Dans la suite de l’exposé, on utilisera selon le
cas wc ou son indice c pour représenter le sous-
ensemble des observations de Pc. Les paramètres des Espace des observations
et des référents
différents modèles étant estimés à partir des observa-
tions de l’ensemble d’apprentissage , on note nc le Figure 7-1. Principe général de la modélisation :
une observation z est associée à un indice c choisi
nombre d’observations de qui appartiennent à Pc . parmi p à l’aide de la fonction χ ; cet indice permet
La connaissance de l’ensemble des vecteurs référents de définir le référent wc.
ᐃ et de la fonction d’affectation χ détermine ce que
l’on appelle une quantification vectorielle. Pour l’ensemble des méthodes présentées, la détermination de
ᐃ et de χ se fait par minimisation d’une fonction de coût. Celle-ci est différente pour chaque méthode :
elle traduit les caractéristiques propres de la quantification que l’on va obtenir. La quantification vecto-
rielle est utilisée pour affecter une observation z ∈ ᑞ à son référent w χ (z) ; χ (z) représente l’indice du
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 371/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
352
référent auquel est associée l’observation z. La connaissance de la fonction χ permet donc, au-delà de la
quantification vectorielle, de définir la partition P de ᑞ en p sous-ensembles.
Bien que la fonction de coût change pour chaque méthode, les différentes méthodes partagent un certain
nombre de caractéristiques communes. Dans la suite de ce chapitre, on utilisera le plus souvent le forma-
lisme des nuées dynamiques qui procède par itérations successives. Chaque itération est constituée de
deux étapes : une étape de minimisation qui permet de déterminer les référents, une étape d’affectation
qui redéfinit la fonction d’affectation. Dans le cas où les deux étapes répondent à certains critères, ce
formalisme assure que la fonction de coût décroît et converge vers un minimum local. Celui-ci dépend
fortement des vecteurs référents que l’on a choisis pour initialiser la procédure de minimisation.
L’algorithme des k-moyennes est un algorithme de classification automatique très ancien qui est à l’origine
des cartes auto-organisatrices. La section qui suit présente cet algorithme sous sa forme la plus classique,
ainsi que différentes variantes permettant d’expliquer les liens avec les cartes auto-organisatrices.
Pour toutes les méthodes, nous commencerons par décrire la version la plus classique des algorithmes.
Nous présenterons ensuite les formes dérivées les plus connues (stochastiques ou probabilistes).
Présentation de l’algorithme
La méthode des k-moyennes, qui est la méthode de quantification vectorielle la plus connue, détermine
l’ensemble des vecteurs référents ᐃ ; et la fonction d’affectation χ , en minimisant la fonction de coût :
. (1)
L’expression :
représente l’inertie locale, par rapport au référent wc , des observations de l’ensemble d’apprentissage
qui lui sont affectées ; ces observations appartiennent donc au sous-ensemble Pc. L’inertie Ic représente
l’erreur de quantification obtenue quand on décide de remplacer les observations deP c par le référent w c
qui les représente. La quantité I(ᐃ, χ ) que l’on cherche à minimiser représente la somme des inerties
locales Ic . Pour procéder à la minimisation de I(ᐃ, χ ), il faut faire apparaître la fonction d’affectation χ ;
la quantité que l’on cherche à minimiser s’écrit alors :
. (2)
L’algorithme présenté procède d’une manière itérative, chaque itération comportant deux phases. La
première phase minimise I(ᐃ, χ ) : en supposant les valeurs des référents fixées aux valeurs calculées
précédemment, elle calcule une valeur de la fonction χ. La seconde phase suppose que la fonction d’affec-
tation est fixée à la valeur qui vient d’être calculée ; elle minimise alors la fonction I(ᐃ, χ) par rapport
aux paramètres ᐃ. En procédant ainsi en deux phases, on fait décroître la valeur de I(ᐃ, χ ) à chaque
itération.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 372/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
353
CHAPITRE 7
(4)
Il existe pour cet algorithme une preuve de convergence. Si l’on applique la fonction d’affectation
calculée durant la première phase, une observation z ne change de sous-ensemble que si sa contribution à
l’inertie totale, calculée en fonction du système de référents ᐃ, diminue. Cette inertie totale est donc infé-
rieure à la valeur courante de I(ᐃ, χ ). La seconde phase redéfinit l’ensemble ᐃ des valeurs des référents.
Chaque référent wc calculé à partir de l’équation (4) définit le centre de gravité de l’ensemble des obser-
vations de Pc ∩ , ce qui entraîne la décroissance de I(ᐃ, χ ) qui représente l’inertie par rapport aux
centres de gravité de la partition P. L’alternance des deux phases fait décroître à chaque itération la fonc-
tion I(ᐃ, χ ). L’expression (1) montre que I(ᐃ, χ) s’exprime en fonction de la trace de la partition P sur
l’ensemble ; cette trace correspond à une partition de . Le nombre de partitions de étant fini, le
processus itératif se stabilise vers un minimum local de la fonction I(ᐃ, χ ) par rapport à l’ensemble des
vecteurs référents et à la fonction d’affectation.
Sur le plan algorithmique, l’algorithme des k-moyennes se résume de la manière suivante :
1. Phase d’initialisation : t = 0, choisir les p référents initiaux (en général d’une manière aléatoire),
fixer le nombre maximal d’itérations N iter.
2. Étape itérative : à l’itération t, l’ensemble des référents ᐃ t-1 de l’étape précédente sont connus :
Phase d’affectation : mise à jour de la fonction d’affectation χt associée à ᐃ t-1 : on affecte chaque
observation z au référent défini à partir de l’expression (3).
Phase de minimisation : calcul des nouveaux référents ᐃ t en appliquant l’équation (4).
3. Répéter l’étape itérative jusqu’à ce que l’on atteigne k > N iter itérations ou une stabilisation de I.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 373/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
354
L’algorithme des k-moyennes peut être considéré comme étant un algorithme de type « nuée dynamique »
qui est une méthode générale permettant d’obtenir un minimum local d’un critère à optimiser. Cette
méthode repose sur l’utilisation de deux entités : l’ensemble des partitions, en p sous-ensembles, de
l’espace des données, et l’espace ᐃ des représentations (qui peut être différent de l’espace de données).
Ainsi, un sous-ensemble P k sera représenté par un élément wk qui sera son représentant dans ᐃ.
L’adéquation d’une donnée x à un représentant donné wk sera quantifiée par une fonction positive d, ainsi
plus d(x, wk ) est petite, plus x est en adéquation avec le représentant wk. Il s’agit donc de définir une parti-
tion en p sous-ensembles P = {Pk /k = 1...p} de l’espace de données et un ensemble de p représentants
W = {wk/k = 1...p} qui minimisent un critère donné. Ce dernier sera défini par l’intermédiaire d’un
ensemble d’apprentissage de la manière suivante :
. (5)
L’algorithme des nuées dynamiques minimise cette fonction d’une manière itérative en commençant par
un choix des p représentants initiaux. Chaque itération est décomposée en deux phases : en premier lieu,
une phase d’affectation, qui consiste à minimiser par rapport à la partition et en supposant que les repré-
sentants courants (déterminés à l’itération précédente) sont constants ; en second lieu, une phase de mini-
misation, qui consiste à minimiser par rapport aux p représentants et en supposant que la partition est
fixée à celle qui est obtenue à l’itération précédente. Il est alors facile de voir que cet algorithme décroît
la valeur de à chaque itération et que l’algorithme converge vers un minimum local. Ainsi, dans le cas
des k-moyennes, les référents constituent les représentants et la distance euclidienne correspond à la fonc-
tion d.
Dans cette version de l’algorithme des k-moyennes, la fonction de coût que l’on minimise est toujours
donnée par la relation (1) ; le calcul des vecteurs référents effectué à chaque itération (équation 4) est
remplacé par :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 374/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
355
CHAPITRE 7
(7)
On reconnaît ici la minimisation par méthode du gradient simple, présentée au chapitre 2. La fonction
d’affectation χ t qui apparaît dans l’expression du gradient est celle qui est définie dans la phase d’affecta-
tion de l’itération t, la quantité μ t représente le pas de la correction pour l’itération t, le référent wc t - 1 est
celui qui a été calculé à l’itération précédente. Cette méthode de minimisation n’est pas adaptative, car
elle fait intervenir la fonction I(ᐃ, χ ), et donc la globalité de la base d’apprentissage .
La version adaptative, ou stochastique, de l’algorithme des k-moyennes est une adaptation de la minimi-
sation non adaptative qui vient d’être présentée. La minimisation deI(ᐃ, χ ) s’effectue maintenant d’une
manière stochastique : on envisage séparément les différents termes de la somme qui apparaissent dans
l’expression (1). À chaque itération, une seule observation zi de la base d’exemples est présentée ; elle
entraîne la correction du vecteur référent wχ (zi) le plus proche. Cela revient à faire décroître le seul terme
||zi – wχ t(zi)||2 de la fonction I(ᐃ, χ ) par une méthode de gradient ; la sommation disparaît de l’expression
de la dérivée partielle du gradient (7). On utilise maintenant le gradient partiel 2(wχ (zi) t - z i) et l’on modifie
le référent de wχ (zi) en appliquant la règle :
. (8)
Un bon minimum s’obtient en présentant chacune des observations de un grand nombre de fois (N iter
suffisamment grand). Dans la formule de modification des vecteurs référents, le pas de gradientμt décroît
avec les itérations. Au début de l’algorithme, la valeur de μt est relativement grande et la décroissance de
la fonction I(ᐃ, χ ) n’est pas strictement assurée. Par la suite, le pas de gradient μt devient suffisamment
petit : la modification des référents à chaque itération est petite. À ce stade, il faut un cumul de plusieurs
modifications avant de faire apparaître une modification appréciable de la fonction I : dans ce cas, il n’y a
plus de différence entre le gradient total et le gradient partiel. L’algorithme stochastique (8) présente alors
le même comportement que la version classique de l’algorithme des k-moyennes. L’algorithme stochas-
tique montre que la méthode des k-moyennes peut être présentée comme une méthode compétitive, où
chaque observation de l’ensemble d’apprentissage attire vers lui le référent le plus proche. Le fait de
présenter un grand nombre de fois chacune des observations, joint à la décroissance du pas de gradient μt ,
permet de trouver une bonne partition P et de placer les vecteurs référents aux centres de gravité des sous-
ensembles de cette partition.
Sur le plan algorithmique, l’algorithme stochastique des k-moyennes se résume de la façon suivante :
1. Phase d’initialisation : t = 0,
choisir les p référents initiaux (en général, d’une manière aléatoire),
fixer le nombre de passage de la base d’exemples Niter, la valeur initiale et la loi de décroissance du pas
de correction μ t .
2. Étape itérative t : l’ensemble des référents ᐃ t-1 de l’étape précédente étant connus, choisir une
observation z i (de manière aléatoire ou séquentielle), calculer le pas du gradientμ t.
Phase d’affectation : on suppose ᐃ t-1 connu. On affecte zi au référent le plus proche parmi ceux de
ᐃ t – 1, ce qui définit la nouvelle fonction d’affectation χ t .
Phase de minimisation : calcul du nouveau référent de wχ t (zi ) en appliquant l’équation (8).
3. Répéter l’étape itérative jusqu’à atteindre k > N iter – N itérations ou une stabilisation de I.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 375/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
356
Le pas du gradient μt doit être une fonction décroissante du nombre d’itération t. Elle peut être constante
par morceau, égale à 1 ⁄ ( t ) ou prendre d’autres formes.
1 (b)
40 itérations
1
0.8
0.8
0.6
0.6
0.4
0.2 0.4
0 0.2
-0.2
– 1 – 0.8 – 0.6 – 0.4 – 0.2 0 0.2 0.4 0.6 0.8 0
(a)
-0.2
– 1 – 0.8 – 0.6 – 0.4 – 0.2 0 0.2 0.4 0.6 0.8
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0.2 -0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 – 1 – 0.8 – 0.6 – 0.4 – 0.2 0 0.2 0.4 0.6 0.8
(c) (d)
Figure 7-2. Exemple d’application de l’algorithme des k-moyennes : sensibilité aux conditions initiales et au nombre de réfé-
rents. On a représenté sur la même figure les observations et les vecteurs référents. (a) Ensemble d’apprentissage A, les
données sont engendrées, d’une manière équiprobable, à partir de quatre gaussiennes. (b) Évolution de deux référents initia-
lisés en bas et à droite de la figure. Chaque référent capte les observations issues de deux gaussiennes. Les figures (c) et (d)
représentent l’évolution de quatre référents initialisés de deux manières différentes. (c)Les référents sont initialisés au centre
de la figure ; ils captent chacun les observations issues d’une gaussienne. (d) Les quatre référents sont initialisés en bas et à
droite de la figure ; trois référents se partagent les observations liées à deux gaussiennes ; le dernier référent capte celles qui
sont issues des deux autres gaussiennes.
Les trois expériences qui suivent, et qui sont présentées sur la figure 7-2, permettent de comprendre
l’évolution de l’algorithme des k-moyennes, qu’il s’agisse de l’algorithme classique ou de sa version
stochastique. Elles illustrent en particulier la sensibilité de la solution trouvée par rapport aux paramètres
de l’algorithme qui sont le nombre de référents et leur initialisation. Pour ces expériences, les observa-
tions ont été engendrées à partir de distributions gaussiennes, sphériques, d’écart-type σ = 0.1. La
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 376/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
357
CHAPITRE 7
première expérience recherche une partition à deux classes et montre l’évolution des référents qui vont
capter les observations issues des quatre distributions gaussiennes. Durant l’apprentissage, les deux réfé-
rents sont attirés par les deux blocs constitués par les deux gaussiennes de gauche et de droite. Ils se stabi-
lisent au centre des observations qui forment les deux blocs. La deuxième expérience utilise les mêmes
observations, et cherche à localiser quatre référents initialisés de deux manières différentes : au centre, la
première fois, en bas et à droite, la seconde. La position, symétrique par rapport au problème, permet de
retrouver les quatre classes formées par les quatre gaussiennes, la seconde initialisation conduisant trois
référents à recouvrir les deux gaussiennes de droite et le dernier d’entre eux à regrouper les deux autres.
. (9)
Chaque fonction densité normale fc admet wc comme vecteur moyenne et Σc comme matrice de variance-
covariance ; elle est donc définie par :
. (10)
Le modèle de mélange de lois normales est un formalisme général qui permet de modéliser des lois de
probabilités complexes [DUDA et al. 1973]. L’hypothèse du mélange suppose implicitement que chaque
observation est issue de l’un des p phénomènes aléatoires cachés, représentés par les densités normales fc
et pouvant se réaliser avec la probabilité a priori α c . Ce modèle suppose donc que les données soient
engendrées en procédant d’abord au tirage de l’une des p densités normales suivant les probabilités
discrètes α c, et en tirant ensuite l’observation suivant la densité choisie. Ce modèle donne une représenta-
tion des observations de sous la forme de p sous-ensembles, où le sous-ensemble d’indice c contient un
nombre de l’ordre de α cN observations. Les observations sont réparties autour du vecteur moyenne wc et
ont une forme ellipsoïdale définie par les vecteurs propres et les valeurs propres de la matrice de variance-
covariance Σ c. Ce modèle de mélange est général puisqu’il permet, en choisissant convenablement le
nombre p et les différents paramètres des gaussiennes, d’approcher n’importe quelle fonction densité. En
utilisant cette modélisation, on peut donner une expression analytique de la répartition géométrique des
données de l’ensemble .
En plus de ce formalisme, le passage à l’interprétation probabiliste de l’algorithme des k-moyennes
demande d’introduire des hypothèses supplémentaires :
• Les probabilités a priori α c (définition 9) sont toutes égales à --1-
P
• Les p fonctions normales fc ont des matrices de variance-covariance identiques, égales à σ2I, où I repré-
sente la matrice unité et σ est l’écart-type considéré constant pour toutes ces lois normales. Dans ce cas,
les densités ont pour expression :
. (11)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 377/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
358
• L’ensemble est un échantillon dont toutes les observations sont tirées de manière indépendante ; elles
proviennent d’une variable aléatoire de densité p(z).
L’introduction de ces hypothèses restreint le domaine de validité de l’interprétation. Elle suppose que les obser-
vations de soient regroupées autour de leurs moyennes en p groupes. Ces groupes sont supposés avoir
chacun une enveloppe sphérique ayant approximativement un même nombre d’éléments et une même réparti-
tion.
La version probabiliste de l’algorithme des k-moyennes cherche à estimer les vecteurs moyens w c et
l’écart-type σ commun à ces fonctions densités en essayant de rendre la réalisation de l’échantillon de
l’ensemble le plus probable possible. Cette méthode, dite du maximum de vraisemblance, consiste à
maximiser la probabilité p(z1 , z2 , ..., zN ) de ces observations (elle est appelée aussi la vraisemblance). Si
l’on tient compte de l’indépendance des observations, on obtient :
. (12)
Comme dans le paragraphe précédent, l’utilisation d’une fonction d’affectation notéeχ permet d’affecter
l’observation zi à son générateur aléatoire (l’une des composantes du mélange). La fonctionχ définit donc
une partition de l’ensemble d’apprentissage . Si l’on définit la vraisemblance « classifiante » par
l’expression :
(13)
. (14)
par rapport à σ . Cette expression est minimale lorsque la dérivée est nulle, ce qui donne :
On voit donc que l’algorithme des k-moyennes peut s’interpréter conjointement à la version probabiliste qui
vient d’être présentée. La minimisation de la fonctionI(ᐃ, χ), qui correspond à l’algorithme des k-moyennes,
contient implicitement la recherche d’un modèle probabiliste dont les hypothèses sont très restrictives. L’inter-
prétation probabiliste de l’algorithme peut être donnée à partir des paramètres qui sont déterminés au moment
de la convergence. Comme cela a été souligné plus haut, la densité des données est supposée avoir la forme
d’un mélange très particulier de densités normales. Les hypothèses probabilistes sous jacentes sont très contrai-
gnantes puisqu’elles supposent que les matrices de variance-covariance soient toutes identiques, diagonales et
égales à σ2I. D’un point de vue géométrique, cet algorithme donne donc une représentation particulière des
observations : il suppose que les données sont réparties d’une manière équiprobable enp groupes ayant comme
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 378/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
359
CHAPITRE 7
centre les vecteurs de ᐃ et qu’ils ont tous une forme sphérique de même rayon. Cette interprétation ne corres-
pond pas nécessairement à la réalité, ce qui constitue une limitation de l’algorithme des k-moyennes.
Figure 7-3. Exemple
(a) (b) d’application de l’algo-
0.8 0.8 rithme des k-moyennes
sur des observations
0.6 0.6 distribuées selon deux
lois normales de
matrice de variance-
0.4 0.4 covariance différentes
et non sphériques. Les
0.2 0.2 croix représentent la
position des référents.
(a) Ensemble d’appren-
0 0 tissage . (b) Repré-
sentation des deux
– 0.2 – 0.2 référents et des deux
sous-ensembles obtenus
après convergence de
– 0.4 – 0.4 l’algorithme ; ces deux
sous-ensembles sont
– 0.6 – 0.6 séparés par la droite
oblique. Les deux
classes sous-jacentes
– 0.8 – 0.8
n’ont pas été trouvées.
– 0.6 – 0.4 – 0.2 0 0.2 0.4 – 0.6 – 0.4 – 0.2 0 0.2 0.4
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 379/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
360
gaussienne de gauche appartiennent aux sous-ensembles attachés aux quatre référents représentés sur la
figure 7-4, et le dernier sous-ensemble (et son référent) permet de retrouver les observations issues de la
seconde gaussienne. Le problème qui se pose alors est de retrouver les deux classes en regroupant les cinq
sous-ensembles de la partition qui a été proposée par l’algorithme des k-moyennes. Cela peut se faire en
utilisant d’autres méthodes d’analyse des données comme la classification hiérarchique. Cette méthodologie
sera abordée dans la section « Classification et carte topologique » consacrée à l’introduction d’expertise.
Pour retrouver directement les deux distributions, il faut lever la contrainte sur l’isotropie des matrices de
variance-covariance, imposée par la modélisation précédente. Cela peut se faire en supposant que les
différentes matrices de variance-covariance Σc des différentes gaussiennes fc sont quelconques (symé-
triques définies positives). Il faut alors estimer les ( n ( n – 1 ) ) ⁄ 2 coefficients de chaque matrice Σc ainsi
que les vecteurs moyens w c. Ce modèle plus complexe contient bien plus de paramètres ; ces derniers
peuvent être estimés en minimisant la vraisemblance au moyen de l’algorithme EM (Expectation Maxi-
misation), voir [D EMPSTER et al. 1977].
voisinage d’ordre 1 de c
c1 c4
c c2
c3
c
Figure 7-5. Représentation de la topologie discrète d’une carte topolo-
gique à deux dimensions constituée de 10 × 10 neurones ; chaque point de
la figure représente un neurone c. La distance δ entre deux neurones est
définie sur le maillage. (a) représente V c(1),V c(2), V c (3) qui sont les
voisinages du neurone c d’ordre 1, 2 et 3, (b) présente quelques distances
entre les neurones : δ(c, c 1) = 4, δ(c, c 2 ) = 1, δ(c, c3 ) = 2, δ (c, c4 ) = 3.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 380/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
361
CHAPITRE 7
Les cartes utilisées dans la pratique sont le plus souvent des treillis réguliers dont chaque nœud est occupé
par un neurone ; la notion de distance entre neurones ou de voisinage découle alors directement de cette
structure graphique, et définit la topologie discrète de la carte. La figure 7-5 présente l’ensemble de ces
notions de distance et de voisinage pour une carte topologique constituée par un treillis à deux dimensions.
Pour les cartes auto-organisatrices, comme pour les k-moyennes, on veut associer à chaque neurone de
un vecteur référent wc de l’espace des données ᑞ. L’apprentissage effectué par les cartes auto-organisa-
trices fait en sorte que ces vecteurs référents captent au mieux la densité de probabilité sous-jacente aux
observations. Il introduit une contrainte supplémentaire liée à la conservation de la topologie de la carte,
et impose que deux neurones c et r, « voisins » par rapport à la topologie discrète de la carte, soient asso-
ciés à deux vecteurs référents w c et w r, « proches » par rapport à la distance euclidienne sur ᑞ.
On voit dans cette brève description que l’algorithme des cartes auto-organisatrices est une extension de
l’algorithme des k-moyennes : comme lui, il minimise une fonction de coût convenablement choisie.
Cette fonction de coût doit tenir compte, d’une part, de l’inertie interne de la partition dans l’espaceᑞ, et
chercher, d’autre part, à assurer la conservation de la topologie. Une manière de réaliser ce double objectif
consiste à généraliser la fonction d’inertie utilisée par l’algorithme des k-moyennes en introduisant dans
l’expression de cette fonction des termes spécifiques qui sont définies à partir de la carte. Cela est réalisé
par l’intermédiaire de la distance définie sur la carte et de la notion de voisinage qui lui est attachée.
La notion de voisinage peut être introduite à l’aide de fonctions noyaux positives et symétriques
K ( lim k ( x ) = 0). Ces fonctions permettent d’introduire des zones d’influence autour de chaque neurone c.
x →∞
Les distances δ(c, r) qui lient le neurone c aux autres neurones (r) de la carte permettent de faire varier
l’influence relative des différents neurones : cette importance est quantifiée parK( δ(c, r)).
Afin de gérer la taille du voisinage, on utilise la famille de fonction KT paramétrée par T :
. (15)
i
Position de la cellule i δ (i,j)
La figure 7-6 présente les fonctions noyaux qui sont le plus utilisées dans la pratique :
⎧ ⎧
• K(δ ) = ⎨ 1 si δ < 1 Ainsi KT (δ ) = ⎨ 1 si δ < T ;
⎩ 0 sinon ⎩ 0 sinon
–δ
• K(δ ) = exp(– δ ) d’où KT (δ) = exp ⎛--------- ⎞;
⎝T ⎠
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 381/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
362
δ 2- ⎞
• K( δ) = exp(–δ2) d’où KT (δ ) = exp ⎛--------
⎝– T 2 ⎠.
La figure 7-7 présente les courbes associées à différentes fonctions noyaux K pour différentes valeurs du
paramètre T. Il est clairement possible, en choisissant une valeur α en dessous de laquelle on considère que
l’influence d’un neurone sur un autre est nulle (KT (δ ) < α ), de déterminer, pour chaque valeur de T, la taille
du voisinage significatif, associé à un neurone. Pour un neuronec, cette zone d’influence est définie par V c T
= {r ∈ /KT (δ(c, r)) > α }. La figure 7-7 montre que la taille du voisinage décroît avec la valeur deα : plus
le paramètre T est petit, plus le nombre de neurones inclus dans le voisinage VcT est réduit.
1
1 (b)
(a) 0.9
0.9
0.8
0.8
0.7
0.7
0.6 degré de voisinage 0.6
degré de voisinage
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
distance distance
Figure 7-7. Familles de fonctions noyaux utilisées pour gérer le voisinage de la carte ; l’axe des abscisses représente la
distance sur la carte (longueur du plus court chemin sur le graphe entre les neurones). Les différentes courbes représentent
la fonction pour des valeurs différentes du paramètre T : du haut vers le bas, T prend les valeurs de 10 à 1 ; (a) K T (δ (c 1, c2 ))
= exp(-0.5 * δ (c 1, c 2 T) (b) KT (δ(c 1, c 2 )) = exp(-0.5 * δ2(c 1, c 2 T2).
Les algorithmes des cartes auto-organisatrices minimisent une fonction de coût dont le minimum fournit
une partition formée de sous-ensembles qui sont suffisamment compacts, mais pour lesquels on est capable de
définir un ordre induit à partir de la topologie de la carte. Cette fonction, que nous noteronsJTsom dans la
suite du chapitre, remplace la fonction I introduite dans le paragraphe précédent. La fonctionJTsom que l’on
considère ici est celle qui a été proposée pour le modèle le plus classique de cartes auto-organisatrices ;
elle a pour expression :
. (16)
Dans cette expression, χ représente une fonction d’affectation, et ᐃ l’ensemble des p vecteurs référents
qui forment la carte. L’expression χ (zi) représente le neurone particulier de la carte C qui est affecté à
l’observation zi, et δ (c, χ (zi )) représente la distance sur la carte C entre un neurone c quelconque et le
neurone χ (zi) affecté à l’observation zi . De la même manière que pour l’algorithme des k-moyennes, on
peut représenter d’une façon schématique les liens existant entre la carte et l’espace des observations. La
figure 7-8 montre que les principes des deux algorithmes sont très proches ; la grande différence vient de
ce que l’ensemble des indices présentés à la figure 7-1 est remplacé par les indices ordonnés de la carte.
L’expression (16) est une extension de la fonction de coût des k-moyennes (1), dans laquelle la distance
euclidienne d’une observation zi à son référent wχ (z i) est remplacée par une distance généralisée, notée dT,
qui fait intervenir tous les neurones de la carte :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 382/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
363
CHAPITRE 7
. (17)
(19)
où Z =
r Σ z i ⑀A ; (z i) = r
z i représente la somme de toutes les observations de l’ensemble d’apprentissage
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 383/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
364
qui ont été affectées au neurone r. On remarque que chaque référent wc ainsi recalculé est le barycentre
des vecteurs moyens Z r ⁄ n r des sous ensembles Pr ∩ et que chaque barycentre est pondéré par la
valeur K(δ(c, r))nr.
Sur le plan algorithmique, la version « nuée dynamique » des cartes topologiques pour une valeur de T
fixée se résume de la manière suivante :
1. Phase d’initialisation : t = 0 Choisir les p référents initiaux (en général, d’une manière aléatoire),
la structure et la taille de la carte, le nombre d’itérationsNiter .
2. Étape itérative t. L’ensemble des référents ᐃ t-1 de l’étape précédente est connu,
– phase d’affectation : mise à jour de la fonction d’affectationχ t associé à W t-1. On affecte chaque
observation zi au référent défini à partir de l’expression (18) ;
– étape de minimisation : appliquer l’équation (19) afin de déterminer l’ensemble des nouveaux référentsᐃ t .
3. Répéter l’étape itérative jusqu’à ce que l’on atteigne N iter itérations ou une stabilisation de JTsom.
1 1 0 itérations
Figure 7-9.
Ensemble des
observations et
0.8 0.8
ordre initial
aléatoire induit
sur la carte entre
0.6 0.6 les référents.
0.4 0.4
0.2 0.2
0 0
– 0.2 – 0.2
– 1 – 0.8– 0.6 – 0.4– 0.2 0 0.2 0.4 0.6 0.8 – 1 – 0.8– 0.6– 0.4– 0.2 0 0.2 0.4 0.6 0.8
Comme dans le cas de l’algorithme des k-moyennes, l’étude du comportement de l’algorithme des cartes
auto-organisatrices sur des exemples simples permet de comprendre les difficultés de mise en œuvre qui
peuvent survenir. L’expérience qui suit illustre le rôle de la valeur du paramètreT dans la minimisation. Les
données utilisées sont celles de la figure 7-2 présentées plus haut au paragraphe dédié à l’algorithme des k-
moyennes : les observations sont équi-réparties entre quatre distributions normales qui se recouvrent
partiellement deux à deux. Dans la figure 7-9, les résultats (ordre topologique et quantifications) sont
montrés dans l’espace des observations, en utilisant les représentations introduites par Kohonen. On a
représenté simultanément sur la même figure les observations et les référents ; on peut voir également
l’ordre induit par la carte sur les référents : les référents qui représentent des neurones voisins directs sur le
graphe de la carte sont reliés sur la figure. La figure 7-9 présente l’ensemble des observations, et l’ordre
initial induit par la carte. Les référents ont été initialisés d’une manière aléatoire au centre du nuage
d’observations selon une gaussienne d’écart-type 0,01 : on ne peut observer aucun ordre entre les référents.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 384/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
365
CHAPITRE 7
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
– 0.2 – 0.2
– 1 – 0.8 – 0.6 – 0.4 – 0.2 0 0.2 0.4 0.6 0.8 – 1 – 0.8 – 0.6 – 0.4 – 0.2 0 0.2 0.4 0.6 0. 8
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
– 0.2 – 0.2
– 1 – 0.8 – 0.6 – 0.4 – 0.2 0 0.2 0.4 0.6 0.8 – 1 – 0.8 – 0.6 – 0.4 – 0.2 0 0.2 0.4 0.6 0.8
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 385/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
366
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
– 0.2 – 0.2
– 1 – 0.8 – 0.6 – 0.4 – 0.2 0 0.2 0.4 0.6 0.8 – 1 – 0.8 – 0.6 – 0.4 – 0.2 0 0.2 0.4 0.6 0.8
Figure 7-11. Représentation de l’ordre induit par la carte topologique pour deux décroissances différentes de T, une même
initialisation aléatoire au centre du nuage et un même intervalle de croissance.
La figure 7-11 met en évidence l’importance de la loi de décroissance sur la carte obtenue. Sur cette
figure, on observe l’ordre induit sur les référents pour un même ensemble d’observations, une même
initialisation aléatoire au centre du nuage d’observations, et un même intervalle de décroissance. On
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 386/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
367
CHAPITRE 7
observe que si la décroissance est rapide l’ordre se forme mal et les relations de voisinage ne représentent
pas l’ordre des sous-ensembles. L’ordre topologique est très sensible à l’ensemble des paramètres qui
interviennent dans l’algorithme ; il n’existe pas de loi permettant de s’assurer de cet ordre. Il faut donc,
avant d’utiliser les résultats proposés par cette loi là, tester l’ordre (voir dans la dernière section de ce
chapitre le paragraphe consacré à l’application qui peut en être faite en océanographie) afin de s’assurer
que l’algorithme a bien fonctionné.
Sur le plan algorithmique, l’algorithme global des cartes topologiques pour une fonction particulière de
décroissance de T (utilisée dans la pratique) se présente de la manière suivante :
. (20)
La formule (19) montre que les cartes auto-organisatrices utilisent la fonction voisinageK T(δ) paramétrée
par T pour introduire l’ordre topologique. Pour des grandes valeurs de T, une observation zi permet de
modifier un grand nombre de vecteurs référents. À l’opposé, pour des petites valeurs deT, K T (δ (c, r)) est
négligeable si c ≠ r : une observation intervient uniquement dans le calcul du référent wc qui lui est le plus
proche. Les différentes valeurs de T utilisées pendant le déroulement de l’algorithme permettent aux
vecteurs référents de la carte de se localiser. Plus précisément, la formule (19) montre que, pour un para-
mètre T donné, le calcul du référent wc dépend des observations de qui appartiennent, d’une part, au
sous-ensemble Pc , et, d’autre part, aux observations de Pr qui sont dans un voisinage significatif ;
.
Plus T est petit, moins le voisinage VcT contient de neurones, et le nombre d’observations de qui inter-
viennent pour calculer w c diminue. Pour des valeurs de T suffisamment petites, VcT se restreint au seul
neurone c, et JTsom représente exactement l’expression (1) ; dans ce cas, il n’y a plus aucune différence
entre l’algorithme des cartes auto-organisatrices et celui des k-moyennes.
Puisque l’apprentissage des cartes auto-organisatrices proposé par Kohonen fait décroître le paramètre T
dans l’intervalle [Tmin, Tmax ], la convergence vers la solution peut se décomposer en deux étapes. La
première étape correspond aux grandes valeurs deT ; l’utilisation répétée de l’algorithme des nuées dyna-
miques à T fixé a tendance à assurer la conservation de l’ordre topologique. La seconde étape a lieu pour
les petites valeurs de T ; l’algorithme commence à se rapprocher de l’algorithme des k-moyennes et se
confond avec ce dernier lorsque T devient très petit et que K(δ(c, r)) ≡ 0 pour deux neurones distincts. On
peut donc considérer que la première étape initialise la seconde (k-moyennes) par des référents qui ont
comme propriétés de respecter l’ordre topologique.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 387/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
368
0 0 0
(a)
0.8 0.8
0.6 0.6
0.2 0.2
0 0
– 0.2 – 0.2
–1 – 0.8 – 0.6 – 0.4 – 0.2 0 0.2 0.4 0.6 0.8 –1 – 0.8 – 0.6 – 0.4 – 0.2 0 0.2 0.4 0.6 0.8
5 000 itérations
1
Figure 7-12. Évolution de l’apprentissage d’optimisation
globale appliqué à l’exemple des quatre gaussiennes
0.8 (figures a et b pour deux topologies différentes : 1-D avec
50 neurones et 2-D avec 10 × 10 neurones). Les figures du
0.6 haut montrent le déploiement de la carte 1-D au bout de
20, 200, 1000 itérations. La même expérience est effectuée
pour la carte 2-D ; les figures du bas montrent l’évolution
0.4 au bout de 500, 1000 et 5000 itérations. Dans les deux cas,
au moment de la convergence, la carte recouvre la distri-
0.2
bution des observations.
– 0.2
–1 – 0.8 – 0.6 – 0.4 – 0.2 0 0.2 0.4 0.6 0.8
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 388/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
369
CHAPITRE 7
Les expériences qui suivent permettent de comprendre de quelle manière, pendant le déroulement de
l’algorithme d’optimisation globale, les cartes se déplient et recouvrent la variété engendrée par les obser-
vations. La figure 7-12 montre, pour deux topologies différentes (1-D, 2-D) et pour l’exemple des quatre
gaussiennes (figures 12 [a] et 12 [b]), l’évolution de l’apprentissage. La carte 1-D contient 50 neurones,
celle 2-D est constituée de 10 × 10 neurones. Pour les deux cartes, on peut observer le comportement
suivant, les référents ayant été initialisés d’une manière aléatoire au centre de la carte :
• Durant la première phase, quand la valeur de
T est grande, la carte se replie vers le centre 1 5 000 itérations
de gravité et l’ordre topologique se forme.
Plus la valeur de T diminue, plus la carte se 0.8
déploie et minimise l’inertie totale (2) de la
partition proposée par l’algorithme. À la fin
0.6
de l’algorithme, une partie des neurones
(référents) se positionnent au milieu des
0.4
observations. Certains neurones, qui ne repré-
sentent aucune observation, indiquent une
zone de faible densité ou de vide. 0.2
• Une inspection des partitions trouvées peut
permettre d’interpréter la disposition cachée 0
des observations. La figure 7-13 présente la
carte, les neurones en noir étant ceux qui – 0.2
– 1 – 0.8 – 0.6 – 0.4 – 0.2 0 0.2 0.4 0.6 0.8
n’ont rien capturé. On voit que l’on peut
séparer de cette manière les quatre gaus- Figure 7-13. Visualisation des frontières naturelles qui
siennes en deux groupes distincts, ce qui séparent l’ensemble des observations en deux sous-
permet de mettre en évidence des frontières ensembles. Les neurones qui n’ont capté aucune observation
sont marqués par des points noirs.
naturelles.
L’algorithme de Kohonen
L’algorithme présenté initialement par Kohonen découle de la version nuées dynamiques dont on vient de
traiter. Il présente quelques particularités que nous allons maintenant exposer. Comme pour l’algorithme
des k-moyennes, on peut proposer une version stochastique de l’algorithme des cartes topologiques. Il
suffit de remarquer que, lors de la phase de minimisation, il n’est pas obligatoire de trouver le minimum
global de JTsom(ᐃ, χ ) pour χ fixée : il suffit de faire décroître sa valeur. Il est donc possible de remplacer
la relation (19) par une méthode de gradient simple. Ainsi, à l’itération t et pour un neurone c, on a :
,
. (21)
Cette méthode non adaptative suppose que l’on dispose de toutes les observations de l’ensemble
d’apprentissage . La contribution d’une seule observation zi à la correction de wc est représentée par le
terme de la somme 2KT (δ(c, χ (zi))(z i – w ct – 1 ). De même que pour l’algorithme des k-moyennes, on peut
utiliser la méthode du gradient stochastique, qui recalcule les référents chaque fois qu’une observationzi
est présentée. C’est cette version qui a été initialement présentée par Kohonen : la différence avec la
version d’optimisation globale de l’algorithme présentée plus haut intervient en ceci que l’on utilise une
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 389/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
370
seule observation par itération et aussi dans le choix de la fonction d’affectation. La fonctionχ est, dans
l’algorithme de Kohonen, celle qui est utilisée pour l’algorithme des k-moyennes (relation [3]) :
χ(z i) = arg min c||zi – wc ||2.
À chaque présentation d’une observation zi les nouveaux référents sont alors calculés pour tous les
neurones de la carte C en fonction du neurone sélectionné :
. (22)
L’algorithme de Kohonen se résume donc de la manière suivante :
Algorithme de Kohonen
1. Phase d’initialisation
– choisir la structure et la taille de la carte et les p référents initiaux (en général, d’une manière
aléatoire) ;
– fixer les valeurs de Tmax, Tmin et le nombre d’itérations Niter ; prendre t = 0.
2. Étape itérative t : l’ensemble des référents ᐃ t-1 de l’étape précédente étant connus :
– choisir une observation z i (en général, d’une manière aléatoire) ;
– calculer la nouvelle valeur deT en appliquant la formule :
. (23)
Discussion
Une analyse fine du comportement de cet algorithme permet de comprendre l’originalité de l’algorithme
proposé par Kohonen.
• Dans la formule de modification des vecteurs référents, le pas de gradient μt décroît avec les itérations.
Au début de l’algorithme, la valeur de μt est grande et la décroissance de la fonction JTsom n’est pas stric-
tement assurée. Par la suite, le pas de gradient μ t devient suffisamment petit : la modification des réfé-
rents à chaque itération est petite. Dans ce cas, l’algorithme présente le même comportement que la
version nuées dynamiques des cartes topologiques.
• Si l’on suppose que KT (δ ) devient négligeable pour une distance δ ≥ d T , la valeur KT (δ (c, r)) n’est signi-
ficative que pour les neurones r situés dans un voisinage d’ordre dT du neurone c ; ce voisinage sera noté
V c (d T ) par la suite. De cette manière, la présentation d’un exemple particulier zi modifie le référent qui
est associé au neurone χ(zi ), ainsi que tous les référents des neurones du voisinage V χ(z i)(dT ).
• Du point de vue de la représentation neuronale, il est possible d’interpréter cela en imaginant des
connexions latérales entre les neurones : chaque neurone c est connecté à tous les neurones r de son
voisinage V c (d T ), et toute modification de wc entraîne des modifications de tous les neurones apparte-
nant à V c(d T ) avec une intensité K T(δ(c, r)) qui décroît lorsque la distance δ (c, r) croît.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 390/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
371
CHAPITRE 7
• Si l’on choisit comme fonction KT (δ ) une fonction à seuil (voir figure 7-6) qui est constante sur l’inter-
valle [-dT , dT ] et nulle ailleurs, on fait clairement apparaître la différence entre l’algorithme de Kohonen
et l’algorithme des k-moyennes : la modification des poids est identique pour les deux algorithmes ; la
dif férence réside dans le fait que l’algorithme de Kohonen modifie le référent le plus « proche » mais
aussi ceux de son voisinage V c(d T ) au sens de la distance euclidienne. C’est ainsi que s’introduit peu à
peu l’ordre topologique, des neurones proches sur la carte représentant des observations proches dans
l’espace des données.
• Lorsque le paramètre T est petit, les modifications de la relation (22) ne concernent qu’un ensemble
réduit de neurones et l’on peut remarquer que, lorsque d T < 1, l’algorithme de Kohonen est similaire à
la version stochastique de l’algorithme des k-moyennes. En effet, dans ce cas, seul le neurone sélec-
tionné par la fonction χ va modifier ses paramètres.
L’appartenance des cartes auto-organisatrices à la famille des méthodes neuronales s’expliquent en ceci
que le formalisme neuronal permet une présentation claire et compacte des différents phénomènes mis en
jeu. Le paragraphe suivant présente ce formalisme appliqué aux cartes auto-organisatrices.
Afin de permettre que le processus d’auto-organisation s’effectue, les poids qui lient les deux couches du
réseau sont adaptatifs : ils sont modifiés à l’aide des différentes règles de modification des référents qui ont
été présentées. Dans ce réseau, les neurones de la carte calculent leur état (distance), en parallèle, à partir des
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 391/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
372
mêmes informations fournies par l’observation qui figure en entrée. La principale caractéristique du
processus d’auto-organisation est de ne permettre une adaptation des paramètres du réseau que sur la région
de la carte la plus « active ». L’algorithme le plus simple (celui de Kohonen) détermine ce centre d’activité
comme étant le voisinage de la carte associé au neurone dont l’état (⎜⎜z –cw⎜⎜ 2 ) est le plus petit. C’est l’utili-
sation de ce voisinage qui introduit les contraintes topologiques dans la représentation finale. Comme cela a
été signalé dans le paragraphe précédent, cela modélise de façon simplifiée un couplage latéral entre un
neurone sélectionné et ses voisins dans la structure graphique de la carte. De cette façon, en fin d’apprentis-
sage, les poids de chaque neurone convergent vers des valeurs telles qu’un neurone ne sera plus actif que
pour un sous-ensemble bien déterminé d’observations de la base d’apprentissage. Un neurone c qui est
représenté par son vecteur référentw c peut être considéré comme une observation « moyenne » qui résume
le sous-ensemble P c des observations qui lui sont affectées. L’ensemble des neurones de la carte représente
donc une quantification vectorielle de l’ensemble ᑞ, obtenue par l’analyse de l’ensemble d’apprentissage
. La qualité de la quantification dépend donc de celle de l’ensemble d’apprentissage.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 392/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
373
CHAPITRE 7
Pr ∩ = ∅. L’élimination de ces neurones se justifie par le fait que les référents associés sont placés dans
des régions de ᑞ où la densité de probabilité des données est nulle. On peut alors appliquer l’algorithme
de Kohonen à la carte obtenue afin de réadapter la nouvelle carte aux données, et itérer cette procédure
autant qu’il est nécessaire.
Une seconde technique consiste à définir la carte (nombre de neurones et structure graphique) lors de
l’apprentissage, en même temps que la mise au point des référents. Il s’agit donc de construire la carte
d’une manière évolutive, en permettant l’ajout de certains neurones et la suppression d’autres. Plusieurs
méthodes ont été proposées dans la littérature ; on peut globalement les classer en deux catégories :
• La première catégorie fixe a priori la dimension k de la carte, et construit la carte d’une manière évolu-
tive par adjonction et suppression de neurones. Afin d’implémenter simplement ces deux opérations,
cette méthode propose de manipuler des structures graphiques ayant comme éléments de base les hyper-
tétraèdres (les segments pour k = 1, les triangles pour k = 2 et les tétraèdres pour k = 3) [OJA et al. 1999].
• Une seconde catégorie de méthodes laisse aux données elles-mêmes le choix de la dimension de la
carte, qui peut varier d’une région à une autre. L’algorithme « neural gas » [OJA et al. 1999] construit le
graphe en introduisant les connexions directement dans l’espace des données. Ainsi, chaque fois qu’une
observation est présentée, on retient les deux référents les plus proches ; s’ils sont déjà reliés par une
connexion, alors cette dernière est réactivée, sinon elle est créée. L’algorithme supprime les connexions
qui restent inactives après un nombre fixé d’itérations.
Une décomposition de cette expression permet de faire apparaître la double fonctionnalité attachée à la
fonction JTsom : obtenir une quantification vectorielle et assurer la conservation de la topologie.
JTsom = +
(25)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 393/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
374
La présentation de l’algorithme en deux étapes successives, qui dépendent de la valeur de T (voir section
« l’algorithme d’optimisation non adaptative des cartes topologiques »), se comprend bien mieux grâce à
la décomposition qui vient d’être faite de l’expression JTsom . La première étape correspond aux grandes
valeurs de T ; dans ce cas, le premier terme de la somme, qui définit JTsom, est prépondérant, et l’algorithme
a tendance à assurer la conservation de l’ordre topologique. La seconde étape a lieu pour les petites
valeurs de T ; dans ce cas, c’est le second terme de JTsom qui devient prépondérant ; l’algorithme minimise
alors la partie de l’expression liée à l’inertie. La valeur de T permet de réaliser un compromis entre les
deux termes de JTsom. L’ordre topologique ayant été obtenu pendant la première partie de l’algorithme, la
minimisation s’emploie par la suite à obtenir des sous-ensembles aussi compacts que possible. Il s’agit de
la phase « k-moyennes » de l’algorithme, qui consiste à s’adapter localement aux différentes densités des
données. On peut donc résumer l’algorithme comme le calcul d’une solution des k-moyennes sous une
contrainte d’ordre sur les référents.
L’expérience qui suit permet de comprendre la différence entre l’algorithme des cartes topologiques et celui
des k-moyennes ; elle reprend l’exemple présenté à la figure 7-2[d] pour l’algorithme des k-moyennes. On
utilise dans ce cas une carte topologique 1-D de quatre neurones et on estime les paramètres de la carte avec
les observations de l’exemple de la figure 7-2 (observations issues de quatre gaussiennes).
Les quatre référents ont été initialisés en bas et à droite de la figure, comme lors de l’expérience relative à
l’algorithme des k-moyennes. Les deux solutions obtenues à la convergence, pour l’algorithme des k-
moyennes et pour les cartes auto-organisatrices, sont montrées sur la figure 7-15. La topologie qui existe au
niveau de la carte permet aux quatre référents de se localiser au centre des quatre gaussiennes. L’algorithme
des cartes topologique a trouvé une solution des k-moyennes sous la contrainte d’ordre topologique (figure
7-15 [b]) ; cette solution est différente de celle trouvée par l’algorithme des k-moyennes (figure 7-15 [a]).
L’utilisation de la carte permet une représentation plus répartie de l’espace des observations.
1 1 000 itérations 1
(a) (b) Figure 7-15.
Comparaison k-
moyennes (a) et
0.8 0.8 SOM (b) pour la
même initialisa-
tion. Les réfé-
0.6 0.6 rents sont
initialisés en bas
et à droite.
0.4 0.4
0.2 0.2
0 0
– 0.2 – 0.2
– 1 – 0.8– 0.6– 0.4 – 0.2 0 0.2 0.4 0.6 0.8 – 1 – 0.8– 0.6– 0.4 – 0.2 0 0.2 0.4 0.6 0.8
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 394/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
375
CHAPITRE 7
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 395/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
376
. (28)
La densité de probabilité est entièrement déterminée par l’architecture du réseau qui permet de donner
une expression à la densité conditionnelle p(c 1|c2) en utilisant les relations de voisinages sur la carte et la
densité conditionnelle des observations p(z|c 1). Chaque neurone représente en effet une loi normale qui
permet d’exprimer la densité conditionnelle des observations p(z|c1 ) = fc 1(z, wc 1, σ c1). Si l’on fait l’hypo-
thèse que les relations de voisinage permettent de définir :
(29)
les densités de probabilités a posteriori (relation 28) des observations peuvent s’exprimer en fonction des
distributions gaussiennes des différents neurones.
. (30)
Ainsi, p c2 (z) apparaît comme un mélange local de densités gaussiennes qui fait intervenir tous les
neurones de la carte. L’ensemble des vecteurs moyens ᐃ = {w c ; c ∈ } et les écarts-types σ = {σ c ; c ∈
} sont les paramètres qu’il faut estimer à l’aide de l’ensemble d’apprentissage pendant la phase
d’apprentissage. Grâce au formalisme probabiliste, il est maintenant possible, comme pour la version
probabiliste des k-moyennes (voir plus haut la section « Interprétation probabiliste des k-moyennes »), de
maximiser la vraisemblance classifiante de l’ensemble . Si l’on fait l’hypothèse que les observations de
l’ensemble sont indépendantes, que chaque observation zi est engendrée par le générateur pχ (zi ) qui est
associé au neurone χ (z i), et si en plus on suppose que les neurones c2 de 2 ont des probabilités a priori
égales, la vraisemblance classifiante devient alors :
(31)
expression qu’il s’agit de maximiser par rapport aux paramètres du modèleᐃ, σ et de la fonction d’affec-
tation χ . D’une manière classique, on réalise cet objectif en minimisant l’opposé de la vraisemblance
classifiante :
(32)
et en utilisant le formalisme des nuées dynamiques. Les deux phases d’affectation et de minimisation sont
effectuées alternativement jusqu’à convergence :
• Phase d’affectation. On suppose que l’ensemble des paramètres ᐃ et celui des écarts-types σ sont
constants et qu’ils prennent les valeurs courantes. Il faut minimiser E par rapport à la fonction d’affec-
tation χ . Il s’agit donc de trouver une nouvelle fonction d’affectation, qui affecte précisément chaque
observation z à un neurone de la carte. Cette étape permet d’obtenir une nouvelle partition de l’ensemble
des données ᑞ. Il est facile de voir que la fonction d’affectation qui permet de minimiser E est celle qui
consiste à affecter chaque observation zi au neurone le plus probable selon la densitée pc 2 (30) :
; (33)
• Phase de minimisation. Au cours de cette phase, on suppose que la fonction d’affectation est constante
et égale à la fonction d’affectation courante. On cherche alors à minimiser E(ᐃ, σ, χ) par rapport à ᐃ
et σ .
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 396/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
377
CHAPITRE 7
Les paramètres ᐃ et σ sont adaptés comme il en va pour la version globale de l’algorithme des cartes
topologiques, en annulant les dérivées partielles de la fonctionE(ᐃ t , σ t , χ t ). Pour résoudre l’équation, on
utilise, comme dans [DUDA et al. 1973], une procédure itérative qui suppose que, pour la ème i itération, la
valeur initiale des paramètres est assez proche des vraies valeurs. On obtient alors les formules de mise à
jour suivantes :
(34)
. (35)
Dans ces deux expressions, les paramètres à l’itération t s’expriment en fonction de ceux de l’itération
t – 1.
La complexité du modèle suppose que la minimisation est effectuée à partir de bonnes conditions initiales.
Le modèle PRSOM, qui peut être considéré comme une extension des modèles de cartes auto-organisa-
trices SOM, peut utiliser les paramètres estimés par ces modèles pour l’initialisation de l’ensemble des
référents ᐃ.
L’algorithme PRSOM se résume donc de la manière suivante.
Comme il en va pour l’algorithme classique des cartes topologiques, PRSOM utilise un système de voisi-
nages dont la taille, contrôlée par T, décroît durant l’apprentissage. À la fin de la phase d’apprentissage, la
carte donne l’ordre topologique ; la partition associée à la carte est définie à partir de la dernière fonction
d’affectation χNiter. De même que pour les autres algorithmes de cartes auto-organisatrices, l’ensemble ᑞ est
divisé en M sous-ensembles : chaque neurone c de la carte représente un sous-ensemble Pc = {z/ χ Niter(z) = c}.
Cette carte et cette partition ont été déterminées en tenant compte des distributions de probabilités. Voilà
pourquoi les résultats proposés par PRSOM sont différents de ceux proposés par l’algorithme classique des
cartes auto-organisatrices qui utilise la distance euclidienne. L’estimation des probabilités permet d’obtenir
des informations supplémentaires qui peuvent être utilisées avec profit dans des applications. Ces informa-
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 397/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
378
tions sont en effet primordiales si l’on cherche à traiter des problèmes de classifications. Il n’existe pas, pour
l’algorithme PRSOM, de version stochastique : l’estimation de la variance demande de prendre en considé-
ration toute la base d’exemples avant de modifier les différentes valeurs des paramètres.
L’algorithme PRSOM permet d’obtenir un grand nombre d’informations supplémentaires sur l’ensemble
des observations étudié (recherche des données aberrantes, calcul de probabilité...). Cependant, ce modèle
ne peut être utilisé que si le nombre d’observations est assez grand pour permettre une estimation suffi-
samment précise des variances attachées aux gaussiennes. La télédétection, qui peut disposer d’un
nombre gigantesque de données, est un domaine privilégié pour l’utilisation de PRSOM. Un exemple de
méthodologie possible pour la détection de la couleur de l’océan est exposé dans la prochaine section.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 398/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
379
CHAPITRE 7
L’étiquetage des neurones de la carte représente la première phase à mettre en œuvre si l’on veut obtenir
un classifieur ; si le nombre de données expertisées est très grand, l’étiquetage peut se faire à l’aide d’un
vote majoritaire (voir ci-après figure 7-17) :
• Affecter l’ensemble des données experti-
sées aux différents neurones de la carte en
utilisant la règle d’affectation de l’algo- Classe 1
rithme d’apprentissage considéré. Classe 2
Classe 3
• Parmi l’ensemble des données affectées au Classe 4
neurone c, choisir l’étiquette li qui est Classe 5
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 399/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
380
Il est possible, dans ce cas, d’envisager une autre approche en regroupant « au mieux » les différents sous-
ensembles d’observations. On cherche alors à obtenir une partition plus grossière, l’étiquetage n’interve-
nant qu’après cette première phase de regroupement des neurones. Le fait de regrouper plusieurs neurones
permet de fusionner plusieurs sous-ensembles de la partition, et d’utiliser un nombre plus grand de
données expertes pour l’étiquetage du regroupement. Bien entendu, la même restriction subsiste sur la
qualité de la représentation : les ambiguïtés ne disparaissent que si les groupements sont cohérents avec
la classification recherchée, et si le vote majoritaire permet de choisir la bonne classe.
Si l’on considère que la carte et la partition obtenues à la fin de l’auto-organisation sont de bonne qualité,
la prise en considération des propriétés des algorithmes de carte auto-organisatrice autorise que l’on
émette les deux hypothèses suivantes :
• La quantification des données est de bonne qualité : chaque vecteur référent représente bien l’ensemble
des observations qui lui sont affectées.
• L’ordre topologique est bon, deux sous-ensembles relatifs à des neurones proches sur la carte sont cons-
titués d’observations proches dans l’espace des observations.
La seconde hypothèse suppose en outre qu’il existe une structure dans les données qui est sous-jacente au
problème de classification, et il est possible avec l’ordre topologique de la carte d’exhiber cette structure :
deux sous-ensembles représentés par des neurones voisins ont donc une forte probabilité de représenter
des observations appartenant à la même classe.
Bien entendu, les hypothèses que nous venons de considérer sont très fortes, et sous-entendent de plus que
le bon codage des données a été identifié pour effectuer la classification. Cela suppose qu’une étude préa-
lable a été faite dans le but d’obtenir une bonne représentation des observations, et donc une sélection
adéquate des variables et un codage pertinent pour le problème de classification traité. Un exemple de
l’effet des différents codages sur la classification sera donné dans le paragraphe consacré aux applica-
tions.
La classification ascendante hiérarchique [JAIN et al. indice de
1988], qui est une méthode de classification automa- dissimilarité
(11)
tique, permet d’effectuer la seconde phase nécessaire à
l’élaboration du classifieur en regroupant « au mieux »
les neurones (voir figures 7-18 et 7-19).
Figure 7-19. Regroupement des neurones de la carte par classifica-
tion ascendante hiérarchique : les feuilles de l’arborescence
représentent les neurones (ici six neurones) ; l’axe des ordonnées (10)
donne, pour chaque regroupement ou palier agrégatif, l’indice (9)
d’agrégation pour la similarité choisie.
( 8)
Il s’agit d’une méthode qui calcule une hiérarchie de ( 7)
partitions, chaque partition permettant de regrouper
d’une manière différente les neurones de la carte. Les ) (
différentes partitions de la hiérarchie sont déterminées 4
) (
d’une manière itérative, en commençant par la partition la plus fine qui (1est
3)
composée
(6) (2)
de(5)l’ensemble des
singletons (les neurones). La classification hiérarchique utilise cette partition initiale et procède à des
regroupements successifs en fusionnant à chaque itération deux sous-ensembles de neurones. Le choix
des deux sous-ensembles qui vont fusionner à une étape donnée est effectué à l’aide d’une mesure de
similitude, définie entre deux sous-ensembles. On choisit, parmi tous les couples de sous-ensembles qui
constituent la partition à cette étape, les deux sous-ensembles de neurones les plus semblables, au sens de
la mesure choisie.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 400/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
381
CHAPITRE 7
1. Initialisation. Considérer la partition formée par les singletons ; chaque neurone est alors affecté à
un sous-ensemble distinct. Choisir le nombre K de groupement que l’on souhaite former.
2. Pour une partition donnée, trouver les deux sous-ensembles les plus proches au sens du critère de
similitude choisi, et les fusionner de manière à former un seul sous-ensemble.
3. Si le nombre de groupement de la partition courante est inférieur à K, revenir à l’étape (2), sinon
l’algorithme se termine.
Différentes mesures de similitude sont proposées dans la littérature [JAIN et al. 1988]. La mesure de similitude
la plus connue est celle de Ward, qui consiste à opérer des regroupements de sorte que la somme des inerties
des groupements obtenus reste la plus petite possible : cela revient à favoriser des groupements les plus
compacts possible dans l’espace (euclidien) des données. En retenant le critère de Ward pour effectuer des
groupements de neurones de la carte, on se place dans l’espace des observations ; le regroupement se fait alors
par l’intermédiaire des vecteurs poids wc . Mais les neurones appartiennent à la carte qui a une structure topolo-
gique discrète définie par le graphe : il est alors possible de favoriser des groupements en tenant compte de cette
structure discrète. On sera amené à favoriser des groupements de neurones représentant des régions connexes
sur la carte [MURTAGH 1985], [YACOUB et al. 2001]. Le choix de l’une de ces représentations, ou d’une stra-
tégie mixte en combinant les deux, a une influence fondamentale sur les regroupements obtenus.
La classification hiérarchique permet d’engendrer un nombre variable de sous-ensembles, car le processus de
regroupement peut être arrêté à tout moment. Pour une mesure de similarité donnée, le nombre d’éléments de
la partition que l’on choisit dépend du nombreS de classes recherchées. Ce nombre dépend aussi de la consis-
tance entre la partition (qui est calculée d’une manière exclusivement statistique) et les S classes du problème
traité que l’on cherche à déterminer. Ce nombre peut être plus grand queS si, statistiquement, une classe n’est
pas très homogène. On considère alors que l’expert a regroupé en une même classe des cas qui, du point de vue
de l’espace des observations, sont assez différents. L’analyse de la partition la plus cohérente obtenue à l’aide
de la méthode de classification hiérarchique permet de voir s’il y a homogénéité ou pas des classes proposées
par l’expert. Elle peut donc amener à proposer une classification plus fine en S’ classes (S’ > S).
Étiquetage et classification
Une fois que l’étiquetage de la carte est effectué, l’utilisation de la version probabiliste de l’algorithme des
cartes auto-organisatrices (PRSOM), qui définit pour chaque neurone une loi normale, permet de réaliser
une classification probabiliste. Une observation z peut être affectée à chaque neurone c avec la probabilité
p(c|z) qui est définie par la relation (38). On obtient ainsi une procédure d’affectation probabiliste. La carte
étant étiquetée par l’une des procédures décrites au paragraphe précédent, il est alors possible de calculer la
probabilité a posteriori d’appartenance à la classe li. L’algorithme PRSOM provient d’une modélisation
probabiliste qui fait l’hypothèse que les observations sont engendrées suivant la loi de mélange :
, (36)
où T c = ∑ cK T (δ (c, r)) et fr est une loi normale de moyenne wr et de matrice de variance-covariance σ 2rI.
Les quantités pc(z) sont calculées à partir des neurones de la carte et les quantités p(c) à partir de la parti-
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 401/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
382
tion proposée par PRSOM. Si l’on note N le nombre d’observations de la base d’apprentissage et nc le
nombre d’observations de affectées au neurone c par la règle d’affectation χ (z) = ARGMAX c p(z|c), il
est classique d’estimer la probabilité a priori p(c) du neurone c par n c ⁄ N . La règle de Bayes permet de
calculer les probabilités a posteriori du neurone c, connaissant l’observation z :
. (38)
En fin d’apprentissage, la carte topologique proposée par l’algorithme PRSOM détermine les paramètres
des lois normales qui caractérisent les différents neurones. Pour chaque observation z, il devient possible
de calculer les probabilités a posteriori d’appartenance à chaque neurone en appliquant la relation (38).
Une classe étant la réunion d’un ensemble de neurones, la probabilité a posteriori que l’observationz
appartienne à la classe li se fait en considérant tous les neurones étiquetés par li . Si l’on note i l’ensemble
de tous ces neurones on obtient :
, (39)
où p c(z) est définie par la relation (37). On remarque que cette probabilité est conditionnée par le système
d’étiquetage de la carte qui représente une phase importante pour le calcul des probabilités a posteriori.
Ces probabilités a posteriori dépendent de l’étiquetage de la carte, et leur consistance est fonction de la
qualité de cette carte. Les performances du classifieur ainsi déterminé dépendent donc tout à la fois du
nombre de données expertisées, de la précision avec laquelle la densité des observations est approchée, et
de l’ordre topologique établi par l’auto-organisation.
La connaissance des S probabilités a posteriori d’appartenance permet de proposer un classifieur fondé sur
l’estimation des probabilités. Au moyen de ces formules, il est possible de calculer, pour chaque observationz,
les probabilités d’appartenances à chaque classe. L’affectation peut se faire en appliquant la règle de décision
bayésienne et en choisissant la classe pour laquelle la probabilité d’appartenance est la plus grande.
Applications
Les cartes auto-organisatrices ont permis l’émergence d’un grand nombre d’applications ; leur mise en œuvre
a demandé des développements spécifiques assez longs, mais ces réalisations sont maintenant opérationnelles.
À l’heure actuelle, le centre de recherche le plus important impliqué dans ce domaine est situé à l’Université de
technologie de Helsinki (UTH). En effet, la plus grande partie des activités menées dans son laboratoire
d’informatique (Laboratory of Computer and Information Science) est guidée par le centre de recherche sur les
réseaux de neurones (Neural Network Research Center) créé par T. Kohonen en 1994 et dirigé maintenant par
E Oja. Une grande partie des études qui y sont développées sont accessibles sur le site Web de NNR (http://
www.cis.hut.fi/research/ ). Les grands thèmes de recherche et les applications en cours aujourd’hui sont presque
tous centrés autour des cartes auto-organisatrices. Un grand nombre de ces applications sont maintenant au
stade de l’exploitation industrielle ; elles ont donné naissance à des recherches originales largement pluri-disci-
plinaires qui ont amené à la constitution d’équipes de recherche spécialisées dans des domaines comme la bio-
informatique, l’analyse et la reconnaissance du langage (écrit, parlé) et l’analyse d’images.
D’une manière générale, utiliser les cartes auto-organisatrices à l’intérieur de systèmes plus vastes fait
intervenir à part entière les spécificités des domaines d’applications concernés. Le codage de l’informa-
tion, l’organisation des bases de données, la présentation et la visualisation des résultats, donnent lieu à
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 402/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
383
CHAPITRE 7
des recherches pluridisciplinaires. Ce sont les solutions spécifiques, apportées en réponse aux problèmes
posés, qui conditionnent la qualité des résultats obtenus par les cartes auto-organisatrices.
La suite de ce chapitre est consacrée à la présentation de plusieurs applications des cartes auto-organisa-
trices. Deux domaines, particulièrement bien adaptés à ces méthodes ont été choisis : la télédétection et la
recherche documentaire.
La télédétection satellitaire est un domaine en pleine expansion qui pose aux physiciens et aux modélisa-
teurs un grand nombre de problèmes qui sont de nature statistique. Le fait que les mesures concernées
soient numériques et disponibles en quantités gigantesques rend ce domaine particulièrement adapté à la
modélisation neuronale. Cependant, malgré le nombre des données acquises par les satellites, les mesures
qui permettraient de faire appel aux méthodes d’apprentissage supervisé sont en nombre très limité. Il
s’agit en général de mesures effectuées sur le terrain qui nécessitent un équipement complexe et des
analyses très longues à effectuer. L’enjeu est donc bien d’analyser les mesures de télédétection d’une
manière non supervisée et de reconnaître les groupements effectués à l’aide de toute l’information que
l’on peut recueillir par ailleurs. Nous présentons deux exemples sur le problème de la détection des aéro-
sols à partir des mesures satellitaires. Le premier, qui présente le domaine de la couleur de l’océan, a un
but pédagogique et permet d’illustrer l’ensemble des notions théoriques présentées dans le chapitre. Le
second exemple, détaille les développements méthodologiques nécessaires à la résolution d’une applica-
tion opérationnelle : la typologie des aérosols et l’établissement de cartes d’épaisseur optique. On
montrera à cette occasion :
• Comment faire coopérer modèles théoriques et observations, ce qui permet de prendre en compte une
véritable introduction d’expertise.
• L’intérêt des cartes probabilistes (PRSOM).
Le second paragraphe décrit rapidement une des applications les plus connues à l’heure actuelle, qui a été
réalisée à l’Université de technologie de Helsinki (UTH) : le système WEBSOM. Il s’agit d’une application
dédiée à la recherche d’information sur leWeb. Les premières versions remontent à l’année 1995. La principale
caractéristique de cette application est de traiter d’un problème où la dimension des variables prises en compte
est particulièrement grande. Les différentes recherches menées au centre UTH ont permis de résoudre les
problèmes de dimensionnement de la carte topologique (prise en compte d’un nombre très important de
neurones) et ceux de la mise au point de l’algorithme (temps et précision de convergence). La réalisation de
WEBSOM a permis également l’emergence de recherches ayant pour but de réduire au mieux la durée de
l’apprentissage, et, pendant l’exploitation, le temps nécessaire à la recherche documentaire.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 403/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
384
• Les partitions que l’on peut obtenir sont utiles aux experts des différents domaines d’application
concernés (physiciens, chimistes…) puisqu’elles peuvent constituer un résumé précis de l’ensemble des
phénomènes observables. Ce résumé peut être d’une grande importance au cours de l’étude du phéno-
mène.
• Dans tous les domaines qui relèvent des sciences expérimentales, des expériences difficiles à mettre en
œuvre, longues à développer et lourdes financièrement, sont menées régulièrement par des experts du
domaine d’étude. Par comparaison avec le nombre d’observations satellitaires, le nombre de données
expertes est faible, mais l’information qu’elles contiennent est de la plus grande importance. Les
quelques observations expertisées permettent l’identification de sous-ensembles de la partition qui est
obtenue à partir de la carte topologique. La méthodologie de classification présentée plus bas à la
section « Classification et PRSCOM » permet cette identification.
• De manière à faire apparaître les différentes possibilités des modèles de cartes auto-organisatrices, la
présentation de l’application qui va suivre est organisée de la façon suivante :
– présentation du domaine d’application, des différents problèmes qui se posent et des données dispo-
nibles pour les différentes expériences ;
– présentation des expériences permettant de comprendre l’impact du codage sur les partitions et sur
l’ordre topologique obtenu ;
– présentation des expériences permettant de juger de l’impact de l’introduction d’expertise.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 404/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
385
CHAPITRE 7
tances marines doit prendre en considération, d’une part, les incertitudes dues aux corrections atmosphé-
riques, et, d’autre part, celles qui sont liées à la variabilité des peuplements biologiques et à leurs consé-
quences bio-optiques. Une bonne connaissance du milieu traversé – ou plus précisément l’identification
des principaux aérosols et des différentes classes d’eau qui sont sur le trajet du signal – est donc fonda-
mentale. Les expériences qui vont suivre ont pour objet de retrouver différentes classes d’aérosols et
d’eaux, en utilisant directement les spectres enregistrés au sommet de l’atmosphère par les capteurs.
Longueurs d’ondes
Bandes k
(nanomètres) λ k
200
1 412
2 443 400
3 490
600
4 510
5 555
800
6 670
7 765 1000
8 865
1200
Tableau 7-1. Bandes spectrales
de SeaWifs.
1400
1600
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 405/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
386
sage des cartes topologiques, et vu la grande quantité de données impliquées, les performances obtenues
peuvent être considérées comme représentatives de performances en test.
L’expertise a été introduite en utilisant l’image GAC, pour laquelle des
informations supplémentaires existaient. L’expertise dont on dispose
pour cette image se présente sous deux formes distinctes :
• On trouve différentes informations distribuées par SeaWifs : masque
de terre, indications de nuage.
• Une classification des pixels de l’image GAC obtenue à partir de
différents modèles optiques mis au point par les spécialistes de
l’atmosphère. La figure 7-22 présente l’image GAC expertisée ; dans
cette image, l’expert a identifié cinq classes : les aérosols désertiques,
les eaux dites du cas 2 qui sont des eaux très troubles chargées de
matières organiques, les aérosols marins, les nuages, la Terre. La
classe attribuée à la Terre contient tous les pixels pour lesquels
l’expert n’a pas voulu ou pas pu donner d’étiquette.
• Les informations fournies par SeaWifs, tout comme les classifica-
tions proposées par l’expert, peuvent présenter des erreurs qui sont
dues à la grande complexité des phénomènes étudiés. En particulier,
l’expert a recherché cinq classes : il a pu regrouper sous un même
nom les différents types d’aérosols s’il ne possédait pas les modèles
physiques appropriés.
Figure 7-22. Image GAC expertisée ; l’image représente les cinq zones déterminées
par l’expert : les aérosols désertiques (en noir), les eaux du cas 2 (en gris clair), les
aérosols marins (en gris foncé), les nuages (en gris moyen), la Terre (en blanc).
■ Rôle du codage
Différentes expériences ont été menées en codant de deux manières
différentes les spectres de SeaWifs.
Le premier codage utilise directement les réflectances au sommet de l’atmosphère. Afin de donner la
même importance à chaque longueur d’onde, les valeurs des spectres de réflectance ont été réduites par
longueur d’onde, de sorte qu’elles appartiennent à l’intervalle [–1, +1]. Si l’on note ρ(λ k) la réflectance
pour la longueur d’onde λ k, la normalisation a été calculée sur chaque longueur d’onde (k = 1 … 8) à
partir de l’ensemble d’apprentissage. Chaque observation (un spectre) est donc représentée par un vecteur
de dimension 8 : chaque composante de ce vecteur est constituée par une réflectance normalisée, dédiée
à une longueur d’onde. Comme les valeurs des réflectances sont des réels compris entre 0 et 1, les valeurs
ont été ramenées entre –1 et 1 à l’aide de la formule (2 × ρ(λ k)) – 1.
La partie de l’image LAC réservée à l’apprentissage (1 ligne sur 10), et codée selon ce procédé, sera iden-
tifiée sous le nom de Appcod1. Le second codage a permis de faire ressortir la forme des spectres étudiés.
Dans ce but, on a introduit les pentes des spectres, calculées en chaque longueur d’onde. Lakième compo-
sante du vecteur est alors déterminée à partir des réflectances :
.
On calcule de cette manière sept pentes k = 1 … 7. Afin de conserver une information sur l’intensité du
spectre, une composante du vecteur d’observation a été affectée à la norme du spectre (|| ρ ||). Pour ce
codage, les vecteurs de dimension 8 utilisés en entrée de la carte sont de la forme :
( Δρ(λ 1), … , Δρ (λ 7), || ρ ||).
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 406/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
387
CHAPITRE 7
On appellera Appcod2 la partie de l’image LAC réservée à l’apprentissage codé selon ce deuxième
procédé. De même que précédemment, les vecteurs ainsi constitués ont été normalisés entre –1 et +1,
composante par composante, sur la partie de l’image LAC réservée à l’apprentissage. Comme les pentes
des spectres et la norme ne sont pas de même ordre de grandeur, elles ont été normalisées séparément. La
normalisation est effectuée à partir de la formule suivante : ( × 2) – 1. Dans cette formule, si x
représente une dérivée (Δρ( λk) k = 1 … 7) min (respectivement max) représente le minimum (respective-
ment le maximum), sur l’ensemble de toutes les valeurs rencontrées pour les dérivées dansAppcod2 .
Pour tous les tests effectués, les données ont été transformées en utilisant les codages définis sur
l’ensemble d’apprentissage. Les expériences qui vont suivre vont permettre d’illustrer la méthodologie de
classification exposée dans la section « Classification et PRSOM ». Celles-ci utilisent des quantifications
suivies de classifications ; les quantifications sont obtenues à partir de cartes probabilistes (algorithme
PRSOM), et les regroupements sont effectués par classification hiérarchique. Les différentes cartes auto-
organisatrices ont toutes la même architecture :
• La couche d’entrée est composée de 8 entrées.
• La carte est en 2D et contient (10 × 10) neurones ; les voisinages sont définis à partir de la famille de
fonctions: K(δ) = exp(– δ2).
■ Quantification par PRSOM 696 863 638 551 685 305 418 408 1 041 495
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 407/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
388
dispersées, et celle en bas et à gauche à des zones de R8 pour lesquelles les différents spectres sont très sembla-
bles. La physique de la mesure permet d’interpréter les différentes zones de la carte :
• les spectres sont beaucoup plus stables si le ciel est
dégagé et si le signal permet d’analyser la mer ; 1 2 3 4 5 6 7 8 9 10
• les zones de forte variabilité peuvent correspondre à la
traversée de l’atmosphère en présence d’aérosols, ou
bien à la réflexion sur les nuages. 11 12 13 14 15 16 17 18 19 20
Figure 7-24. Variance estimée par PRSOM, carte (10 × 10) (voir
figure précédente). La surface du disque situé au-dessus du neurone 21 22 23 24 25 26 27 28 29 30
est proportionnelle à la variance estimée pour la gaussienne du
neurone.
31 32 33 34 35 36 37 38 39 40
1 2 3 4 5 6 7 8 9 10 41 42 43 44 45 46 47 48 49 50
11 12 13 14 15 16 17 18 19 20
51 52 53 54 55 56 57 58 59 60
21 22 23 24 25 26 27 28 29 30
61 62 63 64 65 66 67 68 69 70
31 32 33 34 35 36 37 38 39 40
71 72 73 74 75 76 77 78 79 80
41 42 43 44 45 46 47 48 49 50
81 82 83 84 85 86 87 88 89 90
51 52 53 54 55 56 57 58 59 60
91 92 93 94 95 96 97 98 99 100
61 62 63 64 65 66 67 68 69 70
71 72 73 74 75 76 77 78 79 80
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 408/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
389
CHAPITRE 7
forte variance (en haut à droite) échantillonnent plus grossièrement l’espace des observations. Le procédé
de visualisation permet de choisir certains spectres et de procéder à une étude de l’ensemble des réflec-
tances captées par le neurone, ou à leur localisation sur l’image SeaWifs.
Une première inspection permet de neurone 17 neurone 17
1 1
procéder à un contrôle de qualité (figure 7-
25) : il est possible d’identifier les spectres 0.9 0.9
pour lesquels des erreurs de mesure ont dû
se produire. En effet, sur cette carte, les 0.8 0.8
neurones 17, 28, 35, 39 ont des référents 0.7 0.7
pour lesquels une longueur d’onde est
nulle. Si l’on recherche toutes les observa- 0.6 0.6
tions captées par ces neurones, on observe
0.5 0.5
qu’elles présentent la même anomalie. Il
est possible d’en conclure que, dans 0.4 0.4
certains cas, un canal de transmission n’a
pas fonctionné, et que certains neurones se 0.3 0.3
(a) (b)
sont spécialisés dans la détection de cette 0.2 0.2
anomalie.
0.1 0.1
La figure 7-26 montre les spectres qui
représentent les référents des neurones 0 0
c1 c2 c3 c4 c5 c6 c7 c8 c1 c2 c3 c4 c5 c6 c7 c8
17 et 35, ainsi que leurs variances.
neurone 35 neurone 35
Une analyse semblable peut être faite pour 0.8 0.8
chacun des 100 neurones de la carte. La
figure 7-27 montre, pour un neurone situé 0.7 0.7
dans la zone de forte densité (neurone 51),
le spectre qui est associé au référent de ce
neurone, l’ensemble des spectres de 0.6 0.6
radiance captés par ce neurone, et la zone
géographique correspondante sur l’image 0.5 0.5
SeaWifs. Par comparaison avec l’image
SeaWifs (voir figure 7-21), on peut remar- 0.4 0.4
quer que le neurone 51 identifie une zone
claire de l’image située sur la mer et sur
0.3
laquelle il ne semble pas y avoir d’aérosol 0.3
désertique ou de nuages. En examinant (c) (d)
l’ordre des spectres proposé dans la figure 0.2 0.2
7-25, on observe que le codage qui vient
d’être étudié est organisé en fonction de 0.1 0.1
c1 c2 c3 c4 c5 c6 c7 c8 c1 c2 c3 c4 c5 c6 c7 c8
l’intensité des spectres. L’ordre obtenu fait
en priorité ressortir les propriétés physiques Figure 7-26. Les figures (a) et (c) représentent les spectres liés aux
neurones 17 et 35 ; les barres verticales représentent la variance asso-
sous-jacentes à cette intensité. Les mêmes ciée à chaque longueur d’onde. Les figures (b) et (d) représentent les
expériences ont été réalisées à l’aide d’un sous-ensembles de radiance captées respectivement par les neurones
deuxième codage des spectres qui prend en 17 et 35 (carte PRSOM 10 × 10 entraînée à partir de App cod1).
compte à la fois l’intensité et la forme des
spectres (Appcod2). La figure 7-28 montre le nouvel ordre obtenu sur les référents (sur cette figure, les référents
des neurones ont été décodés afin de les représenter sous la forme de spectres). Les référents des neurones sont
maintenant organisés en fonction de l’intensité, mais également selon les différentes formes.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 409/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
390
800 800
0.1 0.1
1000 1000
0.08 0.08
1200 1200
0.06 0.06
1400 1400
0.04 0.04
1600 1600
0.02 0.02
1800 1800
0 0
(a) c1 c2 c3 c4 c5 c6 c7 c8 (b) c1 c2 c3 c4 c5 c6 c7 c8
2000 2000
Figure 7-27. Représentation du spectre du neurone 51(a) des spectres de 200 400 600 200 400 600
App cod1 associés au neurone 51 (b) de la zone géographique associée à (c) (d)
l’image (c) et (d), et de la zone géographique associés au référent w 51 zone
noire (c) et (d) (carte PRSOM 10 × 10 entraînée à partir de App cod1).
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 410/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
391
CHAPITRE 7
Classification et PRSOM
La première série d’expériences a permis de juger de la qualité des quantifications vectorielles obtenues à
l’aide de PRSOM. Ces quantifications vont maintenant être utilisées à des fins de classification.
Une première possibilité consiste à effectuer, comme cela a été présenté au paragraphe précédent, l’étude
physique de chaque référent. Cette étude doit être menée par un expert qui reconnaît chaque référent à
partir des propriétés de son spectre et en déduit le type d’aérosol concerné. Si l’ensemble des neurones est
identifié, la partition proposée par la carte permet de l’utiliser en tant que classifieur pour étiqueter
l’image SeaWifs dans son entier. Par ailleurs, si l’ensemble d’apprentissage est représentatif du problème
traité, il peut être utilisé pour étiqueter d’autres cartes qui reflètent la même physique.
Figure 7-29. Présentation sur la carte des deux classes proposées par PRSM + CAH : PRSOM a été déterminé à partir de
Appcod1, la CAH utilise l’indice de Ward. Le numéro qui figure à droite du neurone représente le numéro de la classe obtenue
par classification hiérarchique. L’ensemble des neurones gris foncé représentent les neurones de la classe 1 et ceux en gris
clair sont ceux de la classe 2.
Si la procédure d’identification n’est pas possible, c’est-à-dire si l’expert ne peut pas avec certitude attri-
buer une étiquette à chaque neurone, il est possible de mettre en œuvre une approche non supervisée de
regroupements des neurones. On procède alors, comme cela a été montré à la section « Classification et
carte topologique », en regroupant les neurones de la carte, et l’on cherche à identifier les classes qui ont
été obtenues à l’aide de la classification hiérarchique. Afin d’illustrer, dans la mesure du possible, la
qualité des performances obtenues par l’enchaînement des algorithmes PRSOM et CAH (classification
ascendante hiérarchique), deux sortes d’expériences d’une complexité différente sont présentées :
• La première expérience porte sur la détermination d’un masque qui reconnaît les nuages forts et les
distingue de l’ensemble des autres spectres. On sait que les nuages réfléchissent davantage le signal : les
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 411/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
392
spectres enregistrés au niveau du satellite présentent des intensités plus fortes et plus variables que celles
qui sont relatives à la mer ou aux aérosols. Séparer les nuages forts des autres constituants de l’atmos-
phère revient à définir un classifieur à deux classes. Puisque, physiquement, le problème présente deux
séries d’observations très distinctes, les deux classes recherchées doivent être bien séparées.
• La seconde expérience cherche à reconnaître les cinq classes identifiées par l’expert ; ces classes ont été
déterminées par comparaison avec des modèles physiques d’aérosols. Le nombre de classes étant plus
grand, et l’expert ayant pu introduire un grand nombre d’erreurs, ce problème est bien plus complexe.
Les deux quantifications vectorielles obtenues au moyen de PRSOM vont maintenant être utilisées pour
reconnaître les classes proposées par un expert. La détermination des classes va se faire par classification
ascendante hiérarchique en utilisant l’indice de Ward défini plus haut au paragraphe « Recherche d’une
partition adaptée aux classes recherchées ».
Dans la première expérience, la classification ascendante PRSOM + CAH
hiérarchique est appliquée sur la carte 10 × 10 obtenue
Nuages Mer visible
après l’apprentissage de App cod1. Comme il s’agit de déter-
miner les nuages forts, les regroupements ont été pour- Nuages SeaWiFS 0.91 0.09
suivis jusqu’à l’obtention de deux classes. Les figures 7-29 Tableau 7-2. Matrice de confusion comparant le
et 7-30 montrent la classification obtenue sur la carte topo- produit distribué par SeaWifs et celui proposé par
logique et sur l’image. La visualisation de la carte permet PRSM + CAH ; PRSOM a été déterminé à partir
d’observer les neurones de chaque classe : clairement, les de Appcod1, la CAH utilise l’indice de Ward.
deux classes de neurones constituent des zones contiguës
de la carte. Afin de montrer que les deux classes obtenues représentent les nuages forts de l’ensemble de
l’image, on a comparé cette classification à celle proposée par l’expert en calculant la matrice de confu-
sion. L’expertise est obtenue ici en utilisant le masque de nuage distribué aux utilisateurs par SeaWifs. La
matrice de confusion est présentée dans le tableau 7-2 ; elle permet de comparer les deux classifications,
celle proposée par le satellite et celle proposée par PRSOM.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 412/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
393
CHAPITRE 7
La division en deux zones géographiques (voir figure 7-30) qui correspondent bien à celles observées sur
l’image SeaWifs montre que les deux classes ont été trouvées par l’application de l’algorithme PRSOM,
suivie d’un regroupement par classification ascendante hiérarchique, sans qu’aucune information experte
n’ait été introduite dans le classifieur. La bonne cohérence de la classification hiérarchique au plus haut
niveau de l’arbre peut laisser espérer un regroupement physiquement cohérent des observations pour tous
les niveaux de la hiérarchie.
La deuxième expérience, qui va confirmer la qualité de la quantification vectorielle, cherche à retrouver
une des classes proposées par l’expert : les eaux du cas 2. Dans la figure 7-22, cette zone, aux propriétés
optiques particulières, est représentée en jaune. L’inspection des différentes zones géographiques atta-
chées aux 100 neurones de la carte proposée par PRSOM permet de sélectionner trois neurones dont les
sous-ensembles de spectres ont une représentation géographique superposable à celle proposée par
l’expert. La figure 7-31 montre les trois référents (w 33, w82, w 93) et les zones géographiques, attachés à
ces neurones.
Figure 7-31.
Représentation des
référents, des sous-
neurone 33
ensembles
d’observations et des
zones géographiques
associés aux neurones
33, 82 et 93 (carte
PRSOM 10 × 10
entraînée à partir de
(d) Appcod2 ).
Les figures (a), (b), (c)
représentent les spec-
tres des neurones 33,
neurone 82 82, 93 ; les figures (d)
et (e) représentent les
spectres de Appcod2
associés aux neurones
33 et 82. Les zones
correspondantes aux
neurones 33 et 93 de
(e)
la figure sont repré-
sentées en noir.
Si l’on inspecte la hiérarchie complète qui a été définie à partir de CAH, on s’aperçoit que les trois
neurones concernés (33, 82, 93) forment un sous-ensemble qui se situe au niveau 35 de la hiérarchie. Il
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 413/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
394
est donc possible, à partir de ce résultat, de proposer un classifieur permettant l’identification automatique
des eaux du cas 2. Les neurones (33, 82, 93) vont être étiquetés cas 2, tous les autres neurones prenant une
même étiquette indiquant leur non-appartenance au cas 2. On voit que l’utilisation du regroupement sans
introduction d’expertise peut, à ce stade, permettre de retrouver une information qui provient de la
physique de la mesure.
La dernière expérience utilise
PRSOM + vote majoritaire
directement l’expertise. Cette
dernière est introduite au Classe1 Classe2 Classe3 Classe4
niveau des neurones en utili- Aérosols marins 0.8 0.04 0 0.16
sant la méthode présentée dans nuages 0.03 0.91 0.01 0.05
la section qui traite de classi- Expert Cas 2 0.03 0.22 0.71 0.03
fication et de topologie.
L’ensemble de test utilisé est Aérosols déser-
0.1 0.04 0 0.86
tiques
celui qui est proposé par
l’expert (image GAC). Les Tableau 7-3. Matrice de confusion permettant de comparer la classification
observations de cet ensemble proposée par l’expert (image GAC) et celle proposée par la carte. Sur cette carte,
sont projetées sur la carte. les 100 neurones ont été étiquetés par vote majoritaire en utilisant les données
Chaque neurone capte ainsi un expertisées.
certain nombre de pixels de
l’image GAC qui lui sont
affectés. Chaque observation ayant une des étiquettes proposées par l’expert, on effectue, au niveau du
sous-ensemble relatif à chaque neurone, un vote majoritaire ; le neurone prend alors le nom de l’étiquette
majoritaire. On compare alors, à l’aide d’une matrice de confusion, les deux classifications (tableau 7-3).
Clairement, les neurones reproduisent bien l’expertise proposée par l’expert.
L’ensemble des résultats obtenus pour cette application montre le bon fonctionnement des algorithmes de
cartes topologiques lorsqu’elles sont employées pour traiter des données numériques. L’application
suivante due à Kohonen va montrer son bon fonctionnement quand elle est utilisée sur des données
textuelles.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 414/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
395
CHAPITRE 7
■ Les données
Les résultats présentés ci-après représentent une phase de faisabilité, pour cette raison, la zone géogra-
phique étudiée a été limitée à la mer Méditerranée. Traiter l’ensemble du globe nécessite simplement
d’appliquer aux images SeaWifs, sur l’océan global, la même méthodologie que celle qui va être
présentée. Pour la même raison le nombre de modèles d’aérosols que l’on veut reconnaître a été limité ;
on a choisi 5 types d’aérosols. Quatre sont utilisés de manière opérationnelle par la chaîne opérationnelle
de SeaWifs dont les produits sont distribués par la NASA, la cinquième famille est celle des aérosols
désertiques pour laquelle l’algorithme mis au point pour le décodage des données SeaWifs échoue.
Augmenter le nombre de types d’aérosols ne nécessite aucune modification de la méthodologie, seule
importe la qualité des modèles théoriques que l’on introduit. Plus les spectres théoriques sont proches de
l’observation, meilleure sera l’élaboration des cartes d’aérosols.
Les données utilisées pour mettre au point le prototype neuronal qui permettra le décodage des images
SeaWifs sont de trois sortes en fonction des observations (spectre de réflectance SeaWifs), des modèles
d’aérosols (spectres de réflectance théoriques) ou des mesures de terrain utilisées pour la validation. Pour
chaque spectre observé on a la connaissance de la géométrie de visée et pour chaque spectre théorique on
a, en plus de la géométrie de visée, la connaissance de l’épaisseur optique et du type d’aérosol concerné.
L’ensemble des observations disponibles est constitué par une année d’images SeaWifs prises sur la
Méditerranée en 1999. De cet ensemble, on a extrait un ensemble d’apprentissage, constitué à partir de
l’ensemble des images utilisables (certains jours les capteurs fonctionnent mal) :
• en appliquant un masque de terre et de nuages afin de retirer les pixels de terre et ceux contaminés par
les nuages ;
• en conservant pour chaque image une ligne de pixels sur 10.
L’ensemble d’apprentissage contient alors 2 346 147 pixels qui vont servir à estimer, à l’aide de l’algo-
rithme PRSOM, les paramètres d’une carte auto-organisatrice des spectres de réflectance observés
(dimension 8). Si l’on se reporte à l’application qui a été présentée en première partie, on peut constater
que l’échantillonnage permet maintenant de représenter la variabilité saisonnière et la variabilité liée à la
géométrie de visée.
Les calculs de transfert radiatif permettent, à partir des paramètres optiques des différents types d’aéro-
sols, de calculer d’une manière théorique les spectres de réflectance auxquels ils sont associés [5]. Il s’agit
de calculs qui sont longs à effectuer, aussi pour conserver la connaissance théorique disponible nécessaire
à la reconnaissance des aérosols, on génère de grandes bases de données (Look Up Table : LUT). Ces
LUTs permettent de conserver sous forme de fichiers, les paramètres optiques, la géométrie de visée ainsi
que le spectre de réflectance qui correspond au calcul de transfert radiatif effectué. Le prototype dont les
performances sont présentés ci-après ici prend en compte :
• Les aérosols Côtier, Maritime, Troposphérique, Océanique utilisés pour les corrections atmosphériques
de SeaWifs [GORDON, WANG 1994].
• La famille désertique provient d’un travail effectué sur l’Atlantique par Moulin [MOULIN et al. 2001]
qui est une évolution du modèle de Shettle [SHETTLE 1984].
La LUT disponible pour la mise au point du prototype neuronal est composée de 9.278.362 spectres de
réflectance échantillonnés aux longueurs d’onde de SeaWifs. Étant donné que le prototype recherché est
spécialisé sur la Méditerranée, les spectres théoriques qui constituent la LUT ont été limités à ceux dont
la géométrie de visée correspond à la Méditerranée .
Les données de terrain sont issues des bases de données du réseau AERONET (AErosol RObotic
NETwork) [http://www.aeronet.gsfc.nasa.gov ]. Ce programme a pour but d’établir les propriétés optiques des
aérosols et de valider les algorithmes de restitutions de ces propriétés par les satellites. La mesure de
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 415/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
396
l’épaisseur optique des aérosols s’effectue en un point de la terre ou de l’océan à l’aide de photomètres
solaires CIMEL (http://www.cimel.fr ) [H OLBEN et al. 1998]. Ces données terrain sont extrêmement impor-
tantes, elles représentent la seule connaissance observée des quantités physiques que l’on veut retrouver.
Dans les expériences présentées, on utilisera, pour valider l’approche neuronale, les mesures de l’épais-
seur optique mesurée par le photomètre à celle estimée par le prototype neuronal. Cependant juger les
résultats de la comparaison est une opération délicate, les mesuresAERONET sont effectuées en un point
alors que les mesures satellitaires accessibles intègrent la mesure sur une grille spatiale. D’autre part, le
CIMEL mesure l’épaisseur optique à partir du sol, et le satellite à partir du ciel ; la couverture nuageuse
peut faire que le phénomène mesuré ne soit pas le même dans les deux cas. On a choisi pour valider le
prototype une station située en Méditerranée, il s’agit de la station de Lampedusa (35.52 N 12.62 E) pour
l’année 2000. Étant donné que pour valider la méthodologie, il faut disposer pour chaque point de mesure
des spectres de réflectance correspondant, le nombre de points disponibles pour cette validation dépend
des images disponibles (capteur en fonctionnement et sans nuage) : on a donc pour cette raison unique-
ment 46 points permettant d’effectuer la comparaison.
Démontrer le bien-fondé de la méthodologie proposée est, comme souvent dans les applications qui utili-
sent l’apprentissage non supervisé, un exercice délicat. Le problème principal provient, de ce que la vérité
(ici le type d’aérosol ou son épaisseur optique) n’est pratiquement jamais observée. On voit donc que pour
juger des performances, il va falloir décider d’un certain nombre de tests qualitatifs et quantitatifs : c’est
la cohérence de tous les tests qui va permettre de conclure à l’efficacité de la méthode proposée. Dans la
suite, on validera les performances du prototype qualitativement et quantitativement à partir des images
SeaWifs de 1999 pour lesquelles 9/10e des données n’ont pas participé à l’apprentissage. Pour compléter
sa validation, les mesures d’épaisseur optique estimées par le prototype seront comparées, pour
l’année 2000, aux valeurs mesurées pendant des campagnes de mesure AERONET. Pour les mesures de
l’année 2000, les performances qui sont présentées démontrent le pouvoir prédictif du prototype
neuronal, puisque aucune observation de l’année 2000 ne participe à l’apprentissage.
■ Méthodologie
L’ensemble de la méthodologie proposée pour mettre au point le prototype neuronal est complexe et
requiert un grand nombre de traitements. Ces traitements vont être détaillés et justifiés dans les paragra-
phes suivants. Afin d’aider à la compréhension du procédé, les traitements détaillés dans les paragraphes b
et c ci-après sont résumés sous forme d’organigramme à la figure 7-36.
a) Élaboration de la carte PRSOM des réflectances
Comme dans l’application précédente, l’ensemble des vecteurs référents (spectres de réflectance synthé-
tiques de dimension 8) d’une carte auto-organisatrice en 2D de 20× 20 neurones sont estimés à partir
d’un ensemble d’apprentissage. Étant donné le grand nombre de spectres utilisés pour la base d’appren-
tissage et le grand nombre de neurones, l’ensemble des référents peut être considéré comme un résumé
très complet de l’ensemble des spectres observables par satellite sur la Méditerranée. On dénote par la
suite cette carte : carte PRSOM des réflectances ou PRSOM-R.
Les algorithmes de corrections atmosphériques utilisés par la chaîne opérationnelle SeaWifs déterminent
l’épaisseur optique en calculant les rapports des réflectances mesurées à 765 nm et 865 nm. L’objectif
final des corrections atmosphériques est d’obtenir des valeurs de réflectance marine qui permettent
d’inverser le signal pour calculer la concentration en chlorophylle, les matières dissoutes et les matières
en suspension. Les algorithmes d’inversion [AIKEN et al. 1995], [MITCHELL, KAHRU 1998], [FROUIN et
al. 1998] utilisent des rapports de réflectance dans le visible pour retrouver les concentrations en
chlorophylle : par exemple les rapports à 490 nm et 555 nm, ceux à 510 nm et 555 nm [MITCHELL,
KAHRU 1998]. Il est clair, si l’on prend en compte la connaissance qu’ont les physiciens de la mesure des
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 416/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
397
CHAPITRE 7
spectres de réflectance, que la valeur du rapport de réflectance pour certaines longueurs d’onde est carac-
téristique des paramètres que l’on veut retrouver. Une organisation des référents de la carte qui exhibent
une structure en fonction des rapports de réflectance indique que l’organisation des neurones s’est bien
effectuée en fonction des propriétés physiques des paramètres atmosphériques et océaniques.
Afin de montrer l’organisation obtenue par la carte PRSOM-R , on a calculé (figure 7-32), à partir des
spectres des référents, les rapports de réflectance de trois longueurs d’onde à la valeur obtenue pour la
longueur d’onde 555 nm et le rapport de réflectance dans l’infrarouge. On voit clairement si l’on regarde
les quatre figures obtenues pour les quatre rapports, qu’une organisation spatiale apparaît au niveau de la
carte pour chaque rapport. On en déduit que décoder l’information physique contenue par l’ensemble des
référents doit permettre d’estimer les paramètres physiques recherchés.
Figure 7-32. Visualisation des rapports de réflectance à 443, 490, 510 nm à la valeur obtenue pour la longueur d’onde
555 nm et le rapport de réflectance dans l’infrarouge. Chaque petit carré d’une imagette représente la valeur du rapport
calculé pour un neurone.
Le problème à résoudre est donc d’utiliser la connaissance contenue dans la carte PRSOM-R des réflec-
tances afin de retrouver les paramètres physiques qui caractérisent les aérosols. L’inversion que l’on veut
résoudre est multivaluée, le grand nombre de paramètres qui interviennent pour former un spectre de
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 417/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
398
réflectance fait qu’un même spectre peut correspondre à des configurations de paramètres physiques
différentes. Une manière de résoudre le problème est d’avoir recours à des informations extérieures. Pour
le problème exposé ici, cela se fera de deux manières distinctes :
• en prenant en compte la géométrie de visée ;
• en introduisant de l’expertise.
Afin de reconnaître le type d’aérosol et son épaisseur optique, l’algorithme de la chaîne opérationnelle de
SeaWifs effectue une recherche dans la LUT et utilise la valeur exacte de 4 angles (la position du soleil :
angle zénithal θs et angle azimutal φo ; les conditions de visée du satellite ( θv et φ v) qui constituent la
géométrie de visée. Un autre angle peut être calculé à partir des angles précédents, il s’agit de l’angle de
diffusion γ ( angle entre la direction de la lumière incidente sur un point et sa direction émergente) calculé
à l’aide de la formule γ = arccos (– cos θv cos θs + sin θv sin θ s cos ΔΦ)
avec ΔΦ = φo – φv.
Utiliser γ permet de réduire le système de coordonnées. Dans la suite, afin de limiter la complexité du
prototype neuronal, seuls deux angles seront pris en compte : l’angle zénithal solaire et l’angle de diffu-
sion.
Retrouver les cartes de typologie des aérosols et d’épaisseur optique consiste à repérer dans la LUT, le
spectre (ou les spectres) théoriques « le plus ressemblant » au spectre observé. L’algorithme utilisé par la
chaîne opérationnelle SeaWifs recherche directement dans la LUT et prend en compte les 4 angles de
visée. La taille de la LUT fait qu’une recherche exacte est longue et couteuse et des méthodes heuristiques
permettent alors d’obtenir une solution sub-optimale. Au contraire, l’approche neuronale permet d’orga-
niser la recherche et de prendre en compte l’aspect statistique de la recherche. Comme l’effet de la géomé-
trie de visée sur le spectre de réflectance est continu, le prototype neuronal va prendre en compte cette
géométrie, mais d’une manière moins fine en regroupant les géométries en classes. Une telle approche
permettra d’introduire une marge d’incertitude sur les spectres théoriques et de sélectionner le spectre
théorique le plus ressemblant d’une manière statistique. Pour cela, on va organiser les géométries de visée
à l’aide d’une seconde carte auto-organisatrice : la carte PRSOM-A des angles.
Étant donné que l’on a limité la prise en compte de la géométrie aux deux angles θs et γ, l’espace des
données à classer est à deux dimensions. Le regroupement des géométries est effectué par une carte auto-
organisatrice de 10 × 10 neurones dont l’apprentissage est effectué à partir de l’ensemble des géométries
(2D) qui caractérisent les observations de l’ensemble d’apprentissage (voir les données). Comme le proto-
type neuronal est mis au point pour la Méditerranée, l’ensemble d’apprentissage se restreint aux angles de
diffusion compris entre 113,67° et 180°, et aux angles solaire θs compris entre 7,5° et 74° qui sont ceux
recouvrant la région étudiée. À la fin de l’apprentissage, les neurones sont regroupés par CAH en utilisant
l’indice de Ward). La meilleure partition a été sélectionnée en appliquant le critère du coude qui indique
10 classes de géométrie.
La figure 7-33 montre, dans le plan (θs ,γ), la partition en 10 classes obtenue après classification hiérar-
chique. Le découpage proposé par la carte PRSOM-A est non linéaire et prend en compte la distribution
de (θs,γ ). Les critères statistiques utilisés font que les frontières entre deux classes se situent dans les
zones de plus faible densité. Un tel découpage permet, au moment du décodage d’une image sur la Médi-
terranée, d’avoir un minimum de pixels situés aux frontières des différentes classes, et de limiter de cette
manière les effets de bords, inévitables si l’on prend en compte la géométrie de visée par classes.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 418/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
399
CHAPITRE 7
Figure 7-33. Représentation dans le plan des deux angles du découpage effectué par la carte PRSOM des angles sur les
géométrie de visée qui apparaissent au niveau de la mer Méditerranée.
Cette classification va permettre de spécialiser l’introduction d’expertise et donc le décodage des spectres
de réflectance en fonction de la classe de géométrie à laquelle ils appartiennent. Pour cette raison,
l’ensemble des spectres observés et l’ensemble des spectres de la LUT vont être classés à partir de la carte
des géométries. Chaque spectre, qu’il soit observé ou théorique, va conserver l’information de la classe
de géométrie à laquelle il appartient. On découpe alors la LUT en dix bases de données en fonction des
10 classes de géométrie. On notera LUTi, la base de donnée qui contient l’ensemble des spectres théori-
ques de la géométrie i.
c) Introduction de l’expertise
Afin de décoder les informations satellitaires on utilise:
• l’indication de la géométrie ;
• les informations sur les aérosols contenues dans les LUTi, c’est-à-dire le type T et l’épaisseur optique
t(865 nm) des spectres théoriques.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 419/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
400
Dans notre cas, les observations sont représentées par l’ensemble des référents de la carte PRSOM-R.
Chaque LUTi va permettre par introduction d’expertise, à partir de la carte PRSOM-R, de générer une
nouvelle carte expertisée, elle est appelée par la suite carte de réflectance, et celle dédiée à la classe de
géométrie i est notée PRSOM-Ri. Ce transfert de connaissance de la LUTi vers PRSOM-R va se faire en
faisant coïncider les spectres théoriques de la LUTi et ceux de la carte PRSOM-R . Cette mise en coïnci-
dence s’opère en projetant les spectres théoriques de LUTi sur la carte de réflectance PRSOM-R. On
obtient alors la carte PRSOM-Ri. Chaque neurone de PRSOM-Ri va de cette manière capter un certain
nombre de spectres théoriques de LUTi dont la forme et la norme vont être proches du référent du neurone
capteur. Les modèles théoriques ne peuvent pas représenter exactement la multitude des interactions qui
apparaissent durant la traversée de l’atmosphère et de l’océan. L’ensemble des spectres théoriques captés
par un neurone peut donc avoir une variance forte, indiquant une certaine dissimilarité entre l’observation
et les modèles théoriques.
L’algorithme d’apprentissage PRSOM permet d’estimer, pendant l’apprentissage, pour chacun des
neurones les écarts-types des neurones. Ces écarts-types représentent la variabilité de l’observation autour
des référents attachés aux neurones. Pour affiner l’expertise, on va restreindre l’ensemble des spectres
théoriques affectés à un neurone, à ceux dont les propriétés physiques sont en accord avec l’observation.
Dans notre cas, les canaux les plus informatifs sur les aérosols sont les 3 longueurs d’onde 510 nm,
670 m, 865 nm ; on décide donc de n’affecter à un neurone que les spectres théoriques qui, pour ces
longueurs d’onde, sont compris dans un intervalle de largeur 2 écarts-types autour de la valeur du référent.
La figure 7-34 montre, pour une carte de géométrie PRSOM-Ri, l’opération de filtrage des spectres de
LUTi captés par un des neurones de cette carte. Cette opération est répétée pour les 20× 20 neurones des
10 cartes de géométrie PRSOM-Ri, définissant 10 cartes de réflectance qui chacune a retenu l’expertise
liée à une géométrie.
Le problème qui reste à résoudre est celui du décodage de l’information extraite à l’aide des LUT, cette
étape va se faire successivement pour chaque carte PRSOM-Ri. À la fin de la phase de labellisation de
l’expertise, différents cas peuvent se produire selon les spectres théoriques de la LUTi retenus par le
neurone :
• Certains neurones, appelés « neurones purs » n’ont capté que des spectres théoriques d’un même type,
type que l’on a défini précédemment selon ses propriétés physiques ; on peut dans ce cas inférer le type
du neurone. Un « neurone pur » prend comme étiquette celle du type d’aérosol commun aux spectres
théoriques captés et comme épaisseur optique τ(865 nm) la moyenne des épaisseurs optiques de ces
spectres. Pour le prototype neuronal, on a introduit une marge d’incertitude en appliquant la règle du
« neurone pur » si le nombre de spectres d’un même type dépasse 95 % du nombre total de LUTi
gagnés. De même font partie des « neurones purs » tous les neurones dont la moyenne des épaisseurs
optiques à 865 nm des spectres théoriques captés par un neurone est inférieur à 0,1. L’épaisseur optique
étant très faible, on décide alors de lui attribuer le type Maritime, et on affecte à ces neurones la
moyenne des épaisseurs optiques de l’ensemble des spectres théoriques captés par le neurone tous types
confondus. En effet, dans ce cas, les propriétés physiques des aérosols n’influeront quasiment pas la
correction atmosphérique.
À l’issue de cette première opération, un certain nombre de neurones n’ont pas d’étiquette, ce qui
s’explique par l’imperfection des modèles d’aérosols à reproduire l’observation et à la prise en compte
partielle de la géométrie de visée. Deux cas vont se présenter : un neurone peut avoir capté des spectres
théoriques de plusieurs types (« neurone mixte ») ou, étant vraiment différent de tous les spectres de la
LUT, n’avoir capté aucun spectre théorique (« neurone blanc »).
• Pour un « neurone mixte », on poursuit la prise en compte de l’expertise en séparant l’ensemble des
spectres théoriques captés selon leur type. On estime alors pour chaque type un spectre théorique et une
épaisseur optique en moyennant les spectres de la LUT qui ont été sélectionnés. Un « neurone mixte »
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 420/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
401
CHAPITRE 7
est maintenant représenté par son référent et l’ensemble des spectres moyens calculés et l’épaisseur
optique moyenne (il peut y avoir jusqu’à 5 spectres moyens représentant les 5 types possibles). La
figure 7-35 montre un « neurone mixte » auxquel sont associés 4 types d’aérosols (donc 4 spectres
moyens). On effectue cette opération pour chaque « neurone mixte » et pour chaque carte PRSOM-Ri.
Figure 7-34. Représentation d’une opération de filtrage des Figure 7-35. Représentation d’un neurone avec les barres
Luts pour le neurone 62. d’erreurs à deux écarts-types calculés au cours de l’appren-
tissage par l’algorithme PRSOM ; et spectres théoriques
moyens attachés à ce neurone. Ce neurone est un « neurone
mixte ».
La détermination du type et de l’épaisseur optique d’un « neurone mixte », ainsi que l’épaisseur optique
d’un « neurone blanc » se feront lors de la phase d’analyse (et non plus de labellisation) de chaque image.
Cette détermination pourra donc varier d’une image à l’autre selon ses propriétés physiques et va se faire
en prenant en compte l’ensemble des informations contenues dans l’image satellitaire. Mis à part les
« neurones purs » dont le type est fixé, un neurone prendra son type et son épaisseur optique après une
première phase d’analyse de l’image SeaWifs tout entière. Cette première phase permet de pendre en
compte les informations de contexte contenues dans l’image et dans la topologie de la carte.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 421/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
402
À la fin de l’étiquetage les « neurones mixtes » et les « neurones purs » ont chacun un type et une épais-
seur optique. Les « neurones blancs » n’ont en fait capté aucune expertise. Utilisant les propriétés de
voisinage des cartes auto-organisatrices ils peuvent déduire leur épaisseur optique de ceux des neurones
voisins. Un « neurone blanc » calcule son épaisseur optique en effectuant la moyenne des épaisseurs opti-
ques des « neurones purs » et « neurones mixtes » de sa classe déterminée par CAH. Dans le prototype
neuronal de la Méditerranée , on a effectué pour chaque carte PRSOM-Ri une CAH en 30 classes (chiffre
optimisé à l’aide du critère du coude). Dans l’état actuel du prototype neuronal on ne prend pas de déci-
sion sur le type des « neurones blancs ».
D’autre part, chaque neurone peut être considéré comme représentant les 5 types d’aérosols avec des
probabilités différentes. Les cartes auto-organisatrice utilisées ici (algorithme PRSOM) sont issues d’un
formalisme probabiliste qui permet de calculer pour chaque pixel de l’image SeaWifs analysée, en fonc-
tion de l’ensemble des 20 × 20 neurones de la carte, les probabilités a posteriori des 5 types possibles.
Ceci va permettre, dans les images présentées ci-après, d’estimer la confiance que l’on a de la typologie
des aérosols proposés.
Le deuxième passage de l’image consiste simplement à projeter chaque pixel de l’image SeaWifs sur les
cartes PRSOM-Ri en fonction de sa géométrie. Le pixel reçoit alors le type et l’épaisseur optique du
neurone auquel il est affecté.
Le processus peut se résumer d’une manière schématique (voir figure 7-36) et par l’algorithme encadré.
Phase de prise en compte de la géométrie LUT
Un neurone c a capté Un neurone c a capté Un neurone c n’a Un neurone c a gagné des Luts
à 95 % des LUTs de des LUTs dont la capté aucune de différents types
type T moyenne des LUTs
τ(865)nm < 0,1 Calculer les moyennes des
Attribuer le Label T Pas de label spectres théoriques gagnés
au neurone c Attribuer le Label Calculer pour chaque type
Label Définitif maritime au l’épaisseur optique moyenne
« Neurone Pur » neurone c « Neurone blanc »
Label Définitif Le neurone possède 5 compteurs :
un pour chaque type d’aérosol
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 422/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
403
CHAPITRE 7
■ Résultats
Le paragraphe qui suit présente le décodage d’images fournies par le radiomètre SeaWifs pour une
semaine d’août 1999 (du 6 au 11 août). Un intense nuage de poussière désertique originaire du nord de
l’Afrique, s’amplifiant puis s’étalant vers le Nord-Est a été observé à cette date. Les cartes météorologi-
ques, présentées dans la figure 7-37, nous montrent que le sens du vent est du Sud-Ouest vers le Nord-Est
(en raison de l’effet de Coriolis, le vent se dirige à droite de la ligne allant des hautes pressions vers les
basses pressions). On s’attend donc à ce que les images fournies par le prototype révèlent bien le passage
de ces poussières allant dans le même sens que la trajectoire du vent. La figure 7-38 illustre les résultats
de la typologie et des épaisseurs optiques fournies par le prototype pour les journées du 7, 8, 9 août. En
analysant les images, on constate effectivement l’élargissement et le déplacement du panache d’aérosols,
d’ouest en est, à partir de la côte tunisienne.
Afin d’obtenir plus d’informations sur les nuages d’aérosols retrouvés, on calcule en utilisant les formules
du paragraphe « étiquetage et probabilité » la probabilité a posteriori de chaque type pour chacun des
pixels de l’image. La figure 7-39 donne pour le 28 juin 2000 la typologie des aérosols proposée par le
prototype neuronal et la figure 7-40 présente pour le type « poussière » les différentes probabilités esti-
mées par le calcul. On remarque la bonne adéquation entre la carte des typologies et celle des probabilités.
Les pixels ont des probabilités proches de 1 au centre du nuage et des probabilités faibles sur les bords.
On a comparé les épaisseurs optiques données par le prototype neuronal aux 46 mesures de l’année 2000
obtenues avec l’expérience AERONET à la station de Lampedusa ; comparaison qui ne doit pas omettre
le nombre important d’incertitudes pesant sur les observations (satellitaire ou in situ) :
• Pour les épaisseurs optiques calculées à partir des données satellitaires on considère les épaisseurs opti-
ques sur un pavé de 3 × 3 pixels autour de la position du photomètre au sol. On effectue alors un test
d’homogénéité spatiale en ne gardant que les mesures (parmi les 9) qui sont comprises entre +/– un
écart-type autour de leur moyenne. La valeur finale qui sera comparée est la valeur moyenne des
mesures répondant au test.
• Les épaisseurs optiques du réseau AERONET utilisées pour la validation sont les moyennes des
mesures effectuées entre 10 h et 13 h. En effet, les mesures SeaWifs au-dessus de la Méditerranée sont
acquises vers 11 h (+/– 1 h) tous les jours.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 423/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
404
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 424/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
405
CHAPITRE 7
Figure 7-39. Typologie des aérosols proposés par le prototype neuronal pour la journée du 28 juin 2000.
Figure 7-40. Image du 28 juin 2000. Probabilité a posteriori pour les pixels de l’image du 8 août d’appartenir au type
« poussière ». Les valeurs négatives sur l’échelle de couleur sont imposées par la représentation graphique pour introduire
le masque de terre. Sur la mer, les niveaux de gris correspondent bien aux probabilités calculées à partir du « prototype ».
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 425/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
406
On utilisera pour la comparaison des épaisseurs optiques les performances obtenues sur deux indices :
• l’erreur quadratique;
• l’erreur relative moyenne.
Le tableau 7-4 donne les erreurs quadratiques et les erreurs
Prototype SeaWiFS
relatives obtenues en comparant les mesures AERONET
aux estimations du prototype et à celles produites par la RMS 0.0364 0.0381
chaîne opérationnelle de SeaWifs. Seuls 34 points sont Erreur relative 0.3085 0.3282
utilisés dans cette comparaison, la chaîne opérationnelle Tableau 7-4. Comparaisons des indices de perfor-
de SeaWifs écartant les 12 points restant qui ont été mances obtenues par le prototype neuronal et
éliminés par le masque de nuage. La figure 7-41 compare l’algorithme de la chaîne opérationnelle SeaWifs
pour ces mêmes mesures les diagrammes de dispersion sur les 34 points de mesure de la station
obtenus pour le prototype neuronal et par la chaîne opéra- AERONET de Lampedusa.
tionnelle de SeaWifs. On constate une amélioration des
performances si l’on utilise le prototype neuronal. D’autre Prototype
part, le prototype neuronal donne une estimation de RMS 0.0410
l’épaisseur optique pour l’ensemble des 46 points de Erreur relative 0.2774
mesure disponibles en 2000. Une comparaison entre les
mesures AERONET et les estimations du prototype est Tableau 7-5. Comparaisons des indices de perfor-
donnée à la figure 7-42 avec les barres d’erreur attachées à mances obtenues par le prototype neuronal sur
les 46 points de mesure de la station AERONET
chaque mesure. Sur la figure, il est facile de voir que les de Lampedusa.
variations temporelles observées par le radiomètre sont
reproduites par les estimations données par le prototype, les valeurs étant plutôt surestimées. Les deux
indices ont été calculés sur l’ensemble des 46 points (tableau 7-5) ; où l’on observe une amélioration des
performances. Il est clair que le prototype réalisé peut décoder avec succès des situations pour lesquelles
les épaisseurs optiques sont fortes, ces situations étant écartées par la chaîne opérationnelle de SeaWifs.
Figure7-41. Comparaison des deux diagrammes de disper- Figure 7-42. Comparaison des épaisseurs optique obtenues par
sion obtenus par le prototype neuronal et la chaîne opéra- le prototype neuronal et des mesures effectués par le radiomètre
tionnelle de SeaWifs pour l’analyse des 34 mesures de CIME. La comparaison est effectuée sur les 46 points disponi-
l’année 2000 de l’expérience AERONET. bles pour l’année 2000 dans la station de Lampedusa. Chaque
point est représenté avec l’incertitude qui a été calculée.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 426/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
407
CHAPITRE 7
■ Conclusion
Les performances obtenues prouvent la validité du prototype neuronal. L’approche statistique que l’on
vient de décrire présente un caractère de généralité qui permet d’envisager le décodage d’autres mesures
satellitales en ayant recours à la même méthodologie. On peut, par classification puis introduction
d’expertise, mettre l’accent sur des cartographies spécifiques (sol, culture…).
Le codage de l’information
Le prétraitement effectué sur un texte doit permettre d’en extraire une information significative qui est
directement conditionnée par les particularités du domaine d’étude. Bien entendu, ce codage doit égale-
ment prendre en considération les particularités attachées au formalisme des cartes topologiques : l’algo-
rithme de Kohonen traite des données quantitatives multidimensionnelles ; chaque texte doit, pour cette
raison, être représenté par un vecteur de Rn. La dernière version du système Websom traite d’un corpus de
6 840 568 résumés de langue anglaise, dans lequel en moyenne chaque abstract est représenté par un
ensemble de 132 mots. Pour effectuer le codage de l’ensemble des chiffres et des symboles spéciaux, les
mots apparaissant moins de 50 fois ainsi que 1335 mots trop communs ont été supprimés. On considère
finalement, pour le corpus dans son entier, un ensemble de 43 222 mots. Plusieurs versions de Websom
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 427/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
408
existent ; la première codait directement l’histogramme du texte à l’aide d’un vecteur dont la dimension
était égale au nombre de mots. Dans ce codage, chaque composante de ce vecteur correspond à la
fréquence d’occurrence d’un mot particulier, affecté d’un poids qui représente l’importance du mot pour
la signification du texte. Différentes méthodes de compression de l’information pour diminuer cette
dimension prohibitive ont été proposées : réduction par projection (analyse en composantes principales)
ou utilisation d’une des méthodes de projections aléatoires. C’est la méthode des projections aléatoires
qui est actuellement implémentée : chaque texte est représenté par un vecteur de dimension 500 qui
résume le texte en analysant son vocabulaire d’une manière statistique. La complexité du codage est
O(NL) + (n), où N représente le nombre de documents. Le nombre moyen de mots différents contenu dans
un texte, et n la dimension initiale des histogrammes. Pour comparaison, la méthode la plus simple qui
compresse les histogrammes par projection est en O(NLd). Ces améliorations substantielles ont permis
d’envisager une utilisation opérationnelle de Websom sur le corpus tout entier.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 428/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
409
CHAPITRE 7
l’ordre topologique pour de très grandes cartes. De plus, une amélioration de la rapidité de convergence
est obtenue en utilisant une recherche rapide du plus proche voisin, qui se sert explicitement de l’ordre
topologique trouvé par les cartes successives.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 429/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
410
à la situation familiale (célibataire, veuf, divorcé, marié). Les variables ainsi définies sont appelées varia-
bles catégorielles ; elles sont classées en deux groupes : les variables catégorielles ordinales, qui se carac-
térisent par l’existence d’un ordre implicite entre les modalités (comme la taille), et les variables catégo-
rielles nominales (comme la situation familiale). Si l’on utilise un codage adapté, les données
catégorielles peuvent devenir des données binaires. Les codages utilisés le plus souvent sont :
• Le codage binaire additif : s’appliquant aux variables ordinales, il permet essentiellement de conserver
l’ordre implicite entre les modalités d’une variable.
• Le codage disjonctif complet : ce codage s’applique aux variables nominales.
Le tableau 7-6 présente ces deux types de codage
Modalités Codage additif Codage disjonctif
binaire d’une variable catégorielle à trois modalités.
1 100 100
La statistique descriptive permet de résumer un
2 110 010
ensemble d’observations par des grandeurs caractéristi-
ques. Dans le cas des données numériques, si l’on 3 111 001
utilise la distance euclidienne, il est possible de résumer Tableau 7-6. Codage des modalités
un ensemble d’observations dans l’espace des données
par sa moyenne et son écart-type. Si les observations sont en dimensions multiples, on peut utiliser le
centre de gravité et l’inertie. Des caractéristiques équivalentes ont été définies pour le traitement des
données binaires si l’on utilise la distance de Hamming [GOVAERT 1990, CELEUX 1991, GIROLAMI 2001,
PATRIKAINEN 2004, BISHOP 1998, VERBEEK 2005] ; l’ensemble des données est décrit à l’aide d’un centre
médian, lui-même binaire. Pour des données formées de vecteurs dont les composantes sont catégorielles,
le résumé peut être effectué par le calcul de tables de probabilités liées à chaque modalité de chaque
variable.
Comme indiqué plus haut, les cartes topologiques numériques minimisent une fonction de coût qui
dépend des inerties intra-classe définies à partir de la distance euclidienne, ou bien maximisent une fonc-
tion de vraisemblance (cas de PRSOM). Pour proposer une classification de la même manière, les cartes
topologiques binaires et probabilistes minimisent :
• une fonction d’inertie définie à partir de la distance de Hamming pour le modèle BTM (données
binaires) ;
• une fonction de vraisemblance pour le modèle CTM (données catégorielles).
Les deux sections suivantes présentent les modèles BTM et CTM.
la relation suivante :
n
H (z1; z2 ) = ∑ z 1j − z 2j . (40)
j =1
Comme pour le modèle classique des cartes topologiques, on utilise, pour le modèle BTM, un réseau de
neurones avec une couche d’entrée pour les variables et une carte C possédant une structure de graphe
régulier [LEBBAH 2000], [ LEBBAH 2003]. On détermine les référents en minimisant une fonction de coût
JbinT ( χ ;W ) (formule 41) en utilisant la distance de Hamming, semblable à J TSom ( χ ;W ) (relation 16). À
chaque neurone c de C est associée un référent wc et W = {w c / c ∈ C } . Comme pour J TSom, la minimisation
de J Tbin par rapport χ et W permet de réaliser la conservation de la topologie de la carte C, et de fournir une
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 430/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
411
CHAPITRE 7
((
JTbin ( χ; W ) = ∑ ∑ K T δ χ ( zi ); r H ( zi ; wr ).
zi∈ A r∈ C
)) (41)
T
L’expression (41) est semblable à la fonction de coût Jsom (relation 16), dans laquelle la distance eucli-
dienne entre l’observation z et un référent wr est remplacée par la distance de Hamming. Si l’on définit
T
une distance de Hamming pondérée, notée d bin , qui fait intervenir l’ensemble de tous les référents
T
dbin ( z; wχ ( zi ) ) = ∑ K T (δ (χ ( zi );r ))H ( zi ; wr ) (42)
r ∈C
(
J Tbin ( χ ;W ) = ∑ d Tbin zi ; wχ (zi ) . )
zi∈ A
facile de voir que ce minimum est atteint pour une fonction d’affectation χ : β n → C définie par :
La phase de minimisation consiste à minimiser la fonction de coût par rapport à W en fixant la fonction
d’affectation χ à celle déterminée à l’étape précédente. En intervertissant les deux sommations dans la
formule (41), on obtient :
J Tbin (χ ;W ) = ∑ ∑ K (δ (χ ( z ) ;r) )H ( z ; w ) = ∑ I
T
i i r r
(44)
r∈C zi ∈A r ∈C
avec
Ir = ∑ K (δ ( χ ( z ); r ) ) H ( z ; w ).
T
i i r
(45)
zi ∈ A
La formule (45) fait apparaître une expression qui correspond à l’inertie relativement à la distance de
Hamming des observations de A par rapport au vecteur référent wr, chaque observation zi étant pondérée
((
par γir = K T δ χ ( zi ) ; r . ) )
Pour χ fixé, la minimisation de JbinT
( χ ;W ) par rapport à W revient à minimiser chaque inertie par rapport
au référent wr. Le minimum de Ir dans β n = {0;1}n n’est autre que le centre médian de A lorsque chaque
(( ))
observation zi est pondérée par γ ri = K T δ χ ( zi ); r . Le référent trouvé est toujours de même type que
celui des observations zi et possède une interprétation symbolique. La définition du centre médian et la
démonstration du résultat sont données dans la remarque qui suit.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 431/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
412
Remarque
Si l’on considère l’inertie par rapport à= 1 2 n
∈ βn de l’ensemble A dont les observation
i sont pondérées
z par les coefficients
γI : w ( w; w ;...; w )
n
I (w ) = ∑ γ i H( z i ;w ) = ∑ γ i ∑ | zi − w |
j j
z i ∈A zi∈ A j=1
n
qui s’écrit : I(w ) = ∑ I wj ( ) I(w ) =∑ γ i (1 −zi )w +∑ γ i zi (1 −w ) .
où j j j j j
j =1 zi ∈A zi ∈A
En posantΓ = ∑ γi 1− z
j
0
z i ∈A
( i
j
) etΓ j
1
= ∑ γ z , on aI( w ) = w Γ
j
i i
j j
0
j
( )
+ 1 − wj Γ 1j
zi ∈A
où Γ j0 représente la somme des pondérations des observationsAdedont la valeur de la j composante j est égale à 0,
Γ 1et
j représente la
somme des pondérations des observations de
A dont la valeur de la composante j est égale à 1. Il est facile de voir que cette expression
⎪0 si Γ 0 ≥ Γ 1
j j
j
⎧
w =⎨
est minimisée par la médiane définie par .
⎪1si Γ 1j ≥ Γ 0j
⎩
I(w) est formé par l’ensemble des médianes relatives à toutes les composantes ; ce vecteur est appelé le centre
Le vecteur w qui minimise
médian de A relativement aux pondérations choisies.
ωr n’est autre que le centre médian des observations de A lorsque celles-ci sont pondérées par les
Ce résultat montre que le référent
(
γ ri =KT δ ( χ ( zi ) ; r) . )
■ Algorithme des cartes topologiques binaires à T fixé
Étape d’initialisation à t = 0
Choisir la structure et la taille p de la carte. Choisir les p référents initiaux, en général d’une manière aléa-
toire, et le nombre d’itérations Niter .
Étape itérative t
L’ensemble des référents Wt-1 de l’étape précédente étant connu :
t
• Phase d’affectation : mise à jour de la fonction d’affectation χ . On affecte chaque observation zi à
l’indice du référent défini à partir de l’expression (43).
• Phase de minimisation : χ étant fixé, pour chaque neurone r prendre comme référent w tr le centre
t
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 432/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
413
CHAPITRE 7
p ( z) = ∑ p ( c ) p ( z) avec
2 c2 pc 2 ( z ) = ∑ p ( c c ) p ( z c ).
1 2 1
(46)
c 2 ∈C 2 c1 ∈C1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 433/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
414
1
désigne l’ensemble des tables de probabilités par θ = ∪ cp=1 θ c1 , et l’ensemble des probabilités a priori par
θ 2 = {θ c2 ; c2 = 1.. p} où θ c = p( c2 ) . 2
p ( z) = ∑ p ( z;ξ ) = ∑ p( z c ) p( c c ) p (c ),
1 1 2 2
ξ ξ = (c1 ;c 2 )
yi( c1; c2 )
N N ⎡ ( )p
K T δ ( c2 ; c1 ) ⎤
V T ( A;Ξ ;θ ) = ∏ p( zi ;ξ i θ ) =∏
i =1
∏ ∏ ⎢⎢θ
i= 1 c 2∈C 2 c 1 ∈C 1
c2
Tc 2
( z c ;θ )⎥⎥
i 1
c1
⎣ ⎦
⎡ (
K T δ ( c2 ; c1 ) ) ⎤
ln V T ( A; Ξ; θ ) = ∑ ∑ ∑y i
( c1 ;c2 ) ( )
⎢ln θ c 2 + ln
T c2
+ ln p zi / c1;θ c 1 ( ) ⎥. (47)
z i∈ A c2 ∈C2 c1 ∈C1 ⎢⎣ ⎥⎦
Le terme entre crochets est calculable, et dépend des paramètres θ à estimer. En revanche, les yi(c1 ;c2 ) sont
des variables aléatoires de Bernoulli ; il est possible de les estimer par leur valeur moyenne. Ainsi, à une
itération t, on fixe la valeur des paramètres à θ t, on calcule alors la moyenne :
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 434/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
415
CHAPITRE 7
t t t
i i t t p( c 1, c2 z i;θ ) p( c2 θ ) p (c 1 c2 ) p( z i c1 , θ )
E θ t (yc 1, c 2 ) = p( yc1 , c2 = 1 θ ) =p ( c 1, c 2 z i; θ ) =---------------------------------
t
=--------------------------------------------------------------------
t
p (zi θ ) p ( zi θ )
(48)
t, c t, c
θ 2 p ( c1 c2 ) p ( z i c1 , θ 1 )
= --------------------------------------------------------------
t
.
p ( zi θ )
( )
QT θ ,θ t = E θt ⎡⎣ln V T ( A; Ξ ;θ ) A,θ t ⎤⎦ =
(49)
)⎢⎢ ln ( θ ) + ln ⎜ ( T( )) ⎟+ ln p ( z
⎡ T ⎤
⎛K δ c ;c ⎞
∑ ∑ ∑ E (y θt
i
(c 1 ;c 2 )
c2 2 1
i )
/ c1;θ c1 ⎥.
⎥⎦
zi ∈ A c2 ∈C2 c1 ∈C1
⎣ ⎝ c2 ⎠
Résultat
On démontre alors que si les paramètres θt sont fixés etθtsi+1 T
maximise t
Q ( q; q ) θ à , alors
par rapport ( Aa;θ +t 1 ) ≥ V T( A;θ
V Ton )
t
.
V (A;θ )
Autrement dit,θ t +1 améliore la vraisemblance des observations θ t en .
par rapport à la vraisemblance calculée
T
Ce résultat suggère un algorithme itératif, où chaque itération recalcule des paramètres qui améliorent la
valeur de la fonction de vraisemblance des observations par rapport aux paramètres calculés à l’itération
t
précédente. Ainsi, partant des paramètresθ calculés à l’itération t, l’itération t+1 recalcule les paramètres
θ t +1. Pour cela, on doit d’abord estimer Q T (θ ;θ t ) par la formule (48) et ensuite estimerθ t +1 qui maximise
Q (θ ;θ )par rapport à θ et pour θ fixé.
T t t
Nous ne présentons pas ici les détails des calculs des paramètres qui maximisent Q T ( θ; θ t) . Ces calculs
donnent les formules suivantes :
θ c2 =
∑ zi∈A
(
p c2 zi , θ t ) (50)
(
p c2 zi ,θ t )
∑ zi ∈τ k , j
(
p c1 zi, θ t ) (51)
θ kj ,c1 =
∑ zi ∈A
(
p c1 zi ,θ t )
(
avec p c1 zi ;θ t = ) ∑ p (c ;c
c2 ∈C2
1 2 )
zi ;θ t .
{ }
Dans ces formules, τ k ; j = zi ∈ A ; zik = xkj correspond à l’ensemble des individus zi qui ont répondu par
la modalité j à leur composante k.
Il est alors possible de proposer l’algorithme suivant :
■ Algorithme pour T fixé
• Initialisation.
• Choisir les paramètres initiaux θ 0 et un nombre d’itérationsN iter .
• Itération de base (t ≥ 1).
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 435/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
416
• Ayant estimé les paramètres θ t à l’itération précédente, l’itération en cours estime les nouveaux paramè-
tres θt+1 en appliquant les formules (50) et (51).
Répéter l’itération de base jusqu’à t = Niter.
Remarque 2
Le résultat précédent, et l’algorithme qui en résulte, constituent des cas particuliers d’un résultat plus général, duquel découle l’algorithme
E-M (Expectation-Maximization) [D
EMPSTER 1977].
Étape itérative (t ≥ 1)
L’ensemble des paramètres θ t de l’étape précédente étant connu, calculer la nouvelle valeur de T par la
t
⎛T ⎞Niter −1
relation : T = Tmax ⎜ min ⎟ .
⎝T max ⎠
Pour cette valeur du paramètre T, calculer θ t +1 à l’aide des relations (50) et (51).
Répéter l’étape itérative jusqu’à t = N iter.
Discussion
On note que l’algorithme d’apprentissage CTM dépend de l’initialisation des paramètres. Les résultats
obtenus en dépendent également. Dans tous les exemples qui vont suivre, les paramètres sont pris égaux
à 1 et les paramètres θ 10 sont initialisés à l’aide de la partition trouvée par l’algorithme BTM en appli-
p
quant un codage (binaire) adéquat aux données catégorielles. Les tables de probabilités p (z c1 ) sont donc
initialisées par comptage sur cette partition. On estime la probabilité d’apparition de chaque modalité x kj
(modalité j de composante k) par sa fréquence relative dans le sous-ensemble des observations affectées
{ }
au neurone c1. Ainsi, si l’on désigne par τ ck1; j = zi ∈ Pc1 ; zik = xkj l’ensemble des individus zi du sous-
ensemble Pc 1 de la partition qui ont répondu par la modalitéj à la composante k, les probabilités initiales
card (τ ck 1;;j0 )
seront données par θ k0 ;;jc1 = où n c 1 est la cardinalité du sous-ensemble Pc1 .
nc1
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 436/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
417
CHAPITRE 7
Exemples d’application
Le modèle BTM
Pour illustrer le comportement du modèle BTM, on considère un exemple pris dans [TENENHAUS 1998].
Il s’agit d’une petite base de données symbolique qui représente les qualités attribuées à 27 races de
chiens. Chacune d’elles est représentée par 7 variables catégorielles. Pour le modèle BTM, chaque obser-
vation z est ici une race de chiens dont les caractéristiques sont spécifiées à l’aide des variables et des
modalités suivantes : Taille (Petite, Moyenne, Grande), Poids (Petit, Moyen, Grand), Vélocité (Petite,
Moyenne, Grande), Intelligence (Petite, Moyenne, Grande), Affectation (Affectueux, Non Affectueux),
Agressivité (Agressif, Non Agressif), Fonction (Utile, Chasse, Compagnie).
Pour présenter les différents résultats de l’apprentissage et effectuer les analyses nous utiliserons les nota-
tions suivantes :
• PT = Petite Taille, MT = Moyenne Taille, GT = Grande Taille.
• PP = Petit Poids, MP = Moyen Poids, GP = Grand Poids.
• PV = Petite Vélocité, MV = Moyenne Vélocité, GV = Grande Vélocité.
• PI = Petite Intelligence, MI = Moyenne Intelligence, GI = Grande intelligence.
• AF = Affectueux, NAF = Non Affectueux.
• AG = Agressif, NAG = Non Agressif.
• U = Utile, CH = Chasse, CM = Compagnie.
La base des races de chiens est donc constituée d’un tableau binaire de 27 lignes et 19 colonnes qui repré-
sentent l’ensemble des modalités des 7 variables catégorielles.
PT MT GT PP MP GP PV MV GV PI MI GI NAF AF NAG AG CM CH U
Beauceron 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1
Basset 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 0
Berger allemand 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1
Boxer 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 1 0 0
Bulldog 0 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0
Bullmastiff 0 0 1 0 0 1 1 0 0 0 0 1 1 0 0 1 0 0 1
Caniche 1 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 1 0 0
Chihuahua 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0
Cocker 0 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0
Colley 0 0 1 0 1 0 0 0 1 0 1 0 0 1 1 0 1 0 0
Dalmatien 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 1 0 0
Doberman 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 1 0 0 1
Dogue allemand 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1
Épagneul breton 0 1 0 0 1 0 0 1 0 0 0 1 0 1 1 0 0 1 0
Épagneul français 0 0 1 0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 0
Foxhound 0 0 1 0 1 0 0 0 1 1 0 0 1 0 0 1 0 1 0
Fox terrier 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0
Grand bleu de Gascogne 0 0 1 0 1 0 0 1 0 1 0 0 1 0 0 1 0 1 0
Labrador 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0
Lévrier 0 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 1 0
Mastiff 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 1
Pékinois 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0
Pointer 0 0 1 0 1 0 0 0 1 0 0 1 1 0 1 0 0 1 0
St Bernard 0 0 1 0 0 1 1 0 0 0 1 0 1 0 0 1 0 0 1
Setter 0 0 1 0 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0
Teckel 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0
Terre-Neuve 0 0 1 0 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1
Tableau 7-7. Les caractéristiques canines
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 437/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
418
Étant donnée la petite taille de la base, nous avons utilisé une carte de 5 × 5 neurones, et l’ensemble des
données a été utilisé pour l’apprentissage. Il s’agit ici d’effectuer une analyse descriptive. Les classifica-
tions paramétrées ont été obtenues avec les valeurs des paramètres suivants : T max = 5 , Tmin = 1, Niter = 50 .
Après 50 itérations, on obtient la grille représentée par la figure 7-43. Cette carte illustre les races de
chiens captées par chaque neurone, ainsi que la caractéristique de ce groupement qui est le référent repré-
sentant le centre médian du sous-ensemble. La carte fait apparaître un ordre topologique : on retrouve les
chiens de petite taille, petit poids, petite vélocité, affectueux et de compagnie autour de nœuds voisins
dans le coin gauche en haut de la carte. La différence réside dans le fait que les chiens captés par le
neurone contenant (Bull-Dog, Cocker, Fox-Terrier) sont agressifs par rapport à ceux du neurone voisin
(Caniche, Chihuahua, Pékinois, Teckel) qui ne le sont pas. Dans le coin inférieur gauche de la carte se
trouvent les chiens utiles, non affectueux et de grand poids avec une grande taille. On observe les mêmes
caractéristiques chez les chiens des neurones voisins (Terre Neuve, Bull Mastiff, Saint Bernard, Mastiff,
Dogue Allemand). On peut faire la même analyse pour les classes restantes.
PT, PP, PV, AF, PT, PP, PV, MI, AF, MT, MP, MV, MI, AF, MT, MP, MV, MI, AF, MT, MP, MV, GI,AF,
NAG, CM AG, CM NAG, CM NAG, CH NAG, CH
Caniche, Chihuahua, Bull Dog, Cocker , Boxer, Colley, Dalmatien Labrador Épagneul Breton
Pékinois, Teckel Fox-Terrier
0 1 2 3 4
GT, MP, PI, NAF, AG, CH
Fox Hound,
Gr bleu de Gascogne
5 6 7 8 9
GT, GP, PV, MI, NAF, GT, MP, GV, GI, AF, PT, PP, PV, PI, NAF,
NAG, U AG, U AG, CH
Terre Neuve Beaucer on, Berger Basset
Allemand, Doberman
10 11 12 13 14
GT, GP, PV, NAF, AG, U GT, MP, GV, NAF,
Bull Mastiff, NAG, CH
Saint Bernard Lévrier, Pointer, Setter
15 16 17 18 19
GT, GP, PV, PI, NAF, AG, GT, GP, GV, PI, NAF, GT, MP, MV, MI, NAF,
U AG, U NAG, CH
Mastiff Dogue allemand Épagneul français
20 21 22 23 24
Figure 7-43. Carte topologique engendrée par l’algorithme BTM ; dans chaque case se trouve l’interprétation du référent,
ainsi que les chiens captés par le neurone dont le numéro est indiqué (25 neurones). Les cases vides sont celles qui n’ont
capté aucun chien.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 438/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
419
CHAPITRE 7
Labrador. Les chiens du quadrant inférieur gauche sont tous des chiens d’utilité. Le quadrant supérieur
gauche mélange les chiens de chasse et d’utilité restants. Si l’on compare ces résultats avec ceux de la
figure 7-43, on remarque, sur la carte topologique, que les chiens captés par les neurones voisins 0, 1 et 2
correspondent aux chiens de compagnie, et les chiens des neurones 3, 4 et 9 sont des chiens de chasse. Les
chiens du quadrant gauche correspondent aux chiens captés par les neurones voisins 10, 15, 20 et 21.
Finalement, le mélange de chiens qui se trouve sur la carte issue de l’ACM peut s’expliquer par le lien de
voisinage qui se crée entre les chiens captés par des neurones voisins. On voit donc que le modèle BTM
permet une classification plus fine des différents groupes. Le fait de travailler directement dans l’espace
des données permet d’éviter la projection sur un plan qui peut permettre un mélange de certains groupes.
1,5
Épagneul breton
Labrador
Dalmatien
1,0 Boxer
Épagneul français
0,0
Fox-terrier
Terre-Neuve
Dogue allemand Teckel
0,5
Bull mastiff Bulldog Fonction
Saint Bernard Pékinois
Mastiff Chihuahua
-1,0 Basset Utilité
Chasse
- 1,5 Compagnie
-1,5 1,0 -0,5 0,0 0,5 1,0 1,5
Axe 1
Figure 7-44. Prise de [TENENHAUS 1998], page 226, figure 88. Analyse des correspondances multiples.
Le modèle CTM
Le deuxième exemple traite un problème réel [SAPORTA 1990], mettant en œuvre des données provenant
d’une compagnie d’assurance. Les 1 106 observations présentes dans la base caractérisent différents
conducteurs, classés en deux groupes suivant les accidents qu’ils ont provoqué. Chaque individu est
caractérisé par 9 variables catégorielles à deux ou trois modalités : Utilité (Privée, Professionnelle), Sexe
(Homme, Femme, Véhicule de Société), Langue (Français, Autre), Âge (Vieux, Moyen, Jeune) Locali-
sation (Capitale, Province), Bonus (Oui, Non), Police (86, Autre), Puissance (Grande, Petite), Âge
Véhicule (Ancien, Nouveau). On distingue deux types de conducteurs, ceux qui n’ont jamais subi d’acci-
dents (Classe 1) et ceux qui sont responsables d’au moins un accident (Classe 2).
La présentation qui suit permet d’illustrer le comportement de CTM selon plusieurs axes :
• introduction de l’ordre topologique : analyse exploratoire ;
• utilisation de variables explicatives : discrimination entre bon conducteur (1) et mauvais conducteur (2)
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 439/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
420
Ici encore, on a choisi, pour la clarté de l’exposé, une carte de petite dimension (5 × 5 neurones) et l’on a
effectué l’apprentissage sur l’ensemble des 1 106 individus. Chacun des 25 neurones est donc représenté
par un référent constitué de 9 tables de probabilités de dimension deux ou trois selon le nombre de compo-
santes de la variable catégorielle.
Chaque observation représentant un assuré est affectée au neurone c1 ayant la plus forte probabilité a
posteriori p ( c1 z) . La figure 7-45 montre les 25 probabilités a posteriori calculées sur toute la carte 5× 5
pour une observation de la base :
z = (Pf, H, Fr, V, Pr, 1, 86, Pt, Nou).
On constate sur la figure 7-45 que la distribution de
probabilités p ( c1 z) est une région connexe autour du
neurone le plus probable (couleur noire).
Afin de montrer les facilités de représentation qu’offre
la mise en ordre de la partition obtenue après appren-
tissage sur la carte CTM, présentons quelques exem-
ples simples de visualisation. Le tableau 7-8 présente
la table de probabilités estimées par l’algorithme
d’apprentissage CTM pour le premier neurone situé en
haut et à gauche de la carte. On remarque que certaines
modalités sont très probables. L’analyse de l’impor-
tance des probabilités nous permet d’interpréter ce
neurone comme représentant les individus qui sont
Professionnels avec une probabilité de 0,99, qui vivent Figure 7-45. Représentation sur la carte CTM
en Province avec la probabilité de 0,85 et qui ont un des probabilités à posteriori p ( c 1 z),
pour l’observation z = (Pf, H, Fr, V, Pr, 1, 86. Pt. Nou)
Ancien véhicule avec la probabilité 0,81. On constate
que ces individus ont le bonus avec une probabilité
de 0,98.
Variable k θ
c1; k
La visualisation sur la carte des probabilités liées à tous les neurones permet de vérifier qu’un ordre est
bien apparu pendant l’apprentissage. Comme dans les exemples précédents, la prise en considération
simultanée des cartes associées aux différentes variables permet une interprétation des différentes direc-
tions, et d’une manière plus générale, de la carte. La figure 7-46 qui représente la distribution de probabi-
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 440/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
421
CHAPITRE 7
lités des deux modalités (Privée et Professionnelle) de la variable Utilité du véhicule permet d’observer
la cohérence entre l’amplitude des 2 modalités et la structure topologique de la carte.
Figure 7-46. Distribution de la probabilité de la variable Utilité du véhicule. Chaque neurone de la carte est représenté par
un histogramme ; la première barre indique la modalité Privée ; la deuxième barre indique la modalité Professionnel.
La figure 7-47 montre la distribution des trois modalités (Vieux, Moyen et Jeune) de la variables Âge. La
représentation simultanée des 3 cartes en niveaux de gris, fait apparaître la disposition des différents
groupes : à gauche, les personnes âgées (V), les conducteurs jeunes (J) sont groupés avec une forte proba-
bilité dans le coin supérieur droit, et la tranche d’âge moyen (M) est plutôt située dans le coin inférieur
droit. Certaines zones sont franchement dédiées à une modalité, alors que les deux premières colonnes de
la carte montrent clairement qu’une partie des conducteurs se ressemble du point de vue des caractéristi-
ques, quel que soit leur âge.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 441/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
422
(V) (J)
(M)
Figure 7-47. Carte topologique représentant la distribution des trois modalités de la variable Âge
(V : Vieux, M : âge Moyen, J : Jeune)
Si l’on poursuit ces visualisations variable par variable, il devient possible de caractériser les différents
groupements qui apparaissent. Cependant, rechercher des visualisations plus complexes, qui font inter-
venir plusieurs variables, et utiliser les tables de probabilités pour trier l’information, permettent de faire
une meilleure interprétation des groupements proposés par la classification CTM.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 442/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
423
CHAPITRE 7
1 1 1 2
1 1 1 2 2
1 2 2
2 2 2
2 2 2 2
Figure 7-48. Distribution de la probabilité des quatre variables ; chaque neurone de la carte est représenté par 4 histogrammes ;
dans chaque neurone, la ligne du haut présente la variable Sexe qui correspond au premier histogramme ; sur la même ligne, on
a la variable Âge ; sur la deuxième ligne, on a la variable Puissance, suivie de la variable Âge Véhicule. La mention 1 et 2
indique l’étiquette obtenue après avoir effectué un vote majoritaire dans chaque sous-ensemble de la partition obtenue.
HV -J HJ FJ -J
- |An - |An - |An Pt Nou Gr-
H - -J HJ FJ VS J
-- - |An Gr |An Pt Nou Gr Nou
HV H- VS J VS J VS J
Gr - Gr - Pt Nou Pt Nou Gr Nou
-- H- VS J VS J VS J
Gr - Gr - Pt An Pt |An Gr Nou
HM -M FM FM FM
Gr - -- Pt - Pt Nou Pt Nou
Figure 7-49. Carte 5 × 5, pour chaque neurone on affiche pour chaque variable la modalité ayant la plus forte probabilité.
H : Homme, F : Femme, J : Jeune, M : âge Moyen, V : Vieux, VS : Véhicule de Service, An : Ancien véhicule, Nou : Nouveau
véhicule. Gr : Grande puissance, Pt : Petite puissance.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 443/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
424
Ces visualisations peuvent maintenant servir à caractériser les bons et les mauvais conducteurs ; elles
peuvent également servir à la prédiction.
Dans un but de classification, on utilise à présent la carte 5 × 5
pour discriminer les bons des mauvais conducteurs. La figure 7-50
montre l’étiquetage de la carte, après avoir effectué un vote majo-
ritaire dans chaque sous-ensemble de la partition obtenue, à partir
des neurones, après l’apprentissage. On distingue deux régions sur
la carte, qui sont dédiées aux deux types d’assurés. Les neurones
en haut à gauche de la carte sont dédiés aux assurés n’ayant jamais
eu d’accident (étiquetés par 1) ; les neurones étiquetés par 2 sont
dédiés aux assurés ayant eu au moins un accident. Les neurones
sans étiquette présentent des neurones vides, n’ayant capté aucune
observation de l’ensemble d’apprentissage.
Il est alors possible, en observant à la fois la figure 7-49 et la figure
7-50, de constater que les bons conducteurs (qui n’ont jamais eu Figure 7-50. Carte étiquetée après
d’accident) sont majoritairement des jeunes (modalité J) avec des application du vote majoritaire ;
véhicules anciens (modalité An). On peut voir aussi que les les neurones sans étiquette représentent
mauvais conducteurs ont eu des accidents avec des véhicules puis- des sous-ensembles vides. 1 : bon
conducteur, 2 : mauvais conducteur.
sants (modalité Gr). Les mauvais conducteurs sont constitués
majoritairement par des personnes jeunes et des personnes ayant
un âge moyen (modalité M).
Bibliographie
AIKEN J., MOORE G.F., TREES C.C., HOOKER S.B., CLARK D.K. [1995], The SeaWifs CZCS-pigment algo-
rithm, NASA tech. Memo 104566, vol.29, 34 p.
ANOUAR F., BADRAN F., T HIRIA S. [1997], Self Organized Map, A Probabilistic Approach, Proceedings
of the Workshop on Self-Organized Maps, Helsinki University of Technology, Espoo, Finlande, 4-6 juin
1997.
B ISHOP C. M., S VENSÉN M., W ILLIAMS C K I. [1998], GTM : The Generative Topographic Mapping,
Neural Computation, 10, p215-234.
B OCK H. H. [1996], Probabilistic Models in Data Analysis, Computational Statistics and Data Analysis,
23, p. 5-28.
B OCK H. H. [1998], Clustering and neural networks, in Rizzi et al. (éd.), Advances in data science and
classification, Springer verlag, p. 265-278.
C ELEUX G., GOVAERT G. [1991], Clustering criteria for discrete data and latent class Models, Journal of
classification 8, p. 157-176.
C ERKASSKY Y., L ARMNAJAFIH [1991], Constrained topological mapping for non parametric regression
analysis, Neural Network, vol. 4, p. 27-40.
DEMPSTER A. P., LAIRD N. M., RUBIN D. [1977], Maximum Likelihood from incomplete data via the E.M
algorithm (with discussion), Journal of the Royal Statistical Society, series B 39, p.1-38.
DIDDAY E., S IMON J. C. [1976], Clustering Analysis, in Digital Pattern Recognition, K. S. Fu, Springer
verlag.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 444/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Cartes auto-organisatrices et classification automatique .html
425
CHAPITRE 7
DUDA R. O., HART P. E. [1973], Pattern Classification and Scene Analysis, John Wiley.
FROUIN R., D ESCHAMPS P. Y., MITCHELL B. G., KAHRU M. [1998], The normalized difference phyto-
plankton index for satellite ocean color applications, EOS Transactions, vol. 79, no. 1, p. 191.
G M. (éd.) [2000],
W., OPITZ O., SCHADERData Analysis Scientific Modeling and Practical Applica-
AULSpringer.
tion,
GIROLAMI, M. [2001], The Topographic Organisation and Visualisation of Binary Data using Mutivariate-
Bernoulli Latent Variable Models, IEEE Transactions on Neural Networks 12, p. 1367 - 1374.
G H. R., WANG M. [1994],
the Retrieval
oceans
ORDON of water-leaving
with SeaWifs: radiances
a preliminary and aerosol
algorithm, optical
App. Opt. vol.thickness
33, no. 3,over
p. 443-453.
GOVAERT G [1990], Classification binaire et modèles, Revue de Statistique Appliquée 38, p. 67-81.
HOLBEN B., E CK T., SLUTSKER I., TANRÉ D., BUIS J. P., SETZER E., VERMOTE E., REAGAN J., KAUFMAN
Y., NAKAJIMA T., LAVENU F., JANKOWIAK, SMIRNOV A. [1998], AERONET - A federate instrument
network and data archive for aerosol characterization, Remote Sens. Environ., 66, p. 1-16.
JAIN A. K., DUBES R. C. [1988], Algorithms for Clustering Data, Prentice Hall.
KASKI S, H ONKELA T, L AGUS K, K OHONEN T [1998], WEBSOM-self-organizing maps of document
collections, Neurocomputing, vol. 21, p.101-117.
KASKI S, KANGAS J., KOHONEN T. [1998], Bibliography of self organizing map (SOM) papers 1981-1997,
Neural Computing Survey, vol. 1, p. 102-350. On peut trouver cet article à l’adresse :
http://www.icsi.berkeley.edu/~JAGOTA/ncs/ .
KOHONEN T. [1984], Self organization and associative memory, Springer Series in Information Sciences,
8, Springer Verlag, Berlin (2nd éd. 1988).
KOHONEN T, KASKI S, L AGUS K, SALOJRVI J, HONKELA J, PAATERO V, SAARELA A [2000], Self organi-
zation of a massive document collection, IEEE transaction on neural networks, vol. 11, no 3.
KOHONEN T. [2001], Self Organizing Maps, Springer, 3e édition.
LEBBAH M, T HIRIA S., B ADRAN F. [2000], Topological Map for Binary Data, Proceedings of the Euro-
pean Symposium on Artificial Neural Networks.
LEBBAH M., T HIRIA S., B ADRAN F. [2004], Visualization and classification with categorical topological
map, Proceedings of the European Symposium on Artificial Neural Networks.
LEBBAH M. [2003], Carte topologique pour données catégorielles : application à la reconnaissance auto-
matique de la densité du trafic routier. Thèse de l’Université de Versailles Saint-Quentin en Yvelines.
LUTTREL S. P. [1994], A bayesian analysis of self-organizing maps, Neural Comput, 6.
MITCHELL B.G., K AHRU M. [1998], Algorithms for SeaWifs developed with the CalCOFI data set,
CalCOFI, report 39, Calif. Coop. Oceanic Fish. Invest. Rep., Lajolla, Calif., 26 p.
MOULIN C., G ORDON H. R., C HOMKO R., B ANZO V. F., EVANS R. H. [2001], Atmospheric correction of
ocean color imagery through thick layers of Saharan dust, Geophys. Res. Lett., 28, p. 5-8.
MURTAGH F. [1985], A survey of algorithms for contiguity-constrained clustering and related problems,
The Computer Journal, vol. 28, p. 82-88.
OJA E., KASKI S. [1999], Kohonen Maps, Elsevier.
PATRIKAINEN A., MANNILA H. [2004], Subspace clustering of high-dimensional binary data – a probabi-
listic approach, , SIAM International Conference on Data Mining.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 445/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
426
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 446/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
Bibliographie commentée
Le lecteur notera que chacune des références est suivie du ou des numéros de chapitre pour lesquels elle est
pertinente.
AARTS E., K ORST J. [1989], Simulated Annealing and Boltzmann Machines – a Stochastic Approach to
Combinatorial Optimization and Neural Computing, Wiley.
Cet ouvrage présente, de manière détaillée, les principaux résultats théoriques concernant le recuit simulé et les machines de
Boltzmann. Destiné à des lecteurs avertis, il illustre bien les démarches permettant d’étudier finement la convergence des algorithmes
stochastiques.Chapitre 8.
AARTS E., LENSTRA J. K. [1997], Local Search in Combinatorial Optimization, Wiley.
Cet ouvrage constitue une excellente introduction aux métaheuristiques, c’est-à-dire au recuit simulé, à la recherche tabou, aux algo-
rithmes génétiques et aux réseaux de neurones récurrents.
Chapitre 8.
ANDERSON B. D. O., MOORE J. B. [1979], Optimal Filtering, Prentice Hall.
Le filtrage optimal est un sujet qui peut être abordé de beaucoup de points de vue différents : adaptatif ou non, stationnaire ou non,
probabiliste ou non, linéaire ou non. Ces points de vue différents conduisent à des formulations calculatoires différentes dont l’équiva-
lence n’est pas évidente. Le mérite de ce livre est de reprendre tous ces aspects et de les articuler entre eux, avec une présentation
soignée et pédagogique des calculs parfois fastidieux qui établissent les liens entre différentes approches. Les rappels mathématiques
nécessaires figurent en appendice dans un style clair et concis.
Chapitre 4.
ANTONIADIS A., BERRUYER J., CARMONA R. [1992], Régression non linéaire et applications, Economica.
Moins fouillé que l’ouvrage de Seber et Wild commenté plus loin, cet ouvrage a des qualités didactiques incontestables. Destiné à cons-
tituer un support de cours deème
3 cycle, il est clair mais rigoureux, et peut être recommandé comme ouvrage de référence dans le
domaine.Chapitre 2.
BALDI P., BRUNAK S. [1998], Bioinformatics, the Machine Learning Approach, Bradford Books.
Cet ouvrage présente les fondements de l’application des techniques d’apprentissage automatique, et notamment de réseaux de
neurones, dans le domaine de la bioinformatique. La problématique de la bioinformatique est présentée de manière très claire, et la
mise en œuvre de l’apprentissage dans ce contexte applicatif spécifique est clairement décrite.
Chapitre 1.
BERTSEKAS D. P., TSITSIKLIS J. N. [1996], Neuro-dynamic Programming, Athena Scientific.
Ce livre se situe au carrefour des deux disciplines, « réseaux de neurones » et « programmation dynamique, apprentissage par
renforcement », que les auteurs ont contribué à rapprocher. Bien que proche des algorithmes et des applications, ce livre est écrit dans
un style mathématique : les énoncés sont distingués et classés, les hypothèses sont précises, les démonstrations identifiées. Le début
du livre constitue des introductions à la prog
rammation dynamique et aux réseaux de neurones. La théorie de l’approximation stochas-
tique est ensuite exposée le plus clairement possible, pour en déduire les algorithmes classiques d’apprentissage par renforcement.
Le
livre se conclut par des études de cas.
Chapitre 4.
BISHOP C. M. [1995], Neural Networks for Pattern Recognition, Oxford University Press.
Ce livre est l’ouvrage de référence incontournable sur les réseaux de neurones pour la classification automatique, notamment en recon-
naissance des formes ; il contient aussi beaucoup d’informations utiles pour la régression non linéaire, et sur les techniques d’appren-
tissage en général. Il contient de nombreux petits exemples illustratifs, mais peu d’applications réelles. Lecture indispensable pour tout
étudiant débutant une recherche sur les réseaux de neurones pour la classification, cet ouvrage, en revanche, ignore complètement les
réseaux récurrents et leurs applications à la modélisation dynamique et à la commande.
Chapitres 2 et 6.
CICHOCKI A., UNBEHAUEN R. [1993], Neural Networks for Optimization and Signal Processing, Wiley.
Ce livre présente d’une manière simple mais très complète de nombreux problèmes d’optimisation combinatoire, de programmation
linéaire, quadratique, etc. et de traitement du signal, ainsi que la manière dont ils peuvent être résolus au moyen de réseaux de neu-
rones. Des architectures électroniques pour mettre en œuvre les réseaux de neurones y sont décrites.
Chapitre 8.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 447/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
428
DEMAILLY J.-P. [1991], Analyse numérique et équations différentielles, Presses Universitaires de Grenoble.
Cet ouvrage mathématique très accessible (fin de premier cycle) est utile à qui souhaite comprendre l’intérêt des algorithmes d’ordre
supérieur implantés dans les logiciels commerciaux, intégrant les trajectoires des systèmes dynamiques à temps continus. Il présente
l’intérêt de ne pas se limiter au seul aspect numérique, mais de l’introduire par les résultats fondamentaux sur les solutions des
systèmes avec condition initiale et des systèmes linéaires. L’analyse des différents algorithmes qui suit cette introduction permet au
lecteur une utilisation éclairée des logiciels.
Chapitre 4.
DEMARTINES P. [1995], Analyse de données par réseaux de neurones auto-organisés, thèse de l’Institut
National Polytechnique de Grenoble.
Un mémoire excellent, très pédagogique, sur l’apprentissage non supervisé. Après avoir présenté et illustré la quantification vectorielle,
les cartes de Kohonen et l’algorithme « neural gas », l’auteur propose une nouvelle technique, l’analyse en composantes curvilignes
(vector quantization and projection) adaptée à la réduction de dimension. Les applications portent sur la fusion multicapteur, le contrôle
de procédé, la fabrication de métrique et l’appariement de graphes.
Chapitres 3 et 7.
DUDA R. O., HART P. E., STORCK D. [2001], Pattern Classification and Scene Analysis, Wiley.
La « bible » de la reconnaissance de formes depuis la parution de la première édition (1973), qui décrit notamment les fondements de
la classification automatique classique (algorithme des k-moyennes, quantification vectorielle, classification hiérarchique) et de la discri-
mination (séparateurs linéaires…). Très mathématique, il présente de manière rigoureuse les différents algorithmes, et en fournit de
nombreuses illustrations.
Chapitres 1, 6, 7.
ENGEL A., VAN DEN BROECK C. P. L. [2001] Statistical Mechanics of Learning, Cambridge University Press.
Ce livre présente les fondements de ce que l’on appelle « mécanique statistique » de l’apprentissage. Il s’agit de la théorie qui permet
de déduire les comportements typiques des réseaux de neurones. Les auteurs présentent le sujet de manière très pédagogique, avec
beaucoup d’exemples et d’exercices. C’est une lecture conseillée à ceux qui désirent approfondir cette approche théorique de l’appren-
tissage.Chapitre 6.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 448/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Bibliographie commentée .html
429
D. S. [1979],
GAREY
ness, W.M.
H. R., JOHNSONComputers and Intractability. A Guide to the Theory of NP-complete-
Freeman.
Cet ouvrage recense des problèmes d’optimisation combinatoire et analyse leur complexité. Il est difficile d’accès, mais constitue une
référence pour l’étude de la complexité des problèmes.
Chapitre 8.
GOODWIN, G. C., PAYNE R. L. [1977], Dynamic System Identification : Experiment Design and Data
Analysis,Academic Press.
Comme l’ouvrage de L. Ljung commenté plus loin, ce livre traite, en profondeur, de l’identification des paramètres de systèmes dyna-
miques linéaires. Partant des bases des statistiques, il traite de la méthode des moindres carrés classique, puis des estimateurs du
maximum de vraisemblance, et applique ces concepts à l’estimation des paramètres de modèles linéaires, de manière récursive ou non
récursive. L’auteur traite avec soin le problème important de la conception des expériences. C’est donc un ouvrage fondamental pour la
modélisation linéaire.
Chapitre 2 et 4.
HERTZ J., K ROGH A., P ALMER R. G. [1991], Introduction to the Theory of Neural Computation, Addison-
Wesley Publishing Company.
Pendant plusieurs années, ce livre a été l’unique ouvrage de référence sur les réseaux de neurones. Il présente maintenant un intérêt
essentiellement historique, notamment pour éclairer les motivations qui ont amené les physiciens théoriciens à s’investir dans ce
domaine. Il contient néanmoins une grande quantité d’informations et réflexions intéressantes et encore Chapitres
actuelles. 2, 6, 8.
KOHONEN T. [1984], Self Organization and Associative Memory, Springer Series in Information Sciences.
Premier livre écrit par T. Kohonen, il présente les liens existants entre les algorithmes adaptatifs et la modélisation de phénomènes
biologiques. Notons en particulier que les expériences et les simulations qui y sont présentées illustrent fort bien les phénomènes
d’auto-organisation.
Chapitre 7.
LANDAU I. D., DUGARD L. [1986], Commande adaptative, aspects pratiques et théoriques, Masson.
Cet ouvrage, édité par un des spécialistes français de commande adaptative, est avant tout un ouvrage pratique où sont recensées,
dans des chapitres indépendants, des applications industrielles à différents domaines. Le chapitre initial est une introduction à la
commande adaptative. D’autres chapitres généraux abordent la mise en œuvre, les systèmes multivariables et l’étude de robustesse.
L’ouvrage est limité aux modèles linéaires.
Chapitre 5.
LJUNG L. [1987], System Identification, Theory for the User, Prentice Hall.
Ouvrage de référence pour la modélisation de systèmes dynamiques linéaires, ce livre est remarquable de clarté et de précision. On y
trouve l’essentiel de la théorie de l’estimation des paramètres d’un système linéaire dynamique, avec une présentation rigoureuse mais
néanmoins, comme l’indique le titre de l’ouvrage, orientée vers l’utilisateur. Cet ouvrage est ndispensable pour tout praticien qui veut
acquérir des bases solides.Chapitre 2 et 4.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 449/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
430
MCQUARRRIE A. D. R., TSAI C. [1998], Regression and Time Series Model Selection, World Scientific.
Malgré un effort de pédagogie limité, cet ouvrage présente, sous une forme compacte, une multitude de critères de sélection de
modèles qui peuvent être utilisés en complément de ceux qui sont décrits dans le présent ouvrage. Une lecture utile pour qui a acquis
les bases de la modélisation et désire approfondir les techniques de sélection de modèles.
Chapitres 2 et 4.
MOOD A. M., GRAYBILL F. A., BOES D. [1974], Introduction to the Theory of Statistics, McGraw Hill.
Cet ouvrage est un bon livre d’introduction aux statistiques, clair, avec des notations cohérentes, et suffisamment pédagogique pour
pouvoir être utile à des débutants. Il part de la théorie des probabilités et introduit les concepts de base de statistiques à partir de cette
théorie. C’est un ouvrage didactique, ni livre de recettes, ni traité de mathématiques.
Chapitre 2.
PERETTO P. [1992], An Introduction to the Modeling of Neural Networks, Cambridge University Press,
Cambridge (Royaume-Uni), collection Aléa-Saclay.
Ce livre présente les réseaux de neurones artificiels, en montrant comment ils ont été inspirés par les systèmes biologiques. Il est utile
pour ceux qui s’intéressent à la modélisation en neurobiologie. C’est un livre qui sort des cheminsChapitres
balisés. 2 et 6.
REINELT G. [1994], The Travelling Salesman. Computational Solutions for TSP Applications, Lecture Notes
in Computer Science, Springer.
Cet ouvrage présente le problème du voyageur de commerce et ses variantes. De nombreuses heuristiques non neuronales sont
décrites, ainsi que des problèmes typiques.
Chapitre 8.
SEBER G. A. F. [1977], Linear Regression Analysis, Wiley.
Complément de l’ouvrage suivant, ce livre présente une introduction rigoureuse et très complète à la régression linéaire et à l’analyse
des résultats obtenus par cette technique, notamment par régression linéaire multiple, et par régression polynomiale. Il est plus austère
que l’ouvrage de Draper et Smith commenté plus haut.
Chapitre 2.
SEBER G. A. F., WILD C. J. [1989], Nonlinear Regression, Wiley.
Ouvrage de référence sur la régression non linéaire, ce livre aborde de manière rigoureuse et complète la problématique de la régression
non linéaire. Partant de la régression linéaire, les auteurs présentent l’estimation des paramètres des modèles non linéaires et les
problèmes associés à cette estimation ; l’influence de la courbure, qui n’est pas abordée dans le présent ouvrage, y est étudiée en détail.
Ce livre est un complément de lecture indispensable pour qui veut aller très loin dans l’optimisation d’un modèle non linéaire.
Chapitre 2.
Y. [1992],
TAKEFUJINeuralprésente
Cet ouvrage Network Parallel problèmes
de nombreux Computing, Kluwer Academic
combinatoires Publishers,
formulés comme 1992.de théorie des graphes. Ils sont particu-
des problèmes
lièrement intéressants pour illustrer la manière de coder certains problèmes de grande complexité sous la forme d’un réseau de
neurones récurrent.Chapitre 8.
THIRIA S., LECHEVALIER Y., GASCUEL O., CANU S. [1997], Statistique et méthodes neuronales, Dunod.
Ouvrage écrit conjointement par des statisticiens et par des spécialistes de modélisation neuronale, il présente le point de vue des deux
communautés.Chapitres 2 et 6.
VAPNIK V. N. [1995], The Nature of Statistical Learning Theory, Springer.
Ce livre est la référence en théorie de l’apprentissage statistique. D’un niveau mathématique et statistique élevé, il s’adresse à ceux qui
souhaitent approfondir leurs connaissances autour des nouveaux concepts proposés par l’auteur sur la dimension de Vapnik-
Cervonenkis, et les machines à vecteurs supports dont il est, avec Isabelle Guyon, un des inventeurs
. Chapitre 6.
VAPNIK V. N. [1998], Statistical Learning Theory, John Wiley & Sons.
Dans ce livre, qui présente les fondements de la théorie statistique de l’apprentissage, l’auteur développe les concepts et donne toutes
les démonstrations des énoncés présentés dans l’ouvrage commenté du même auteur (ci-dessus), dont celui-ci peut être considéré
comme la version longue.Chapitre 6.
R. J. [1990],
WONNACOTT
Manuel de T. H., WONNACOTT
statistique Statistique
par excellence, de façon très pédagogique la statistiqueEconomica.
économie-gestion-sciences-médecine,
le livre présente descriptive et l’ensemble des méthodes
de la statistique inductive : estimation, tests, méthodes bayésiennes, analyse de la variance, régression, etc. Les méthodes y sont
présentées à partir de nombreux exemples. Des exercices avec éléments de réponses permettent au lecteur de contrôler ses acquisi-
tions.Chapitres 2 et 3.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 450/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
Depuis le développement théorique des réseaux de neurones à la fin des années 1980-1990, plusieurs outils ont
été mis à la disposition des utilisateurs. Les fonctionnalités et les statuts de ces outils sont très variables. On
consultera avec intérêt le site www.aiaccess.net/f_ww.htm , pour un large panorama des produits disponibles.
Dans la catégorie des outils libres, fournis avec une licence de type GNU, ou analogue, on trouve princi-
palement le travail de chercheurs de l’Université de Stuttgart, SNNS, disponible sous forme de code
compilable sur le site www-ra.informatik.uni-tuebingen.de/SNNS/ .
La plupart des autres outils disponibles relèvent du monde commercial. Les grands éditeurs de logiciels de
statistiques, comme SAS Institute ou SPSS, incluent des modules de réseaux de neurones dans leur offre.
Les éditeurs de logiciels de calcul scientifique ou de Data Mining à usage général proposent, la plupart du
temps, une boîte à outils Réseaux de neurones. Dans ce cas, l’intérêt du logiciel réside dans l’accumula-
tion des nombreuses possibilités. Mais chacune de ces possibilités prises séparément n’est pas optimisée.
Les logiciels dédiés, tel Neuro One proposé ici en version d’évaluation, sont spécialisés et offrent des
fonctionnalités beaucoup plus proches des derniers résultats théoriques. Consultez à ce propos le site
www.netral.com/ .
Le contenu du CD-Rom de cet ouvrage est le suivant :
• une version d’évaluation de Neuro One, valide 30 jours ;
• cinq exemples de modèles, avec données et codes source ;
• une bibliothèque de modélisation non linéaire NDK_0 libre ;
• un compilateur C pour Windows.
Parmi les logiciels dédiés, Neuro One, édité par Netral, est l’un des plus anciens, et celui qui a le plus
évolué pour rester au fait des derniers développements. C’est aussi, à notre connaissance, le seul qui offre
un calcul des intervalles de confiance et des leviers sur les modèles développés.
Neuro One fournit un produit annexe, Neuro Code, qui permet de convertir un modèle neuronal en code
source C. Avec ce code, il devient possible d’utiliser le modèle neuronal sous tout système d’exploitation
qui admet un compilateur C. Ce code permet également l’apprentissage dans le nouvel environnement.
Les exemples de codes source présentés dans le CD-Rom ont été réalisés avec Neuro Code.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 451/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
432
Dans le répertoire NeuroOne, lancez le fichier SetUp.exe. Vous pouvez également cliquer sur Installer
Neuro One à la page d’accueil du CD-Rom. Cliquez ensuite sur Ouvrir.
La boîte de dialogue d’introduction suivante apparaît alors, elle vous permet de choisir la langue du
programme d’installation.
Figure A-1
Figure A-2
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 452/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Annexe : Outils pour les réseaux de neurones et contenu du CD-Rom .html
433
Cliquez à nouveau sur Suivant et la boîte de dialogue du contrat de licence de Neuro One s’affiche.
Figure A-3
Lisez attentivement ce contrat. Si vous n’êtes pas d’accord avec les termes de ce contrat, cliquez sur
Annuler. Dans ce cas, vous ne pouvez pas utiliser Neuro One. Si vous êtes d’accord avec les termes de ce
contrat, cliquez sur Accepter.
Lorsque la boîte de dialogue suivante apparaît, entrez votre nom, votre organisation, et le chiffre 0 (zéro),
puis cliquez sur le bouton Pour une évaluation 30 jours.
Figure A-4
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 453/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
434
Figure A-5
Choisissez à présent le répertoire où seront enregistrés tous les fichiers de travail de Neuro One et cliquez
sur Suivant pour accéder à la prochaine fenêtre.
Figure A-6
Sélectionnez Par défaut, et cliquez sur Suivant pour passer à la fenêtre qui suit.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 454/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Annexe : Outils pour les réseaux de neurones et contenu du CD-Rom .html
435
Figure A-7
Figure A-8
Cette fenêtre présente un résumé de vos demandes. Si vous êtes satisfait, cliquez sur Suivant. Sinon,
revenez en arrière en cliquant sur Précédent, corrigez l’erreur, et revenez en cliquant autant que nécessaire
sur Suivant.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 455/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
436
Figure A-9
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 456/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Annexe : Outils pour les réseaux de neurones et contenu du CD-Rom .html
437
Exemple 3
Cet exemple modélise la température de
liquidus de verres binaires Lithium/Sili-
cium.
L’entrée est la fraction molaire de LiO2. La
sortie est la température de liquidus.
Les modèles présentés comportent 2, 4, 5 et
6 neurones cachés.
Exemple 4
Cet exemple modélise la température de Figure A-11
liquidus de verres ternaires Aluminium/
Potassium/Silicium.
Les entrées sont les fractions molaires de Al2O3 et K2O. La sortie est la température de liquidus.
Les modèles présentés comportent 2, 4, 6, 8 et 10 neurones cachés.
Exemple 5
Cet exemple modélise la température de liquidus de verres quaternaires Sodium/Calcium/Aluminium/
Silicium.
Les entrées sont les fractions molaires de CaO, Na2O, Al2O3. La sortie est la température de liquidus.
Les modèles présentés comportent 2, 4, 6, 8 et 10 neurones cachés.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 457/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
438
mingw32-make –f makefileuse
mingw32-make –f makefiletrain
Figure A-12
1. Les mentions « xxx » sont remplacées par le nom du modèle Neuro One qui est à l’origine du code.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 458/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Annexe : Outils pour les réseaux de neurones et contenu du CD-Rom .html
439
L’option –v permet un affichage détaillé. L’analyse du fichier de description donne deux champs de
données : X et Yb. Le nombre total de lignes s’élève à 199 dans le fichier «..\data\static.csv ». Il y a
deux apprentissages, chacun contenant 10 époques.
Pour chaque époque, les deux valeurs affichées sont respectivement l’écart-type d’apprentissage, et
l’écart-type de généralisation obtenu par la méthode du Leave-One Out virtuel. Le dernier chiffre entier
est le nombre de secondes écoulé depuis le début de l’apprentissage.
Vous pouvez consulter les fichiers créés dans le répertoire de résultat pour obtenir tous les détails de
l’apprentissage :
• les fichiers « xxxhistoryy.txt » 1,2 retracent l’histoire de l’apprentissage ;
• les fichiers « xxxresy.txt »1,2 donnent les coûts d’apprentissage et de généralisation, les poids et la
matrice de dispersion ;
• le fichier « xxxweights.txt » 1,2 donne les poids et la matrice de dispersion de l’apprentissage qui
présente le coût d’apprentissage le plus faible.
Le lancement du programme d’utilisation donne une fenêtre qui ressemble à la fenêtre suivante.
Figure A-13
Les fichiers de description et de données sont analysés. Les champs X et Yb sont trouvés. Le modèle est
appliqué à toutes les données lisibles et complètes du fichier de données, et l’écart-type obtenu est affiché.
Vous pouvez consulter les fichiers créés dans le répertoire de résultat :
• les fichiers « xxxusehisty.txt » 1,2 retracent l’historique de l’utilisation ;
• les fichiers « xxxusey.csv »1,2 donnent, pour chaque ligne du fichier de données, le résultat de l’applica-
tion du modèle neuronal aux données présentées.
2. Les mentions y sont remplacées par une valeur entière représentant le numéro de l’apprentissage ou de l’utilisation.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 459/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
440
• retourner à Excel.
La macro xxx1 est alors disponible, sous forme de fonction Excel.
python.exe demo.py
Ce programme crée un modèle neuronal à une entrée, une sortie et deux neurones cachés, charge un jeu
de données, lance un apprentissage, et affiche le résultat.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 460/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Annexe : Outils pour les réseaux de neurones et contenu du CD-Rom .html
441
Figure A-14
Les points rouges représentent les exemples présentés, et les deux courbes pleines, la réponse du modèle
neuronal avant et après apprentissage.
Les compilateurs C
La compilation des exemples fournis nécessite la présence d’un compilateur C. Les utilisateurs de
Windows trouveront ici deux exemples de compilateurs gratuits :
• GCC, disponible sous licence GNU, dans le répertoire gcc ;
• Turbo C, mis à disposition par Borland, sur le site http://community.borland.com/museum .
Pour l’installation d’un compilateur C, il est recommandé de disposer des droits d’administrateur. Pour
installer GCC, cliquez sur MinGW-2.0.0-3-gnuwin.exe dans le répertoire gcc . Vous pouvez également
cliquer sur Installer GCC dans la page d’accueil, puis sur Ouvrir.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 461/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
442
À la fin de l’installation du compilateur, assurez-vous que celui-ci peut être appelé depuis tous les réper-
toires de votre machine. Pour cela, il peut être nécessaire de modifier la variable d’environnementPATHde
votre machine en y incluant le chemin du binaire du compilateur.
Licence
La licence de Neuro One est lisible pendant l’installation du logiciel, et doit être acceptée avant l’instal-
lation complète de celui-ci. Les codes source fournis en langage C relèvent de la licence suivante.
Les présents codes source générés par le progiciel NEURO CODE sont fournis à titre gracieux par
la société NETRAL. Ces codes sont protégés tant par les dispositions nationales qu’internationales
en matière de droits de la propriété intellectuelle, dont les droits sont détenus, à titre exclusif, par la
société NETRAL.
L’utilisation et la modification de ces codes source sont soumises à un contrat de licence d’utilisation.
Ces codes sont utilisés sous la responsabilité pleine et entière de l’utilisateur. La société NETRAL ne
saurait en aucun cas être tenue pour responsable des résultats de cette utilisation, tant sur les machines qui
les utilisent que sur les données incluses dans ces machines.
La modification ou la copie même partielle de ce code, est strictement interdite, à l’exception des parties
de commentaire et des fichiers de description. L’utilisateur possesseur du CD-Rom est autorisé à faire une
unique copie de ce code à des fins de compilation. Toute autre copie de ce code est strictement interdite.
L’utilisation de ce code à des fins commerciales est strictement interdite. On entend, par fin commerciale,
toute cession à titre onéreux du code lui-même, ou toute cession, à titre onéreux ou à titre gratuit, des
résultats obtenus par l’utilisation de ce code une fois compilé.
TOUTE EXTENSION DU DROIT D’UTILISATION NON PRÉVUE DANS CE CONTRAT DE
LICENCE EST INTERDITE ET SERA CONSTITUTIVE D’UNACTE DE CONTREFAÇON.
La contrefaçon est un délit pénal, puni de 2 ans d’emprisonnement et de 150 000€ d’amende.
Le fait de copier le code en vue de sa compilation ou de le compiler sans le copier signifie que vous avez
donné votre accord sur les termes de cette licence.
Pour les fichiers principaux des programmes fournis, dont le nom se termine par « maintrain » et
« mainuse », avec les extensions « .h » et « .c », et pour ceux-là seulement, la modification des codes
est autorisée.
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 462/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
Index
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 463/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
444
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 464/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Index .html
445
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 465/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
446
des paramètres 83, 134, 135, 145, 150, 156, machine à marge dure 327
174 marge 308
innovation 247 Markov (chaîne de) 230
interprétation probabiliste des k-moyennes 357 matrice
intervalle de confiance 5, 66, 120, 143, 148, 149, chapeau 54, 58
153, 156, 188 de transition 230
pour la moyenne 66 des observations 46, 49
itération hessienne 133, 192
de la fonction de valeur 288 jacobienne 143, 146, 147, 150, 156
de la politique 287 maximum de vraisemblance 358
optimiste de la politique 292 mesure de similitude 381
méthode
J des k-moyennes 352
jackknife 34 Minimerror 315, 323, 338
jacobienne Voir matrice jacobienne minimisation par méthode du gradient simple 355
MLP Voir Perceptron multicouche
K modèle
à temps continu 6
Kalman (filtre de) 247
à temps discret 6
propriétés 250
affine 5, 8, 50
Kullback-Leibler Voir distance de Kullback-
ARMAX 164
Leibler
ARX 164
auto-régressif 232, 235
L boîte grise 175
leave-one-out 34, 47, 56, 91, 102, 107, 143, 145, boîte grise Voir modèle semi-physique
148 boîte noire 85, 88, 172, 179
virtuel 35, 56, 57, 107, 120, 145, 146, 150, 153, complet 45
156, 188 d’état 80, 122, 157, 164, 165, 166, 170, 171,
LeNet 109 173, 174, 176, 182
Levenberg-Marquardt 83, 133, 135, 151, 174, 191, de connaissance 85, 88, 120, 123, 180, 181,
192, 194 182
levier 57, 146, 147, 149, 151, 153, 156, 188, 196 de mélange de lois normales 357
LMS 136 dynamique 6, 75, 80, 81, 87, 121, 124, 131,
loi 157, 166, 167, 175, 180
de 2 46 entrée-sortie 158, 159, 161, 164, 165, 167, 168,
de chi2 65 170, 172, 173, 174
de Fisher 46, 66 linéaire 5, 48, 73, 77, 80, 89, 90, 91, 143, 145,
de Pearson 65, 67 147, 158
de Student 65, 67, 69 NARMAX 124, 163, 164, 168, 170
gaussienne 7, 62 NARX 159, 164, 174
normale 7, 61, 67 non linéaire 6, 73, 74, 80, 82, 89, 90, 91, 127,
136, 146, 147, 158
M polynomial 7, 83, 137
Mac Culloch et Pitts, neurones 190 semi-physique 85, 87, 122, 123, 175, 179, 187
machine à vecteurs supports 30, 103, 113, 137, statique 5, 73, 75, 81, 85, 125
190, 325 modération des poids 102, 116, 137, 140
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 466/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Index .html
447
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 467/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
448
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 468/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Index .html
449
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 469/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 470/470