Vous êtes sur la page 1sur 470

29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.

html

Apprentissage
statistique

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 1/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
CHEZ LE MÊME ÉDITEUR

Dans la même collection

P. NAÏM, P.-H. WUILLEMIN, P. LERAY, O. POURRET, A. BECKER. – Réseaux bayésiens.


N°11972, 3e édition, 2007, 424 pages (collection Algorithmes).

G. FLEURY, P. LACOMME et A. TANGUY. – Simulation à événements discrets.


Modèles déterministes et stochastiques – Exemples d’applications implémentés en Delphi et en C++.
N°11924, 2006, 444 pages avec CD-Rom.

J. R ICHALET et al. – La commande prédictive.


Mise en œuvre et applications industrielles.
N°11553, 2004, 256 pages.

P. L ACOMME, C. PRINS, M. SEVAUX – Algorithmes de graphes.


N°11385, 2003, 368 pages, avec CD-Rom.

J. DRÉO, A. PÉTROWSKI, P. SIARRY, E. TAILLARD – Métaheuristiques pour l’optimisation difficile.


Recuit simulé, recherche tabou, algorithmes évolutionnaires et algorithmes génétiques, colonies de fourmis…
N°11368, 2003, 368 pages.

A. C ORNUÉJOLS, L. MICLET. – Apprentissage artificiel.


Concepts et algorithmes.
N°11020, 2002, 638 pages.

Y. COLLETTE, P. SIARRY – Optimisation multiobjectif.


N°11168, 2002, 316 pages.

C. G UÉRET, C. PRINS, M. SEVAUX. – Programmation linéaire.


65 problèmes d’optimisation modélisés et résolus avec Visual XPress.
N°9202, 2000, 365 pages, avec CD-ROM.

Autres ouvrages

I. H URBAIN, avec la contribution d’E. DREYFUS. – Mémento UNIX/Linux.


N°11954, 2006, 14 pages.

C. J ACQUET. – Mémento LaTeX.


N°12244, 2007, 14 pages.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 2/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html

Apprentissage
statistique
G. Dreyfus, J.-M. Martinez, M. Samuelides
M. B. Gordon, F. Badran, S. Thiria


file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 3/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
ÉDITIONS EYROLLES
61, bd Saint-Germain
75240 Paris Cedex 05
www.editions-eyrolles.com

Cet ouvrage est la troisième édition, avec mise à jour et nouveau titre,
de l’ouvrage paru à l’origine sous le titre
« Réseaux de neurones – Méthodologie et applications »
(ISBN : 978-2-212-11464-5)

Le code de la propriété intellectuelle du 1er juillet 1992 interdit en effet expressément la


photocopie à usage collectif sans autorisation des ayants droit. Or, cette pratique s’est
généralisée notamment dans les établissements d’enseignement, provoquant une baisse
brutale des achats de livres, au point que la possibilité même pour les auteurs de créer des
œuvres nouvelles et de les faire éditer correctement est aujourd’hui menacée.
En application de la loi du 11 mars 1957, il est interdit de reproduire intégralement ou
partiellement le présent ouvrage, sur quelque support que ce soit, sans autorisation de l’éditeur ou du Centre
Français d’Exploitation du Droit de Copie, 20, rue des Grands-Augustins, 75006 Paris.
© Groupe Eyrolles, 2002, 2004, 2008, ISBN : 978-2-212-12229-9

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 4/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html

Remerciements

Je tiens à exprimer ma chaleureuse gratitude à la direction de l’École Supérieure de Physique et de Chimie


Industrielles (Jacques Prost, Directeur, et Claude Boccara, Directeur Scientifique) et à leurs prédécesseurs
Pierre-Gilles de Gennes et Jacques Lewiner, qui, dès 1982, à une époque où le sujet n’était guère popu-
laire, ont apporté un soutien continu aux recherches menées sur l’apprentissage artificiel dans mon labo-
ratoire.
Je remercie également, de la manière la plus vive, mes collaborateurs, présents ou passés, dont les travaux
ont contribué à faire progresser ce sujet difficile.
Mes remerciements vont aussi aux managers, ingénieurs et chercheurs des sociétés françaises et étran-
gères qui font ou ont fait confiance aux méthodes que nous avons développées. Je tiens à mentionner
spécialement Netral S.A., qui a accepté de contribuer au contenu du CD-Rom qui accompagne cet
ouvrage.
Enfin, je suis heureux de remercier amicalement l’éditeur de ce livre, Muriel Shan Sei Fan, qui en a assuré
la bonne fin avec une énergie et une bonne humeur inépuisables, ainsi que tous les auteurs : ils ont apporté
leurs contributions avec enthousiasme et ponctualité, et ils ont accepté de bonne grâce les contraintes de
vocabulaire, de style et de notation qu’imposait notre volonté commune de rédiger un ouvrage didactique,
accessible aux ingénieurs comme aux étudiants et aux chercheurs.
Gérard Dreyfus

Je tiens à remercier Jean-Baptiste Thomas et Patrick Raymond, responsables à la Direction de l’Énergie


Nucléaire du CEA au Centre d’Études de Saclay, pour la confiance et le soutien qu’ils m’ont accordés sur
les activités réseaux de neurones artificiels. Je voudrais également remercier chaleureusement mes
anciens thésards : Fabrice Gaudier, Manuel Dominguez, Lionel Montoliu et Vincent Vigneron qui ont
contribué largement aux travaux de recherche et développement des réseaux de neurones dans mon labo-
ratoire.
Jean-Marc Martinez

Je remercie la direction scientifique de l’ONERA et le chef de projet Jean-Louis Gobert pour le soutien
accordé à des recherches d’ordre général sur les réseaux de neurones notamment dans le cadre du projet
fédérateur de contrôle actif des écoulements.
Je tiens à remercier parmi mes étudiants en thèse actuels ou passés, ceux qui ont directement contribué à
faire progresser notre compréhension collective du contrôle neuronal à savoir : Emmanuel Daucé
(Université d’Aix-Marseille), Alain Dutech (INRIA, Nancy), Marc Lion (ingénieur informaticien),
Laurent Perrinet (ONERA-DTIM). Il faut aussi mentionner les étudiants de Supaéro dont j’ai guidé les
projets l’an dernier et dont les réactions m’ont aidées à améliorer le contenu des chapitres 4 et 5.
Enfin, je voudrais ajouter mes remerciements personnels à Gérard Dreyfus pour le dialogue scientifique
qui s’est instauré entre nous à travers ces échanges très enrichissants pour moi. Bien conscient que les
justifications mathématiques ne suffisent pas à évaluer l’intérêt d’un algorithme, j’ai donc attaché un
grand prix à l’expérience pratique que Gérard m’a transmise par ses observations.
Manuel Samuelides

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 5/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
II

Je remercie mes étudiants du DEA de Sciences Cognitives de Grenoble. Au fil des années, ils ont
contribué à faire évoluer mon cours par leurs remarques et leurs questions. Ils ont apporté des corrections
à mes notes, dont une partie a servi de base à la rédaction du chapitre 6.
Le travail avec mes étudiants de thèse : Juan Manuel Torres Moreno, Arnaud Buhot, Sebastian Risau
Gusman, Christelle Godin, m’a apporté la joie de la recherche partagée, et a enrichi ma compréhension
du domaine de l’apprentissage. Je les en remercie chaleureusement.
Enfin, je tiens à remercier mon collègue Bernard Amy pour sa relecture critique, amicale et pleine de
remarques pertinentes.
Mirta B. Gordon

Le chapitre qui est présenté est le résultat de nombreux efforts, il représente une collaboration fructueuse
entre informaticiens, physiciens et mathématiciens. Nous tenons à remercier amicalement tous les cher-
cheurs qui, par leur travail ou l’intérêt qu’ils lui ont porté, ont permis la réalisation de ce travail et tout
particulièrement : Méziane Yacoub, Carlos Mejia, Michel Crépon, Awa Niang, Ludvine Gross, F. Anouar,
Philippe Daigremont et Dominique Frayssinet.
Fouad Badran, Sylvie Thiria

Je tiens à remercier tous les collaborateurs du CEA et les étudiants qui ont participé à ces travaux de
recherche. Sans être exhaustif, je tiens à exprimer toute ma gratitude à Caroline Privault, Dominique
Derou-Madeline, Muriel Pitiot, Joël Feraud, Jean-Marc Bollon, Georges Gonon, Claire Jausions, Pierre
Puget et enfin Jean-Jacques Niez, qui a initié les recherches en réseaux de neurones au CEA-LETI.
Laurent Hérault

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 6/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html

Sommaire

Avant-propos et guide de lecture XI

Guide de lecture XII


Détail des contributions XIII

1 L’apprentissage statistique : pourquoi, comment ? 1

Introduction 1
Premier exemple : un problème élémentaire d’apprentissage statistique 2
Point de vue algorithmique 3
Point de vue statistique 4
Quelques définitions concernant les modèles 5
Modèles statiques 5
Modèles dynamiques 6
Deux exemples académiques d’apprentissage supervisé 7
Un exemple de modélisation pour la prédiction 7
Un exemple de classification 11
Conclusion 16
Éléments de théorie de l’apprentissage 16
Fonction de perte, erreur de prédiction théorique 17
Dilemme biais-variance 22
De la théorie à la pratique 25
Remplacer des intégrales par des sommes 26
Bornes sur l’erreur de généralisation 27
Minimisation du risque structurel 30
Conception de modèles en pratique 30
Collecte et prétraitement des données 30
Les données sont préexistantes 30
Les données peuvent être spécifiées par le concepteur 30
Prétraitement des données 31
Sélection des variables 31
Apprentissage des modèles 32
Sélection de modèles 32
Sélection de modèles 32
Validation simple (hold-out) 32

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 7/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
IV

Validation croisée (« cross-validation ») 33


Leave-one-out 34
Sélection de variables 35
Cadre théorique 36
Méthode de la variable sonde 37
Résumé : stratégies de conception 47
Conception de modèles linéaires par rapport à leurs paramètres (régression linéaire) 48
Sélection de variables pour les modèles linéaires en leurs paramètres 48
Apprentissage de modèles linéaires en leurs paramètres : la méthode des moindres carrés 49
Propriétés de la solution des moindres carrés 51
Estimation de la qualité de l’apprentissage 52
Interprétation géométrique 53
Dilemme biais-variance pour les modèles linéaires 54
Sélection de modèles linéaires 56
Moindres carrés par orthogonalisation de Gram-Schmidt 59
Éléments de statistiques 60
Qu’est-ce qu’une variable aléatoire ? 60
Espérance mathématique d’une variable aléatoire 62
Estimateur non biaisé 63
Variance d’une variable aléatoire 64
Autres distributions utiles 65
Intervalles de confiance 66
Tests d’hypothèse 68
Conclusion 70
Bibliographie 70

2 Les réseaux de neurones 73

Introduction 73
Réseaux de neurones : définitions et propriétés 73
Les neurones 74
Les réseaux de neurones 75
Propriété fondamentale des réseaux de neurones statiques (non bouclés) :
l’approximation parcimonieuse 82
À quoi servent les réseaux de neurones non bouclés à apprentissage supervisé ?
Modélisation statique et discrimination (classification) 84
À quoi servent les réseaux de neurones à apprentissage
non supervisé ? Analyse et visualisation de données 87

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 8/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Sommaire .html
V

À quoi servent les réseaux de neurones bouclés à apprentissage supervisé ? Modélisation


dynamique « boîte noire »
et « semi-physique » ; commande de processus 87
Quand et comment mettre en œuvre des réseaux
de neurones à apprentissage supervisé ? 88
Quand utiliser les réseaux de neurones ? 88
Comment mettre en œuvre les réseaux de neurones ? 89
Conclusion 93
Réseaux de neurones à apprentissage supervisé
et discrimination (classification) 93
Quand est-il opportun d’utiliser un classifieur statistique ? 93
Classification statistique et formule de Bayes 95
Classification et régression 96
Modélisation et classification de données structurées :
les « graph machines » 103
Définitions 104
Apprentissage 105
Deux exemples académiques 106
Exemples d’applications 107
Introduction 107
Reconnaissance de formes :
la lecture automatique de codes postaux 107
Une application en contrôle non destructif :
la détection de défauts dans des rails par courants de Foucault 111
Fouille de données : le filtrage de documents 112
Aide à la découverte de médicaments : prédiction de propriétés chimiques et d’activités
thérapeutiques de molécules 116
Une application en formulation :
la prédiction de la température de liquidus de verres 118
Modélisation d’un procédé de fabrication : le soudage par points 118
Application en robotique :
modélisation de l’actionneur hydraulique d’un bras de robot 121
Modélisation semi-physique d’un procédé manufacturier 122
Contrôle de l’environnement : hydrologie urbaine 123
Une application en robotique mobile :
le pilotage automatique d’un véhicule autonome 124
Techniques et méthodologie de conception de modèles statiques (réseaux non bouclés) 125
Sélection des variables 126
Estimation des paramètres (apprentissage) d’un réseau de neurones non bouclé 126

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhd… 9/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
VI

Sélection de modèles 143


Techniques et méthodologie de conception de modèles dynamiques
(réseaux bouclés ou récurrents) 156
Représentations d’état et représentations entrée-sortie 157
Les hypothèses concernant le bruit et leurs conséquences sur la structure, l’apprentissage
et l’utilisation du modèle 158
Apprentissage non adaptatif des modèles dynamiques sous forme canonique 166
Que faire en pratique ? Un exemple réel de modélisation « boîte noire » 172
Mise sous forme canonique des modèles dynamiques 175
Modélisation dynamique « boîte grise » 179
Principe de la modélisation semi-physique 179
Conclusion : quels outils ? 188
Compléments théoriques et algorithmiques 189
Quelques types de neurones usuels 189
Algorithme de Ho et Kashyap 191
Complément algorithmique : méthodes d’optimisation de Levenberg-Marquardt
et de BFGS 191
Complément algorithmique : méthodes de recherche unidimensionnelle
pour le paramètre d’apprentissage 193
Complément théorique : distance de Kullback-Leibler entre deux distributions gaussiennes 194
Complément algorithmique : calcul des leviers 196
Bibliographie 197

3 Compléments de méthodologie pour la modélisation :


réduction de dimension et ré-échantillonnage 203

Pré-traitements 204
Pré-traitements des entrées 204
Pré-traitement des sorties pour la classification supervisée 204
Pré-traitement des sorties pour la régression 205
Réduction du nombre de composantes 206
Analyse en composantes principales 206
Principe de l’ACP 206
Analyse en composantes curvilignes 210
Formalisation de l’analyse en composantes curvilignes 211
Algorithme d’analyse en composantes curvilignes 212
Mise en œuvre de l’analyse en composantes curvilignes 213
Qualité de la projection 214
Difficultés présentées par l’analyse en composantes curvilignes 214

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 10/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Sommaire .html
VII

Application en spectrométrie 215


Le bootstrap et les réseaux de neurones 216
Principe du bootstrap 217
Algorithme du bootstrap pour calculer un écart-type 218
L’erreur de généralisation estimée par bootstrap 218
La méthode NeMo 219
Test de la méthode NeMo 221
Conclusions 223
Bibliographie 224

4 Identification « neuronale » de systèmes dynamiques


commandés et réseaux bouclés (récurrents) 225

Formalisation et exemples de systèmes dynamiques commandés à temps discret 226


Formalisation d’un système dynamique commandé par l’équation d’état 226
Exemple d’un système dynamique à espace d’état discret 227
Exemple d’un oscillateur linéaire 227
Exemple du pendule inversé 228
Exemple d’un oscillateur non linéaire : l’oscillateur de Van der Pol 229
Introduction d’un bruit d’état dans un système dynamique à espace d’état discret :
notion de chaîne de Markov 229
Introduction d’un bruit d’état dans un système dynamique à états continus :
modèle linéaire gaussien 231
Modèles auto-régressifs 231
Limites des modélisations des incertitudes sur le modèle par un bruit d’état 233
Identification de systèmes dynamiques commandés par régression 233
Identification d’un système dynamique commandé par régression linéaire 233
Identification d’un système dynamique non linéaire par réseaux de neurones non bouclés 237
Identification adaptative (en ligne) et méthode de l’erreur de prédiction récursive 239
Estimateur récursif de la moyenne empirique 239
Estimateur récursif de la régression linéaire 241
Identification récursive d’un modèle AR 242
Méthode générale de l’erreur de prédiction récursive 243
Application à l’identification neuronale d’un système dynamique commandé 244
Filtrage par innovation dans un modèle d’état 245
Introduction d’une équation de mesure et problème du filtrage 245
Filtrage de Kalman 247
Extension du filtre de Kalman 251

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 11/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
VIII

Apprentissage adaptatif d’un réseau de neurones par la méthode du filtrage de Kalman 252
Réseaux neuronaux récurrents ou bouclés 254
Simulateur neuronal d’un système dynamique commandé en boucle ouverte 254
Simulateur neuronal d’un système dynamique commandé en boucle fermée 255
Quelques réseaux bouclés particuliers 255
Mise sous forme canonique des réseaux bouclés 258
Apprentissage des réseaux de neurones récurrents ou bouclés 258
Apprentissage dirigé (teacher forcing) 259
Dépliement de la forme canonique et rétropropagation à travers le temps 260
Apprentissage en temps réel des réseaux bouclés 262
Application des réseaux neuronaux bouclés à l’identification de systèmes dynamiques
commandés mesurés 263
Compléments algorithmiques et théoriques 264
Calcul du gain de Kalman et propagation de la covariance 264
Importance de la distribution des retards dans un réseau récurrent 266
Bibliographie 267

5 Apprentissage d’une commande en boucle fermée 269

Généralités sur la commande en boucle fermée des systèmes non linéaires 269
Principe de la commande en boucle fermée 269
Commandabilité 270
Stabilité des systèmes dynamiques commandés 271
Synthèse d’une commande « neuronale » par inversion du modèle du processus 273
Inversion directe 273
Utilisation d’un modèle de référence 276
Commande avec modèle interne 277
Commande prédictive et utilisation des réseaux récurrents 278
Programmation dynamique et commande optimale 280
Exemple de problème déterministe à espace d’états discret 280
Exemple de problème de décision markovienne 281
Définition d’un problème de décision markovienne 282
Programmation dynamique à horizon fini 286
Programmation dynamique à horizon infini et à coût actualisé 287
Problèmes de décision markovienne partiellement observés 288
Apprentissage par renforcement et programmation neuro-dynamique 289
Évaluation d’une politique par la méthode de Monte-Carlo et apprentissage
par renforcement 289

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 12/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Sommaire .html
IX

Présentation de l’algorithme TD d’évaluation d’une politique 290


Apprentissage par renforcement : méthode du Q-learning 292
Apprentissage par renforcement et approximation neuronale 294
Bibliographie 297

6 La discrimination 301

Apprentissage de la discrimination 302


Erreurs d’apprentissage et de généralisation 303
Surfaces discriminantes 304
Séparation linéaire : le perceptron 305
Géométrie de la classification 306
Algorithmes d’apprentissage pour le perceptron 309
Algorithme Minimerror 317
Exemple d’application : la classification de signaux de sonar 318
Algorithmes d’apprentissage adaptatifs (« en ligne ») 320
Interprétation de l’apprentissage en termes de forces 320
Au-delà de la séparation linéaire 321
Perceptron sphérique 321
Heuristiques constructives 322
Algorithme constructif NetLS 323
Machines à vecteurs supports (Support Vector Machines) 325
SVM à marge dure 327
Machines à noyaux (Kernel machines) 329
SVM à marge floue (Soft margin SVM) 331
SVM pratique 333
Problèmes à plusieurs classes 334
Questions théoriques 335
Formulation probabiliste de l’apprentissage et inférence bayésienne 335
Théorie statistique de l’apprentissage 340
Prédiction du comportement typique des classifieurs 342
Compléments 344
Bornes du nombre d’itérations de l’algorithme du perceptron 344
Nombre de dichotomies linéairement séparables 345
Bibliographie non commentée 345

7 Cartes auto-organisatrices et classification automatique 349

Notations et définitions 351

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 13/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
X

Méthode des k-moyennes 352


Présentation de l’algorithme 352
Version stochastique des k-moyennes 354
Interprétation probabiliste des k-moyennes 357
Carte topologique auto-organisatrice 360
Les cartes auto-organisatrices 360
L’algorithme d’optimisation non adaptative des cartes topologiques 363
L’algorithme de Kohonen 369
Discussion 370
Architecture neuronale et carte topologique 371
Architecture et carte topologique évolutive 372
Interprétation de l’ordre topologique 373
Carte topologique probabiliste 375
Classification et carte topologique 378
Étiquetage de la carte par données expertisées 378
Recherche d’une partition adaptée aux classes recherchées 379
Étiquetage et classification 381
Applications 382
Une application en télédétection satellitaire 383
Carte topologique et recherche documentaire 407
Extension des cartes topologiques aux données catégorielles 409
Codage et analyse des données catégorielles 409
Cartes topologiques et données binaires 410
Cartes topologiques probabilistes et données catégorielles (CTM) 413
Discussion 416
Exemples d’application 417
Le modèle BTM 417
Analyse des correspondances multiples 418
Le modèle CTM 419
Bibliographie 424

Bibliographie commentée 427

Outils pour les réseaux de neurones et contenu du CD-Rom 431

Installer Neuro One 431


Présentation des exemples 436
Exemple 1 436

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 14/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Sommaire .html
XI

Exemple 2 436
Exemple 3 437
Exemple 4 437
Exemple 5 437
Installation des exemples 437
Compiler le code source 438
Exécuter le code source 438
Exécuter le code source Visual Basic 439
Visualiser les modèles 440
La librairie NDK (Neuro Developer Kit) 440
Programme de démonstration de la librairie 440
Les compilateurs C 441
Licence 442

Index 443

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 15/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 16/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html

Avant-propos et guide de lecture

En une vingtaine d’années, l’apprentissage artificiel est devenu une branche majeure des mathématiques
appliquées, à l’intersection des statistiques et de l’intelligence artificielle. Son objectif est de réaliser des
modèles qui apprennent « par l’exemple » : il s’appuie sur des données numériques (résultats de mesures
ou de simulations), contrairement aux modèles « de connaissances » qui s’appuient sur des équations
issues des premiers principes de la physique, de la chimie, de la biologie, de l’économie, etc. L’apprentis-
sage statistique est d’une grande utilité lorsque l’on cherche à modéliser des processus complexes,
souvent non linéaires, pour lesquels les connaissances théoriques sont trop imprécises pour permettre des
prédictions précises. Ses domaines d’applications sont multiples : fouille de données, bio-informatique,
génie des procédés, aide au diagnostic médical, télécommunications, interface cerveau-machines, et bien
d’autres.
Cet ouvrage reflète en partie l’évolution de cette discipline, depuis ses balbutiements au début des
années 1980, jusqu’à sa situation actuelle ; il n’a pas du tout la prétention de faire un point, même partiel,
sur l’ensemble des développements passés et actuels, mais plutôt d’insister sur les principes et sur les
méthodes éprouvés, dont les bases scientifiques sont sûres. Dans un domaine sans cesse parcouru de
modes multiples et éphémères, il est utile, pour qui cherche à acquérir les connaissances et principes de
base, d’insister sur les aspects pérennes du domaine.
Cet ouvrage fait suite à Réseaux de neurones, méthodologies et applications, des mêmes auteurs, paru
en 2000, réédité en 2004, chez le même éditeur, puis publié en traduction anglaise chez Springer.
Consacré essentiellement aux réseaux de neurones et aux cartes auto-adaptatives, il a largement contribué
à populariser ces techniques et à convaincre leurs utilisateurs qu’il est possible d’obtenir des résultats
remarquables, à condition de mettre en œuvre une méthodologie de conception rigoureuse, scientifique-
ment fondée, dans un domaine où l’empirisme a longtemps tenu lieu de méthode.
Tout en restant fidèle à l’esprit de cet ouvrage, combinant fondements mathématiques et méthodologie de
mise en œuvre, les auteurs ont élargi le champ de la présentation, afin de permettre au lecteur d’aborder
d’autres méthodes d’apprentissage statistique que celles qui sont directement décrites dans cet ouvrage.
En effet, les succès de l’apprentissage dans un grand nombre de domaines ont poussé au développement
de très nombreuses variantes, souvent destinées à répondre efficacement aux exigences de telle ou telle
classe d’applications. Toutes ces variantes ont néanmoins des bases théoriques et des aspects méthodolo-
giques communs, qu’il est important d’avoir présents à l’esprit.
Le terme d’apprentissage, comme celui de réseau de neurones, évoque évidemment le fonctionnement du
cerveau. Il ne faut pourtant pas s’attendre à trouver ici d’explications sur les mécanismes de traitement des
informations dans les systèmes nerveux ; ces derniers sont d’une grande complexité, résultant de
processus électriques et chimiques subtils, encore mal compris en dépit de la grande quantité de données
expérimentales disponibles. Si les méthodes d’apprentissage statistique peuvent être d’une grande utilité
pour créer des modèles empiriques de telle ou telle fonction réalisée par le système nerveux, celles qui
sont décrites dans cet ouvrage n’ont aucunement la prétention d’imiter, même vaguement, le fonctionne-
ment du cerveau. L’apprentissage artificiel, notamment statistique, permettra-t-il un jour de donner aux
ordinateurs des capacités analogues à celles des êtres humains ? Se rapprochera-t-on de cet objectif en
perfectionnant les techniques actuelles d’apprentissage, ou bien des approches radicalement nouvelles
sont-elles indispensables ? Faut-il s’inspirer de ce que l’on sait, ou croit savoir, sur le fonctionnement du
cerveau ? Ces questions font l’objet de débats passionnés, et passionnants, au sein de la communauté
scientifique : on n’en trouvera pas les réponses ici.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 17/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
XII

Les objectifs de ce livre sont, plus modestement :


• de convaincre les ingénieurs, chercheurs, et décideurs, de l’intérêt et de la grande efficacité de l’appren-
tissage statistique ;
• de leur permettre de le mettre en œuvre de manière simple et raisonnée dans des applications.

Guide de lecture
La variété des motivations qui peuvent amener le lecteur à aborder cet ouvrage justifie sans doute un guide
de lecture. En effet, les applications de l’apprentissage statistique ne nécessitent pas toutes la mise en
œuvre des mêmes méthodes.
Le premier chapitre (« L’apprentissage statistique : pourquoi, comment ? ») constitue une présentation
générale des principes de l’apprentissage statistique et des problèmes fondamentaux à résoudre. À partir
d’exemples académiques très simples, le lecteur est amené à découvrir les problèmes que pose la concep-
tion de modèles par apprentissage. Ces problèmes sont ensuite formalisés par la présentation de quelques
éléments de la théorie de l’apprentissage. La conception des modèles les plus simples – les modèles
linéaires en leurs paramètres – est décrite. Enfin, les différentes étapes de la conception d’un modèle par
apprentissage statistique sont détaillées : sélection de variables, apprentissage, sélection de modèle, test
du modèle sélectionné.
Le chapitre 2 est entièrement consacré aux réseaux de neurones, qui constituent une des familles de
modèles les plus utilisés. Les lecteurs qui s’intéressent à un problème de modélisation statique liront ce
chapitre jusqu’à la section « Techniques et méthodologie de conception de modèles statiques (réseaux
non bouclés) » incluse. Ils tireront également profit de la lecture du chapitre 3 (« Compléments de métho-
dologie pour la modélisation : réduction de dimension et validation de modèle par ré-échantillonnage »).
Les lecteurs qui se posent un problème de modélisation dynamique liront le chapitre 2 en entier, le
chapitre 3 et le chapitre 4 (« Identification “neuronale” de systèmes dynamiques commandés et réseaux
bouclés (récurrents) ». S’ils veulent utiliser ce modèle au sein d’un dispositif de commande de processus,
ils liront ensuite le chapitre 5 (« Apprentissage d’une commande en boucle fermée »).
Les lecteurs qui s’intéressent à un problème de classification supervisée (ou discrimination) liront le
chapitre 1, la section « Réseaux de neurones à apprentissage supervisé et discrimination » du chapitre 2,
puis le chapitres 3 (« Compléments de méthodologie pour la modélisation : réduction de dimension et
validation de modèle par ré-échantillonnage ») et surtout le chapitre 6 (« Discrimination »), qui introduit,
de manière originale, les machines à vecteurs supports.
Enfin, les lecteurs qui cherchent à résoudre un problème qui relève de l’apprentissage non supervisé
passeront du chapitre 1 au chapitre 3, puis au chapitre 7 (« Cartes auto-organisatrices et classification
automatique »).

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 18/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Avant-propos .html
XIII

Détail des contributions

Chapitres 1 et 2 Gérard Dreyfus est professeur à l’École Supérieure de Physique et de Chimie Indus-
trielles (ESPCI-Paristech), et directeur du Laboratoire d’Électronique de cet établis-
sement. Il enseigne l’apprentissage statistique à l’ESPCI, ainsi que dans plusieurs
masters et mastères. Depuis 1988, il organise chaque année deux sessions de forma-
tion continue pour ingénieurs, consacrées à l’apprentissage statistique et à ses appli-
cations industrielles et financières. Depuis 1982, les recherches de son laboratoire
sont entièrement consacrées à la modélisation et à l’apprentissage, pour l’ingénierie
et la neurobiologie.
ESPCI, Laboratoire d’Électronique, 10 rue Vauquelin, F – 75005 Paris – France
Chapitre 3 Jean-Marc Martinez, ingénieur au Centre d’Études de Saclay, effectue des recher-
ches dans le domaine des méthodes adaptées à la supervision de la simulation. Il
enseigne les méthodes d’apprentissage statistique à l’INSTN de Saclay et à Évry en
collaboration avec le LSC, unité mixte CEA – Université.
DM2S/SFME Centre d’Études de Saclay, 91191 Gif sur Yvette – France

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 19/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
XIV

Chapitres 4 et 5 Manuel Samuelides, professeur à l’École Nationale Supérieure de l’Aéronautique et


de l’Espace (Supaéro), et chef du département de Mathématiques Appliquées de cette
école, enseigne les probabilités, l’optimisation et les techniques probabilistes de
l’apprentissage et de la reconnaissance des formes. Il effectue des recherches sur les
applications des réseaux de neurones au Département de Traitement de l’Information
et Modélisation de l’ONERA.
École Nationale Supérieure de l’Aéronautique et de l’Espace, département Mathéma-
tiques Appliquées, 10 avenue Édouard Belin, BP 4032, 31055 Toulouse Cedex –
France
Chapitre 6 Mirta B. Gordon, physicienne et directrice de recherches au CNRS, est responsable
de l’équipe « Apprentissage: Modèles et Algorithmes » (AMA) au sein du laboratoire
TIMC-IMAG (Grenoble). Elle effectue des recherches sur la modélisation des
systèmes complexes adaptatifs, et sur la théorie et les algorithmes d’apprentissage.
Elle enseigne ces sujets dans différentes écoles doctorales.
Laboratoire TIMC – IMAG, Domaine de la Merci – Bât. Jean Roget, 38706 La Tranche
– France
Chapitre 7 Fouad Badran, professeur au CNAM (CEDRIC), y enseigne les réseaux de
neurones.
Mustapha Lebbah est maître de conférences à l’université de Paris 13.
Laboratoire d’Informatique Médicale et Bio-Informatique (LIMBIO), 74, rue Marcel
Cachin 93017 Bobigny Cedex – France
Sylvie Thiria est professeur à l’université de Versailles Saint-Quentin-en-Yvelynes,
chercheur au LODYC (Laboratoire d’Océanographie DYnamique et de Climato-
logie). Elle effectue des recherches sur la modélisation neuronale et sur son applica-
tion à des domaines comme la géophysique.
Laboratoire d’Océanographie Dynamique et de Climatologie (LODYC), case 100,
Université Paris 6, 4 place Jussieu 75252 Paris cedex 05 – France

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 20/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html

1
L’apprentissage statistique :
pourquoi, comment ?

Introduction
Une des tâches essentielles du cerveau consiste à transformer des informations en connaissances : identi-
fier les lettres qui constituent un texte, les assembler en mots et en phrases, en extraire un sens, sont des
activités qui nous paraissent naturelles une fois l’apprentissage nécessaire accompli avec succès.
L’objectif de l’apprentissage statistique est d’imiter, à l’aide d’algorithmes exécutés par des ordinateurs,
la capacité qu’ont les êtres vivants à apprendre par l’exemple. Ainsi, pour apprendre à un enfant la lecture
des lettres ou des chiffres, on lui présente des exemples de ceux-ci, écrits dans des styles et avec des
polices différents. On ne fournit généralement pas à l’enfant une description analytique et discursive de la
forme et de la topologie des caractères : on se contente de lui montrer des exemples. À la fin de l’appren-
tissage, on attend de l’enfant qu’il soit capable de lire non seulement tous les chiffres et lettres qui lui ont
été présentés durant son apprentissage, mais également tous les chiffres et lettres qu’il est susceptible de
rencontrer : en d’autres termes, on attend de lui qu’il ait une capacité degénéralisation à partir des exem-
ples qui lui ont été présentés. De même, à l’issue de l’apprentissage d’un modèle statistique à partir
d’exemples, celui-ci doit être capable de généraliser, c’est-à-dire de fournir un résultat correct, dans des
situations qu’il n’a pas connues pendant l’apprentissage.
Considérons deux exemples simples de tâches qui peuvent être accomplies par apprentissage artificiel :
• Dans les centres de tri postal, la lecture automatique des codes postaux, et des autres éléments de
l’adresse des lettres et paquets, est fréquemment effectuée à l’aide de modèles obtenus par apprentissage
statistique, à partir d’exemples de chacune des classes de chiffres. Il s’agit là d’un problème de
classification : chaque chiffre inconnu doit être attribué à une classe parmi les 10 classes de chiffres
possibles (ou être attribué à une classe dite « de rejet » si le chiffre est trop mal écrit pour être reconnu
par la machine : l’objet postal doit alors être traité manuellement).
• Dans l’industrie pharmaceutique, on cherche à prédire l’activité thérapeutique d’une molécule à partir
de sa structure, avant même de synthétiser cette molécule, afin d’éviter qu’une synthèse coûteuse risque
de se révéler finalement inutile. Cette prédiction est fréquemment effectuée par des modèles, construits
par apprentissage statistique, à partir de bases de données de molécules dont les activités thérapeutiques
sont connues.
Ces deux problèmes, quoique très différents, ont une caractéristique commune essentielle : ils ne peuvent
pas être résolus par l’application de connaissances existant a priori. Il n’existe pas d’équation mathéma-
tique, issue des connaissances des chimistes et des pharmaciens, qui permette de prédire précisément
l’activité d’une molécule connaissant sa structure ; de même, il n’existe pas d’équation qui décrive les
propriétés topologiques des chiffres manuscrits. C’est dans de telles conditions que le recours à l’appren-

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 21/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
2

tissage statistique à partir d’exemples se révèle très fructueux. Nous présenterons bien d’autres exemples
d’applications dans ce chapitre et les suivants.
Cet ouvrage présente trois grandes familles de modèles statistiques obtenus par apprentissage artificiel –
les réseaux de neurones, les machines à vecteur supports et les cartes auto-adaptatives – qui connaissent
un grand succès, depuis plusieurs années ; ils font l’objet de très nombreuses applications.
L’objectif de ce chapitre est de présenter les bases de la conception d’un modèle par apprentissage, de
manière aussi intuitive que possible, mais avec la rigueur nécessaire pour une mise en œuvre raisonnable
et l’obtention de résultats fiables. On présente tout d’abord un exemple très élémentaire de modélisation
par apprentissage, qui montre la dualité entre l’approche algorithmique, traditionnelle en apprentissage,
d’une part, et l’approche statistique, qui en est devenue indissociable, d’autre part. La notion fondamen-
tale étant celle de modèle, on présente ensuite quelques définitions qui précisent ce que l’on entend par
modèle dans cet ouvrage ; on introduit notamment la distinction entre modèles linéaires et modèles non
linéaires en les paramètres, ainsi que la distinction entre modèles statiques et modèles dynamiques. La
section suivante décrit deux problèmes académiques d’apprentissage, l’un dans le domaine de la classifi-
cation, l’autre dans celui de la prédiction ; ces exemples simples permettent de mettre en évidence le
dilemme biais-variance, qui constitue un problème central pour la pratique de l’apprentissage statistique.
On présente ensuite, de manière plus formelle, les éléments de la théorie de l’apprentissage : fonction de
perte, erreur de prédiction théorique, classifieur de Bayes, dilemme biais-variance. Il s’agit là essentielle-
ment de résultats asymptotiques, valables dans l’hypothèse où le nombre d’exemples est infini. La
cinquième section est plus proche de la pratique, en ce sens que les résultats qui y sont présentés tiennent
compte du fait que les données sont en nombre fini : ce sont les bornes sur l’erreur de prédiction, fournies
par la théorie de V. Vapnik. Les quatre sections suivantes sont de nature entièrement pratique : elles expo-
sent les différentes tâches à accomplir pour concevoir un modèle par apprentissage – collecte des données,
prétraitements, sélection des variables, apprentissage, sélection de modèles. Ces deux dernières tâches
font l’objet de deux sections suivies d’un résumé de la stratégie de conception de modèles. On présente
ensuite a conception des modèles les plus simples : les modèles linéaires en leurs paramètres. Enfin, la
dernière section du chapitre fournit les éléments de statistiques nécessaires à une bonne compréhension
de la mise en œuvre des méthodes décrites tout au long de l’ouvrage.

Premier exemple : un problème élémentaire


d’apprentissage statistique
Comme indiqué plus haut, l’objectif de l’apprentissage statistique est de réaliser, à partir d’exemples, un
modèle prédictif d’une grandeur numérique, de nature quelconque (physique, chimique, biologique,
financière, sociologique, etc.).
La démarche de conception d’un modèle par apprentissage nécessite de postuler une fonction, dont les
variables (également appelées facteurs) sont susceptibles d’avoir une influence sur la grandeur à
modéliser ; on choisit cette fonction parce que l’on pense qu’elle est susceptible
• d’apprendre les données existantes, c’est-à-dire de les reproduire le mieux possible,
• de généraliser, c’est-à-dire de prédire le comportement de la grandeur à modéliser dans des circons-
tances qui ne font pas partie des données d’apprentissage.
Cette fonction dépend de paramètres ajustables : l’apprentissage artificiel consiste en l’ajustement de ces
paramètres de telle manière que le modèle ainsi obtenu présente les qualités requises d’apprentissage et
de généralisation.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 22/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
3
C HAPITRE 1

Dans cet ouvrage, toutes les variables seront regroupées en un vecteur noté x, et tous les paramètres en un
vecteur noté w. Un modèle statique sera désigné par g(x, w) : après apprentissage, c’est-à-dire estimation
des paramètres w, la valeur que prend la fonction, lorsque les variables prennent un ensemble de valeurs
x, constitue la prédiction effectuée par le modèle. Les modèles dynamiques seront définis dans la section
suivante, intitulée « Quelques définitions concernant les modèles ».
À titre d’exemple très simple de modèle statique, supposons que l’on ait effectué N mesures (p1, p2, …,
pN) du poids d’un objet, avec des balances et dans des lieux différents. Nous cherchons à estimer le poids
de cet objet. Nous observons que les résultats des mesures sont tous à peu près identiques, à des fluctua-
tions près qui peuvent être dues à l’imprécision des mesures, aux réglages différents des balances, ou à
des variations locales de l’accélération de la pesanteur. On peut donc supposer raisonnablement que la
masse de l’objet est constante ; en conséquence, la première étape de conception d’un modèle prédictif
consiste à postuler un modèle de la forme
g( x ,w) = w ,
où w est un paramètre constant dont la valeur est l’estimation du poids de l’objet. La deuxième étape consiste
à estimer la valeur de w à partir des mesures disponibles : c’est ce qui constitue l’apprentissage proprement
dit. Une fois l’apprentissage terminé, le modèle fournit une estimation du poids de l’objet, donc une prédic-
tion du résultat de la mesure de celle-ci, quels que soient la balance utilisée et le lieu de la mesure.
Cet exemple contient donc, sous une forme très simplifiée, les étapes que nous avons décrites plus haut :
• On s’est fixé un objectif : prédire la valeur d’une grandeur ; dans cet exemple très simple, cette valeur
est constante, mais, en général, la valeur prédite dépend de variables x.
• On a postulé un modèle g(x, w), où x est le vecteur des variables du modèle, et w est le vecteur des para-
mètres du modèle ; dans cet exemple, il n’y a pas de variable puisque la grandeur à prédire est constante,
et il y a un seul paramètre w. Le modèle postulé est donc simplement la fonction constante g(x, w) = w.
Il reste alors à estimer l’unique paramètre du modèle, c’est-à-dire à effectuer l’apprentissage du modèle à
partir des données disponibles.
Cet apprentissage peut être considéré sous deux points de vue, qui suggèrent deux méthodes d’estimation
différentes ; elles conduisent évidemment au même résultat.

Point de vue algorithmique


Nous cherchons la valeur du paramètre w pour laquelle la prédiction du modèle est aussi proche que
possible des mesures. Il faut donc définir une « distance » entre les prédictions et les mesures ; la distance
la plus fréquemment utilisée est lafonction de coût des moindres carrés
N

(
J (w) = ∑ pk − g ( xk , w) , )
2

k =1

c’est-à-dire la somme des carrés des différences entre les prédictionsg(xk, w) et les mesures pk . xk désigne
le vecteur des valeurs que prennent les variables lors de la mesure k. Puisque nous avons postulé un
modèle constant, cette fonction de coût s’écrit
N

∑( p − w) .
2
J (w ) = k
k =1

Pour trouver la valeur de w pour laquelle cette fonction est minimale, il suffit d’écrire que sa dérivée est
nulle :

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 23/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
4

dJ( w)
= 0,
dw
ce qui donne :
N
1
w=
N
∑p . k
k=1

Le meilleur modèle prédictif, au sens de la « distance » des moindres carrés que nous avons choisie, et
compte tenu des données dont nous disposons, sous l’hypothèse que la masse de l’objet est constante, est
donc

1 N
g (x ,w ) = ∑ pk.
N k=1
Le poids prédit est donc simplement la moyenne des poids mesurés.

Point de vue statistique


Prenons à présent le problème sous l’angle des statistiques. Puisque l’on a de bonnes raisons de penser
que le poids p0 de cet objet est constant, il est naturel, d’un point de vue statistique, de modéliser les résul-
tats de ses mesures comme des réalisations d’une variable aléatoire P. Celle-ci est la somme d’une
variable aléatoire certaine P 0, d’espérance mathématique p0, et d’une variable aléatoire B, d’espérance
mathématique nulle (le lecteur qui n’est pas familier avec ces notions en trouvera les définitions dans la
dernière section de ce chapitre) :
P = P0 + B

de sorte que l’on a :


EP = p 0
où E P désigne l’espérance mathématique de la variable aléatoire P.
La variable aléatoire B modélise l’ensemble des perturbations et bruits de mesure. Le « vrai » poids
(inconnu) de l’objet étant p0 , l’apprentissage a donc pour objectif de trouver une valeur du paramètre w
qui soit aussi proche que possible de p0. Dans cet exemple, l’objectif de l’apprentissage est donc d’estimer
l’espérance mathématique de la variable aléatoire P connaissant des réalisations pk (k = 1 à N) de celle-ci.
Or la moyenne est un estimateur non biaisé de l’espérance mathématique, c’est-à-dire qu’elle tend versp 0
lorsque le nombre de mesures tend vers l’infini (ce résultat est démontré dans la dernière section de ce
chapitre, intitulée « Éléments de statistiques »). La meilleure estimation de p0 que nous puissions obtenir,
à partir des données disponibles, est donc la moyenne des mesures :

1 N
∑ p k.
N k= 1
N
1
On retrouve donc le modèle prédictif obtenu par l’approche algorithmique :g ( x ,w) =
N
∑p k
.
k= 1

Ayant ainsi déterminé le modèle par apprentissage, il est très important d’estimer la confiance que l’on
peut avoir en cette prédiction : pour cela, on calcule un intervalle de confiance sur la prédiction fournie.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 24/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
5
C HAPITRE 1

Le calcul de l’intervalle de confiance sur la moyenne d’observations est décrit dans la dernière section de
ce chapitre.
Ces deux points de vue, algorithmique et statistique, ont longtemps été séparés. Les tout premiers déve-
loppements de la théorie de l’apprentissage, apparus dans les années 1980, étaient essentiellement
inspirés par le point de vue algorithmique, ce qui n’intéressait guère les statisticiens. Ce n’est que dans les
années 1990 qu’une véritable synergie s’est créée entre les deux approches, permettant le développement
de méthodologies efficaces et fiables pour la conception de modèles par apprentissage.

Quelques définitions concernant les modèles


Dans tout cet ouvrage, on désignera sous le terme de modèle une équation paramétrée (ou un ensemble
d’équations paramétrées) permettant de calculer la valeur de la grandeur (ou des grandeurs) à modéliser à
partir des valeurs d’autres grandeurs appelées variables ou facteurs. On distinguera les modèles statiques
des modèles dynamiques, et les modèles linéaires en leurs paramètres des modèles non linéaires en leurs
paramètres.

Modèles statiques
Un modèle statique est une fonction paramétrée notée g ( x ,w ) , où x est le vecteur dont les composantes
sont les valeurs des variables, et où w est le vecteur des paramètres du modèle.

Modèles statiques linéaires en leurs paramètres


Un modèle statique est linéaire en ses paramètres s’il est une combinaison linéaire de fonctions non para-
métrées des variables ; il est de la forme
p
g (x , w ) = ∑ w f ( x ),
i i
i=1

où fi est une fonction connue, non paramétrée, ou à paramètres connus. Ce modèle peut encore s’écrire
sous la forme d’un produit scalaire :
g (x ,w ) = w ⋅ f ( x) ,
où f (x) est le vecteur dont les composantes sont les fonctions f(i x).
Les polynômes, par exemple, sont des modèles linéaires en leurs paramètres : les fonctions fi (x) sont les
monômes des variables x. Les polynômes sont néanmoins non linéaires en leurs variables.
On appelle modèle linéaire un modèle qui est linéaire en ses paramètres et en ses variables. Les modèles
linéaires sont donc de la forme :
p
g (x ,w ) = ∑w x i i = w⋅ x .
i=1

Un modèle affine est un modèle linéaire qui contient une constante additive :
p−1
g (x ,w ) = w 0 + ∑ wi xi .
i =1

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 25/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
6

Remarque
Un modèle affine peut donc être considéré comme un modèle linéaire dont une des variables est constante, égale à 1. Il est donc inutile,
en général, de faire une distinction entre modèles linéaires et modèles affines.

Modèles statiques non linéaires en leurs paramètres


On peut imaginer une grande variété de modèles non linéaires en leurs paramètres. Nous étudierons parti-
culièrement dans cet ouvrage les modèles non linéaires en leurs paramètres qui sont de la forme
p
g (x ,w ) = ∑ w i f i ( x ,w′ )
i =1

où les fonctions fi sont des fonctions non linéaires, paramétrées par les composantes du vecteur w’. Le
vecteur w a donc pour composantes les paramètres wi (i = 1 à p) et les composantes de w’. Les réseaux de
neurones, qui sont largement étudiés dans cet ouvrage, constituent un exemple de modèles non linéaires
en leurs paramètres et non linéaires en leurs variables.

Modèles dynamiques
Dans les modèles décrits dans la section précédente, le temps ne joue aucun rôle fonctionnel : si les varia-
bles x sont indépendantes du temps, la valeur fournie par le modèle (ou sortie du modèle) est indépen-
dante du temps. Les modèles dynamiques, en revanche, ont une forme de mémoire : la sortie du modèle à
un instant donné dépend de ses sorties passées. En conséquence, elle peut évoluer dans le temps, à partir
d’un état initial, même si les variables x sont constantes, voire nulles.
La très grande majorité des applications des modèles statistiques sont réalisées à l’aide d’ordinateurs, ou
de circuits électroniques numériques. Dans les deux cas, les mesures des variables sont effectuées à inter-
valles réguliers, dont la durée est appelée période d’échantillonnage. De même, les prédictions du modèle
ne sont pas fournies de manière continue, mais à intervalles réguliers, généralement caractérisés par la
même période d’échantillonnage que les mesures des variables. De tels systèmes sont ditsà temps discret,
par opposition aux systèmes physiques naturels, qui sont des systèmes à temps continu.
Ces derniers sont décrits par des modèles dynamiques à temps continu, qui sont des équations (ou des
systèmes d’équations) différentielles du type :

dy
= g( y, x, w )
dt
où t désigne le temps, y la prédiction effectuée par le modèle, x et w les vecteurs des variables et des para-
mètres respectivement.
Pour les modèles à temps discret, le temps n’est plus une variable continue :

t = kT
où T désigne la période d’échantillonnage et k est un nombre entier positif. La prédiction de la valeur prise
par la grandeur à modéliser à l’instant kT, connaissant les prédictions effectuées aux n instants précédents,
et les valeurs des variables aux m instants précédents, peut alors être mise sous la forme :

y (kT ) = g ⎡⎣ y (( k − 1)T ) y (( k − 2)T ) y (( k − n )T ) ((k )T ), x ( (k − )T ) ,...x ( ( k − n ')T ) , w⎤⎦


, ,... ,x 1 − 2

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 26/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
7
C HAPITRE 1

où n et n’ sont des entiers positifs ; n est appelé ordre du modèle. Cette forme de modèle est assez natu-
relle, mais nous verrons, dans les sections du chapitre 2 consacrées à la modélisation dynamique « boîte
noire », et dans les chapitres 4 et 5, qu’il existe des formes plus générales de modèles dynamiques.
Comme pour les modèles statiques, la fonction g(y, x, w) peut être soit linéaire, soit non linéaire, par
rapport à ses variables et à ses paramètres. Dans la suite de ce chapitre, nous ne considérerons que des
modèles statiques ; les modèles dynamiques seront abordés dans les chapitres 2, 4 et 5.

Deux exemples académiques d’apprentissage supervisé


On considère à présent deux exemples académiques, qui permettent de mettre en évidence les problèmes
fondamentaux qui se posent dans le domaine de l’apprentissage statistique. Ces deux exemples entrent
dans la catégorie de l’apprentissage supervisé, dans lequel un professeur détermine la réponse que devrait
fournir le modèle : dans un problème de classification, le professeur fournit, pour chaque exemple, une
étiquette indiquant à quelle classe appartient l’objet ; dans un problème de prédiction, le professeur
associe à chaque exemple une mesure de la grandeur à modéliser. L’apprentissage supervisé n’est pas le
seul type d’apprentissage ; le chapitre 7 de cet ouvrage sera consacré à un outil très important de
l’apprentissagenon supervisé, les cartes topologiques.

Un exemple de modélisation pour la prédiction


+10 Considérons une grandeur yp, engendrée par un
processus de nature quelconque – physique, chimique,
biologique, sociologique, économique, … − , que l’on
cherche à modéliser afin d’en prédire le
comportement ; elle dépend d’une seule variable x.
Un ensemble d’apprentissage est constitué de N A = 15
mesures y p (k = 1 à NA ), effectuées pour diverses
yp

k
valeurs xk (k = 1 à N A) de la variable x. Elles sont repré-
sentées par des croix sur la figure 1-1. Nous cherchons
à établir un modèle g(x, w) qui permette de prédire la
valeur de la grandeur à modéliser pour une valeur quel-
conque de x dans le domaine considéré (−2 ≤ x ≤ +3).
-4 Il s’agit d’un problème académique en ce sens que le
-2 x +3
processus par lequel ont été créées ces données est
Figure 1-1. Un problème académique de modélisation connu, ce qui n’est jamais le cas pour un problème
réaliste d’apprentissage statistique : on sait que chaque
élément k de l’ensemble d’apprentissage a été obtenu
en ajoutant à la valeur de 10 sin(x k)/x k une réalisation d’une variable aléatoire obéissant à une loi normale
(gaussienne de moyenne nulle et d’écart type égal à 1).
Comme indiqué plus haut, il faut d’abord postuler une fonctiong(x, w). Puisque la grandeur à modéliser
ne dépend que de la variable x, le vecteur x se réduit à un scalaire x. En l’absence de toute indication sur
la nature du processus générateur des données, une démarche naturelle consiste à postuler des fonctions
de complexité croissante, dans une famille de fonctions données. Choisissons la famille des polynômes ;
dans cette famille, le modèle polynomial de degré d s’écrit :
g ( x , w ) = w0 + w1 x + w2x 2 + … + w d xd

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 27/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
8

C’est donc un modèle à d+1 paramètres w0, w1, …, wd . Le modèle le plus simple de cette famille est le
modèle constant g(x, w) = w 0, mis en œuvre dans la section intitulée « Premier exemple ».

Pour effectuer l’apprentissage de ces modèles, on peut utiliser la méthode des moindres carrés, déjà
mentionnée. Les détails en seront décrits plus loin, dans la section intitulée « Conception de modèles
linéaires par rapport à leur paramètres » ; pour l’instant, il est intéressant d’observer les résultats de ces
apprentissages, représentés sur la figure 1-2 pour d = 1 (fonction affine), d = 6 et d = 10 ; le même
graphique comporte également une représentation de la fonction 10 sin x / x.

20

d=1

d=6
Figure 1-2.
Trois modèles
d = 10 polynomiaux

10 sinx / x

-5
-2 x +3

Le modèle affine (d = 1) ne rend pas du tout compte des observations car il n’a pas la « souplesse » souhai-
table pour s’adapter aux données ; dans le jargon de l’apprentissage statistique, on dira que lacomplexité
du modèle est insuffisante. À l’inverse, le modèle polynomial de degré 10 est suffisamment complexe
pour passer très précisément par tous les points d’apprentissage ; on observe néanmoins que cette préci-
sion sur l’ensemble d’apprentissage est obtenue au détriment des qualités de généralisation du modèle :
c’est le phénomène de surajustement. En effet, au voisinage de x = −2 comme au voisinage de x = +3, ce
modèle fournit des prédictions très éloignées de la « réalité » représentée en trait plein. En revanche, le
modèle polynomial de degré 6 présente un bon compromis : la courbe ne passe pas exactement par tous
les points – ce qui est normal puisque ces points résultent en partie d’un tirage aléatoire – mais elle est
assez proche de la « vraie » fonction 10 sinx / x.

Afin de rendre ces considérations plus quantitatives, on a constitué, outre l’ensemble d’apprentissage, un
deuxième ensemble de données, dit ensemble de test, indépendant du précédent, mais dont les NT

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 28/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
9
C HAPITRE 1

éléments sont issus de la même distribution de probabilité. On définit l’erreur quadratique moyenne sur
l’ensemble d’apprentissage (EQMA) et l’erreur quadratique moyenne sur l’ensemble de test (EQMT) :
NA
1 1 NT p
∑ (y ) ( )
2 2
EQMA = p
k − g ( x k ,w) EQMT = ∑ y k − g ( x k ,w) .
NA k =1 NT k =1
L’ensemble de test, comprenant NT = 1000 éléments, est représenté sur la figure 1-3. De plus, 100 ensem-
bles d’apprentissage de N A = 15 éléments chacun ont été constitués.

+10

Figure 1-3.
Ensemble de test
yp

-4
-2 x +3
100 modèles ont été créés à partir de ces ensembles d’apprentissage, et, pour chacun de ces modèles,
l’EQMA et l’EQMT ont été calculées. La figure 1-4 montre l’évolution des moyennes des EQMA et
EQMT, en fonction de la complexité (degré) du modèle polynomial postulé.
Remarque 1
Le fait de présenter des moyennes des EQMA et EQMT, sur 100 modèles obtenus à partir de 100 ensembles d’apprentissage différents,
permet d’éviter l’observation de phénomènes liés à une réalisation particulière du bruit présent dans les observations d’un ensemble
d’apprentissage donné. Dans la pratique, on ne dispose évidemment que d’un seul ensemble d’apprentissage.

Remarque 2
Dans la pratique, si l’on disposait d’un ensemble de 1 000 exemples, on utiliserait beaucoup plus que 15 exemples pour effectuer l’appren-
tissage. Par exemple, on utiliserait 500 exemples pour l’apprentissage et 500 pour tester le modèle. Dans cette section, nous nous plaçons
volontairement dans un cadre académique, pour mettre en évidence les phénomènes importants. La méthodologie à adopter pour la
conception de modèles est présentée dans la section de ce chapitre intitulée « La conception de modèle en pratique », et elle est large-
ment développée dans le chapitre 2.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 29/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
10

6
EQMT EQMA

5
Figure 1-4.
Erreurs
quadratiques
4 moyennes
sur l’ensemble
d’apprentissage
et sur l’ensemble
3 de test

0
0 2 4 6 8 10 12 14
Degré du modèle polynomial

On observe que l’erreur d’apprentissage (EQMA) diminue lorsque la complexité du modèle augmente :
le modèle apprend de mieux en mieux les données d’apprentissage. En revanche, l’erreur sur l’ensemble
de test (EQMT) passe par un optimum (d = 6) puis augmente : l’augmentation de la complexité du modèle
au-delà de d = 6 se traduit par une dégradation de ses capacités de généralisation.

Remarque
Les brusques variations de l’EQMA et de l’EQMT observées lorsque l’on passe du degré 3 au degré 4 sont dues à la nature particulière de
l’exemple étudié : en effet, dans le domaine de variation de x considéré, la fonction sin x / x présente deux points d’inflexion (points où la
dérivée seconde de la fonction est nulle). Or un polynôme de degré d a au plus d − 2 points d’inflexion : pour que le modèle polynomial
puisse reproduire les deux points d’inflexion de la fonction génératrice des données, il faut donc qu’il soit au moins de degré 4.

On observe également que l’EQMT reste toujours supérieure à l’écart-type du bruit (qui vaut 1 dans cet
exemple), et que l’EQMT du modèle qui a la meilleure généralisation est voisine de l’écart-type du bruit.
Ainsi, le meilleur modèle réalise un compromis entre la précision de l’apprentissage et la qualité de la géné-
ralisation. Si le modèle postulé est trop peu complexe, l’apprentissage et la généralisation sont peu précis ;
si le modèle est trop complexe, l’apprentissage est satisfaisant, mais la généralisation ne l’est pas. Ce
compromis entre la qualité de l’apprentissage et celle de la généralisation, gouverné par la complexité du
modèle, est connu sous le terme de dilemme biais-variance : un modèle qui a un biais faible apprend très
bien les points d’apprentissage, mais il peut avoir une variance élevée car il peut être fortement tributaire de
détails de l’ensemble d’apprentissage (modèle surajusté). En revanche, un modèle peut avoir unbiais élevé

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 30/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
11
C HAPITRE 1

(il n’apprend pas parfaitement les éléments de l’ensemble d’apprentissage) mais une variance faible (il ne
dépend pas des détails de l’ensemble d’apprentissage). Le phénomène observé dans cet exemple est absolu-
ment général, comme nous le démontrerons dans la section intitulée « Dilemme biais-variance ».
Dans la section intitulée « Éléments de théorie de l’apprentissage », on donnera une expression quantita-
tive de la notion de complexité. On montrera notamment que, pour les modèles polynomiaux, la
complexité n’est rien d’autre que le nombre de paramètres du modèle, soitd + 1 pour un polynôme de
degré d ; on montrera également que le dilemme biais-variance est gouverné par le rapport du nombre de
paramètres au nombre d’exemples disponibles.
Retrouvons à présent le même phénomène sur un second exemple académique, qui est cette fois un
problème de classification.

Un exemple de classification
3 Rappelons qu’un problème de classification
consiste à affecter un objet inconnu à une classe
parmi plusieurs. Considérons un problème à deux
2
classes A et B. On souhaite que soit attribuée à tout
élément de la classe A une étiquette yp = +1, et à
1 tout élément de B une étiquette yp = −1. On dispose
d’un ensemble d’apprentissage, constitué d’exem-
ples de chacune des classes, dont la classe est
0 connue : des étiquettes exactes leur ont été affec-
x2

tées. Dans le problème considéré ici, chaque


« objet » est décrit par un vecteur x à deux
-1
composantes : on peut donc le représenter par un
point dans le plan des variables (x1 , x2). La figure 1-5
-2 représente un ensemble d’apprentissage compre-
nant 80 exemples par classe. Les exemples de la
classe A sont représentés par des croix, ceux de la
-3
-3 -2 -1 0 1 2 3 classe B par des cercles. On cherche la frontière
1
x entre ces classes, c’est-à-dire une ligne, dans ce
plan, qui sépare les exemples avec un nombre
Figure 1-5. Ensemble d’apprentissage pour un problème d’erreurs minimal : on souhaite que la plupart des
académique de classification exemples d’une classe (voire tous) soient d’un côté
de la frontière, et que la plupart des exemples de
l’autre classe (voire tous) soient de l’autre côté ; on dit qu’il y a une erreur de classification lorsqu’un
exemple est situé « du mauvais côté » de la frontière.
Comme dans l’exemple de modélisation, on présente ici un problème académique : le processus généra-
teur des données est connu, ce qui n’est pas le cas pour un problème réel. Les exemples de l’ensemble
d’apprentissage ont été tirés de deux distributions gaussiennes isotropes d’écart-type égal à 1, dont les
centres sont respectivement le point (x1 = + 0,5 ; x 2 = − 0,5) pour la classe A, et (x1 = − 0,5 ; x 2 = + 0,5)
pour la classe B. On démontrera, dans la section intitulée « Classifieur de Bayes », que la diagonale du
carré, qui est l’axe de symétrie du problème, est la frontière pour laquelle le risque d’erreur de classifica-
tion est minimal. On voit que cette frontière théorique idéale ne sépare pas parfaitement bien tous les
exemples d’apprentissage : le taux d’erreur sur l’ensemble d’apprentissage n’est pas nul si l’on choisit
cette frontière, mais nous montrerons que le taux d’erreur sur l’ensemble de tous les objets, engendrés par
le même processus générateur, mais n’appartenant pas à l’ensemble d’apprentissage, est minimal.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 31/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
12

Le classifieur de Bayes présente donc une généralisation optimale ; malheureusement, on ne peut le déter-
miner que si les distributions des exemples sont connues, ce qui n’est généralement pas le cas dans un
problème réel. On peut seulement s’efforcer de trouver un classifieur qui en soit proche. C’est ce qui va
être tenté par les deux méthodes décrites ci-dessous.

La méthode des k plus proches voisins


Une approche naïve consiste à considérer que des points voisins ont une grande chance d’appartenir à une
même classe. Alors, étant donné un objet inconnu décrit par le vecteur x, on peut décider que cet objet
appartient à la classe de l’exemple d’apprentissage qui est le plus proche de l’extrémité de x. De manière
plus générale, on peut décider de considérer les k plus proches voisins de l’objet inconnu, et d’affecter
celui-ci à la classe à laquelle appartient la majorité des k exemples les plus proches (on prend de préfé-
rence k impair). Cette approche, appelée méthode des k plus proches voisins, revient à postuler une fonc-
1 k
tion g(x, k) = ∑ yip , où la somme porte sur les k exemples les plus proches de x, et à mettre en œuvre
k i= 1
( ( ))
la règle suivante : l’objet décrit par x est affecté à la classe A si sgn g x, k = +1, et il est affecté à la
classe B dans le cas contraire1. On construit ainsi un modèle constant par morceaux, égal à la moyenne
des étiquettes des k exemples les plus proches. Le seul paramètre du modèle est donc k, le nombre de plus
proches voisins pris en considération dans la moyenne.

Pour visualiser les résultats, le calcul est effectué pour 10 000 points disposés régulièrement sur une grille
de 100 × 100 points. La figure 1-6 montre les résultats obtenus pour k = 1, k = 7, k = 21 et k = 159 (cette
dernière valeur est la valeur maximale de k puisque l’ensemble d’apprentissage comporte en tout
160 exemples) ; les points affectés à la classe A par le classifieur sont représentés en gris foncé, ceux qui
sont affectés à la classe B en gris clair.

Pour k = 1, on observe que la frontière est très irrégulière, et définit des « îlots » de l’une des classes dans
l’autre classe. Ce phénomène s’explique facilement : comme chaque point de l’ensemble d’apprentissage
est son propre plus proche voisin, il est forcément bien classé. La frontière dépend donc complètement de
l’ensemble d’apprentissage choisi : un autre tirage aléatoire de points dans les mêmes distributions gaus-
siennes aurait produit une frontière très différente. C’est un modèle qui a un biais faible (tous les exemples
de l’ensemble d’apprentissage étant bien appris, le taux d’erreur sur l’ensemble d’apprentissage est nul)
et une variance élevée (la frontière varie beaucoup si l’on change l’ensemble d’apprentissage). La capa-
cité de généralisation est donc certainement très faible, le modèle étant complètement surajusté à
l’ensemble d’apprentissage disponible. La croix en traits épais (x1 = −2, x2 = −2,5), qui n’appartient pas à
l’ensemble d’apprentissage, est mal classée.

Lorsque l’on augmente k, la frontière devient plus régulière, et plus proche de la frontière optimale (k = 7,
k = 21). La croix en traits épais est correctement classée dans l’ensemble des croix. Pour k = 159, on
observe en revanche que la frontière devient très régulière, mais qu’elle est très éloignée de la solution
optimale (la diagonale du carré). La croix en traits épais est à nouveau mal classée.

On passe ainsi de modèles de faible biais et grande variance (faibles valeurs de k) à des modèles de faible
variance mais de biais élevé (grandes valeurs de k). Comme dans l’exemple précédent, on voit apparaître
la nécessité de trouver un compromis satisfaisant entre le biais et la variance ; ce compromis dépend la
valeur de 1 / k.

1. La fonction sgn(u) est définie de la manière suivante : sgn(u) = +1 si u > 0, sgn(u) = − 1 si u ≤ 0

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 32/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
13
C HAPITRE 1

3 3

2 2

1 1

0 0
x2

x2
-1 -1

-2 -2

-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x1 x1

k=1 k=7
3 3

2 2

1 1

0 0
x2

x2

-1 -1

-2 -2

-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

x1 x1

k = 21 k = 159
Figure 1-6. Classification par la méthode des k plus proches voisins

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 33/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
14

Pour caractériser quantitativement ce phénomène, 30

on peut procéder comme pour l’exemple précé-


28
dent : on constitue un ensemble de test de 1000

Taux d’erreur de classification (%)


points, et 100 ensembles d’apprentissage de tailles 26
Ensemble de test

identiques (100 exemples par classe), tirés des


mêmes distributions de probabilités. Pour diffé- 24 Limite de Bayes
rentes valeurs de k, on construit un modèle à partir
de chaque ensemble d’apprentissage par la 22
Ensemble d’apprentissage
méthode des plus proches voisins, soit 100
20
modèles pour chaque valeur de k. Pour chaque
modèle, on calcule le taux d’erreur de classification 18
(rapport du nombre d’exemples mal classés au
nombre total d’exemples) sur l’ensemble d’appren- 16
1/199 1/31 1/3
tissage et sur l’ensemble de test ; on calcule enfin la 1/k
moyenne de ces taux d’erreur sur les 100 ensem- Figure 1-7. Erreurs d’apprentissage et de test
bles d’apprentissage considérés. La figure 1-7 pour la méthode des k plus proches voisins
présente les taux moyens d’erreur de classification
sur l’ensemble d’apprentissage (+), et l’erreur sur
l’ensemble de test (x), pour k variant de 3 à 199. Pour les faibles complexités (k grand), le taux d’erreur
sur les ensembles d’apprentissage et de test sont grands, et du même ordre de grandeur ; pour les
complexités élevées (k petit), le taux d’erreur sur l’ensemble d’apprentissage tend vers zéro, tandis que le
taux d’erreur sur l’ensemble de test croît. Ce comportement est donc tout à fait analogue à celui qui a été
observé pour la prédiction (figure 1-4). Le taux d’erreur sur l’ensemble de test passe par un minimum,
appelé « limite de Bayes », qui, dans le cas particulier de deux distributions gaussiennes, peut être calculé
si l’on connaît les moyennes et écarts-types de ces distributions (voir la section « Classifieur de Bayes ») ;
avec les valeurs numériques considérées ici, ce taux théorique est de 23,9 %, ce qui est bien le résultat
observé dans cette expérience numérique (la valeur du taux d’erreur théorique est établie dans la section
de ce chapitre intitulée « Classification : règle de Bayes et classifieur de Bayes »).
Ainsi, le dilemme biais-variance, illustré dans l’exemple de modélisation, se retrouve ici sous une forme
différente : l’augmentation du nombre de plus proches voisins, donc la diminution de la « complexité »,
entraîne une augmentation du nombre d’erreurs de classification dans l’ensemble d’apprentissage, mais
une diminution du nombre d’erreurs en-dehors de l’ensemble d’apprentissage, donc une meilleure géné-
ralisation.
Le tableau 1-1 résume les aspects du dilemme biais-variance, pour la classification par la méthode des
plus proches voisins d’une part, et pour la prédiction d’autre part.
Classification Prédiction
(k plus proches voisins) (modèles linéaires)

Nombre d’exemples Nombre de paramètres


Dilemme biais-variance gouverné par -------------------------------------------------------------------------- ------------------------------------------------------
Nombre de plus proches voisins Nombre d’exemples

Limite inférieure de l’erreur de généralisation Limite de Bayes Variance du bruit


Tableau 1-1. Dilemme biais-variance pour la classification par la méthode des plus proches voisins et pour la prédiction par
des modèles linéaires ou polynomiaux

Classification linéaire ou polynomiale


Rappelons que la méthode des k plus proches voisins consiste à calculer, pour tout objet décrit par x, la
fonction

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 34/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
15
C HAPITRE 1

1
g (x ) = ∑ yp
k k plus proches k
voisins de x

( ( )) = +1 l’objet décrit par x est affecté à la classe A,


et à utiliser la règle de décision suivante : si sgn g x
( ( ))
si sgn g x = −1 il est affecté à la classe B.
Cette approche peut être généralisée de la manière suivante : on cherche à estimer, par apprentissage,
les paramètres d’une fonction g( x ,w) telle que sgn ( g ( x, w) ) = +1 pour tous les objets de la classe A et
1 + sgn ⎣⎡ g( x ,w) ⎦⎤
( ( ))
sgn g x , w = −1 pour tous les objets de la classe B. La fonction γ ( x , w) =
2
, qui vaut
+1 pour tous les éléments de A et 0 pour tous les éléments de B, est appelée fonction indicatrice.
3 Au lieu de postuler une fonction constante par
morceaux comme on le fait dans la méthode des k
plus proches voisins, postulons à présent une fonc-
2
tion polynomiale. La plus simple d’entre elles est
la fonction affine g (x ,w ) = w 0 + w1x1 + w 2 x2 , que
1 l’on peut encore écrire g ( x ,w) = x ⋅ w, où le
symbole ⋅ représente le produit scalaire ; x est le
vecteur de composantes {1, x1, x2} et w est le
vecteur de composantes {w0, w1, w2}. Pour chaque
x2

exemple k de l’ensemble d’apprentissage, on écrit


-1
( )
que g x k ,w = ypk , où ypk = +1 pour tous les exem-
ples de la classe A et ykp = −1 pour tous les exem-
ples de la classe B. On met alors en œuvre la
-2 méthode des moindres carrés, décrite plus loin
dans la section « Apprentissage de modèles
linéaires », pour estimer le vecteur des paramètres
-3
-3 -2 -1 0 1 2 3 w. Pour l’ensemble d’apprentissage représenté sur
x1 la figure 1-5, le résultat obtenu est représenté sur la
Figure 1-8. Séparation linéaire figure 1-8. On observe que la frontière ainsi définie
est proche de la première diagonale du carré,
laquelle garantit la meilleure généralisation.
Comme dans le cas de la modélisation que nous avons étudié plus haut, le dilemme biais-variance est
gouverné par le rapport du nombre de paramètres du modèle (1 + degré du polynôme) au nombre d’exem-
ples disponibles. La figure 1-9 montre l’évolution du taux d’erreur de classification, sur l’ensemble
d’apprentissage et sur l’ensemble de test, à complexité donnée (3 paramètres), en fonction du nombre
d’exemples.
Lorsque le nombre d’exemples est faible, le taux d’erreur sur l’ensemble d’apprentissage est très petit
(biais faible) et le taux d’erreur sur l’ensemble de test est très grand (variance importante). En revanche,
lorsque le nombre d’exemples augmente, les deux taux d’erreur convergent vers le taux d’erreur de Bayes
(qui, rappelons-le, peut être calculé analytiquement dans ce cas, et vaut 23,9 %).

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 35/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
16

40

35
Ensemble de test Figure 1-9.
Taux d’erreur
en fonction
30
Taux d’erreur de classification (%)

du nombre
d’exemples, à
complexité fixée

25
Limite de Bayes

20

15
Ensemble d’apprentissage

10

5
0 4 8 12 16 20
Nombre d’exemples par classe

Conclusion
Dans cette section, deux problèmes académiques simples d’apprentissage supervisé ont été présentés : un
exemple de prédiction et un exemple de classification. Ces deux exemples ont permis de mettre en
évidence un problème central de l’apprentissage artificiel : le dilemme biais-variance, c’est-à-dire la
nécessité de trouver le meilleur compromis possible entre la capacité du modèle à apprendre les exemples
d’apprentissage et sa capacité à généraliser à des situations non apprises. Ces observations empiriques
vont à présent être justifiées de manière plus rigoureuse.

Éléments de théorie de l’apprentissage


Cette section présente quelques résultats théoriques fondamentaux concernant l’apprentissage supervisé,
pour la prédiction et la classification. On présentera tout d’abord un formalisme général pour la modéli-
sation par apprentissage. On introduira ensuite le classifieur de Bayes, et l’on en démontrera les
propriétés. Enfin, on prouvera que le dilemme biais-variance est un phénomène général.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 36/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
17
C HAPITRE 1

Fonction de perte, erreur de prédiction théorique


Puisque l’apprentissage cherche à reproduire les données, il faut définir une « distance » entre les prédic-
tions du modèle et les données : on définit donc une fonction dite « fonction de perte »

π ⎡⎣ y p, g ( x, w) ⎤⎦ ≥ 0 ,
où yp est la valeur souhaitée et g(x, w) est la valeur prédite par le modèle, dont les paramètres sont les
composantes du vecteur w, étant donné le vecteur de variables x. Pour une tâche de prédiction, yp est la
valeur mesurée de la grandeur à prédire ; pour une tâche de classification à deux classes,yp vaut +1 pour
un objet d’une classe et −1 (ou 0) pour un objet de l’autre classe.
Exemples
Une distance naturelle, très fréquemment utilisée, est l’erreur quadratique de modélisation :

π ⎡⎣y p , g (x, w )⎤⎦ = ⎡⎣ yp − g( x, w) ⎤⎦ .


2

Il arrive aussi que l’on utilise la valeur absolue de l’erreur :

π ⎡⎣y p , g (x, w )⎤⎦ = yp − g( x, w ) .

Comment décrire mathématiquement la « qualité » du modèle ? Comme dans la première section de ce


chapitre, on peut modéliser les résultats des mesures yp comme des réalisations d’une variable aléatoire
Yp , et les vecteurs des variables x comme des réalisations d’un vecteur aléatoire X. Alors les valeurs de la
fonction de perte π deviennent elles-mêmes des réalisations d’une variable aléatoire Π, fonction de Y p et
de X, et il est naturel de caractériser la performance du modèle par l’espérance mathématique deΠ , ou
erreur de prédiction théorique, que nous noterons P2 (cette quantité est toujours positive, d’après la défi-
nition de π) :

P 2 = EΠ = ∫ ∫ π ( y , g( x, w)) p
p
Y pX
,
dy p dx

où pY p ,X est la probabilité conjointe de la variable aléatoire Yp et du vecteur aléatoire X ; les intégrales


portent sur toutes les valeurs possibles de la grandeur à modéliser et des variables qui la gouvernent. Cette
erreur de prédiction est bien une erreur théorique : en pratique, on ne dispose que d’un ensemble de
données de taille finie, et les distributions de probabilités sont inconnues. On ne peut donc jamais calculer
cette erreur, mais seulement l’estimer à partir de l’ensemble de données dont on dispose.
Notons que, pour les modèles dont les paramètres w sont déterminés par apprentissage, ces derniers
dépendent aussi des réalisations de Y P présentes dans l’ensemble d’apprentissage : les paramètres du
modèle peuvent donc aussi être considérés comme des réalisations de variables aléatoires. Nous utilise-
rons cette remarque dans la section intitulée « Dilemme biais-variance ».
L’erreur de prédiction théorique peut alors s’écrire :

P 2 == E X ⎡ EY p X ( Π )⎤
⎣ ⎦
où EY p X (Π ) désigne l’espérance mathématique de la variable aléatoire Π Y p X , c’est-à-dire l’espé- ( )
rance mathématique de la fonction de perte pour les prédictions effectuées par le modèlepour un vecteur
de variables x donné.
Démonstration
pY p ,X = pYp y x pX
La probabilité conjointe peut s’écrire p
( ) . L’erreur de prédiction théorique s’écrit donc

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 37/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
18

(
P = ∫ ∫ π y ,g(x ,w ) pYp y x pX dy dx
2 p p p
) ( )
( )
= ∫ ⎡⎣ ∫ π y p, g (x ,w) pY p yp x dyp ⎤⎦ pX dx ( )
= EX ⎡EYp
⎣ X
( Π ) ⎤⎦.

Considérons un exemple caractérisé par le vecteur de variables x. En ce point, le meilleur modèle est le
modèle pour lequel l’erreur de prédiction théorique est minimum. Appliquons cette propriété successive-
ment à deux tâches : la prédiction et la classification.

Prédiction
Comme indiqué plus haut, la fonction de perte la plus fréquemment utilisée pour la prédiction est
2
π ⎡⎣ y p , g ( x, w) ⎤⎦ = ⎡⎣ y p − g ( x, w)⎤⎦

Alors le meilleur modèle possible est la fonction de régression de la grandeur à modéliser :

f ( x) = EY p X

Démonstration
Rappelons que l’espérance mathématique de la fonction de perte est donnée par :

(Π ) = ∫ ( yP − g( x,w)) ( y x) dy.
2
p p
EYp X
pYp
Son minimum est obtenu pour le modèle
f(x) tel que
⎛ dEYp X ⎞
0 =⎜ ⎟
⎝dg (x ,w )⎟
⎜ ⎠ g( x, w) = f( x)

=⎜
∫ (
⎛d yP − g ( x, w) 2 p y p x dy p ⎞
Y
p

) ( )
⎜ dg (x ,w ) ⎟
⎝ ⎠g ( x, w)=f ( x)

(
= 2∫ yP − f ( x ) pp
Y
) ( y x ) dy p p

= 2∫ y pYp P
( y x) dy − 2 f( x) ∫ p (y x)dy .
p p
Yp
p p

La première intégrale n’est autre que l’espérance mathématique


Ypde
étant donné x ; la seconde est égale à 1 par définition de la densité
de probabilité. On obtient ainsiEY:p X = f(x ) .
La distribution de probabilité des observations étant inconnue, la fonction de régression est inconnue.
Pour connaître sa valeur en x, il faudrait réaliser une infinité de mesures de la grandeur yp pour une valeur
donnée des variables x et faire la moyenne des résultats de ces mesures, ce qui n’est évidemment pas
réaliste.

Classification : règle de Bayes et classifieur de Bayes


Considérons à présent un problème de classification à deux classes A et B. Affectons l’étiquette yp = +1 à
tous les exemples de la classe A et l’étiquette yp = −1 à tous les exemples de la classe B. Comme nous
l’avons fait plus haut, nous cherchons une fonction g(x, w) qui permettra d’affecter à la classe A tous les
éléments pour lesquels sgn[g(x, w)] = +1, et à la classe B tous les éléments pour lesquels sgn[g(x, w)] = −1.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 38/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
19
CHAPITRE 1

Cette fonction doit être telle que l’erreur de prédiction théorique soit minimale (on trouvera dans le
chapitre 6 un traitement beaucoup plus détaillé de ce problème).
■ Règle de décision de Bayes
Pour la prédiction, considérée dans la section précédente, on a mis en œuvre, pour définir l’erreur théo-
rique, la fonction de perte des moindres carrés. Pour la classification, on ne cherche pas à approcher les
valeurs des résultats de mesures, mais à classer correctement des objets. On utilise donc une autre fonc-
tion de perte, mieux adaptée à ce problème :

π ⎡⎣ y p,sgn( g (x, w )) ⎤⎦ = 0 si y p = sgn( g ( x, w ))


π ⎡⎣ y p, sgn( (x, w )) ⎤⎦ = 1 si p ≠ sgn ( ( x, w))
gs y g
Ainsi, la fonction de perte vaut 1 si le classifieur commet une erreur de classement pour l’objet décrit par
x, et 0 sinon. Contrairement au cas de la prédiction, cette fonction est à valeurs discrètes. L’espérance
mathématique de la variable aléatoire discrète Π n’est autre que la probabilité pour que le classifieur
considéré commette une erreur de classification pour un objet décrit par x ; en effet :

E Π ( x) = 1 × PrΠ (1 x ) + 0 × PrΠ (0 x )
= PrΠ (1 x ) .

Cette quantité est inconnue : pour l’estimer, il faudrait disposer d’une infinité d’objets décrits parx, dont
les classes sont connues, et compter la fraction de ces objets qui est mal classée par le classifieur consi-
déré.
La variable aléatoire Π est fonction de Yp. Son espérance mathématique peut donc s’écrire :

( ) ( )
E Π ( x) = π + ,sgn( g ( x, w)) PrY p ( + x) + π − ,sgn( g ( x, )) PrY p (−1 ) .
1w x 1 1
La probabilité d’appartenance d’un objet à une classe C connaissant le vecteur de variables x qui décrit
cet objet, notée PrY p ( C x) , est appelée probabilité a posteriori de la classe C pour l’objet décrit par x.
On remarque que E Π ( x ) ne peut prendre que deux valeurs :

EΠ (x ) = PrY p ( +1 x ) si sgn( g(x ,w )) = −1,


EΠ (x ) = PrY p ( −1 ) ( g ( )) 1.
x si sgn x , w =+
Supposons que la probabilité a posteriori de la classe A au point x soit supérieure à celle de la classe B :

PrY p (+1 x ) > PrY p ( −1 x ) .

Rappelons que l’on cherche la fonction g( x ,w) pour laquelle la probabilité d’erreur de classification au
point x, c’est-à-dire EΠ ( x) , soit minimum. La fonction g ( x ,w ) pour laquelle E Π (x ) est minimum est
donc telle quesgn (g (x, w )) = +1 , puisque, dans ce cas, E Π (x ) = PrY p ( −1 x ) , qui est la plus petite des deux
valeurs possibles.
À l’inverse, si PrY p (− x) > PrYp ( + x ), la fonction g( ) qui garantit le plus petit taux d’erreur enx est
telle que sgn( g( x, w) )1=x −1
,w . 1

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 39/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
20

En résumé, le meilleur classifieur possible est celui qui, pour tout x, affecte l’objet décrit par x à la classe
dont la probabilité a posteriori est la plus grande en ce point.

Cette règle de décision (dite règle de Bayes) garantit que le nombre d’erreurs de classification est
minimal ; pour pouvoir la mettre en œuvre, il faut calculer (ou estimer)les probabilités a posteriori des
classes.

■ Classifieur de Bayes

Le classifieur de Bayes utilise, pour le calcul des probabilités a posteriori, la formule de Bayes : étant
donné un problème à c classes Ci (i = 1 à c), la probabilité a posteriori de la classe Ci est donnée par la
relation

pX ( x Ci ) PrC i
Pr (C i x ) = c

∑p
j =1
X ( x C )Pr
j Cj

( )
où p X x C j est la densité de probabilité du vecteur x des variables observées pour les objets de la classe
C j (ou vraisemblance du vecteur x dans la classe C j), et PrC j est la probabilité a priori de la classe C j,
c’est-à-dire la probabilité pour qu’un objet tiré au hasard appartienne à la classeC j .

Si toutes les classes ont la même probabilité a priori 1/c, la règle de Bayes revient à classer l’objet inconnu
x dans la classe pour laquelle x a la plus grande vraisemblance : c’est une application de la méthode du
maximum de vraisemblance.

Ainsi, si l’on connaît analytiquement les vraisemblances, et si l’on connaît les probabilités a priori des
classes, on peut calculer exactement les probabilités a posteriori.

Exemple : cas de deux classes gaussiennes de mêmes variances

Reprenons le cas considéré plus haut, dans la section intitulée « un exemple de classification » : deux
classes A et B dans un espace à deux dimensions, telles que les vraisemblances des variables sont gaus-
siennes, de même variance σ , de centres xA (x1A, x2A) et xB (x1B, x 2B ) :

1 ⎡ ( x − x )2 ⎤ ⎡ ( x − x )2 ⎤
p X ( x A) = exp ⎢− 1 21A ⎥ exp ⎢ − 2 22A ⎥
σ 2π ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦

1 ⎡ ( x − x B )2 ⎤ ⎡ ( x − x B )2 ⎤
p X ( x B) = exp ⎢− 1 21 ⎥ exp ⎢ − 2 22 ⎥ .
σ 2π ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦

Supposons que les probabilités a priori des classes soient les mêmes, égales à 0,5.
Dans l’exemple considéré plus haut, chaque classe était représentée par le même nombre d’exemples. Si la probabilité a priori des classes
est estimée par la fréquence des exemples, c’est-à-dire le rapport du nombre d’exemples d’une classe au nombre total d’exemples, on est
dans le cas où les deux probabilités a priori sont égales à 0,5.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 40/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
21
CHAPITRE 1

Alors la formule de Bayes permet de calculer les probabilités a posteriori :

1 ⎡ ( x − x A )2 ⎤ ⎡ (x − x )2 ⎤
0, 5 exp ⎢ − 1 21 ⎥exp ⎢ − 2 22A ⎥
σ 2π ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦
Pr ( A x ) =
1 ⎡ ( x − x A )2 ⎤ ⎡ ( x − x )2 ⎤ 1 ⎡ ( x1 − x1B )2 ⎤⎥ exp ⎡⎢− ( x2 − x2B ) 2 ⎤⎥
0, 5 exp ⎢ − 1 21 ⎥ exp ⎢ − 2 22 A ⎥ + 0, 5 ex p⎢ −
σ 2π ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦ σ 2π ⎢⎣ 2σ 2 ⎥⎦ ⎢⎣ 2σ 2 ⎥⎦

1 ⎡ ( x − x B )2 ⎤ ⎡ ( x − x B) 2 ⎤
0, 5 exp ⎢ − 1 21 ⎥ exp ⎢− 2 22 ⎥
σ 2π ⎣⎢ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦
Pr ( B x ) = .
1 ⎡ (x1 − x1A ) ⎥ exp ⎢− (x 2 − x 2 A ) ⎥ + , 1 exp ⎢− ( x1 − x1B ) 2 ⎤⎥ exp ⎡⎢ − (x 2 − x 2B )2 ⎤⎥
2
⎤ ⎡ 2
⎤ ⎡
0, 5 exp ⎢− 2 2
05 2 2
σ 2π ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦ σ 2π ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ ⎥⎦

La règle de classification de Bayes affecte l’objet décrit parx à la classe dont la probabilité a posteriori est
la plus grande (ou, puisque les probabilités a priori sont égales, à la classe pour laquelle la vraisemblance
de x est la plus grande).
La frontière entre les classes est donc le lieu des points, dans l’espace des vecteurs x, où les vraisem-
blances sont égales : c’est le lieu des points tels que

⎡ ( x − x )2 ⎤ ⎡ ( x − x )2 ⎤ ⎡ (x − x )2 ⎤ ⎡ (x − x2 B )2 ⎤
exp ⎢ − 1 21 A ⎥ exp ⎢ − 2 22 A ⎥ = exp ⎢ − 1 21 B ⎥ exp ⎢ − 2 ⎥.
⎢⎣ 2 σ ⎥⎦ ⎢⎣ 2 σ ⎥⎦ ⎢⎣ 2σ ⎥⎦ ⎢⎣ 2σ 2 ⎥⎦
soit encore

( x1 − x1A ) 2 + (x2 − x 2A )2 = ( x1 − x1B )2 + (x 2 − x 2B )2.


La frontière optimale entre les classes est donc le lieu des points équidistants des centres des
distributions : c’est la médiatrice du segment de droite qui joint ces centres.
Dans l’exemple considéré plus haut, les centres des gaussiennes étaient symétriques par rapport à la
diagonale du carré représenté sur la figure 1-6 et la figure 1-8, donc la meilleure frontière possible entre
les classes était la diagonale de ce carré. Le résultat le plus proche du résultat théorique était le séparateur
linéaire de la figure 1-8 ; en effet, on avait postulé un modèle linéaire, et celui-ci était « vrai » au sens
statistique du terme, c’est-à-dire que la solution optimale du problème appartenait à la af mille des fonc-
tions dans laquelle nous cherchions une solution par apprentissage. On était donc dans les meilleures
conditions possibles pour trouver une bonne solution par apprentissage.
Connaissant la surface de séparation fournie par le classifieur de Bayes, et sachant que les classes ont le
même nombre d’éléments, il est facile de trouver le taux d’erreur de ce classifieur : c’est la probabilité de
trouver un élément de la classe A (classe des +) dans le demi-plan supérieur gauche (ou, par symétrie, la
probabilité de trouver un élément deB (classe des o) dans le demi-plan complémentaire) :
+∞
1 ⌠ ⎡ ( x − x )2 ⎤ ⌠ ⎡ (x − x2 A )2 ⎤ dx dx
⎮ exp ⎢ − 1 21A ⎥ ⎮ exp ⎢ − 2 ⎥ 1 ,
2
σ 2π ⎮ ⎢ 2σ ⎥ ⎮ ⎢⎣ 2σ 2 ⎥⎦
⌡ −∞ ⎣ ⎦ ⌡ x2 > x1

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 41/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
22

avec σ = 1 dans l’exemple considéré.


Cette expression se calcule très simplement en effectuant une rotation des axes de 45˚ dans le sens trigonométrique, suivie d’une transla-
tion, de manière que la frontière entre les classes devienne verticale et que le centre de la classe A soit à l’origine (figure 1-10). Le taux
d’erreur est alors la probabilité cumulée d’une variable normale entre – –∞ 2et⁄ 2 . On trouve facilement cette dernière valeur à l’aide
d’un logiciel de statistiques, ou sur le Web (par exemple http://www.danielsoper.com/statcalc/calc02_do.aspx) : elle vaut environ 24 %,
comme indiqué plus haut.

Frontière de Bayes Centre de


entre classes la distribution
de probabilité
des exemples Centre de
Centre de
la distribution
+ 0,5 de la classe B la distribution
de probabilité
de probabilité des exemples
des exemples + +0 de la classe A
Figure 1-10.
de la classe B -0,5 0,5 − 2 Rotation
-0,5 + Centre de
la distribution
− 2
2
et translation
des axes
de probabilité
des exemples Frontière de Bayes
de la classe A entre classes

Dilemme biais-variance
Les deux exemples académiques considérés en début de chapitre ont permis de mettre en évidence le
dilemme biais-variance. Muni des éléments théoriques de la section précédente, on peut à présent forma-
liser ce problème.
Considérons le cas de la prédiction par un modèle dont les paramètres sont déterminés par apprentissage ;
comme indiqué plus haut, la fonction de perte la plus fréquemment utilisée dans ce cas est le carré de
l’erreur de modélisation :
2
π ⎡⎣ y p , g ( x, w) ⎤⎦ = ⎡⎣ y p − g ( x, w)⎤⎦

et l’erreur de prédiction théorique est


2
P 2 = EX ⎡ E Y p X ⎡ ⎣⎡ y p − g (x ,w )⎤⎦ ⎤⎤ .
⎢⎣ ⎣ ⎦⎥⎦
Cherchons l’erreur de prédiction en un point x de l’espace des variables
2
P 2 ( x ) = EY p X ⎡ ⎡⎣ y p − g (x , w )⎤⎦ ⎤ ,
⎣ ⎦
en supposant que les observations yp effectuées en ce point x sont des réalisations de la variable aléatoire
Y p = f (x ) + ε
où ε est une variable aléatoire d’espérance mathématique nulle et de variance σ2 , et où f(x) est une fonc-
tion certaine ; l’espérance mathématique de Yp est donc f(x), la fonction de régression de yp, dont on a vu
plus haut que c’est le meilleur modèle possible au sens de la fonction de perte choisie.
Supposons enfin que le modèle soit obtenu par apprentissage : les paramètres w du modèle doivent donc
être considérés comme des réalisations d’un vecteur aléatoire W qui dépend des réalisations de Y p

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 42/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
23
CHAPITRE 1

présentes dans l’ensemble d’apprentissage ; de même, les prédictions g(x, w) peuvent être considérées
comme des réalisations d’une variable aléatoire G(x, W) qui dépendent de Yp. Pour rendre les équations
plus lisibles, on remplace ici la notation varX par var (X) et EX par E(X).
L’erreur de prédiction théorique au pointx est alors donnée par :
2
P 2 ( x ) = σ 2 + var⎡⎣ G ( x ,W ) ⎤⎦ + ⎡⎣ E ⎡⎣ f (x ) − G ( x ,W ) ⎤⎦ ⎤⎦ ,

où le phénomène aléatoire est la constitution de l’ensemble d’apprentissage.

Démonstration
Rappelons que, pour une variable aléatoire Z, on a la relation

EZ2 = varZ + [ EZ ] .
2

Le modèle étant construit par apprentissage, ses paramètres, donc les prédictions du modèle, sont eux-mêmes des réalisations
ria- de va
bles aléatoires W et G(x, W) par l’intermédiairep de
. On
Y peut donc écrire :
2
P (x ) == E ⎡⎢ ⎡⎣ Y − G( x, W) ⎤⎦ ⎤⎥ = var ⎡⎣ Y − G
( x, w)⎤⎦ + ⎡⎣ E ⎡⎣ Yp − G(x ,W)⎤⎦ ⎤⎦
2 p 2 p
⎣ ⎦
2
= var ⎡⎣Y p − f( x ) + f( x) − G( x ,W
W) ⎤⎦ + ⎡⎣ E ⎡⎣ Y − f( x) + f( x) − G( x, W)⎤⎦ ⎤⎦
p

2
= var ⎡⎣ε +f ( x) − G( x W
, ) ⎤⎦ + ⎡⎣ E ⎡⎣ ε + f( )x− G( x ,W
)⎤⎦⎤⎦ .
La fonction
f(x) étant certaine (elle ne dépend pas de W, donc de l’ensemble d’apprentissage), sa variance est nulle. D’autre part, l’espé-
rance mathématique de ε est nulle : on a donc finalement :
2
P (x ) = σ + var ⎡⎣ G (x ,W)⎤⎦ + ⎡⎣ E⎡⎣ f( x) − G( x, W)⎤⎦ ⎤⎦ .
2 2

Le premier terme de la somme est la variance du bruit de mesure. Le deuxième est la variance de la prédic-
tion du modèle au point x, qui représente la sensibilité du modèle à l’ensemble d’apprentissage. Le troi-
sième est le biais du modèle, c’est-à-dire le carré de l’espérance mathématique de l’écart entre les prédic-
tions fournies par le modèle et celles qui sont fournies par le meilleur modèle possible (la fonction de
régression f(x)).
Cette relation très importante appelle plusieurs commentaires :
• La qualité d’un modèle ne peut être évaluée que par comparaison entre son erreur de prédiction et la
variance du bruit sur les mesures. Un modèle qui fournit des prédictions en désaccord de 10 % avec les
mesures est un excellent modèle si les mesures ont elles-mêmes une précision de 10 % ; mais si la préci-
sion sur les mesures est de 1 %, le modèle est très mauvais : il faut chercher à l’améliorer. Si la précision
sur les mesures est de 20 %, la performance de 10% annoncée pour le modèle est très suspecte : son esti-
mation doit être remise en cause. Les trois termes de la somme étant positifs, l’erreur de prédiction théo-
rique ne peut être inférieure à la variance des observations en x, c’est-à-dire à la variance du bruit qui
affecte les mesures ; en d’autres termes, on ne peut pas espérer qu’un modèle, conçu par apprentissage,
fournisse des prédictions plus précises que les mesures à partir desquelles il a été construit. C’est ce qui
a été observé sur la figure 1-4, où le minimum de la racine carrée de l’erreur de prédiction théorique,
estimée par l’EQMT, était de l’ordre de l’écart-type du bruit.
• On retrouve par cette relation le fait que le meilleur modèle est la fonction de régression : en effet, si
g(x, w) = f(x), la variance est nulle puisque le modèle ne dépend pas de w, et le biais est nul ; l’erreur de
prédiction est donc la plus petite possible, égale à la variance du bruit.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 43/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
24

• Si le modèle ne dépend pas de paramètres ajustables, la variance est nulle, mais le biais peut être très
grand puisque le modèle ne dépend pas des données. Par exemple, si g(x, w) = 0, la variance est nulle et
2
le biais vaut ⎡⎣ f ( x )⎤⎦ .
Dans les exemples académiques de prédiction et de classification que nous avons présentés, nous avons
observé que le biais et la variance varient en sens inverse en fonction de la complexité du modèle : un
modèle trop complexe par rapport aux données dont on dispose possède une variance élevée et un biais
faible, alors qu’un modèle de complexité insuffisante a une variance faible mais un biais élevé. Comme
l’erreur de généralisation fait intervenir la somme de ces deux termes, elle passe par un optimum qui est
au moins égal à la variance du bruit. C’est exactement ce que nous avons observé sur la figure 1-4 :
l’erreur quadratique moyenne sur l’ensemble de test, qui est une estimation de l’erreur de généralisation,
passe par un minimum pour un polynôme de degré 6, qui présente donc la complexité optimale compte
tenu des données d’apprentissage dont on dispose.
La relation qui vient d’être établie fournit l’erreur de prédiction théorique en un point x. L’erreur de
prédiction théorique est

P 2 = EX ⎡⎣ P 2 (x )⎤⎦ = ∫ P 2 (x ) pX dx
2
= σ 2 + E X ⎡⎣ var ⎡⎣G ( x , W) ⎦⎤ ⎤⎦ + EX ⎡⎣E ⎡⎣ f ( x) − G (x ,W ) ⎤⎦⎤⎦ .

Remarque
L’espérance mathématiqueXEn’a pas le même sens que l’espérance mathématique E : la première porte sur toutes les conditions expéri-
mentales possibles, tandis que la seconde porte sur toutes les réalisations possibles de l’ensemble d’apprentissage.

Pour vérifier numériquement cette relation, reprenons l’exemple de la modélisation par apprentissage à
partir de données qui ont été créées artificiellement en ajoutant à la fonction 10 sin(x)/x un bruit pseudo-
aléatoire de variance égale à 1, en N A = 15 points x k. Pour estimer le biais et la variance en un point x, 100
ensembles d’apprentissage différents ont été créés, en tirant au hasard, dans une distribution normale
centrée, 100 valeurs de yp pour chaque valeur de xk ; on a fait l’apprentissage de 100 modèles différents
g(x, wi ), i = 1 à 100, c’est-à-dire que 100 vecteurs de paramètres ont été estimés par la méthode des moin-
dres carrés (qui sera décrite plus loin). Un ensemble de test de 1 000 points a été créé, et, en chaque point
de cet ensemble, le biais et la variance du modèle de paramètres wi ont été estimés :
2
1 100 ⎛⎛ sinx test ⎞
• estimation du biais du modèle g(x, wi ) au point xtest
k :
100 i =1 ⎜
(
∑ ⎝10 x testk − g x test )
k , wi ⎟

k

• estimation de la variance du modèle g(x, wi) au point x test


k
:
2
1 100 ⎛ test 1 100 ⎞⎞
( )
∑⎝g x k , wi − 100 ∑ g x test
99 i=1 ⎜
k ,w j ⎟

. ( )
j= 1

( )
L’erreur de prédiction P 2 x test est estimée par :
k

100
1
∑( y ( )) .
2
test test
k − g x ,wi
k
100 i =1

Finalement, les espérances mathématiques de ces trois quantités sont estimées par la moyenne de chacune
d’elles sur les 1 000 points de test.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 44/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
25
CHAPITRE 1

9 La figure 1-11 montre, en fonction de la complexité


8
du modèle, les estimations du biais du modèle, de
la variance du modèle, ainsi que la valeur de la
7
variance du bruit. La somme de ces trois quantités
6 (représentée par des cercles) est en excellent
accord avec l’estimation de l’erreur de prédiction
5
(courbe en trait plein). On observe clairement que
4 le biais et la variance varient en sens opposés, et
que la somme passe par un minimum pour les poly-
3
nômes de degré 6.
2
Les résultats ci-dessus ont été établis pour la
1 prédiction. Pour la classification, ils prennent une
forme analogue, comme illustré numériquement
0
0 2 4 6 8 10 12 sur la figure 1-7. De manière générale, on peut
Complexité du modèle (degré du polynôme) résumer la problématique du dilemme biais-
Figure 1-11. Dilemme biais-variance pour la régression
variance comme représenté sur la figure 1-12 : le
x : estimation de l’espérance mathématique de la meilleur modèle, au sens statistique du terme,
variance ; constitue un compromis entre l’ignorance
+ : estimation de l’espérance mathématique du biais (modèles incapables d’apprendre) et la stupidité
o : variance du bruit + variance de la prédiction + biais (modèles surajustés, qui apprennent très bien et
de la prédiction ; sont incapables de généraliser).
trait plein : estimation de l’espérance mathématique
de l’erreur de prédiction;
tirets : variance du bruit Meilleur modèle
compte tenu des données disponibles
Erreur de prédiction

sur un ensemble
de données indépendant
de l’ensemble d’apprentissage

sur l’ensemble
d’apprentissage

Complexité du modèle

Figure 1-12. Représentation symbolique Modèles ignorants Modèles stupides


du dilemme biais-variance (surajustés)

De la théorie à la pratique
Les résultats qui ont été présentés dans la section précédente sont des résultats asymptotiques, c’est-à-dire
qu’ils sont exacts si l’on dispose d’une quantité infinie de données. Ils sont très utiles, car ils expliquent
les grandes lignes des phénomènes que l’on observe, et mettent en évidence les problèmes qu’il faut
résoudre. Néanmoins, dans une situation réelle de mise en œuvre des méthodes d’apprentissage artificiel,
on dispose toujours d’une quantité finie de données, insuffisante pour estimer de manière très précise les

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 45/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
26

intégrales nécessaires au calcul des espérances mathématiques ou des variances ; de plus, les distributions
de probabilités auxquelles obéissent les données sont également inconnues. Dans cette section, on
présente des résultats théoriques sur lesquels il est possible de s’appuyer pour trouver des méthodes prati-
ques de conception de modèles par apprentissage. Le lecteur qui ne cherche pas à approfondir la théorie
de l’apprentissage peut sans dommage omettre de lire cette section et passer directement à la section inti-
tulée « La conception de modèles en pratique ».

Remplacer des intégrales par des sommes


Rappelons que l’objectif de la modélisation par apprentissage est de trouver des fonctions paramétrées qui
sont susceptibles de rendre compte des données disponibles, et de fournir des prédictions aussi précises
que possible concernant des données dont on ne dispose pas lors de l’apprentissage. L’objectif théorique
est donc de trouver le vecteur de paramètres w pour lequel l’erreur de prédiction théorique

P 2 = EΠ = ∫ ∫ π ( y , g ( x, w ) ) p
p
Y p, X
dy pd x

est minimale. L’intégrale n’étant pas calculable, il convient donc de l’estimer à l’aide des données dispo-
nibles. On estime donc l’erreur de prédiction théorique par l’erreur de prédictionempirique (également
appelée risque empirique)

1 N
P *2 = (
∑π ykp , g ( xk, w)
N k =1
)
( )
où π y ,g ( xk , w) est la fonction de perte choisie.
k
p

L’apport fondamental de la théorie de l’apprentissage, par rapport aux statistiques classiques, réside dans
l’étude de la manière dont l’erreur empirique converge (ou ne converge pas) vers l’erreur théorique. Ainsi,
en statistique, on montre que la moyenne est un estimateur non biaisé de l’espérance mathématique ; la
théorie de l’apprentissage, pour sa part, s’intéresse à la façon dont la moyenne converge vers l’espérance
mathématique lorsque le nombre d’exemples augmente. Ainsi on peut évaluer le nombre d’exemples
nécessaires pour estimer l’espérance mathématique avec une précision donnée, ou bien évaluer l’erreur
que l’on commet en estimant l’espérance mathématique par la moyenne, pour un nombre d’exemples
donné.
Comme indiqué plus haut, la fonction de perte la plus utilisée dans le cas de la prédiction est le carré de
l’erreur, et l’erreur de prédiction empirique est donnée par

1 N p
P *2 = (
∑ yk − g (x k,w )
N k =1
2
)
où la somme porte sur un ensemble de données convenablement choisies parmi les données disponibles.
La première tâche consiste à estimer les paramètres w, c’est-à-dire à effectuer l’apprentissage proprement
dit. Pour cela, on choisit, parmi les données disponibles, un ensemble d’apprentissage, de cardinal NA , et
l’on cherche, à l’aide d’algorithmes appropriés, le vecteur w pour lequel la fonction de coût
NA

(
J = ∑ π ykp − g ( x k ,w) )
k=1

est minimale. Rappelons que, dans le cas où π est le carré de l’erreur, la fonction

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 46/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
27
CHAPITRE 1

NA

( )
J = ∑ ykp − g (x k ,w )
2

k =1

est appelée fonction de coût des moindres carrés.

Supposons donc que l’on ait trouvé le minimum de la fonction de coût choisie ; la valeur de ce minimum
est-elle représentative de la qualité des prédictions que fournira le modèle, muni des paramètres ainsi
déterminés, pour des valeurs de x qui ne font pas partie de l’ensemble d’apprentissage ? Les exemples
précédents montrent que la réponse est généralement négative. Ainsi, la figure 1-4 montre que l’erreur
quadratique moyenne sur l’ensemble d’apprentissage (EQMA), qui vaut J , est très inférieure à l’erreur
quadratique moyenne sur l’ensemble de test pour des modèles trop complexes (de degré supérieur ou égal
à 7). De même, la figure 1-9 montre que l’erreur sur l’ensemble d’apprentissage est très optimiste, c’est-
à-dire très inférieure à l’erreur sur l’ensemble de test, lorsque le nombre d’exemples est petit. D’autre part,
l’erreur sur l’ensemble de test elle-même n’est qu’une estimation, à l’aide d’un nombre fini d’exemples,
de l’erreur de prédiction théorique. On peut donc en tirer deux enseignements :
• d’une part, il ne faut généralement pas estimer la performance d’un modèle à partir des résultats de
l’apprentissage ;
• d’autre part, il faut estimer le mieux possible l’erreur de prédiction.

Les deux sections suivantes décrivent, d’une part, des éléments théoriques qui permettent de borner
l’erreur que l’on commet en estimant les capacités de généralisation à partir des estimations obtenues à
l’aide de données en nombre fini, et, d’autre part, des éléments méthodologiques qui permettent de définir
les « bonnes pratiques » pour la conception de modèles par apprentissage.

Bornes sur l’erreur de généralisation


Les résultats théoriques présentés dans la section « Dilemme biais-variance » sont des résultats asympto-
tiques,qui sont exacts dans la limite où les exemples sont en nombre infini. Dans le cas, plus réaliste, où
les exemples sont en nombre fini, on ne peut plus établir de résultats exacts ; en revanche, on peut obtenir
des résultats en probabilité. Le cadre théorique le plus fréquemment utilisé est celui de la théorie de
l’apprentissage établie par V. Vapnik [VAPNIK 1998].

Le résultat le plus remarquable de cette théorie consiste en une expression quantitative de la notion de
complexité du modèle : étant donnée une famille de fonction g(x, w), la complexité de cette famille peut
être caractérisée par une grandeur, appelée dimension de Vapnik-Chervonenkis. Le fait qu’il suffise d’une
seule grandeur pour définir la complexité d’une famille de fonctions quelconque est très remarquable ; il
faut néanmoins admettre que le calcul de la dimension de Vapnik-Chervonenkis pour une famille de fonc-
tions n’est pas toujours simple.

Pour la famille des polynômes de degré d, la dimension de Vapnik-Chervonenkis est égale au nombre de
paramètres du modèle, soit d+1.

En classification, la dimension de Vapnik-Chervonenkis admet une interprétation géométrique simple :


c’est le nombre maximal de points qui peuvent être séparés sans erreur par une fonction indicatrice appar-
tenant à la famille considérée. On trouvera dans le chapitre 6 une justification originale et bien développée
de la dimension deVapnik-Chervonenkis, dans le cadre de la classification.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 47/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
28

Exemple
Considérons la famille des fonctions affines à deux varia-
bles x1 et x2 . Il est facile de prouver que la dimension de
Vapnik-Chervonenkis de cette famille de fonctions est
égale à 3 : la figure 1-13 montre que les points appartenant
à toutes les configurations possibles de 3 points apparte-
nant à deux classes, en dimension 2, peuvent être séparés
par une fonction affine. En revanche, la figure 1-14 montre
une configuration de 4 points qui ne sont pas séparables
par une fonction de cette famille. Cette configuration admet
Figure 1-13. Toute configuration de 3 points dans le plan,
néanmoins un séparateur quadratique (une hyperbole), ce appartenant à deux classes, admet un séparateur affine.
qui prouve que la dimension de Vapnik-Chervonenkis des
fonctions affines de deux variables est égale à 3, et que
celle des fonctions quadratiques de deux variables est
supérieure à 3 ; comme indiqué plus haut, elle est égale au
nombre de paramètres, soit 6 pour les polynômes du
second degré à deux variables.

La dimension de Vapnik-Chervonenkis est Figure 1-14. Une configuration de 4 points qui n’admet
généralement une fonction croissante du pas de séparateur affine, mais qui admet un séparateur
quadratique.
nombre de paramètres. Mais ce n’est pas
toujours le cas. Ainsi, la fonction sgn sin wx ( )
a un seul paramètre, mais peut séparer un nombre quelconque de points : il suffit de choisir une longueur
d’onde 2π/w suffisamment petite. Sa dimension de Vapnik-Chervonenkis est infinie (figure 1-15).

Figure 1-15. La dimension


sin(wx)

de Vapnik-Chervonenkis
x o x oo x o xx o x xo x o xx o de la fonction sin(wx) est infinie.

x
Cette définition de la complexité permet d’établir des bornes sur l’erreur commise en remplaçant l’erreur
de prédiction théorique P2 par une erreur empirique P*2 estimée sur l’ensemble d’apprentissage. Ainsi,
supposons que l’on effectue l’apprentissage d’un classifieur en cherchant la fonction indicatrice
1 + sgn ⎡⎣g (x ,w )⎤⎦
γ (x ,w ) = (de valeur 0 ou 1, comme indiqué plus haut) qui minimise une erreur empi-
2
rique P*2 (w) sur un ensemble d’apprentissage de cardinal NA. Soit h la dimension de Vapnik-

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 48/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
29
CHAPITRE 1

Chervonenkis de g(x, w). On a le résultat suivant : si NA > h, alors, avec une probabilité au moins égale à
1 − η , pour toute fonction de cette famille, la différence entre l’erreur de généralisation (inconnue) P2(w)
commise par cette fonction et l’erreur empirique P*2(w) calculée sur les données d’apprentissage est
bornée supérieurement par la quantité

E ( N A, h , η ) ⎛ 4 P * 2 (w) ⎞
B ( N A , h,η ) = ⎜1 + 1 + ,
2 ⎝ E (N A , h, η ) ⎠

⎡ ⎛ N ⎞ ⎤ ⎛η ⎞
h ⎢ln ⎜2 A ⎟ +1 ⎥ − ln⎜ ⎟
⎝ h⎠ ⎦ ⎝4 ⎠
où E ( N A , h, η ) = 4 ⎣ .
NA
( )
De plus, pour la fonction g x , w * pour laquelle l’erreur empirique est minimale (c’est-à-dire pour le
modèle de la famille considérée qui est trouvé par apprentissage), avec une probabilité au moins égale à
1-2η , la différence entre l’erreur de généralisation P2(w*) commise par cette fonction et la plus petite
erreur de généralisation qui puisse être commise par un modèle de cette famille est bornée supérieurement par :

- ln η E (N A ,h , η ) ⎛⎛ 4 ⎞
B * ( NA , h, η ) = + ⎜1 + 1 + E N h η ⎟.
2N A 2 ⎝ ( A , , )⎠
La figure 1- 16 montre
l’évolution de B*(N A , h,
η ) en fonction du nombre
d’exemples et de la
40 dimension de Vapnik-
Chervonenkis ( η = 10-2 ).
35
On observe que cette
30 borne croît lorsque le
25 nombre d’exemples
)
B * NA , h,η

diminue, ce qui confirme


20
le fait, mis en évidence
(

15 dans les exemples


10 présentés plus haut, que
la qualité du modèle est
5 d’autant meilleure que le
10
0 8 is nombre d’exemples est
0 k grand devant la
6 nen
10 rvo
4 -Ce complexité du modèle.
Nombr 20 apnik
e d’exem 30 2 eV
ples nd
40 0 ens
io
Dim
Figure 1-16. Exemple
de borne théorique

Dans la pratique, la mise en œuvre de ces bornes est peu utile, car elles sont généralement très
pessimistes ; elles peuvent éventuellement être utilisées pour comparer des modèles entre eux. Néan-
moins, l’approche possède le très grand mérite de mettre en évidence des comportements universels de
familles de fonctions, indépendamment de la distribution des exemples, pour des nombres d’exemples

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 49/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
30

finis, et de fournir des guides pour la conception de modèles utiles dans des applications difficiles. Ainsi,
les machines à vecteurs supports, décrites dans le chapitre 6, permettent un contrôle sur la dimension de
Vapnik-Chervonenkis.

Minimisation du risque structurel


Les considérations développées dans les sections précédentes conduisent naturellement à un élément
important de la méthodologie de conception de modèle, dite méthode de minimisation du risque struc-
turel. Elle consiste à :
• postuler des modèles de complexité croissante, par exemple des polynômes de degré croissant ;
• trouver le ou les modèles pour lesquels l’erreur de prédiction empirique est minimale pour chaque
complexité, éventuellement en pénalisant la variance par des méthodes de régularisation qui seront
décrites dans le chapitre 2 ;
• choisir le meilleur modèle.
Les méthodes de conception de modèle qui seront décrites dans cet ouvrage entrent dans ce cadre.

Conception de modèles en pratique


Les exemples qui ont été exposés, et les considérations théoriques qui ont été décrites, illustrent les
grandes lignes de la méthodologie de conception de modèles qu’il convient de suivre de manière rigou-
reuse pour obtenir, par apprentissage, des modèles précis et fiables, donc utiles. Dans cette section, nous
récapitulons les étapes de conception d’un tel modèle.

Collecte et prétraitement des données


La première étape est évidemment la collecte des données. Deux situations peuvent se présenter :
• le modèle doit être conçu à partir d’une base de données préexistante, que l’on ne peut pas enrichir ;
• le concepteur du modèle peut spécifier les expériences qui doivent être effectuées pour améliorer le
modèle.
Une fois les données disponibles, il convient de les traiter de manière à rendre la modélisation aussi effi-
cace que possible.

Les données sont préexistantes


Là encore, il faut distinguer deux cas :
• les données sont peu nombreuses ; il faut alors s’efforcer de tirer le meilleur parti de ces données, en
construisant des modèles aussi parcimonieux que possible en nombre de paramètres ;
• les données sont très nombreuses : on peut alors mettre en œuvre des méthodes dites de planification
expérimentale ou d’apprentissage actif, afin de ne retenir que les exemples qui apportent une réelle
information au modèle. La description détaillée de ces méthodes sort du cadre de cet ouvrage, mais des
éléments en seront décrits dans les chapitres qui suivent.

Les données peuvent être spécifiées par le concepteur


Dans un tel cas, il est très souhaitable de mettre en œuvre des méthodes de planification expérimentale,
surtout si les expériences sont longues ou coûteuses. Les plans d’expérience permettent en effet de limiter

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 50/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
31
CHAPITRE 1

le nombre d’expériences, en n’effectuant que celles qui sont réellement utiles pour la conception du
modèle.

Prétraitement des données


Une fois les données disponibles, il faut effectuer un prétraitement qui permette de rendre la modélisation
aussi efficace que possible. Ces prétraitements dépendent de la tâche à effectuer et des particularités des
données que l’on manipule. Dans tous les cas, le prétraitement minimal consiste à normaliser et à centrer
les données, de manière à éviter, par exemple, que certaines variables aient de très grandes valeurs numé-
riques par rapport à d’autres, ce qui rendrait les algorithmes d’apprentissage inefficaces. Le prétraitement
le plus simple consiste donc à effectuer le changement de variables suivant, pour les variables x comme
pour la grandeur à modéliser yp :

u− u
u' = ,
su
où u désigne la moyenne de la grandeur u considérée

1 N
u = ∑u ,
N k =1 k

et su est l’estimateur de l’écart-type de u :

1 N
∑( u − u ) 2
su = .
N − 1 k= 1

Ainsi, toutes les grandeurs sont de moyenne nulle et d’écart-type unité.


Dans toute la suite, on supposera toujours que les grandeurs considérées ont été préalablement normali-
sées et centrées.

Sélection des variables


Lorsqu’on modélise un processus physique ou chimique bien connu, on détermine généralement, par une
analyse préalable du problème, les variables qui ont une influence sur le phénomène étudié ; dans ce cas,
une étape de sélection des variables n’est pas toujours nécessaire. En revanche, ce n’est pas le cas
lorsqu’on cherche à modéliser un processus économique, social ou financier, ou encore un processus
physico-chimique complexe ou mal connu : les experts du domaine peuvent donner des indications sur les
facteurs qu’ils estiment pertinents, mais il s’agit souvent de jugements subjectifs qu’il faut mettre à
l’épreuve des faits. On est alors conduit à retenir un grand nombre de variables candidates (appelées
également facteurs ou descripteurs), potentiellement pertinentes. Néanmoins, la complexité du modèle
croît avec le nombre de variables : par exemple, la dimension de Vapnik-Chervonenkis de polynômes de

degré d vaut (n + d )!, où n est le nombre de variables ; elle croît donc très rapidement avec n. Conserver
n !d !
un contrôle sur le nombre de variables est donc un élément important dans une stratégie de modélisation
qui cherche à maîtriser la complexité des modèles. Nous décrirons plus en détail, dans ce chapitre, le
problème de la sélection de variables et nous proposerons une méthode efficace pour le résoudre.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 51/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
32

Les résultats de la sélection de variables sont susceptibles de remettre en cause des idées reçues concer-
nant le phénomène à modéliser, ou, au contraire, de conforter des conjectures ou des intuitions concernant
l’influence des variables candidates sur la grandeur à modéliser.
On peut également souhaiter diminuer le nombre de variables en réduisant la dimension de l’espace de
représentation de la grandeur que l’on cherche à modéliser. Les principales méthodes utilisées dans ce but
sont l’Analyse en Composantes Principales (ACP), l’Analyse en Composantes Indépendantes (ACI, ou
ICA pour Independent Component Analysis) ou encore l’Analyse en Composantes Curvilignes (ACC).
L’ACP et l’ACC sont décrites dans le chapitre 3 de cet ouvrage.

Apprentissage des modèles


Les méthodes d’apprentissage de différentes familles de modèles seront décrites en détail dans les diffé-
rents chapitres de cet ouvrage. Comme nous l’avons déjà vu, elles consistent toutes à optimiser des fonc-
tions bien choisies par des méthodes appropriées. L’apprentissage des modèles linéaires en leurs paramè-
tres est décrit dans ce chapitre, dans la section « Conception de modèles linéaires par rapport à leurs
paramètres (régression linéaire) ».

Sélection de modèles
Comme indiqué plus haut, la méthode de minimisation du risque structurel conduit à concevoir des
modèles de complexités différentes et à choisir celui qui est susceptible d’avoir les meilleures propriétés
de généralisation.
Nous avons vu qu’il est impossible, en général, d’estimer la capacité de généralisation d’un modèle à
partir des résultats de l’apprentissage ; une telle procédure conduirait systématiquement à sélectionner un
modèle de biais faible et de variance élevée, donc surajusté. Pour sélectionner le meilleur modèle parmi
des modèles de complexités différentes, il convient donc de les comparer sur la base des prédictions qu’ils
effectuent sur des données qui n’ont pas servi à l’apprentissage. Nous décrivons ci-dessous, dans la
section intitulée « Sélection de modèles », les méthodes les plus couramment utilisées.

Sélection de modèles
Comme indiqué plus haut, la sélection de modèles est une étape cruciale dans la conception d’un modèle
par apprentissage. Nous décrivons ici les trois méthodes les plus fréquemment mises en œuvre.

Validation simple (hold-out)


Lorsque l’on dispose d’un grand nombre de données, la méthode la plus simple consiste à diviser les
données en trois ensembles (figure 1-17) :
• Un ensemble d’apprentissage, de taille NA , utilisé pour l’apprentissage du modèle ; à l’issue de l’appren-
tissage, on calcule l’EQMA du modèle obtenu
NA
1
∑( y ) 2
EQMA = p
k − g ( xk ,w)
NA k =1

où la somme porte sur les éléments de l’ensemble d’apprentissage.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 52/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
33
CHAPITRE 1

• Un ensemble de validation de taille NV, disjoint de l’ensemble d’apprentissage, mais issu de la même
distribution de probabilité, qui est utilisé pour comparer les performances des modèles du point de vue
de leur aptitude à généraliser. On calcule, pour chaque modèle, son Erreur Quadratique Moyenne de
Validation (EQMV)
NV
1
∑( y ) 2
EQMV = p
k − g (x k ,w )
NV k =1

où la somme porte sur les éléments de la base de validation.


• Un ensemble de test de taille NT, disjoint des deux précédents, qui sert à évaluer la performance du
modèle sélectionné en calculant l’Erreur Quadratique Moyenne de Test (EQMT)
NT
1
∑( y ) 2
EQMT = p
k − g (x k ,w )
NT k =1

où la somme porte sur les éléments de la base de test ; ces données ne doivent évidemment pas être utili-
sées pendant toute la phase de sélection de modèle.

Apprentissage Validation Test

Ensemble des données disponibles


Figure 1-17. Validation simple

Parmi l’ensemble des modèles dont on a effectué l’apprentissage, on choisit évidemment celui dont
l’EQMV est la plus petite ; si plusieurs modèles de complexités différentes peuvent prétendre à être
choisis car leurs EQMV sont petites, et du même ordre de grandeur, on choisit celui dont la complexité
est la plus faible.
Une fois déterminée la famille de fonctions de complexité optimale, on effectue un dernier apprentissage
avec l’ensemble des données utilisées préalablement pour l’apprentissage et la validation ; la performance
du modèle ainsi obtenu est estimée sur les données réservées pour le test.

Validation croisée (« cross-validation »)


Si l’on ne dispose pas de données abondantes, la validation simple risque de conduire à choisir des
modèles surajustés à l’ensemble de validation. On utilise alors la validation croisée. Pour une famille de
fonctions :
• séparer les données disponibles en un ensemble d’apprentissage-validation et un ensemble de test ;
• subdiviser le premier ensemble en D sous-ensembles disjoints (typiquement D = 5) ;
• itérer D fois, de telle manière que chaque exemple soit présent une et une seule fois dans un sous-
ensemble de validation (figure 1-18) ;
effectuer l’apprentissage sur D-1 sous-ensembles ; calculer la somme des carrés des erreurs sur le sous-
ensemble des données restantes ;

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 53/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
34

Si = ∑ (y k
p
− g ( xk ,wi ) )
2

k ∈sous-ensemble
de valida
ation i

Apprentissage
Validation

Test
Figure 1-18. Validation croisée

• calculer le score de validation croisée


1 D
∑ Si ;
N i =1
• sélectionner le modèle dont le score de validation croisée est le plus faible ; si plusieurs modèles de
complexités différentes peuvent prétendre à être choisis car leurs EQMV sont petites, et du même ordre
de grandeur, choisir celui dont la complexité est la plus faible.
Une fois déterminée la famille de fonctions de complexité optimale, on effectue l’apprentissage sur
l’ensemble des données utilisées préalablement pour la validation croisée, et la performance du modèle
ainsi obtenu est estimée sur les données réservées pour le test.

Leave-one-out
Le leave-one-out (également appelé jackknife) est la limite de la validation croisée, dans laquelle le
nombre de partitions D de l’ensemble d’apprentissage-validation est égal au nombre de ses éléments N.
Chaque sous-ensemble de validation est donc constitué d’un seul exemple. Pour une famille de fonctions
de complexité donnée, il faut donc réaliser autant d’apprentissages qu’il y a d’exemples dans la base
d’apprentissage-validation. Pour chaque exemple k exclu de l’ensemble d’apprentissage, on calcule
l’erreur de prédiction

rk−k = ykp − g( x, w − k )

où g(x, w-k) désigne le modèle, de paramètres w-k, obtenu lorsque l’exemple k est exclu de l’ensemble
d’apprentissage.
Une fois la procédure effectuée, on calcule le score de leave-one-out
N
1
Et =
N
∑( r ) −k 2
k .
k=1

Comme dans les cas précédents, on choisit le modèle qui a le plus petit score de leave-one-out ; si
plusieurs modèles de complexités différentes peuvent prétendre à être choisis car leurs scores de leave-

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 54/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
35
CHAPITRE 1

one-out sont petits, et du même ordre de grandeur, on choisit celui dont la complexité est la plus faible.
L’apprentissage final est effectué avec l’ensemble des données disponibles.
3
Score de leave-one-out
La figure 1-19 montre le score de leave-one-out et
EQMA l’EQMA en fonction du degré du modèle polyno-
2,5 Écart-type du bruit mial, pour l’exemple étudié plus haut dans la
section intitulée « Un exemple de modélisation
pour la prédiction ». Les résultats sont remarqua-
2 blement voisins de ceux qui sont représentés sur la
figure 1-4 ; mais, à la différence de ces derniers,
l’erreur de généralisation n’est pas estimée sur un
1,5
ensemble de test de 1 000 exemples (il est tout à
fait exceptionnel de disposer de données de test
1 aussi abondantes), mais avec les seuls 30 points
disponibles. La procédure conduit à la sélection
d’un polynôme de degré 6 ; il faut noter que les
0,5
0 2 4 6 8 10 12
résultats présentés ici sont une moyenne sur
Degré du modèle polynomial 100 ensembles d’apprentissage.
Figure 1-19. EQMA et score de leave-one-out moyens
sur 100 bases d’apprentissage comprenant chacune
30 exemples
6 Dans la pratique, on ne dispose que d’un ensemble
Score de leave-one-out
d’apprentissage, ce qui introduit une plus grande
5
EQMA
v ariabilité dans les résultats ; ainsi, dans le cas
Écart-type du bruit
représenté sur la figure 1-20, les modèles de degré
4 6 et 8 peuvent prétendre à être choisis ; compte
tenu du fait que les scores de leave-one-out sont
3
très voisins, on choisit le modèle de degré 6.
Cette technique est donc gourmande en temps de
2 calcul, en raison du grand nombre d’apprentissages
nécessaires. Le calcul du PRESS, décrit dans la
1
section « Conception de modèles linéaires » de ce
chapitre, et la méthode du leave-one-out virtuel,
qui sera décrite dans le chapitre 2, constituent des
0
0 2 4 6 8 10 12 alternatives beaucoup plus économiques en temps
Degré du modèle polynomial de calcul.
Figure 1-20. EQMA et score de leave-one-out
pour un seul ensemble d’apprentissage

Sélection de variables
Comme souligné plus haut, la sélection de variables constitue un élément important dans une stratégie de
conception d’un modèle par apprentissage ; elle contribue en effet à la diminution de la complexité d’un
modèle. L’ouvrage [GUYON 2006] fournit une excellente vue d’ensemble des approches modernes de la
sélection de variables.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 55/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
36

La sélection de variables nécessite toujours :


• de définir un critère de pertinence des variables pour la prédiction de la grandeur à modéliser ;
• de ranger les variables candidates par ordre de pertinence ;
• de définir un seuil qui permette de décider que l’on conserve ou que l’on rejette une variable ou un
groupe de variables.
Dans cette section, nous poserons d’abord le problème de la définition d’un critère de pertinence sous son
angle statistique, puis nous décrirons une méthode efficace de sélection de variables. Enfin, nous décri-
rons une stratégie générale à appliquer pour la sélection de variables.

Cadre théorique
Cette section pose les bases théoriques nécessaires à une appréhension générale du problème de sélection
de variables. Le lecteur peu soucieux de ce cadre théorique peut sans dommage omettre la lecture de cette
section et passer directement à la section intitulée « Méthode de la variable sonde ».
La présentation qui suit est inspirée de l’introduction de [GUYON 2006].
L’objectif de la sélection de variables est de discerner, dans un ensemble de variables candidates {x1, x2,
… xn }, qui constituent le vecteur de variables que nous avons noté x dans les sections précédentes, celles
qui sont pertinentes pour la modélisation de la grandeur yp. Comme précédemment, ces variables peuvent
être modélisées comme des réalisations des composantes X 1, X 2, …, Xn d’un vecteur aléatoire X. On
désigne par X–i le vecteur dont les composantes sont celles de X à l’exception de la variable xi . Enfin, on
désigne par S–i un vecteur aléatoire dont les composantes sont un sous-ensemble des composantes de X–i
(S–i peut être identique à X–i ). En résumé, le vecteur X modélise toutes les variables candidates, le vecteur
X–i modélise le vecteur des variables candidates dont on a supprimé la variable i, et le vecteur S–i modélise
le vecteur des variables candidates dont on a supprimé au moins la variable i, et éventuellement d’autres
variables.
Il va de soi que la variable i est certainement non pertinente pour prédire la grandeur yp si et seulement si
les variables xi et y p varient indépendamment l’une de l’autre lorsque toutes les autres variables sont
fixées, ce qui peut s’écrire :

( ) ( ) ( )
p X , Y p X i ,Y p S−i = pXi Xi S−i pY p Y p S− i .
i

Une variable qui est pertinente n’obéit donc pas à cette relation. Pour savoir si une variable est peu perti-
nente ou très pertinente, il est donc naturel de chercher à savoir si le membre de gauche de cette égalité
est peu différent, ou très différent, du membre de droite. S’agissant de distributions de probabilités, une
« différence » s’exprime généralement par la distance de Kullback-Leibler entre les distributions. La
distance de Kullback-Leibler entre deux distributions de probabilités p U et p V est définie par la
relation [KULLBACK 1959] :
+∞
⌠ ⎛pU ⎞
⎮ pV ln ⎜p ⎟ du dv.
⌡ −∞ ⎝V⎠
Elle s’écrit donc ici :

( )
+∞
⌠ ⎛ p p Xi ,Y p S− i ⎞
( ) ⎮ i
( )
I X i ,Y p S− i = ⎮ p X ,Y p X i ,Y p S− i ln ⎜
X i ,Y

( ) (
⎟dx i dyp .
)
⎜p X i Xi S−i p p Y p S− i ⎟
⌡ −∞ ⎝ Y ⎠

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 56/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
37
CHAPITRE 1

Cette quantité n’est autre que l’information mutuelle entre Xi et Yp, étant données toutes les autres varia-
bles. Plus elle est grande, plus la variable xi est pertinente pour la prédiction de yp , toutes les autres varia-
bles étant connues.
Puisque l’on cherche un indice de pertinence qui soit indépendant des autres variables candidates, il est
naturel de proposer comme indice de pertinence, pour la variable i, la moyenne de l’information
mutuelle :

r ( i) = ∑ Pr (S ) I ( X , Y
i
−i
i
p
)
S− i .
S−

On peut alors fixer un seuil ε et décider de rejeter toutes les variables telles que

r( i) < ε.
Il faut néanmoins remarquer que les intégrales qui interviennent dans l’expression de l’indice de perti-
nence ne sont pas calculables, puisque l’on ne dispose que d’un nombre fini N de réalisations de xi et de
yp. Ce critère de sélection n’est donc pas applicable en pratique ; en revanche, on peut, au moins en prin-
cipe, estimer la probabilité pour que l’indice de pertinence soit supérieur à un seuilε , et décider que la
variable candidate doit être rejetée si la probabilité pour que son indice de pertinence soit supérieur au
seuil est inférieure à une quantité δ :

Pr( r ( i, N ) > ε) < δ

où r(i, N) désigne l’indice de pertinence estimé pour la variable i à partir d’un échantillon de N exemples.
Les méthodes qui nécessitent l’estimation de densités de probabilité sont généralement de mise en œuvre
délicate, notamment lorsque les exemples sont en nombre limité. Nous décrivons ci-dessous une méthode
simple et robuste qui est fondée sur l’estimation de corrélations.

Méthode de la variable sonde


Rappelons l’objectif de toute procédure de sélection de variables : classer les variables candidates en deux
groupes, les variables que l’on conserve car on les considère pertinentes, et celles que l’on rejette. Suppo-
sons que l’on ait défini un indice de pertinence r(i, N) pour la variable i, à partir d’un échantillon de N
observations. La variable i étant modélisée comme une variable aléatoire, son indice de pertinence est lui-
même une variable aléatoire. La figure 1-21 représente symboliquement les distributions de probabilité de
l’indice de pertinence pour les variables pertinentes et pour les variables non pertinentes ; ces distributions
sont évidemment inconnues, puisque l’on ne sait pas quelles variables sont pertinentes. Néanmoins, on
peut penser que, si l’indice de pertinence est bien choisi, sa distribution, pour les variables pertinentes,
possède un pic situé à des valeurs plus élevées que le pic de sa distribution pour les variables non perti-
nentes. Dans la pratique, les deux distributions ne sont pas parfaitement séparées : si l’on choisit un seuil
ε comme indiqué sur la figure, il existe une probabilité non nulle de « faux positif » (probabilité de
conserver une variable alors qu’elle n’est pas pertinente), et une probabilité non nulle de « faux négatif »
(probabilité de rejeter une variable alors qu’elle est pertinente). Il faut donc choisir judicieusement ce
seuil compte tenu des données dont on dispose.
À la fin de la section précédente, un critère de rejet a été proposé : rejeter la variablei si

Pr( r ( i, N ) > ε) < δ.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 57/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
38

Cette condition se traduit


sur la figure 1-21 par le
fait que l’on choisit ε de
telle manière que l’aire
hachurée en traits gras
soit inférieure à la proba-
bilité δ que l’on s’est
Distribution de probabilité
de l’indice de pertinence

fixée.
Variables non pertinentes Variables pertinentes Si l’on connaissait la
distribution de l’indice de
pertinence pour les varia-
bles non pertinentes, le
seul paramètre que le
concepteur du modèle
aurait à choisir serait
probabilité probabilité
donc cette probabilité δ.
de faux négatif de faux positif (δ)
L’intérêt de la méthode
de la variable sonde est
qu’elle permet d’estimer
ε la densité de probabilité
Indice de pertinence de l’indice de pertinence
Figure 1-21. Distributions de probabilité de l’indice de pertinence des variables non perti-
pour des variables pertinentes et pour des variables non pertinentes nentes. Muni de cette
connaissance, on procède
de la manière suivante : si
les données sont peu nombreuses, on choisit δ « petit », donc ε « grand », car il convient d’être très
sélectif afin de limiter le nombre de faux positifs. En revanche, si les données sont nombreuses, on peut
se permettre de diminuer le seuil ε , donc de sélectionner un plus grand nombre de variables, au risque de
conserver des variables non pertinentes.

Définition de l’indice de pertinence


Comme indiqué dans la section précédente (« cadre théorique »), un indice de pertinence peut naturelle-
ment être défini à partir de la notion d’information mutuelle, mais il est très difficile à estimer pratique-
ment, notamment dans le cas où de nombreuses variables sont candidates. Il est plus simple de définir un
indice de pertinence à partir du coefficient de corrélation entre les variables candidates et la grandeur à
modéliser, que celle-ci soit binaire (classification) ou réelle (régression).
Dans ce but, on se place dans le cadre de modèles linéaires en leurs paramètres
p
g (x ,w ) = ∑ w i f i ( x ).
i =1

Dans cette expression, fi (x) peut être soit la variable xi elle-même, qui est alors appelée « variable
primaire », soit une fonction non paramétrée des variables, alors appelée « variable secondaire ». Pour
simplifier, on désignera dans la suite parz i la variable candidate de numéro i, qu’il s’agisse d’une variable
primaire ou d’une variable secondaire :
p
g (x ,w ) = ∑ w iz i.
i =1

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 58/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
39
CHAPITRE 1

La figure 1-22 illustre la notion de variables primaire et secondaire, à l’aide d’un graphisme qui sera large-
ment utilisé dans la suite de l’ouvrage. Les cercles représentent des fonctions ; le cercle contenant un
signe Σ représente une fonction sommation. Les carrés ne réalisent aucune fonction : ils symbolisent
simplement les variables du modèle. Le modèle représenté à gauche est un modèle linéaire en ses para-
mètres et en ses variables : les variables primaires et secondaires sont identiques. Le modèle de droite est
un modèle linéaire en ses paramètres mais non linéaire en ses variables ; les variables secondaires sont
obtenues à partir des variables primaires par des transformations non linéaires non paramétrées. Ainsi, le
modèle de droite pourrait représenter un polynôme, les fonctions ϕ i étant des monômes des variables
primaires.

g(x, w)

g(x, w) ∑
w1 w2 wp

z1 z2 Variables secondaires zp
w1 w2 wp

z1 z2 Variables secondaires zp ϕ1 ϕ2 ....... ϕp

1 x2 Variables primaires xp
...
1 x2 xm
Variables primaires

Figure 1-22. Modèles linéaires en leurs paramètres

Le carré du coefficient de corrélation entre deux variables aléatoires U et V centrées (de moyenne nulle),
dont on connaît N réalisations, est estimé par la quantité

∑( u v )
2
k k
2 k =1
r
U, V = N N
.
∑u ∑ v 2
k
2
k
k =1 k =1

Cette quantité a une interprétation géométrique simple. Considéronsl’espace des observations, de dimen-
sion N. Dans cet espace, la grandeur u est représentée par un vecteur u, dont chaque composante est une
observation uk de u. Le carré du coefficient de corrélation est alors le carré du cosinus de l’angleθ uv entre
les vecteurs u et v dans cet espace :

( u ⋅v ) 2
rU2,V = cos2 θ uv =
(u ⋅ u ) (v ⋅v )

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 59/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
40

où le symbole ⋅ représente le produit scalaire dans l’espace des observations. Le coefficient de corrélation
est donc compris entre zéro (observations non corrélées, vecteurs représentatifs orthogonaux dans
l’espace des observations) et 1 (observations complètement corrélées, vecteurs représentatifs colinéaires).
Ainsi, le coefficient de corrélation entre la grandeur à modéliser yp et la variable candidate z i est donné
par :

rY2p ,Z =
(y
p
k ⋅ zi ) 2

i
(y
p
k ⋅y p
k )( z ⋅ z )
i i

où y kp et zi sont les vecteurs représentatifs, dans l’espace des observations, de la grandeur à modéliser et
de la variable candidate de numéro i (primaire ou secondaire) respectivement.
Attention
Ne pas confondre z et .izLe vecteur z, qui intervient par exemple dans la notation du modèle g(z, w), désigne le vecteur des variables du
modèle : il est de dimension p. En revanche, le vecteur
i représente
z la variable numéro i du modèle dans l’espace des observations : il est
de dimension N, où N désigne le nombre d’observations.
À partir de ce coefficient de corrélation, l’indice de pertinence des variables candidates est défini comme
le rang de la variable candidate dans un classement établi par orthogonalisation de Gram-Schmidt
[CHEN 1989]. La procédure est la suivante :
p
• calculer les coefficients de corrélation entre y k et lesp variables candidates, et choisir la variable candi-
date zi la plus corrélée à ykp ;
• projeter le vecteur y pk et toutes les variables non sélectionnées sur le sous-espace orthogonal à la variable
zi ;
• itérer dans ce sous-espace.
Les variables sont donc sélectionnées les unes après les autres. À chaque orthogonalisation, la contribu-
tion de la dernière variable sélectionnée au vecteur ykp est supprimée ; on obtient donc bien un classe-
ment des variables par ordre de pertinence décroissante. Il est alors naturel de considérer que le rang d’une
variable dans ce classement est le reflet de la pertinence de cette variable par rapport à la modélisation que
l’on cherche à effectuer.
La figure 1-23 illustre le processus dans un cas très
simple où l’on aurait trois exemples (N = 3) et deux
variables primaires ou secondaires candidates (p =
2), représentées par les vecteurs z1 et z2 dans l’espace yp
des observations. La première étape a pour effet de
sélectionner la variable z1 , car l’angle entre z1 et yP
z1
est plus petit que l’angle entre z2 et yp . La deuxième
étape consiste à projeter orthogonalement yP et la
variable non sélectionnée z2 sur le sous-espace ortho-
gonal à z1. Toutes les variables candidates étant clas-
sées, le processus s’arrête alors. S’il y avait plus de z2 1 y p1
deux variables candidates, le même processus serait
itéré dans le sous-espace orthogonal à z1.
Remarque 1 z2
En pratique, il est préférable d’utiliser une variante de l’algorithme de
Figure 1-23. Orthogonalisation de Gram-Schmidt pour
Gram-Schmidt, appelée algorithme de Gram-Schmidt modifié, quile classement de deux variables candidates dans un
est plus stable numériquement [BJÖRCK 1967]. espace des observations de dimension trois

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 60/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
41
CHAPITRE 1

Remarque 2
L’algorithme d’orthogonalisation de Gram-Schmidt décrit ci-dessus est un cas particulier d’un algorithme d’apprentissage de modèles
linéaires, décrit plus loin dans la section « Moindres carrés par orthogonalisation de Gram-Schmidt »

Exemple important x2
Pour illustrer l’importance de considérer les variables secondaires, et de ne pas se limiter aux varia-
1 2
bles primaires, considérons un problème simple de classification, illustré sur la figure 1-24.
On dispose de quatre exemples, appartenant à deux classes : la classe A, représentée par des croix,
o +
à laquelle on affecte l’étiquettep =y +1, et la classe B, représentée par des cercles, à laquelle on
affecte l’étiquettepy= –1. Considérons comme variables candidates les variables primaires1 = x1z
, z2
3 4 x1
= x2, ainsi que la variable secondaire3 z= x1 x2. Dans l’espace des observations, de dimension 4, les
vecteurs représentatifs des variables candidates sont (les numéros des observations sont indiqués + o
sur la figure 1-24)
⎛−1⎞ ⎛+1⎞⎞ ⎛−1⎞ Figure 1-24.
⎜+1⎟ ⎜+1⎟ ⎜+1⎟ Exemple illustrant
z 1 = ⎜ ⎟ ; z 2 = ⎜ ⎟ ; z3 = ⎜ ⎟ l’importance des variables
⎜−1⎟ ⎜−1⎟ ⎜+1⎟ secondaires
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝+1⎠ ⎝−1⎠ ⎝−1⎠

et le vecteur représentatif de la grandeur à modéliser est


⎛−1⎞
⎜+1⎟
y
p
= ⎜ ⎟.
⎜+1⎟
⎜ ⎟
⎝−1⎠
Aucune des deux variables primaires, prise séparément, n’est pertinente pour la prédiction
yp, puisque
de ( )
2
( )
z 1 ⋅yp = 0 et z 2 ⋅y p = 0 .
2

En revanche, le coefficient de corrélation entre 3 etzy vaut 1. Par conséquent, la variable secondaire
p
1x2xdétermine entièrement le
modèle, alors que les variables primaires sont complètement inopérantes pour résoudre ce problème de classification (connu sous le nom
de « problème du OU exclusif » ou « problème du XOR ») avec des modèles linéaires en leurs paramètres. Le modèle g1(xx2 , w) = x
sépare complètement les exemples disponibles puisque sgn(g(x, w)) = +1 pour les exemples de la classe A et sgn(g(x, w)) = – 1 pour ceux
de la classe B. Il faut néanmoins remarquer que le problème peut être résolu avec comme variables
1 et x2 si
x l’on met en œuvre des modè-
les non linéaires en leurs paramètres, des réseaux de neurones par exemple.

Détermination du seuil de sélection des variables


Disposant d’une méthode de classement des variables candidates, il reste donc à déterminer le rang au-
delà duquel les variables candidates doivent être rejetées. Comme indiqué dans la section « Cadre
théorique », le problème serait simple si les distributions du rang des variables pertinentes et du rang des
variables non pertinentes étaient connues. Ce n’est évidemment pas le cas, mais il est néanmoins possible
d’estimer la distribution du rang des variables non pertinentes en créant artificiellement des variables non
pertinentes ou « variables sondes ».
■ Présentation intuitive
Intuitivement, on pourrait envisager la procédure suivante :
• créer une variable sonde dont les « valeurs observées » seraient aléatoires, sans relation avec la grandeur
à modéliser : cette variable est donc, par construction, non pertinente ;
• lors du classement par orthogonalisation de Gram-Schmidt, faire participer cette variable au même titre
que les autres variables ;
• arrêter le classement des variables lorsque la variable sonde apparaît dans la procédure de classement :
toutes les variables non encore classées sont alors rejetées, puisqu’elles sont moins pertinentes que la
variable sonde qui, par construction, n’est pas pertinente.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 61/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
42

Cette procédure est risquée : en effet, la décision de rejet est fondée sur le classement d’un seul vecteur
représentatif de la variable sonde, donc d’une seule réalisation de ce vecteur aléatoire. Si l’on procédait à
un autre tirage des valeurs de la variable sonde, on obtiendrait très probablement un autre rang, dans le
classement, pour cette variable : on prendrait donc une autre décision de rejet. En d’autres termes, le rang
de la variable sonde est lui-même une variable aléatoire, dont la distribution de probabilité est une estima-
tion de la distribution de probabilité du rang des variables non pertinentes.
■ Présentation rigoureuse
Cette dernière remarque renvoie à la condition de rejet établie dans la section « Cadre théorique » : une
variable candidate i est rejetée si
Pr ( r ( i, N ) > ε ) < δ

où r(i, N) est l’indice de pertinence de la variable i, estimé à partir de N observations. Dans le cadre de la
méthode de la variable sonde, l’indice de pertinence est le rang ρ(i, N) de la variable candidate i ; la
variable i est donc d’autant plus pertinente que son rang est petit. L’équation précédente s’écrit alors :

Pr ( ρ (i, N ) < ρ 0 ) < δ

où ρ 0 est le rang au-delà duquel les variables candidates doivent être rejetées. Or on souhaite que toutes
les réalisations de la variable sonde soient rejetées ; l’application de la relation précédente aux variables
sondes s’écrit donc :

Pr ( ρ S < ρ 0 ) < δ

où ρ S désigne le rang d’une réalisation de 0,14

la variable sonde. Ainsi, étant donnée une 0,12 Variables pertinentes


(distribution inconnue)
valeur de δ fixée, le seuil de rejet ρ 0 est le
Distribution de probabilité

0,1
du rang des variables

rang tel qu’une réalisation de la variable 0,08


sonde soit classée au-dessus de ce rang Variables non pertinentes
(distribution estimée par celle des variables sondes)
0,06
avec une probabilité inférieure à δ, ou
encore qu’une réalisation de la variable 0,04

sonde ait une probabilité 1− δ d’être 0,02

classée dans un rang au-delà de ρ0 . Cette 0


0 5 10 15 20 25 30 35 40 45 50
situation est résumée sur la figure 1-25, Rang des variables
où sont présentées la distribution hypo-
thétique (puisque inconnue) du rang des 1
variables pertinentes, et la distribution du 0,9
rang de la variable sonde, qui constitue 0,8
du rang des variables

une estimation du rang des variables non


Probabilité cumulée

0,7

pertinentes. Si l’on est prêt à admettre un 0,6


0,5
risque de 10 % (δ = 0,1) pour qu’une 0,4
variable soit conservée alors qu’elle est 0,3

aussi bien ou moins bien classée qu’une 0,2


δ = 0,1
réalisation de la variable sonde (« risque 0,1

de première espèce »), on lit, sur le 0


0 5 10 15 20 25 30 35 40 45 50

graphe de la probabilité cumulée, qu’il Rang des variables


faut rejeter toute variable de rang supé- Figure 1-25. Choix du seuil de rejet des variables candidates
rieur à 15. On peut noter que cette procé-

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 62/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
43
CHAPITRE 1

dure ne contrôle pas le risque de rejeter d’éventuelles variables pertinentes qui seraient classées au-delà
du rang 15 (« risque de deuxième espèce ») ; on verra, dans la section intitulée « Limitations de la
méthode », qu’il est néanmoins possible d’estimer ce risque, sans toutefois le contrôler.
En pratique, deux techniques sont utilisables pour engendrer les réalisations de la variable sonde :
• mélanger aléatoirement les observations des variables candidates ;
• tirer des nombres aléatoires dans une distribution de moyenne nulle et de variance 1, puisque les varia-
bles candidates ont été préalablement normalisées et centrées, comme indiqué plus haut dans la section
« Prétraitement des données ».
Si les variables candidates obéissent à une distribution gaussienne, on peut légitimement considérer que
la variable sonde est gaussienne. Alors, la probabilité cumulée du rang de la variable sonde peut être
calculée analytiquement [STOPPIGLIA 2003], de sorte qu’il est inutile d’engendrer des réalisations de la
variable sonde. On procède de la manière suivante : à chaque étape du classement par la méthode de
Gram-Schmidt, on calcule la probabilité cumulée du rang de la variable sonde, et, lorsque celle-ci atteint
la valeur δ choisie, on arrête le processus.
Si les variables n’obéissent pas à une distribution gaussienne, on estime la probabilité cumulée du rang de
la variable sonde. Pour cela, on engendre un grand nombre de réalisations de la variable sonde, et l’on
procède à l’orthogonalisation de Gram-Schmidt. Chaque fois qu’une réalisation de la variable sonde est
rencontrée, on en prend note et l’on enlève cette variable du classement : on obtient ainsi une estimation
empirique de la probabilité cumulée du rang de la variable sonde. Comme dans le cas précédent, on arrête
le processus lorsque l’estimation de la probabilité cumulée atteint la valeurδ fixée à l’avance.
La figure 1-26 illustre cette approche à l’aide d’un 1 X

exemple académique proposé dans [LAGARDE DE X


X

0,8
du rang de la variable sonde

1983] et repris dans [STOPPIGLIA 2003]. À partir


Probabilité cumulée

Calculée
d’un ensemble de 15 observations, on cherche à 0,6
X
X

établir un modèle linéaire (en ses paramètres et en X

ses variables) avec 10 variables candidates, dont 5 0,4 Estimée à l’aide


X
seulement sont pertinentes : les coefficients des X de 100 réalisations
0,2
autres variables, dans la fonction linéaire généra- X
X
X
de la variable sonde
X X
trice des données, sont nuls. S’agissant d’un 0
X
X X X X

problème académique, les exemples ont été engen- 0 2 4 6


Rang de la variable sonde
8 10

drés en ajoutant à une fonction linéaire un bruit


Figure 1-26. Probabilités cumulées, calculées et estimées
gaussien centré ; les variables obéissent à une loi
normale. L’objectif est de sélectionner les variables
pertinentes. La figure 1-26 présente deux courbes : la probabilité cumulée du rang de la variable sonde
calculée en supposant que la variable sonde obéit à une loi gaussienne, et la probabilité cumulée estimée,
par la procédure décrite plus haut, à partir de 100 réalisations de la variable sonde, tirées d’une distribu-
tion gaussienne. On observe que, dans les deux cas, le choix d’un risqueδ = 0,1 conduit à sélectionner les
5 variables candidates les mieux classées, qui sont effectivement les 5 variables pertinentes à partir
desquelles les données ont été engendrées.

Limitations de la méthode
La principale limitation de la méthode de la variable sonde résulte de l’utilisation de l’algorithme de
Gram-Schmidt, qui exige que le nombre de variables sélectionnées soit supérieur au nombre d’exemples.
Il convient de noter que cette limitation porte sur le nombre de variablessélectionnées, et non sur le
nombre de variables candidates : à l’aide de la méthode de la variable sonde, on peut traiter des problèmes
où le nombre de variables candidates est très supérieur au nombre d’exemples.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 63/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
44

D’autre part, la méthode contrôle directement le risque de faux positif, c’est-à-dire le risque de conserver
une variable alors qu’elle n’est pas pertinente. Elle ne contrôle pas directement le risque de faux négatif,
c’est-à-dire le risque de rejeter une variable alors qu’elle est pertinente. Néanmoins, il est possible de
conserver également un contrôle sur ce phénomène en estimant le « taux de fausse découverte » (false
discovery rate ou FDR), comme décrit dans [D REYFUS 2006].

Exemples académiques (classification)


■ Exemple 1
100 bases de données ont été construites de la manière suivante : pour chaque base, une fonction g(x, w)
de deux variables a été choisie aléatoirement, 1 200 exemples ont été créés aléatoirement à partir de cette
fonction en affectant à la classe A les exemples pour lesquels sgn(g(x, w)) = +1. 10 % de ces exemples ont
été affectés de manière erronée, de sorte qu’il y a 10 % d’erreur sur la base d’apprentissage. 800 exemples
ont été utilisés pour l’apprentissage et 400 pour le test. Enfin, 238 variables non pertinentes ont été ajou-
tées à l’ensemble des variables, de sorte qu’il y a en tout 240 variables candidates, parmi lesquelles deux
seulement sont pertinentes. La méthode décrite ci-dessus a été appliquée aux 240 variables candidates, et
un classifieur a été réalisé à l’aide des deux premières variables sélectionnées. À titre de comparaison, un
classifieur a été réalisé avec les deux « vraies » variables. Pour les 100 bases de données, la procédure a
toujours trouvé au moins une des deux vraies variables, et a trouvé les deux vraies variables dans 74% des
cas. Le tableau 1-2 résume les résultats moyens obtenus sur les 100 bases d’apprentissage.
Taux moyen d’erreurs Taux moyen d’erreurs Hypothèse nulle : différence
de classification avec les variables de classification avec les « vraies » entre les taux d’erreurs moyens
sélectionnées variables < 0,125
10,4% 10,1% Acceptée
(écart-type 1,1%) (écart-type 0,7%)
Tableau 1-2

On observe que le taux d’erreur de classification moyen (en moyenne sur les 100 bases de données),
obtenu par un classifieur construit avec les descripteurs sélectionnés, est très voisin du taux d’erreur de
classification obtenu par un classifieur établi avec les vraies variables. Un test d’hypothèse (voir la
dernière section de ce chapitre) accepte l’hypothèse que la différence entre les taux d’erreurs moyens est
inférieur à 0,125, c’est à dire à une erreur sur 800 ; en d’autres termes, la différence observée entre les taux
d’erreurs des deux classifieurs n’est pas significative, puisque chaque base de données comprend
800 exemples d’apprentissage. Cela signifie que, lorsque la méthode n’a trouvé qu’une des deux vraies
variables, l’autre variable sélectionnée permettait de discriminer les exemples de manière aussi précise
que la vraie variable qui n’a pas été découverte. Les résultats sont semblables sur les bases de test.
À titre de comparaison, les taux d’erreurs sont d’environ 45 % si les deux variables sont choisies aléatoi-
rement, et de 30 % si une des vraies variables est utilisée, l’autre variable étant choisie aléatoirement. Si
l’on utilise un risque de 1% (δ = 0,1), les trois premières variables du classement sont sélectionnées, ce
qui ne dégrade pas les résultats de manière significative [STOPPIGLIA 2003].
■ Exemple 2
On construit 100 bases de données de 100 exemples tirés de distributions gaussiennes à deux variables x1
et x2 , les centres étant dans les positions du problème du XOR (figure 1-24) ; 50 variables aléatoires non
pertinentes sont ajoutées à l’ensemble des variables candidates. On utilise cette fois, outre les variables
primaires, les monômes du second degré de celles-ci, ce qui produit en tout 1 326 variables candidates
dont 52 variables indépendantes. Comme indiqué plus haut, la seule variable pertinente pour résoudre ce
problème est le produit x1x2 ; avec un risque de 1%, c’est effectivement la seule variable sélectionnée.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 64/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
45
CHAPITRE 1

Variable sonde et test de Fisher


La méthode de la variable sonde est apparentée à l’utilisation de tests d’hypothèse pour la sélection de
variables. Le lecteur qui n’est pas familier avec les tests d’hypothèses trouvera les concepts et définitions
nécessaires dans la dernière section de ce chapitre.
■ Test de Fisher pour la sélection de variables
Comme précédemment, nous nous plaçons dans le cadre des modèles linéaires par rapport à leurs para-
mètres
p
g ( x ,w) = ∑w z i i = w⋅ z
i=1

où les z i sont les variables primaires ou secondaires.


On suppose que les mesures de la grandeur à modéliser peuvent être considérées comme les réalisations
d’une variable aléatoire Yp telle que Y p = w p ⋅ z + Ω, où z est le vecteur des variables du modèle (de
dimension inconnue), où wp est le vecteur (non aléatoire mais inconnu) des paramètres du modèle, et où
Ω est une variable aléatoire gaussienne inconnue d’espérance mathématique nulle. On a donc :

EY p = wp ⋅ z.
Nous cherchons à construire un modèle g, à partir d’un ensemble de N mesures {ykp , k = 1 à N} qui cons-
tituent un ensemble de réalisations de la variable aléatoireY p ; nous désignons par yp le vecteur, de dimen-
sion N, dont les composantes sont les ykp . Ce modèle dépend de l’ensemble des mesures utilisées pour sa
construction : il est donc lui-même une réalisation d’une variable aléatoireG.
Supposons que l’on ait déterminé un ensemble de Q variables qui contient certainement les variables
mesurables pertinentes pour la grandeur à modéliser. Un modèle contenant toutes les variables mesurables
pertinentes est appelé modèle complet. On cherche alors un modèle de la forme

GQ = WQ ⋅ zQ

où zQ est le vecteur des variables du modèle (de dimension Q+1 puisque, outre les variables pertinentes,
le vecteur des variables contient une composante constante égale à 1) et oùW est un vecteur aléatoire qui
dépend de la réalisation du vecteurYp utilisée pour la construction du modèle. Rappelons que l’on dit que
ce modèle complet estvrai, pour indiquer qu’il existe certainement une réalisation wp du vecteur aléatoire
W telle que gQ = EY p .
Supposons que l’apprentissage soit effectué par minimisation de la fonction de coût des moindres carrés
N

( ) ( y − g ( z, w) ) ,
2 2
J ( w) = ∑ ykp − gQ ( zk , w) = p
Q
k =1

où w désigne une réalisation du vecteur des paramètres W, zk est le vecteur des Q+1 variables pour
l’exemple k, et où gQ (z, w) est le vecteur des valeurs des réalisations de GQ pour les N mesures effectuées.
Soit wQ le vecteur des paramètres pour lequel la fonction de coût J est minimum. Le modèle obtenu est
mc Q Q
donc de la forme gQ = wmc ⋅ z, et l’on peut définir le vecteur gQ = Zwmc , où :
• gQ est le vecteur dont les N composantes sont les prédictions du modèle pour chacune des N mesures
effectuées ;

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 65/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
46

• Z est une matrice (dite matrice des observations) dont la colonne i (i = 1 à Q+1) est le vecteur zi dont les
composantes sont les N mesures de la variable numéro i : la matrice Z a donc N lignes et Q+1 colonnes :

⎛ ⎞
⎜ z 11 … z1, Q + 1 ⎟
⎜z O z2, Q + 1 ⎟
Z = ⎜ 21 ⎟
⎜ M O M ⎟
⎜ ⎟
⎝ zN , 1 … zN , Q + 1 ⎠

où z ij désigne la mesure numéro i de la variable candidate numéro j.

On se pose la question suivante : les Q variables du modèle complet sont-elles toutes pertinentes ? Pour
répondre à cette question, on remarque que, si une variable n’est pas pertinente, le paramètre correspon-
dant du modèle complet doit être égal à zéro. On appelle sous-modèle du modèle complet un modèle
obtenu en mettant à zéro un ou plusieurs paramètres du modèle complet. Pour répondre à la question
posée, il faut donc comparer le modèle complet à tous ses sous-modèles. Considérons un de ceux-ci, par
exemple le modèle dont le vecteur w a ses q dernières composantes (numérotées de Q-q+2 à Q+1) égales
à zéro : gQ −q = Zwmc
Q− q
, où wQmc− q est le vecteur de paramètres obtenus en minimisant la fonction de coût des

( )
2
moindres carrés J (w) = yp − gQ −q ( z, w) sous la contrainte que les q dernières composantes du vecteur
des paramètres soient nulles. On veut tester l’hypothèse nulle H0 : les q derniers paramètres du vecteur
aléatoireW sont nuls. Si cette hypothèse est vraie, la variable aléatoire

p p 2 2 2
N − Q − 1 Y − GQ− q − Y − GQ N − Q − 1 GQ − GQ- q
U = 2
= 2
q p
Y − GQ q p
Y − GQ

est une variable de Fisher à q et N-Q-1 degrés de liberté.


2
En effet, la quantitéY p − GQ est la somme des carrés des composantes du vecteur p
Y − GQ , dont on verra, dans la section consacrée
à l’apprentissage des modèles linéaires par rapport à leurs paramètres, qu’il est orthogonal au sous-espace déterminé par les Q + 1 colon-
nes de la matrice Z. C’est donc la somme de N – (Q + 1) carrés de variables aléatoires indépendantes gaussiennes : elle suit une distribu-
GQ − GQ −q
tion de Pearson à N – Q – 1 degrés de liberté. De même, le vecteur est dans un espace à q dimensions, donc le carré de sa
2
norme est une somme des carrés deq variables aléatoires indépendantes G : Q − GQ− q est donc une variable de Pearson à q degrés de
liberté. Le rapport U de ces deux variables est donc une variable de Fisher, comme indiqué dans la section « Éléments de statistiques ».

Supposons que l’on dispose d’une très grande quantité de mesures ; si l’hypothèse nulle est vraie, le
numérateur de U est très petit car le procédé de minimisation de la fonction de coût donne des valeurs
nulles aux q paramètres « inutiles » du modèle complet, donc gQ et gQ-q sont très voisins. Si l’hypothèse
nulle est fausse, les deux modèles ne peuvent pas être très voisins, même si le nombre de mesures est très
grand, puisque le sous-modèle est trop pauvre pour rendre compte des données expérimentales. On
comprend ainsi que la valeur de la réalisation deU doit être petite si l’hypothèse nulle est vraie.

Le test de Fisher consiste donc à choisir un risqueα , et à trouver, en inversant la distribution de probabilité
cumulée de Fisher, la valeur uα telle que Pr(u < u α ) = α . On calcule alors la quantité u (réalisation de la
variable U avec les mesures disponibles) :

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 66/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
47
CHAPITRE 1

( ) ( )
2 2
Q− q
N − Q −1 y − gQ − q z, wmc − yp − gQ z, wmc
p Q

u=
( )
2
q p Q
y − g Q z, wmc

et l’on accepte l’hypothèse nulle si et seulement si u < uα .


■ Test de Fisher et méthode de la variable sonde
On trouvera dans [STOPPIGLIA 2003] la démonstration du résultat suivant : si le modèle examiné à l’itéra-
tion k du procédé d’orthogonalisation de Gram-Schmidt est un modèle complet, c’est-à-dire s’il contient
toutes les variables pertinentes, et si le modèle complet est vrai, c’est-à-dire si la fonction de régression
appartient à la famille des fonctions dans laquelle on recherche le modèle, alors l’opération de sélection
effectuée à l’itérationk est équivalente à un test de Fisher entre les modèles obtenus aux itérations k et k–1.
La méthode de la variable sonde présente donc deux avantages par rapport au test de Fisher : d’une part,
elle donne une interprétation claire et intuitive du critère de sélection ; d’autre part, elle est applicable, que
l’on dispose ou non d’un modèle complet, et que ce modèle soit vrai ou ne le soit pas.

Résumé : stratégies de conception


Dans cette section, nous montrons comment les différentes tâches à accomplir doivent être articulées entre
elles pour concevoir un modèle par apprentissage (sélection de variables, apprentissage, sélection de
modèles). On suppose que les étapes de collecte des données et de prétraitement de celles-ci ont été effec-
tuées.
Une première stratégie peut être résumée de la façon suivante :
• Effectuer la sélection de variables sur l’ensemble des données disponibles.
• Effectuer l’apprentissage et la sélection de modèles de complexités différentes par validation croisée ou
leave-one-out.
• Effectuer l’apprentissage du meilleur modèle avec toutes les données d’apprentissage et de validation.
• Tester le modèle sur un ensemble de tests.
Cette stratégie est simple et relativement peu coûteuse, mais elle n’est pas complètement rigoureuse dans
la mesure où toutes les données disponibles sont utilisées pour la sélection de variables.
Pour être plus rigoureux, il convient de procéder de la façon suivante :
• Séparer les données en sous-ensembles d’apprentissage et de validation.
• Pour chaque sous-ensemble d’apprentissage
– effectuer la sélection de variables, noter le nombre de variables sélectionnées,
– effectuer l’apprentissage de modèles de complexités différentes et calculer les erreurs de validation.
• Calculer les scores de validation croisée et choisir le meilleur modèle ; soitn0 le nombre de variables de
ce modèle.
• Avec toutes les données utilisées pour l’apprentissage et la validation
– effectuer le classement de variables par la méthode de Gram-Schmidt et choisir lesn 0 variables les
mieux classées,
– avec ces variables, effectuer l’apprentissage du modèle qui a la meilleure complexité.
• Tester le modèle sur l’ensemble de test.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 67/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
48

Si l’on n’est pas sûr que la valeur de δ choisie pour effectuer cette procédure est optimale, on peut ajouter
une boucle extérieure portant sur différentes valeurs de δ.
Cette stratégie est applicable à toute méthode de sélection de variables fondée sur un classement des varia-
bles par ordre de pertinence.
Rappelons qu’il existe un grand nombre de méthodes de sélection de variables. La méthode de la variable
sonde, décrite ici, a été présentée car elle est simple et robuste ; elle a été validée sur une grande variété
d’applications ; néanmoins, il n’y a pas de méthode miracle, et dans certains cas, d’autres méthodes
peuvent se révéler plus efficaces. Une synthèse très complète des méthodes modernes de sélection de
variables est présentée dans l’ouvrage [GUYON 2006].

Conception de modèles linéaires par rapport


à leurs paramètres (régression linéaire)
On a rappelé au début de ce chapitre le lien étroit qui existe entre apprentissage artificiel et statistiques.
Avant même l’introduction du terme d’apprentissage, les statisticiens avaient largement développé la
conception de modèles linéaires en leurs paramètres, ou régression linéaire. Il est donc important, dès ce
chapitre introductif, de rappeler les méthodes de conception de modèles linéaires. De nombreux ouvrages
sont entièrement consacrés à ce sujet (par exemple [SEBER 1977], [DRAPER 1998])
Rappelons qu’un modèle est dit « linéaire en ses paramètres », ou simplement « linéaire » s’il est de la
forme :
p
g (x ,w ) = ∑ w i f i ( x )
i =1

où les fonctions fi(x) sont des fonctions non paramétrées des variables (composantes du vecteur x), dites
variables primaires. Ces fonctions peuvent être considérées comme des variables secondaires zi, de sorte
que l’on écrira de manière générale un modèle linéaire en ses paramètres sous la forme
p
g (z ,w ) = ∑w i z i
i= 1

où les variables z i peuvent être soit les variables primaires elles-mêmes, soit des variables secondaires
déduites des variables primaires par une transformation non paramétrée (ou à paramètres fixés). On écrira
aussi un tel modèle sous la forme

g (z ,w ) = w ⋅ z

où w et z sont des vecteurs de dimension p.

Sélection de variables pour les modèles linéaires


en leurs paramètres
Ce problème a été abordé plus haut, dans la section consacrée à la sélection de modèles. Les méthodes
décrites dans cette section sont directement applicables à la conception de modèles linéaires en leurs para-
mètres.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 68/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
49
CHAPITRE 1

Apprentissage de modèles linéaires en leurs paramètres :


la méthode des moindres carrés
Pour l’apprentissage des modèles linéaires en leurs paramètres, on choisit généralement comme fonction
de perte le carré de l’erreur de modélisation
2
π ⎡⎣ y p, g ( z, w)⎤⎦ = ⎡⎣ y p − g( z, w) ⎤⎦

de sorte que l’on cherche les paramètres pour lesquels la fonction de coût des moindres carrésJ(w) est
minimum :
NA

(
J ( w) = ∑ ykp − g ( zk , w) ) 2

k =1

où NA est le nombre d’exemples de l’ensemble d’apprentissage, z k est le vecteur des variables pour
l’exemple k, et ypk est la valeur de la grandeur à modéliser pour l’exemple k.
Dans la section intitulée « Variable sonde et test de Fisher », on a défini la matrice des observationsZ, qui
est une matrice à N lignes et p colonnes, dont l’élément zij est la valeur prise par la variable numéro j du
modèle pour l’exemple i de l’ensemble d’apprentissage :

⎛ z ⎞
⎜ 11 … z 1, p ⎟
⎜ z O z2, p ⎟.
Z = ⎜ 21 ⎟
⎜ M O M ⎟
⎜ ⎟
⎝ zN , 1 … z N, p ⎠

La fonction de coût peut alors se mettre sous la forme :


2
J ( w) = yp − g( z, w)

où yp est le vecteur dont les N composantes sont les valeurs de la grandeur à mesurer pour chacun des N
exemples, et g(z, w) est le vecteur dont les N composantes sont les prédictions du modèle pour chacun des
exemples. Le vecteur wmc est le vecteur pour lequel la fonction de coût est minimum :

⎛dJ ( w) ⎞
∇w J = ⎜ = 0,
⎝ dw ⎟ ⎠w= wmc

qui représente un ensemble de p équations, dont les p inconnues sont les paramètres wi , i = 1 à p. Comme
la fonction J(w) est quadratique en fonction des wi, sa dérivée par rapport à wi est linéaire : il s’agit donc
d’un système linéaire dep équations à p inconnues, appelées équations canoniques.
On montre facilement que cette équation s’écrit

(
∇ w J = −2 Z T y p − Zwmc = 0 )
où Z T désigne la transposée de la matrice Z, soit encore
T
(
wmc = Z Z )
−1
T p
Z y .

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 69/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
50

Exemple 70

r 2 = 0,89
Considérons un modèle affine à une variable (p = 2) comme 60 w mc1 = - 0,3
w mc2 = 5,9
représenté sur la figure 1-27 :
50

g ( x ,w) = w1 + w2 x. Modèle g(x, w ,w


mc1 mc2
)
40
Dans cet exemple, les points « expérimentaux » ont été obtenus
en ajoutant à la fonction de régression f(x) = 2 + 5 x des réalisa- 30

yp
tions d’une variable aléatoire gaussienne de moyenne nulle et 20
Fonction de régression
d’écart-type égal à 3. Rappelons que, dans un problème réaliste, y=2+5x
10
la fonction de régression est inconnue : l’objectif de l’apprentis-
sage est de trouver un modèle qui soit aussi proche que possible 0

de cette fonction inconnue. -10

⎛1 x1 ⎞ -20
⎜ ⎟ -2 0 2 4 6 8 10

X =⎜
La matrice des observations vaut 1 x 2 ⎟ , où
⎟ xi désigne
x
⎜ Figure 1-27. Points expérimentaux et modèle obtenu par
⎜ M M⎟
⎝ 1 xN ⎠ la méthode des moindres carrés ; la somme des carrés des
longueurs des segments en pointillés est minimale ;
la valeur prise par pour l’observation
i de la variable x. On a alors : le coefficient de corrélation r 2 est défini ci-dessous, dans
N la section « Estimation de la qualité de l’apprentissage ».
⎛ ⎞
⎜ N ∑x ⎟ k
k =1
X X =⎜ N ⎟.
T

⎜ N
2⎟
⎜∑ xk
⎝k =1
∑( xk ) ⎟

k= 1

( )
−1
wmc = XT X
Par application de la relation XT py , on trouve les paramètres du modèle affine :
N N N
N∑ xk yk − ∑ xk ∑ yk
p p
p p
xy − x y
wmc2 = k=1 k =1 k =1
2
=
2 2
N
⎛N ⎞ x − x
N ∑ ( xk ) − ⎜∑ xk ⎟
2

k =1
⎝k =1 ⎠
1 N p 1 N
wmc1 = ∑ y k −w mc 2 N ∑ xk = yp − wmc2
N k= 1
x
k =1

où u désigne la valeur moyenne de la grandeur


u.

Remarque 1
La droite des moindres carrés passe par le centre de gravité des mesures.
En effet :g ( x ,w) = wmc 1 + wmc 2 x = yp − wmc 2 x+ wmc 2 x= py .

Remarque 2
p
xy
Si les données sont centrées (x = yp = 0 ), la droite des moindres carrés passe par l’originemc1
car=w0. De plus :wmc 2 =
2
x

1 N
Si, de plus, les données sont normalisées, on a en outre∑ (x − x ) = 1=
2 p
x
2
wmc2 = xy
, par conséquent .
N k= 1

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 70/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
51
CHAPITRE 1

Propriétés de la solution des moindres carrés


Un modèle obtenu par la méthode des moindres carrés possède des propriétés statistiques intéressantes
qui justifient l’utilisation de la fonction de perte d’erreur quadratique, de préférence à d’autres fonctions
de pertes envisageables telles que la valeur absolue de l’erreur.

Cas où le modèle est vrai


Supposons que le modèle linéaire postulé soit « vrai », c’est-à-dire que la fonction de régression inconnue
appartienne effectivement à la famille des fonctions linéaires. Ce cas a déjà été rencontré plus haut (clas-
sification de deux ensembles d’observations issues de deux distributions gaussiennes de mêmes
variances) ; le cas inverse a également été rencontré (modélisation de la fonction 10 sinx / x par des poly-
nômes). Les observations sont donc des réalisations de la variable aléatoire Y p = wp ⋅ z + ε , avec Eε = 0.
En conséquence, EY p = wp ⋅ z. Désignant par Yp le vecteur des N observations, on a donc E Yp = ZW p .

Propriété

Le vecteur des paramètres w mc trouvés par la méthode des moindres carrés est un estimateur non
biaisé des paramètres w p de la fonction de régression.

Démonstration
( ) (=Z Z) ( )
−1 −1 −1
On a vu plus haut quew mc = Z T Z Z y . Par conséquent E: w mc
T p T
ZTE p = ZT Z
Y
ZT ZW
p
= W
p
, ce qui prouve la
propriété.

Théorème de Gauss-Markov

Théorème

Les paramètres des modèles obtenus par minimisation de la fonction de coût des moindres carrés sont
les paramètres de variance minimum.

Ainsi, dans la mesure où c’est l’augmentation de la variance qui produit le surajustement, la minimisation
de la fonction de coût des moindres carrés permet de limiter le phénomène (sans toutefois le supprimer,
bien entendu). L’expression de la variance des paramètres est établie plus loin, dans la section « Variance
des paramètres d’un modèle linéaire ».

Cas où le bruit est gaussien


Si le bruit ε est gaussien, de variance σ2, les estimations des paramètres obéissent à une loi gaussienne.
De plus, on démontrera, dans la section « Variance des paramètres d’un modèle linéaire », que la variance
( )
−1
des paramètres vaut Z T Z σ 2 (quelle que soit la distribution de ε ).
La figure 1-28 présente les histogrammes des paramètres wmc1 et wmc2 pour l’exemple considéré sur la
figure 1-27. Ces histogrammes ont été obtenus en engendrant 100 ensembles d’apprentissage correspon-
dant à 100 réalisations différentes du bruit, et en effectuant l’apprentissage de 100 modèles par la méthode
des moindres carrés. On observe bien des distributions gaussiennes, centrées sur les valeurs des paramè-
tres de la fonction de régression (w1p = 2, w2p = 5).

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 71/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
52

0,14 0,14

0,12 0,12

0,10 0,10
mc1

mc2
0,08
Fréquence de w

Fréquence de w
0,08

0,06 0,06

0,04 0,04

0,02 0,02

0 0
1,5 2 2,5 4,5 5 5,5
w mc1 w mc2

Figure 1-28. Distributions des paramètres d’un modèle linéaire avec bruit gaussien

Estimation de la qualité de l’apprentissage


La qualité d’un modèle linéaire est estimée par le coefficient de corrélation multiple r2 entre les données
et les prédictions.
Si U et V sont deux variables aléatoires, leur coefficient de corrélation RU ,V est défini par
cov U , V E UV – E U E V
RU , V = ---------------
- = --------------------------------------------------
-
σ Uσ V 2
E U2 – E U E V 2 – E V
2

où covU,V désigne la covariance de U et V (voir la définition de la covariance de deux variables dans


l’annexe « Éléments de statistiques » à la fin de ce chapitre).
Si U et V sont identiques, le coefficient de corrélation est une variable certaine qui vaut 1 ; si, au contraire,
ces deux variables aléatoires sont indépendantes, le coefficient de corrélation vaut 0.
Comme cela a été fait à plusieurs reprises dans ce chapitre, considérons les données yp et les prédictions
du modèle comme des réalisations de variables aléatoires. On peut alors calculer une réalisationr de la
variable R :
N

∑( g (x ,w ) − g ( x ,w ) ) ( y
mc mc
p
− yp )
k =1
r= N N
(N >> 1) .
∑( g( x, w ) − g ( x ,w ) ) ∑ (y )
2 2
p
mc mc − yp
k =1 k=1

Pour juger de la qualité du modèle, on utilise lecoefficient de détermination, dont on démontre qu’il est
une réalisation du carré du coefficient de corrélation entre les prédictions du modèle et les observations :
N
2
∑ (g( xk, w mc) – 〈y p 〉 )
2
r = k--------------------------------------------------------
=1
N
-.
2
∑ ( ypk – 〈 y p〉 )
k=1

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 72/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
53
CHAPITRE 1

Si les variables sont centrées, cette expression se réduit à :

r2 =
( xy p ) 2

.
x 2
(y ) p 2

Remarque
On retrouve ici la formule du carré du coefficient de corrélation introduit comme critère de pertinence dans la section « Sélection de
variables » ; on trouve également dans cette section l’interprétation géométrique de ce coefficient.

Pour juger « visuellement » de la qualité d’un modèle, il est très commode d’utiliser son diagramme de
dispersion, qui présente les valeurs prédites par le modèle en fonction des valeurs expérimentales
correspondantes : les points de ce diagramme sont d’autant plus proches de la première bissectrice que la
qualité de l’apprentissage est meilleure.
Remarque très importante
Rappelons qu’un apprentissage de très bonne qualité ne signifie pas que le modèle obtenu soit capable de généraliser correctement : un
modèle qui a parfaitement appris les données d’apprentissage peut être surajusté, donc généraliser très mal. Il faut ainsi considérer le
diagramme de dispersion sur les données d’apprentissage pour juger de la qualité de l’apprentissage, mais également le diagramme de
dispersion sur des données non utilisées pour l’apprentissage, afin d’estimer la capacité de généralisation du modèle.

La figure 1-29 montre le diagramme de dispersion 80

pour le modèle linéaire réalisé à partir des données 70


d’apprentissage représentées sur la figure 1-27.
60

Interprétation géométrique 50
Prédictions du modèle

La régression linéaire par la méthode des moindres 40


carrés a une interprétation géométrique simple.
30
Rappelons que le vecteur wmc des paramètres du
modèle 20

p 10
g ( z ,w) = ∑ w iz i = w ⋅ z
i =1 0

est obtenu par la relation -10

-20
(
wmc = Z TZ ) −1
Z Ty
p -20 0 20
Mesures
40 60 80

où Z est la matrice des observations. Par conséquent, Figure 1-29. Diagramme de dispersion pour les données
représentées sur la Figure 1-27.
le vecteur g(z, wmc) des prédictions du modèle sur
l’ensemble d’apprentissage est donné par

(
g ( z ,wmc ) = Zwmc = Z Z Z
T
) −1
T
Z y
p

Or la matrice Z ( Z Z )
−1
T T
Z (de dimensions N, N) n’est autre que la matrice de projection orthogonale sur
les vecteurs colonnes de la matrice Z. Le vecteur des prédictions du modèle sur l’ensemble d’apprentis-
sage est donc la projection orthogonale du vecteur yp sur le sous-espace de l’espace des observations
défini par les vecteurs colonnes de la matrice des observations Z. Ce dernier sous-espace est appelé
« espace des estimations ».

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 73/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
54

Remarque
( )
−1
La matrice Z ZT Z ZT est souvent appelée « matrice chapeau » et notée H. En effet, le vecteur des estimations effectuées par le
modèle à partir des observations y est souvent noté
ŷ ŷ = Hy
, donc : la matrice H est la matrice qui « met un chapeau » sur y.

L’interprétation géométrique de la méthode ⎛1⎞


⎜⎟
des moindres carrés est illustrée sur la figure u = ⎜1⎟
yp ⎜⎟
1-30, pour un modèle affine, dans le cas où ⎝1⎠
Espace des observations
l’espace des observations est de dimension Vecteur des observations Vecteur des résidus
3. Dans cet espace, la matrice des observa-
tions a pour expression : Hy p

⎛1 z1 ⎞ Espace des estimations

Z = ⎜1 z2 ⎟. Vecteur des estimations


⎜ ⎟
⎜1 z ⎟

du modèle
3⎠
⎛z 1 ⎞
L’espace des estimations est donc le sous- ⎜ ⎟
v = ⎜z ⎟
espace défini par les vecteurs colonnes de Z, ⎜ ⎟
2

⎝z ⎠
notés u et v respectivement. Le vecteur des 3

prédictions du modèle pour l’ensemble Figure 1-30. Méthode des moindres carrés : interprétation
d’apprentissage, ou vecteur des estimations, géométrique
est la projection orthogonale du vecteur des
observations yp sur le sous-espace des estimations. Le vecteur des différences entre les mesures et les prédic-
tions sur l’ensemble d’apprentissage est appelé vecteur des résidus. Le carré de son module est donc la somme
des carrés des erreurs sur les éléments de l’ensemble d’apprentissage. De tous les vecteurs qui joignent l’extré-
mité de yp à un point du sous-espace des estimations, c’est celui qui a le plus petit module.

Dilemme biais-variance pour les modèles linéaires


Dans les sections « Deux exemples académiques d’apprentissage supervisé » et « Dilemme biais-
variance », on a constaté sur plusieurs exemples que, pour les modèles linéaires, ce dilemme est gouverné
par le rapport du nombre de paramètres au nombre d’exemples. Ce résultat va maintenant être démontré
de manière générale pour les modèles linéaires.

Variance des paramètres d’un modèle linéaire


Les paramètres d’un modèle linéaire obtenu par la méthode des moindres carrés sont donnés par la relation
(
w mc = Z Z
T
)
−1
Z y
T p

où Z est la matrice des observations. Si l’on considère que les observations sont des réalisations de varia-
bles aléatoires, le vecteur des paramètres est lui-même une réalisation d’un vecteur aléatoire
( ) −1
Wmc = Z Z Z Y . Si les mesures de y p sont indépendantes et de même variance σ 2, la variance du
T T p

vecteur aléatoireYp est la matrice


varYp = I NNσ 2.
où INN est la matrice identité de dimension N. La variance du vecteur des paramètres d’un modèle linéaire
obtenu par la méthode des moindres carrés est donc :
(
varW mc = ZT Z ) −1
σ2.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 74/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
55
CHAPITRE 1

Démonstration
D’après la propriété rappelée ci-dessous dans la section « variance d’un vecteur aléatoire », on a :

(( Z Z) Z) = ( Z Z) Z(( Z Z) Z ) σ
T T
( )
−1 −1 −1 −1
2
varWmc = ZT Z T
Z varYp
T T T T T T

= ( Z Z) ( ) ( )
−1 −1 −1
2 2
T
ZT Z ZT Z σ = ZT Z σ

Variance de la prédiction d’un modèle linéaire


On a vu, dans la section « Dilemme biais-variance », que l’erreur de prédiction théorique est donnée par
la relation
2
P 2 = σ 2 + Ez ⎡⎣ var⎣⎡ G( z ,W) ⎤⎦⎤⎦ + E z ⎡⎣ E ⎡⎣ f ( z) − G ( z ,W)⎦⎤ ⎤⎦ .
où Ez(U) désigne l’espérance mathématique de la variable aléatoire U, considérée comme fonction du
vecteur aléatoirez.
La prédiction du modèle au point z est ici G ( z ,Wmc ) = z ⋅ Wmc , qui peut s’écrire, sous forme matricielle :
G ( z ,Wmc ) = zT Wmc . Par conséquent :
( )
var G( z, Wmc ) = zT varWmc z= zT ( Z Z) T −1 2
zσ .
Si les variables sont normalisées et centrées comme recommandé dans la section « Prétraitement des
1 1 T
(
données », ZT Z )−1
≈ I si p << N, de sorte que var G ( z, Wmc ) ≈ z z.
N NN N
( )
⎛p ⎞ p p p

( )
D’autre part : E z zT z = E z ⎜∑ z 2k ⎟= ∑ E z z 2k = ∑ E z z k
⎝ ⎠ k= 1 k= 1
( )
k= 1
( ( )) + ∑var 2

k =1
zk
. Les données étant supposées

normalisées et centrées, le premier terme de la somme est nul, et le second est égal àp. Il reste donc :
p
Ez ⎡⎣ var ⎡⎣ G( z ,W )⎤⎦ ⎤⎦ = .
N
Ainsi, on retrouve le fait que, lorsque l’on 0,22

augmente le nombre de paramètres du modèle (par 0,2

exemple en augmentant le degré du polynôme dans 0,18


le cas d’un modèle polynomial) le terme de
Estimation de la variance du modèle

0,16
variance augmente. La figure 1-31 montre l’évolu-
0,14 Pente 1/100
tion de la variance en fonction du nombre de para-
mètres, pour l’exemple décrit dans la section « Un 0,12

exemple de modélisation pour la prédiction », avec 0,1

N = 100 exemples pour l’apprentissage, et des 0,08


polynômes de degré 1 à 20. Comme pour les résul- 0,06
tats présentés sur la figure 1-11, les espérances
mathématiques portant sur Yp sont estimées par les 0,04

moyennes sur 100 ensembles d’apprentissage, et 0,02


2 4 6 8 10 12 14 16 18 20 22
l’espérance mathématique portant surz est estimée Nombre de paramètres du modèle polynomial

par une moyenne sur 1 000 points de test. On Figure 1-31. Variance d’un modèle polynomial
observe que la variance augmente linéairement en fonction du degré du polynôme (N = 100, p = 2 à 21)
avec le nombre de paramètres, la pente de la droite
valant 1/N, conformément à la relation démontrée ci-dessus.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 75/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
56

Remarque
Dans l’exemple décrit par la figure 1-11, la variance (représentée par le symbole x) ne varie pas linéairement avec le degré du polynôme. Ceci
est dû au fait que l’expression de la variance que l’on vient d’établir est vraie dans la limite des très grands ensembles d’apprentissage (N infini)
pour N = 100 cette relation est raisonnablement bien vérifiée (figure 1-31) mais ce n’est pas le cas si N vaut seulement 15 (figure 1-11).

Sélection de modèles linéaires


La sélection de modèles linéaires peut être effectuée par les méthodes décrites dans la section intitulée
« Sélection de modèles » : validation simple, validation croisée, leave-one-out. Cette dernière méthode
est efficace mais gourmande en temps de calcul. On décrit ci-dessous une alternative intéressante au
leave-one-out, qui est économe en temps de calcul : l’estimation du PRESS (Predicted REsidual Sum of
Squares) pour les modèles linéaires, et le leave-one-out virtuel pour les modèles non linéaires.
Rappelons que le leave-one-out consiste à retirer un exemple k de l’ensemble des données disponibles, à
effectuer l’apprentissage du modèle g(z, w-k) avec toutes les autres données, et à calculer l’erreur de modé-
lisation (ou résidu) sur l’exemple retiré des données :
rk−k = ykp − g( x, w − k ) .
La procédure est itérée pour chaque exemple disponible, et le score de leave-one-out est calculé :
N
1
Et =
N
∑( r ) −k 2
k
.
k=1

Dans le cas de modèles linéaires, il est possible de calculer ce score de manière exacte, en effectuant un
seul apprentissage avec toutes les données disponibles.

PRESS (Predicted REsidual Sum of Squares)


Montrons cette propriété dans le cas simple d’un modèle linéaire à un seul paramètre w. Dans ce cas, la
matrice Z se réduit à un vecteur dont les composantes sont les N mesures zi de la variable z, et la matrice
Z TZ se réduit à un scalaire :
1
( T
−1
Z Z = N ) .
∑ (z k )
2

k =1

Si l’on effectue l’apprentissage avec les N exemples disponibles, le paramètre wmc vaut alors :
N

∑z y p
k k

( )
−1
p k =1
w mc = ZT Z ZT y = N .
∑z 2
k
k=1

Supposons que l’on retire l’exemple i de l’ensemble des données disponibles, et que l’on effectue
l’apprentissage avec tous les autres exemples. Le paramètre du modèle devient :
N

∑z y k k
p N

∑z y p
− z i y ip
k =1 k k
−i k ≠i k =1
w mc = N
= N
.
∑z 2
k ∑z 2
k
k =1 k =1
k ≠i k ≠i

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 76/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
57
CHAPITRE 1

L’influence du retrait de l’exemple i sur le modèle se traduit donc par la variation de son unique
paramètre :
N N

−i
∑z y p
k k − zi yip ∑z y p
k k
ri
k= 1 k= 1
w − wmc =
mc N − N = −zi N

∑z 2
k ∑z 2
k ∑z 2
k
k =1 k =1 k =1
k ≠i k ≠i

où ri est le résidu (erreur de modélisation) sur l’exemple i lorsque celui-ci est dans l’ensemble
d’apprentissage :
N

∑z y k k
p

ri = yi p − wmc zi = yi p − k=1
N
zi .
∑z 2
k
k =1

Montrons à présent que l’on peut calculer l’erreur ri–i commise lorsque l’exemple i a été retiré de
l’ensemble d’apprentissage en fonction de ri :

ri ri
(
ri−i − ri = − wmc
−i
)
− w mc z i = zi2 N = zi2 N
,
∑ z2k ∑ z 2k − z 2i
k =1 k =1
k ≠i

et par conséquent :

ri z2
ri−i = avec hii = N i .
1 − h ii
∑ z 2k
k =1

Cette relation rend donc inutile la réalisation de N apprentissages successifs, puisque l’on peut calculer
exactement l’erreur de modélisation qui aurait été commise sur l’exemplei si celui-ci avait été retiré de
l’ensemble d’apprentissage.
La quantité h ii est appelée levier de l’exemple i, compris entre 0 et 1. Elle est présentée de manière plus
détaillée dans la section suivante.
À partir de cette relation, on peut définir le PRESS (Predicted REsidual Sum of Squares)Ep, par analogie
avec le score de leave-one-out E t :

2
1 N ⎛ ri ⎞ .
Ep = ∑ ⎝1 − h ⎟
N k =1 ⎜ ii ⎠

Dans le chapitre 2, une extension de ces résultats aux modèles non linéaires sera présentée sous le nom de
« leave-one-out virtuel ».

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 77/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
58

Les leviers
Ce résultat peut être étendu au cas où le modèle possède p paramètres. Le levier de l’exemple i est alors
l’élément diagonal i de la matrice chapeau

( )
−1
T T
H= Z Z Z Z .
Cette matrice étant une matrice de projection orthogonale, les leviers possèdent les propriétés suivantes
(aisément vérifiées sur l’expression des leviers dans le cas d’un modèle à un seul paramètre, présenté dans
la section précédente) :
N
0 < hii < 1 ; ∑h ii = p.
i =1

Cette dernière relation fournit une interprétation intéressante des leviers :le levier de l’exemple i est la
proportion des paramètres qui est utilisée pour modéliser l’exemple i. Ainsi, un exemple qui possède un
grand levier a une grande importance pour le modèle : en d’autres termes, le modèle est très sensible au
bruit présent sur la mesure de yp pour l’exemple i. Il y a un risque de surajustement à l’exemple i.
Cet effet est illustré sur la figure 1-32.

1 + 1 +
(a) (b)

0,6 0,6

0,2 + 0,2
+ +
- 0,2 - 0,2
+
- 0,6
+ - 0,6
+

-1 -1
-1 - 0,6 - 0,2 x0,2 0,6 1 -1 - 0,6 - 0,2 x0,2 0,6 1
1 +
(c)
Leviers = 0,495
0,6

0,2 +
+
- 0,2 Leviers = 0,005
+
- 0,6

-1
-1 - 0,6 - 0,2 x0,2 0,6 1
Figure 1-32. Interprétation des leviers

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 78/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
59
CHAPITRE 1

On dispose de 4 points expérimentaux, et l’on postule un modèle à un paramètre. La figure (a) montre le
modèle linéaire ainsi obtenu. Supposons qu’une autre mesure effectuée en x = − 0,1 donne un résultat
différent, comme indiqué sur la figure (b) ; on obtient alors le modèle représenté en trait plein, très peu
différent du modèle précédent, représenté en pointillé. Supposons en revanche que ce soit le point en
x = − 1 qui soit affecté (figure (c)). On obtient alors le modèle représenté en trait plein, très différent du
modèle initial. On observe ainsi que le point situé enx = − 1 a beaucoup plus d’influence sur le modèle
que le point situé en x = − 0,1. Ceci se traduit par des leviers de valeurs très différentes, dans un facteur à
peu près égal à 100 : les points situés enx = − 1 et x = 1 sont 100 fois plus importants pour le modèle que
les points situés en x = − 0,1 et x = + 0,1. Les expériences qui ont été effectuées pour obtenir ces deux
résultats étaient donc à peu près inutiles : il aurait été plus profitable de répéter les mesures enx = − 1 et x = +
1, afin de « moyenner » le bruit en ces points. On note que, conformément à ce qui a été indiqué plus haut,
la somme des leviers est égale à 1, qui est le nombre de paramètres du modèle postulé.

Cette illustration numérique met en lumière l’intérêt des plans d’expériences, qui permettent de choisir
les mesures les plus judicieuses pour établir un modèle prédictif précis.

Moindres carrés par orthogonalisation de Gram-Schmidt


Dans la section « Apprentissage de modèles linéaires en leurs paramètres », on a présenté une détermina-
tion algébrique du vecteur des paramètres pour lesquels la fonction de coût des moindres carrés est mini-
male, ainsi qu’une interprétation géométrique de ce résultat. La solution algébrique nécessite le calcul de
l’inverse d’une matrice. La méthode d’orthogonalisation de Gram-Schmidt permet d’obtenir le même
résultat de manière itérative, paramètre par paramètre ; elle est simple à comprendre dans le cadre de
l’interprétation géométrique de la méthode des moindres carrés. Elle a déjà été rencontrée dans le cadre
de la sélection de modèle, dans la section « Méthode de la variable sonde ».

On considère l’espace des observations, de dimension N, dans lequel la grandeur à modéliser est repré-
sentée par un vecteur yp , et chacune des variables est représentée par un vecteur zi, i = 1 à p ; rappelons
que p est le nombre de paramètres du modèle et que N est le nombre d’observations de l’ensemble
d’apprentissage. L’algorithme est une application simple du théorème des trois perpendiculaires :
• choisir une variable i représentée par le vecteur zi ;

yp ⋅ zi
• projeter yp sur la direction de zi , ce qui fournit le paramètre wmci de la variable i : w mci = ;
zi
• projeter le vecteur des résidus ri = yp − w mci zi , le vecteur yp, et tous les vecteurs zji sur le sous-espace
orthogonal à zi ;
• projeter la projection de y p sur la projection d’un deuxième vecteur zj, ce qui fournit un deuxième para-
mètre du modèle ;
• itérer jusqu’à épuisement des variables du modèle.

La figure 1-33 présente l’algorithme dans le cas N = 3, p = 2. Les prédictions du modèle pour l’ensemble
d’apprentissage sont représentées par g(z, w), projection orthogonale de yp sur l’espace des estimations,
qui est donc une combinaison linéaire de z1 et z2. On peut obtenir ce vecteur en projetant d’abord sur un
des vecteurs des variables (iciz1), puis en projetant orthogonalement r1 et z2 sur le sous-espace orthogonal
à z1. Ce résultat s’obtient par application répétée du théorème des trois perpendiculaires.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 79/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
60

Cet algorithme est celui qui est utilisé pour établir yp


le classement des variables candidates en vue de la
sélection de variables. La seule différence réside
dans le fait que les projections ne se font pas dans
n’importe quel ordre, mais en tenant compte des
corrélations entre les vecteurs, comme indiqué r1
Espace des
dans la section « méthode de la variable sonde ».
observations
Espace des
estimations
Éléments de statistiques z1
g(z, w)
Cette introduction aux statistiques, à l’usage du
lecteur peu familier avec celles-ci, termine ce z2
chapitre introductif. Il existe de très nombreux
ouvrages classiques (par exemple, [MOOD 1974],
[WONNACOTT 1990]) auxquels le lecteur peut se Sous-espace
orthogonal à
référer pour plus de détails, notamment pour la z1
démonstration de certains résultats.
Figure 1-33. Moindres carrés par Gram-Schmidt
Qu’est-ce qu’une variable
aléatoire ?
Une variable aléatoire est une abstraction commode pour représenter une grandeur (par exemple, le
résultat d’une mesure) lorsque sa valeur n’est pas certaine. On considère alors que la valeur de cette
variable est la réalisation d’une variable aléatoire ; cette dernière est entièrement déterminée par sa
« densité de probabilité » (ou simplement « densité », ou encore « distribution » ou « loi »).

Définition

Soit pY(y) la densité de probabilité d’une variable aléatoire Y : la probabilité pour que la valeur d’une
réalisation de Y soit comprise entre y et y+dy vaut pY(y)dy.

Ainsi, si l’on traite une grandeur mesurable comme une variable aléatoire, on fait comme si le résultat de
la mesure de cette grandeur était le résultat d’un tirage au sort dans un ensemble de valeurs possibles de
y, avec la distribution (généralement inconnue) pY(y). Utiliser une variable aléatoire pour modéliser le
résultat d’une mesure ne signifie pas du tout que l’on considère la grandeur mesurée comme régie par des
lois non déterministes : la variable aléatoire est un outil mathématique, dont l’utilisation est très commode
lorsque les facteurs qui déterminent le résultat de la mesure ne sont pas connus, ou sont connus mais non
maîtrisés ni mesurés.
Ainsi, le lancer d’un dé est un phénomène parfaitement déterministe, qui obéit à toutes les lois de la
physique : si l’on connaissait la position initiale de la main du joueur, si l’on pouvait mesurer la vitesse
initiale du dé, et si l’on connaissait les caractéristiques mécaniques de la matière dont sont constitués le
dé et la table sur laquelle on le lance, on pourrait prédire exactement le résultat du lancer. Dans la pratique,
comme toutes ces grandeurs ne sont pas connues et pas mesurées, il est commode demodéliser ce résultat
comme la réalisation d’une variable aléatoire. Dans ce cas particulier, cette variableY est une variable
discrète, qui ne peut prendre que 6 valeurs, et, pour un dé non pipé, la probabilité de réalisation de
chacune de ces valeurs est égale à 1/6.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 80/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
61
CHAPITRE 1

De même, les méthodes statistiques sont susceptibles de prévoir les résultats d’une élection, alors que
chaque citoyen ne vote pas au hasard, mais en fonction de ses convictions.

Propriété

La densité de probabilité pY(y) est la dérivée première de la fonction de répartition ou probabilité


dFY ( y )
cumulée : pY ( y) = avec FY ( y ) Probabilité ( Y y ).
dy ≤ =

Remarque
Toute réalisation y de la variable aléatoire Y étant comprise entre – ∞ et + ∞, on a évidemment
+∞
FY ( −∞) = 0 , FY (+∞ ) = 1 et ∫ p Y ( y ) dy = 1.
-∞

Variable certaine

Une variable certaine de valeur y0 est une variable aléatoire dont la densité de probabilité est une
distribution de Dirac δ ( y − y0 ).

Exemples de densités de probabilités (ou lois)


■ Densité de probabilité uniforme
Une variable aléatoire Y a une distribution uniforme si sa densité de probabilité vaut pY ( y) = 1 ( b − a )
sur un intervalle [a, b], et est nulle partout ailleurs.
■ Densité de probabilité gaussienne
1 ⎛ (y − μ )2 ⎞
La distribution gaussienne pY ( y ) = exp ⎜− 2 ⎟ est très fréquemment utilisée. μ est la
2πσ 2 ⎝ 2σ ⎠
moyenne de la gaussienne et σ (>0) est son écart- 0,4

type. La figure 1-34 représente une distribution


0,35
normale centrée réduite (ou simplement loi
normale), qui est une distribution gaussienne avec 0,3
μ = 0 et σ = 1. Les aires hachurées indiquent que la
0,25
probabilité pour qu’une réalisation d’une variable
suivant une loi normale soit comprise entre –1 et
p Y(y)

0,2

+1 vaut environ 0,68, et que la probabilité pour


0,15
qu’elle soit entre –2 et +2 vaut environ 0,96.
0,1
■ Autres densités de probabilité
0,05
Les distributions de Pearson (ou du χ 2),
de Student
et de Fisher sont présentées plus loin. 0
-5 -4 -3 -2 -1 0 1 2 3 4 5
y

Figure 1-34. Loi normale

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 81/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
62

Densités de probabilités conjointes


Soit p X ,Y ( x , y) la densité de probabilité conjointe de deux variables aléatoires X et Y : la probabilité pour
qu’une réalisation de X soit comprise entre x et x+dx et qu’une réalisation de Y soit comprise entre y et
y+dy vaut p X ,Y ( x ,y ) dx dy .

Variables aléatoires indépendantes

Deux variables aléatoires X et Y sont indépendantes si la probabilité de réalisation d’une des variables
est indépendante de la probabilité de réalisation de l’autre. On a donc p X ,Y ( x, y ) = p X ( x ) pY ( y ).

Densités de probabilités conditionnelles


Soient deux variables aléatoires X et Y. La probabilité pour qu’une réalisation de la variable Y soit
comprise entre y et y+dy lorsque la variable X prend la valeur x est notée pY ( y x ) dy , où pY ( y x ) est la
densité de probabilité de y sachant x ou densité de probabilité conditionnelle de y. On a donc

p X ,Y (x , y ) = pY ( y x ) p X ( x ) = p X ( x y ) pY ( y)

Remarque :
Si les variables sont indépendantesp:Y (y x ) = pY ( y) et pX( x y) = pX ( x) .

Vecteur aléatoire
Un vecteur aléatoire est un vecteur dont les composantes sont des variables aléatoires.

Espérance mathématique d’une variable aléatoire

Définition

+∞
L’espérance mathématique d’une variable aléatoire Y est EY = ∫ ypY ( y ) dy .
−∞

L’espérance mathématique d’une variable aléatoire est donc le premier moment de sa densité de probabi-
lité.

Propriétés
Il est facile de démontrer les propriétés suivantes :
• l’espérance mathématique d’une somme de variables aléatoires est la somme des espérances mathéma-
tiques des variables aléatoires ;
• l’espérance mathématique du produit de deux variables indépendantes est égale au produit de leurs
espérances mathématiques ;
• l’espérance mathématique d’une variable certaine de valeur y0 est égale à y0 ;
• si une variable Y obéit à une distribution uniforme sur un intervalle [a, b], son espérance mathématique
vaut (a+b)/2 ;
• si une variable Y suit une loi gaussienne de moyenne μ , son espérance mathématique vaut μ .

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 82/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
63
CHAPITRE 1

Comme nous l’avons vu dans la section « Éléments de la théorie de l’apprentissage », l’objectif de tout
apprentissage est d’obtenir une estimation fiable de l’espérance mathématique de la grandeur à modéliser.
À cet effet, il est utile d’introduire le concept d’estimateur.

Estimateur non biaisé


Un estimateur est une variable aléatoire, fonction d’une ou plusieurs variables aléatoires observables ;
une variable aléatoire est observable si ses réalisations sont mesurables.

Définition

Un estimateur H d’un paramètre de la distribution d’une variable aléatoire observable Y est dit « non
biaisé » si son espérance mathématique E H est égale à ce paramètre. Alors une réalisation de H
constitue une estimation non biaisée du paramètre de la distribution.

Estimateur non biaisé d’une variable certaine

D’après la définition précédente, un estimateur d’une variable certaine est non biaisé si son espérance mathématique est égale la valeur
de la variable certaine.

Ainsi, chercher à estimer les paramètres w d’un modèle, c’est-à-dire faire l’apprentissage d’un modèle,
revient à chercher des estimateurs non biaisés des paramètres, ces derniers étant considérés comme des
variables certaines. C’est cette approche, dite fréquentiste, qui est décrite dans le présent ouvrage.
L’approche bayesienne qui considère les paramètres du modèle comme des variables aléatoires, permet
également d’obtenir d’excellents résultats, comme décrit par exemple dans [NEAL 1996] ; la description
de cette approche sort du cadre de cet ouvrage.

La moyenne est un estimateur non biaisé de l’espérance mathématique


Supposons que l’on ait effectué N mesures d’une grandeur Y, dans des conditions supposées identiques. On modélise cette grandeur par
une variable aléatoire dont l’espérance mathématique Y est
E inconnue. Le résultati yde la mesure i peut être considéré comme une réali-
sation d’une variable aléatoirei.Y
Supposons que le résultat d’une mesure n’affecte pas les résultats des autres mesures, ce qui est raison-
nable pour une expérience bien conçue : toutes ces variables aléatoires sont donc mutuellement indépendantes, et, puisque les mesures
ont été effectuées dans des conditions identiques, elles ont des distributions de probabilité identiques ; elles ont donc notamment la même
espérance mathématiqueEY.

Considérons la variable aléatoire M =1+(YY2+ … + Y


N) / N. Puisque l’espérance mathématique d’une somme de variables aléatoires est
la somme des espérances mathématiques de ces variables, on a évidemment M =EEY : l’espérance mathématique de la variable aléatoire
M (appelée « moyenne ») est bien égale à l’espérance mathématique de la variable aléatoire Y. La grandeur 1 +my2=+(y… + y
N) / N,
réalisation de l’estimateur de l’espérance mathématique de Y, constitue une estimation non biaisée de cette dernière.

Il reste à évaluer la qualité de cette estimation : le fait qu’elle soit non biaisée ne garantit pas qu’elle soit
précise : sa précision dépend du nombre et de la « qualité » des mesures effectuées, c’est-à-dire de la
dispersion des mesures autour de l’espérance mathématique. Pour caractériser numériquement cette
dispersion, on utilise la notion devariance.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 83/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
64

Variance d’une variable aléatoire

Définition

La variance d’une variable aléatoire Y de distribution pY(y) est la quantité


+∞
varY = σ 2 = ∫−∞
[ y − EY ] pY ( y ) dy.
2

La variance est donc le deuxième moment centré de la distribution de probabilité.

Remarque
La variance est également l’espérance mathématique [de
Y − EY ] varY: = E
2
.
(Y − EY ) 2

Propriétés
• Une variable certaine a une variance nulle.
• varY = E Y 2 − ( EY ) .
2

• varaY = a 2 varY .
• Si une variable aléatoire obéit à une distribution uniforme sur un intervalle [a, b], sa variance vaut
(b–a)2 /12.
• Si une variable aléatoire obéit à une loi gaussienne d’écart-typeσ , sa variance vaut σ2.

Estimateur non biaisé de la variance d’une variable aléatoire


Rappelons que, pour introduire l’estimateur moyenne M (estimateur non biaisé de l’espérance mathéma-
tique), on a considéré que N mesures, mutuellement indépendantes, d’une grandeur Y ont été effectuées,
et elles ont été modélisées comme des réalisations de variables aléatoires Yi de distributions identiques.

Estimateur non biaisé de la variance

1 N
∑ (Yi − M) est un estimateur non biaisé de la variance de Y.
2
La variable aléatoireS2 =
N −1 i= 1

Si l’on dispose de N résultats de mesures yi , il faut donc, pour estimer la variance, calculer d’abord la
N
1
valeur de la moyenne m =
N
∑y , i puis calculer l’estimation de la variance par la relation :
i =1

1 N
∑ ( yi − m) .
2
s2 =
N − 1 i=1
L’estimation de la variance permet donc d’évaluer, de manière quantitative, la dispersion des résultats des
mesures autour de leur moyenne. La moyenne étant elle-même une variable aléatoire, elle possède une
variance : on pourrait effectuer plusieurs séries de mesures, calculer la moyenne de chacune de ces séries,
puis estimer la variance de la moyenne, laquelle caractériserait la dispersion de l’estimation de la grandeur
à modéliser. Néanmoins, cette procédure est lourde puisqu’elle requiert que l’on effectue plusieurs séries
de mesures, dans des conditions supposées identiques.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 84/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
65
CHAPITRE 1

Covariance de deux variables aléatoires


La covariance de deux variables aléatoires U et V est définie par :

covU ,V = E (U −EU )(V −EV ) = EUV − EU EV .

Remarque
On a vu plus haut que
varY = E .
(Y− EY )
2

La variance d’une variable aléatoire est donc la covariance de cette variable et d’elle-même.

Variance d’un vecteur aléatoire

⎛u ⎞
⎜ 1 ⎟
⎜ ⎟
Étant donné un vecteur aléatoire U = ⎜ u 2 ⎟, de dimension p, sa variance est la matrice (p, p) donnée
⎜M ⎟
⎜ ⎟
⎝ up ⎠
par :

⎛ varu cov u , u L cov u , u ⎞


⎜ 1 1 2 1 p ⎟
⎜ cov u , u varu L L ⎟
var U = ⎜ 1 2 2 ⎟.
⎜ M M O M ⎟
⎜ ⎟
⎝ L L L var u p ⎠

Propriété

Si A est une matrice certaine : var AU = AvarU AT .

Autres distributions utiles


Loi de χ 2 (ou de Pearson)
Si une variable aléatoire X est la somme des carrés de N variables gaussiennes indépendantes, elle obéit à
une loi de χ 2 (ou de Pearson) à N degrés de liberté. Alors EX = N et varX = 2N.

Loi de Student
Si Y1 est une variable de distribution normale, et si Y2 est une variable aléatoire, indépendante de Y1, obéis-
Y1
sant à une loi de Pearson àN degrés de liberté, alors la variable aléatoire Z = obéit à une loi de
Y2 / N
Student à N degrés de liberté.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 85/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
66

Loi de Fisher
Si Y1 est une variable aléatoire de Pearson à N1 degrés de liberté, et si Y 2 est une variable aléatoire de
Y / N1
Pearson à N 2 degrés de liberté, alors la variable aléatoire Z = 1 obéit à une loi de Fisher à N1 et N2
degrés de liberté. Y2 / N2

Intervalles de confiance
Dans les sections précédentes, nous avons vu que l’estimation d’une grandeur dépend à la fois du nombre
d’expériences et de la variabilité des observations. On peut combiner élégamment la taille de l’échantillon
et sa variabilité pour évaluer la différence qui peut exister entre l’estimation d’une grandeur et sa « vraie »
valeur.

Définition

Un intervalle de confiance, au seuil de confiance 1 – α , pour une variable aléatoire Y, est un intervalle
qui, avec une probabilité 1 – α , contient la valeur de l’espérance mathématique de Y.

En conséquence, plus l’intervalle de confiance est petit, plus on peut avoir confiance en l’estimation de la
grandeur à modéliser.
Ainsi, supposons que l’on ait réalisé 100 ensembles de mesures ; à partir de celles-ci, on peut calculer 100
moyennes, 100 estimations de la variance, et 100 intervalles de confiance à 95 % (α = 0,05). Alors, pour
95 % de ces ensembles de données, l’intervalle de confiance contient la moyenne ; on ne peut évidem-
ment pas garantir que, pour un ensemble particulier de mesures, la vraie valeur soit à l’intérieur de l’inter-
valle de confiance calculé à partir de cet ensemble de mesures.

Conception d’un intervalle de confiance


Pour concevoir un intervalle de confiance pour une variable aléatoire Y, il faut trouver une variable aléa-
toire Z, fonction de Y, dont la distribution pZ ) soit connue et
z2
l’équation Pr(de
pZ (z) est connue, il est facile de résoudre(zindépendante z < z 2 ) =la∫ distribution
< Puisque
z1 Y. pZ ( z) dz = 1 − α : il suffit
z1
d’inverser la fonction de répartition de Z, c’est-à-dire trouver la valeur z1 de z telle que Pr(z < z1) = α / 2,
et la valeur z2 de z telle que Pr(z > z2) = α / 2. Une fois déterminées les valeurs de z1 et de z2 , on inverse la
fonction Z(Y) afin de trouver les valeurs a et b de y telles que Pr(a < y < b) = 1 −α .

Exemple : conception d’un intervalle de confiance pour la moyenne


Le tout premier exemple d’apprentissage qui a été considéré dans ce chapitre consistait en l’estimation de
l’unique paramètre w d’un modèle constant ; on a vu que ce paramètre n’était autre que l’espérance
mathématique de la grandeur à modéliser. On a également vu que la moyenne est un estimateur non biaisé
de l’espérance mathématique. On se pose donc la question suivante : étant donné un ensemble de mesures
d’une grandeur, dont on a calculé la moyenne pour estimer son espérance mathématique, quelle confiance
peut-on accorder à cette estimation ?
Supposons donc, comme précédemment, que N expériences ont été effectuées, et que l’on peut modéliser
les résultats de ces expériences comme N réalisations de variables aléatoires Yi indépendantes et de même
distribution. De plus, supposons que la distribution commune à ces variables est une distribution gaus-
sienne de moyenne μ et de variance σ 2.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 86/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
67
CHAPITRE 1

Il est facile de démontrer que la somme de N variables gaussiennes indépendantes est une variable gaus-
sienne dont la moyenne est la somme des moyennes, et dont la variance est la somme des variances. Ici
les distributions des N variables sont identiques, dont la moyenne est une gaussienne de moyenne Nμ et
de variance Nσ 2. Leur moyenne M obéit donc à une loi gaussienne de moyenne μ et de variance σ 2/N ; par
conséquent la variable aléatoire M − μ obéit à une loi normale (gaussienne de moyenne nulle et de
σ / N
variance unité).
Rappelons que l’on cherche à établir deux bornes pour l’espérance mathématiqueμ, qui doivent être de la
forme m ± a, où m est la moyenne des mesures et a le demi-intervalle de confiance. On peut prévoir que
l’intervalle de confiance croît avec la variance des mesures et décroît avec leur nombre.
1 N Comme2 indiqué
plus haut, l’estimateur non biaisé de la variance est la variable aléatoireS 2 = ∑(Yi − M ) . Il est
N − 1 i=σ12 ; les variables Y
commode de normaliser cette variable en la divisant par son espérance mathématique i
étant supposées gaussiennes, la variable aléatoire M est également gaussienne, donc (N – 1) S2/ σ2 est la
somme de N – 1 variables gaussiennes indépendantes (il n’y a que N – 1 variables indépendantes puisque
M dépend des Yi ) ; elle obéit donc à une loi de Pearson.
M μ
D’autre part, comme indiqué plus haut, la variable aléatoire − obéit à une loi normale.
σ/ N
M −μ
M −μ
Par conséquent, la variable aléatoire Z = σ / N = obéit à une loi de Student à N – 1 degrés
S2 /σ 2 S2 / N
de liberté. La distribution de Student étant symétrique, il suffit alors de chercher la valeur de z0 telle
qu’une variable de Student soit comprise entre –z0 et +z0 avec la probabilité 1 − α , soit encore telle qu’une
variable de Student soit comprise entre−∞ et z0 avec la probabilité α / 2. À partir des résultats expérimen-
taux, on peut calculer une réalisation m de M, une réalisation s de S, et une réalisation z de Z par les rela-
1 N 1 N m−μ
∑ yi , s = N − 1 ∑= ( yi − m) et z = s 2 / N . Avec une probabilité 1− α, l’estimation m de
2
tions m =
N i= 1 i 1
μ se trouve à l’intérieur de l’intervalle de confiance si z est dans l’intervalle [− z0 , + z0] :

m− μ
−z0 < < + z0
s2 / N
soit
m − z0 s 2 / N < μ < m + z 0 s2 / N .
L’intervalle de confiance recherché est donc l’intervalle centré sur l’estimation de la moyennem, et de
demi-largeur z 0 s 2 / N .

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 87/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
68

La figure 1-35 représente l’inverse de la distribu- 5


tion de probabilité cumulée d’une variable de 4
Student, pour différentes valeurs de N. On observe
3
que, au-delà de N = 10, la distribution devient à peu N=3
près indépendante de N (elle est d’ailleurs très 2

voisine d’une distribution normale) ; pour un

Variable de Student
1

niveau de confiance de 0,95, on voit que z0 ≈ 2 pour 0 N = 10


N = 100
N ≥ 10, de sorte que la largeur de l’intervalle de -1
confiance pour est à peu près 2 s2 / N = 2 s / N . -2
La largeur de l’intervalle de confiance est donc -3
proportionnelle à s, donc au bruit de mesure, et
-4
inversement proportionnelle à la racine carrée du
nombre d’exemples : une grande variabilité dans -5
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
les mesures doit être compensée par une grande 0,025
Probabilité cumulée d’une variable de Student
0,975
taille de l’échantillon. à N degrés de liberté
Figure 1-35. Inverse de la probabilité cumulée
À titre d’exemple, on a simulé 10 000 séries de 100 d’une variable de Student
mesures en engendrant des réalisations d’une
variable aléatoire selon une loi normale. Pour
chaque série de mesures, la moyenne, l’estimateur de la variance, et l’intervalle de confiance déterminé
ci-dessus, au niveau de confiance 0,95 ont été calculés : dans 95,7% des cas, l’espérance mathématique
des « mesures » (égale à zéro) se trouve bien à l’intérieur de l’intervalle de confiance.
On a donc établi ici un intervalle de confiance pour l’estimation de l’espérance mathématique, ou, en
d’autres termes, de l’unique paramètre d’un modèle constant. Il est très important de pouvoir fournir un
intervalle de confiance sur les prédictions fournies par un modèle. On en rencontrera de nombreux exem-
ples dans cet ouvrage.

Tests d’hypothèse
On a vu plus haut que des étapes importantes dans la conception d’un modèle par apprentissage artificiel,
telles que la sélection de variables ou la sélection de modèles, nécessitent de prendre des décisions (sélec-
tionner ou rejeter un modèle ou une variable) à partir des informations disponibles, qui sont généralement
en nombre limité. Il faut donc prendre ces décisions de manière raisonnée. Les tests d’hypothèse sont les
outils appropriés pour ce genre de situation. Ils permettent de faire une hypothèse et d’établir une des deux
conclusions suivantes, avec un risque d’erreur fixé :
• les données confirment cette hypothèse,
• le fait que les données semblent confirmer cette hypothèse est simplement le résultat d’un concours de
circonstances improbable, lié à la petite taille de l’échantillon et à la variabilité des mesures.
De nombreux tests d’hypothèses, adaptés à une grande variété de situations, ont été proposés (voir par
exemple [LEHMANN 1993]).
Le principe d’un test d’hypothèse est le suivant : pour tester la validité d’une hypothèse (appelée
« hypothèse nulle » et traditionnellement notée H 0), on cherche à établir l’expression d’une variable aléa-
toire qui suit une loi connue si l’hypothèse nulle est vraie, et dont on peut calculer une réalisation à partir
des données disponibles. Si la probabilité pour que cette réalisation se trouve dans un intervalle donné est
« trop faible », on considère que la probabilité pour que l’hypothèse nulle soit vraie est trop faible : on la
rejette donc.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 88/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
69
CHAPITRE 1

À titre de première illustration, supposons qu’un modèle prédise que la grandeur à modéliser, par exemple
l’unique paramètre d’un modèle constant a une certaine valeur 0. On dispose d’un ensemble de N obser-
,w si elles confirment l’hypothèse selon laquelle la grandeur a
vations de cette grandeur, et l’on veut savoir
pour « vraie » valeur w0 . Ces mesures sont modélisées comme des réalisations de N variables aléatoires Yi
supposées gaussiennes, d’espérance mathématique μ et de variance σ 2. L’hypothèse nulle est donc
H0 : w0 = μ, et l’hypothèse alternative est w0 ≠ μ.
Nous avons vu dans la section précédente que, si l’hypothèse nulle est vraie, c’est-à-dire siw 0 = μ, la
M − w0
variable aléatoire Z = , obéit à une loi de Student à N – 1 degrés de liberté (M est l’estimateur de
S2 / N
l’espérance mathématique, S2 est l’estimateur de la variance). À partir des N données disponibles, on peut
calculer une réalisation z de cette variable aléatoire. D’autre part on peut calculer la valeur z0 telle que la
probabilité pour qu’une réalisation de la variable aléatoire soit à l’extérieur de l’intervalle [–z0 , +z0 ] est
égale au risque choisi 1 − α . Si la réalisation observée z est à l’extérieur de cet intervalle, on peut consi-
dérer que les données ne confirment pas de manière significative l’hypothèseH 0 ; on rejette donc celle-ci,
avec un risque 1 − α de se tromper. En outre, il faut définir le niveau de risque d’erreur, noté 1 − α, que
l’on est disposé à admettre, l’erreur consistant à rejeter l’hypothèse nulle alors quelle est vraie (erreur de
type 1).
Supposons par exemple qu’une théorie prévoie qu’une grandeur vautw 0 = 1. Supposons que l’on dispose
de 100 mesures de cette grandeur, dont la moyennem vaut 2 et l’écart-type vaut s = 10 : ces mesures sont
donc très dispersées autour de la moyenne. On se pose la question : ces données confirment-elles l’hypo-
thèse selon laquelle w0 vaut 1 ? La réalisation de la variable aléatoire z vaut
m − w0
z= = 1.
s2 / N
En se reportant à la figure 1-35, on voit que z0 ≈ 2
(pour α = 0,95), de sorte que z est dans l’intervalle
[– z0 , +z0 ]. On accepte donc l’hypothèse nulle au
vu des données disponibles. À l’inverse, si les 5

données disponibles ont toujours pour moyenne 4


m = 2, mais avec une dispersion beaucoup plus 3
petite, par exemple s = 3, alors z = 3,3 ; dans ces
2
conditions, on est amené à rejeter l’hypothèse
nulle.
Variable de Student

1
ACCEPTATION
La « certitude » avec laquelle on accepte l’hypo- 0 DE L’HYPOTHÈSE NULLE

thèse nulle est exprimée par la «p-valeur » de la -1


réalisation z de la variable aléatoire Z. C’est la -2
probabilité pour qu’une réalisation de Z soit à
-3
l’extérieur de l’intervalle ⎡⎣ − z , + z ⎤⎦ si l’hypothèse
nulle est vraie : la p-valeur de z0 est donc 1 – α . -4

Ainsi, dans l’exemple précédent, la p-valeur de -5


0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
z = 1 vaut 0,32, ce qui signifie que l’on est raison-
nablement sûr de ne pas se tromper en acceptant 0,16 Probabilité cumulée d’une variable de Student
à 100 degrés de liberté
0,16

l’hypothèse nulle (figure 1-36). En revanche, la p-


Figure 1-36. p-valeur de z = 1
valeur de z = 3,3 vaut 8 10-3 : accepter l’hypothèse
nulle serait donc extrêmement risqué.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 89/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
70

Notons que la p-valeur de z = 0 vaut 1, ce qui veut dire que l’on accepte l’hypothèse nulle avec la plus
grande certitude possible ; c’est naturel, puisque z = 0 correspond au cas où la moyenne est égale à la
valeur postulée de l’espérance mathématique.
Remarque
Dans ce cas particulier, le test d’hypothèse consiste à regarder si la valeur de la moyenne dont on fait l’hypothèse se trouve dans l’intervalle
de confiance calculé au paragraphe précédent, et à rejeter l’hypothèse nulle si cette valeur est à l’extérieur de cet intervalle.
Un autre exemple de test d’hypothèses (test de Fisher) est décrit dans la section « Sélection de variables ».

Conclusion
Dans ce chapitre, les fondements de l’apprentissage statistique et de sa mise en œuvre ont été décrits de
manière succincte ; on en trouvera une présentation beaucoup plus détaillée dans [HASTIE 2001] par
exemple. Pendant longtemps, les efforts de recherche en apprentissage artificiel ont porté essentiellement
sur les familles de modèles et les algorithmes d’apprentissage. Le nombre et la variété des applications,
leur difficulté et leur exigence croissantes, ont rendu nécessaires la mise en place d’un corps de doctrine
et d’une méthodologie qui englobent tous les aspects de la conception de modèle par apprentissage
statistique : sélection de variables, sélection de modèle, planification d’expériences, estimation d’inter-
valles de confiance sur les prédictions, sont au moins aussi importantes que l’apprentissage lui-même. Les
méthodes qui ont été décrites ou esquissées dans ce chapitre peuvent être mises en œuvre pour la plupart
des grandes familles de modèles. Les chapitres suivants de cet ouvrage sont consacrés à différents types
de modèles − réseaux de neurones, cartes auto-organisatrices, machines à vecteurs supports – dont on
montrera les spécificités, la mise en œuvre, et les applications.

Bibliographie
BJÖRCK A. [1967], Solving linear least squares problems by Gram-Schmidt orthogonalization. BIT, 7,
p. 1-27.
C HEN S., BILLINGS S. A., LUO W. [1989], Orthogonal least squares methods and their application to non-
linear system identification, International Journal of Control, 50, p. 1873-1896.
DRAPER N. R., SMITH H. [1998], Applied regression analysis, John Wiley & Sons.
DREYFUS G., G UYON I. [2006], Assessment Methods, in Feature Extraction, Foundations and Applica-
tions, I. Guyon, S. Gunn, M. Nikraveh, L. Zadeh, eds. (Springer), p. 65-88.
G L. [2006],
Springer.
UYON I., GUNN S., NIKRAVESH M., ZADEHFeature Extraction, Foundations and Applications,

HASTIE T, T IBSHIRANI R., F RIEDMAN J. [2001], The elements of statistical learning, data mining, infer-
ence and predictions, Springer.
KULLBACK S. [1959], Information Theory and Statistics, Dover Publications.
L AGARDE DE J. [1983], Initiation à l’analyse des données, Dunod, Paris.
L EHMANN E. L. [1993], Testing statistical hypotheses, Chapman & Hall.
MOOD A. M., GRAYBILL F. A., BOES D. C. [1974], Introduction to the Theory of Statistics, McGraw-Hill.
NEAL R. M. [1996] Bayesian Learning for Neural Networks, Springer.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 90/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
L’apprentissage statistique : pourquoi, comment ? .html
71
CHAPITRE 1

SEBER G. A. F. [1977], Linear Regression Analysis, Wiley


STOPPIGLIA H. [1997], Méthodes statistiques de sélection de modèles neuronaux ; applications finan-
cières et bancaires, Thèse de Doctorat de l’Université Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr .
STOPPIGLIA H., DREYFUS G., DUBOIS R., OUSSAR Y. [2003], Ranking a Random Feature for Variable and
Feature Selection,Journal of Machine Learning Research, p. 1399-1414.
VAPNIK V. [1998], The nature of statistical learning theory, Springer.
WONNACOTT T. H., WONNACOTT R. J. [1990], Statistique économie-gestion-sciences-médecine,
Economica, 4e édition, 1990.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 91/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 92/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html

2
Les réseaux de neurones

Introduction
Le premier chapitre de cet ouvrage a présenté les principes de l’apprentissage statistique, ainsi qu’une
méthodologie globale permettant de résoudre les problèmes pratiques qui se posent lorsque l’on souhaite
concevoir un modèle précis et fiable. Il reste à appliquer ces principes à des familles de modèles répondant
à des besoins spécifiques notamment, en ce qui concerne ce chapitre, aux réseaux de neurones.
Le terme de « réseau de neurones » suggère un lien fort avec la biologie. Ce lien existe : les méthodes
mathématiques décrites dans ce chapitre ont été appliquées avec succès à la modélisation des systèmes
nerveux vivants. Néanmoins, le terme est plus métaphorique que scientifique : si le lien avec la biologie a
constitué une motivation majeure des pionniers du domaine, les réels développements des réseaux de
neurones sont de nature purement mathématique et statistique ; leurs applications se situent dans des
domaines qui n’ont généralement aucun rapport avec la neurobiologie. C’est la raison pour laquelle, après
avoir fourni les définitions essentielles et énoncé la propriété fondamentale des réseaux de neurones –
l’approximation non linéaire parcimonieuse – , les classes de problèmes que les réseaux de neurones sont
susceptibles de résoudre sont rappelées : modélisation non linéaire statique ou dynamique, classification
(discrimination), modélisation semi-physique (« boîte grise ») et traitement de données structurées
(graphes). Des applications très diverses, choisies en raison de leur caractère exemplaire, sont décrites en
détail afin de fournir au lecteur des idées précises sur le type de problèmes auxquels les réseaux de
neurones sont susceptibles d’apporter des solutions élégantes.
C’est seulement après avoir décrit ces applications que sont présentés, de manière plus détaillée, les algo-
rithmes et la méthodologie de conception qu’il convient de suivre pour obtenir des résultats solides. Les
étapes de conception, décrites de manière générique dans le premier chapitre, sont abordées en détail ici :
sélection des variables, apprentissage, sélection de modèles statiques. Les modèles dynamiques sont
également présentés dans une optique de méthodologie ; ils sont décrits de manière plus détaillée dans le
chapitre 4. Des compléments théoriques et algorithmiques clôturent ce chapitre.

Réseaux de neurones : définitions et propriétés


Dans la section du premier chapitre intitulée « Quelques définitions concernant les modèles », on a intro-
duit la distinction entre modèles linéaires et modèles non linéaires en leurs paramètres.
Rappelons qu’un modèle linéaire statique est de la forme :
p
( )
g x , w = ∑ wi fi x( )
i =1

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 93/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
74

où le vecteur w est le vecteur des paramètres du modèle, et où les fonctions fi (x) sont des fonctions non
paramétrées, ou à paramètres fixés et connus, des variables x.
Les réseaux de neurones entrent dans la catégorie des modèles non linéaires en leurs paramètres. La
forme la plus courante de réseau de neurones statique est une extension simple de la relation précédente :
p
g (x ,w ) = ∑ w i f i ( x ,w′ )
i =1

où les fonctions fi (x, w’), appelées « neurones », sont des fonctions paramétrées qui seront définies dans
la section suivante.

Les neurones

Définition

Un neurone est une fonction non linéaire, paramétrée, à valeurs bornées.

Suivant en cela l’usage, on utilisera fréquemment, par abus de langage, le terme de « neurone linéaire »
pour désigner une fonction paramétrée linéaire ou affine (qui n’est donc pas bornée).
Les variables sur lesquelles opère le neurone sont souvent y
désignées sous le terme d’entrées du neurone, et la valeur de la
fonction sous le terme de sortie. Reprenant le graphisme de la
figure 1-22 du premier chapitre, il est commode de représenter
graphiquement un neurone comme indiqué sur la figure 2-1.
Cette représentation est le reflet de l’inspiration biologique qui
a été à l’origine de la première vague d’intérêt pour f
les neurones formels, dans les années 1940 à 1970
[McC ULLOCH 1943] [MINSKY 1969].
La fonction f peut être paramétrée de manière quelconque.
Deux types de paramétrage sont fréquemment utilisés :
• les paramètres sont attachés aux variables du neurone : la x1 x 2 xn
sortie du neurone est une fonction non linéaire d’une combi-
naison des variables {x i} pondérées par les paramètres {wi}, Figure 2-1. Un neurone réalise une fonction
qui sont alors souvent désignés sous le nom de « poids » ou, non linéaire paramétrée bornée y = f (x , w)
en raison de l’inspiration biologique des réseaux de neurones, où les composantes du vecteur x
« poids synaptiques ». Conformément à l’usage (également sont les variables et celles du vecteur w
sont les paramètres.
inspiré par la biologie), cette combinaison linéaire sera
appelée « potentiel » dans tout cet ouvrage. Le potentiel v le
plus fréquemment utilisé est la somme pondérée, à laquelle s’ajoute un terme constant ou « biais »1 :
n
v = w 0 + ∑ wi x i .
i =1

1. Ce terme de « biais » est malheureux, mais consacré par l’usage. Il n’a rien à voir le biais d’un estimateur, défini dans la section
« Éléments de statistiques » du premier chapitre.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 94/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
75
CHAPITRE 2

La fonction f est appelée fonction d’activation. Pour des raisons qui seront exposées plus loin, il est
recommandé d’utiliser pour f une fonction « sigmoïde » (c’est-à-dire une fonction en forme de « s »)
symétrique par rapport à l’origine, telle que la tangente hyperbolique ou la fonction Arctangente. Ainsi,
dans la très grande majorité des applications qui seront décrites dans ce chapitre, la sortie d’un neurone
a pour équation :
n
⎡ ⎤
y = th ⎢ w0 + ∑wi xi ⎥.
⎣ i= 1 ⎦
Le biais w0 peut être considéré comme le produit du paramètre w0 par la constante 1, de sorte qu’il est
commode d’introduire une variable égale à 1 dans le vecteur des variables. La relation précédente peut
alors s’écrire :

y = th( w ⋅ x)

où le symbole ⋅ désigne le produit scalaire de deux vecteurs ;


• les paramètres sont attachés à la non-linéarité du neurone : ils interviennent directement dans la fonction
f ; cette dernière peut être une fonction radiale ou RBF (en anglais Radial Basis Function), ou encore
une ondelette ; la première tire son origine de la théorie de l’approximation [POWELL 1987], la seconde
de la théorie du signal [MALLAT 1989].
Par exemple, la sortie d’un neurone RBF à non-linéarité gaussienne a pour équation :

⎡ n 2 ⎤
⎢ ∑( xi − wi ) ⎥
y = exp ⎢ − i =1 ⎥
⎢ 2 w 2n+1 ⎥
⎢ ⎥
⎣ ⎦

où les paramètres w i = 1 à n+1 est son écart-type.


, i n sont les coordonnées du centre de la gaussienne, et w
Dans les compléments théoriques et algorithmiques, en fin de chapitre, d’autres exemples de neurones
sont présentés.

La différence pratique essentielle entre les deux types de neurones qui viennent d’être décrits est la
suivante : les neurones tels que les RBF ou les ondelettes ont des non-linéarités locales, qui tendent vers
zéro dans toutes les directions de l’espace des variables ; leur zone d’influence est donc limitée dans
l’espace, ce qui n’est pas le cas des neurones à fonction d’activation sigmoïde.

Les réseaux de neurones


Un neurone réalise simplement une fonction non linéaire, paramétrée, de ses variables. L’intérêt
des neurones réside dans les propriétés qui résultent de leur association en réseaux, c’est-à-dire de la
composition des fonctions non linéaires réalisées par chacun des neurones.

Dans le premier chapitre, on a introduit la distinction entre modèles statiques et modèles dynamiques.
Bien entendu, la même distinction s’applique aux réseaux de neurones : on différencie les réseaux stati-
ques (ou réseaux non bouclés) et les réseaux dynamiques (ou réseaux bouclés).

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 95/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
76

Réseaux de neurones statiques ou réseaux non bouclés


■ Forme générale

Définition

Un réseau de neurones non bouclé réalise une (ou plusieurs) fonction(s) de ses entrées par composition des
fonctions réalisées par chacun des neurones.

Un réseau de neurones non bouclé peut donc être imaginé comme un ensemble de neurones « connectés »
entre eux, l’information circulant des entrées vers les sorties sans « retour en arrière ». On peut alors
représenter le réseau par un graphe acyclique dont les nœuds sont les neurones et les arêtes les
« connexions » entre ceux-ci. Si l’on se déplace dans le réseau, à partir d’un neurone quelconque, en
suivant les connexions et en respectant leurs sens, on ne peut pas revenir au neurone de départ. La repré-
sentation de la topologie d’un réseau par un graphe est très utile, notamment pour les réseaux bouclés,
comme on le verra dans la section « Réseaux de neurones dynamiques ». Les neurones qui effectuent le
dernier calcul de la composition de fonctions sont les neurones de sortie ; ceux qui effectuent des calculs
intermédiaires sont les neurones cachés (voir figure 2-2).
Remarque
Le terme de « connexions » doit être pris dans un sens métaphorique : dans la très grande majorité des applications, les opérations effec-
tuées par un réseau de neurones sont programmées (n’importe quel langage de programmation convient) et exécutées par un ordinateur
conventionnel. Le réseau de neurones n’est donc pas, en général, un objet tel qu’un circuit électronique, et les « connexions » n’ont pas de
réalité physique ; néanmoins, le terme de connexion, issu des origines biologiques des réseaux de neurones, est passé dans l’usage, car
il est commode quoique trompeur ; il a même donné naissance au terme de connexionnisme.

■ Réseaux à couches
La seule contrainte sur le graphe des connexions d’un
réseau de neurones non bouclé est qu’il ne contient
pas de cycle. On peut donc imaginer une grande ..... N s neurone(s) de sortie
variété de topologies pour ces réseaux. Néanmoins,
pour des raisons qui seront développées dans la
.... N c neurones cachés
section « Propriété fondamentale », la très grande
majorité des applications des réseaux de neurones
mettent en jeu des « réseaux à couches », dont un ....
x1 x2 x3 xn n variables
exemple est représenté sur la figure 2-2.
Forme générale Figure 2-2. Un réseau de neurones à n variables,
une couche de Nc neurones cachés et N s neurones
Ce réseau réalise NS fonctions algébriques des de sortie
n variables du réseau ; chacune des sorties est une
fonction, réalisée par le neurone de sortie correspondant, des fonctions non linéaires réalisées par
les neurones cachés.
Le temps ne joue aucun rôle fonctionnel dans un réseau de neurones non bouclé : si les variables sont
indépendantes du temps, les sorties le sont également. Le temps nécessaire pour le calcul de la fonction
réalisée par chaque neurone est négligeable et, fonctionnellement, on peut considérer ce calcul comme
instantané. Pour cette raison, les réseaux non bouclés sont souvent appelés « réseaux statiques », par
opposition aux réseaux bouclés ou « dynamiques » qui seront introduits plus loin.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 96/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
77
CHAPITRE 2

Terminologie
Les réseaux de neurones non bouclés à couches, dont les neurones cachés ont une fonction d’activation sigmoïde, sont souvent appelés
« Perceptrons multicouche » (ou MLP pour Multi-Layer Perceptron).

À proscrire
On mentionne souvent, outre la couche cachée et la couche de sortie, une « couche d’entrée » voire des « neurones d’entrée ». Cette
expression est trompeuse, car les entrées (représentées par des carrés sur la figure 2-2) ne sont pas des neurones : elles ne réalisent
aucun traitement de l’information.
Forme de réseau la plus utile : les réseaux à une couche cachée de sigmoïdes
et un neurone de sortie linéaire
Comme indiqué dans le chapitre 1 et rappelé au début de ce chapitre, l’extension la plus naturelle des
modèles linéaires de la forme :
p
g ( x ,w) = ∑w f (x)
i i
i=1

est une combinaison linéaire de fonctions paramétrées :


p
g ( x ,w) = ∑ w f ( x ,w′ ) .
i i
i=1

C’est la forme la plus utile de modèle « neuronal » : g(x, w)

une combinaison linéaire de fonctions non linéaires Un neurone de sortie linéaire


paramétrées des variables. Dans le jargon des N c+1

réseaux de neurones, un tel modèle est décrit comme w2

un réseau à une couche cachée et un neurone de sortie 1 1 .... Nc


Nc neurones cachés
à fonction d’activation sigmoïde
f
linéaire (figure 2-3). + un “biais”

Le modèle représenté sur la figure 2-3 a pour W1

expression : x x0 x1 x2 .... xn n variables + un “biais”


x 0=1
Nc⎡ ⎛n ⎞⎤
g ( x ,w) = ∑ ⎢w Nc +1, i th⎜∑ w ijx j + w i0 ⎟⎥ + wN c +1,0 Figure 2-3. Un réseau de neurones à n variables,
i=1 ⎢
⎣ ⎝j =1 ⎠⎥⎦ un biais, une couche de N c neurones cachés à fonction
d’activation sigmoïde et un neurone de sortie linéaire.
= w2 ⋅ f (W1 x ) Sa sortie g(x, w) est une fonction non linéaire du
vecteur des variables x, de composantes 1, x 1, x2 , ...,
où x est le vecteur des variables (de dimension n+1), xN, et du vecteur des paramètres w,
w2 est le vecteur des paramètres de la deuxième dont les composantes sont les (n+1)N+N c+1
paramètres du réseau.
couche de connexions (de dimensionN c+1), W1 est la
matrice des connexions de la première couche (de
dimension (Nc +1, n+1), et f(.) est le vecteur (de dimension Nc + 1) constitué du biais et des fonctions réali-
⎛n ⎞
sées par les neurones cachés : f0 = 1, f i = th⎜∑ w ijx j ⎟. Les neurones cachés sont numérotés de 1 à Nc et
⎝j = 0 ⎠
le neurone de sortie est numérotéN c+1. Par convention, le paramètre wij est relatif à la connexion allant
du neurone (ou de l’entrée) j vers le neurone i.
Très important
Le modèle g(x, w) est une fonction linéaire des paramètres de la dernière couche de connexions (qui relient
c neurones
les N cachés et le
biais f0 au neurone de sortie, numérotéc+1),
N et elle est une fonction non linéaire des paramètres de la première couche de connexions

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 97/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
78

(qui relient les n+1 variables du réseau auxc neurones


N cachés). Cette propriété a des conséquences importantes qui seront examinées
dans la section « Propriété fondamentale ».
Ce qu’il faut retenir
Un réseau de neurones non bouclé est une fonction non linéaire de ses variables et de ses paramètres.
Qu’est-ce qu’un réseau de neurones à zéro neurone caché ?
Un réseau de neurones non bouclé sans neurone caché, avec un neurone de sortie linéaire, réalise simplement une fonction linéaire de ses
entrées. On peut donc considérer tout système linéaire comme un réseau de neurones, ce qui ne présente aucun intérêt, ni théorique ni pratique.
Les « termes directs »
Si la relation que l’on cherche à réaliser entre les variables et les sorties présente une importante composante linéaire, il peut être utile
d’ajouter, à la structure de réseau à couches qui vient d’être décrite, des termes linéaires, parfois appelés « termes directs », qui se tradui-
sent, dans la représentation graphique du réseau, par des connexions directes entre les entrées et le neurone de sortie (figure 2-4). Par
exemple, pour un réseau dont les fonctions d’activation sont des sigmoïdes, le modèle devient :
Nc ⎡
⎛n ⎞⎤ n
g ( x ,w) = ∑ ⎢ wNc +1 , ith ⎜∑ wij x j+ w0i ⎟⎥ + w Nc + ,1 0 + ∑ wNc+ 1, k xk
i= 1 ⎢
⎣ ⎝j=1 ⎠⎥⎦ k= 1

= w 2 ⋅f (W1 x) + w3 ⋅x '

où w3 est un vecteur de dimension n et x’ est le vecteur de composantes


1, …,
{x xn}, c’est-à-dire le vecteur x dépourvu du biais.
g(x, w)

Nc +1
“Termes directs”
w2 w3

f 1 1 .... Nc

W1

x x0 x1 x2 .... xn Figure 2-4. Représentation graphique d’un réseau de neurones


x 0=1 à couches comportant des termes directs

Réseaux de RBF (fonctions radiales de base) ou d’ondelettes


Dans ce cas, comme indiqué plus haut, les paramètres relatifs aux RBF sont attachés à la non-linéarité
elle-même ; en revanche, le neurone de sortie (linéaire) réalise une somme pondérée des sorties
des neurones cachés. La sortie du réseau a donc pour expression (pour des fonctions radiales
gaussiennes) :

⎛ n
( ) ⎞⎟
2
Nc ⎜ ∑ x j − wij
g (x ,w ) = ∑ w N c +1,i exp ⎜− =1
j

i ==1 ⎜ 2 w2i ⎟

⎝ ⎟
⎠⎠

où x est le vecteur des entrées du réseau (de dimension n) et w est le vecteur des paramètres du réseau (de
dimension (n+2) Nc +1) [BROOMHEAD 1988] [MOODY 1989] ; les neurones cachés sont numérotés de 1 à
N c, et le neurone de sortie porte le numéro Nc +1.
Remarquons que deux catégories de paramètres interviennent ici : ceux de la dernière couche (qui relient
les N c fonctions radiales au neurone de sortie) et les paramètres des fonctions radiales (centres et écarts-

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 98/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
79
CHAPITRE 2

types pour des fonctions radiales gaussiennes). Les connexions de la première couche ont toutes des para-
mètres égaux à 1. Dans ces réseaux, la sortie est une fonction linéaire des paramètres de la dernière
couche de connexions, et elle est une fonction non linéaire des paramètres des gaussiennes. Les consé-
quences de cette propriété seront examinées plus loin.

Les réseaux d’ondelettes ont exactement la même structure, l’équation de la gaussienne étant remplacée
par celle d’une ondelette multidimensionnelle. Les paramètres attachés à la non-linéarité sont alors les
centres et les dilatations des ondelettes [BENVENISTE 1994] [OUSSAR 2000].

Réseaux de neurones dynamiques ou réseaux bouclés (ou récurrents)

■ Forme générale

L’architecture la plus générale, pour un réseau de neurones, est celle des « réseaux bouclés », dont le
graphe des connexions est cyclique : lorsque l’on se déplace dans le réseau en suivant le sens des
connexions, il est possible de trouver au moins un chemin qui revient à son point de départ (un tel chemin
est désigné sous le terme de « cycle »). La sortie d’un neurone du réseau peut donc être fonction d’elle-
même ; ceci n’est évidemment concevable que si la notion detemps est explicitement prise en considéra-
tion.

À l’heure actuelle, l’immense majorité des applications des réseaux de neurones est réalisée par des
systèmes numériques (ordinateurs conventionnels ou circuits numériques spécialisés pour le traitement de
signal) : il est donc naturel de se placer dans le cadre des systèmes à temps discret, régis par des
« équations aux différences » (ou « équations récurrentes », d’où le terme de « réseaux récurrents »). Ces
équations jouent le même rôle, en temps discret, que les équations différentielles en temps continu.

Ainsi, à chaque connexion d’un réseau de neurones bouclé (ou à chaque arête de son graphe) est attaché,
outre un paramètre comme pour les réseaux non bouclés, unretard, multiple entier (éventuellement nul)
de l’unité de temps choisie. Une grandeur, à un instant donné, ne pouvant pas être fonction de sa propre
valeur au même instant, tout cycle du graphe du réseau doit contenir au moins une arête dont le retard
n’est pas nul.

Définition

Un réseau de neurones bouclé à temps discret réalise une (ou plusieurs) équation(s) aux différences non
linéaires, par composition des fonctions réalisées par chacun des neurones et des retards associés à chacune
des connexions.

Propriété

Tout cycle du graphe des connexions d’un réseau de neurones bouclé doit comprendre au moins une
connexion de retard non nul.
La figure 2-5 présente un exemple de réseau de neurones bouclé. Les chiffres dans les carrés indiquent le
retard attaché à chaque connexion, exprimé en multiple de l’unité de temps (ou période d’échantillonnage)
T. Ce réseau contient un cycle qui part du neurone 3 et revient à celui-ci en passant par le neurone 4 ; la
connexion de 4 vers 3 ayant un retard non nul, ce réseau est causal.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 99/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
80

Explications g(kT)
À l’instant kT : le neurone 3 calcule 3(kT)
y en fonction de4[(
yk – 1)T], 1u(kT), u2[(k – 1)T] (où k est un
entier positif eti(kTy ) désigne la sortie du neurone i à l’instant kT). Le neurone 4 calcule 4(kT) y
en
5
fonction de 3y(kT) et 2u(kT). Le neurone 5 calcule la sortie du réseau de neurones, g(kT), en fonction
de y3(kT), y4 [(k – 1)T] et1(kT).
u Les équations récurrentes qui gouvernent le réseau sont donc :
y3 (k) = 3f [y4 (k – 1) u1 (k), u2 (k – 1)] 0 1
y4 (k) = f [y
4 3 (k), u2 (k)]
0
g (k) = 5f [y – (k), 4y(k – 1), u1 (k)]
3 0 4
où, pour alléger les notations, la période d’échantillonnage T a été omise.
3, f4, f5f sont les fonctions 1
non linéaires réalisées par les neurones 3, 4 et 5 respectivement.
0 1 0
■ Forme canonique des réseaux de neurones bouclés
Dans la mesure où les réseaux de neurones bouclés réalisent des équations u 1(kT) u 2 (kT)
récurrentes non linéaires, il est utile d’examiner les liens entre ces modèles
non linéaires et les modèles dynamiques linéaires, utilisés notamment en Figure 2-5. Un réseau
automatique des systèmes linéaires. de neurones bouclé
à deux variables.
La description la plus générale d’un système linéaire est la description d’état : Les chiffres dans les carrés
x (k ) = Ax ( k − 1) + Bu ( k − 1) indiquent le retard attaché
à chaque connexion,
g ( k ) = Cx( k) + Du ( k) multiple de l’unité de temps
(ou période d’échantillon-
où x(k) est le vecteur des variables d’état à l’instant (discret) kT, u(k) est le nage) T. Le réseau contient
vecteur des variables de commande à l’instant kT, g(k) est le vecteur des un cycle qui part du
neurone 3, va au neurone 4,
prévisions du modèle à l’instant kT, et A, B, C, D sont des matrices. Rappe- et revient au neurone 3.
lons que les variables d’état sont un ensemble de variables, en nombre
minimal, telles que l’on peut calculer leurs valeurs à l’instant (k+1)T si l’on connaît leurs valeurs initiales
et si l’on connaît les valeurs des variables de commande à tout instant compris entre 0 et kT. Le nombre
de variables d’état est appelé ordre du système.
De manière analogue, on définit la forme canonique d’un système non linéaire à temps discret par les
équations suivantes :
x (k ) = Φ (x ( k − 1) ,u ( k − 1) )
g ( k ) = Ψ ( x ( k − 1), u ( k − 1 ) ) Prédictions du modèle Variables d’état
à l’instant k à l’instant k

où Φ et Ψ sont des fonctions non linéaires (des réseaux de g(k) x(k)


neurones, par exemple), et x est le vecteur des variables
d’état. Là encore, les variables d’état sont un ensemble
Réseau de neurones non bouclé
de variables, en nombre minimal, permettant de décrire réalisant les fonctions Φ et Ψ
complètement le système à l’instant k si l’on connaît leurs q -1 q -1 Retards
unités
valeurs initiales et si l’on connaît les valeurs des variables
de commande à tout instant compris entre 0 et k-1. On
montrera, dans la section « Mise sous forme canonique
u(k-1) x(k-1)
des modèles dynamiques », que tout réseau de neurones Variables externes Variables d’état
peut être mis sous une forme canonique, figurée sur la à l’instant k-1 à l’instant k-1
figure 2-6, où le symbole q –1 représente un retard d’une Figure 2-6. Forme canonique d’un réseau
unité de temps. Ce symbole, habituel en Automatique, sera de neurones bouclé. Le symbole q -1 représente
utilisé systématiquement dans toute la suite de l’ouvrage. un retard d’une unité de temps.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 100/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
81
CHAPITRE 2

Propriété g(k) g(k) x(k)


Tout réseau de neurones bouclé, aussi complexe soit-il, peut être
ramené à une forme canonique, comportant un réseau de neurones 5
5
non bouclé dont certaines sorties (les variables d’état) sont ramenées
aux entrées par des bouclages de retard unité [NERRAND 1993].
0 1 3
Par exemple, le réseau de neurones représenté sur la figure 2-5 peut q -1
être mis sous la forme canonique indiquée sur la figure 2-7. Ce réseau 0
3 0 4
er ordre),
possède une seule variable d’état (il est donc du 1 qui est la 1 4
sortie du neurone 3. Dans cet exemple, ce neurone est un neurone
caché, mais un neurone de sortie peut être un neurone d’état ; on en 0 1 0
verra un exemple dans la section intitulée « Que faire en pratique ? ».
u 1 (k) u2(k) u 1(k) u2 (k-1) x(k-1)
Explications
À l’instant kT, le neurone 4 a pour variables 2 [(ku– 1)T] et x[(k – 1)T] =
y3[(k – 1)T]) : il calcule donc 4[(ky – 1)T] ; comme dans la forme non Figure 2-7. Forme canonique (à droite) du réseau
canonique, le neurone 3 a pour variables 1(kT), u u2[(k – 1)T], représenté sur la figure 2- 5 (à gauche). Ce réseau
y4[(k – 1)T] : il calcule donc kT
3 y possède une variable d’état x(kT) (la sortie
() ; le neurone 5 a pour variables er
y3(kT), u1(kT) et 4y[(k – 1)T] : il calcule donc sa sortie, qui est la sortie du neurone 3) : c’est un réseau du 1 ordre. La partie
du réseau de neurones, g(kT). Les deux réseaux sont donc bien équi- grisée constitue le réseau de neurones non bouclé
valents fonctionnellement. On peut aussi montrer le résultat en compa- de la forme canonique.
rant les équations qui régissent les deux réseaux : posant
(
z 3 =f3 z 4, u2 ( k −1))
(
z 4 =f4 z 3 ( k −1), u2 ( k −1))
le modèle sous forme canonique s’écrit :

( )
g (k ) = f5 z3 , z4 , u1( k) .
Ces équations sont bien identiques à celles de la forme non canonique :
y3 (k) = 3f [y4 (k – 1) 1u (k), u2 (k – 1)]
y4 (k) = 4f [y3 (k), u2 (k)]
g (k) = 5f [y3 (k), y4 (k – 1), u1 (k)]
en identifiantz 3 ≡ y 3 (k ) etz 4 ≡ y 4 (k − 1) .

Les réseaux bouclés (et leur forme canonique) seront étudiés en détail dans la section « Techniques et
méthodologie de conception de modèles dynamiques » de ce chapitre, ainsi que dans les chapitres 4 et 8.

Résumé
Les définitions essentielles concernant les réseaux de neurones ont été présentées dans cette section.
Reprenant la distinction générale entre modèles statiques et modèles dynamiques, on a introduit :
• les réseaux de neurones non bouclés, statiques, qui réalisent des fonctions non linéaires ;
• les réseaux de neurones bouclés, dynamiques, régis par des équations aux différences (ou équations
récurrentes) non linéaires.
On a vu également que tout réseau de neurones bouclé peut être mis sous une forme canonique, compre-
nant un réseau de neurones non bouclé dont les variables d’état sont ramenées à ses entrées avec un retard
unité.
L’élément de base est donc le réseau de neurones non bouclé ; ses propriétés sont exposées dans la
section suivante.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 101/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
82

Propriété fondamentale des réseaux de neurones statiques


(non bouclés) : l’approximation parcimonieuse
Les réseaux de neurones sont des approximateurs universels
Propriété
Toute fonction bornée suffisamment régulière peut être approchée uniformément, avec une précision arbitraire, dans un domaine fini de
l’espace de ses variables, par un réseau de neurones comportant une couche de neurones cachés en nombre fini, possédant tous la
même fonction d’activation, et un neurone de sortie linéaire [HORNIK 1989] [HORNIK 1990] [HORNIK 1991].
Cette propriété, qui n’est qu’un théorème d’existence et ne donne pas de méthode pour trouver les para-
mètres du réseau, n’est pas spécifique aux réseaux de neurones. C’est la propriété suivante qui leur est
particulière et fait tout leur intérêt.

Les réseaux de neurones non linéaires par rapport à leurs paramètres


sont des approximateurs parcimonieux
Dans la pratique, le nombre de fonctions nécessaires pour réaliser une approximation est un critère impor-
tant dans le choix d’un approximateur de préférence à un autre. Comme indiqué dans le chapitre 1, la
complexité d’un modèle est liée au nombre de ses paramètres : pour contrôler le surajustement, on doit
toujours faire en sorte que ce nombre soit le plus petit possible. En d’autres termes, on cherche l’approxi-
mation la plus parcimonieuse. Les réseaux de neurones possèdent cette propriété de parcimonie : c’est en
cela que réside leur intérêt par rapport aux modèles linéaires en leurs paramètres tels que les polynômes.
Propriété fondamentale
On montre [BARRON 1993] que, si l’approximation dépend des paramètres ajustables de manière non linéaire, elle est plus parcimonieuse
que si elle dépend linéairement des paramètres.
Plus précisément, le nombre de paramètres des 5
modèles linéaires en leurs paramètres croît beaucoup
plus rapidement avec le nombre de variables que le
4
nombre de paramètres d’un modèle non linéaire. Par
log(Nombre de paramètres)

Polynôme
exemple, le nombre de paramètres d’un polynôme de de degré 5

degré d à n variables vaut ( n + d ) ! , alors que le nombre 3


n !d ! Réseau de neurones
de paramètres d’un réseau de neurones croît linéaire- à 5 neurones cachés
2
ment avec le nombre de variables. La figure 2-8 montre
l’évolution du nombre de paramètres d’un polynôme et
du nombre de paramètres d’un réseau de neurones, en 1
fonction du nombre de variables. La parcimonie est
donc d’autant plus importante que le nombre 0 2 4 6 8 10 12 14 16 18 20
de variables du modèle est grand : pour un modèle à Nombre de variables
une ou deux variables, on peut utiliser indifféremment Figure 2-8. Variation du nombre de paramètres
un modèle linéaire par rapport à ses paramètres (poly- (ordonnée logarithmique) en fonction du nombre
nôme, par exemple) ou un modèle non linéaire par de variables pour un modèle polynomial
rapport à ses paramètres (réseau de neurones, par et pour un réseau de neurones
exemple).
Il faut noter néanmoins que la dimension de Vapnik-Chervonenkis, qui croît linéairement avec le nombre
de paramètres pour les modèles linéaires, croît au moins quadratiquement pour les réseaux de neurones,
donc on ne peut pas garantir que l’on a toujours intérêt à utiliser des réseaux de neurones, surtout si le

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 102/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
83
CHAPITRE 2

nombre de variables est petit, de l’ordre de 1 ou 2. En revanche, dès que le nombre de variables devient
supérieur à 2, il est généralement avantageux de mettre en œuvre des réseaux de neurones avec une
couche de neurones cachés à non-linéarité sigmoïde, plutôt que des polynômes, ou des réseaux de RBF
ou d’ondelettes à paramètres fixés. Si, en revanche, on considère que les centres et écarts-types des RBF
gaussiennes (ou les centres et les dilatations des ondelettes) sont des paramètres ajustables au même titre
que les paramètres des connexions, il n’y a pas, à l’heure actuelle, d’avantage mathématiquement
démontré à utiliser un type de neurones plutôt qu’un autre. En revanche, des arguments pratiques décisifs
peuvent justifier une préférence : connaissances a priori sur le type de non-linéarité souhaitable, caractère
localisé ou non de la fonction, rapidité de calcul, facilité d’initialisation de l’apprentissage (voir la section
« Initialisation des paramètres »), facilité de réalisation en circuit spécialisé, etc.
Expliquons qualitativement l’origine de la parcimonie. Considérons un modèle linéaire par rapport à ses
paramètres, un modèle polynomial par exemple :
g(x) = 4 + 2x + 4x2 – 0,5x3 .
Le modèle g(x) est une combinaison linéaire des fonctions y = 1, y = x, y = x2 , y = x3, avec les paramètres
w0 = 4, w1 = 2, w2 = 4, w 3 = – 0,5. Ces fonctions ont une forme qui est fixée une fois pour toutes.
Considérons à présent le modèle neuronal représenté sur la figure 2-9, g(x, w)
dont l’équation est :
g(x) = 0,5 – 2 th(10 + 0,5 x) + 3 th(1+ 0,25 x) – 2 th(3 – 0,25 x).
Ce modèle est aussi une combinaison linéaire de fonctions (y = 1,
w2
y = th(10 + 0,5 x), y = th(1+ 0,25 x), y = th(3 – 0,25 x)), mais la 0,5 -2 3 -2
forme de ces fonctions dépend des valeurs des paramètres de la
matrice W1 . f 1

Ainsi, au lieu de combiner des fonctions de formes fixes, on 10 5 1 0,25 3 -0,25


combine des fonctions dont la forme elle-même est ajustée par des W1
paramètres. On comprend facilement que ces degrés de liberté
supplémentaires permettent de réaliser une fonction donnée avec un x 1 x
plus petit nombre de fonctions élémentaires, ce qui est précisément
la définition de la parcimonie. Figure 2-9. Un réseau de neurones
non bouclé à une variable (donc deux
Un exemple élémentaire entrées) et trois neurones cachés.
Les nombres indiquent les valeurs
Considérons la parabole d’équation des paramètres.
y = 16,71 x2 – 0,075.
Prenons 20 échantillons régulièrement espacés, pour effectuer un apprentissage, par minimisation de la fonc-
tion de coût des moindres carrés (définie au chapitre 1), d’un réseau à 2 neurones cachés (à fonction d’acti-
vation arctangente) représenté sur la figure 2-10(a). Un apprentissage à l’aide de l’algorithme de Levenberg-
Marquardt (voir la section « Méthodes de gradient du second ordre ») fournit, en quelques dizaines d’itéra-
tions, les paramètres indiqués sur la figure 2-10(a). La figure 2-10(b) représente les points de l’ensemble
d’apprentissage et la prédiction du modèle, qui passe par ces points avec une excellente précision.
La figure 2-10(c) représente les sorties des neurones cachés, dont la combinaison linéaire avec le biais
constitue la prédiction du réseau. La figure 2-10(d) montre les points d’un ensemble de test et la prédiction
du réseau : lorsque l’on s’éloigne du domaine d’apprentissage [–0,12, +0,12], la précision de l’approxi-
mation se dégrade, ce qui est normal. On notera la symétrie dans les valeurs des paramètres, qui reflète la
symétrie du problème (simulation réalisée à l’aide du logiciel NeuroOne™ de NETRAL S.A.).

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 103/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
84

0,15
g Paramètres
0 -1,02 0,1
1 2,73
5 6 2 1,02 0,05
3 2,73
4 7,23 0 Figure 2-10. Interpolation
4
5 4,58 d’une parabole
1 3 0 2 6 -4,57 -0,005 par un réseau à 2 neurones
cachés : (a) réseau ;
x 1 -0,1
(b) points d’apprentissage
-0.15 -0,1 -0,05 0 0,05 0,1 0,15 (croix) et modèle après
(a
(a) (b
(b)
18
apprentissage ;
6
(c) fonctions réalisées
4 par les deux neurones cachés
14
(sigmoïdes) après
2
apprentissage ; (d) points
10
0 de test (croix) et modèle
après apprentissage :
-2 6 l’approximation se dégrade
-4 en dehors de la zone
2 d’apprentissage.
-6

-8 -2
-1 -0,5 0 0,5 1 -1 -0,5 0 0,5 1
(c) (d)

Remarque
Bien entendu, approcher une parabole à une variable par un réseau de neurones ne présente aucun intérêt pratique, puisque la parabole
a deux paramètres alors que le réseau de neurones en a sept ! La seule justification de cet exemple est que, étant mono-dimensionnel, il
permet d’utiliser des représentations graphiques simples.

En quoi la parcimonie est-elle avantageuse ?


Comme indiqué plus haut, la dimension de Vapnik-Chervonenkis des réseaux de neurones varie plus
lentement, en fonction du nombre de variables, que celle des modèles linéaires, de sorte que les réseaux
de neurones sont généralement avantageux, en termes de complexité, dès que le nombre de variables
dépasse 2. Le dilemme biais-variance étant contrôlé par le rapport de la dimension de Vapnik-
Chervonenkis h au nombre de variables N, la parcimonie permet, à rapport h/N fixé, d’utiliser un nombre
restreint d’exemples. Ainsi, de manière générale, les réseaux de neurones permettent de tirer le meilleur
parti des données numériques disponibles, pour construire des modèles à plusieurs variables.
La figure 2-34 montre un exemple de parcimonie dans une application réelle : la prédiction d’un para-
mètre thermodynamique d’un verre. Elle est commentée dans la section « Une application en
formulation ».

À quoi servent les réseaux de neurones non bouclés à apprentissage


supervisé ? Modélisation statique et discrimination (classification)
Les propriétés mathématiques décrites dans la section précédente sont fondamentales : elles donnent une
base solide aux applications des réseaux de neurones à apprentissage supervisé. Néanmoins, dans la
pratique, il est rare que l’on cherche à réaliser une approximationuniforme d’une fonction connue.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 104/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
85
CHAPITRE 2

Le plus souvent, le problème qui se pose est celui qui a été étudié en détail dans le chapitre 1 : on dispose
d’un ensemble de variables mesurées {x k , k = 1 à N} et d’un ensemble de mesures {yp (xk), k = 1 à N}
d’une grandeur relative à un processus de nature quelconque (physique, chimique, biologique, finan-
cier...). On suppose qu’il existe une relation entre le vecteur des variablesx et la grandeur à modéliser, et
l’on cherche à déterminer une forme mathématique de cette relation, valable dans le domaine où les
mesures ont été effectuées, sachant que (1) les mesures sont en nombre fini, et que (2) ces mesures sont
certainement entachées de bruit. De plus, toutes les variables qui déterminent la grandeur à modéliserne
sont pas forcément mesurées. En d’autres termes, on cherche à établir unmodèle du processus, à partir des
mesures disponibles, et d’elles seules : on dit que l’on effectue une modélisation « boîte noire ». On
étudiera plus loin la modélisation « boîte noire » du comportement d’un processus (l’actionneur hydrau-
lique d’un bras de robot) : l’ensemble de variables {x} est constitué d’une seule variable (l’angle d’ouver-
ture de la vanne d’admission de liquide hydraulique) et la grandeuryp est la pression d’huile dans l’action-
neur. On verra également plus loin un exemple de prédiction de propriétés chimiques ou d’activités
thérapeutiques de molécules : on cherche une relation déterministe entre une propriété des molécules (par
exemple leurs points d’ébullition, leur action anti-HIV, leur toxicité…) et des descripteurs de ces molé-
cules (masse molaire, nombre d’atomes, « volume », moment dipolaire, etc.) ; on peut ainsi prédire les
propriétés ou activités thérapeutiques de molécules dont la synthèse n’a pas été effectuée. Le lecteur
rencontrera dans cet ouvrage de nombreux cas de ce genre.
Le terme de « boîte noire » qui vient d’être introduit s’oppose au terme de « modèle de connaissance » ou
« modèle de comportement interne », qui désigne un modèle mathématique établi à partir d’une analyse
physique (ou chimique, physico-chimique, économique, etc.) du processus que l’on étudie ; ce modèle
peut contenir un nombre limité de paramètres ajustables, qui possèdent une signification physique. On
verra, dans la section « Modélisation dynamique “boîte grise” », que les réseaux de neurones peuvent être
utilisés pour l’élaboration de modèles « semi-physiques », intermédiaires entre les modèles « boîtes
noires » et les modèles de connaissance.

Modélisation statique
Rappelons que l’apprentissage statistique d’un modèle consiste à estimer les valeurs des paramètres du
modèle pour lesquelles l’erreur de prédiction empirique est minimale. Le plus souvent, pour la modélisa-
tion par réseau de neurones, la fonction de perte utilisée est le carré de l’erreur de modélisation, de sorte
que la fonction de coût à minimiser est la fonction de coûtdes moindres carrés
N

∑( y ) 2
J (w) = p
k − g( xk , w)
k =1

où y pk est la valeur prise par la grandeur à modéliser pour l’exemple k, et g(xk , w) est la prédiction du
modèle pour l’exemple k. Rappelons également que l’on a démontré, au chapitre 1, que le meilleur
modèle possible est la fonction de régression du processus, laquelle est inconnue. La démarche de modé-
lisation consiste donc à postuler un modèle de complexité donnée (un réseau de neurones à trois neurones
cachés, par exemple), à en effectuer l’apprentissage par des méthodes qui seront décrites dans la section
« Estimation des paramètres (apprentissage) d’un réseau de neurones non bouclé », et à estimer la capa-
cité de généralisation de ce modèle, afin de la comparer à celles d’autres modèles, de complexités diffé-
rentes. Cette estimation permet finalement de choisir le meilleur modèle compte tenu des données dispo-
nibles.
Cette procédure pose deux questions, centrales dans la pratique des réseaux de neurones :
• comment, en pratique, dans une famille de réseaux de neurones de complexité donnée, trouver celui
pour lequel la fonction de coût des moindres carrés est minimale ?

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 105/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
86

• une fois que celui-ci a été trouvé, comment juger si ses capacités de généralisation sont satisfaisantes ?
Ces questions pratiques seront abordées en détail dans la section « Techniques et méthodologie de
conception de modèles statiques ».

Classification (discrimination)
Comme indiqué dans le chapitre 1, classer un ensemble d’objets, c’est attribuer à chacun une classe (ou
« catégorie ») parmi plusieurs classes définies à l’avance. Cette tâche est appelée « classification » ou
« discrimination ». Un algorithme qui réalise automatiquement une classification est appelé classifieur.
Les applications des classifieurs sont très nombreuses : dans le domaine de la reconnaissance des formes
(chiffres et caractères manuscrits ou imprimés, images, parole, signaux temporels...), mais également
dans bien d’autres domaines (économie, finance, sociologie, traitement du langage...). De manière géné-
rale, on désignera sous le terme de « forme » n’importe quel objet décrit par un ensemble de nombres
(« descripteurs ») : ainsi, une image pourra être décrite par l’ensemble des valeurs d’intensité de
ses pixels (contraction de picture elements ou éléments d’image), un signal temporel par ses valeurs
successives au cours d’une période de temps définie, une entreprise par l’ensemble des éléments de son
bilan, un texte par l’ensemble des mots importants qu’il contient, etc. Schématiquement, la question à
laquelle un classifieur doit apporter un élément de réponse est du type : le caractère inconnu est-il un a,
un b, un c, etc. ? Le signal observé est-il normal ou anormal ? L’entreprise examinée constitue-t-elle un
excellent, très bon, bon, médiocre, mauvais, très mauvais, support d’investissement ? La dépêche
d’agence reçue est-elle relative à une prise de participation entre entreprises ? Y aura-t-il demain une
alerte à la pollution par l’ozone ? Les statisticiens appellent aussi « classification » la tâche qui consiste à
regrouper des données qui se ressemblent dans des classes qui ne sont pas définies à l’avance ; les réseaux
de neurones à apprentissage non supervisé, mentionnés dans le chapitre 1 et décrits en détail dans le
chapitre 7, peuvent réaliser ce genre de tâches ; il y a donc une certaine confusion dans les termes. On
s’efforcera toujours de préciser ce dont il s’agit, lorsque le contexte ne rend pas la distinction évidente.
Dans tout ce paragraphe, on considère le cas où les classes sont connues à l’avance.
Il faut noter que le classifieur n’est pas nécessairement conçu pour donner une réponse complète : il peut
apporter seulement un élément de réponse. En effet, il faut bien distinguer l’aide à la décision et la déci-
sion elle-même : un classifieur peut apporter une information qui aidera un être humain, ou un système
automatique, à prendre une décision concernant l’appartenance de l’objet inconnu à telle ou telle classe.
Historiquement, les premiers réseaux de neurones utilisés pour la classification étaient conçus pour
fournir une décision. Néanmoins, on a vu, dans le chapitre 1, que l’on peut également, par apprentissage,
obtenir une information beaucoup plus riche et fine qu’une simple décision binaire : on peut estimer la
probabilité d’appartenance de l’objet inconnu à chacune des classes. Ceci permet notamment de conce-
voir des systèmes de reconnaissance complexes qui utilisent plusieurs systèmes de classification diffé-
rents, chacun d’eux fournissant une estimation de la probabilité d’appartenance de l’objet inconnu à
chacune des classes. La décision finale est prise au vu de ces estimations et en fonction, par exemple, des
« domaines d’excellence » de chacun des classifieurs.
De même, dans le domaine de la « fouille de données » (data mining), une problématique de plus en plus
fréquente est celle du « filtrage d’information » : trouver automatiquement, dans un corpus de données,
les textes qui sont pertinents pour un thème donné, et présenter ces textes par ordre de probabilité de perti-
nence décroissante, afin que l’utilisateur puisse faire un choix rapide parmi les documents qui lui sont
présentés. Là encore, il est indispensable que le classifieur ne se contente pas de donner une réponse
binaire (document pertinent ou non), mais bien qu’il détermine une probabilité d’appartenance à une
classe. Comme on le verra plus loin, les modèles obtenus par apprentissage, notamment les réseaux de
neurones non bouclés, sont bien adaptés à ce type de tâche, dont l’importance est de plus en plus évidente.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 106/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
87
CHAPITRE 2

La section du présent chapitre intitulée « Réseaux de neurones à apprentissage supervisé et


discrimination », et le chapitre 6 en entier, sont consacrés à la discrimination.

À quoi servent les réseaux de neurones à apprentissage


non supervisé ? Analyse et visualisation de données
Les moyens modernes de traitement et de stockage de l’information permettent de disposer de très
grandes quantités d’informations, qu’elles soient numériques (traitements numériques intensifs de résul-
tats expérimentaux) ou linguistiques (corpus de textes). Retrouver des informations dont on sait qu’elles
doivent être présentes dans les données, mais dont on ne sait pas bien comment les extraire, devient une
préoccupation de plus en plus importante. Les progrès du graphisme des ordinateurs permettent des repré-
sentations des données de plus en plus claires et conviviales, mais l’opérateur est incapable de visualiser
clairement des données de haute dimension. Il est donc très important de disposer de techniques de repré-
sentations des données à basse dimension (typiquement 2) qui permettent de retrouver l’information
« prégnante » dans les données. Les réseaux de neurones à apprentissage non supervisé offrent un
ensemble de techniques puissantes dans ce domaine, notamment les cartes auto-organisatrices.
Le chapitre 7 de cet ouvrage, entièrement consacré à l’apprentissage non supervisé, décrit en détail de
belles applications, notamment en télédétection.

À quoi servent les réseaux de neurones bouclés à apprentissage


supervisé ? Modélisation dynamique « boîte noire »
et « semi-physique » ; commande de processus
Dans le paragraphe consacré aux réseaux dynamiques, on a montré que tout réseau de neurones bouclé
peut être mis sous une forme canonique, qui comprend un réseau de neurones non bouclé et des bouclages
(ou récurrences) externes à celui-ci. Les propriétés des réseaux de neurones bouclés sont donc directe-
ment liées à celles des réseaux non bouclés : de même que l’on met en œuvre les réseaux de neurones non
bouclés pour modéliser, de manière statique, des processus non linéaires qui peuvent être utilement
décrits par des équations algébriques, de même il est intéressant de mettre en œuvre des réseaux de
neurones bouclés pour modéliser, de manière dynamique, des processus qui peuvent être utilement décrits
par des équations récurrentes (ou équations aux différences). Une partie du présent chapitre, et tout le
chapitre 4, sont consacrés à la modélisation dynamique de processus.
Plusieurs motivations peuvent pousser l’ingénieur ou le chercheur à concevoir un modèle dynamique :
• utiliser le modèle comme « simulateur » pour prévoir l’évolution d’un processus dont la modélisation
de connaissance est trop complexe ou trop incertaine ;
• utiliser le modèle comme simulateur d’un processus dont la modélisation de connaissance est possible,
mais conduit à des équations différentielles, ou aux dérivées partielles, dont la résolution numérique est
lourde et ne peut répondre à des contraintes de fonctionnement en temps réel : on peut alors créer un
ensemble d’apprentissage à partir du code de résolution des équations, et concevoir un réseau de
neurones qui fournit de très bonnes solutions dans des temps de calcul beaucoup plus courts. L’architec-
ture de ce réseau peut avantageusement être inspirée des équations différentielles du modèle de
connaissance : on conçoit alors un « modèle semi-physique » ou modèle « boîte grise » (voir la section
suivante) ;
• utiliser le modèle comme prédicteur à très court terme (une période d’échantillonnage) afin de l’intégrer
à un système de commande.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 107/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
88

Modélisation semi-physique
Il est très fréquent, notamment dans l’industrie manufacturière, que l’on dispose d’un modèle de connais-
sance d’un procédé, mais que celui-ci ne soit pas satisfaisant ; cela peut s’expliquer par plusieurs raisons :
• le modèle peut être insuffisamment précis pour l’objectif que l’on s’est fixé. Par exemple, si l’on désire
détecter une anomalie de fonctionnement en analysant la différence entre l’état du processus prévu par
le modèle du fonctionnement normal et l’état réellement mesuré, il faut que le modèle de fonctionne-
ment normal soit précis ;
• le modèle peut être précis, mais être trop complexe pour pouvoir être intégré numériquement en temps
réel (pour une application de surveillance ou de commande, par exemple).
Si l’on dispose de mesures, on peut alors légitimement décider d’avoir recours à un modèle « boîte
noire », non linéaire si nécessaire. Toutefois il serait néanmoins maladroit d’abandonner complètement
toutes les connaissances accumulées lors de la conception du modèle, pour construire un autre modèle
fondé uniquement sur les mesures. La modélisation semi-physique permet de réconcilier ces deux points
de vue, en utilisant toutes les connaissances avérées dont on peut disposer sur le processus (sous réserve
qu’elles soient sous la forme d’équations algébriques ou différentielles) pour structurer le réseau et définir
son architecture. La méthodologie de conception d’un tel modèle sera présentée dans la section
« Modélisation dynamique “boîte grise” », et un exemple d’application industrielle sera décrit dans la
section « Modélisation semi-physique d’un procédé manufacturier ».

La commande de processus
Commander un système, c’est lui imposer une dynamique de réponse à une commande. S’il s’agit d’une
régulation, il faut imposer au système de rester dans un état déterminé quelles que soient les perturbations,
mesurables ou non, auxquelles il est soumis : pour un système de régulation de vitesse d’une voiture
(cruise control), il faut agir automatiquement sur l’accélérateur afin que la voiture conserve une vitesse
constante égale à la vitesse de consigne, indépendamment de perturbations telles que des bourrasques de
vent, des changements de la pente de la route, etc. S’il s’agit d’un système de poursuite, il faut imposer à
celui-ci de suivre une trajectoire de consigne : par exemple, dans un fermenteur, agir sur le système de
chauffage pour que la température suive un profil temporel déterminé à l’avance, indépendamment de la
température du four, de la température des ingrédients que l’on ajoute durant la fermentation, des réac-
tions exothermiques ou endothermiques qui peuvent se produire, etc. Pour réaliser ces tâches, il faut géné-
ralement disposer d’un modèle qui, si les non-linéarités sont importantes, peut être un réseau de neurones.
Le chapitre 5 est entièrement consacré à la commande de processus non linéaires.

Quand et comment mettre en œuvre des réseaux


de neurones à apprentissage supervisé ?
Après avoir présenté les fondements théoriques qui justifient l’utilisation de réseaux de neurones, on
aborde ici les problèmes pratiques liés à leur mise en œuvre : on rappellera d’abord quand utiliser – et
quand ne pas utiliser – les réseaux de neurones et on expliquera brièvement ensuite comment il faut les
mettre en œuvre. Toutes les questions qui sont abordées dans cette section sont approfondies dans ce
chapitre et les suivants.

Quand utiliser les réseaux de neurones ?


Rappelons le fondement théorique de l’utilisation des réseaux de neurones à apprentissage supervisé : la
propriété d’approcher toute fonction non linéaire suffisamment régulière.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 108/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
89
CHAPITRE 2

Il peut donc être avantageux de mettre en œuvre des réseaux de neurones pour toute application nécessi-
tant de trouver, par apprentissage, une relation non linéaire entre des données numériques.
Sous quelles conditions peut-on utiliser une telle approche ?
• Une première condition est nécessaire mais non suffisante : puisque les réseaux de neurones utilisent
des techniques issues des statistiques, il faut disposer d’un ensemble de données de taille suffisamment
grande, et bien représentatif.
• Une fois ces données recueillies, il faut s’assurer de l’intérêt réel d’un modèlenon linéaire pour l’appli-
cation considérée : en effet, la mise en œuvre d’un modèle linéaire (ou affine) est toujours plus simple,
et moins coûteuse en temps de calcul, que celle d’un réseau de neurones. Par conséquent, en l’absence
de toute connaissance a priori sur l’intérêt d’un modèle non linéaire, il faut d’abord utiliser les
méthodes simples et éprouvées d’élaboration d’un modèle linéaire,qui ont été exposées dans le chapitre
1. S’il apparaît que la précision du modèle est insuffisante bien que toutes les variables pertinentes
soient présentes dans le modèle, alors on doit envisager la mise en œuvre de modèles non linéaires tels
que les réseaux de neurones.
• Si les données sont disponibles, et si l’on s’est assuré qu’un modèle non linéaire est utile, il faut s’inter-
roger sur l’opportunité d’utiliser un réseau de neurones de préférence à une autre famille de fonctions non
linéaire, les polynômes par exemple. Comme indiqué plus haut, les réseaux de neurones, notamment à
fonction d’activation sigmoïde, sont d’autant plus avantageux que le nombre de variables est « grand » ;
dans la majorité des cas, « grand » signifie, en pratique et de manière empirique, supérieur ou égal à 3.
En résumé : si l’on dispose de données numériques suffisamment nombreuses et représentatives, il est
généralement avantageux d’utiliser des réseaux de neurones dans toute application mettant en jeu l’esti-
mation des paramètres d’une fonction non linéaire possédant au moins trois variables. Si le nombre
de variables est supérieur ou égal à 3, il est généralement avantageux d’utiliser des réseaux de neurones à
fonction d’activation sigmoïde ; dans le cas contraire, des réseaux de neurones utilisant des RBF à centres
et écarts-types fixés, ou des ondelettes à centres et dilatations fixés, ou encore des polynômes, peuvent être
aussi précis et plus simples à mettre en œuvre.
Bien entendu, si les données ne sont pas numériques (mais linguistiques, par exemple), les réseaux de
neurones ne peuvent les traiter directement. Il faut avoir recours à des prétraitements permettant de
« quantifier » ces données (par exemple, à l’aide de techniques issues de la théorie des ensembles flous).

Comment mettre en œuvre les réseaux de neurones ?


La mise en œuvre des réseaux de neurones entre complètement dans le cadre général de la modélisation
par apprentissage statistique, développée dans le chapitre 1. Elle nécessite donc :
• de collecter les données utiles pour l’apprentissage et l’évaluation des performances du réseau de
neurones ;
• de déterminer les variables pertinentes, c’est-à-dire les grandeurs qui ont une influence significative sur
le phénomène que l’on cherche à modéliser ;
• de postuler des modèles de complexité croissante et d’en effectuer l’apprentissage, afin de trouver la
complexité appropriée, c’est-à-dire le nombre de neurones cachés nécessaires pour obtenir une généra-
lisation satisfaisante ;
• d’évaluer les performances du réseau de neurones choisi à l’issue de la phase de sélection de modèle.
En fonction des résultats obtenus, il peut être nécessaire d’effectuer plusieurs itérations de cette procé-
dure, ou d’une partie de celle-ci.
Ces différents points seront abordés ultérieurement.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 109/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
90

Les variables pertinentes


Le problème de la détermination des variables pertinentes se pose de manière très différente selon les
applications envisagées.
Si le processus que l’on veut modéliser est un
processus industriel conçu par des ingénieurs, le
problème est important mais pas crucial car, en général,
on connaît bien les grandeurs qui interviennent et les
relations causales entre celles-ci. Ainsi, dans un
procédé de soudage par points, on fait fondre locale-
ment les deux tôles à souder en faisant passer un
courant électrique très important (quelques kiloam-
pères) pendant quelques dizaines de millisecondes,
entre deux électrodes qui exercent une pression méca-
nique sur les tôles (figure 2-11). La qualité de la Transformateur
soudure, caractérisée par le diamètre de la zone fondue,
dépend évidemment de l’intensité du courant, de la Figure 2-11. Schéma d’un processus industriel :
durée pendant laquelle il est appliqué, de l’effort exercé le soudage par points
par les électrodes pendant le passage du courant et
pendant la phase de solidification, de l’état de surface des électrodes, de la nature des tôles, et de quelques
autres facteurs qui ont été très largement étudiés en raison de l’importance industrielle du procédé. On
connaît donc la nature des variables désirables pour un modèle ; il peut être néanmoins utile de faire un
choix parmi ces grandeurs, en ne prenant en considération, comme variables du modèle, que celles qui
agissent de manière très significative sur le processus (c’est-à-dire celles dont l’effet est plus important
que l’incertitude de la mesure).
L’application d’une approche de ce problème par apprentissage statistique est décrite plus en détail dans
la section « Modélisation d’un procédé de fabrication : le soudage par points ».
En revanche, si le processus à modéliser est un processus naturel complexe (physiologique, par exemple),
ou un processus économique, social ou financier, la détermination des variables pertinentes peut être
beaucoup plus délicate. Ainsi, si l’on veut prédire une propriété chimique d’une molécule (cet exemple est
décrit en détail dans la section « Aide à la découverte de médicaments »), le choix des descripteurs perti-
nents n’est pas évident ; de même, pour déterminer la solvabilité d’un organisme, ou la qualité d’une
entreprise, il est très important de choisir des ratios appropriés pour décrire la situation comptable, fiscale,
commerciale, etc.
Les méthodes de sélection de variables qui ont été décrites ou mentionnées dans le chapitre 1 sont entiè-
rement applicables aux réseaux de neurones.

La collecte des données


Pour pouvoir effectuer l’apprentissage, il faut disposer de données. Celles-ci doivent être en nombre suffi-
sant, et être suffisamment représentatives de celles qui seront présentées au modèle lors de son utilisation.
Lorsque la grandeur que l’on veut modéliser dépend de nombreux facteurs, c’est-à-dire lorsque le modèle
possède de nombreuses variables, il n’est pas possible de réaliser un « pavage » régulier dans tout le
domaine de variation de celles-ci ; il faut donc trouver une méthode permettant de réaliser uniquement des
expériences qui apportent une information significative pour l’apprentissage du modèle : il faut réaliser un
« plan d’expériences ». Pour les modèles linéaires, l’élaboration des plans d’expériences est bien
maîtrisée ; pour les modèles non linéaires, le problème est plus difficile. La section « Élaboration de plans

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 110/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
91
CHAPITRE 2

d’expériences » présente quelques éléments qui permettent de construire itérativement un plan d’expé-
riences pour un modèle neuronal.

La complexité : le nombre de neurones cachés


À l’heure actuelle, il n’existe pas de résultat théorique permettant de déterminer a priori la complexité
souhaitable pour construire un modèle compte tenu des données disponibles. Par exemple, l’estimation de
la dimension de Vapnik-Chervonenkis, pour un réseau de neurones, permet de savoir comment cette
dernière varie avec le nombre de neurones cachés, mais ne fournit que des bornes larges, éventuellement
pessimistes, pour le nombre de neurones cachés nécessaires. Il faut donc nécessairement mettre en œuvre
une procédure numérique de sélection de modèle, notamment celles décrites dans le chapitre 1 : valida-
tion simple, validation croisée, leave-one-out et leurs variantes.
Rappelons le résultat établi dans le chapitre 1 : pour tout modèle conçu par apprentissage, notamment un
réseau de neurones, le meilleur modèle possible est celui pour lequel la variance de l’erreur de prédiction
est égale à la variance du bruit de mesure.

L’apprentissage des réseaux de neurones non bouclés :


un problème d’optimisation non linéaire
Une fois que l’on a postulé un réseau de neurones de complexité donnée, on doit procéder à son
apprentissage : estimer les valeurs des paramètres du réseau de neurones pour lesquelles la fonction de
coût des moindres carrés, calculée sur les points de l’ensemble d’apprentissage, est minimale. L’appren-
tissage est donc un problème numérique d’optimisation.
Considérons, pour simplifier, un réseau de neurones à une sortie g(x, w). On dispose d’un ensemble
d’apprentissage comprenant N exemples. La fonction de coût des moindres carrés a été définie plus haut :
N
2
J ( w) = ∑ ⎡⎣ ykp − g ( xk , w) ⎤⎦
k =1

où xk désigne le vecteur des valeurs des variables pour l’exemple k, etykp la valeur de la mesure correspon-
dante.
• Si l’on met en œuvre des modèles linéaires en leurs paramètres (des fonctions radiales gaussiennes dont
les centres et écarts-types sont fixés, par exemple), les méthodes décrites dans le chapitre 1, section
« Conception de modèles linéaires », sont directement applicables. La qualité du résultat dépend essen-
tiellement du choix des centres et les écarts-types des fonctions non linéaires mises en œuvre ; ce choix
doit être effectué par des techniques de sélection de modèle analogues à celles qui sont décrites dans la
section « Sélection de modèles » du chapitre 1.
• Si, en revanche, on met en œuvre des modèles non linéaires en leurs paramètres, tels que des Percep-
trons multicouche ou des réseaux de RBF à centres et écarts-types variables, on doit résoudre un
problème d’optimisation non linéaire multivariable. Les méthodes utilisées à cet effet seront exposées
en détail dans la section « Estimation des paramètres (apprentissage) d’un réseau de neurones non
bouclé ». Il s’agit de techniques itératives qui, à partir d’un réseau muni de paramètres dont les valeurs
sont aléatoires, modifient ceux-ci jusqu’à ce qu’un minimum de la fonction de coût empirique soit
atteint, ou qu’un critère d’arrêt soit satisfait.
Dans ce dernier cas, les techniques d’optimisation sont des méthodes de gradient : elles sont fondées sur
le calcul, à chaque itération, du gradientde la fonction de coût par rapport aux paramètres du modèle,
gradient qui est ensuite utilisé pour calculer une modification des paramètres. Le calcul du gradient peut
être effectué de diverses manières : il en est une, appelée rétropropagation (voir la section « Évaluation

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRh… 111/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
92

du gradient de la fonction de coût »), qui est généralement plus économe que les autres en termes de
nombres d’opérations arithmétiques à effectuer pour évaluer le gradient. Contrairement à une idée trop
répandue, la rétropropagation n’est pas un algorithme d’apprentissage : c’est simplement une technique
d’évaluation du gradient de la fonction de coût, qui est fréquemment, mais pas obligatoirement, utilisée
au sein d’algorithmes d’apprentissage. Il faut noter que, contrairement à bien des affirmations, ce n’est pas
l’invention de la rétropropagation qui a permis l’apprentissage des réseaux de neurones à couches ; en
effet, les spécialistes de traitement du signal connaissaient, bien avant la rétropropagation, des méthodes
d’évaluation du gradient d’une fonction de coût des moindres carrés, méthodes qui auraient pu être mises
en œuvre pour effectuer l’apprentissage de réseaux [MARCOS 1992].
Ces algorithmes d’apprentissage ont fait d’énormes progrès au cours des dernières années. Alors que, au
début des années 1990, les publications faisaient état de dizaines ou de centaines de milliers d’itérations,
représentant des journées de calcul sur des ordinateurs puissants, les nombres d’itérations typiques à
l’heure actuelle sont de l’ordre de quelques dizaines à quelques centaines. La figure 2-12 montre le dérou-
lement de l’apprentissage d’un modèle à une variable.
2 2
1,5 5 itérations 1,5 10 itérations

1
0,5 0,5
0
-0,5 -0,5
-1
-1,5 -1,5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

2 2
1,5 30 itérations 1,5 50 itérations

1 1
0,5 0,5
0 0
-0,5 -0,5
-1 -1
-1,5 -1,5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
Figure 2-12. Apprentissage d’un réseau de neurones à une variable et 3 neurones cachés. Le trait continu représente
la prédiction du modèle après 5, 10, 30 et 50 itérations de l’algorithme d’apprentissage (reproduit avec l’autorisation de
Netral S.A.).

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 112/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
93
CHAPITRE 2

Les croix représentent les mesures de l’ensemble d’apprentissage. Initialement, on donne aux paramètres
du réseau des valeurs « petites » (voir la section « Initialisation des paramètres »). Le résultat obtenu au
bout de 50 itérations est satisfaisant « visuellement » ; quantitativement, l’EQMA et l’EQMT (cette
dernière étant calculée sur un ensemble de points non représentés sur la figure) sont du même ordre de
grandeur, et de l’ordre de l’écart-type du bruit, de sorte que le modèle est satisfaisant.

Conclusion
Dans ce paragraphe, on a expliqué quand et comment utiliser les réseaux de neurones pour la modélisa-
tion. Rappelons que l’utilisation des réseaux de neurones peut être avantageuse chaque fois que l’on
cherche à établir une relation non linéaire entre des données numériques. Les réseaux de neurones entrent
dans le cadre général des méthodes statistiques d’apprentissage décrites dans le chapitre 1. Une vue géné-
rale de la mise en œuvre de ces méthodes a été présentée, en insistant sur les conditions qui doivent être
remplies pour qu’un réseau de neurones donne des résultats satisfaisants. Les techniques d’apprentissage,
de sélection de variables et de sélection de modèle proprement dites, dont l’efficacité conditionne en
grande partie les performances des réseaux, seront abordées en détail dans la section « Techniques et
méthodologie de conception de modèles statiques ».

Réseaux de neurones à apprentissage supervisé


et discrimination (classification)
Les premières recherches sur les réseaux de neurones étaient motivées par l’ambition d’imiter certaines
fonctions des systèmes nerveux vivants, notamment pour la reconnaissance des formes. C’est pourquoi
les premières applications des réseaux de neurones portèrent sur la classification pour la reconnaissance
de formes ou de signaux. Ce n’est que plus tard que l’on comprit que les réseaux de neurones sont avant
tout des approximateurs de fonctions. Néanmoins, comme cela a été montré dans le chapitre 1, la modé-
lisation et la classification sont très fortement liées, en dépit des différences apparentes. C’est pourquoi la
présente section est consacrée à la discussion de ce qu’est un problème de classification. Le lecteur en
trouvera une présentation plus détaillée dans le chapitre 6 de cet ouvrage.
On utilisera ici indifféremment le terme de « classification » ou celui de « discrimination ».

Quand est-il opportun d’utiliser un classifieur statistique ?


Rappelons que les ingrédients d’un problème de classification sont :
• une population de N objets ;
• n variables descriptives (ou descripteurs), à valeurs réelles ou binaires, qui permettent de décrire les
objets, l’ensemble des descripteurs constituant la représentation des objets ;
• un ensemble de C classes dans lesquelles on cherche à ranger les objets (une des classes peut être une
classe de rejet à laquelle appartiennent tous les objets que l’on ne peut attribuer à aucune autre classe).
Résoudre un problème de classification, c’est trouver une application de l’ensemble des objets à classer
dans l’ensemble des classes. L’algorithme ou la procédure qui réalise cette application est appelé classi-
fieur.
Lorsque l’on se pose un problème de classification, il faut d’abord analyser le type de méthode qu’il
convient de mettre en œuvre pour le résoudre. En effet, les classifieurs statistiques ne sont pas forcément
adaptés au problème, et il y a bien d’autres méthodes de classification. Afin de délimiter le domaine

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 113/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
94

d’utilisation des classifieurs statistiques, considérons quelques exemples plus ou moins académiques, qui
illustrent plusieurs aspects de cette tâche. Pour chacun des exemples, on se posera trois questions :
• les connaissances a priori sur le problème permettent-elles de déterminer simplement des descripteurs
pertinents ?
• ces descripteurs sont-ils mesurables (ou calculables à partir de mesures) ?
• quel est le rôle de la classe de rejet ?
Les exemples suivants sont extraits de [STOPPIGLIA 1997].
Chacun a eu l’occasion d’utiliser un distributeur de tickets de métro, ou un automate de péage, qui recon-
naît les pièces de monnaie utilisées en paiement, et rejette les pièces fausses ou étrangères. Considérons
ce problème sous l’angle des trois questions ci-dessus :
• il est facile de déterminer des descripteurs pertinents : le diamètre de la pièce, son poids, son épaisseur,
la composition de l’alliage, etc. ; ces descripteurs sont en petit nombre (les nouvelles pièces de monnaie
sont conçues de manière à en faciliter la discrimination) ;
• les descripteurs sont des grandeurs physiques mesurables ;
• la classe de rejet peut être aussi grande que l’on veut : elle n’est limitée que par la patience des usagers
qui n’aiment pas voir leurs pièces rejetées sans raison ; ainsi, dans l’espace des descripteurs, les classes
sont de petits « parallélépipèdes » délimités par les seuils de tolérance qui tiennent compte de la varia-
bilité de la fabrication et des erreurs de mesure ; tout le reste de l’espace constitue la classe de rejet.
Dans ces conditions, il est facile de concevoir un automate qui met en œuvre des règles simples portant
sur les descripteurs des pièces à classer. Ces règles résultent d’une analyse du problème, effectuée par les
concepteurs de la machine, qui conduit à un arbre de décision implanté dans l’automate.Dans un tel cas,
l’utilisation d’une méthode statistique de classification n’est pas appropriée.
Considérons à présent l’évaluation du confort d’une voiture. Pour prévoir les réactions des clients poten-
tiels à la mise sur le marché d’un nouveau modèle, les constructeurs automobiles ont recours à des
« panels » d’individus, supposés représentatifs de la clientèle, qui doivent émettre un jugement sur le
confort. Mais qu’est-ce que le confort ? C’est une notion complexe dans laquelle interviennent la qualité
de la suspension, la conception des sièges, l’insonorisation du véhicule, la visibilité, etc. Exprimer un
jugement (classer le confort du véhicule dans l’une des trois classes « bon », « moyen », « insuffisant »)
est alors un processus impossible à formaliser, fondé sur des impressions plus que sur des mesures. Ce
problème a donc les caractéristiques suivantes :
• les descripteurs ne sont pas forcément tous connus et exprimés clairement par les membres des panels ;
même si les descripteurs sont bien définis, les jugements sont très variables : deux personnes placées
dans les mêmes conditions peuvent émettre des jugements différents ;
• les descripteurs ne sont pas nécessairement mesurables ;
• il n’y a pas de classe de rejet : un consommateur a forcément une opinion sur le confort de sa voiture.
Le fait que les descripteurs ne soient pas connus et pas nécessairement mesurables empêche (ou rend très
difficile) l’utilisation d’une méthode de classification statistique. Dans ce contexte, une méthode de clas-
sification floue serait mieux adaptée.
La reconnaissance automatique des chiffres manuscrits, par exemple celle des codes postaux, a fait l’objet
de nombreuses études et réalisations. Considérons ce problème sous les mêmes angles que les deux exem-
ples précédents :
• contrairement au cas du tri des pièces de monnaie, la variabilité des styles d’écriture pose un problème
majeur pour le choix des descripteurs ; néanmoins, contrairement au cas de l’évaluation du confort, les
personnes qui savent lire identifient généralement de la même manière une image de chiffre donnée
(sauf si le chiffre est vraiment mal écrit) ;

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 114/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
95
CHAPITRE 2

• les descripteurs sont des nombres que l’on peut extraire de l’image : dans le cas d’une description « de
bas niveau », c’est l’intensité des pixels ; dans le cas d’une description « de haut niveau », c’est le
nombre de boucles, de pointes, leur position, l’orientation et la position des segments, etc. ;
• la taille de la classe de rejet constitue un critère de performance : pour un taux d’erreur donné, le pour-
centage de rejet doit être aussi faible que possible. En effet, tout objet postal rejeté nécessite l’interven-
tion d’un préposé, et il est plus coûteux d’envoyer une lettre dans une mauvaise direction que d’avoir
recours à une intervention humaine pour lire le code postal. Le cahier des charges est donc exprimé de
la manière suivante : pour un taux d’erreur donné (par exemple 1 %), on veut un taux de rejet aussi
faible que possible. En effet, il serait facile de concevoir un classifieur qui ne se trompe jamais : il suffi-
rait qu’il ne prenne jamais de décision. Compte tenu des données économiques du problème, un bon
classifieur est un classifieur qui prend une décision le plus souvent possible, tout en ne se trompant pas
plus d’une fois sur cent. Si les conditions économiques étaient inversées, c’est-à-dire si une erreur
coûtait moins cher que l’intervention d’un expert, le critère de qualité serait différent : on chercherait à
obtenir le taux d’erreur le plus petit possible pour un taux de rejet donné (c’est le cas pour les diagnos-
tics médicaux automatisés à l’échelle de toute une population, où l’intervention d’un médecin coûte
plus cher qu’une erreur de diagnostic de type « faux positif »).
Dans ces conditions, la mise en œuvre d’une méthode statistique telle que les réseaux de neurone est
opportune, sous réserve que l’on dispose d’une base de données convenable. Le problème central est celui
du choix de la représentation des données. C’est d’ailleurs le cas dans la majorité des problèmes de clas-
sification non académiques : la réflexion du concepteur, et la mise en œuvre de techniques de prétraite-
ment des données adaptées au problème (des exemples sont décrits dans le chapitre 3), sont bien souvent
plus importantes que l’algorithme de classification lui-même.

Classification statistique et formule de Bayes


Supposons donc qu’une analyse préalable du problème ait conduit au choix de la mise en œuvre d’une
méthode statistique de classification, de préférence à un arbre de décision, par exemple. On entre alors
dans le cadre de la classification statistique, tel qu’il a été décrit succinctement dans le chapitre 1. Rappe-
lons notamment la formule de Bayes, qui permet le calcul de la probabilité pour que l’objet décrit par le
vecteur de descripteurs x appartienne à la classe Ci :

p X (x C i )PrCi
Pr( Ci x) = c

∑p
j =1
X ( x C )Pr
j C j

où Pr (C i x ) désigne la probabilité a posteriori de la classeCi sachant que l’on observe l’objet décrit par
le vecteur x, pX ( x Ci ) désigne la vraisemblance du vecteur de descripteurs x sachant que l’objet décrit par
x appartient à la classe Ci, et où PrC désigne la probabilité a priori de la classe Ci . Le classifieur de Bayes
i
consiste en l’estimation de la probabilité a posteriori d’un objet décrit par x à l’aide de la formule de
Bayes, suivie d’une prise de décision selon la règle de décision de Bayes : attribuer l’objet à la classe dont
la probabilité a posteriori est la plus grande. Ce classifieur est le meilleur possible si toutes les erreurs ont
le même coût. Son utilisation nécessite néanmoins de connaître aussi précisément que possible les proba-
bilités a priori et les vraisemblances ; ces dernières sont particulièrement difficiles à estimer lorsque le
vecteur x est de grande dimension, ce qui est fréquent dans des applications réelles. Le classifieur de
Bayes présente donc un intérêt plus théorique que pratique. Il peut néanmoins servir de référence lorsque
l’on cherche à évaluer la qualité d’un classifieur : on peut appliquer celui-ci à un problème fictif pour
lequel les probabilités a priori et les vraisemblances sont connues exactement, et comparer ses perfor-

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 115/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
96

mances à celles du classifieur de Bayes sur ce même problème. Introduisons ici le problème fictif à l’aide
duquel on testera quelques classifieurs.
Il s’agit d’un problème à deux classes et
une variable ; les éléments de la classe A sont des Classe A Classe B
réalisations de nombres aléatoires obéissant à une
loi qui est la somme de deux gaussiennes ; ceux de -15 -10 -5 0 +5 +10
la classe B sont des réalisations de nombres aléa- Figure 2-13. Densités de probabilité pour les classes A
toires obéissant à une loi uniforme dans un inter- et B
valle borné (figure 2-13).
On peut donc calculer analytiquement les probabi-
1
lités a posteriori (figure 2-14), et déterminer les
limites de chaque classe (figure 2-15). Pour estimer
0,5
le taux d’erreur, on réalise un grand nombre
d’exemples de chaque classe et l’on compte la 0
proportion de ces réalisations qui se trouve du -15 -10 -5 0 +5
« mauvais côté » des limites déterminées par le Figure 2-14. Probabilité a posteriori de la classe A,
classifieur de Bayes ; dans ce problème, on dispose calculée par la formule de Bayes
de 600 exemples pour chaque classe (figure 2-16) à
partir desquels, par simple dénombrement, on estime le taux d’erreur à 30,1 %. Ainsi, on peut affirmer
que, pour ce problème, aucun classifieur, aussi bien conçu soit-il, ne peut réaliser une performance
meilleure que 69,9 % de classification correcte ; le meilleur classifieur réel est celui qui s’approche le plus
de cette limite théorique.

A B A B A 600 exemples

-15 -10 -5 0 +5
0 Répartition des 1200 exemples
Figure 2-15. Classification réalisée par le classifieur
de Bayes
600 exemples

-15 -10 -5 0 5 10

Figure 2-16. Exemples utilisés pour l’estimation du taux


d’erreur. En haut : classe A ; en bas : classe B

Classification et régression
Le lien entre classification et estimation de la fonction de régression s’établit de manière très simple dans
le cas d’un problème à deux classes. On montrera ensuite comment on peut traiter les problèmes à plus de
deux classes.

Problème à deux classes


Considérons tout d’abord un problème à deux classes C1 et C2. On a défini, dans le chapitre 1, la fonction
1 + sgn ⎡⎣g (x ,w ) ⎤⎦
indicatrice γ ( x, w) = qui vaut +1 lorsque l’objet à classer appartient à la classe A, et −1
2
dans le cas contraire. Pour un objet décrit par le vecteur de descripteurs x, la valeur de la fonction indica-
trice peut être modélisée comme une réalisation d’une variable aléatoire binaire Γ(x).

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 116/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
97
CHAPITRE 2

Propriété

La fonction de régression de la variable aléatoire Γ (x) est la probabilité a posteriori d’appartenance de


l’objet à la classe A.

Démonstration
Γ(x) est l’espérance mathématique de
La fonction de régression de Γ étant donné x, notéeEΓ x . Or,

E Γ x =Pr (Γ = 1x ) × 1+ Pr( Γ = 0x ) × 0= Pr( Γ = 1x )

ce qui démontre le résultat.


Le problème de l’estimation de la probabilité a posteriori des classes ramène donc au problème de l’esti-
mation de la fonction de régression d’une variable aléatoire, ce qui peut être réalisé avec n’importe quelle
famille de fonctions bornées (les probabilités doivent être comprises entre 0 et 1), notamment avec des
réseaux de neurones dont le neurone de sortie a une fonction d’activation sigmoïde, par exemple une
tangente hyperbolique. Cette dernière étant comprise entre –1 et +1, l’estimation de la probabilité est
obtenue par ⎣⎡1 + g ( x ,w ) ⎦⎤ 2 , où g(x, w) est la prédiction du modèle. On peut aussi utiliser une fonction
sigmoïde du type 1 : variant entre 0 et 1, elle peut directement approcher une probabilité. La
1 + exp( − v)
figure 2-17 illustre cette approche : on effectue l’apprentissage à partir d’un ensemble de couples
(xk , ypk ), où xk est la valeur du descripteur x pour l’exemple k, et ykp = +1 ou −1 selon que l’exemple k
appartient à la classe C1 ou à la classe C2 (la figure présente les résultats après transformation ramenant
l’estimation entre 0 et +1). Après estimation de la probabilité a posteriori, la frontière est définie comme
le lieu des points pour lesquels les probabilités a posteriori sont égales à 0,5 (règle de décision de Bayes).

Estimation de la probabilité
Classe C 1
a posteriori de la classe C 1
0 Classe C 2 sachant que l’on observe le descripteur x 1

1
Figure 2-17. Estimation
Frontière entre de la probabilité a posteriori
Pr (C 1 | x)

les classes d’appartenance à la classe C 1 ,


0,5 et détermination du seuil
de décision par la règle
de Bayes

00 0 0 0000000 000
00
x1 x
La complexité de la frontière entre les classes dépend de la complexité du modèle choisi. Le modèle le plus
simple est le modèle sans neurone caché, avec un neurone de sortie à fonction sigmoïde. Il définit une surface
de séparation qui est une droite pour un problème à deux variables, un plan pour un problème à trois variables,
et une surface appelée hyperplan dans les autres cas. Considérons en effet un classifieur à un neurone :

g( x ,w) = th ( v) avec v = w⋅ x.
Après apprentissage, et après la transformation mentionnée ci-dessus pour que la prédiction du modèle
puisse constituer une estimation d’une probabilité, cette dernière devient:

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 117/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
98

1 + th (w ⋅ x )
.
2
La frontière est le lieu des points où les
probabilités a posteriori sont égales à 1
0,5, donc le lieu des points pour
lesquels th(w⋅x) = 0, soit encore : 0,8

g(x 1 ,x2 ,w 0 ,w1 ,w2 )


Frontière entre les classes:

w ⋅ x = 0, 0,6 (1 ) ( 2 ) Pr C x = Pr C x = 0,5

ce qui est bien l’équation d’un plan de 0,4


vecteur normal w. Ainsi, la figure 2-18 0,2
montre l’estimation de probabilité
0
d’appartenance à la classe des 3
« cercles » dans l’exemple présenté
dans le chapitre 1, section « Un 0
x2 3
exemple de classification » ; l’en- 0
semble d’apprentissage est représenté -3 x1
-3
sur la figure 1-5. Pour tout point (x 1, Figure 2-18. Estimation de probabilité a posteriori par un classifieur
x2), le modèle fournit une estimation à un neurone (classifieur linéaire)
de la probabilité a posteriori d’appar-
tenance à la classe des cercles ; la frontière entre les classes est la droite correspondant à g(x, w) = 0,5. Sa
projection dans le plan des variables est représentée sur la figure 1-8.
Rappelons que, dans ce cas (deux distributions gaussiennes isotropes de même variance), la frontière
linéaire est la frontière idéale fournie par le classifieur de Bayes. S’il est nécessaire d’obtenir des fron-
tières plus complexes, on peut :
• soit mettre en œuvre des neurones cachés ;
• soit conserver un classifieur de la forme g(x, w) = th(v), mais rendre v plus complexe, par exemple en
postulant une forme polynomiale au lieu d’une forme linéaire (neurone « d’ordre supérieur »).
La figure 2-19 montre l’ensemble d’apprentissage pour un problème de classification où la solution optimale
n’est pas une frontière linéaire ; elle présente également la solution à ce problème, fournie par un réseau à
2 neurones cachés.
4

2 1

1 0,8
Frontière entre les classes:
0 0,6
( ) (
Pr C 1 x = Pr C 2 x = 0,5)
g(x, w)

-1
x2

0,4
-2
0,2
-3
0
-4
4 5
2
-5 0
-2 0
-6 x2 -4
-5 x1
-5 0 5 -6
x1
Figure 2-19. Classification non linéaire par un réseau de neurones à deux neurones cachés et un neurone de sortie
à activation sigmoïde

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 118/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
99
CHAPITRE 2

L’excellent ouvrage [BISHOP 1995] est entièrement consacré à la mise en œuvre de réseaux de neurones
pour la classification. Le chapitre 6 du présent ouvrage présente en détail les réseaux de neurones
(binaires ou non) ainsi que les machines à vecteurs supports pour la classification.

Problème à C classes
Lorsque le problème de classification est un problème à plus de deux classes, plusieurs approches sont
possibles :
• résoudre globalement le problème en estimant simultanément, pour un objet donné, ses probabilités
d’appartenance aux différentes classes ;
• diviser le problème en sous-problèmes à deux classes, concevoir un ensemble de « classifieurs deux à
deux » et combiner les résultats de ces derniers pour estimer les probabilités a posterioriglobales.
Ces deux approches vont être examinées successivement.
■ Approche globale
Cette approche est fréquemment mise en œuvre, bien
C neurones qu’elle ne soit pas toujours la plus efficace pour des
..... à fonction d’activation problèmes difficiles. Elle consiste à utiliser un réseau
sigmoïde
de neurones à C sorties (figure 2-20), le résultat étant
.... codé à l’aide d’un code 1-parmi-C : à l’événement
« l’objet appartient à la classe Ci » est associé un
vecteur g dont seule la composante i est égale à 1, les
x1 x2 x3 .... x n Descripteurs autres composantes étant égales à 0. De manière
analogue au cas de deux classes, on démontre facile-
Figure 2-20. Classification non linéaire à C classes : ment que l’espérance mathématique de chacune des
Perceptron multicouche à C neurones de sortie
à fonction d’activation sigmoïde composantes est égale à la probabilité a posteriori de la
classe correspondante.
Terminologie
Dans le jargon des réseaux de neurones, un codage « un-parmi-C » est appelé « codage grand-mère ». Cette appellation provient de la
neurobiologie : l’une des théories de la représentation des informations dans les systèmes nerveux soutient que certains de nos neurones
sont spécialisés dans la reconnaissance de formes usuelles, notamment du visage de notre grand-mère.

Il convient de noter plusieurs différences pratiques entre un Perceptron multicouche pour la classification
et un Perceptron multicouche pour la modélisation statique :
• contrairement au cas de la modélisation, les neurones de sortie d’un réseau pour la classification ont une
fonction d’activation sigmoïde, pour assurer que l’estimation de la probabilité soit comprise entre 0 et
1 ; on trouvera, dans le chapitre 6, une justification théorique à l’utilisation de la tangente hyperbolique
comme fonction d’activation des neurones de sortie pour la classification ;
• pour la classification, il est parfois plus efficace, pour estimer les probabilités, de minimiser la fonction
de coût d’entropie croisée plutôt que la fonction de coût des moindres carrés [HOPFIELD 1987] [BAUM
1988] [HAMPSHIRE 1990] ; les algorithmes d’apprentissage qui seront présentés dans la section
« Estimation des paramètres (apprentissage) d’un réseau de neurones non bouclé » s’appliquent sans
difficulté pour cette fonction de coût :
C
⎡ g ( x , w) ⎤ ⎡ 1 − g i ( x k ,w) ⎤
(
J = − ∑ ∑γ ki ln ⎢ i kk ⎥ + 1 − γik ln ⎢ ) ⎥
⎣ γi ⎣ 1−γ i
k
k i =1 ⎦ ⎦
où γ ik est la valeur (0 ou 1) de la variable indicatrice pour la sortie i lorsque l’on présente à l’entrée
l’exemple k, décrit par le vecteur de descripteurs xk, et où gi (xk,w) est la valeur de la sortie i du classifieur

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 119/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
100

pour cet exemple. On vérifie facilement que cette fonction est minimale lorsque tous les exemples sont
correctement classés.
Bien entendu, il convient de vérifier que la somme des sorties vaut 1 à la fin de l’apprentissage. La
méthode Softmax permet de garantir que cette condition est automatiquement remplie [BRIDLE 1990].
Cette difficulté ne se présente évidemment pas si l’on utilise un ensemble de classifieurs « deux à deux ».
Comme indiqué dans le
Classification : Théorique Estimée avec 4 neurones cachés
chapitre 1, le dilemme 1
biais-variance existe pour
la classification comme
pour la régression. Des 0,5
exemples de surajustement
en classification ont été
présentés dans le chapitre 0
1, figure 1-6. Il faut donc -15 -10 -5 0 5 10
mettre en œuvre, pour (a)
sélectionner le meilleur
modèle, les techniques de
sélection de modèles intro- Classification : Théorique Estimée avec 5 neurones cachés
duites dans le chapitre 1. 1
Essentiellement, il faut
trouver un réseau dont les
taux d’erreurs de classifi- 0,5
cation sur l’ensemble
d’apprentissage et sur un
ensemble de validation 0
soient du même ordre de -15 -10 -5 0 5 10
grandeur, et les plus petits (b)
possibles.
La figure 2-21 montre un Classification : Estimée avec 6 neurones cachés
Théorique
exemple de surajustement 1
dans l’estimation de la
probabilité d’appartenance
à la classe A pour l’exem- 0,5
ple présenté sur la figure
2-16 ; on voit que le réseau
à 4 neurones cachés est trop 0
peu complexe pour estimer -15 -10 -5 0 5 10
correctement la probabi- (c)
lité, alors qu’un réseau à Figure 2-21. Estimation des probabilités d’appartenance à la classe A avec trois
6 neurones cachés s’ajuste classifieurs de complexités différentes : (a) 4 neurones cachés (complexité insuffisante),
sur les fluctuations de la (b) 5 neurones cachés (performance très proche de la meilleure performance théorique),
(c) 6 neurones cachés (surajustement manifeste)
densité des points utilisés
pour l’apprentissage. Le
taux de classification incorrecte, estimé sur un ensemble de validation de plusieurs millions de points, est
de 30,3 %, alors que le classifieur théorique de Bayes donne une erreur minimale de 30,1 %. On vérifie
bien ici que les réseaux de neurones peuvent approcher les meilleures performances possibles, celles du
classifieur théorique de Bayes.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 120/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
101
CHAPITRE 2

■ Classification 2 à 2
Il est souvent beaucoup plus sûr, pour des problèmes difficiles, de traiter une classification à C classes
comme C(C-1)/2 problèmes de classification à 2 classes, pour les raisons suivantes :
• on peut bénéficier de nombreux résultats et algorithmes, notamment concernant la séparation linéaire
entre classes. Ces éléments sont largement développés dans le chapitre 6 ; ils seront introduits très briè-
vement dans le paragraphe suivant, intitulé « Séparabilité linéaire » ;
• on obtient des réseaux beaucoup plus petits, dont l’apprentissage est court et la manipulation simple ;
chacun d’eux ayant une seule sortie, son interprétation comme une probabilité est immédiate;
• les descripteurs pertinents pour séparer la classeA de la classe B ne sont pas nécessairement les mêmes
que ceux utiles pour discriminer la classe A de la classe C. En reconnaissance de formes notamment, le
fait de ne pas utiliser tous les descripteurs, mais seulement ceux qui sont utiles, constitue un avantage
considérable ; les techniques de sélection des variables exposées dans le chapitre 1 sont directement
utilisables.
Une fois que les C(C-1)/2 probabilités des classes deux à deux ont été estimées, éventuellement par de
simples réseaux sans couche cachée, la probabilité pour qu’un objet décrit par le vecteur de descripteurs
x appartienne à la classe Ci est calculée par la relation [PRICE 1994] :
1
Pr( Ci x) = C
1
∑ Pr − ( C − 2 )
j =1 ij
j ≠i

où C est le nombre de classes et Pr ij la probabilité d’appartenance de l’objet à la classe i, estimée par le


réseau de neurones qui sépare la classe Ci de la classe Cj.
■ Séparabilité linéaire
Deux ensembles d’objets décrits dans un espace de N descripteurs, appartenant à deux classes différentes,
sont dits « linéairement séparables » s’ils peuvent être séparés sans erreurs par un hyperplan dans l’espace
des variables.
Si des exemples sont linéairement séparables, un réseau de neurones à un seul neurone (également appelé
« Perceptron »), à fonction d’activation en échelon, peut les séparer. Ce classifieur est de la forme :
+1 si x ⋅w ≥ 0
g ( x ,w) =
−1 si x ⋅w < 0

On peut donc considérer un Perceptron comme la limite d’un réseau à un seul neurone, lorsque la pente à
l’origine de la tangente hyperbolique tend vers l’infini. La frontière est l’hyperplan d’équation x⋅w = 0.
Lorsque l’on découpe le problème en sous-problèmes de séparation de classes deux à deux, il apparaît que
la séparation linéaire entre deux classes présente très souvent une complexité suffisante ; il est même
fréquent que, dans des problèmes multiclasses réputés « difficiles », les exemples soient, en fait, linéaire-
ment séparables si l’on considère les classes deux à deux. Or, dans ce dernier cas, des algorithmes simples
et élégants permettent de trouver une très bonne solution, comme expliqué en détail dans le chapitre 6 : la
première étape, dans la conception d’un classifieur, est donc de chercher à savoir si les exemples des
classes sont séparables deux à deux. L’algorithme de Ho et Kashyap [HO 1965], largement antérieur aux
réseaux de neurones, fournit rapidement une réponse à cette question :
• si les exemples sont linéairement séparables, l’algorithme converge en un nombre fini d’itérations vers
une solution ;

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 121/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
102

• si les exemples ne sont pas linéairement séparables, l’algorithme l’indique également après un nombre
fini d’itérations.
Par exemple, pour la base de données de codes postaux fournie par le National Institute of Standards and
Technology, qui a servi de support à de très nombreux travaux, les classes de chiffres sont linéairement
séparables deux à deux, même si l’on utilise une représentation par pixels [KNERR 1992] ! De même, il
existe une base de données, relative à des signaux sonar, qui a fait l’objet de très nombreuses études et a
donné lieu à la conception de nombreux classifieurs fort compliqués ; en quelques secondes de calcul,
l’algorithme de Ho et Kashyap montre que les exemples des deux classes sont linéairement séparables. Il
est donc tout à fait inutile, pour cette application, de concevoir un classifieur plus complexe qu’un réseau
à un neurone ; cette application sera reprise dans le chapitre 6.

Méthodologie de conception d’un classifieur


Ces considérations conduisent à définir la stratégie suivante pour la conception d’un classifieur utilisant
des réseaux de neurones (il faut donc préalablement s’assurer que le problème posé relève bien d’un trai-
tement statistique) :
• élaborer une représentation bien discriminante des objets à classer, notamment dans des applications de
reconnaissance de formes (on utilisera avec profit, si nécessaire, les techniques décrites dans le chapitre 3).
Cette étape est d’une extrême importance et conditionne toute la suite, car une représentation bien
discriminante peut rendre le problème de classification trivial (ce point est illustré dans les applications
décrites dans la section « Exemples d’applications ») ;

Attention
Si le nombre d’exemples n’est pas grand devant la dimension du vecteur d’entrée dans la représentation choisie, il est inutile d’aller plus
loin, en vertu du théorème de CoverOVER[C 1965], présenté dans le chapitre 6 : il faut chercher une représentation plus « compacte » ou
bien collecter d’autres exemples avant de passer aux étapes suivantes, ou encore, lors de l’apprentissage, adopter une méthode de régu-
larisation sévère telle que la modération des poids (weight decay, décrite dans la section « Régularisation par modération des poids »).

• pour chaque paire de classes, effectuer la sélection des variables selon les méthodes décrites dans le
chapitre 1 ; en effet, il n’est pas du tout certain que les mêmes descripteurs soient utiles pour séparer les
classes A et B et pour séparer les classes A et C ;
• pour chaque paire de classes, tester la séparabilité linéaire des exemples des classes deux à deux à l’aide
de l’algorithme de Ho et Kashyap ;
• pour toutes les classes dont les exemples sont séparables deux à deux, mettre en œuvre les méthodes de
séparation linéaire (décrites dans le chapitre 6), et obtenir une estimation des probabilités a posteriori ;
• pour les classes non linéairement séparables, mettre en œuvre de petits Perceptrons multicouches ou des
Perceptrons sphériques décrits dans le chapitre 6, avec estimation des probabilités ; mettre en œuvre des
méthodes de validation croisée ou de leave-one-out (voir chapitres 1 et 2) pour la sélection de modèles ;
• estimer la probabilité d’appartenance à chaque classe à partir des probabilités déterminées à l’étape
précédente, selon la formule indiquée plus haut dans la section « Classification 2 à 2 » ;
• fixer les seuils de décision pour définir les classes de rejet.
Cette stratégie constitue une variante de la procédure STEPNET [KNERR 1990] [K NERR 1991], utilisée
efficacement dans plusieurs applications industrielles.
Dans la planification d’un tel projet, il ne faut pas sous-estimer le temps nécessaire pour la première et
pour la dernière étape : dans les applications réelles non triviales, ce sont fréquemment les deux étapes les
plus longues. La dernière d’entre elles est susceptible de remettre en cause les résultats obtenus lors des
étapes précédentes.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 122/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
103
CHAPITRE 2

L’application de cette stratégie est évidemment limitée par le fait que le nombre de classifieurs varie
comme le carré du nombre de classes. Néanmoins, chacun des classifieurs est très simple, de sorte que
cette démarche s’applique sans difficulté jusqu’à quelques dizaines de classes, ce qui couvre l’immense
majorité des applications. Si le nombre de classes est plus élevé, il faut avoir recours à des stratégies
hiérarchiques.

Rappelons que le chapitre 6 est entièrement consacré à la classification. Il présente notamment les
machines à vecteurs supports, qui sont des outils de classification très puissants, notamment par le fait
qu’ils permettent de contrôler la complexité du modèle.

Modélisation et classification de données structurées :


les « graph machines »
Toutes les méthodes exposées, dans ce chapitre et dans le précédent, ont pour objectif de traiter des
données qui sont sous la forme d’un vecteur de variablesx. Ainsi, une image ou un texte doivent d’abord
être transformés en un vecteur de variables susceptibles de décrire, de manière pertinente, les données que
l’on doit traiter. Néanmoins, celles-ci ont souvent naturellement une structure en graphes : une scène peut
être décrite par les relations entre les objets qui la composent, une phrase par les relations entre ses mots,
une molécule par les liaisons entre ses atomes ou ses groupements fonctionnels, etc. De telles données
sont dites structurées. La transformation de ces données en vecteurs fait fréquemment perdre leur struc-
ture, qui peut pourtant être déterminante pour la prédiction ou la classification que l’on cherche à effec-
tuer. Il est donc utile de concevoir des méthodes qui permettent de modéliser des relations entre graphes
et nombres, plutôt que des relations entre vecteurs et nombres. L’ensemble d’apprentissage n’est plus
composé de paires {x k , y pk }, mais de paires {Gk , ykp }, où Gk désigne le graphe k de l’ensemble
d’apprentissage ; l’objectif de la modélisation est de prédire la valeur de la grandeur yp étant donné un
graphe G qui ne fait pas partie de l’ensemble d’apprentissage.

L’idée de l’apprentissage à partir de données structurées remonte au début des années 1990, où les
« mémoires auto-associatives récursives » ont été conçues afin de fournir un codage compact pour une
catégorie particulière de graphes appelés « arbres » [POLLAK 1990]. Une synthèse sur le développement
de l’apprentissage numérique à partir de données structurées est présentée dans [GOULON 2005].

Le principe des « graph machines » est simple : au lieu de construire une fonctiong(x, w) qui est la même
pour tous les exemples, on construit, pour chaque graphe, une fonction (ou « machine » dans le jargon de
l’apprentissage) par combinaison de fonctions élémentaires, cette combinaison ayant la structure du
graphe. Les fonctions élémentaires qui constituent les machines sont identiques, mais c’est la façon de les
combiner qui change d’un exemple à l’autre : c’est elle qui reflète la structure du graphe auquel on veut
associer la grandeur que l’on cherche à prédire.

Ainsi, au lieu de concevoir une seule machine qui réalise la prédiction pour tous les exemples, on construit
autant de machines que d’exemples ; toutes ces machines ont des structures différentes, qui reflètent la
structure des données que l’on veut traiter, mais elles sont constituées des mêmes fonctions munies des
mêmes paramètres. Les sections suivantes présentent cette approche de manière un peu plus détaillée.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 123/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
104

Définitions
Graphes acycliques
Rappelons qu’un graphe est défini par un ensemble de nœuds et un ensemble d’arêtes entre ces nœuds, les
arêtes pouvant être orientées. S’il n’est pas possible de trouver un chemin dans le graphe, respectant
l’orientation des arêtes, dont le point de départ et le point d’arrivée sont identiques, le graphe est dit
acyclique.
La figure 2-22 représente un ensemble de trois graphes ; les machines correspondantes sont obtenues en
remplaçant chaque nœud par une fonction paramétréef(z, w), où w est le vecteur des paramètres. La fonc-
tion du nœud qui effectue le dernier calcul (nœud « racine ») peut être différente des autres ; elle est notée
F(z, W). Pour chaque graphe acyclique Gi , on construit une fonction gi (« graph machine ») qui est une
combinaison de fonctions paramétrées (« fonctions de nœuds ») identiques. Ces fonctions de nœuds
peuvent être, par exemple, des réseaux de neurones ; les fonctions g i sont parfois appelées « réseaux
récursifs » [FRASCONI 1998].
1
Graphe G1: g w , W( x1, x 2, x3, x4 ) F W x4 f ( z1, w ) f ( z2 , w ) f ( z3 ) où :
• x1, x 2, x 3 , sont des vecteurs = ( de, variables,
, de dimension
, X1, W
qui), w
fournissent une information sur les
nœuds ; ces variables ne sont pas obligatoires, mais elles peuvent être utiles pour fournir une informa-
tion spécifique aux nœuds (un exemple en est présenté dans la section « Aide à la découverte de
médicaments »). Si ces informations ne sont pas utiles, on a X1 = 0, et, dans ce cas, la valeur de
g 1w, W ( x1 , x2 , x3 , x4 ) ne dépend que du graphe et des paramètres des fonctions de nœud ;
• z1, z2, z 3 sont des vecteurs de dimension D 1 + 1 ; soit dk le degré du nœud k, c’est-à-dire le nombre
d’arêtes adjacentes à ce nœud, et M1 = maxkd k . On a : D1 = M 1 + X1 ; dans cet exemple M1 = 3, donc
D 1 = 3. Ces vecteurs sont construits de la manière suivante :
– pour tous les nœuds, la première composante z0 est égale à 1 ;
– pour le nœud k, de degré dk, les composantes 2 à dk + 1 de zk sont les valeurs de fw calculées
par les nœuds parents du nœud k, c’est-à-dire les nœuds j tels qu’il existe dans le graphe une
arête orientée de j vers k ; si d k < Mk, les composantes dk + 2 à M1 + 1 sont égales à zéro ; si
X1 = 0, les composantes M1 + 2 à M1 + 1 + X 1 sont les composantes de xk.

7 7
9
4
10 8
6
5 4
6
1 3 5
1 2 3 3

Graphe G 1
1

2 2 4
Graphe G 2 Graphe G 3
Figure 2-22. Trois graphes acycliques orientés

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 124/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
105
CHAPITRE 2

Dans l’exemple représenté sur la figure 2-22, s’il n’est pas nécessaire de fournir une information sur les
nœuds (X 1 = 0), on a D 1 = 3.
Graphe G 2 :

( ( ( ) )
g2w, W (x1 , x2 , x 3 , x 4 , x 5 , x 6 ,x 7 ) = FW x 7 , f (z 6 ,w ) , fw x 5 , f (z 4 , w ), fw x3, f ( z2 , w), f ( z1 , w), w , w , W )
où les vecteurs x 1 à x7 et z1 à z6 sont construits comme les variables correspondantes de G1, avec M2= 2.
S’il n’est pas nécessaire d’étiqueter les nœuds (X 2 = 0), on a :

( ) ( )
T T
D2 = 2, z1 = z2 = z4 = z6 = (1 0 0 ) , z3 = 1 f ( z1, w) f ( z2 , w) , z 5 = 1 f ( z3, w) f ( z4, w) ,
T

( )
T
z7 = 1 f ( z5 , w) f ( z6 , w)

Graphe G 3 :

( ( ( ( ( ) ( ) ) ) )
g3w, W ( x1 ,..., x10 ) = FW x10 , f w x9 , f w x8 , f (z7 , w ) , f x 6 , f x 5 , fw ( z 4 ,w) , w , f x3 , f ( z2 , w) , f ( z1 , w) , w, w , w , w , W )
où les vecteurs x 1 à x 10 et z 1 à z9 sont construits comme indiqué plus haut, avec M3= 2.
Si ces trois graphes sont utilisés comme ensemble d’apprentissage, les trois graph machines doivent
posséder les mêmes fonctions de nœuds, de sorte que le nombre de variables de la fonction de nœud soit
D = max Di , i = 1 à 3.
i

Graphes cycliques
Les graph machines peuvent manipuler les cycles et les arêtes parallèles, ce qui est important notamment
pour leurs applications en aide à la découverte de médicaments. Le graphe initial subit un prétraitement
qui consiste à supprimer des arêtes, en nombre égal au nombre de cycles, et à détruire toutes les arêtes
parallèles sauf une ; de plus, on affecte à chaque nœud une étiquette qui est égale à son degré dans le
graphe initial, ce qui permet de conserver l’information complète sur la structure du graphe original.
Enfin, on choisit un nœud racine et l’on affecte les orientations convenables aux arêtes.

Apprentissage
L’apprentissage des graph machines entre dans le cadre habituel de minimisation du risque structurel,
présenté dans le chapitre 1. Il nécessite la définition d’une fonction de perte et la minimisation d’une fonc-
tion de coût par rapport aux paramètres de la fonction de nœud. La fonction de coût peut, si nécessaire,
contenir un ou des termes de régularisation(voir la section « Apprentissage avec régularisation »). Typi-
quement, la fonction de coût est de la forme :
N

( ) 2
J ( w, W) = ∑ yip − giw, W + λ1 w + λ 2 W
i =1

où N est le nombre d’exemples de l’ensemble d’apprentissage, yip est la valeur de la grandeur à modéliser
pour l’exemple i, λ 1 et λ2 sont des constantes de régularisation convenablement choisies. Rappelons que
les paramètres w et W sont les mêmes pour toutes les machines i, de sorte qu’il faut utiliser la technique
des « poids partagés » qui sera décrite dans la section « Évaluation du gradient sous contrainte d’égalité
des paramètres ».

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 125/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
106

Les algorithmes d’optimisation, décrits dans la section « Modification des paramètres en fonction du
gradient de la fonction de coût » sont directement applicables.

Deux exemples académiques


Considérons deux exemples académiques : l’apprentissage du nombre de nœuds d’un graphe et l’appren-
tissage du nombre d’arêtes d’un graphe.
Dans le premier exemple, on cherche à apprendre, à partir d’exemples, et à prédire le nombre de nœuds
présents dans un graphe donné. Supposons que l’ensemble d’apprentissage soit constitué des trois
graphes présentés sur la figure 2-22. On cherche donc à associer à G1 le nombre 4, à G2 le nombre 7, et à
G3 le nombre 10. Commençant par la structure la moins complexe, on postule une fonction f(z, w) affine,
et F = f. Comme tous les nœuds sont équivalents pour le problème que l’on cherche à résoudre, il n’est
pas nécessaire de les étiqueter : X 1 = X2 = X 3 = 0. Les fonctions de nœuds étant les mêmes pour tous les
graphes, on prend D = maxD i = 3, donc :
i

fw ( x) = w0 + w1 z1 + w2 z2 + w3 z3 .
Toutes les arêtes étant équivalentes, on a w 1 = w2 = w3 = w. Il n’y a donc que deux paramètres indépen-
dants, w et w0 .
Ce problème admet une solution évidente : w = w0 = 1. Ainsi, pour le graphe G1 , on a :

( )
g1w ,W (x 1, x 2 , x 3, x 4 ) = f 1, f (z1, w ), f ( z2 , w), f ( z3 , w) , 0 3 1 0 4
w
où z1 = z2 = z3 = (1 0 0 0) . On obtient bien le wrésultat
T
= w cherché.
w+ =
De même, considérons l’apprentissage du nombre 5 5
d’arêtes d’un graphe. Supposons que, en plus des trois
graphes précédents, l’ensemble d’apprentissage
contienne le graphe G4, représenté sur la figure 2-23. 3 4 3 4
Ce graphe est cyclique, de sorte qu’il doit subir le
prétraitement indiqué plus haut : une des arêtes du
cycle doit être supprimée, par exemple l’arête entre 1
et 2. Afin de conserver l’information sur l’existence de 1 2 1 2
cette arête dans le graphe initial, on affecte à chaque Graphe G 4 Graphe acyclique
nœud une étiquette égale à son degré ; on a donc à orienté
présent Xk = 1 pour tous les nœuds de tous les graphes Figure 2-23. Graphe cyclique
de l’ensemble d’apprentissage. Aucune autre informa-
tion n’est nécessaire pour le problème que l’on cherche à résoudre. On a donc, pour le grapheG 4 :

gw4 (x1 , x2 ,x 3 ,x4 ,x 5 ) = f (z5 ,w )

avec :
x1 = 2 , x2 = 2, x 3 = 3, x 4 = 1, x5 = 2, z1 = z2 = (1 0 0 0 2) ,
T

z3 = 1( f ( z1, w) ) T
f ( z2 , w) 0 3 , z4 = (1 0 0 0 1) , z5 = 1 f ( z3, w)
T
( f ( z4 , w) 0 2 .) T

Postulons à nouveau une fonction de nœud affine f ( z ,w) = w0 + w1 z1 + w2 z2 + w3 z3 + w4 z4 . On a une


solution évidente : w 0 = 0, w 1 = w2 = w 3 =1, w4 = 0,5. On obtient alors, pour le graphe G4 par exemple :

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 126/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
107
CHAPITRE 2

gw4 ( x1, x2 , x3 , x4 , x5 ) = 1 + 2 w + 2 w2 = 5

ce qui est bien le résultat cherché.


Bien entendu, il est exceptionnel de disposer d’une 450

solution évidente. Il faut donc avoir recours à la procé- 400


350
dure d’apprentissage décrite plus haut. De plus, il faut

Indice de Wiener estimé


300
trouver la complexité convenable pour la fonction de 250

nœud, ce qui nécessite de mettre en œuvre des techni- 200


150
ques de sélection de modèles décrites dans le premier 100
chapitre : validation simple, validation croisée, leave- 50
one-out ou leave-one-out virtuel. La figure 2-24 0
0 50 100 150 200 250 300 350 400 450
présente le diagramme de dispersion des résultats Indice de Wiener

obtenus pour l’apprentissage de l’indice de Wiener Figure 2-24. Prédiction de l’indice de Wiener
d’un graphe, c’est-à-dire l’apprentissage de la somme par une graph machine
des distances entre ses nœuds. La base de données
utilisée contient 150 graphes engendrés aléatoirement, dont les indices de Wiener varient entre 1 et 426.
Les résultats présentés ont été obtenus avec des fonctions de nœuds qui sont des réseaux de neurones à
4 neurones cachés ; la sélection de modèle a été effectuée par validation croisée. D’autres problèmes
académiques sont décrits dans [GOULON 2007].
Des exemples d’application des graph machines à la prédiction de propriétés et d’activités de molécules
sont présentés dans la section « Aide à la découverte de médicaments ».

Exemples d’applications
Introduction
Le début de ce chapitre a été consacré à l’exposé du contexte mathématique qui est essentiel pour
comprendre ce que sont réellement les réseaux de neurones et les principes sur lesquels repose leur mise
en œuvre. Certains aspects peuvent paraître un peu « techniques », mais il est important d’avoir bien
compris ces bases. En effet, la simplicité même de mise en œuvre des réseaux de neurones constitue un
danger, car elle peut conduire à une application irréfléchie qui donne des performances médiocres ou
mauvaises.
Les réponses aux questions que se pose tout ingénieur ou chercheur qui envisage d’utiliser des réseaux de
neurones peuvent également être éclairées par l’exposé de quelques applications typiques. Bien entendu,
il n’est pas question ici de faire un exposé exhaustif des applications des réseaux de neurones : plusieurs
livres n’y suffiraient pas. Il s’agit plutôt de montrer quelques applications ayant un caractère exemplaire,
en insistant sur les raisons pour lesquelles les réseaux de neurones ont un apport important, voire décisif.

Reconnaissance de formes :
la lecture automatique de codes postaux
C’est sans doute dans le domaine de la reconnaissance de caractères que les réseaux de neurones ont
acquis leurs lettres de noblesse, et ont prouvé qu’ils constituent des alternatives fiables à d’autres
méthodes de classification. On citera ici quelques exemples et résultats, qui s’appuient sur les considéra-
tions pratiques développées dans le paragraphe consacré aux réseaux de neurones pour la classification.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 127/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
108

La reconnaissance automatique de codes postaux a probablement été l’un des problèmes de reconnais-
sance d’images les plus étudiés. En effet, si le traitement automatique du courrier à adresse dactylogra-
phiée ou imprimée est relativement simple, celui du courrier à adresse manuscrite est beaucoup plus
complexe, en raison de la variabilité des styles d’écriture. Pour chaque objet postal, une machine automa-
tique doit soit identifier le code, soit indiquer qu’elle ne peut pas l’identifier, et donc faire appel à un
opérateur humain. Comme indiqué plus haut, il est plus onéreux de rectifier une erreur de tri commise par
une machine que de faire lire un code postal par un opérateur, de sorte que le critère de performance le
plus fréquemment utilisé pour les machines de lecture de codes postaux est le suivant : pour un taux
d’erreur maximal fixé (par exemple, 1 %) sur les codes identifiés, quelle est la fraction du courrier qui
devra être traitée par un opérateur ? À l’heure actuelle, les machines les plus performantes font appel à des
réseaux de neurones (conjointement à d’autres techniques), et le taux de rejet est inférieur à 5 % pour un
taux d’erreur inférieur à 1 %.
L’essor des études sur la reconnaissance des codes postaux est dû à deux facteurs : d’une part, l’enjeu
économique du problème ; d’autre part, le fait que, dès 1990, des bases de données de grande taille ont été
mises dans le domaine public par le Service postal des États-Unis (USPS), puis par le National Institute
of Science and Technology (NIST). Cette disponibilité de bases de données, accessibles à tous, a permis
à de nombreux laboratoires (universitaires et industriels), de valider, de manière statistiquement significa-
tive, les méthodes et procédures qu’ils avaient développées. Cette politique a permis de faire progresser
l’état de l’art sur la reconnaissance des codes postaux et, de manière plus générale, sur les problèmes de
classification complexes.
La figure 2-25 présente quelques extraits de la base
USPS, qui comprend en tout 9 000 caractères (ce qui
est encore relativement peu, eu égard à la complexité
du problème). On observe immédiatement la diversité
des styles et les difficultés auxquelles il faut faire face.
Considérons l’exemple du code postal situé en haut à
droite de l’image ; on lit sans effort le code 68544,
mais on constate :
• que le chiffre 6 est coupé en deux morceaux ;
• que le 8 et le 5 sont attachés ;
• mais que le 5 est coupé en deux, et sa partie droite
attachée au 4 ! Figure 2-25. Quelques morceaux choisis de la base
Donc, si l’on fonde la reconnaissance du code sur la de données USPS
reconnaissance de chacun de ses chiffres séparément,
il faut d’abord résoudre le problème de la « segmentation » : comment séparer les chiffres les uns des
autres ? Une fois ce difficile problème résolu, il reste à traiter la très grande diversité des styles, des tailles,
des orientations, des chiffres isolés : il faut pour cela résoudre le problème crucial de la « représentation »
des formes à classer, c’est-à-dire du choix des descripteurs qui seront utilisés par un ou plusieurs classi-
fieurs, éventuellement neuronaux. Il est impossible de traiter ce problème de représentation de manière
générale, car il dépend complètement de l’application mise en œuvre : il est évident que l’on ne peut pas
représenter, de la même manière, des images de trait telles que des caractères manuscrits ou imprimés, des
images issues de satellites météorologiques, ou encore des radiographies médicales.
En dépit de la grande diversité des traitements mis en œuvre pour les images, il existe quelques opérations
de base que l’on retrouve dans toutes les applications réelles : détection de contours, rehaussement de
contraste, etc. (certaines de ces opérations se trouvent également dans le système visuel humain). Dans le
cas de la reconnaissance de caractères, la normalisation est également incontournable, pour que tous les
traitements portent sur des chiffres de même taille. L’ingénieur doit toujours réaliser un compromis entre

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 128/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
109
CHAPITRE 2

la complexité des prétraitements nécessaires pour aboutir à la représentation choisie, et la complexité de


la classification : un prétraitement bien fait, qui extrait des caractéristiques bien discriminantes et donc
pertinentes pour la classification, peut permettre l’utilisation d’un classifieur d’une grande simplicité,
mais ce prétraitement ne doit pas être trop gourmand en temps de calcul. En revanche, un prétraitement
primitif (par exemple, une simple normalisation) est extrêmement rapide mais ne facilite pas la tâche du
classifieur. Il faut donc trouver la solution qui présente la meilleure performance compatible avec le temps
de calcul autorisé par le cahier des charges de l’application. Deux exemples vont être présentés, qui
mettent en jeu des stratégies très différentes pour résoudre le même problème.
Le premier exemple a été développé au laboratoire AT&T Bell Labs. Il s’agit d’un réseau de neurones,
connu sous le nom de LeNet [LECUN 1989] ou « réseau de convolution », qui utilise une représentation
par pixels (après normalisation). Les premières couches du réseau réalisent des traitements locaux
destinés à extraire automatiquement des caractéristiques ; les dernières couches effectuent la classifica-
tion proprement dite. Ce réseau est représenté sur la figure 2-26. Il a été utilisé avec succès dans de
nombreuses applications, notamment en traitement d’images (voir par exemple [OSADCHY 2007]).
10 neurones de sortie

Connectivité complète

30 neurones cachés

Connectivité complète Figure 2-26. LeNet,


un réseau de neurones
qui effectue l’extraction
12 x 16
des caractéristiques
neurones cachés et la classification.

Connectivité partielle
(poids partagés)

12 x 64
neurones cachés

Connectivité partielle
(poids partagés)

256 variables

L’entrée du réseau est une matrice de 16× 16 pixels. Une première couche de neurones cachés est
composée de 12 ensembles de 64 neurones cachés, chacun des 64 neurones cachés recevant des informa-
tions concernant un « champ réceptif » de 5× 5 pixels. Ces ensembles de 64 neurones sont appelés
« cartes de caractéristiques », car les variables de tous les neurones d’une carte donnée sont affectées des
mêmes paramètres (technique des « poids partagés », décrite dans la section « Évaluation du gradient
sous contrainte d’égalité des paramètres »). Ainsi, on fait agir le même opérateur, localement, sur chaque
ensemble de 25 pixels, de sorte que l’ensemble des sorties d’un groupe de 64 neurones constitue une carte
du résultat de l’application de l’opérateur à l’image. Si la technique des opérateurs locaux est classique en
traitement d’images, l’originalité de la présente méthode réside dans le fait que ces derniers ne sont pas
conçus par l’ingénieur : ils sont déterminés par apprentissage à partir d’exemples. L’opération est renou-

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 129/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
110

velée dans une deuxième couche d’opérateurs qui traitent les résultats de la première couche. On obtient
ainsi 12 cartes de 16 neurones cachés, soit 192 neurones dont les sorties constituent le vecteur de descrip-
teurs utilisé pour la classification. Celle-ci est effectuée avec un réseau à une couche de 30 neurones
cachés et 10 neurones de sortie. Les neurones de sortie utilisent un codage 1-parmi-C, qui a été défini
plus haut : il y a autant de neurones dans la couche de sortie que de classes. La sortie du neurone i doit
être égale à 1 si la forme à classer appartient à la classe i, et doit être sinon égale à 0.
Ainsi, un tel réseau réalise automatiquement le prétraitement et la classification, opérations qui sont tradi-
tionnellement conçues séparément. Le prix à payer est évidemment une certaine lourdeur d’apprentissage
et, compte tenu du grand nombre de paramètres, la nécessité de faire preuve d’une grande vigilance rela-
tivement au surajustement.
Pour traiter le même problème, une approche très différente [KNERR 1992] consiste à réaliser un prétrai-
tement plus élaboré de l’image, afin d’extraire des caractéristiques discriminantes qui permettent
d’utiliser un classifieur relativement simple. Le prétraitement est la détection de contours suivie d’une
normalisation, qui produit 4 cartes de caractéristiques de 64 éléments, soit un vecteur de 256 compo-
santes. Mettant en œuvre la méthodologie de conception d’un classifieur décrite plus haut, les dix classes
ont été séparées deux à deux : 45 classifieurs différents ont été élaborés, dont l’apprentissage a été effectué
séparément et qui sont très simples puisque, dans l’application considérée, il se trouve que tous les exem-
ples de l’ensemble d’apprentissage sont linéairement séparables deux à deux. Chacun des 45 classifieurs
est donc constitué d’un seul neurone.
La figure 2-27 montre les 18 erreurs commises par ce classifieur sur les 9 000 caractères de la base de
données USPS. Pour chaque chiffre manuscrit, l’indication en haut à droite est la classe d’appartenance
du chiffre indiquée dans la base, et le chiffre en bas à droite est la classe affectée par le classifieur. On
remarquera notamment le cas du dernier chiffre (en bas à droite de la figure) qui est reconnu comme un
chiffre 1 alors qu’il est classé dans la base comme un chiffre 8, ce qui est évidemment une erreur d’étique-
tage.

Figure 2-27. Les 18 erreurs


de classification commises
par séparation linéaire des classes
deux à deux

L’importance du choix de la représentation pour ce type d’applications a été mentionnée à plusieurs


reprises, notamment dans la section « Méthodologie de conception d’un classifieur ». On peut la mettre
en évidence dans ce cas. Pour les deux représentations mentionnées plus haut (représentations par pixels
d’une part, cartes de caractéristiques après détection des contours d’autre part), la distance entre les bary-
centres des classes a été calculée ; elle est représentée sur la figure 2-28. On observe que les distances
entre classes sont toujours supérieures, pour la représentation par cartes de caractéristiques, à ce qu’elles
sont pour la représentation par pixels. Ainsi, la représentation par cartes éloigne les classes les unes des
autres, ce qui facilite évidemment la tâche des classifieurs.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 130/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
111
CHAPITRE 2

Le tableau 2-1 met en évidence l’amélioration de performances qui résulte de la mise en œuvre d’une
meilleure représentation : après ajustement des seuils de décision afin d’obtenir, dans les deux cas, un taux
d’erreur de 1 %, le taux de rejet pour la représentation par pixels est beaucoup plus élevé que pour la
représentation par caractéristiques. Il faut noter que les deux représentations ont la même dimension (dans
les deux cas, chaque chiffre est représenté par un vecteur de 256 composantes) : l’amélioration ne
provient pas de la compacité de la représentation, mais de sa bonne adéquation au problème posé. C’est
la réflexion de l’ingénieur qui fait la différence.

1,2

1,0

0,8

0,6

0,4

0,2

0
1 5 9 13 17 21 25 29 33 37 41
Couple de classes

Pixels Caractéristiques

Figure 2-28. Distances entre classes pour deux représentations : la représentation par cartes de caractéristiques éloigne
les classes les unes des autres, et donc facilite le travail ultérieur des classifieurs

Taux de chiffres bien classés Taux de rejet Taux d’exemples mal classés
Représentation par pixels 70,9 % 28,1 % 1%
Représentation par caractéristiques 90,3 % 8,7 % 1 %
Tableau 2-1

Une application en contrôle non destructif :


la détection de défauts dans des rails par courants de Foucault
L’exemple précédent est relatif à la reconnaissance automatique d’images. Bien entendu, les formes que
les réseaux de neurones peuvent classer ne sont pas nécessairement de cette nature : voici un exemple de
reconnaissance de signaux dans le domaine du contrôle non destructif. Cette application consiste à
détecter les défauts dans les rails du métro parisien à l’aide de courants de Foucault. Elle a été développée
par l’Institut national de la recherche sur les transports et leur sécurité (INRETS) pour la RATP
[OUKHELLOU 1997].
La détection de défauts dans les pièces métalliques à l’aide de courants de Foucault est une technique clas-
sique dans le domaine du contrôle non destructif. Son principe est simple : un bobinage crée un champ
magnétique alternatif dans la pièce à contrôler, ce qui engendre des courants de Foucault, dans une épais-

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 131/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
112

seur qui dépend de la fréquence du champ magnétique. Ces courants sont détectés par un second
bobinage ; la présence de défauts dans le métal modifie le signal recueilli, à la fois en amplitude et en
phase. Ainsi, le signal induit constitue une signature des défauts. Comme il existe toujours plusieurs caté-
gories de défauts, qui peuvent être plus ou moins graves, il est important de pouvoir non seulement
détecter ces défauts, mais encore les classer. Il faut aussi pouvoir faire une distinction entre des défauts et
des phénomènes normaux qui peuvent également avoir une influence sur le signal : la jointure entre deux
rails provoque une modification des courants de Foucault, analogue à celle engendrée par une fissure,
alors qu’il s’agit d’un événement normal (mais sa position est connue, ce qui facilite la discrimination).
Dans l’application considérée, le système de création et de détection des courants de Foucault est monté
sous la voiture, à quelques dizaines de millimètres du rail, comme représenté sur la figure 2-29.

Figure 2-29. Photographie du système de création et de détection des courants de Foucault

Comme toujours, le choix des descripteurs du signal conditionne en grande partie l’efficacité de la discri-
mination. Comme il s’agit ici d’images « mono-dimensionnelles » (par opposition aux images
« bidimensionnelles » traitées précédemment), on peut utiliser un relativement petit nombre de descrip-
teurs qui sont fondés sur les composantes de Fourier du signal, à condition que ces descripteurs soient
bien choisis. La méthode de la variable sonde, exposée dans le chapitre 1, a été mise en œuvre pour déve-
lopper cette application [OUKHELLOU 1998].

Fouille de données : le filtrage de documents


En raison de l’augmentation constante du volume d’informations accessible électroniquement, la concep-
tion et la mise en œuvre d’outils efficaces, permettant notamment à l’utilisateur de n’avoir accès qu’à

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 132/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
113
CHAPITRE 2

l’information qu’il juge pertinente, devient une nécessité absolue. Comme la plupart de ces outils sont
destinés à être utilisés dans un cadre professionnel, les exigences de fiabilité et de convivialité sont très
importantes ; les problèmes à résoudre pour satisfaire ces exigences sont nombreux et difficiles. L’accès
à l’information pertinente peut être réalisée en fournissant à un utilisateur des documents pertinents, ou
en lui proposant des passages de documents pertinents (ou des réponses à des questions). Le premier cas
relève du domaine de la recherche de textes, le second du domaine de l’extraction d’informations.
La catégorisation de textes, appelée également « filtrage », consiste à trouver, dans un ensemble de docu-
ments (comme un fil de dépêches d’agence de presse, ou un ensemble de pages Web), ceux relatifs à un sujet
défini par avance. On peut ainsi fournir à un utilisateur, en temps réel, toutes les informations importantes
pour l’exercice de son métier. Dans ce cas, l’utilisateur n’exprime pas son intérêt par une requête, mais par
un ensemble de documents pertinents qui définissent un thème ou une catégorie. Pour un thème donné, la
catégorisation consiste donc à résoudre un problème de classification supervisée à deux classes ; celui-ci
peut être résolu notamment par les méthodes décrites dans cet ouvrage : les réseaux de neurones, les
machines à vecteurs supports (chapitre 6) ou les modèles de Markov cachés (chapitre 4).
C’est un problème très difficile, qui va bien au-delà de la recherche par mots-clés. En effet, supposons,
que l’on cherche à sélectionner, dans le flot des dépêches de l’AFP, celles qui sont pertinentes pour le
thème « prises de participations entre entreprises » ; des textes qui contiennent les phrases : « la société A
a racheté la société B » ou bien « A est entré dans le capital de B à hauteur de 10 % », ou encore « A vient
de franchir à la hausse le cap des 20 % des parts sociales de B », sont tous pertinents, et pourtant ils ne
contiennent aucun des mots qui définissent le thème. En revanche, la phrase « la participation des commu-
nistes au gouvernement inquiète les chefs d’entreprises » n’est pas pertinente, bien qu’elle contienne deux
des mots du thème.
L’application (extraite de [STRICKER 2000]) a été développée pour la Caisse des dépôts et consignations,
qui offre, sur l’intranet du groupe, un service de filtrage de dépêches de l’AFP en temps réel. Les objectifs
sont doubles :
• développement d’une application permettant à un utilisateur d’obtenir automatiquement un filtre
d’information sur un thème de son choix, sous réserve de fournir des exemples de textes pertinents pour
le thème considéré ;
• développement d’un outil permettant de surveiller l’obsolescence des filtres classiques, constitués de
systèmes à base de règles.
Pour atteindre le second objectif, on fabrique une copie d’un filtre à base de règles avec un filtre utilisant
un réseau de neurones. Comme le réseau de neurones fournit une probabilitéde pertinence et non une
réponse binaire, il est possible d’analyser les plus grandes divergences entre les deux filtres : les docu-
ments considérés comme pertinents par la méthode à base de règles, mais obtenant une probabilité proche
de zéro avec le réseau de neurones, et les documents considérés comme non pertinents avec le premier et
obtenant une probabilité de pertinence proche de un avec le second [WOLINSKI 2000].
Le premier de ces objectifs consiste donc en la conception et la réalisation d’un système de création auto-
matique de filtres, dont la caractéristique majeure est l’absence d’intervention d’un expert, par opposition
à la mise en œuvre d’un système à base de règles. Il s’agit donc de concevoir un système de discrimination
à deux classes ; à partir d’une base de documents étiquetés comme pertinents ou non pertinents pour le
thème considéré, il faut :
• trouver une représentation des textes par des nombres, représentation qui doit être aussi compacte que
possible ;
• concevoir et mettre en œuvre un classifieur utilisant cette représentation.
Le problème de la représentation des textes, et donc de la sélection des variables, est évidemment central
dans cette application.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 133/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
114

Sélection des variables


L’approche la plus conventionnelle est la représentation en « sac de mots », dans laquelle un texte est repré-
senté par un vecteur dont chaque composante est un nombre qui est lié à la présence ou à l’absence d’un mot
dans le texte, ou à sa fréquence dans le texte. Cette approche présente un inconvénient : la dimension de ce
vecteur est égale au nombre de mots du vocabulaire, ce qui est évidemment énorme. On peut néanmoins
remarquer que tous les mots ne sont pas également discriminants : les mots les plus fréquents (de, la, et...)
sont inutiles pour la discrimination, de même que les mots très rares. Dans une première étape, on cherche
donc, pour un thème donné, à trouver les mots les plus pertinents pour le thème considéré.
■ Codage des mots
Les mots sont codés de la manière suivante : soit FT(m, t) la fréquence d’occurrence du terme m dans le
texte t, et FT(t) la fréquence moyenne des termes dans le texte t. Alors le mot m est décrit par la quantité :
1 + log (FT (m ,t ))
x (m ) = ,
1 + log( FT (t ))
dont on trouvera la justification dans [SINGHAL1996].
■ La loi de Zipf
Pour sélectionner les mots discriminants, on est aidé par la loi de Zipf [ZIPF 1949] : soit un corpus de T textes,
appelons FC(m) la fréquence d’occurrence du mot m sur le corpus T ; la quantité FT(m, t), fréquence du mot m
dans le texte t, a été définie dans le paragraphe précédent. Construisons une liste de mots, classés par ordre de
) le rang du mot m dans cette liste. La loi de Zipf s’énonce ainsi :
où K estdécroissant
FC(m) une constante
; soitqui
r(mdépend
FC(m)du r(mcorpus
) = K, considéré. Il y a donc un petit nombre de mots très fréquents, et
un grand nombre de mots très rares qui n’apparaissent qu’une fois ou deux sur le corpus ; entre ces extrêmes,
il existe un ensemble de mots dans lesquels il faut chercher les mots discriminants.
■ Extraction du vocabulaire spécifique
6 Pour déterminer le vocabulaire spécifique à un thème donné,
5 on définit, pour chaque mot m de chaque texte pertinent t, le
4 rapport R(m, t) = FT(m, t) / FC(m). On range les mots du texte
log FC(m)

par ordre de R(m, t) décroissant, on supprime la seconde


3
moitié de la liste, et l’on construit un vecteur booléen v(t) tel
2
que vi(t) = 1 si le mot i est présent dans la liste, et 0 sinon. On
calcule enfin le vecteurv = ∑v (t ) , où la somme porte sur tous
1

0 t
0 1 2 3
log r(m)
4 5 les documents pertinents : le vocabulaire spécifique du thème
est l’ensemble des mots dont la composante dans v est non
Figure 2-30. Vérification expérimentale
de la loi de Zipf sur le corpus Reuters, nulle. La figure 2-30 montre que, sur le corpus des dépêches
et représentation des mots du vocabulaire Reuters, la loi de Zipf est assez bien vérifiée, et que les mots
spécifique au thème « Falkland petroleum du vocabulaire spécifique du thème « Falkland petroleum
exploration » exploration » sont bien au milieu de la distribution.

Sélection finale
À l’intérieur du vocabulaire spécifique ainsi défini, qui peut être encore vaste (une à quelques centaines
de mots), une sélection finale est effectuée par la méthode de la variable sonde, décrite dans le chapitre 1.
À la fin de cette étape, il apparaît que, en moyenne sur 500 thèmes étudiés, le vocabulaire spécifique d’un
thème comprend 25 mots, ce qui est tout à fait raisonnable pour un vecteur de variables d’un réseau de

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 134/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
115
CHAPITRE 2

neurones. Néanmoins, cette représentation n’est pas encore satisfaisante, même si elle est compacte. En
effet, les mots seuls sont ambigus : dans une application comme celle-ci, il est indispensable de tenir
compte du contexte.

Détermination du contexte
Pour introduire le contexte dans la représentation des textes, on cherche des mots de contexte dans une
fenêtre de 5 mots de part et d’autre de chaque mot du vocabulaire spécifique. On définit :
• des mots de contexte positifs, qui sont les mots que l’on trouve dans le voisinage des mots du vocabu-
laire spécifique, dans les documents pertinents ;
• des mots de contexte négatifs, qui sont les mots que l’on trouve dans le voisinage des mots du vocabu-
laire spécifique, dans les documents non pertinents.
Pour sélectionner les mots de contexte, on utilise exactement la même procédure que pour la détermination
du vocabulaire spécifique. Typiquement, pour l’exemple de « prise de participation entre entreprises », on
constate que pour le mot « capital », qui fait partie du vocabulaire spécifique, les mots « détient » et
« droits » se trouvent dans les mots de contexte spécifique, et les mots « risque » et « fonds » dans le
contexte négatif.
En moyenne sur 500 thèmes différents, un thème est défini par 25 mots de vocabulaire spécifique, chacun
de ces mots ayant 3 mots de contexte.

Conception et apprentissage des filtres


■ Filtres sans contexte
Si l’on ne tient pas compte du contexte, le filtre a pour variables les mots du vocabulaire spécifique, codés
comme indiqué précédemment. Conformément à la méthodologie de conception de classifieurs présentée
dans la section consacrée à la discrimination, la structure du classifieur dépend de la complexité du
problème. Sur les corpus et les thèmes testés, les ensembles d’apprentissage sont généralement linéaire-
ment séparables, de sorte que l’on utilise un réseau à un seul neurone à fonction d’activation sigmoïde.
■ Filtres avec contexte
Le contexte doit modifier le descripteur correspondant
Filtre sans contexte
à chaque mot du vocabulaire spécifique. Le filtre repré-
sente donc chaque mot du vocabulaire par un neurone
à fonction d’activation sigmoïde, dont les variables
sont le descripteur du mot considéré et les descripteurs
des mots de contexte de celui-ci. Les sorties de
Filtre avec contexte
ces neurones sont séparées linéairement par un neurone à
fonction d’activation sigmoïde. La figure 2-31 représente
un filtre avec contexte et un filtre sans contexte.
L’utilisation du contexte augmente évidemment le
nombre de paramètres. Typiquement, pour un thème
avec 25 mots de vocabulaire spécifique et 3 mots de Figure 2-31. Un filtre sans contexte est un classifieur
contexte par mot du vocabulaire spécifique le filtre linéaire qui reçoit en entrée le descripteur de chacun
comprend 151 paramètres. Compte tenu du fait que le des mots du vocabulaire spécifique (rectangles
nombre de paramètres peut être du même ordre de en traits gras) ; dans un filtre avec contexte,
grandeur que le nombre d’exemples (voire inférieur à les entrées sont les descripteurs des mots
du vocabulaire spécifique (rectangles en traits gras)
celui-ci), il est impératif de mettre en œuvre une et les mots de contexte (rectangles en traits fins).
méthode de régularisation. La méthode de modération

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 135/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
116

des poids a été mise en œuvre dans cette application ; on en verra l’effet dans la section consacrée à
l’apprentissage avec régularisation.

Validation des résultats


Dans le domaine du traitement automatique du langage, la compétition organisée chaque année dans le
cadre de la conférence TREC (Text REtrieval Conference) constitue une référence. La méthodologie
présentée ci-dessus a été mise en œuvre dans le cadre de la compétition TREC-9, pour l’épreuve de
routing : celle-ci consiste à classer un ensemble de textes par ordre de pertinence décroissante pour des
thèmes imposés. L’épreuve de TREC-9 portait sur deux ensembles de textes, se rapportant respectivement
à 63 et 500 thèmes, et comprenant au total 294 000 documents. Il va de soi que le nombre de documents
à analyser et le nombre de thèmes rendent impossible tout traitement « manuel » ou « semi-automatique »
des données, dans le temps imparti à la compétition. L’approche décrite ci-dessus a remporté l’épreuve
pour chacun des deux thèmes ; la figure 2-32 représente les scores réalisés par les participants [STRICKER
2001].

Épreuve “OHSU” (63 thèmes) Épreuve “MeSH” (500 thèmes)


1 1

0,8
0,8

0,6
Scor e

0,6
0,385
0,4 0,343 0,326 0,317
0,237 0,234
0,185 0,177
0,2 0,4 0,335
0,099 0,081
0,253
0
) ) 0,2 0,158
) ) ) ) )
r2 r1 po po r1 2) r2 0) 00
N N f2 fr2 UN
r er
9
no
0 po
2R 2R 9r UN tr
(S (S ok 9r (K (M rp an
ok en
(K nt .(
0 ,0078
D
C C t( t( en IG (a
IC D of of eg eg /S U. sU
0
IC os os ijm IT er
icr ci r N ijm IR ers g ICDC Microsoft Rutgers U Rutgers U (antrpms00)
N tg t
M M U. U. Ru Ru (S2RNsamp) (ok9rf r2ps) (antrpnms00)

Figure 2-32. Résultats de l’épreuve de « routing » de TREC-9 : en noir : résultats obtenus par la méthode décrite ci-dessus ;
en gris : résultats obtenus par d’autres méthodes

Aide à la découverte de médicaments : prédiction de propriétés


chimiques et d’activités thérapeutiques de molécules
L’étude des relations structure-activité des molécules (QSAR pour Quantitative Structure-Activity Rela-
tions) et de leurs relations structure-propriété (QSPR pour Quantitative Structure-Property Relationships)
est un domaine en plein essor, en raison des progrès très rapides de la simulation moléculaire. Ces travaux
ont pour objectif de prédire les propriétés physicochimiques ou thérapeutiques de molécules à partir de
données structurales qui peuvent être calculées a priori par ordinateur, sans qu’il soit nécessaire de synthé-
tiser la molécule ; on peut donc éviter une synthèse coûteuse si l’on peut prédire que la molécule envi-
sagée ne possède pas les propriétés souhaitables [HANSCH 1995]. Cette approche est particulièrement
utile dans le domaine de la bio-ingénierie, pour la prédiction de propriétés pharmacologiques de molé-
cules, mais elle peut évidemment être transposée à n’importe quel domaine (prédiction de propriétés
mécaniques de matériaux complexes à partir de leur formulation, prédiction de paramètres thermodyna-
miques de mélanges, etc.). L’objectif est toujours de réduire les coûts de développement, particulièrement
importants dans l’industrie pharmaceutique, en remplaçant des synthèses ou des réalisations coûteuses
par des prédictions fiables.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 136/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
117
CHAPITRE 2

Pourquoi les méthodes d’apprentissage statistique peuvent-elles être mises en œuvre avec profit dans ce
contexte ? Si l’on admet qu’il existe une relation déterministe entre certains descripteurs de la molécule
et la propriété que l’on veut prédire, alors on est ramené à un problème de détermination de la fonction de
régression de la propriété envisagée, en fonction des descripteurs choisis.
La première question qu’il convient de se poser est celle des données utilisables pour l’apprentissage et pour
l’évaluation des performances du réseau. Compte tenu de l’importance des enjeux, il existe de nombreuses
bases de données concernant des propriétés telles que le point d’ébullition, la solubilité dans l’eau ou le coeffi-
cient de partage eau-octanol, ou encore des activités telles que l’action anti-VIH, la toxicité, etc.
La deuxième question à se poser est celle des variables pertinentes pour le modèle envisagé. Ici, les
connaissances du chimiste doivent nécessairement guider le choix de ces variables. On peut envisager
plusieurs catégories de descripteurs :
• des descripteurs chimiques tels que la masse moléculaire, le nombre d’atomes de carbone… ;
• des descripteurs géométriques tels que le volume de la molécule, sa surface, son ovalité… ;
• des descripteurs électriques tels que les charges portées par les différents atomes, le moment dipolaire… ;
• etc.
Pour chaque propriété que l’on cherche à prédire, il faut donc établir un ensemble de descripteurs que l’on
peut supposer pertinents, et utiliser une technique de sélectionde variables, comme celles décrites dans le
premier chapitre, afin de déterminer les descripteurs qui sont réellement utiles pour les molécules et la
propriété considérées. En raison de leur parcimonie, des réseaux de neurones de très petite taille (5 à
7 neurones cachés) fournissent généralement des résultats de meilleure qualité que les techniques de
régression multilinéaire habituellement mises en œuvre dans ce domaine D [ UPRAT 1998].
Néanmoins, les propriétés et activités des molécules dépendent en grande partie de la structure de celles-
ci ; c’est pourquoi il est particulièrement intéressant d’utiliser des méthodes de régression ou de classifi-
cation de données structurées telles que les graph machines décrites précédemment dans la section
« Modélisation et classification de données structurées ». En effet, elles permettent de s’affranchir
complètement de la détermination, du calcul et de la sélection des descripteurs, puisque la structure
chimique détermine directement les prédictions du modèle.
À titre d’exemple, considérons la prédiction des 9
Ensemble d’apprentissage-validation
propriétés anti-VIH de dérivés de la tétrahydroimi-
8 Ensemble de test
dazobenzo-diazepinone (TIBO), qui agit en
bloquant l’activité de l’enzyme qui permet la dupli- 7
Activité prédite

cation du rétrovirus. L’activité est exprimée quanti-


tativement par le rapport log(1/IC50), où IC50 est la 6
concentration en TIBO qui produit l’inhibition de
50 % de l’enzyme responsable de la duplication. 5
Les résultats sont présentés sur la figure 2-33 ; ils
4
sont de meilleure qualité que ceux obtenus par les
méthodes conventionnelles, y compris les réseaux 3
de neurones, avec le grand avantage de supprimer 3 4 5 6 7 8 9
Activité mesurée
les phases de conception, calcul et sélection des
descripteurs [GOULON 2006]. Figure 2-33. Prédiction d’une activité anti-VIH

Comme mentionné dans la présentation des graph


machines, celles-ci peuvent également effectuer des tâches de classification. Un ensemble de données de
321 molécules, possédant des groupements fonctionnels variés, a été divisé en un ensemble d’apprentis-
sage-validation de 274 exemples et un ensemble de test de 47 exemples. La sélection de modèles a été
effectuée par validation croisée à l’aide de 10 sous-ensembles. La procédure a conduit au choix d’une

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 137/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
118

fonction de nœud constituée d’un réseau de neurones à 3 neurones cachés, qui ne commet aucune erreur,
ni sur les données d’apprentissage, ni sur les données de test.
De nombreux autres exemples d’applications sont décrits dans [GOULON 2007].

Une application en formulation :


la prédiction de la température de liquidus de verres
Dans le même esprit que l’application précédente, on peut prédire des paramètres thermodynamiques de
matériaux en fonction de la composition de ceux-ci. C’est le cas notamment pour la température de
liquidus de verres d’oxydes. Cette température est la température maximale à laquelle des cristaux sont
en équilibre thermodynamique avec le liquide ; il est important, industriellement, de pouvoir prédire cette
température en fonction de la composition du verre, car la valeur de la viscosité à la température de
liquidus est un élément important pour le choix des paramètres des procédés de mise en forme des verres.
La prédiction de cette température en fonction de la composition du verre est difficile, car les diagrammes
présentent des variations brutales dans le domaine d’intérêt ; compte tenu de cet enjeu industriel, de
nombreuses études ont été menées (voir par exemple [K IM 1991]) et des bases de données sont disponi-
bles. L’utilisation de modèles non linéaires obtenus par apprentissage s’est montrée avantageuse par
rapport aux méthodes traditionnelles, notamment pour les verres ayant plus de trois composantes.
La figure 2-34 illustre, sur un exemple concret, la parcimonie des réseaux de neurones. Les variables des
modèles sont les teneurs en oxydes et le modèle doit prédire la température de liquidus. La figure 2-34(a)
présente le résultat obtenu sur un verre de silice (composé, outre de SiO2, d’oxyde de potassium K2O et
d’alumine Al2 O3), obtenu avec un réseau à 6 neurones cachés (25 paramètres), et la figure 2-34(b) le
résultat obtenu avec un polynôme de degré 3, dont le même nombre de paramètres est très voisin (19). Il
est clair que, à nombre de paramètres à peu près équivalent, le réseau de neurones fournit un bien meilleur
résultat. La figure 2-34(c) indique, pour mémoire, le résultat obtenu avec un modèle linéaire.

Modélisation d’un procédé de fabrication : le soudage par points


Le soudage par points est le procédé de soudage le plus utilisé dans l’industrie automobile : des millions de
soudures sont effectuées chaque jour. Le procédé est schématisé sur la figure 2-11 : le soudage des deux tôles
est effectué en faisant passer un courant très intense (des kiloampères) pendant un temps très court (quelques
centaines de millisecondes) entre deux électrodes pressées contre la surface des tôles. L’échauffement
produit par effet Joule fait fondre une zone des tôles. Après refroidissement, le diamètre de la zone fondue
(typiquement 5 mm) caractérise la qualité de la soudure ; si ce diamètre est inférieur à 4 mm, la soudure est
considérée comme défectueuse. Le diamètre du point soudé est donc un élément crucial de la sécurité du
véhicule. À l’heure actuelle, il n’existe pas de méthode physique non destructive qui permette d’évaluer rapi-
dement le diamètre de la soudure. En conséquence, une stratégie industrielle typique consiste :
• à utiliser une intensité de courant excessive, ce qui produit un très grand échauffement, donc l’éjection
de gouttelettes de métal en fusion de la zone de soudage (c’est l’origine des « étincelles » que l’on
observe à chaque soudure effectuée par les robots de soudage sur une chaîne de fabrication) ;
• à réaliser des soudures en surnombre afin que, avec une probabilité voisine de 1, on ait au moins une
soudure de bonne qualité.
L’excès de courant et le trop grand nombre de soudures conduisent à une dégradation rapide des élec-
trodes, qui doivent être changées ou réusinées fréquemment.
Pour toutes ces raisons, la modélisation du processus en vue d’obtenir une prédiction fiable du diamètre de
la soudure, en temps réel, à partir de mesures effectuées pendant le soudage, constitue un problème industriel
important. Il est très difficile de modéliser la dynamique du processus de soudage, pour plusieurs raisons :

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 138/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
119
CHAPITRE 2

6 neurones
1600
cachés
1500

1400

1300

1200

1100

1000

900

800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700

(a)

1600

1500
Polynôme de degré 3
1400

1300

1200

1100

1000

900

800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700

(b)

1600

1500
0 neurones cachés
1400 (modèle linéaire)
1300

1200

1100

1000

900

800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700

(c)

Figure 2-34. Diagrammes de dispersion (température prédite en fonction de la température observée) pour la prédiction
de la température de liquidus de verres d’oxydes en fonction de la composition, pour trois modèles différents.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 139/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
120

• le temps nécessaire pour intégrer numériquement les équations différentielles et les équations aux déri-
vées partielles du modèle de connaissance est supérieur, de plusieurs ordres de grandeur, à la durée
d’une soudure : on ne peut donc pas utiliser un tel modèle pour une prédiction en temps réel ;
• certains paramètres physiques, qui interviennent dans les équations du modèle de connaissance, sont
mal connus.
La modélisation par apprentissage est donc une alternative intéressante à un modèle de connaissance. Le
procédé étant non linéaire et présentant plusieurs variables, les réseaux de neurones sont de bons candi-
dats pour effectuer une prédiction, en temps réel, du diamètre du point fondu, et donc de la qualité de la
soudure, en fonction de mesures effectuées pendant la soudure [MONARI 1999].
Les difficultés sont, d’une part, le choix des variables du modèle et, d’autre part, le fait que la constitution
d’une base de données est onéreuse : le nombre d’exemples est donc limité.
Les grandeurs candidates pour constituer des variables du modèle sont des grandeurs mécaniques et élec-
triques qui peuvent être mesurées durant le processus. La sélection des variables a été effectuée à l’aide
des méthodes décrites dans le chapitre 1, et le choix ainsi effectué a été validé par les experts impliqués
dans le développement du modèle de connaissance du procédé.
Comme il n’existe pas de méthode non destructive simple pour prédire le diamètre du point fondu, la base
de données est construite de la manière suivante : un ensemble de soudures est effectué dans des condi-
tions bien contrôlées ; elles sont ensuite arrachées (« déboutonnées ») et le diamètre du « bouton fondu »,
qui reste solidaire d’une des tôles, est mesuré. C’est un processus long et coûteux, de sorte que l’ensemble
d’apprentissage initial comprenait seulement 250 exemples. En utilisant l’estimation des intervalles de
confiance qui sera exposée dans la section « Effet du retrait d’un exemple sur l’intervalle de confiance
pour sa prédiction », un plan d’expériences a été établi, qui a permis d’enrichir progressivement la base
de données disponible. La moitié de ces données a été utilisée pour l’apprentissage, l’autre pour le test ;
la sélection de modèle a été effectuée par la procédure de leave-one-out virtuel, de sorte qu’il n’a pas été
nécessaire d’utiliser un ensemble de validation.
La figure 2-35 présente des diagrammes de dispersion typiques, où chaque prédiction figure avec son
intervalle de confiance. L’erreur de généralisation estimée (score de leave-one-out, voir chapitre 1 et
section « Sélection de modèles » du présent chapitre) est de 0,27 mm, et l’EQMT de l’ordre de 0,23 mm.
Ces quantités étant de l’ordre de grandeur de l’incertitude de mesure, ces résultats sont très satisfaisants.

8 8
7 7
Diamètre prédit (mm)

Diamètre prédit (mm)

6 6
Figure 2-35.
5 5 Diagrammes
de dispersion
4 4 pour la prédiction
du diamètre
3 3 de soudures
par points,
2 2 et intervalles
2 3 4 5 6 7 8 2 3 4 5 6 7 8 de confiance sur
Diamètre mesuré (mm) Diamètre mesuré (mm) les prédictions

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 140/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
121
CHAPITRE 2

Application en robotique :
modélisation de l’actionneur hydraulique d’un bras de robot
On cherche à concevoir un modèle d’un bras de robot dont la position est commandée par un actionneur
hydraulique. La position du bras dépend de la pression de liquide hydraulique dans l’actionneur, pression
commandée par l’ouverture d’une vanne. Il s’agit d’un processus dynamique, commandé en temps discret ;
comme indiqué dans la section « À quoi servent les réseaux de neurones bouclés ? », on omet de mentionner
la période d’échantillonnageT afin d’alléger les notations. Les variations de l’ouverture de la vanne, c’est-à-
dire la séquence de signaux de commande {u(k)}, et la pression d’huile correspondante, c’est-à-dire la
séquence de la grandeur à modéliser {yp(k)}, sont représentées sur la figure 2-36. Cet ensemble de données
contient 1 024 points de mesure : la première moitié d’entre eux est utilisée pour l’apprentissage, la seconde
pour l’estimation de la performance (séquence de test). On ne dispose d’aucune autre information sur le
processus : on a donc nécessairement recours à une modélisation boîte noire.

1,5
Commande
1

0,5

0
-0,5

-1

-1,5
0 200 400 (a) 600 800 1000

Séquence d'apprentissage Séquence de test


4
Sortie du processus
2

-2

-4
0 200 400 (b) 600 800 1000
Figure 2-36. Séquences d’apprentissage et de test pour la modélisation d’un bras de robot

L’examen des données montre que le processus n’est certainement pas linéaire et que, compte tenu des
oscillations observées en réponse à des variations de u(k) qui sont presque des échelons, le processus est
au moins d’ordre 2. On observe aussi que les séquences d’apprentissage et de test n’explorent qu’approxi-
mativement le même domaine de fonctionnement (signaux de sortie et de commande de même type et de
même amplitude). On note qu’aux instants 600 et 850 environ de la séquence de validation, l’amplitude

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 141/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
122

de la commande dépasse les amplitudes maximales atteintes sur la séquence d’apprentissage. On ne se


trouve donc pas dans les meilleures conditions possibles.
Cet exemple sera étudié en détail dans la section « Que faire en pratique ? Un exemple de modélisation
dynamique “boîte noire” ». Les meilleurs résultats ont été obtenus [OUSSAR 1998] avec un modèle d’état
du second ordre, dont l’une des variables d’état est la sortie elle-même, de la forme :

g (k + 1) = x 1 (k + 1) = Ψ 1 ( x1 ( k ) , x 2 ( k ) , u ( k ))
x 2 (k + 1 ) = Ψ 2 ( x 1 ( k ) , x 2 ( k ) , u ( k ) )

avec deux neurones cachés. Il est représenté sur la figure 2-37.

g(k+1) = x 1(k+1)

x2(k+1)

q-1
5
yp
g

1 u(k) x2 (k)
-5
g(k) = x 1 (k) 0 100 200 300 400 500
Figure 2-37. Modèle neuronal d’état pour l’actionneur Figure 2-38. Modélisation d’état de l’actionneur hydraulique
hydraulique. La sortie est l’une des variables d’état.

L’erreur quadratique moyenne obtenue avec le modèle de la figure 2-37 est de 0,07 sur la séquence
d’apprentissage et de 0,12 sur la séquence de validation, ce qui est une très bonne performance compte
tenu de la représentativité des données disponibles. Les résultats obtenus sur la séquence de test sont
représentés sur la figure 2-38. Les défauts de modélisation résultent du fait qu’il y ait des perturbations
non mesurées, qui ne figurent pas dans les variables du réseau.

Modélisation semi-physique d’un procédé manufacturier


La méthode de modélisation semi-physique sera décrite en détail dans la section « Modélisation dyna-
mique “boîte grise” ». L’application qui en est présentée ici porte sur la modélisation du séchage du ruban
adhésif Scotch.
Un ruban adhésif est constitué d’un film de matière plastique – le substrat – sur lequel est déposé un film
liquide – le revêtement – constitué d’un polymère adhésif dissout dans un solvant. L’ensemble passe dans
un four, dans une atmosphère gazeuse où la pression partielle du solvant est très inférieure à la pression
partielle à l’équilibre à la température du four ; en conséquence, le solvant s’évapore, de sorte que la

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 142/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
123
CHAPITRE 2

concentration du solvant dans le revêtement au voisinage de la surface devient inférieure à la concentra-


tion du solvant dans le volume du revêtement. Le solvant diffuse alors du volume vers la surface pour
compenser ce gradient de concentration, ce qui alimente encore l’évaporation. Le processus se poursuit
jusqu’à séchage du revêtement, de sorte que seul subsiste l’adhésif à la surface du substrat.
Traditionnellement, le solvant est un solvant organique. Pour des raisons de sécurité et d’environnement,
il est souhaitable de remplacer les solvants organiques par de l’eau. Un modèle physique précis du
séchage en présence d’un solvant organique existe [PRICE 1997] ; il est constitué de treize équations algé-
briques et différentielles non linéaires couplées ; lorsque le solvant organique est remplacé par de l’eau,
certains éléments de ce modèle ne sont plus valables, de sorte que les prédictions du modèle sont beau-
coup moins précises.
La théorie de la dissolution du polymère dans l’eau est moins bien connue que celle du polymère dans un
solvant organique, de sorte que l’on ne peut pas élaborer un modèle de connaissance satisfaisant ; d’autre
part, des séquences de mesure du poids de l’échantillon en fonction du temps et de la température du four
sont disponibles : l’utilisation d’un modèle semi-physique paraît donc possible et opportune.
Les équations qui constituent le modèle expriment :
• la conservation de la masse dans le volume du solvant : cette équation ne peut être remise en cause par
le changement du solvant ;
• la loi qui régit le courant de solvant vers la surface (loi de Fick). La validité de cette loi n’est pas discu-
table, mais elle fait intervenir une grandeur (le coefficient de diffusion) dont la variation en fonction de
la concentration et de la température est donnée par une théorie (théorie du volume libre) dont la vali-
dité, dans le cas où le solvant est de l’eau, est incertaine ;
• la condition de conservation de la masse à la surface : toute molécule qui arrive à la surface, et
s’évapore, contribue à la variation de la pression partielle du solvant dans le gaz – cette loi ne peut être
remise en cause ;
• la condition à l’interface entre le revêtement et le substrat : le substrat étant imperméable au solvant, il
n’y a aucun flux de solvant vers le substrat ;
• la valeur de la pression partielle de solvant dans le gaz, qui constitue la force motrice du processus. Cette
grandeur est donnée par une loi dont la validité n’est pas remise en cause par les experts.
À la lumière de cette analyse, il apparaît que c’est la variation du coefficient de diffusion qui doit être
représentée par un réseau de neurones « boîte noire » au sein du modèle semi-physique. C’est ce qui a été
effectué en suivant la méthode de conception esquissée plus haut ; elle est décrite en détail dans la section
« Modélisation dynamique “boîte grise” ». Il faut noter que les équations du modèle ne sont pas des équa-
tions différentielles, mais des équations aux dérivées partielles ; ceci n’est pas un obstacle à l’utilisation
de la méthode. Un schéma explicite de discrétisation a été utilisé pour la variable de temps, et une discré-
tisation implicite a été utilisée pour la variable d’espace.
Le lecteur intéressé par les détails de la réalisation du modèle et par les résultats obtenus pourra les lire
dans [OUSSAR 2001]. On trouvera également une autre application – la détection automatique de dysfonc-
tionnements dans une colonne à distiller industrielle – mettant en œuvre la modélisation neuronale semi-
physique, dans [PLOIX 1997]. Mentionnons enfin que des applications sont opérationnelles dans un
groupe industriel français majeur, pour la formulation de matériaux et de produits nouveaux.

Contrôle de l’environnement : hydrologie urbaine


La Direction de l’eau et de l’assainissement du département de Seine-Saint-Denis a développé un système
sophistiqué de mesure des niveaux d’eau dans le système de collecte des eaux pluviales, et a procédé à des
mesures systématiques des chutes de pluie et des niveaux d’eau correspondants. L’objectif est une utilisa-

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 143/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
124

tion optimale du réseau et une bonne anticipation des difficultés qui peuvent résulter de pluies impor-
tantes. La fiabilité du système dépend donc largement de la fiabilité des capteurs des niveaux d’eau dans
les collecteurs : il est donc important de pouvoir détecter automatiquement qu’un capteur est en panne
[ROUSSEL 2001].
La possibilité de créer, par apprentissage, des modèles statiques ou dynamiques a permis la réalisation de
nombreux systèmes de détection de dysfonctionnements : si l’on dispose d’un modèle précis du fonction-
nement normal du processus que l’on veut surveiller, et que l’on observe une différence significative entre
les prédictions du modèle et les mesures effectuées, on peut en conclure que le système est en fonction-
nement anormal ou, dans l’exemple décrit ici, que le capteur considéré est en panne.
Deux types de pannes doivent être considérés :
• capteur bloqué (fournissant une mesure constante) ;
• capteur subissant une dérive lente.
Ces deux types de pannes peuvent êtres détectés en utilisant des réseaux de neurones bouclés, notamment
des modèles NARMAX, qui seront décrits en détail dans la section « Techniques et méthodologie de
conception de modèles dynamiques » de ce chapitre, ainsi que dans le chapitre 4. Ainsi, la figure 2-39
montre clairement la différence de comportement de l’erreur de modélisation lorsque le capteur est en
fonctionnement normal et lorsqu’il dérive.
0,04
0,02
Erreur moyenne de modélisation

0
1 3 5 7 9 11 13
-0,02
Dérive Figure 2-39.
-0,04
Fonctionnement Détection
-0,06 normal de panne
de capteur dans
-0,08 un collecteur
-0,10 d’eau pluviale

-0,12
Jour

Une application en robotique mobile :


le pilotage automatique d’un véhicule autonome
Commander un processus, c’est déterminer les commandes à lui appliquer afin de lui assurer un compor-
tement donné (défini par un cahier des charges) en dépit de perturbations.
L’exemple présenté ici est celui d’un véhicule Mercedes 4 × 4 (baptisé REMI), équipé par la société
SAGEM des capteurs et actionneurs nécessaires pour que le véhicule puisse être autonome. Commander
ce processus, c’est envoyer aux actionneurs du volant, de l’accélérateur et du frein, les signaux de
commande nécessaires pour que le véhicule suive une trajectoire définie à l’avance, avec un profil de
vitesse déterminé au préalable, en dépit des perturbations telles que la pente de la route, son dévers, les
bourrasques de vent, des dérapages éventuels, etc.
Les réseaux de neurones sont de bons candidats pour être des éléments de systèmes de commande de
processus non linéaires. En effet, on a vu leur capacité à réaliser des modèles, boîtes noires ou aidés de
connaissances physiques. Or, pour être en mesure d’élaborer un système de commande pour un processus,

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 144/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
125
CHAPITRE 2

il faut généralement disposer d’un modèle de celui-ci ; les réseaux de neurones interviennent donc dans
les systèmes de commande non linéaires comme modèles du processus, soit pendant la phase d’appren-
tissage, soit en tant qu’élément du système de commande lui-même (commande avec modèle interne).
D’autre part, l’élaboration du signal de commande (par exemple l’angle dont il faut faire tourner le volant,
et la vitesse angulaire avec laquelle il faut le faire tourner) à partir de l’information de consigne (le cap
que doit suivre le véhicule) implique généralement la réalisation d’une fonction non linéaire, donc les
réseaux de neurones peuvent avantageusement assurer cette fonction : celle du correcteur.
Le véhicule expérimental REMI est équipé d’actionneurs (moteur électrique pour faire tourner le volant,
actionneur hydraulique pour le circuit de freinage, moteur électrique pour le papillon d’admission d’air)
et de capteurs de deux types :
• des capteurs qui permettent de connaître l’état du véhicule (capteurs proprioceptifs) : odomètres sur les
roues, capteur angulaire sur le volant et le papillon d’admission d’air, capteur hydraulique sur le circuit
de freinage ;
• un capteur qui permet de connaître la position du véhicule par rapport au monde extérieur (capteur
extéroceptif) : une centrale inertielle.
Le système de navigation et de pilotage est constitué des éléments suivants :
• un module de planification qui, à partir de l’objectif à atteindre et des contraintes (routes), détermine la
trajectoire que doit suivre le véhicule, et le profil de vitesse à respecter durant le trajet ;
• un module de guidage, qui élabore les consignes de cap et de vitesse ;
• un module de pilotage, qui détermine les positions souhaitées pour les actionneurs ;
• un module de commande des actionneurs eux-mêmes.
Dans cette structure, les réseaux de neurones interviennent au niveau du pilotage pour déterminer les
actions souhaitables en fonction des consignes de cap et de vitesse [RIVALS 1994] [RIVALS 1995].
L’application a nécessité la conception et la réalisation de deux systèmes de commande destinés à réaliser
deux tâches :
• la commande du volant, pour maintenir le véhicule sur sa trajectoire : un régulateur neuronal de la posi-
tion a été réalisé, qui permet une erreur latérale maximale de 40 cm, pour des courbures jusqu’à 0,1 m-1 ,
et des dévers jusqu’à 30 %, sur route et en tout-terrain ; cet asservissement a mis en œuvre, en certains
de ses éléments, une modélisation semi-physique ;
• la commande de l’accélérateur et du frein, pour respecter le profil de vitesse imposé par le module de
guidage.
Il faut noter que les divers réseaux de neurones mis en jeu dans cette application, qu’ils jouent le rôle de
modèles ou de correcteurs, sont tous de très petite taille (moins d’une dizaine de neurones cachés). Leur
mise en œuvre en temps réel n’a nécessité aucun matériel spécialisé : ils ont été réalisés sous forme
uniquement logicielle, exécutés sur une carte à microprocesseur standard qui remplissait diverses autres
fonctions.

Techniques et méthodologie de conception de modèles


statiques (réseaux non bouclés)
Dans ce chapitre, on a délibérément laissé de côté, jusqu’à cette section, un certain nombre de points tech-
niques dont la connaissance n’est pas essentielle pour comprendre ce que peuvent apporter les modèles
neuronaux à l’ingénieur ou au chercheur, mais qu’il faut évidemment connaître pour mettre en œuvre une
application. C’est pourquoi cette section présente plus en détail les points qui n’ont été que survolés

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 145/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
126

jusqu’à présent. On reprendra ici les éléments de méthodologie exposés succinctement dans le premier
chapitre : sélection de variables, apprentissage, sélection de modèles.

Sélection des variables


Rappelons ce qui a été indiqué au chapitre 1, section « Sélection de variables » : la sélection des variables
d’un modèle est très importante pour assurer la parcimonie de celui-ci. Cette étape de la conception de
modèles peut comprendre deux tâches, à réaliser successivement :
• la réduction de la dimension du vecteur des variables par analyse en composantes principales, analyse
en composantes indépendantes ou analyse en composantes curvilignes ; cette tâche est expliquée en
détail dans le chapitre 3 ;
• la sélection des variables pertinentes, qui a été décrite dans le chapitre 1.
Pour cette dernière tâche, la méthode de la variable sonde s’applique entièrement à la sélection
des variables d’un réseau de neurones. En effet, une variable qui est pertinente l’est indépendamment du
modèle postulé, à condition que l’on prenne en considération le fait que deux variables prises séparément
peuvent ne pas être pertinentes, mais que la combinaison des deux peut l’être. On applique donc la
méthode de la variable sonde comme indiqué dans le chapitre 1, en n’omettant pas de tenir compte
des variables primaires et des variables secondaires ; on recense les variables primaires sélectionnées,
seules ou en combinaison, et on les utilise comme variables d’un réseau de neurones. On bénéficie ainsi
de la parcimonie de ce dernier, qui, rappelons-le, est très avantageuse pour les problèmes nécessitant une
modélisation non linéaire avec plus de deux variables.

Estimation des paramètres (apprentissage) d’un réseau de neurones


non bouclé
Rappelons que l’estimation des paramètres du modèle se fait par minimisation d’une fonction de coût qui
traduit la « distance » entre les mesures effectuées y pk (k = 1 à N), présentes dans l’ensemble d’apprentis-
sage, et les prédictions du modèle g(x k =1à
la fonction de coût des moindres carrés, w)
: (k N) sur ces mêmes mesures. Le plus souvent, on utilise
N

(
J (w ) = ∑ y pk − g (xk , w ) .) 2

k =1

Les méthodes qui peuvent être mises en œuvre pour minimiser la fonction de coût sont de deux types :
• des méthodes non adaptatives d’apprentissage : elles consistent à estimer les paramètres du modèle par
minimisation de la fonction de coût des moindres carrés, qui tient compte simultanément de tous les
exemples de l’ensemble d’apprentissage ; l’utilisation d’une telle méthode nécessite évidemment que
les N exemples soient disponibles dès le début de l’apprentissage ;
• des méthodes adaptatives d’apprentissage : elles consistent à modifier les paramètres du modèle,
(2
successivement en utilisant la fonction de perte relative à chaque exemple k : π (xk ,w ) = yk − g ( x k , w ) .
p
)
Cette technique est la seule qui soit applicable lorsqu’on désire effectuer l’apprentissage sans attendre
que tous les exemples soient disponibles ; elle permet également de mettre à jour un modèle si le
processus qu’il modélise est soumis à des dérives lentes (usures, encrassements…).
Terminologie
En anglais, on désigne l’apprentissage non adaptatif sous le terme de batch training ou off-line training, et l’apprentissage adaptatif sous le
terme de on-line training.
L’apprentissage non adaptatif, le plus fréquemment utilisé, est décrit dans la section suivante.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 146/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
127
CHAPITRE 2

Apprentissage non adaptatif des réseaux de neurones


Comme l’apprentissage des systèmes linéaires, celui des systèmes non linéaires a pour objectif de mini-
miser la fonction de coût des moindres carrés. Comme expliqué dans le chapitre 1, cette minimisation se
fait aisément dans le cas des systèmes linéaires : la fonction de coût étant quadratique par rapport aux
paramètres, sa dérivée est linéaire par rapport à ceux-ci, de sorte que l’on obtient un système d’équations
linéaires. En revanche, si le modèle n’est pas linéaire en ses paramètres, les équations obtenues en annu-
lant le gradient de la fonction de coût ne sont pas linéaires, ce qui complique l’estimation des paramètres.
C’est une des composantes du prix à payer pour bénéficier de la parcimonie caractéristique des réseaux
de neurones. L’autre composante de ce prix est l’existence de plusieurs minima locaux de la fonction de
coût : celle-ci n’étant pas quadratique, elle ne possède pas un minimum unique.
La minimisation de la fonction de coût ne pouvant être effectuée par inversion de matrice, comme c’est le
cas pour les modèles linéaires, il faut avoir recours à des techniques classiques d’optimisation : ce sont
des méthodes itératives, qui modifient les paramètres du modèle en fonction du gradient de la fonction de
coût par rapport à ces paramètres.
Chaque itération du processus d’apprentissage nécessite donc la mise en œuvre de deux ingrédients bien
distincts :
• l’évaluation du gradient de la fonction de coût choisie ;
• la modification des paramètres en fonction de ce gradient, afin d’approcher un minimum de la fonction
de coût.

Terminologie
Pour l’apprentissage non adaptatif, on utilise aussi, au lieu du terme d’itération, le terme d’époque.

Ces deux points vont être abordés successivement ; on rappelle tout d’abord le préalable indispensable :
la normalisation des variables.
■ Normalisation des variables et de la grandeur à modéliser
Rappelons que, avant tout apprentissage, il est indispensable de normaliser et de centrer toutes
les variables, ainsi que la grandeur à modéliser. La procédure de normalisation a été décrite dans le
chapitre 1, section « Prétraitement des données ».

■ Évaluation du gradient de la fonction de coût


Lorsque le modèle postulé est un réseau de neurones, l’évaluation du gradient de la fonction de coût peut
être effectuée d’une façon économique à l’aide d’un algorithme appelé algorithme de rétropropagation
[RUMELHART 1986] [WERBOS 1974], devenu tellement populaire qu’il apparaît parfois comme synonyme
d’apprentissage de réseaux de neurones. En réalité, l’algorithme de rétropropagation n’est pas un algo-
rithme d’apprentissage, mais un ingrédient dans une procédure d’apprentissage. On montrera d’ailleurs
qu’il est possible d’évaluer le gradient au moyen d’une autre méthode que la rétropropagation.

À proscrire
On trouve trop souvent l’expression « réseau de neurones à rétropropagation » (quand ce n’est pas « réseau backprop »...) pour désigner
un réseau de neurones non bouclé. Cette expression est doublement absurde : d’une part, il est parfaitement possible de faire l’apprentis-
sage d’un réseau non bouclé sans utiliser la rétropropagation, comme on le verra dans le paragraphe intitulé « Évaluation du gradient de
la fonction de coût dans le sens direct » ; d’autre part, on utilise aussi la rétropropagation dans l’apprentissage de réseaux bouclés, comme
on le montrera dans les paragraphes consacrés à l’apprentissage de modèles dynamiques. Il n’y a donc aucun lien entre l’architecture du
réseau (bouclé ou non bouclé) et l’utilisation, ou la non-utilisation, de la rétropropagation.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 147/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
128

Évaluation du gradient de la fonction de coût par rétropropagation


Considérons un réseau de neurones non bouclé avec neurones cachés et un neurone de sortie. L’extension
à un réseau qui possède plusieurs neurones de sortie est triviale. Rappelons que le neurone i calcule une
quantité yi qui est une fonction non linéaire de son potentiel vi :

⎛ni ⎞
yi = f (v i ) = f ⎜∑w ij x ij ,
⎝j=1 ⎠
où x ij désigne la variable j du neurone i. Les ni variables du neurone i peuvent être soit les sorties
d’autres neurones, soit les variables du réseau. Dans toute la suite, x ij désignera donc indifféremment soit
la sortie yj du neurone j, soit la variable j du réseau, l’une ou l’autre constituant une variable du neurone i.
La fonction de coût dont on cherche à évaluer le gradient est de la forme :
N N
( ) 2
J (w ) = ∑ y pk − g (xk , w ) = ∑ π ( xk , w) ,
k =1 k =1

où π (xk,w) est la fonction de perte relative à l’exemple k. Pour évaluer le gradient de la fonction de coût,
il suffit donc d’évaluer le gradient de la fonction de perte relative à l’observationk, et de faire ensuite la
somme sur tous les exemples.
L’algorithme de rétropropagation consiste essentiellement en l’application répétée de la règle des dérivées
composées. On remarque tout d’abord que la fonction de perte ne dépend du paramètrew ij que par l’inter-
médiaire de la valeur de la sortie du neurone i, qui est elle-même fonction uniquement du potentiel du
neurone i ; on peut donc écrire :

⎛∂π (x , w ) ⎞ ⎛∂ π ( x, w) ⎞ ⎛ ∂v i ⎞ k i
⎜ ∂w ⎟ = ⎜ ∂ v ⎟ ⎜∂w ⎟ = δ i xj ,k ,
⎝ ij ⎠x= xk ⎝ i ⎠x= x k ⎝ ij ⎠x = x
k


⎛∂π ( x, w)⎞
•⎜ = δ ki désigne la valeur du gradient de la fonction de perte par rapport au potentiel du
⎝ ∂ vi ⎟ ⎠x =x
k

neurone i lorsque les valeurs des variables du réseau sont celles qui correspondent à l’exemple k ;
⎛∂ v ⎞
• ⎜ i ⎟ = xij, k désigne la valeur de la dérivée partielle du potentiel du neurone i par rapport au para-
⎝∂wij ⎠x =x k
mètre w ij lorsque les variables du réseau sont celles qui correspondent à l’exemple k ;
• x ij, k est la valeur de la variable j du neurone i lorsque les variables du réseau sont celles qui correspon-
dent à l’exemple k.
Cette dernière quantité est entièrement calculable si l’on connaît les valeurs des paramètres. Or celles-ci
sont connues à tout moment pendant l’apprentissage, puisqu’elles ont initialement des valeurs aléatoires,
qui sont ensuite modifiées selon les algorithmes qui seront présentés dans la section « Modification des
paramètres en fonction du gradient de la fonction de coût » ; les quantités x ij, k sont donc connues. Il reste
donc à évaluer les quantités δ ik présentes dans le membre de droite de l’équation. On va démontrer que ces
quantités peuvent être avantageusement calculées d’une manière récursive en menant les calculs depuis la
(ou les) sortie(s) du réseau vers ses entrées.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 148/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
129
CHAPITRE 2

En effet :
• pour le neurone de sortie, de potentiel vs :
⎛∂ π ( x, w) ⎞ ⎛∂ 2 ⎞ ⎛∂ g (x ,w ) ⎞
δ sk = ⎜ = ⎜ ⎡ ( ykp − g (x k , w )) ⎤ ⎟= −2e (xk , w )⎜ ,
⎝ ∂vs ⎟ ⎠x =x ⎝∂ vs ⎣ ⎦⎠ ⎝ ∂ vs ⎟ ⎠x =x
k k

où e( x k ,w) = y kp − g (xk ,w ) est l’erreur de modélisation commise par le réseau, muni du vecteur de para-
mètres w, pour l’exemple xk.
Or, la prédiction du modèle est le résultat du calcul du neurone de sortie ; cette relation s’écrit donc :
( ) ( )
δ sk = −2 e (x k ,w ) f ′ v sk , où f ′ v ks désigne la dérivée de la fonction d’activation du neurone de sortie
lorsque les entrées du réseau sont celles de l’exemple k. Si, comme c’est le cas lorsque le réseau est
utilisé en modélisation, le neurone de sortie est linéaire, l’expression se réduit à : δ sk = −2 e( x k , w) ;
• pour un neurone caché i : la fonction de coût ne dépend du potentiel du neurone i que par l’intermédiaire
des potentiels des neurones m dont une des variables est la valeur de la sortie du neurone i, c’est-à-dire
de tous les neurones qui, dans le graphe des connexions du réseau, sont adjacents au neuronei, entre ce
neurone et la sortie :
⎛∂ π ( x, w) ⎞ ⎛∂π ( x, w) ⎞ ⎛∂vm ⎞ k ⎛∂ v m ⎞
δ ik ≡ ⎜
⎝ ∂ vi ⎠ ⎟ = ∑⎝ ⎜ ∂v ⎟ ⎝
⎠ ⎟ = ∑ δm ⎝
⎜∂ v ⎠ ⎜ ∂v ⎠ ⎟ .
x =x m m x =x i x =x m i x =x
k k k k

Désignant par vkm le potentiel du neurone m lorsque les variables du réseau sont celles de l’exemple k, on
⎛∂v ⎞
( )
a : vkm = ∑ w mi x im, k = ∑ w mi f vik . Par conséquent ⎜ m ⎟ = w mi f ′ vik .
⎝ ∂vi ⎠x =xk
( )
i i

On obtient donc finalement la relation :

δ ik = ∑ δ kmwmi f ′ ( vik ) = f ′ (vki )∑ δ mk w mi


m m

Ainsi, les quantités δ ik peuvent être calculées récursivement, en parcourant le graphe des connexions
« dans le sens rétrograde », depuis la (les) sortie(s) vers les variables du réseau (ce qui explique le terme
de rétropropagation).
Une fois que les gradients des fonctions de perte ont été calculés, il suffit d’en faire la somme pour obtenir
le gradient de la fonction de coût.
Résumé de la rétropropagation
L’algorithme de rétropropagation comporte deux phases pour chaque exemple k :
• une phase de propagation, au cours de laquelle les variables correspondant à l’exemple k sont utilisées
pour calculer les sorties et les potentiels de tous les neurones ;
• une phase de rétropropagation, au cours de laquelle sont calculées les quantitésδ ik .
Une fois que ces quantités sont disponibles, on calcule les gradients des fonctions de perte par les relations
⎛∂π (x ,w )⎞ ∂J (w) N ∂π (x k ,w )
⎟ = δ i x j , k, puis le gradient du coût total ∂w = ∑ ∂w .
k i
⎜ ∂w
⎝ ij ⎠x =x k ij k =1 ij

L’algorithme de rétropropagation peut être interprété sous une forme graphique, en introduisant le
« réseau adjoint » du réseau dont on veut estimer les paramètres. Cette approche, parfois utile, est
présentée dans le chapitre 4 traitant de l’identification de systèmes dynamiques.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 149/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
130

Remarque importante
L’algorithme de rétropropagation a été présenté ici dans le cadre de la minimisation de la fonction de coût des moindres carrés. Il est facile
de l’adapter au calcul du gradient de n’importe quelle autre fonction de coût dérivable, notamment, pour la classification, à la fonction de
coût d’entropie croisée.

Évaluation du gradient de la fonction de coût dans le sens direct


Une mythologie s’est développée, selon laquelle l’apprentissage des réseaux de neurones possédant
des neurones cachés a été rendu possible par l’invention de la rétropropagation. En réalité, il est tout à fait
possible d’évaluer le gradient de la fonction de coût par un calcul plus simple dans son principe (quoique
plus coûteux en temps de calcul), qui a d’ailleurs été largement utilisé pour l’estimation des coefficients
de filtres linéaires en cascade. Ce calcul s’effectue dans le sens direct, en évaluant les gradients à partir
des variables, vers les sorties.
En effet :
• pour un neurone m qui a pour variable xj,k , valeur prise par la variable j du réseau pour l’exemple k :
⎛∂ ym ⎞ ⎛∂y m ⎞ ⎛ ∂v m ⎞
⎜∂w ⎟ = ⎜∂v ⎟ ⎜⎜ ⎟ = f ′ vm x j , k ;
k
( )
⎝ mj ⎠x =xk ⎝ m ⎠x= x k ⎝∂ wmj ⎠x =xk
• pour un neurone m dont la sortie dépend de xj,k, valeur prise par la variable j du réseau ou par la sortie
du neurone j pour l’exemple k, par l’intermédiaire d’autres neurones du réseau, situés entre les entrées
et le neurone m :
⎛∂ ym ⎞ ⎛∂ym ⎞ ⎛∂ vm ⎞ ⎛ ∂yl ⎞⎞ ⎛ ∂y l ⎞
⎜∂w ⎟ = ⎜∂v ⎟ ⎜⎜∂ w ⎟ = f ′ v m
k
( ) ∑ ⎛⎜⎝∂∂vy m

⎟ ( )∑w
k
⎜∂ w ⎟ = f ′ v m ml ⎜∂w ⎟
⎝ ij ⎠x =x k ⎝ m ⎠x= x k ⎝ ij ⎠x= xk l l ⎠
x =xk ⎝ ij ⎠x =xk l ⎝ ij ⎠x =xk
où l’indice l désigne tous les neurones qui sont adjacents au neurone m dans le graphe des connexions,
entre le neurone j (ou la variable j) et le neurone m.
Ces deux relations permettent de calculer récursivement les dérivées de la sortie de chaque neurone par
rapport aux paramètres qui ont une influence sur cette sortie, à partir des variables du réseau jusqu’aux
sorties de ce dernier.
Une fois toutes ces dérivées calculées, on peut calculer le gradient de la fonction de perte :

⎛∂π (x , w ) ⎞ ⎛ ∂ 2 ⎞ ⎛∂ g( x , w) ⎞
(
⎜ ∂ w ⎟ = ⎜∂ w ⎣ yk − g( x ,w) ⎦ ⎟
⎡ p ⎤ )
= −2e xk , w ⎜ (
⎟ . )
⎝ ij ⎠x = xk ⎝ ij ⎠x= xk ⎝ ∂ w ij ⎠x =xk

Or, g(x, w) est la sortie d’un neurone du réseau, donc la dernière dérivée peut être calculée récursivement
par le même procédé que toutes les autres. Une fois évalué le gradient de la fonction de perte pour chaque
exemple, on fait la somme de ces gradients comme pour la rétropropagation.
Comparaison entre l’évaluation du gradient de la fonction de coût par rétropropagation et par calcul
dans le sens direct
Les calculs qui viennent d’être exposés montrent que la rétropropagation nécessite l’évaluation d’un
gradient par neurone, alors que le calcul direct requiert l’évaluation d’un gradient par connexion. Comme
le nombre de connexions est à peu près proportionnel au carré du nombre de neurones, le nombre
d’évaluations de gradient est plus important pour le calcul direct que pour la rétropropagation.
Donc, pour l’apprentissage de réseaux non bouclés, on utilisera avantageusement la rétropropagation pour
évaluer le gradient de la fonction de coût.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 150/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
131
CHAPITRE 2

Évaluation du gradient sous contrainte d’égalité des paramètres : les « poids partagés »
On a vu dans la section « Modélisation et classification de données structurées », qu’il est nécessaire, pour
l’apprentissage des graph machines, d’effectuer l’apprentissage sous la contrainte qu’un certain nombre
de paramètres doivent être égaux entre eux à la fin de l’apprentissage. On retrouve la même contrainte
pour l’apprentissage des réseaux de convolution (section « Reconnaissance des formes : la lecture auto-
matique de codes postaux »). Enfin, la même contrainte est imposée pour l’apprentissage des réseaux
dynamiques, qui sera abordé dans la section « Techniques et méthodologie de conception de modèles
dynamiques ». Cette contrainte est appelée « contrainte des poids partagés », introduite initialement dans
le contexte de la reconnaissance de la parole [WAIBEL 1989]). Or on verra, dans la section suivante, que
l’évolution des paramètres, à chaque itération de l’algorithme d’apprentissage, dépend du gradient de la
fonction de coût ; pour que plusieurs paramètres restent égaux, il faut donc que le gradient de la fonction
de coût utilisé pour leur mise à jour soit le même pour tous.
Supposons donc que, dans un même réseau,v paramètres doivent être égaux :
w1 = w2 = … = wv = w
On peut écrire le gradient de la fonction de coût sous la forme :
∂J ∂J ∂w1 ∂J ∂ w2 ∂ J ∂ wν ,
= + + ... +
∂ w ∂w1 ∂w ∂w 2 ∂ w ∂w ν ∂ w
ν
∂w 1 ∂w 2 ∂w ∂J ∂J
or =
∂w ∂w
= ... = ν = 1 , donc
∂w ∂w
= ∑ ∂w .
i =1 i

Ainsi, lorsqu’un réseau contient des poids partagés, il faut, à chaque itération, effectuer la rétropropaga-
tion de la manière habituelle pour calculer les gradients par rapport à ces paramètres, puis calculer la
somme de ces gradients, et affecter cette valeur à chacun de ces gradients, avant de procéder à la modifi-
cation de ces paramètres.
■ Modification des paramètres en fonction du gradient de la fonction de coût
Dans la section précédente, on a vu comment évaluer le gradient de la fonction de coût par rapport aux
paramètres du modèle, à chaque itération du processus d’apprentissage. Une fois que l’on dispose de cette
évaluation, on effectue une modification des paramètres, afin d’approcher d’un minimum de la fonction
de coût. On examine à présent quelques algorithmes de minimisation itérative des paramètres du modèle.
La méthode du gradient simple
La méthode du gradient simple consiste à modifier les paramètres par la formule suivante, à l’itération i
de l’apprentissage :

w( i) = w ( i − 1) − μ i ∇ J( w( i− 1)) , avec μi > 0.


La direction de descente est donc simplement opposée à celle du gradient : c’est en effet la direction selon
laquelle la fonction de coût diminue le plus rapidement. La quantitéμi est appelée pas du gradient ou pas
d’apprentissage.
Cette méthode est simple, mais elle présente de nombreux inconvénients :
• Si le pas du gradient est trop petit, la décroissance du coût est très lente ; si le pas est trop grand, le coût
peut augmenter ou osciller ; cette situation est illustrée sur la figure 2-40, qui représente les lignes de
niveau de la fonction de coût (fonction de deux variables w1 et w2) et l’évolution du point représentatif
du vecteur w au cours du déroulement de l’algorithme.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 151/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
132

• Au voisinage d’un minimum de la fonction de coût, le gradient de cette dernière tend vers zéro : l’évolu-
tion du vecteur des coefficients devient donc très lente. Il en va de même si la fonction de coût présente
des « plateaux » où sa pente est très faible ; ces plateaux peuvent être très éloignés d’un minimum, et,
dans la pratique, il est impossible de savoir si une évolution très lente du gradient est due au fait que l’on
est au voisinage d’un minimum, ou que l’on se trouve sur un plateau de la fonction de coût.
• Si la courbure de la surface de coût varie beaucoup, la direction du gradient peut être très différente de
la direction qui mènerait vers le minimum ; c’est le cas si le minimum recherché se trouve dans une
« vallée » longue et étroite (les courbes de niveau sont des ellipsoïdes allongés au voisinage du
minimum), comme on le voit également sur la figure 2-40.

Figure 2-40.
Minimisation
de la fonction
de coût par
la méthode
du gradient
simple

Pour porter remède au premier inconvénient, de très nombreuses heuristiques ont été proposées, avec des
succès divers. Les méthodes de recherche unidimensionnelle (notamment celle qui est présentée dans les
compléments théoriques et algorithmiques à la fin de ce chapitre), fondées sur des principes solides, sont
recommandées.
Pour faire face aux deux autres problèmes, on utilise des méthodes du second ordre qui, au lieu de modi-
fier les coefficients uniquement en fonction du gradient de la fonction de coût, utilisent les dérivées
secondes de cette dernière. Certaines de ces méthodes font également intervenir un paramètre μ suscep-
tible d’être choisi à l’aide de méthodes de recherche unidimensionnelle.
Les grandes lignes des méthodes du second ordre les plus fréquemment utilisées, ainsi que les méthodes
de recherche unidimensionnelle du pas, sont présentées dans les sections suivantes.
Les méthodes de gradient du second ordre
Toutes les méthodes du second ordre sont dérivées de la méthode de Newton, dont on décrit ici le principe.
Le développement de Taylor d’une fonction f(x) d’une seule variable x au voisinage d’un minimum x* est
donné par la relation :

1 ⎛d 2 f ⎞
f ( x ) = f ( x *) +
2
( )
( x − x *)2 ⎜ 2 ⎟ + O x 3 ,
⎝dx ⎠x= x*
car le gradient de la fonction de coût f(x) est nul au minimum. Une approximation du gradient de la fonc-
tion de coût au voisinage du minimum est obtenue aisément à partir de la relation précédente, en la déri-
vant par rapport à w :

df ⎛d 2 f ⎞
≈ ( x − x *)⎜ 2 ⎟ .
dx ⎝dx ⎠x= x*

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 152/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
133
CHAPITRE 2

Par conséquent, lorsque la variable x est au voisinage de x*, on pourrait atteindre ce minimum en une
seule itération si l’on connaissait la dérivée seconde de la fonction à son minimum : il suffirait pour cela
⎛df
------ ⎞
⎝dx ⎠
de modifier la variable w de la quantité Δx = -----------------------.
d2 f ⎞
⎛--------
⎝d x2 ⎠
x = x*

Le même raisonnement s’applique à une fonction de plusieurs variables, la dérivée seconde étant
∂ 2f
remplacée par la matrice hessienne H( w ) de la fonction à optimiser, de terme général : pour
∂ x i∂ x j
atteindre le minimum de la fonction de coût en une itération, il suffirait d’appliquer au vecteur des poids
la modification suivante (sous réserve que la matrice hessienne soit inversible) :
−1
Δx = − H ( x *) ∇ f (x ).

Remarque
Ainsi, à la différence de la méthode du gradient simple, les méthodes du second ordre adoptent une direction de déplacement, dans
l’espace des variables, qui n’est plus la direction du gradient, mais qui résulte d’une transformation linéaire de celui-ci.

Cette dernière formule n’est évidemment pas applicable en pratique, puisque le vecteur x* n’est pas
connu. Néanmoins, elle suggère plusieurs techniques qui mettent en œuvre une approximation itérative de
la matrice hessienne (ou de son inverse). Deux d’entre elles seront présentées en annexe théorique et algo-
rithmique de ce chapitre : la méthode de Broyden-Fletcher-Goldfarb-Shanno (algorithme BFGS,
[BROYDEN 1970]) et l’algorithme de Levenberg-Marquardt ([LEVENBERG 1944] [MARQUARDT 1963]). Il
faut noter que ces méthodes ne sont pas spécifiques aux réseaux de neurones : ce sont des méthodes très
générales d’optimisation. On en trouvera des descriptions détaillées dans [PRESS 1992] ; cet ouvrage
présente également la technique du « gradient conjugué », qui utilise la matrice hessienne de manière
implicite.
Pour l’apprentissage des réseaux de neurones, la fonction à optimiserf(x) en fonction des variables x n’est
autre que la fonction de coûtJ(w), qu’il faut optimiser par rapport aux paramètres w du réseau. Le gradient
de J(w) est évalué par l’algorithme de rétropropagation décrit plus haut.
Que faire en pratique ?
En premier lieu, il ne faut pas utiliser la méthode du gradient simple et ses variantes, dont les temps de
convergence (en nombre d’itérations) sont supérieurs de plusieurs ordres de grandeur à ceux des
méthodes du second ordre (voir ci-après le paragraphe présentant quelques problèmes tests). L’utilisation
de la méthode du gradient simple ne peut se justifier que dans le cas où l’on utilise de très gros réseaux
(plusieurs milliers de paramètres), ce qui peut se produire pour des problèmes de classification dans
lesquels les objets à classer ont de très nombreux descripteurs (typiquement, des images représentées par
des descripteurs de bas niveau). Dans ce cas, on arrête la descente avant d’atteindre un minimum de la
fonction de coût, afin d’éviter le surajustement ; cette technique, dite d’arrêt prématuré (early stopping),
constitue une forme de régularisation, sur laquelle on reviendra dans la section consacrée à l’apprentis-
sage avec régularisation.
Remarque
On mentionne souvent dans la littérature l’heuristique du « terme de moment » (momentumLAUT term1986])
[P qui consiste à ajouter au
terme de gradient – μ ∇J un terme proportionnel à la variation des coefficients à l’itération précédente [ w(i – 1) – w (i – 2)] ; on réalise ainsi
une sorte de filtre passe-bas qui peut éviter les oscillations et augmenter un peu la vitesse de convergence si λ est bien choisi.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 153/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
134

Le choix entre les méthodes de BFGS et de Levenberg-Marquardt repose essentiellement sur des consi-
dérations relatives au temps de calcul et à la taille de la mémoire. La méthode de BFGS nécessite de
choisir le moment où l’on passe du gradient simple à BFGS ; il n’y a pas, à cet effet, de règle fondée sur
des arguments théoriques. Quelques tâtonnements sont parfois nécessaires pour trouver le « bon »
nombre d’itérations (typiquement, une centaine), mais celui-ci n’est pas critique. La méthode de Leven-
berg-Marquardt ne présente pas cet inconvénient, mais elle devient lourde pour des « gros » réseaux (une
centaine de paramètres), en raison de l’inversion de matrice nécessaire à chaque itération. Globalement,
on a donc intérêt à choisir la méthode de Levenberg-Marquardt si le réseau est « petit », et celle de BFGS
dans le cas contraire. Si l’on dispose du temps nécessaire, il est recommandé d’essayer les deux. La
méthode du gradient conjugué peut également constituer une solution efficace au problème d’optimisa-
tion de la fonction de coût.
Initialisation des paramètres
Quelle que soit la méthode mise en œuvre, il est nécessaire de fixer les valeurs des paramètres du réseau
au début de l’apprentissage. Les considérations suivantes doivent guider l’initialisation de ces grandeurs :
• les paramètres relatifs aux biais (entrées constantes égales à 1) doivent être initialisés à zéro, pour
s’assurer que les sigmoïdes des neurones sont initialement situées autour de zéro ; alors, si les entrées,
ainsi que les paramètres (autres que ceux des biais), ont été normalisés et centrés comme cela est recom-
mandé plus haut, les valeurs des sorties des neurones cachés le sont également ;
• il reste à s’assurer que ces valeurs des sorties des neurones cachés ne sont pas trop voisines de +1 ou –1.
En effet, rappelons que le gradient de la fonction de coût, qui est le « moteur » de la minimisation,
dépend de la dérivée de la fonction d’activation des neurones cachés par rapport au potentiel. Or, au
voisinage de leurs saturations à +1 et –1, les dérivées des sigmoïdes sont voisines de zéro : dans ces
conditions, le processus de minimisation ne démarre pas.
Soit n le nombre de variables du modèle ; chaque neurone a donc n–1 variables xi et un biais. Les paramè-
tres non nuls doivent être suffisamment petits pour que les potentiels des neurones cachés aient une
variance de l’ordre de 1, afin que les sigmoïdes ne soient pas saturées. Supposons que les xi puissent être
considérées comme des variables aléatoires indépendantes Xi , tirées de distributions identiques, centrées
et normalisées. On veut tirer les paramètres initiaux au hasard dans une distribution centrée autour de
zéro, dont on cherche la variance. Rappelons que le paramètre relatif au biais est initialisé à zéro comme
n
indiqué à l’alinéa précédent. Le potentiel v = ∑w x i i
de chaque neurone est donc la somme den − 1 varia-
i=1
bles aléatoires qui sont les produits de variables aléatoires indépendantes, centrées, ayant toutes la même
distribution. On démontre facilement, à partir des définitions et propriétés indiquées dans les notions
élémentaires de statistiques présentées à la fin du chapitre 1, que l’on a :
varV = ( n − 1) varW i varX i

avec varX = 1 puisque les variables ont été normalisées.


i

Ainsi, si l’on veut que la variance du potentiel soit 1, on tirera les valeurs initiales des paramètres aléatoi-
rement dans une distribution centrée de variance 1/(n–1). Si l’on veut prendre une distribution uniforme
2 3
entre –w max et +wmax, on a : varW i = wmax / 3 , donc il faut prendre w max = .
n −1
Les points précédents concernent les réseaux à fonctions d’activation sigmoïde. Pour les réseaux de RBF
ou d’ondelettes, le problème est beaucoup plus critique, en raison du caractère localisé de ces fonctions :
si, initialement, elles sont situées très loin de l’endroit où elles devraient être, ou si leur extension spatiale
(écart-type ou dilatation) n’est pas convenable, l’apprentissage a peu de chances de réussir. Le test des

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 154/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
135
CHAPITRE 2

« problèmes maître-élève », qui sera introduit dans le paragraphe suivant, est beaucoup plus difficile à
réussir avec des RBF ou des ondelettes qu’avec des réseaux de sigmoïdes. Il faut mettre en œuvre une stra-
tégie plus élaborée, décrite en détail dans [OUSSAR 2000] : on prépare une « bibliothèque » d’ondelettes
ou de RBF, c’est-à-dire un ensemble d’un grand nombre de ces fonctions, et l’on applique une méthode
de sélection analogue aux méthodes de sélection des variables décrites plus haut. On effectue ensuite
l’apprentissage en donnant aux paramètres les valeurs des paramètres des ondelettes, ou des RBF, qui ont
été sélectionnées.

Comment tester un algorithme d’apprentissage : le « problème maître-élève »

L’expérience d’années d’enseignement et de recherche montre qu’il est très facile d’écrire un algorithme
d’apprentissage faux, ou un programme d’apprentissage « bogué », qui converge néanmoins, parfois très
lentement, et aboutit à un modèle qui n’est pas complètement ridicule. Les erreurs algorithmiques ou de
programmation peuvent alors passer inaperçues si l’on ne fait pas preuve de vigilance. Il est donc impor-
tant de tester la validité d’une procédure d’apprentissage que l’on a écrite soi-même, ou téléchargée
gratuitement sur leWeb.
À cet effet, la méthode suivante (souvent appelée « problème maître-élève ») est commode et simple à
mettre en œuvre. On crée un réseau de neurones, le « réseau maître », dont les paramètres sont arbitraires,
mais fixés et connus (par exemple, tirés au hasard, une fois pour toutes, dans une distribution uniforme
entre –4 et +4). On utilise ce réseau pour créer une base d’apprentissage, aussi grande que l’on veut, en
lui présentant des variables aléatoires (par exemple, tirées dans une distribution uniforme entre –1 et +1)
et en calculant les sorties correspondantes. On utilise cette base pour faire l’apprentissage d’un second
réseau (le « réseau élève ») qui a le même nombre de variables et le même nombre de neurones cachés
que le réseau maître. Si l’algorithme d’apprentissage et le programme sont corrects, on doit retrouver les
paramètres du réseau maître avec une précision correspondant aux seules erreurs d’arrondi (typiquement,
l’erreur quadratique moyenne est de l’ordre de 10–30 , et chaque paramètre du réseau élève est égal au para-
mètre correspondant du réseau maître, aux erreurs d’arrondi près). Si ce n’est pas le cas, l’algorithme
d’apprentissage, et/ou sa programmation, doivent généralement être mis en cause.

Remarque
La structure du réseau élève obtenu est identique à celle du réseau maître à une permutation près pour les neurones cachés. C’est une
conséquence du théorème d’unicité [SONTAG 1993].

Deux problèmes tests :


Problème 1 : un réseau à 8 variables, 6 neurones cachés et une sortie est créé en tirant des paramètres
uniformément dans l’intervalle [–20, +20]. Un ensemble d’apprentissage et un ensemble de test de
1 500 exemples chacun sont créés en tirant des entrées uniformément dans [–1, +1]. Un réseau de même
structure est entraîné de la manière suivante : initialisation des paramètres uniformément dans [–0,6,
+0,6], calcul du gradient par rétropropagation, minimisation de la fonction de coût par Levenberg-
Marquardt. Le réseau maître est retrouvé exactement (EQMA et EQMT de l’ordre de10–31 ) dans 96 %
des cas (à l’issue de 48 apprentissages sur 50 effectués avec des initialisations différentes).
Problème 2 : un réseau à 10 variables, 5 neurones cachés et une sortie est créé en tirant des paramètres
uniformément dans [–1, +1] ; un ensemble d’apprentissage et un ensemble de test sont créés en tirant
des variables aléatoirement suivant une loi normale ; l’apprentissage est effectué comme dans l’exemple
précédent. Le taux de réussite est de 96 % pour un ensemble d’apprentissage de 400 éléments, de 100%
pour un ensemble d’apprentissage de 2000 exemples.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 155/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
136

Remarque
Pour les mêmes problèmes, le taux de réussite est strictement nul si l’on utilise l’algorithme du gradient simple ou du gradient stochastique
(décrit dans la section suivante), avec ou sans terme de moment.

Il faut noter que le problème maître-élève est difficile pour certaines architectures en raison d’un grand
nombre de minima locaux. C’est pourquoi il est recommandé de tester tout algorithme ou procédure
d’apprentissage sur les architectures que l’on vient de mentionner.
■ En résumé
Résumons ici la démarche qu’il convient d’adopter pour l’apprentissage d’un réseau non bouclé, dont on
a fixé le nombre de variables, ainsi que le nombre de neurones cachés :
• initialiser les paramètres selon la méthode indiquée dans le paragraphe précédent ;
• calculer le gradient de la fonction de coût par l’algorithme de rétropropagation ;
• modifier les paramètres par une méthode de minimisation (gradient simple, BFGS, Levenberg-
Marquardt, gradient conjugué...) ;
• si un nombre maximal d’itérations (ou époques) a été atteint, ou si la variation du module du vecteur des
poids est inférieure à une limite fixée, ou si la variation du module du gradient est inférieure à une limite
fixée (l’algorithme n’évolue plus), ou encore si le module du gradient de la fonction de coût est inférieur
à une valeur fixée (on est arrivé à un minimum ou dans un voisinage très proche), arrêter la procédure ;
sinon, reprendre le calcul du gradient et effectuer une nouvelle itération.

Apprentissage adaptatif de modèles non linéaires


par rapport à leurs paramètres
Les méthodes qui ont été introduites au paragraphe précédent cherchent à optimiser la fonction de coût
des moindres carrés, en supposant que toutes les données d’apprentissage soient disponibles au moment
de l’entreprendre ; on peut donc évaluer le gradient du coût total en effectuant la somme des fonctions de
perte pour chaque exemple.
L’apprentissage adaptatif, abordé dans cette section, consiste à effectuer les modifications des paramètres
en fonction du gradient de la fonction de perte relative à chaque exemple (gradient qui est obtenu, comme
le coût total, par rétropropagation), de sorte qu’il soit possible d’effectuer l’apprentissage au fur et à
mesure que les données deviennent disponibles. Une telle procédure est souvent utile pour « affiner » les
paramètres d’un modèle en cours d’utilisation, après un apprentissage initial non adaptatif. Ces méthodes
sont traitées en détail au chapitre 4.
La technique de modification adaptative des paramètres la plus largement utilisée est celle du gradient
stochastique, qui consiste à modifier les paramètres proportionnellement au gradient de la fonction de
perte :

w
k +1
( )
= wk − μ k ∇ J k wk

où wk désigne la valeur du vecteur des paramètres après l’itération k, c’est-à-dire après présentation de
l’exemple k et modification correspondante des coefficients. Pour l’apprentissage adaptatif des modèles
linéaires, cet algorithme est appelé « algorithme LMS ».
Certains résultats empiriques suggèrent que la méthode du gradient stochastique permet d’éviter les
minima locaux. Il n’y a aucun élément théorique qui appuie cette affirmation.
Une autre technique, inspirée notamment du filtrage adaptatif, a été utilisée pour l’apprentissage adaptatif des
réseaux de neurones : le filtre de Kalman étendu [PUSKORIUS 1994]. Elle est plus efficace que le gradient

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 156/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
137
CHAPITRE 2

stochastique en termes de vitesse de convergence, mais elle est beaucoup plus lourde en termes de nombre
d’opérations par itération. Cette approche est présentée en détail au chapitre 4 du présent ouvrage.

Apprentissage avec régularisation


Comme indiqué dans le chapitre 1, l’objectif recherché dans la modélisation « boîte noire » est l’obten-
tion d’un modèle qui soit suffisamment complexe pour apprendre les données, mais qui ne souffre pas de
surajustement, c’est-à-dire qui ne s’adapte pas au bruit. Deux grands types de méthodes sont utilisés pour
atteindre cet objectif :
• des méthodes passives : on effectue l’apprentissage de plusieurs modèles de complexités différentes,
comme indiqué plus haut, et l’on procède ensuite à une sélection parmi les modèles ainsi conçus, afin
d’éliminer ceux qui sont susceptibles d’être surajustés ; dans ce but, on utilise des techniques de valida-
tion croisée ou des tests statistiques, qui feront l’objet de la section suivante ;
• des méthodes actives : on effectue l’apprentissage de manière à éviter de créer des modèles surajustés,
sans chercher à contrôler la complexité du réseau, mais en s’efforçant de limiter l’amplitude des
paramètres ; on utilise, pour ce faire, des méthodes de régularisation [TIKHONOV 1977] [POGGIO 1985],
qui constituent l’objet de la présente section.
Ces dernières méthodes sont importantes lorsqu’on est obligé d’utiliser de grands réseaux, ce qui peut être le
cas en classification : la représentation des objets peut comporter de nombreuses variables, notamment si l’on
utilise une représentation de bas niveau pour une image (par exemple, l’intensité de ses pixels) ; c’est également
le cas pour des problèmes de classification en bio-informatique. En effet, le nombre de paramètres ne peut
évidemment être inférieur au nombre de variables du réseau : le nombre de paramètres est minimal lorsque le
réseau ne comprend qu’un neurone. La seule méthode qui permette de limiter le surajustement consiste alors à
limiter l’amplitude des paramètres du réseau. On montre même dans [BARTLETT 1997] que, si un grand réseau
est utilisé, et si l’algorithme d’apprentissage trouve une erreur quadratique moyenne faible avec des poids de
valeurs absolues faibles, alors les performances en généralisation dépendent de la norme des poids plutôt que
de leur nombre. À titre d’illustration, la figure 2-41 montre l’évolution du module du vecteur des paramètresw
en fonction de la complexité du modèle polynomial, pour le problème de modélisation étudié dans le chapitre
1, section « Un exemple de modélisation pour la prédiction » : on observe une croissance exponentielle de la
norme du vecteur des paramètres, qui est corrélée au surajustement.
On peut distinguer deux familles de méthodes de 4,5
régularisation : 4
• l’arrêt prématuré (early stopping) qui consiste à 3,5
arrêter l’apprentissage avant la convergence ; 4
• les méthodes de pénalisation, qui consistent à ajouter 2,5
un terme à la fonction de coût usuelle afin de favo-
( )
log w

2
riser les fonctions régulières. La fonction à mini-
1,5
miser est alors de la forme : J’ = J + α иΩ , où J est,
1
par exemple, la fonction de coût des moindres carrés.
0,5
La fonction la plus largement utilisée est celle qui
0
pénalise les modèles ayant des paramètres élevés :
Ω = ∑ wi (méthode de « modération des poids »
2
-0,5
0 2 4 6 8 10 12 14
i
ou « weight decay »). Degré du polynôme

Figure 2-41. Évolution exponentielle du module


Notons également que les machines à vecteurs du vecteur des paramètres en fonction
supports, décrites en détail dans le chapitre 6, doivent de la complexité de modèles polynomiaux
leur efficacité au fait qu’elles contiennent intrinsèque-
ment un processus de régularisation.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 157/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
138

■ Arrêt prématuré
Principe
Comme dans la section précédente, l’apprentissage consiste à minimiser, grâce à un algorithme itératif,
une fonction de coût calculée sur la base d’apprentissage, par exemple la fonction de coût des moindres
carrés. La différence avec l’apprentissage sans régularisation réside dans le critère d’arrêt de
l’apprentissage : on arrête celui-ci prématurément, c’est-à-dire avant convergence complète de l’algo-
rithme. Ainsi, le modèle ne s’ajuste pas trop finement aux données d’apprentissage : le surajustement est
limité. La difficulté réside alors évidemment dans la détermination du moment où arrêter l’apprentissage.
La méthode la plus classique consiste à suivre l’évolution de la fonction de coût sur une base de valida-
tion, et à arrêter les itérations lorsque le coût calculé sur cette base commence à croître.
Exemple (tiré de [STRICKER 2000])
Il s’agit d’un problème de classification à deux classes ; comme indiqué dans le chapitre 1, on désire que
la sortie du réseau soit +1 pour tous les éléments de l’une des classes (classe A), et 0 pour tous les
éléments de l’autre classe (classe B). Après apprentissage, la sortie est une estimation de la probabilité
d’appartenance de l’objet inconnu à la classe A. Dans ce problème, l’espace de description est un espace
à deux dimensions, et les exemples sont tirés de deux distributions qui se recouvrent partiellement,
comme indiqué sur la figure 2-42.
Dans cet exemple académique, les distributions sont connues a priori : il est donc possible de calculer, par
la formule de Bayes, la probabilité d’appartenance d’un objet décrit par les coordonnées (x, y) à la classe
A, comme indiqué au chapitre 1 ; la figure 2-43 montre les probabilités a posteriori d’appartenance à la
classe A, calculées par la formule de Bayes.

1 1
0 0,8
)Pr A x, y

-1
0,6
0,4
(

-2
0,2
-3
-4 -3 -2 -1 0 1 2 3 4 0
Figure 2-42. Les exemples de la classe A
5
5
(cercles) sont tirés d’une distribution 0
de probabilité qui est le produit de deux 0
distributions gaussiennes selon x et y ; y x
-5 -5
la distribution selon x est une gaussienne
centrée en –1, d’écart-type 1, et la distribu- Figure 2-43. Probabilité d’appartenance à la classe A calculée
tion selon y est une gaussienne centrée en 1 et par la formule de Bayes
d’écart-type 0,5. Les exemples de la classe B
(croix) sont tirés d’une distribution
de probabilité qui est le produit de deux
distributions de probabilité selon x et y ;
la distribution selon x est la somme de deux
gaussiennes d’écart-type 0,5, centrées en –2
et 1.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 158/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
139
CHAPITRE 2

L’apprentissage est effectué à l’aide de 500 points. La figure 2-44 montre les probabilités a posteriori esti-
mées par un réseau à 2 neurones cachés et par un réseau à 10 neurones cachés.

1 1
0,8 0,8
)

)
Pr A x, y

Pr A x, y
0,6 0,6
0,4 0,4
(

(
0,2 0,2
0 0
4
4 4
0 0 0
0
x -4 -4 y x y
-4 -4

Figure 2-44. Probabilités a posteriori estimées par un réseau à 2 neurones cachés (à gauche) et par un réseau à 10 neurones
cachés (à droite)

On constate que le résultat obtenu avec un réseau à 2 neurones cachés est très proche de la surface théo-
rique représentée sur la figure 2-43, alors que la surface obtenue avec 10 neurones cachés est quasi
binaire : dans la zone de recouvrement entre les classes, une très petite variation de l’un des descripteurs
x ou y entraîne une brusque variation de la probabilité d’appartenance. Le réseau à 10 neurones cachés est
donc exagérément « spécialisé » sur les exemples proches de la zone de recouvrement : il est surajusté.
Ces variations sont très caractéristiques des réseaux dont les paramètres sont suffisamment grands pour
que les sigmoïdes des neurones cachés soient toujours dans leurs zones « saturées », comme illustré sur
la figure 2-45.

0,8

0,6

0,4

0,2
0,25
Erreur sur la base de validation
th(wx)

0 2 NC
0,20 5 NC
-0,2 10 NC
0,15
-0,4 0,10
-0,6 0,05

-0,8 w=1 w=5 w=100 0


0 50 100 150 200 250 300
-1 Nombre d’itérations de l’algorithme d’apprentissage
-3 -2 -1 0 1 2 3
x Figure 2-46. Erreur sur la base de validation
Figure 2-45. Sortie d’un neurone à une variable x durant l’apprentissage

L’évolution de l’erreur quadratique moyenne sur la base de validation de 300 exemples, en fonction du
nombre d’itérations de l’apprentissage, est représentée sur la figure 2-46, pour divers nombres de

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 159/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
140

neurones cachés. On voit qu’il est difficile de savoir exactement où il faut arrêter l’apprentissage, car
l’erreur porte pour l’essentiel sur les exemples qui sont proches de la surface de séparation entre les
classes, ce qui correspond à un nombre relativement petit de points.
Cette méthode est donc malaisée à appliquer, notamment pour les problèmes de classification. C’est pour-
quoi l’on préfère souvent mettre en œuvre des méthodes de régularisation par pénalisation des paramètres
de fortes valeurs ; il a été prouvé théoriquement [SJÖBERG 1995] que l’arrêt prématuré est équivalent à
l’introduction d’un terme de pénalisation dans la fonction de coût.
■ Régularisation par modération des poids (weight decay)
Pendant l’apprentissage, certains paramètres des réseaux à 5 et 10 neurones cachés augmentent et finis-
sent par atteindre des valeurs très élevées, exactement comme dans le cas de la régression polynomiale
illustré par la figure 2-41. Ce n’est pas le cas pour le réseau à deux neurones cachés.
La méthode de régularisation par modération des poids a précisément pour objectif d’empêcher les para-
mètres de prendre des valeurs exagérées, en minimisant, pendant l’apprentissage, une fonction de coûtJ’
qui est la somme de la fonction de coût des moindres carrés J (ou de tout autre fonction de coût, telle que
l’entropie croisée qui est introduite dans le chapitre 1) et d’un terme de régularisation proportionnel à la
α p
somme des carrés des paramètres : J’ = J + ∑ w2i , où p est le nombre de paramètres du réseau, et α est
2 i=1
un hyperparamètre dont la valeur doit être déterminée par un compromis : si est trop grand, la minimisa-
tion tend à faire diminuer les valeurs des paramètres sans se préoccuper de l’erreur de modélisation ; à
l’inverse, si α est trop petit, le terme de régularisation a très peu d’effet sur l’apprentissage, donc le sura-
justement risque d’apparaître.
Le principe de la mise en œuvre de la méthode est très simple. On calcule le gradient de la fonction de
coût J par rétropropagation, puis on lui ajoute la contribution du terme de régularisation :
∇J = ∇J’ + α w.
Il faut noter néanmoins que tous les paramètres du réseau n’ont pas le même effet :
• les paramètres de la première couche de connexions (matriceW1 de la figure 2-3) déterminent la vitesse
de variation des sigmoïdes des neurones cachés, sauf les éléments de W1 relatifs au biais, qui détermi-
nent une translation horizontale des sigmoïdes des neurones cachés ;
• les paramètres de la deuxième couche de connexions (vecteur w2 de la figure 2-3) déterminent
l’influence de chaque neurone caché sur la sortie, sauf les éléments de w2 relatifs au biais, qui détermi-
nent une translation verticale de la sortie du réseau.
Il est donc naturel d’introduire des hyperparamètres différents pour ces différents types de paramètres
[MCKAY 1992]. La fonction de coût devient alors :

α0 α α
J’ = J + ∑wi2 + 21 ∑ w 2i + 22 ∑wi2,
2 W0 W1 W2

où W 0 représente l’ensemble des paramètres des biais des neurones cachés, où W1 représente l’ensemble
des paramètres relatifs aux variables des neurones cachés à l’exception des biais, et W3 l’ensemble des
paramètres relatifs aux variables du neurone de sortie (y compris le biais de celui-ci). Il convient donc de
déterminer les valeurs des trois hyperparamètres α 0, α 1, α 2. Dans ce but, [MCKAY 1992] propose une
démarche fondée statistiquement d’une manière solide, mais qui repose sur de nombreuses hypothèses et
conduit à des calculs lourds. En pratique, il apparaît que les valeurs de ces hyperparamètres ne sont pas
critiques ; une démarche heuristique, qui consiste à effectuer plusieurs apprentissages avec des valeurs

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 160/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
141
CHAPITRE 2

différentes des paramètres, à tester les modèles obtenus sur un ensemble de données de validation, et à
choisir le meilleur, est généralement suffisante.

Exemple (extrait de [STRICKER 2000])

Voici un exemple de classification à deux classes ; il s’agit de déterminer, dans un ensemble de textes (les
dépêches de l’agence France-Presse), celles qui sont pertinentes pour un sujet donné. C’est donc un
problème à deux classes (une dépêche est soit pertinente, soit non pertinente), pour lequel on dispose
d’une base de données étiquetées. La base d’apprentissage est constituée de 1 400 exemples de dépêches
pertinentes et de 8 000 dépêches non pertinentes. On mesure la qualité du classement à l’aide d’un indice
F qui est calculé à partir de la précision du classifieur (pourcentage de documents réellement pertinents
dans l’ensemble des documents considérés comme pertinents par le classifieur) et de son taux de rappel
(pourcentage de documents considérés comme pertinents par le classifieur parmi les documents pertinents
présents dans la base de données). La performance du classifieur est d’autant meilleure que F est grand.

On considère un classifieur à zéro neurone caché, et un neurone de sortie à fonction d’activation sigmoïde,
c’est-à-dire un séparateur linéaire. Il n’est évidemment pas possible de réduire le nombre de ses paramè-
tres tout en maintenant constant le nombre de ses variables : seules les méthodes de régularisation peuvent
éviter le surajustement. La figure 2-47 montre l’évolution deF sur la base de test, lorsque aucune méthode
de régularisation n’est mise en œuvre, en fonction des proportions des exemples pertinents et non perti-
nents dans la base d’apprentissage. La figure 2-48 montre la norme du vecteur des paramètres w des
réseaux correspondants. On observe que les performances se dégradent, et que, corrélativement, la norme
des paramètres augmente lorsque le nombre d’éléments de la base d’apprentissage diminue.

F sur la Norme du vecteur


base des paramètres
de test 6000

0,95 5000

4000
0,90
3000
0,85
2000
0,80
1000

0,75 0
8000 8000
6000 1500 6000 1500
4000 1000 4000 1000
2000 500 2000 500
Nombre de textes non pertinents 0 Nombre de textes pertinents Nombre de textes non pertinents Nombre de textes pertinents
0 0
dans la base d’apprentissage dans la base d’apprentissage dans la base d’apprentissage dans la base d’apprentissage

Figure 2-47. Apprentissage sans régularisation : Figure 2-48. Norme des paramètres en fonction
évolution de l’efficacité d’un classifieur linéaire du nombre de textes de la base d’apprentissage
en fonction des proportions des exemples pertinents
et non pertinents dans la base d’apprentissage

Avec les mêmes bases d’apprentissage et de test, on a effectué un apprentissage avec arrêt prématuré. Les
résultats (indice de performanceF et norme des paramètres), présentés sur la figure 2-49, montrent que
les performances sont sensiblement améliorées dans la zone où le nombre d’exemples de la base
d’apprentissage est faible, mais qu’elles sont dégradées dans la zone où les exemples sont nombreux
(F < 0,9), ce qui prouve que l’arrêt de l’apprentissage ne permet pas d’exploiter au mieux les données
présentes dans la base d’apprentissage. La norme du vecteur des paramètres (non représentée sur la
figure) est très faible dans tout le domaine exploré.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 161/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
142

F sur la
F sur la
base
base
de test
de test
1

0,95
0,95

0,90 0,90

0,85 0,85

0,80 0,80

0,75 0,75
8000 8000
6000 1500 6000 1500
4000 1000 4000 1000
2000 500 2000 500
Nombre de textes non pertinents 0 0 Nombre de textes pertinents Nombre de textes non pertinents 0 0 Nombre de textes pertinents
dans la base d’apprentissage dans la base d’apprentissage dans la base d’apprentissage dans la base d’apprentissage

Figure 2-49. Apprentissage avec régularisation par arrêt Figure 2-50. Apprentissage avec régularisation
prématuré : évolution de l’efficacité d’un classifieur par modération des poids : évolution de la norme
linéaire en fonction des proportions des exemples des poids en fonction des proportions des exemples
pertinents et non pertinents dans la base d’apprentissage pertinents et non pertinents dans la base d’apprentissage

La méthode de modération des poids a également été mise en œuvre sur cet exemple, en utilisant deux
hyperparamètres : un pour le biais (αb = 0,001) et un pour les connexions entre les entrées et le neurone
de sortie (α 1 = 1). Les résultats sont présentés sur la figure 2-50 ; on observe que, cette fois, les perfor-
mances sont nettement améliorées dans la zone où le nombre d’exemples est faible, et que, contrairement
au cas de l’arrêt prématuré, elles restent satisfaisantes dans la zone où les exemples sont nombreux. Il faut
noter qu’aucun effort particulier n’a été fourni pour optimiser les hyperparamètres. Comme précédem-
ment, la norme du vecteur des paramètres reste uniformément faible.
Remarque
On peut également pénaliser les modèles dont les sorties varient trop vite, en pénalisant les valeurs élevées des dérivées [BISHOP 1993].

Conclusion sur l’apprentissage de modèles statiques


Dans cette section, on a distingué
• l’apprentissage des modèles linéaires par rapport à leurs paramètres (présenté dans le chapitre 1) de
celui des modèles non linéaires par rapport aux paramètres ;
• l’apprentissage adaptatif de l’apprentissage non adaptatif ;
• l’apprentissage sans régularisation de l’apprentissage avec régularisation.
On a montré :
• que l’apprentissage des modèles non linéaires par rapport aux paramètres (tels que les réseaux de neurones)
nécessite des méthodes plus lourdes, mais rapides et bien maîtrisées, que l’apprentissage des modèles
linéaires en leurs paramètres : c’est le prix à payer pour bénéficier de la propriété de parcimonie ;
• que l’apprentissage est généralement effectué d’une manière non adaptative, avec des algorithmes de
minimisation du second ordre qui sont performants ; si nécessaire, on peut ensuite mettre en œuvre un
apprentissage adaptatif pour « recaler » le modèle en tenant compte d’éventuelles dérives lentes du
processus ;
• qu’il est possible de limiter le surajustement en limitant l’amplitude des paramètres du modèle à l’aide
d’une méthode de pénalisation, mise en œuvre durant l’apprentissage ; c’est surtout nécessaire lorsque
le nombre d’exemples est petit.
Dans la section suivante, le problème du surajustement est abordé sous l’angle de la sélection de modèle.

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 162/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
143
CHAPITRE 2

Sélection de modèles
Dans le chapitre 1, le dilemme biais-variance et les méthodes de sélection de modèles dont il nécessite la
mise en œuvre ont été décrits en détail. Les trois méthodes principales qui ont été présentées – validation
simple, validation croisée et leave-one-out – peuvent être appliquées directement à l’apprentissage des
réseaux de neurones comme à l’apprentissage des modèles linéaires. Néanmoins, les modèles non
linéaires en leurs paramètres ont une particularité qu’il faut prendre en considération : la fonction de coût
des moindres carrés présente des minima locaux, de sorte que des initialisations différentes des paramè-
tres peuvent produire, en fin d’apprentissage, des modèles dont les performances sont différentes bien
qu’ils aient la même complexité.
Pour un modèle non linéaire par rapport à ses paramètres, la problématique de la sélection de modèle est
donc double :
• parmi les modèles de même complexité, trouver celui qui réalise le meilleur compromis biais-variance ;
• parmi les meilleurs modèles de complexités différentes, de trouver celui qui réalise le meilleur
compromis biais-variance.
Toutes les techniques qui sont présentées dans cette section ont pour objet, d’une part, d’éliminer les
modèles manifestement surajustés, et, d’autre part, d’estimer l’erreur de généralisation des autres
modèles, afin de choisir celui qui commet la plus petite erreur de généralisation. On commencera donc,
en préliminaire, par montrer comment il est possible d’éliminer les modèles manifestement surajustés.
Deux techniques de sélection seront ensuite abordées :
• une méthode globale de sélection par estimation de l’erreur de généralisation : la validation croisée ;
• une méthode locale de sélection qui permet d’estimer l’influence de chaque exemple sur le modèle : la
méthode LOCL (Local Overfitting Control via Leverages), fondée sur la méthode des moindres carrés
locaux, qui fait appel notamment à l’estimation d’intervalles de confiance pour les prédictions du
réseau.
Ces deux approches seront combinées pour construire une méthodologie complète de conception de
modèles non linéaires.

Préliminaire : élimination de modèles surajustés par calcul du rang


de la matrice jacobienne
■ Justification
Dans la section du premier chapitre consacrée à l’estimation des paramètres d’un modèle linéaire par rapport
à ses paramètres, on a introduit la matrice des observations. Chaque colonne de cette matrice correspond à
une variable du modèle : elle possèdeN éléments, qui sont les valeurs prises par cette entrée pour chacun des
N exemples. Pour un modèle à p variables, la matrice des observations est une matrice (N, p). Pour un
modèle non linéaire possédant un vecteur de p paramètres wmc, l’équivalent de la matrice des observations
est la matrice jacobienne Z ; chaque colonne zi de cette matrice correspond à un paramètre du réseau : elle
possèdeN éléments, qui sont les valeurs prises par la dérivée partielle de la sortie par rapport au paramètre
∂ g ( x, w ) ⎞
considéré : zi = ⎛--------------------- . Il est aisé de vérifier que, pour un modèle linéaire par rapport à ses para-
⎝ ∂w i ⎠
w = wmc

mètres, la matrice jacobienne est identique à la matrice des observations.


Chaque colonne de la matrice jacobienne exprime l’effet de la variation d’un paramètre sur la prédiction
du modèle. Si la matrice jacobienne n’est pas de rang plein (c’est-à-dire si son rang n’est pas égal à p),
cela signifie que deux paramètres (au moins) ont sur la sortie des effets qui ne sont pas indépendants. Il

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 163/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
144

existe donc, dans le modèle, des paramètres redondants : le modèle considéré possède trop de paramètres,
donc une variance certainement trop grande. Un tel modèle doit donc être éliminé de l’ensemble des
modèles candidats à la sélection. De plus, cette déficience du rang a un effet négatif sur le déroulement de
l’apprentissage [SAARINEN 1993] [ZHOU 1998].
■ Calcul de la matrice jacobienne
Dans la section consacrée à l’estimation des paramètres d’un modèle non linéaire, on a vu que l’on peut
facilement calculer, par rétropropagation, le gradient de la fonction de coût :

( 2
⎛ ∂ J ⎞ ⎛∂ y − g (x ,w ) ⎞
p
) ∂ g (x , w )
⎜ ⎟
⎝∂wi ⎠ ⎜
=⎜
∂ wi
⎟= − 2 yp − g ( x, w)

( ∂ wi
) .
⎝ ⎠
Si l’erreur de modélisation yp – g(x, w) vaut −1/2, le gradient de la fonction de coût est égal au gradient
de la prédiction du modèle. Ainsi, la matrice jacobienne est aisément calculée par rétropropagation d’une
erreur égale à −1/2. Le temps supplémentaire nécessité par le calcul de la matrice jacobienne est donc
marginal, puisqu’il s’agit d’un calcul de rétropropagation effectué une seule fois par modèle, à la fin de
l’apprentissage, alors que la rétropropagation est effectuée lors de chaque itération de l’apprentissage.

Approche globale de la sélection de modèles :


validation simple, validation croisée et « leave-one-out »
Rappelons tout d’abord que, comme indiqué et justifié en détail dans le chapitre 1, on ne doit jamais
utiliser l’erreur quadratique sur l’ensemble d’apprentissage comme critère de sélection de modèles.
■ Validation simple
Comme indiqué dans le chapitre 1, la validation simple consiste à utiliser une partie des données, appelée
ensemble de validation, pour estimer l’erreur de généralisation des modèles après apprentissage. Cela
suppose évidemment que les données présentes dans l’ensemble de validation sont bien représentatives de
l’ensemble des données. Pour cela, on utilise la « distance de Kullback-Leibler » [KULLBACK 1951]
[KULLBACK 1959], déjà définie dans le chapitre 1, entre deux distributions de probabilité p1 et p2 :
+∞
⌠ ⎛p ( x ) ⎞
D ( p 1, p 2 ) = ⎮ p1 ( x )Log ⎜ 1 dx .
⌡ −∞ ⎝p2 ( x ) ⎟

Comme cette expression n’est pas symétrique, on préfère utiliser la quantité
1
Δ ( p1 , p2 ) =
2⎣
( )
⎡ D p1 , p2 + D ( p2 , p1 ) ⎤ .

On effectue donc plusieurs partitions aléatoires de la base de données, et l’on choisit, parmi ces partitions,
celle pour laquelle la distance de Kullback-Leibler entre la base d’apprentissage et la base de validation
est la plus petite. Le tirage d’un grand nombre de partitions et le calcul de la distance de Kullback-Leibler
étant beaucoup plus rapide qu’un apprentissage, on divise ainsi le temps de calcul par un facteur de l’ordre
de 5 par rapport à une validation croisée avec D = 5. Si l’on fait l’hypothèse que les distributions sont deux
gaussiennes p 1(μ1, σ1 ) et p2(μ2 , σ 2), la distance de Kullback-Leibler s’écrit :

(σ 2
+ σ 22 )
Δ=
1

4 σ 12σ 22 ⎣ 1
( )
⎡ σ 2 − σ 22 + (μ 1 − μ 2 )2 ⎤ .

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 164/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
145
CHAPITRE 2

On trouvera la démonstration de cette relation dans les compléments théoriques et algorithmiques en fin


de chapitre.
Cette heuristique se révèle très utile pour une mise au point rapide d’un premier modèle ; elle peut être
affinée ensuite par une validation croisée conventionnelle, ou par un « leave-one-out virtuel ».
■ Validation croisée
La validation croisée a été décrite dans le chapitre 1. La sélection de modèles s’effectue en partant du
modèle le plus simple (modèle à zéro neurone caché, c’est-à-dire modèle linéaire), et en augmentant
progressivement la complexité des modèles (pour des modèles neuronaux : en augmentant le nombre de
neurones cachés).
Remarque
On pourrait aussi augmenter le nombre de couches de neurones cachés. Pour les problèmes de modélisation, cela ne peut être envisagé
que dans une deuxième étape : une fois que l’on a obtenu un modèle satisfaisant avec une couche de neurones cachés, on peut, si le
temps disponible le permet, essayer d’améliorer un peu les performances en augmentant le nombre de couches cachées, tout en dimi-
nuant le nombre de neurones par couche. Cette procédure apporte parfois une amélioration, généralement marginale. En revanche, si l’on
n’a pas obtenu de résultats satisfaisants avec une couche cachée, il est illusoire d’espérer en obtenir en augmentant le nombre de couches
cachées.

Pour chaque famille de modèles, on calcule le score de validation croisée. Le surajustement se traduit par
une augmentation significative du score de validation croisée. On arrête la procédure lorsque cette
augmentation apparaît, et l’on sélectionne la complexité pour laquelle la plus petite EQMV a été obtenue.
On effectue alors l’apprentissage d’un modèle de cette complexité à l’aide de l’ensemble des données
disponibles (tout en laissant de côté des données destinées au test de ce modèle).
■ Leave-one-out
Rappelons que l’estimation de l’erreur de généralisation par leave-one-out est un cas particulier de la vali-
dation croisée, pour lequel D = N : à l’itération k, on extrait l’exemple k de l’ensemble d’apprentissage,
on effectue des apprentissages (avec des initialisations différentes des paramètres) avec lesN-1 éléments
de la base d’apprentissage. Pour chacun des modèles obtenus, on calcule l’erreur de prédiction commise
sur l’observation k lorsque celle-ci est extraite de l’ensemble d’apprentissage, et l’on retient la plus petite
1 N −k 2
de ces erreurs, notée rk− k . On définit le score de leave-one-out E t =
N k =1 k
( )
∑ r . On utilise ce score,
comme dans le cas de la validation croisée, en augmentant progressivement la complexité des modèles.
Cette technique a l’inconvénient d’être très lourde en temps de calcul, mais on démontre que le score de
validation croisée est un estimateur non biaisé de l’erreur de généralisation [VAPNIK 1995].
Dans les sections suivantes, on présente une autre technique, très avantageuse, qui permet de diviser le
temps de calcul par un facteur N (le nombre d’observations disponibles). Elle est fondée sur l’idée que le
retrait d’un exemple de l’ensemble d’apprentissage ne doit pas beaucoup perturber le modèle ; on peut
alors construire un modèle localement linéaire dans l’espace des paramètres, ce qui permet de bénéficier
des résultats théoriques connus, relatifs aux modèles linéaires.

Moindres carrés locaux :


effet du retrait d’un exemple sur le modèle et « leave-one-out virtuel »
Dans le chapitre 1, on a montré que, pour un modèle linéaire, il est possible de prédire, de manière exacte,
l’effet, sur un modèle, du retrait d’un exemple de l’ensemble d’apprentissage ; on en a déduit l’expression

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 165/470
29/04/2019
L’apprentissage statistique eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy.html
146

de la statistique PRESS, qui est exactement le score que l’on obtiendrait si l’on faisait un leave-one-out
sur les données disponibles. Dans ce paragraphe, on montre comment étendre ce résultat aux modèles non
linéaires, et calculer le « score de leave-one-out virtuel » sans avoir à réaliser un vrai leave-one-out, c’est-
à-dire en faisant un apprentissage avec toutes les données disponibles (en gardant toujours un ensemble
de test). On introduit également le calcul des leviers des observations pour un modèle non linéaire.
■ Approximation locale de la méthode des moindres carrés
Considérons un modèle g(x, w*) obtenu par minimisation de la fonction de coût des moindres carrés. Un
développement du modèle au premier ordre, dans l’espace des paramètres, au voisinage dew*, s’écrit

(x w ) ≈ (x w )+ Z (w − w )
g , g , * *
où Z est la matrice jacobienne du modèle, définie plus haut. Ce modèle est linéaire par rapport à ses para-
mètres w, et la matrice Z joue exactement le rôle de la matrice des observations.
Pour établir une approximation locale de la solution des moindres carrésw mc, il faut obtenir une approxi-
mation, au premier ordre en w – wmc, du gradient de la fonction de coût des moindres carrés ; pour cela, il
faut partir d’une approximation du second ordre de cette fonction de coût, donc, d’une approximation du
second ordre du modèle ([MONARI 2000] ; le même résultat est établi dans [SEBER 1989], mais avec une
démonstration incorrecte) On obtient alors une approximation de la solution des moindres carréswmc :

( )
−1
wmc ≈ w *+ Z Z Z ⎡⎣ y − g ( x, w *) ⎤⎦ .
T T p

Ce résultat est approché dans le cas d’un modèle non linéaire, et il est exact dans le cas d’un modèle
linéaire.
En effet, dans le cas d’un modèle linéaire, Z est la matrice des observations, et g(x, w*) = Z w*. La rela-
tion précédente devient alors

( )
T
wmc ≈ w * + Z Z
−1 T p T
Z y − Z Z( ) −1
Z g( x, w *)
T

= w * +( Z Z) − ( Z Z) ( )
T −1 T p T −1 T T −1 T p
Z y Z Zw* = Z Z Z y

ce qui est le résultat exact, démontré dans le chapitre 1, section « Apprentissage de modèles linéaires en
leurs paramètres ».

Effet du retrait d’un exemple sur le modèle


Estimons à présent l’effet, sur les prédictions d’un modèle, du retrait d’un exemple de l’ensemble
d’apprentissage. On utilise une convention de notation déjà introduite dans le chapitre 1 : les quantités
relatives à un modèle qui a été construit en ayant extrait l’exemple k de l’ensemble d’apprentissage sont
dotées de l’indice supérieur –k ; les grandeurs qui n’ont pas d’indice supérieur sont relatives à un modèle
dont l’apprentissage a été effectué avec l’ensemble des données disponibles.
■ Effet du retrait d’un exemple sur sa prédiction : le « leave-one-out virtuel »
Si l’on suppose que le retrait de l’exemple k produit un petit effet sur la solution des moindres carrés, on
peut utiliser la relation établie au paragraphe précédent pour déterminer l’expression du vecteur des para-
mètres du modèle dont l’apprentissage est effectué avec l’ensemble incomplet (privé de l’exemple k), en
fonction du vecteur des paramètres du modèle entraîné avec l’ensemble de toutes les données :

file:///C:/Users/ADMINI~1/DOWNLO~1/CYBERL~1/web/APPREN~1/eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImR… 166/470
29/04/2019 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE1NTY1NDI3MjgsImRhdGEiOnsibGFuZyI6ImZy
Les réseaux de neurones .html
147
CHAPITRE 2

rk
−k T
wmc ≈ wmc − Z Z ( )
−1
z
k

1 − hkk

où zk est le vecteur dont les composantes sont la k-ième ligne de la matrice jacobienne Z, rk est l’erreur de
prédiction (ou