Vous êtes sur la page 1sur 73

Intelligence

artificielle et
réseaux de
neurones
ou
« Tout ce que vous voulez savoir sans oser ni avoir le
temps de le demander !! »

ou
La reconnaissance de forme sans la connaissance du
fond

Joël Journaux
Copyright © 2021 Joël Jouannais
Tous droits réservés.
Table des matières
Première partie
Introduction
Pour quelles raisons ces méthodes représentent-elles une rupture ?
Comment ça marche ?
La structure du réseau
Au cœur de l’apprentissage du réseau
Formalisation du réseau
Un exemple poétique de classification par RN
Résumé
Les grandes bases de données : les « Big Data »
Encadrement des utilisations de l'Intelligence Artificielle
Quatre exemples d'utilisation des réseaux de neurones
1 Reconnaissance optique de caractères (OCR)
2 L'imagerie médicale
3 Une compagnie d'assurance
4 Application judiciaire
Quelle est ici la politique des GAFA ?
L'intelligence artificielle dans une épidémie comme le Corona virus
Point de vue épidémiologique
Point de vue médical
Maîtrise de l'épidémie en sortie de confinement
Les réseaux de neurones et la prédiction
OCR
Imagerie médicale
Compagnie d'assurance
Application judiciaire
Erreurs et biais
Intelligence Artificielle et consommation énergétique
Conséquences sociales des intelligences artificielles à base de réseaux de neurones
Conceptions philosophiques des promoteurs de l'Intelligence Artificielle
Deuxième partie : une approche mathématique des réseaux de neurones
Introduction
Quelques méthodes pour ajuster une série de mesures, ou l'art de la régression
Naissance des séries de Fourier
Calcul des coefficients : la transformée de Fourier
Développement en série et réseau de neurones
Un réseau de neurones canonique : l'auto encodeur
Généralisation aux autres types de RN
Les problèmes de régression
Les problèmes de classification
Conclusion et résumé
Première partie

Introduction
Les pages suivantes ont pour objet de préciser le sens des expressions : intelligence
artificielle (IA) et réseaux de neurones (RN).
L'IA recouvre le domaine et les RN en constituent actuellement l'outil principal.
On s'attachera à décrire les principes de base de ces méthodes sans aborder toutes
leurs nombreuses déclinaisons.
Au vue de leur rapide diffusion dans la société, il est aussi important de fixer leurs
limites, tant fonctionnelles que dans leurs conséquences sociales. Un chapitre sera
donc consacré à leur encadrement juridique.
Soulignons qu'à nos yeux IA et RN sont deux expressions maladroites prêtant à
confusion. Elles accréditent l'idée que ces méthodes imitent le fonctionnement du
cerveau et seraient donc vouées un jour à s'y substituer. Mais ajoutons que c'est aussi
la conviction de certains spécialistes de l'IA.
Cependant et à titre d'illustration, en reconnaissance de formes Google Image
présente un taux de réussite de 82% sur quelques centaines de catégories, légèrement
inférieur à la reconnaissance humaine de 88%. Cette performance est obtenue en
entraînant le réseau avec des centaines de milliers d'images de chats, par exemple, de
toutes les couleurs et dans de multiples situations.
Le maître mot des réseaux de neurones est en effet : apprentissage. Avant d'être
opérationnelles, ces machines demandent une longue étape où l'algorithme
« apprend » sous notre direction. Apprentissage est un mot séduisant qui nous
renvoie à l'enfance et une machine la mimant ne peut être à nos yeux que
prometteuse.
Mais l’apprentissage de Google Image est à comparer avec celui d'un enfant de
deux ans pour lequel sa mère ou son père lui désigneront trois fois le félin pour qu'il
le reconnaisse à vie. L'apprentissage n'est donc pas de même nature.
L'intelligence artificielle se retrouve donc au cœur de l'éternel débat entre l'inné et
l'acquis. Si l'acquis est prépondérant dans l'élaboration de notre intelligence, alors
une machine basée sur l'apprentissage est susceptible d'atteindre les mêmes
performances voire les surpasser.
En revanche si l'inné est primordial, alors aucun logiciel ne peut prétendre
remplacer les cent millions d'années d'évolution qui ont façonné un héritage
inaccessible à une machine. Un bébé devra certes, apprendre à marcher mais son
corps est déjà fait pour ça. Les apprentissages de notre enfance sont comme le bronze
coulé dans un moule fait tout exprès pour les recevoir et lui donner forme de vie.
Pourtant, même si nous pensons qu'une machine logique ne peut pas se copier
elle- même, nous pouvons nous inspirer de ses mécanismes, c'est le rôle de l'IA, mais
ce serait aussi de l'intelligence que de l'imiter sans se bercer d'illusions.
Par-delà ces considérations, ces méthodes connaissent un succès grandissant du
fait de leur efficacité et il est impossible de lister les domaines d'application tant ils
sont divers ; de la commande de processus industriels à la mesure des émotions sur
un visage ! Mais ils reposent tous sur le même principe, à savoir l'analogie d'un cas
avec ceux déjà observés. Les RN sont ainsi le domaine de l'interpolation et jamais de
l'extrapolation comme pourrait l'être une méthode scientifique.
Pour quelles raisons ces méthodes représentent-elles
une rupture ?
Si les RN constituent actuellement la méthode principale de l'IA, elle n'est pas la
seule. Des algorithmes classiques l'ont précédée dans ce qu'il est convenu d'appeler
les systèmes experts utilisés essentiellement pour de la classification. Ils utilisent une
modélisation préalable du problème, et partant des données initiales, parviennent au
résultat par une suite de déductions logiques en parcourant un arbre de décisions. Un
peu comme nous parcourrons une flore (petit ouvrage botanique) afin de nommer
une plante, où dans une suite d'observations le livre nous guide par étapes au
résultat.
Cette intelligence artificielle est dite symbolique, car elle s'appuie sur le
raisonnement formel et la logique.
Les RN se fondent sur une méthode totalement différente, l'IA qui en découle est
dite connexionniste car sa structure met en relation de multiples unités de traitement
élémentaires. Elle supplante aujourd'hui largement l'approche symbolique. Elle est
désormais bien plus simple à mettre en œuvre et permet en principe, de surmonter
les limites du modèle symbolique qui échoue à mettre en règles des problèmes aussi
compliqués que le traitement du langage : pensons à la grammaire française et à
l’exception qui confirme la règle ! En cette matière, les RN y parviennent mieux (mais
sans que l'on sache toujours bien pourquoi).
L'apparente supériorité de l'approche connexionniste réside dans le fait qu'il est
inutile de lui formaliser les règles. Les données brutes, fournies en grand nombre
suffisent au réseau pour y détecter des relations implicites, non formulées par nous-
mêmes.
Une fois l'observation faite sur des milliers de parties, une IA connexionniste peut
être un partenaire de jeu sans même en avoir appris les règles ! Elle les a intégrées au
cours d'une (très longue) période d'apprentissage représentant, ne l'oublions pas, un
énorme travail préparatoire. Un peu comme un enfant apprend à parler sans savoir la
grammaire.
Mais ne rêvons pas, si chacun d'entre nous limitait ses connaissances et sa
conduite à sa seule expérience alors l'humanité en serait toujours à l'âge de pierre !
Les règles, les lois et les savoirs se sont forgés au fil du temps par la somme des
expériences et des réflexions accumulées, les connaître est une condition pour
dépasser son propre horizon. Ainsi, un modèle uniquement connexionniste
semblerait ainsi condamner à redécouvrir sans cesse le déjà connu sans élaborer la
moindre connaissance.
Toutefois, sur des problèmes complexes avec plus de variables que notre esprit ne
peut en concevoir, les RN entraînés sur de grandes (très grandes) bases de données
sont capables d'y détecter des relations qui nous échappent et de trouver parmi la
multitude des causes possibles, les coïncidences menant par exemple à une maladie,
de découvrir des interactions médicamenteuses (pharmacovigilance), de débusquer
des structures dans des radios, de détecter enfin des relations cachées, révélées par
cette puissance combinatoire. Bref, d'augmenter nos capacités de discernement et
d'association.
Encore un point théorique afin de cerner précisément le domaine de validité des
méthodes connexionnistes. Les RN ne sont pas, comme on peut l'entendre, une
méthode inductive au sens où, partant d'observations elle remonterait aux principes.
Les RN n'ont que faire des principes, ils établissent juste des relations fortuites dans
un cadre stricte d'observations et, suivant l'expression consacrée, corrélation n'est
pas causalité, autrement dit ce n'est pas parce que j'ai remarqué qu'il fallait avancer
pour que mon vélo tienne debout que j'ai compris l'effet gyroscopique.
Les RN sont une méthode descriptive et non explicative, il est intéressant de noter
que leur domaine d'excellence est la reconnaissance de forme et non la connaissance
du fond. Un réseau de neurones est un bibliothécaire méticuleux qui classe des livres
sans n’en avoir lu aucun.
Mais la détection d'une tumeur dans une radio, le repérage d’interaction
médicamenteuse sont les domaines où les RN deviennent irremplaçables, en
revanche comprendre les mécanismes d'un cancer ou les réactions chimiques ne sont
pas de ses compétences.
Une bonne illustration de ces deux concepts, symbolique versus connexionniste,
concerne la prévision météo. Pour prévoir le temps des jours à venir nous avons
schématiquement deux manières de faire.
Premièrement : acquérir une connaissance suffisante du comportement des
masses d'air grâce à la mécanique des fluides afin d'établir les équations générales du
mouvement permettant la prédiction.
Deuxièmement : disposer des archives (depuis 1850 à Paris) et chercher dans le
passé une séquence semblable à celle actuellement observée. Supposant que les
mêmes causes produisent les mêmes effets nous pouvons alors, dans une sorte de
copié-collé, prévoir le temps dans une espèce de « rétro-prévision ».
La première méthode est scientifique, la seconde est statistique. La première
cherche à comprendre le phénomène, pas la seconde.
Autre exemple : nous cherchons à reconnaître un carré sur des photos de
polygones. On peut d'abord dire qu'un carré est un quadrilatère ayant quatre côtés
égaux et quatre angles droits et faire l'analyse correspondante pour le prouver.
On peut aussi concevoir un RN auquel on présentera en phase d'apprentissage des
milliers de dessins de polygones en tous genres en lui indiquant pour chacun s'il s'agit
d'un carré ou non. Si la base d'apprentissage est bien faite (contient assez de carrés
mais pas trop), le RN reconnaîtra alors les carrés. C'est une méthode en l'occurrence
un peu niaise mais où l'on s'économise la définition à priori des propriétés de la
forme à rechercher. Remarquons que même avec 100% de réussite et même s'il fait
mieux que moi, le réseau ne comprendra jamais rien à la géométrie. Si je veux
maintenant des triangles rectangles, je dois tout recommencer.
Là aussi la première méthode est scientifique quand la seconde est statistique et ne
cherche aucunement à comprendre les propriétés du carré.
C'est pourtant cette dernière qui préside à la constitution des RN car lorsqu'un
problème complexe, (bien plus complexe que définir un carré), apparaît comme
inaccessible à la compréhension, les RN semblent une approche pertinente pourvu
que l'on dispose d'archives suffisantes et correctement structurées.
Là se situe le point névralgique de ces méthodes. On conçoit en effet que dans une
approche statistique, plus les données sont nombreuses et de qualité, meilleurs
seront les résultats.
A ce propos, une étude du début de 2019 signale que la moitié des projets d'IA
menés dans les entreprises sont des échecs à cause du manque de données
nécessaires à l'apprentissage.
Comment ça marche ?

La structure du réseau
Position du problème :
On dispose d'une collection de mesures circonscrites dans un domaine d'étude. Ce
sont les données dont chacune dépend de plusieurs variables, leur nombre est la
dimension du problème.
Ce peut être des points de l'espace et leurs trois coordonnées, ou pour un individu :
le poids, la taille, le taux de cholestérol etc... , ou encore les milliers de pixels d'une
image.
Les relations qu'entretiennent ces variables ont des conséquences mesurables, des
effets matérialisés par des résultats. Ainsi certaines combinaisons du tableau clinique
d'un individu mènent à une pathologie, les relations entre les pixels d'une image
dessinent un caractère. Imaginons aussi la course d'un ballon qui s'élève et retombe
plus loin. Nous avons une dizaine de photos de sa trajectoire. Chacune représente un
point dans un plan avec deux coordonnées. Le problème est à deux dimensions (les
photos étant successives, le temps est une variable implicite). La hauteur et la
distance sont en relation. (Ici le problème est simple : cette relation est la trajectoire
et c'est une parabole. Mais en pratique on utilise des RN pour des problèmes avec
davantage de dimensions.)
Le but du RN est de détecter des relations entre les variables. Autrement dit,
d'établir une expression analytique, c'est-à-dire à dire une formule qui les relie. Il
s'agit donc de passer d'une suite discontinue à une représentation continue en
joignant les mesures par une courbe. Ceci permettra ensuite d'obtenir un résultat en
tout point du domaine de définition (la trajectoire entre les deux points au sol par
exemple), c'est-à-dire à dire hors des points de mesure qui sont peu nombreux, car il
faut imaginer en général l'espace de représentation majoritairement constitué de
zones aveugles.
La mise en évidence des relations entre variables est la définition même d'une
fonction. C'est cette dernière que nous cherchons mais nous n'en avons aucune idée.
Mais... mais nous avons des exemples hérités du passé et dûment étiquetés quant au
résultat escompté. Il s'agit donc d'un raisonnement inductif dans la mesure où,
connaissant les effets, on désire remonter à la cause.
On matérialisera donc notre outil sous forme d'une fonction mais modestement,
sans autre ambition qu'une pure description, une fonction phénoménologique,
empirique, car faute d'un raisonnement déductif, scientifique, et de l'ignorance totale
dans laquelle nous nous trouvons, l'idée est d'en concevoir une « toute faite ». Une
sorte de fonction universelle assez souple, construite de manière à s'adapter au mieux
au couple données-résultats que l'on possède.
Cette fonction définit l'architecture du réseau : le réseau c'est la fonction et la
fonction c'est le réseau, soit le nombre de couches et le nombre de neurones par
couche. Une fois ce plan global établi, le réseau devient donc une structure de calcul
rigide, sans possibilité d'adaptation. Et si à la suite de l'apprentissage elle ne convient
pas, alors on en conçoit une autre en changeant simplement l'architecture du réseau.
Cependant, il faut se ménager des degrés de liberté à une échelle plus fine. Ainsi, à
l'intérieur d'un cadre strict on se réserve des paramètres que l'apprentissage précisera
comme on règle une machine avant de s'en servir.
Une telle approche non déterministe, faite un peu au hasard était inconcevable il y
a trente ans, mais désormais la puissance de calcul disponible en donne la possibilité.
Maintenant comment construire la fonction adéquate comme un tailleur fait une
robe ?
Il faut imaginer qu'une expression algébrique puisse être constituée comme la
somme de fonctions élémentaires connues. Après tout une simple parabole f(x) = ax²
+ bx, peut être vue comme la somme des fonctions élémentaires x² et x affectées des
coefficients a et b. Mathématiquement on parle de développement en série et nous
pouvons supposer que la fonction que nous cherchons s'exprime elle aussi comme la
somme de fonctions élémentaires, ou fonctions de base, affectées chacune d'un
coefficient.
Une fois cette hypothèse posée (c'est ni plus ni moins celle des séries de Fourier) il
convient alors de choisir les fonctions élémentaires ainsi que leur nombre.
Ces fonctions sont paramétrables, l'apprentissage précisera la valeur des
paramètres. Un tel développement en série s'apparente à une sorte de jeu de
construction où l'on disposerait de fonctions de base assez souples, déformables (c'est
le rôle des paramètres), pour que leur somme puisse épouser n'importe quel gabarit.
Bien sûr, le nombre nécessaire d'éléments de la somme doit être raisonnable et même
le plus faible possible pour un ajustement donné. On parle alors d'approximation
parcimonieuse.
Ces considérations mathématiques sont abordées dans la seconde partie mais on
peut dès lors imaginer le réseau dans ses deux états successifs :
- d'abord pendant l'apprentissage supervisé qui est chargé de le paramétrer,
- puis en exploitation où il se comporte comme une machine à calculer qui, à
partir des entrées, fournira un résultat.
Plus généralement, quel est le résultat attendu ? Qu'attendons-nous en sortie ? On
demande essentiellement deux choses à un RN :

1 une valeur : une position, l'espérance de vie, le temps de parcours, l'angle de


rotation d'un volant...
ou
2 l'appartenance à une classe : reconnaissance d'un caractère alphanumérique
ou rattachement à une catégorie ; par exemple un diagnostic pour une radiographie
(risque nul, moyen ou élevé).

Ces deux problématiques sont résolues de manière assez semblable par un RN. Il
s'agit toujours de rechercher une expression analytique qui représentera soit une
formule, soit une frontière.

1 Le résultat sous la forme d'une valeur est une opération de régression


Ce terme mathématique est à prendre au pied de la lettre : réduire une chose
compliquée dans une forme plus simple. Et c'est bien l'objet d'un RN que de résumer
des informations auparavant dispersées dans les données sous la forme compacte
d'une formule qui en révèle les liens. A l'issue de cette régression on obtient
l'équation d'une courbe, ou plutôt d'une hyper surface, car en pratique, l'analyse
s'effectue dans un espace de grande dimension.
En exploitation à toute nouvelle mesure, nouvelle entrée, le réseau donne le
résultat correspondant. Il s'agit fondamentalement d'un processus d'interpolation
entre les points d'apprentissage. A titre d'exemple, la figure suivante représente le
processus en deux dimensions. La courbe (ou l'hyper surface) représente donc
l'enveloppe, on parle aussi d'ajustement d'une suite de points.
On remarque que la courbe ne passe pas par tous les points de l'apprentissage. Elle
lisse les détails et ne tient pas compte de chaque fluctuation.
Là est le dilemme de la régression : peindre comme Vélasquez (portrait d'Innocent
X) ou van Gogh (autoportraits).
En suivant la première option, nous risquons le sur-échantillonnage, autrement dit
on va accorder autant d'importance aux détails qu'à la structure (ce que ne fait pas
Vélasquez !). La valeur d'un point inconnu subira l'incertitude liée à la mesure des
données alors que leur multitude permettrait au contraire de s'en affranchir.
Avec la seconde option, nous tendons à l'inverse vers l'abstraction (ce que ne fait
pas non plus van Gogh !) et ce manque de finesse se traduira par des résultats
imprécis.
Faut-il s'appeler Vélasquez ou van Gogh pour trouver l'équilibre ?
C'est le nombre de neurones du réseau qui ajuste cet équilibre et c'est beaucoup
affaire d'empirisme.

2 Le rattachement à une classe est une opération de classification


En pratique, il s'agit de trouver un séparateur entre une classe, un caractère
alphanumérique par exemple, et les autres. C'est une sélection.
Fondamentalement, le principe d'élaboration du réseau est identique à celle de la
régression (voir la seconde partie mathématique). Seule la sortie diffère puisqu'il
s'agit ici d'appréhender la valeur de sortie comme une borne séparant une classe de
l'ensemble des autres. Comme si la courbe précédente figurait une frontière où seuls
les points au-dessus appartiendraient à une classe. Par rapport à la régression, on
passe d'une sortie continue à une sortie binaire.
On note que dans ce cas il faut autant de réseaux que de classes de sortie car
chacun devient le séparateur d'une vis à vis des autres. En exploitation, le signal
d'entrée passe successivement par tous les réseaux et celui qui répond positivement
représente sa classe d'appartenance.

Au cœur de l’apprentissage du réseau


Rappelons que le rôle du réseau est de révéler les relations qui existent entre les
variables d'entrées. Celle-ci ne sont pas préexistantes ou absolues, mais relatives au
résultat recherché. De telles relations existent pour un critère mais pas pour un autre.
Pour un même tableau clinique, les relations ne seront pas les mêmes si l'on
considère un risque cardiaque ou un risque de diabète.
Durant l'apprentissage, on entraîne le réseau en lui indiquant, pour chaque
exemple la classe de sortie correspondante. C'est un travail énorme car la consigne de
sortie est indiquée manuellement pour chacun des milliers d'exemples nécessaires à
l'apprentissage qui est donc supervisé.
A l'issue de celui-ci, le réseau est censé avoir établi les relations entre les variables
d'entrées qui mènent à une classe et pas à une autre. Modifier les classes ou même
ajouter un seul exemple implique de refaire l'apprentissage car tout est auto-cohérent
et la valeur de chaque coefficient reflète celle de tous les autres.
Ensuite, il suffira de présenter un cas inconnu au RN afin que chaque réseau
repère les relations entre ses composantes et qu'il le rattache à sa classe.

Maintenant, considérons la procédure en détail.


Comme vu précédemment, à l'origine le réseau est une architecture qui code
formellement une fonction censée exprimer les relations entre les variables des
données. Cette fonction est paramétrable, c'est-à-dire qu'elle comprend de nombreux
coefficients qu'il convient d'ajuster au couple entrée-sortie.
Je présente une entrée : comme au départ le réseau est dans un état aléatoire, sa
sortie est fausse. Connaissant la réponse, je lui apprends ce qu'il devrait dire.
Apprendre est abusif car cela suppose des explications et je ne lui en donne aucune, je
lui donne la consigne. Mesurant alors l'erreur, j'ai conçu un programme qui corrige
les paramètres internes du réseau de manière à ce que la fois suivante, avec la même
entrée, cette erreur soit moindre et ainsi de suite des centaines de fois. Cette
opération s'appelle la rétro-propagation du gradient. Rétro car il s'agit de faire
marcher le réseau à l'envers, de partir des derniers coefficients et de propager les
corrections vers l'amont. En quoi consistent ces corrections ? C'est le terme de
gradient qui l'explique. L'algorithme détermine la responsabilité de chaque
coefficient dans l'erreur constatée en calculant sa dérivée c'est à dire son gradient. Il
le corrige par incrément de manière à minimiser l'erreur à la prochaine itération dans
l'espoir que tous convergeront vers une erreur nulle.
J'entraîne ainsi chacun des réseaux sur tous les exemples et donc toutes les classes
(ou bien les valeurs escomptées dans une régression) jusqu'à ce que l'erreur commise
sur les exemples tende vers zéro. C'est la phase d'apprentissage supervisé.
Formalisation du réseau
Habituellement on représente un RN de la manière suivante :

Les lignes représentent des connexions affectées chacune d'un coefficient


multiplicateur Cijk.
Les variables de l'entrée sont interconnectées ce qui est logique puisqu'on
recherche les relations qu'elles entretiennent. On fait appel à une analogie avec les
neurones biologiques, mais ceci ne nous dit absolument rien du fonctionnement.
C'est un peu comme d'expliquer une chose mystérieuse par une autre qui l'est
davantage.
Il nous faut donc d'expliquer comment lire ce graphe à la lumière de nos
précédents raisonnements et de comprendre pourquoi cette représentation rend
compte de la fonction liant les variables entre elles.
Les entrées sont à gauche et la sortie est à droite. (Il faudrait plutôt dire l'entrée au
singulier qui est constituée de quatre variables). Le réseau comprend deux couches de
neurones cachés avec respectivement trois et deux neurones. C'est un réseau de taille
réduite mais d'architecture classique.
Formalisons.
Le premier neurone caché reformule les variables de l'entrée sous la forme d'une
somme, soit :

S1=C1.x1+ C2.x2+ C3.x3+ C4.x4


et de même le deuxième et le troisième :
S2=C5.x1+ C6.x2+ C7.x3+ C8.x4
S3=C9.x1+ C10.x2+ C11.x3+ C12.x4

On note que les variables sont ajoutées sous la forme d'une combinaison linéaire.
Le neurone caché est en fait la petite fonction universelle « toute faite » que nous
avons évoqué plus haut. Appelons la ∫. (La théorie des fonctions ∫est développée
dans la partie mathématique). Les sorties de la première couche sont donc de la
forme :

f (S1) ; f (S2) et f (S3)

Ces dernières représentent maintenant les entrées de la seconde couche qui


va procéder exactement comme la première.
Le premier neurone caché de la seconde couche reçoit donc :

S'1=C13.f (S1)+ C14.f (S2)+ C15.f (S3)

et le second :

S'2=C16.f (S1)+ C17.f (S2)+ C18.f (S3)

La sortie est alors :

Résultat = C19.f (S'1) + C20.f (S'2)

Que nous pouvons écrire finalement en développant :

Résultat = C15. ∫ [C9. ∫ (C1.x1+ C2.x2+ C3.x3+ C4.x4) + C10. ∫ (C5.x1+ C6.x2+
C7.x3+ C8.x4)+ C11. ∫ (C9.x1+ C10.x2+ C11.x3+ C12.x4)] +
C16. ∫ [C12. ∫ (C1.x1+ C2.x2+ C3.x3+ C4.x4) + C13. ∫ (C5.x1+ C6.x2+ C7.x3+
C8.x4) + C14. ∫ (C9.x1+ C10.x2+ C11.x3+ C12.x4))]

Ouf ! Ce laborieux exercice montre d'abord qu'un RN se résume à une formule de


calcul. Pour une entrée cette formule donne un résultat comme n'importe quel calcul
(Évidemment avec des centaines de neurones il n'est pas envisageable d'écrire
l'expression analytique).
Plus précisément, on retrouve un développement en série des fonctions ∫, ici à un
double niveau (fonction de fonction). Il y a autant de niveaux imbriqués que de
couches.
On perçoit bien la structure en tranches successives qui fonctionnent de manière
semblable, chacune recevant en entrée les sorties de la couche précédente. A chaque
étape il y a une réduction de dimension. Celle-ci peut être interprétée comme une
élimination des informations inutiles quant au résultat demandé. Par exemple, dans
la quantité de variables, certaines peuvent être redondantes ou bien de peu
d'importance pour le problème considéré ; la structure en entonnoir du réseau est
censée les éliminer. Cette question sera développée en seconde partie.
Il y a au départ, sur un réseau pourtant réduit, 20 coefficients inconnus. Ils seront
fixés au terme de l'apprentissage et ce sont eux qui donnent la souplesse aux
fonctions ∫.

Le nombre de coefficients est ainsi :

N = d.n1 + n1.n2 + n2
où d est la dimension du problème, ici 4. Avec n1=3 et n2=2.
Remarquons qu'en multipliant le nombre de couches on fait de même avec les
coefficients dont la détermination pendant l'apprentissage sera sans doute délicate.
Autrement dit, moins il y a de couches mieux ça vaut, tant que l'apprentissage s'en
arrange.
Enfin, on distingue bien deux niveaux de définition.
Le premier est rigide et donné par l'architecture du réseau. Ici deux couches de
quatre et trois neurones. Cela fixe le développement en série des fonctions ∫ estimé
nécessaire pour rendre compte des relations entre les variables.
Le second donne les degrés de liberté à l'intérieur de ce cadre et représente le
paramétrage induit par le résultat imposé lors de l'apprentissage.

Un exemple poétique de classification par RN


J'ai, pour ma part, des difficultés à imaginer un paysage en une autre saison, mais
si je regarde une photo je saurais immédiatement la déterminer. J'observerais les
feuilles ou la hauteur du soleil. Maintenant abordons cette classification à l'aide d'un
RN. Objectivement ça devrait marcher puisque nous, nous en sommes capables.

Je vais montrer à quatre réseaux construit à priori (les futurs séparateurs) des
milliers de photos de printemps, d'été... en prenant soin d'avoir autant d'exemples de
chaque saison. Puis, pas à pas, par différences entre les classes, (et un réseau de ce
type peut être considéré comme un opérateur différentiel) il va ajuster ses paramètres
jusqu'à ne plus commettre, en principe, d'erreur de classification sur la base
d'exemples. Les paramètres sont alors fixés et l'apprentissage terminé.

Imaginons d'abord le plus simple des réseaux représenté ici (en réalité un réseau
pour chaque saison) :
Entrées : Pixels de la photo
Sortie : décision
Réseau monocouche pour une séparation linéaire
En toute rigueur, on ne peut guère parler de réseau car il n'y a pas de neurone
caché. Ce type de structure effectue une simple séparation linéaire entre les classes.
Autrement dit, si l'apprentissage est un succès cela implique qu'il existe des droites,
ou plutôt des hyper plans, qui séparent les classes les unes des autres. Il se trouve que
ce cas est fréquent et il est alors inutile d'envisager un réseau plus compliqué.
Il est ainsi probable que notre problème de classification des saisons fonctionne
avec cette simple architecture. Mais si ce n'est pas le cas ? Observons les figures
suivantes :

Séparation linéaire possible

Séparation linéaire impossible

Maintenant comment faire quand les classes ne sont pas linéairement séparables
et donc que l'apprentissage d'un réseau linéaire échoue.

On peut imaginer deux stratégies.

1 Comme il n'existe pas de séparateur plan dans l'espace de représentation on


doit rechercher une frontière sinueuse, autrement dit une fonction. Suivant alors la
démarche utilisée en régression, cela revient à chercher un RN avec des neurones
cachés. Une seule couche ? Plusieurs ? Combien de neurones par couches ? Ces
questions demeurent en suspens et leur réponse est empirique et affaire d'habitude.
(Si on a des milliers de pixels en entrée, le nombre de neurones sera néanmoins en
proportion.)
Toutefois, il convient de remarquer que la dernière étape est toujours une
combinaison linéaire donc une séparation qui l'est également. Ainsi en ajoutant des
couches on peut imaginer changer à chaque fois l'espace de représentation jusqu'à
trouver un hyper plan séparateur (voir la seconde partie).

2 On peut essayer également d'augmenter la dimension du problème. Par


exemple, deux objets inséparables sur une photo, peuvent l'être en réalité dans
l'espace réel car ils ne situent pas dans le même plan. Dans ce cas il faut ajouter une
couche contenant davantage de neurones que la dimension de l'entrée. On aura alors
une projection de l'espace initial dans un espace de plus grande dimension, comme
de passer de la photo à la réalité. Cette opération paraît risquée car la solution n'est
pas unique et il faut inventer de l'information. Ce type de réseau où le nombre de
neurones est supérieur à la dimension initial n'est donc pas conseillé car on ne sait
pas ce qui se passe.

Résumé
Un réseau de neurones est une formule de calcul chargée d'établir d'éventuelles
relations entre les variables constituant les données. Cette formule n'est pas le
résultat d'un raisonnement déductif mais est fixée à priori. Sa définition est soumise à
l'hypothèse que les relations entre les variables sont formalisables par une fonction
assez régulière pour être développée en série de fonctions élémentaires
paramétrables.
Afin de se ménager une faculté d'adaptation dans ce cadre rigide, il y a de
nombreux paramètres à déterminer. Ce réglage oblige à passer par une étape
d'apprentissage faite à partir d'exemples hérités du passé.
Au terme de l'apprentissage le RN est opérationnel afin de fournir un résultat pour
n'importe quelle entrée à condition d'être à l'intérieur du domaine délimité par les
exemples. Le RN fonctionne par interpolation, jamais par extrapolation.

Les grandes bases de données : les « Big Data »


Il est bien entendu que les données sont le carburant des réseaux de neurones.
De nombreux organismes possèdent de grandes bases de données. Les
administrations et les entreprises : industrielles, banques, assurances ont toutes des
archives concernant leurs administrés, leurs fournisseurs ou leurs clients. Notons par
exemple que la France possède grâce à la sécurité sociale la plus grande base de
données médico-administrative au monde. Ceci concerne l'aspect historique des
données, mais avec l'essor d'internet de nouvelles sources d'informations viennent
alimenter en continu des bases bien plus considérables et bien moins transparentes.
Ces données nominatives sont collectées par les grandes entreprises du Net
auxquelles nous confions sans retenue notre intimité. (On se rappellera
opportunément la confession d'un ancien responsable de Google, déjà en 2009,
affirmant qu'il disposait d'une meilleure connaissance de chaque citoyen occidental
que leur propre conjoint et que seuls les criminels se souciaient de la protection de
leurs données personnelles.)
Ainsi, la vraie rupture avec les précédentes tentatives avortées d'IA trouve-t-elle
son origine dans l'immense masse de données désormais disponibles, et les réseaux
de neurones, investis d'une nouvelle puissance, donnent une possibilité de les
exploiter.

Afin d'y voir plus clair, divisons les données en deux types :
- les données impersonnelles ou anonymes.
- celles qui sont nominatives avec deux cas : celui des états et celui des
entreprises privées.

Dans les premières on trouvera celles concernant les processus industriels,


l'organisation de la logistique, mais également les données médicales. En effet, pour
mener des études cliniques : sur l'imagerie, les causes de maladies, sur
l'épidémiologie, il est bien sûr nécessaire d'avoir les examens individuels mais sans
que ceux-ci soient nominatifs. Paradoxalement, ce sont ces grandes études
anonymisées conduites grâce à l'IA qui permettront de prescrire des traitements
individualisés.
Dans les secondes nous trouvons les applications de profilage. Un profilage a pour
objet d’évaluer une personne pour mieux cerner sa personnalité, ses habitudes
d'achat ou son comportement et ainsi prédire ses réactions et ses préférences. C'est
un traitement individualisé : il ne comprend donc pas les statistiques générales ayant
pour objectif d’acquérir une vue d’ensemble sur un groupe.
Ces applications concernent bien sûr la police mais aussi pour le privé : le
marketing, la détection de fraude, etc... On conçoit que de nombreuses entreprises
soient intéressées par une IA leur permettant de minimiser leurs risques ou de gérer
leurs clientèles en temps réel et de manière entièrement automatisée.
Par exemple, une décision de refus de crédit peut être prise par une IA qui
applique automatiquement certains critères à la situation financière du demandeur,
sans aucune intervention humaine.
L'exploitation des bases de données en vue d'une application d'IA par réseaux de
neurones ne va pas de soi. Une entreprise qui voudrait utiliser ses archives pour se
lancer dans cette voie a devant elle un énorme travail de restructuration de ses
données.
En effet, celles-ci sont hétérogènes, certaines sont numériques quand d'autres sont
purement qualitatives (textes, sons ou images) ; pas de même nature, additionner des
carottes et des lapins nécessite des précautions, ni de même importance, il faut donc
les hiérarchiser et supprimer celles n'étant plus d'actualité et pour finir il faut
labelliser chaque échantillon en vue de l'apprentissage supervisé... Bref, afin de
parvenir à un jeu de données digeste pour un RN il y a un travail énorme.
Rappelons-nous la remarque du début, à savoir qu'en 2018 la moitié des projets
d'IA sont des échecs : la faute aux données ni assez big ni assez bonnes. Car il existe
ici un piège. Développer un RN est désormais très simple, presque trop facile, grâce
aux plateformes mises gratuitement à la disposition des développeurs (TensorFlow
par exemple). A tel point qu'un bachelier un peu motivé est parfaitement capable de
coder un réseau, mais cette facilité ne doit pas masquer le véritable enjeu : sans
données solides, même la meilleure architecture est inopérante.
Encadrement des utilisations de l'Intelligence
Artificielle
Sans doute instruites par l'histoire, puis récemment par des lanceurs d'alerte
(Edward Snowden et la NSA), des scandales touchant la démocratie même
(Cambridge Analytica et Facebook) et d'autres cyber-attaques, les nations
européennes se sont émues des atteintes à la liberté des citoyens que ces méthodes
impliquent (bien que le cas de Facebook ne concerne pas l'IA).
Sans même parler de pays comme la Chine où la surveillance et le contrôle des
citoyens est désormais une réalité, des pays démocratiques comme les États-Unis en
viennent à privilégier systématiquement la sécurité à la liberté depuis les attentats du
11 septembre maintenant qu'ils en ont les moyens, conduisant infailliblement à une
société de contrôle et de surveillance, désormais structurée autour de l'IA.
L'impératif de sécurité conduit alors à demander à l'IA une vertu de prédiction des
délits ou des crimes menant à une société du soupçon. Arrêter le coupable avant qu'il
n'ait commis son crime demeure, rappelons-le, une hérésie pour la justice : avant le
crime il n'y a rien et la suspicion n'est pas une preuve.
A un moindre degré de gravité, le profilage pour des intérêts privés de chaque
client et donc de chaque citoyen, pose le problème de l'influence confinant à la
manipulation ou à l'arbitraire. Peut-on accepter que des décisions nous concernant
soient prises par des algorithmes sans que personne ne puisse en expliquer le
fonctionnement et dont l'impartialité n'est aucunement garantie ? Peut-on accepter
d'être sous l'influence permanente d'intérêts privés pour leur unique profit ?
Enfin chacun est désormais convaincu que les entreprises du Net grandes
moissonneuses de données ne se donnent aucunes limites et que seule la loi peut
encadrer et réguler leurs pratiques dans l'intérêt des citoyens.
C'est pour ces raisons que les états européens se sont dotés d'outils légaux afin
d'encadrer ces pratiques.
Déjà la France avait pris soin d'édicter les principes de protection des citoyens avec
la Commission Nationale Informatique et Liberté (CNIL) dès 1978. Nous en
rappellerons ici son premier article :

Le présent règlement protège les libertés et droits fondamentaux des personnes


physiques, et en particulier leur droit à la protection des données à caractère
personnel.

Elle a également pris soin de protéger l’accès à ses bases médico-administratives et


notamment à la base de l'assurance maladie : la SNIIRAM. (Système national
d’information inter-régimes de l’Assurance maladie). Dans cette base sont enregistrés
tous les remboursements effectués par l’Assurance maladie pour chaque cotisant,
tout au long de leur vie (biologie, médicaments, ambulances, consultations avec dates
et noms des professionnels de santé vus, codes du type de maladie dans certains
cas…). Ce système permet le suivi à long terme de données fiables, objectives et très
exhaustives à l’échelle de larges populations. Donc une véritable mine d'informations
pour des applications d'IA. Depuis 2016, sous certaines conditions des organismes
privés ont accès à cette base pour des études d'intérêt général. Mais les données ne
doivent pas permettre l'identification des personnes et citons la loi :

les travaux ne doivent pas aboutir à la promotion de produits en direction des


professionnels de santé ou d'établissements de santé, ni permettre l'exclusion de
garanties des contrats d'assurance ou la modification de cotisations ou de primes
d'assurance.

Il existe donc un institut national des données de santé qui se prononce sur la
conformité des travaux engagés et donc sur les applications à base de RN.
Ces précautions sont absentes aux États-Unis où Google vient de vient de signer
dans la plus grande discrétion, un accord avec Ascension, l'un des plus gros acteurs
de la santé qui exploite 2 600 sites de soins et 150 hôpitaux. Au terme de celui-ci
Google récupère les dossiers médicaux complets de millions d'Américains : identité
des patients, diagnostics, résultats d'examens, antécédents... Sans qu'aucun des
intéressés n'ait été prévenu ! Pour en faire quoi ? Nul ne le sait précisément, mais il
est peu probable que cette récolte serve la recherche médicale, longue et incertaine
alors que ces données ont une valeur marchande immédiate, si bien que même le
ministère de la santé s'en émeut... tardivement.
Nous pourrions également évoquer la vogue des objets connectés, vecteurs de
nombreuses données de santé nominatives : fréquence cardiaque, pression artérielle,
glycémie etc... qui sont envoyées directement chez les GAFA qui peuvent ensuite en
faire commerce sans cadre légal. Tout ceci témoigne de l'avancée de ces acteurs dans
la santé considérée comme stratégique.

Le cas emblématique de la reconnaissance faciale


Le 15 novembre 2019 la CNIL s'est saisie, tardivement, du dossier de la
reconnaissance faciale. Le cadre juridique actuel étant très rigide à propos des
données biométriques et les velléités des différents acteurs (dont la police) de plus en
plus prégnante.
Le gendarme français de la vie privée cherche à définir le code de la route de la
reconnaissance faciale. Suivant sa directrice, le risque est grand que des choix nous
échappent, que des glissements progressifs conduisent à un changement de société
non anticipé et non souhaité, et nous soyons un jour, devant un fait accompli.
Il existe des déclinaisons de cette technologie qui ne posent pas problème :
déverrouiller son téléphone, accéder à son entreprise, sont des applications purement
locales où le citoyen garde le contrôle de ses données biométriques. Dans ces cas la
reconnaissance faciale reste l'équivalent des empreintes digitales. Il en va tout
autrement de la reconnaissance faciale à partir d'image de vidéo-surveillance en vue
de repérer un suspect dans un fichier de police ou la reconnaissance à la volée dans
l'espace public. Selon la commission elle induit un changement de paradigme de la
surveillance (...) ; le passage d'une surveillance ciblée de certains individus à la
possibilité d'une surveillance de tous aux fins d'en identifier certains.
Les atteintes à cet anonymat, par les pouvoirs publics ou par des organismes
privés, sont ainsi susceptibles de remettre en cause certains de nos principes
fondamentaux, car l'espace public est le lieu où s’exercent de nombreuses libertés
(expression, réunion, manifestation (Le Monde du 16 novembre 2019).
Si la CNIL se montre ouverte à une adaptation du cadre juridique actuel elle plaide
néanmoins pour que certaines utilisations soient purement et simplement interdites
et ce, préalablement à tout essai. Signalons d'ailleurs que l'état de Californie a interdit
l'emploi de cette technique sur les caméras embarquées par la police.
En effet, la sécurité des données biométriques représente suivant les mots de la
CNIL : une priorité impérieuse. Un stockage sur un support individuel détenu par
l'utilisateur, à la main de ce dernier, doit toujours être privilégié aux solutions de
stockage en base centrale, juge la CNIL.
Derrière les aspects techniques, il s'agit de procéder à des choix politiques, et de
dessiner certains contours du monde de demain, assure l'institution. Et de conclure :
De tels choix ne peuvent être opérés à l'abri des regards ou du contrôle
démocratique.
On ne saurait être plus clair, et ces propos mériteraient d'être élargis à l'ensemble
des applications sociales et nominatives de l'IA.

Le RGPD
Le Règlement Général pour la Protection des Données, RGPD du 25 mai 2018, fixe
un cadre européen pour la circulation et la protection des données personnelles.
Reprenons ici la définition d'une donnée personnelle.
Une donnée personnelle (ou donnée à caractère personnel) est une information
qui concerne une personne physique, identifiée directement ou indirectement. Il peut
s’agir d’un nom, d’une photographie, d’une adresse IP, d’un numéro de téléphone,
d’un identifiant de connexion informatique, d’une adresse postale, d’une empreinte,
d’un enregistrement vocal, d’un numéro de sécurité sociale, d’un mail, etc...
Certaines données sont sensibles car elles touchent à des informations qui peuvent
donner lieu à de la discrimination ou des préjugés : une opinion politique, une
sensibilité religieuse, un engagement syndical, une appartenance ethnique, une
orientation sexuelle, une situation médicale ou des idées philosophiques sont des
données sensibles. Elles ont un cadre particulier, qui interdit toute collecte préalable
sans consentement écrit, clair et explicite, et pour des cas précis, validés par la CNIL
et dont l’intérêt public est avéré.
Le RGPD est la première tentative légale, mais tardive, pour encadrer les menaces
que l'utilisation exubérante de l'IA fait indéniablement planer sur les libertés
publiques et les démocraties. Elle semble constituer une prise de conscience générale
et bien qu'outre atlantique les scrupules ne soient pas les mêmes cette réglementation
semble faire école. Après tout, il existe des lois sur la bioéthique que tout le monde
comprend et donc accepte, elles pourraient donc être un exemple dans un domaine
tout aussi grave.
Néanmoins, les gouvernements européens font face à un débat cornélien. Brider
l'utilisation de ces méthodes alors que d'autres n'ont aucun scrupule à les déployer
sans vergogne, n'est-ce pas prendre le risque d'un retard technologique ? Les États-
Unis et la Chine investissent massivement dans l'IA, les premiers surtout dans le
domaine militaire et les seconds dans le contrôle des personnes.
Il ne fait aucun doute que l'IA ne tiendra pas toutes ses promesses car nous
assistons aujourd’hui à un engouement irrationnel et une grande partie des milliards
investis est gaspillée, mais laquelle ? Comment le savoir ? Quelle est la priorité, la
liberté ou la sécurité ? Mais la première existe-t-elle sans la seconde ? C'est un débat
infini car on sent bien qu'il s'agit là d'une question fondamentalement politique. Il
existe deux dangers pour les nations : le désordre et l'ordre.
Enfin d'après certains juristes, ce texte semble difficilement capable de répondre
aux besoins d’encadrement des entreprises du secteur des Big Data et donc de celui
des applications liées à l’intelligence artificielle. Il arrive bien tard car appliqué il y a
vingt ans, il aurait sans doute évité que 80% des données personnelles des européens
soit siphonnées par les GAFA.
Le destin de ces grandes réformes législatives serait-il d'avoir toujours un train de
retard sur des pratiques techniques et commerciales évoluant très rapidement ? Le
temps de la loi est moins que jamais celui du business mais il n'existe pas de
démocratie sans contre-pouvoir judiciaire.
Quatre exemples d'utilisation des réseaux de
neurones
1 Reconnaissance optique de caractères (OCR)
Il s'agit sans doute là, de la plus ancienne application des RN. Pourquoi, direz-
vous, utiliser une méthode compliquée alors qu'il suffit d'une base de dessins des
caractères alphanumériques puis de venir y superposer le signe inconnu pour trouver
celui qui coïncide le mieux ? Donc une simple méthode par corrélation. C'est possible,
mais on peut faire beaucoup mieux.
En effet, dans la méthode par corrélation chaque caractère est considéré
indépendamment de ses voisins, or, on reconnaîtra bien mieux une forme inconnue
par comparaison avec l'ensemble des signes de référence plutôt que par simple
appariement en ignorant le reste. Il convient donc de créer à partir des caractères
initiaux une nouvelle base qui exprimera leurs différences : une base différentielle en
quelque sorte. Ceci revient à substituer chaque caractère par son séparateur d'avec
tous les autres. Pour le séparateur du 0 : quels sont les pixels qui différencient 0 du 1,
du 2.. ? Et ainsi de suite pour chaque classe. Certaines portions des graphes sont
présentes dans la majorité des graphes et participent donc peu à la discrimination, les
coefficients correspondant à ces pixels seront donc faibles, en revanche ceux qui
matérialisent la diagonale seront importants pour reconnaître un 2 ou un 7.
Un réseau de neurones calcule ces plans séparateurs et construit ainsi un pavage
de l'espace de représentation où les frontières séparent les classes. Après
apprentissage sur une base de dessins ou un échantillon réel, le RN construit autant
de séparateurs que de caractères à reconnaître. En exploitation, il suffit de présenter
le signe inconnu devant chaque séparateur pour déterminer sa classe d'appartenance.
Ce domaine à récemment fait de gros progrès avec l'utilisation de nouveaux RN
par convolution (CNN). Une couche supplémentaire est ajoutée en entrée du réseau
permettant d'extraire, par apprentissage les caractéristiques des graphes. Le résultat
de cette opération préalable sert ensuite d'entrée au réseau classique à la place des
caractères eux-mêmes.
Les résultats obtenus sur des bases de milliers de caractères de référence tutoient
les 99,8%. (Remarquons toutefois que pour une page de 1100 caractères comme celle-
ci, cela représente 2 ou 3 erreurs.)

2 L'imagerie médicale
C'est un domaine en pleine expansion. Il existe même des bases de données
homologuées constituées de milliers de radiographies (mammographies, radios
pulmonaires), afin d'entraîner des RN.
Qu'attendons-nous ici de leur utilisation ?
Actuellement, l'analyse d'une mammographie mobilise deux radiologues.
L'intervention d'une IA permettrait de poser un premier diagnostic ensuite validé par
le radiologue. L'IA intervient donc dans ce cas comme une aide à la décision, comme
un premier filtre afin de ne proposer aux médecins que les cas litigieux. Mais nous
pouvons également imaginer une IA très performante capable d'une analyse plus fine
qu'un professionnel. Quel serait alors le protocole ?
Les performances de dépistage du RN reposent évidemment sur la qualité et les
nombres de radios utilisées pendant l'apprentissage. Ce sont des centaines de milliers
de clichés, dûment labellisés, qui l'alimentent. Mais combien de clichés normaux
relativement aux pathologiques doit-on y mettre ? Quelle est la meilleure architecture
du réseau ? Quant aux inévitables erreurs : il faut évidemment éliminer les faux
négatifs (c'est à dire passer à côté d'un cancer) mais au prix de combien de faux
positifs, terriblement anxiogènes ? Il y a encore du chemin à faire.
Récemment mon ophtalmo, parlant de l’analyse par RN des photos de la rétine, me
faisait part de son étonnement devant la clairvoyance de cette méthode. Elle est
capable de déterminer à 97% le sexe du patient (uniquement à partir du cliché
rétinien) alors que lui en est incapable ! Avec lui nous devons nous interroger devant
ce miracle. Évidement de miracle il n'y en a point, mais on peut penser que nous,
humains, trouvons seulement ce que nous cherchons ; autrement dit nous avons des
a- priori, des œillères que n'a pas la machine. L'absence de préjugés, sur des signaux
en entrée du RN (nous verrons qu'il n'en va pas du tout de même ailleurs), est une
précieuse qualité des RN, reste qu'il est embêtant, vraiment très embêtant que la
machine ne puisse pas expliquer ce qu'elle fait, et il serait regrettable qu'elle nous
oblige à accepter ses résultats sans les comprendre.

3 Une compagnie d'assurance


Une compagnie d'assurance se doit de minimiser ses risques. De tout temps ces
entreprises ont donc calculé les primes en partant de statistiques sur leurs clients.
Celles-ci concernent leur état de santé mais demeuraient globales et statiques dans la
durée. L'IA leur apporte maintenant une analyse bien plus fine des profils, leur
permettant de faire quasiment du sur-mesure.
Ces organisations détiennent d'énormes bases de données clients, les Big Data, et
afin de profiter des avancées promises par l'IA, elles doivent d'abord effectuer un
gigantesque travail de restructuration de ces informations. Il s'agit schématiquement
de caractériser chaque individu par une série d'attributs. Ce peut être une centaines
de variables hétérogènes comme l'âge, le nombre d'enfants, le niveau de revenu, la
région d'habitation, le taux de cholestérol ou la tension artérielle... Toutes ces
caractéristiques sont censées résumer un client du point de vue de l'assureur et donc
l'aider à estimer son risque.
Grâce au recul acquis au cours du temps, ces archives donnent à l'assureur la
connaissance des risques encourus. Il peut donc entraîner un réseau de neurones qui
tirera profit de ces multiples expériences afin d'évaluer, par analogie et bien plus
finement que des statistiques globales, un nouveau venu.
Mais il peut faire mieux, car le système décrit demeure statique. Les informations
sur les changements du mode de vie (perte d'emploi, maladie, omission de
déclaration...) ne sont pas prises en compte alors qu'elles sont désormais disponibles.
Nous savons que les grandes entreprises du Net connaissent beaucoup de choses
sur chacun (les sites Internet visités ces derniers mois par exemple). Cette mine
d'informations intéresse bien sûr nombre d'entreprises afin de mieux connaître leurs
clients. Il faut bien dire aussi que ces échanges de fichiers se font actuellement dans
la plus grande opacité.
Pour notre assureur, la réactualisation permanente des données clients, le
profilage en temps réel, lui permet le calcul des primes de manière optimale, de
repérer des clients sur le départ et même, suivant un professionnel, de détecter des
comportements frauduleux avant même qu'ils ne se produisent !
On mesure bien ici les gains de rentabilité promis par l'utilisation de l'IA pour ces
entreprises de services ayant à leur disposition des Big Data.
4 Application judiciaire
Aux États-Unis, avec la possibilité légale d'exploiter numériquement les données,
la justice a voulu s’appuyer sur l’intelligence artificielle et les algorithmes prédictifs,
RN en l’occurrence, jugés plus objectifs, pour décider de la libération conditionnelle
des détenus.
Nous prenons ici l’exemple du désormais tristement connu programme COMPAS.
C’est un logiciel utilisé en cours de procédure pénale pour évaluer le risque de
récidive, afin de décider des remises en liberté conditionnelle. Mais il a remonté la
chaîne pénale et est maintenant utilisé aussi au moment du jugement.
Un travailleur social va répondre, en collaboration avec le prévenu, à 137 questions
du type « Que pense le prévenu de la police ? », « Quelles sont les caractéristiques
des amis du prévenu ? », « Certains d'entre eux ont-ils déjà été condamnés ? », etc...
La plupart de ces questions demeurent secrètes au nom du secret commercial de
l'éditeur du logiciel.
Une fois les champs remplis, le travailleur social clique sur « calculate risk » et le
logiciel sort un résumé avec un score de dangerosité. C’est un chiffre, compris entre 1
et 10 : à 1, le risque est faible ; et à 10, il est jugé très élevé. En général, ce score
s’accompagne d’un code couleur : quand le score est plus faible que 5, ça s’affiche en
vert, et au-delà, c’est en rouge. C’est une esthétique visuelle de la dangerosité. En
général, ce résultat est ajouté au dossier du prévenu et le suit tout au long de la
procédure pénale.
Bien sûr les magistrats sont réservés vis à vis de ces robots, néanmoins dans quelle
mesure ceux-ci interfèrent-ils dans leur jugement ?
Une étude de 2018 est éclairante. Le législateur, conscient qu'une décision aussi
importante ne puisse être prise uniquement par une machine donne le dernier mot à
un jury. Le rôle de l'IA, comme on l'a vu pour l'imagerie médicale, est alors conçu
comme une aide à la décision. Mais il se trouve qu'avec le recul on s'aperçoit que le
jury se range toujours à l'avis de la machine. Suivant une logique élémentaire, soit
celle-ci désapprouve la libération et le jury se garde de prendre le risque d'une
récidive, soit elle conseil l'inverse et celui-ci est réticent à se montrer plus sévère.
Alors dans les faits qui décide ?
Mais ce n'est pas tout, une étude publiée dans la revue Science Advances du 17
janvier 2018 oppose COMPAS à des citoyens sélectionnés au hasard mais sans
expérience juridique afin d'évaluer la récidive sur un millier de criminels suivant la
question : Pensez-vous que cette personne va commettre à nouveau un crime dans
les deux ans qui viennent ?
Pour établir leur jugement, les participants pouvaient se fonder sur seulement sept
critères (137 pour le logiciel) : le sexe, l'âge, la nature du crime, son " degré "
(préméditation ou non), les antécédents judiciaires hors délinquance juvénile et les
antécédents en matière de criminalité juvénile.
Le résultat est confondant. Les évaluateurs humains fournissent une estimation de
récidive comparable à celle de Compas : 67% contre 65%. « Les prédictions des
participants et celles de COMPAS étaient les mêmes pour 692 des 1 000 cas »
ajoutent les chercheurs dans leur article. (Sciences et avenir du 27 janvier 2018). Ils
notent cependant le même biais racial expliqué par le fait que les participants s’en
sont remis à des critères comme le nombre de condamnations qui trahissent eux-
mêmes des inégalités raciales : à crimes et délits égaux, les noirs sont plus souvent
condamnés que les blancs.
Dès lors on peut s'interroger : est-il vraiment utile de recourir à de tels
algorithmes ? Notre époque est-elle si fascinée par la technique pour s'en remettre à
son tutorat et à abdiquer son propre entendement ?
Nous pourrions poursuivre avec des dizaines d'autres exemples, des applications
plus expérimentales ou baroques, la détection des émotions et la prévision des
comportements en temps réel, création d’œuvres à la manière de... (Van Gogh, J.S.
Bach), composition automatique de musique de film, d'articles de presse etc... et bien
sûr la voiture autonome. Cette diversité montre la large diffusion de ces technologies
mais surtout l'éventail de leurs applications. Il semblerait que tous les problèmes
d'organisation de nos sociétés soient désormais solubles dans l'IA.
Notons ici que le rapport Villani de 2018, (dont il faut fortement conseiller la
lecture) sur l'intelligence artificielle à destination du gouvernement, préconise de
concentrer l’effort sur quatre secteurs prioritaires : santé, environnement, transports-
mobilités et défense-sécurité, car leur développement nécessite des initiatives
publiques, contrairement aux autres où le privé s'en occupe.

Quelle est ici la politique des GAFA ?


Il convient d'admirer la stratégie à long terme des acteurs américains du
numérique. Il est remarquable que depuis presque vingt ans des entreprises comme
Google ont planifié l'essor de l'IA par RN. Elles ont compris très tôt qu'elles
possédaient un trésor, non seulement le savoir-faire algorithmique (mais elles
n'étaient pas les seules car les algorithmes en eux-mêmes sont assez anciens), mais
surtout le carburant pour la rendre effective, c'est à dire les données dûment
labellisées. Tout a été fait depuis pour encourager l'usage de ces méthodes, pour
organiser à une échelle mondiale la collecte des informations individuelles qui ont
acquis graduellement une valeur marchande constituant une véritable rente. Deux
exemples.

- La mise à disposition gratuite de plateformes de développement : Google (avec


TensorFlow), Microsoft (avec CNTK), Facebook (avec Caffe2), Amazon (qui soutient
MXNet) ; plateformes qui permettent moyennant quelques lignes de codes, de
construire un RN et font le bonheur de multiples entreprises du numérique qui
peuvent proposer à leurs clients des solutions d'IA clé en main sans avoir à recruter
des pointures en math.
- La multiplication des objets connectés présentés comme un futur souhaitable, via
la 5G, autorise la collecte de milliards d'informations individuelles en temps réel
remplissant des millions de fiches d'identité vendues au plus offrant.

Il ne fait aucun doute que les GAFA œuvrent au bonheur de l'humanité (sans aller
toutefois jusqu'à payer leurs impôts), mais cette pression constante, cette lourde
évidence d'un progrès inéluctable, cette incitation si bien orchestrée pour l'utilisation
d'une technologie dont ils tirent le plus grand profit jette une ombre sur son bien
fondée, comme un doute avant de s'engager sur un chemin trop complaisamment
indiqué.
L'intelligence artificielle dans une épidémie comme
le Corona virus

Point de vue épidémiologique


Que peuvent apporter des méthodes statistiques à mémoire comme les RN dans
une pandémie comme celle du Corona virus ?
Préalablement il faut constater que l'aspect dramatique de la situation est dû à
l'émergence d'un virus totalement inconnu des hommes qui se retrouvent donc sans
immunité. Or, le fonctionnement d'un RN est fondé sur la mémoire de cas déjà
connus. Il s'ensuit que du point de vue épidémiologique les RN ne sont d'aucun
secours.
Ceci est d'autant plus avéré que dans sa première phase, la croissance d'une
épidémie est hélas très simple à mettre en équation. L'accroissement du nombre de
cas est proportionnel à celui déjà présent : ce qui est l'exacte définition d'une fonction
exponentielle avec cet emballement qui semble ne pas devoir finir. Inutile ici de faire
appel à d'autres modèles.
Dans un second temps, l'influence de nouveaux facteurs permet d'infléchir cette
progression. Les effets du confinement, un traitement éventuel, l'immunisation
progressive de la population, l'arrivée de l'été ou leur conjugaison freine la diffusion
du virus. A ce stade on pourrait imaginer un modèle basé sur les RN, mais là encore
nous n'avons aucune archives pour en faire l'apprentissage, d'autant que les modèles
logiques disponibles semblent assez fiables.
Ainsi, ce n'est que dans une future épidémie due au même germe que les RN
pourraient devenir un outil prédictif.

Point de vue médical


Devant le désarroi du monde académique envers ce fléau, la médecine ne peut que
faire feu de tout bois. Avoir l'espoir qu'un traitement efficace sur d'autres maladies
puisse, un peu par hasard, l'être aussi sur celle-ci ; ou observer que certaines
caractéristiques individuelles protègent ou au contraire prédisposent à la maladie.
Tout ceci de manière purement empirique dans ce premier temps soumis à l'urgence.
Dans le principe il s'agit de détecter des corrélations entre de multiples variables sans
rapport à priori. Par exemple, on remarque avec étonnement que les personnes
vaccinées contre la tuberculose semblent mieux protégées, que les hommes sont
davantage frappés que les femmes, que les rhésus O sont mieux armés, etc....
Établir des corrélations entre de multiples variables est pour le coup au centre de
la compétence des RN. Mais encore faut-il disposer en temps réel de suffisamment de
cas et d'avoir pour chacun structuré toutes les caractéristiques disponibles sans
préjugé.
On comprend qu'un tel travail soit impossible dans l'urgence de l'épidémie. C'est
vraisemblablement plus tard que ces investigations seront menées avec sans doute un
rôle important des RN.
Maîtrise de l'épidémie en sortie de confinement
A la levée du confinement, en l'absence de traitement médical, de vaccin et de
l'immunité d'une fraction suffisante de la population (évaluée à 6%, 12% en île de
France, pour un but fixé à 60 - 70%), le problème de fond demeure et le risque est
grand que l'épidémie reparte. Certains imaginent donc de repérer individuellement
les individus contagieux afin que le reste de la population les évite. Il s'agit au fond de
reproduire dans une version high tech, la crécelle des lépreux du moyen âge.
La généralisation des smartphones et la géolocalisation permettent d'envisager de
telles méthodes pilotées par l'IA et les GAFA proposent déjà leurs services. Elles sont
développées d'autorité en Chine et dans une version moins intrusive et
théoriquement anonyme à Taïwan ou Singapour.
De plus l'efficacité de ces méthodes n'est pas prouvée mais surtout difficile à
prouver. Schématiquement, si l'on comprend bien car tout n'est pas clair, il s'agit de
créer une sorte d'épidémie virtuelle. Chaque malade possédant un portable le signale.
Quand il se promène, il contamine virtuellement ses contacts suivant la portée du
Bluetooth. Ceux-ci sont prévenus et doivent donc se confiner étant potentiellement
atteints. Ce qui bloque en théorie les chaînes de transmission. En résumé le malade
est dehors et ceux qui ne le sont pas sont confinés ! Mais l'objection majeure, qui
rendrait accessoire une telle méthode, est qu'un vecteur important de la
contamination est le fait de personnes asymptomatiques, qui ne se sont donc pas
identifiées comme porteuses.
Toutefois, ce type d'application semble moins intrusif qu'une géolocalisation et est
envisagée sur le mode du volontariat. Il est encourageant de voir que naît sur ce sujet
un débat de société porté par un scepticisme légitime. On notera au passage que
Singapour est sur le point de délaisser ce procédé dont ils étaient pourtant les
promoteurs.
On remarque que d'autres méthodes moins évoquées, comme la mesure de la
température corporelle sans contact, paraissent plus logiques et bien plus simples à
mettre en place.
Ainsi il est probable que certains acteurs fassent pression pour tordre la loi à leur
profit après la levée de l'état d'urgence sanitaire. La police d'abord car le traçage
systématique des personnes facilitera ses enquêtes et les GAFA qui en profiteront
pour asseoir leur emprise et améliorer leur profilage.
Comme toutes les applications de traçage, pistage et autre profilage nous abordons
ici la face sombre de l'intelligence artificielle. Il appartient à des organismes comme
la CNIL de faire preuve de vigilance si les gouvernants s'avéraient incapables de faire
prévaloir les valeurs de liberté.

Les réseaux de neurones et la prédiction


L'expérience est une lanterne qui n'éclaire jamais que le chemin parcouru.
Des pages précédentes se dégagent une ligne directrice dans notre attente vis à vis
des réseaux de neurone : la notion de prédiction.
Nous attendons d'une IA à base de RN qu'elle nous prédise un comportement, un
passage à l'acte, une situation, une pathologie et nous promette d'assujettir le futur
dans une lutte permanente contre l'incertitude et l'inéluctable accroissement de
l'entropie. Après tout il s'agit d'un vieux rêve.
(Ces lignes sont écrites au printemps 2020, en pleine pandémie de Corona virus.
Dans ces conditions il n'est pas de plus cruelle ironie que de parler de prédiction
quand l’inconcevable advient).
Comme déjà souligné, l'analyse par un RN repose sur l'analogie d'un cas présent
avec ceux déjà observés. Les RN sont ainsi le domaine de l'interpolation, au sens où le
résultat se situe dans le domaine borné de l'expérience et pas de l'extrapolation
comme une méthode scientifique.
Ainsi, quand on parle de prédiction en IA, il s'agit de la méthode évoquée à propos
de la météo statistique, qualifiée de "rétro-prédiction". Paradoxalement pour une
méthode censée prévoir, son principe est de regarder en arrière car elle est fondée sur
la mémoire. Certes on peut toujours, comme on l'entend souvent, qualifier les réseaux
de neurones d'algorithme prédictif mais c'est au sens du futur antérieur et on
pourrait ajouter par dérision que les RN sont à la méthode scientifique ce que le
rétroviseur est au télescope.
Il existe trois façons raisonnables de prévoir l'avenir.
On peut d'abord tenter une explication de la marche du monde. C'est, comme nous
l'avons souligné, le rôle de la science. Ainsi la gravitation universelle permet-elle de
prévoir une éclipse dans mille ans (et absolument pas parce que nous avons les
archives des éclipses), la théorie de l'évolution de prévoir l'adaptation des êtres
vivants. Dans le premier cas nous avons les équations du mouvement dans le second
la chaîne des causalités. Il s'agit, au sens propre, d'une faculté de prédiction.
On peut aussi, mais c'est une exception, être devant un phénomène parfaitement
périodique à l'échelle humaine, les marées par exemple, et prédire sans coup férir les
flux et reflux à venir sans avoir besoin d'autre secours qu'un bon sens de
l'observation. Ce n'est donc pas le domaine de l'IA.
On peut enfin, lorsque l'approche scientifique paraît inaccessible à cause de la
complexité du phénomène (ou parfois du refus de la réflexion !), et il s'agit là le plus
souvent de questions de société, faire appel à l'expérience. Il faut entendre ici
l'expérience comme accumulation de connaissances et non comme : faire une
expérience, ce qui est un peu son contraire.

Cette approche est moins solide que les précédentes dans la mesure où elle est
soumise à trois hypothèses :
- les mêmes causes produiront toujours les mêmes effets.
- l'expérience embrasse la totalité des possibles.
- l'expérience est objective.
Dans l'exemple météo, dans quelle mesure le réchauffement climatique invalide-t-
il l'hypothèse de la reproductibilité du passé ?
Pour l'exemple judiciaire, dans quelle mesure l'examen des cas anciens prétend-il
être le juste reflet de l'étendu du présent ?
Et troisièmement, les populations servant d'étalonnage sont-elles justement
représentées ? C'est la question des biais dans l'apprentissage (par exemple, sur-
représentation des Afro-Américains dans les condamnations).
Dans la pratique, la première hypothèse est souvent vérifiée : invariance dans le
temps ; les mêmes causes produisent les mêmes effets.
La seconde ne l'est évidement jamais, même si on peut faire semblant. On ne peut
pas prétendre avoir tout vécu.
Enfin, la troisième n'est souvent vérifiable qu'à posteriori ! On ne s'aperçoit des
erreurs qu'après coup.
Maintenant, mettons en œuvre un RN et reprenons nos quatre exemples à l'aune
de nos hypothèses. Sont-elles raisonnablement respectées ?
OCR
Pour la reconnaissance des caractères la première hypothèse est remplie car il
s'agit d'un problème indépendant du temps.
La seconde est plus problématique. En effet, si mon but est de reconnaître les
caractères écrits ou provenant de photographies plus ou moins bonnes, les
déformations et fluctuations autour des formes canoniques est quasiment infinie :
distorsions en tout genre, variation de lumière, effacement partiel etc...
Ainsi, même avec une base d'apprentissage de dizaines de milliers de caractères,
les formes incidentes ne seront probablement jamais celles ayant servi à
l'apprentissage. C'est le rôle du RN de généraliser afin de raccrocher ce graphe à un
caractère. Mais quelle est sa tolérance ? Les habitués savent bien qu'il suffit parfois de
déplacer quelques pixels pour faire basculer le résultat.
La troisième contrainte concerne l'équilibre de la base d'échantillons. A première
vue il semble raisonnable de mettre autant d'exemples dans chaque classe. Mais s'il
s'agit de caractères alphabétiques dans un texte français ne conviendrait-il pas mieux
de respecter la fréquence d'apparition de chaque lettre dans la langue (donc plus de e
que de h) ? A vous de voir.

Imagerie médicale
Là encore la première hypothèse semble satisfaite dans la mesure où l'espèce
humaine n'évolue pas au point où même mille ans d'archives pourraient détecter la
moindre différence. Pourtant des changements de mode de vie pourraient induire des
modifications dans l'apparition des troubles. Comme on l'ignore nous supposerons
raisonnablement que les archives reflètent correctement l'état du présent.
La deuxième hypothèse est-elle vérifiée ? Il est impossible de prétendre que les
échantillons recouvrent toutes les virtualités. Néanmoins au fil du temps et de
l'accroissement des bases on peut espérer tendre vers une vérification raisonnable.
C'est une hypothèse sur l'hypothèse.
Respecter la troisième contrainte est affaire de spécialistes et de mise au point. Il
s'agit d'équilibrer la base d'apprentissage avec un ratio de clichés normaux et
pathologiques à trouver. A tenir compte aussi de l'âge des patients, de leurs
antécédents, de leur patrimoine génétique etc...
On voit que cet équilibre est surtout empirique, fait d'essais, d'erreurs... un long
chemin.

Compagnie d'assurance
Nous sommes ici dans une application de l'IA nominative où l'évolution des
comportements suit celle de la société. Les données collectées il y a vingt ans sont-
elles encore valables ? Dans les critères retenus est-il pertinent de mentionner une
pension d'ancien combattant ou de demander si l'assuré a eu la tuberculose alors que
d'autres maladies apparaissent ? L'invariance des données est ici une vraie question.
Deuxième hypothèse : les données recouvrent-elles tous les cas possibles ? Si elles
sont réactualisées, on peut penser que oui. Les cas individuels des assurés ne
représentent pas des combinaisons infinies et l'on peut penser qu'ils sont tous
répertoriés.
Troisièmement, existe-t-il des biais dans les données ? Autrement dit, les critères
retenus pour décrire les personnes sont-ils équilibrés ? Nous verrons dans le chapitre
suivant que ce point est capital dans les applications nominatives des RN car il suffit
qu'un des attributs soit statistiquement déséquilibré (par exemple trop de parisiens
pour le critère du lieu d'habitation, pas assez de femmes pour les conducteurs) pour
que celui-ci devienne prépondérant dans la décision du RN suivant un mécanisme
que nous analyserons. C'est ici au concepteur du réseau de structurer les données
convenablement. Le plus gênant, c'est que même avec la meilleure volonté on ne
puisse s'apercevoir des biais que durant l'exploitation, donc trop tardivement.

Application judiciaire
Les arguments développés pour le cas de l'assurance sont largement transposables,
sauf qu'ici le problème des biais dans les données devient crucial. Il est question de
justice. Or, dans la centaine de questions posées aux détenus combien d'entre elles
sont statistiquement déséquilibrées ou inutiles comme nous l'avons vu
précédemment ? La représentation excessive de certaines populations dans les
condamnations, largement supérieure à leur ratio dans la population, ne donne guère
confiance dans ces algorithmes qui par principe sont récursifs puisqu'ils fondent leur
prévision sur des jugements passés et déjà biaisés.
La troisième hypothèse n'est donc pas respectée et le concepteur est contraint de
revoir la structuration de ses données. A la suite de ce travail il s'apercevra
probablement de l'apparition de nouveaux biais suivi d'une autre remise à jour et
ainsi de suite...
Nous constatons sans surprise que la prédiction est un art difficile surtout, comme
c'est le cas des RN, où le mode d'observation est un rétroviseur.
Si dans les applications anonymes et les processus industriels une certaine
extrapolation est concevable de par l'invariance des données, celles concernant des
personnes au sein d'une société en évolution est plus problématique.
Les écueils proviennent justement de l'évolution des mentalités et des
comportements qui rend discutable l'utilisation des archives.
Afin de s'affranchir de ce décalage, les acteurs du Net qui disposent de données en
temps réel peuvent entraîner des réseaux en continu (dans une débauche de Kilowatt
heure ! Mais on le verra, la sobriété n'est pas une valeur de l'IA). Dans cette réduction
du décalage entre le passé de la base d'apprentissage et le cas présent, le réseau
devient plus réactif avec comme projet un profilage permanent. Ils peuvent ainsi
« prévoir », disons deviner, si nous allons cliquer sur une publicité en fonction du
comportement que nous avons eu la veille.
Mais l'essentiel du problème réside surtout dans les biais induits par la
structuration des données ce qui est l'objet du chapitre suivant.
Ainsi, comme nous l'avons déjà noté, avant de se lancer, il convient de bien évaluer
les frontières de ces méthodes, autrement dit de ne pas leur demander la lune sachant
que par principe leurs limites sont celles d'une description fortuite, comme on voit
des formes dans les nuages.
Imaginons que depuis l'antiquité grecque on ait archivé le mouvement des
planètes. Louis XIV décide ensuite de créer un gros réseau de neurones s'appuyant
sur toutes ces données. Nous disposerions maintenant d'une belle IA qui décrirait le
système solaire sans avoir eu besoin ni de Newton ni d'Einstein et conceptuellement
nous en serions à l'âge de pierre.
Il est intéressant de disposer de very Big Data et d'une grande puissance de calcul,
mais il est déraisonnable quand on a un gros marteau de voir des clous partout.
Erreurs et biais
Une mesure physique est toujours accompagnée de son incertitude, de même
conviendrait-il d'évaluer les résultats en sortie des RN.
Ici, encore les RN se distinguent des méthodes numériques classiques.
Dans le cas où le résultat d'une application est faux ou jugé trop imprécis, le
développeur passe en mode debug. Il déroule le code pas à pas jusqu'à trouver
l'erreur, la corrige, compile le programme et tout repart jusqu'à la prochaine. Les
outils de correction à sa disposition sont désormais très élaborés, fruits de décennies
de casse-têtes et de crises de nerfs.
Par contre, quand un RN faillit, ceux qui l'ont conçu ne possèdent aucun moyen
pour le corriger car l'erreur est diffuse, éparpillée sur les milliers de coefficients fixés
au terme de l'apprentissage. Il faut alors revoir l'architecture du réseau ou bien, plus
vraisemblablement, refaire la base et l'apprentissage du réseau ce qui représente
souvent un travail énorme.
Les erreurs sont de deux types. Il y a les erreurs flagrantes : la substitution d'un
caractère dans une reconnaissance automatique par exemple. Ce type d'erreur révèle
un aspect gênant des RN qui ne savent pas s'abstenir. Un RN ne sait pas répondre : je
ne sais pas. Si je lui donne à reconnaître une lettre grecque, donc hors de la base
d'apprentissage, j'obtiendrais de toute façon une réponse, évidemment fausse, et
même avec un score de confiance honorable. Les RN ne connaissent pas le doute.
Il y a également les erreurs flagrantes et dramatiques : une cycliste tuée par une
voiture autonome en 2018 (sans que le véhicule ait fait la moindre manœuvre
d'évitement !?).
En second il y a les erreurs pernicieuses. Pourquoi cet adjectif ? Parce qu'il s'agit ici
de biais. Un biais, du verbe biaiser, est une erreur dont les conséquences ne sont pas
conscientes. On parle ainsi de biais cognitif pour parler d'un raisonnement faussé par
des préjugés ou des idées préconçues par exemple.
Résumons : les RN sont des algorithmes qui jugent du présent en se référant à des
états passés. Nous avons émis trois hypothèses pour que cette méthode fonctionne,
notamment que la base d'apprentissage soit objective, voici comment cela peut ne pas
être le cas, ou comment biaiser un réseau de neurones en toute discrétion.
Imaginons un RN qui prend une décision : oui/non, à propos de personnes. La
base d'apprentissage comporte des milliers d'individus. Par simplification imaginons
que chacun soit caractérisé par deux attributs : le sexe et l'âge. Les répartitions sont
équilibrées entre les femmes et les hommes et les âges sont uniformément
représentés.
Il se trouve qu'en fonction du critère de décision oui/non, la réponse par sexe est
clivante alors que les âges sont équitablement distribués. Autrement dit, les femmes
répondent de la même façon et inversement pour les hommes ; on dit que la variance
suivant ce critère est grande (la variance mesure l'étalement de la distribution). Lors
de l'apprentissage supervisé, le RN cherche à établir des différences, à trouver un
séparateur entre la classe oui et la classe non. Comme l'âge n'est pas discriminant, le
RN va s'appuyer sur l'autre attribut, celui qui est déséquilibré. Ensuite, en
exploitation, quand une personne est présentée au RN, c'est l'attribut du sexe qui est
prépondérant et détermine donc la réponse de la machine.
Il s'avère donc que si parmi les critères retenus afin de décrire un individu, l'un
d'eux (ou plusieurs) présente une distribution statistiquement déséquilibrée dans la
base d'apprentissage, il acquiert de ce fait une plus grande importance et croyant
juger en fonction de tous les critères, en réalité un seul compte et détermine la
réponse : les dés sont pipés. On appelle ceci un biais.
Cet effet est bien connu des statisticiens qui pondèrent les attributs en fonction de
leur variance (leur déséquilibre) pour contrebalancer le biais, mais la correction
semble moins appliquée par les concepteurs de RN.
En effet objectera-t-on, si un critère présente une distribution déséquilibrée c'est
peut être aussi une information objective, car après tout il existe des informations
plus importantes que d'autres et il n'y a donc pas lieu de normer les attributs en
fonction de leur variance.
Encore un exemple (purement imaginaire) : les filles sont sous-représentées dans
les filières informatiques. Imaginons un RN qui fasse l'orientation post-bac dont la
base d'apprentissage est historique avec autant, sinon plus de filles que de garçons.
Au sein de cette base on caractérise chaque étudiant par un jeu de critères (peut-
être une douzaine), dont le sexe.
Pour la classe de sortie filière informatique et pendant l'apprentissage supervisé,
on demande au RN de confirmer la sélection des candidats telle qu'elle s'est effectuée
les années précédentes. Pour chaque étudiant de la base, on lui indique la réponse
qu'il doit donner, admis ou non.
Or, le critère sexuel est déséquilibré, historiquement très excluant, comme le RN
cherche à établir une différence il s'appuie sur celui qui en présente le plus et ce
critère devient alors mécaniquement prépondérant car du point de vue du RN c'est
un bon séparateur. Durant l'apprentissage le calcul des coefficients tire profit du
critère le plus dispersé pour séparer la classe de sortie des autres, et ceci à notre insu
(si l’on n’est pas averti).
Une fois l'apprentissage terminé, en phase d'exploitation les filles seront alors
discriminées et orientées ailleurs. Le RN va donc reproduire les inégalités. D'autant
que les résultats présents viendront alimenter la base de l'année suivante et rien ne
changera dans une préoccupante récursivité.
Convient-il alors de pondérer ce critère et faire de la discrimination positive ? Pas
du tout répondront les conservateurs, car si les filles sont sous-représentées dans
cette discipline c'est sans doute pour une bonne raison et d'ailleurs il n'y en fort peu
dans la Silicon Valley etc, etc... Bref, sous le couvert de la neutralité technique,
l'utilisation d'une IA par un RN peut devenir très politique.
Pour les applications nominatives, nous constatons que les biais ne proviennent
pas tant des données elles-mêmes que de leur structuration sous la forme d'un jeu de
critères dont le responsable est le concepteur du réseau. Il n'y a donc pas d'objectivité
scientifique dans ce domaine car il n'y a pas vraiment d'indépendance entre le sujet et
l'objet de son étude. Les données brutes ne parlent pas d'elles-mêmes, elles ne
cachent aucune vérité qu'une méthode, aussi élaborée soit-elle, révélerait comme par
magie. Il existe en réalité une conception préalable de ce que l'on cherche qui conduit
à leur faire dire ce que l'on veut. Un RN n'est pas un instrument de mesure comme un
microscope, l'algorithme décrit ce que son auteur y a mis et ne lui montre que ses
propres empreintes.
La question des biais dans les bases d'apprentissage est donc très grave. Même
avec un soin méticuleux et honnête apporté à la structuration des données, les biais
qui surviendront ne seront visibles qu'en exploitation. Le plus dangereux serait de
l'ignorer, de croire sur parole un algorithme telle la pythie. Si l'on y prend garde les
RN seront le miroir de nos conservatismes.
Alors soit les décideurs font preuve de naïveté en prêtant aux RN, sous le charme
d'une sorte de pensée magique, des facultés qu'ils n'ont pas et vont au-devant de
désillusions, soit il y a manipulation et sous couvert d'impartialité technique il y a en
réalité des intentions.
A la suite de ces remarques, il est tout à fait étonnant de remarquer qu'une
méthode présentée comme disruptive, pour reprendre un terme à la mode, se révèle
au contraire et par principe, conservatrice. Sous un vernis technico-scientifique high-
tech il serait paradoxal que dans le domaine social les RN mènent à l'uniformité et au
conformisme.

Intelligence Artificielle et consommation énergétique


Combien consomme le cerveau d'une abeille, gros comme une tête d'épingle qui lui
permet de voler sur des kilomètres, de s'orienter, choisir les fleurs, revenir chez elle et
de communiquer avec ses sœurs ?
Une des raisons du développement de la vie sur terre est sans doute à rechercher
dans cette extrême économie de moyens, cette sobriété énergétique.
Maintenant que penser d'une méthode qui se poserait en alternative à cette
intelligence et qui consommerait dix mille fois plus pour faire cent fois moins bien ?
S'il faut des millions d'images annotées par des milliers de gens, puis une puissance
de calcul gigantesque alimentée par une centrale nucléaire ou deux à charbon pour
reconnaître un chat, peut-on s'en vanter ?
La boulimie de l'IA est une grave limite à son expansion. La consommation
énergétique du numérique augmente de 8,5% chaque année et pourrait atteindre
20% (scénario modéré) ou 50% (scénario pessimiste) en 2030, et être ainsi multipliée
par 10 en 20 ans. Vu le mix électrique mondial, la part d’émissions de gaz à effet de
serre (GES) du numérique, dont l'IA, va ainsi passer de 2,5% en 2015 à 5% en 2020
(2,5 Gt) (rapport Villani 2018).
Certes, on n'arrête pas le progrès, mais à ce rythme-là il s'arrêtera tout seul !
D'un autre côté, on est en droit d'attendre que l'IA permette d'optimiser la
consommation d'énergie des infrastructures, de la logistique, de l'industrie et même
des particuliers. Mais quel est le ratio de ces deux effets contraires ? De plus les
économies ne sont pour l'instant pas avérées.
La boulimie est un vilain défaut de l'IA. Si l'on souhaite en obtenir à terme le
meilleur, il est impératif qu'elle se mette au régime car qui peut aujourd'hui parier sur
l'expansion d'une technologie obèse ?

Conséquences sociales des intelligences artificielles à


base de réseaux de neurones
En dehors du marketing et du profilage client, l'enthousiasme des entreprises pour
l'IA traduit leurs espoirs d'en tirer une meilleure productivité en interne par
l'automatisation des tâches. Cette tendance s'inscrit dans une longue tradition mais
touche désormais des métiers nouveaux jusqu'ici irremplaçables par une machine.
L'IA en entreprise tendrait donc à supprimer des emplois et à créer de l'inquiétude.
Les adeptes de Schumpeter et de sa destruction créatrice argueront que de
nouveaux métiers, de nouveaux emplois verront le jour, que c'est une histoire
classique et une simple question d'ajustement de la société. Ainsi le Syntec évalue
qu'en France, 7 500 postes seront à pourvoir dans le domaine de l’intelligence
artificielle et des data sciences sur la période 2019-2023 pour une population
d’informaticiens estimée entre 11 200 et 21 000 personnes.
Par contre il existe une majorité pour prévoir que vers 2030; 30 à 35% des emplois
seront menacés. Beaucoup de salariés doivent donc être prêt à acquérir de nouvelles
compétences pour s'adapter ou bien être marginalisés.
Les prospectives se contredisent, soufflent le chaud et l'effroi. Les entreprises du
numérique nous promettent des lendemains qui chantent mais d'autres un futur de
désolation où la robotisation de tous les emplois et de toutes les tâches, qualifiées ou
non, rendrait en partie inutile le système éducatif car il serait plus rentable de
construire des robots que d'enseigner des compétences. Personne ne semble en
mesure, (pas même une IA !) de prévoir ne serait-ce qu'un avenir proche. Cette
incertitude est dommageable pour beaucoup d'entreprises et surtout pour des états
qui investissent massivement par crainte d'être dépassés, dans une discipline dont ils
ne connaissent pas le devenir tout en ignorant comment préparer la population aux
bouleversements supputés mais mal identifiés.
Car on pourrait également envisager qu'avec un manque de résultats tangibles,
notamment dans le marketing, l'engouement retombe, conjugué avec une moindre
puissance des GAFA dont le modèle économique basé sur la publicité serait mis à
mal, une suspicion générale à leur égard doublée de régulations plus sévères, on n'en
revienne alors à une utilisation plus modeste des IA par apprentissage. Celles-ci
prendraient alors le statut d'un outil statistique remarquable certes, mais parmi
d'autres.
Il y a dix ans, Google présentait sa Google-car en promettant sous peu le véhicule
autonome. Dix ans et quelques milliards plus tard (évalué à 80), une éternité dans le
monde digital, les constructeurs commencent à se raviser devant le poids des
investissements et la légèreté des promesses, et réalisent que ce n'est pas pour
demain et que la voiture ne sera pas vraiment autonome. (Les promoteurs des
véhicules autonomes attendent avec impatience la 5G, car la voiture devant une
situation complexe envoie à un serveur distant la configuration, celui-ci donne en
retour la conduite à tenir dans un temps ultra court ; d'où la nécessité de disposer
d'un réseau à haut débit, super rapide. Parfait, mais où est passée l'autonomie ?
Devant une situation d'urgence, dois-je faire confiance à un serveur qui répond de
l'autre bout du monde ?).
De fait, ce sont les GAFA et leur vision de notre avenir qui imposent les domaines
de recherche et dictent leur agenda.
Nous parlons de la création de nouveaux emplois très qualifiés mais pour être
complet il faut en évoquer d'autres souvent passés sous silence, à savoir l'industrie du
clic. En effet, rien ne sert d'avoir des bases de données si elles ne sont pas labellisées
en vue de l'apprentissage qui n'est pas automatique du tout !
Nous avons vu que pendant la phase d'apprentissage supervisé on présente au
réseau un exemple et on compare sa sortie avec le résultat attendu afin qu'il corrige
son erreur en ajustant ses coefficients (rétro-propagation du gradient). Mais il faut
bien associer l'exemple avec le bon résultat ! Cette association est effectuée en amont
et à la main d'où l'expression d'industrie du clic. C'est un travail gigantesque, un
travail de l'ombre effectué dans le monde par des millions de petites mains payées à
la tâche par les grandes entreprises du numérique (Amazon, comme les autres, a sa
plate- forme dédiée : Amazon Mechanical Turk). L'industrie du digital au sens
propre. En France on évalue à plusieurs dizaines de milliers les personnes qui
labellisent des images, des textes, traduisent et classent des données pour nourrir les
réseaux de neurones.
On constate donc que L'IA crée des emplois aux deux extrêmes des qualifications :
le data scientist et le data des coulisses, les premiers de cordée et les premiers de
corvée !
Ce qu'il y a de bien avec la destruction créatrice c'est que ses adeptes ont toujours à
moitié raison ; car pour la destruction c'est sûr, quant à la création on verra plus tard.
Il est plaisant de noter que les adeptes de l'IA résonnent comme un réseau de
neurones, ils regardent en arrière l'évolution économique de l'occident : la révolution
industrielle de la machine à vapeur, de l'électricité ou l'informatique des années 90,
en déduisent que la société, bon an mal an, de grès ou de force, s'adapte, s'ajuste et
qu'il en ira donc de même à l'avenir. Il y a une agaçante contradiction chez ceux qui se
posent en novateurs tout en croyant au fond que les choses ne change pas. Pourtant la
révolution numérique semble différer notablement de celles qui l'ont précédée.
Quand la révolution industrielle redistribuait la richesse et engendrait la démocratie,
celle que nous vivons, il faut bien le constater pour l'instant, concentre les profits et
ses méthodes contredisent les valeurs démocratiques.
Pour clore cette partie, prenons la place d'un citoyen européen, français, attaché
aux valeurs de la république et souhaitant que ses enfants vivent en bonne santé dans
une démocratie. Penchons-nous sur ces deux derniers termes.
Il apparaît que notre santé ait beaucoup à espérer des techniques neuronales car il
s'agit véritablement d'un progrès, mot à employer avec prudence, mais qui semble ici
approprié. Nous avons vu que dans toutes les disciplines : imagerie, pharmacologie,
épidémiologie… les RN apportent une puissance d'analyse et d'association
absolument bénéfique. (On peut consulter ici le site de l'INSERM pour une étude plus
détaillée).
On peut aussi croire que ces méthodes seront fécondes pour beaucoup de
problèmes d'optimisation des ressources, environnement, agriculture ou logistique,
et leur apport est une belle promesse.
En revanche, pour la démocratie, force est de constater que dans l'état actuel, le
citoyen n'a rien à attendre de ces techniques quand elles sont nominatives, hormis
l'instauration d'un monde quasi-orwellien. On en arrive à se demander si ces
méthodes statistiques consommatrices d'immenses bases de données nominatives
restent compatibles avec le libre arbitre, le sens critique et donc un certain
humanisme.
Suivant l'exemple des lois sur la bioéthique, il semble impératif que des lois
viennent encadrer des pratiques de surveillance et de profilage inquisitrices tant de la
part des états que des entreprises privées. Sous l'impératif de la sécurité, les premiers
tendent vers un contrôle sans cesse plus étroit des comportements quand les
secondes font exactement la même chose avec plus de moyens afin que l'IA leur
amène un surcroît d'efficacité économique grâce à un marketing ciblé sur l'individu
en tant que simple unité de consommation.
Au terme de cet aperçu, on comprend que les enjeux de l'IA dépasse largement
l'aspect technique et comme les quelques révolutions qui l'ont précédée elle remet en
cause les organisations sociales et les fondements démocratiques de nos sociétés.
L'Europe avec le RGPD, la France avec la CNIL s'emploient à défendre d'autres
valeurs que la pure efficacité économique ou la volonté de pouvoir. Si elle cède à
l'injonction de l'efficacité elle abdique de fait sa souveraineté au profit des géants
américains de l'internet à qui elle offre ses citoyens en pâture ; si elle abandonne ses
valeurs humanistes elle renouera avec les heures sombres de son histoire.
Conceptions philosophiques des promoteurs de
l'Intelligence Artificielle
Après cette discussion critique sur l'IA et ses conséquences, il est temps de donner
la parole à un acteur de ces méthodes qui y voit une promesse, un progrès vers une
autre société.
« Conceptions philosophiques » semblent être prétentieuses, mais ce sont les
promoteurs de l'IA eux-mêmes qui exposent leurs conceptions sur l'avenir de
l'humanité tel qu'ils la souhaitent et la préparent.
Mettons-nous donc à la place d'un ingénieur de la Silicon Valley : disons un
responsable de recherche en IA spécialiste des réseaux de neurones.
Cet homme croit, il croit que la technologie est susceptible de soulager la société
des maux qui l'accablent. Ceux-ci trouvent leur origine dans la désorganisation de
sociétés humaines de plus en plus complexes et leur inexorable tendance au désordre,
combattu par un empilement de lois et de règles qui entravent plutôt qu'elles
n'harmonisent. En un mot : le gouvernement des hommes est inefficace. Ainsi la
solution ne peut pas être politique, ne venant ni d'un gouvernement démocratique ni
même d'un régime autoritaire, les deux ayant prouvé leur incapacité.
La remise en ordre de ces systèmes complexes demande une rationalité dont sont
incapables les régimes démocratiques empêtrés dans leurs débats sans fin, déchirés
par des querelles intestines stériles avec, au pire, le déclenchement de conflits qui
précipitent les hommes dans le malheur.
La solution ne peut donc être que rationnelle, optimale et, toujours suivant le
même vocable : efficace. Elle doit s'affranchir des passions humaines pour atteindre à
l'objectivité scientifique. En confiant les décisions communes à des experts, ou encore
mieux désormais à une intelligence artificielle, les sociétés humaines se libéreraient
de leurs contradiction, de leurs préjugés et de la violence qui en découlent parvenant
ainsi à l'harmonie, à une sorte de paradis sur terre sans même avoir besoin de
mourir.
On objectera que le gouvernement des hommes est plus compliqué que de gérer la
durée des feux à un carrefour et que les ressorts profonds animant les sociétés, en
admettant qu'ils existent, nous sont inconnus, voire inaccessibles.
C'est là que réside l'avantage décisif des IA par réseaux de neurones puisque,
comme nous l'avons vu, il est inutile de connaître ces mécanismes primordiaux car
une base de données fondée sur l'histoire et l'expérience dans chaque domaine,
suffirait à entraîner un RN afin, qu'au présent, celui-ci prenne toujours la meilleure
décision. Dans une telle organisation la réponse serait une vérité : la vérité
indiscutable, sans bla-bla.
Nous nous garderons bien de polémiquer avec notre homme dont les convictions
sont si solides (on notera toutefois qu'il a les convictions de ses intérêts car ses
compétences lui permettent de vivre très confortablement avec ses collègues dans sa
vallée), et nous en laisseront l'initiative au lecteur.
Il est cependant intéressant d'intégrer ce courant de pensée dans une filiation
historique car il n'y a rien là de très nouveau, seul la puissance des moyens d'y
parvenir le sont.
Le scientisme est l'idéologie selon laquelle tous les problèmes qui concernent
l'humanité pourraient être réglés suivant le paradigme de la méthode scientifique.
Autrement dit c'est l'idée que toute connaissance est issue de l'expérience. Le
scientisme croit que « l'esprit et les méthodes scientifiques doivent être étendues à
tous les domaines de la vie intellectuelle et morale ». Son espoir et même sa certitude,
est que les progrès de la science supprimeront toute la part d’inconnu dans le monde
et dans l’homme. Le postula est donc que la connaissance totale du monde est
possible et accessible aux hommes. Rappelons le mot de Marcellin Berthelot, grand
chimiste français, de la fin du XIX siècle qui n'était pas à priori un demeuré, s'écriant
en 1885 :

« le monde aujourd’hui est sans mystère ».


« Organiser scientifiquement l'humanité, tel est donc le dernier mot de la science
moderne, telle est son audacieuse mais légitime prétention. » Ernest Renan (1823-
1892).

Remplaçons scientifiquement ou science par technologiquement ou technique et


nous aurons la profession de foi de la plupart des promoteurs de l'IA.
On comprend les positions du positivisme d'Auguste Comte (1798-1857) et du
scientisme d'Ernest Renan qui en découle, en les considérant comme une réaction au
mysticisme et à la métaphysique des périodes précédentes. Mais depuis, le terme de
scientisme est devenu péjoratif et on ne comprend plus guère les positions radicales
des tenants de l'IA.
Certes, les ingénieurs de la Silicon Valley ne sont pas connus pour leur modestie, et
sans doute pensent-ils que la préhistoire finit en l'an 2000, pourtant ils tireraient
profit d'une meilleure connaissance de l'histoire des sciences afin de prendre le recul
nécessaire et relativiser ainsi l'importance de leurs découvertes pour s'éviter le
ridicule d'en faire l'avenir de l'humanité.
Car l'histoire de la science du vingtième siècle est passionnante en ceci qu'elle fait
elle-même le deuil d'une connaissance exhaustive du monde.
Nous développons ci-dessous des considérations sur le rôle de la mesure dans le
cadre de la physique du vingtième siècle car celle-ci ébranle fortement le principe
d'objectivité tel qu'il nous est familier. Or celui-ci est au fondement de l'IA car elle
considère que les données, donc des mesures faites en grand nombre, contiennent
une vérité que des méthodes statistiques puissantes comme les RN sont susceptibles
de révéler. Cette conception repose entièrement sur le caractère objectif des données,
c'est à dire leur indépendance envers ceux qui les ont collectées et les exploitent.
Sinon, bien sûr le concepteur du système devient à la fois juge et partie et la « vérité »
extraite dégénère en intention.
En effet, l'avènement de la mécanique quantique conduit à une remise en cause
profonde des fondements de la connaissance. Celle-ci ne peut plus être considérée
indépendamment de celui qui la recherche. La mesure même qu'un observateur
effectue fige le système étudié dans un de ses multiples états possibles. L'état
précédant la mesure demeure alors inaccessible, indéfini. Heisenberg, par exemple,
ira jusqu’à prétendre qu’au moment de la mesure « l’observateur lui-même fait le
choix, parce que ce n’est qu’au moment où l’observation est faite que le « choix » est
devenu une réalité physique» (Heisenberg, conseil Solvey, 1927). Selon lui, c’est
l’observation qui crée le fait que les propriétés du système quantique deviennent
définies. Ainsi, on ne peut pas parler de la position d’un système quantique de façon
générale : les caractéristiques des objets sont soumises au sujet qui les mesure. C’est
l’acte d’observation consciente qui fixe la mesure (illustré par l'expérience des
doubles fentes dans les interférences lumineuses. En l'absence d'observation le
photon est une onde qui devient particule au moment de l'acte conscient de la
mesure). Autrement dit, l'acte d'observation est créateur d'une certaine réalité et non
passif comme dans la physique classique. En résumé, dans le cadre de la mécanique
quantique, il n'y a pas d'objet en soi avec ses caractéristiques propres, mais plutôt une
interaction entre l'observateur et un objet dont les propriétés n'existent que lors de la
mesure : il n'y a plus de stricte objectivité.
Bien sûr, on objectera d'abord que la mécanique quantique n'est qu'une théorie ne
reflétant pas forcément la réalité et ensuite qu'elle traite de phénomènes à l'échelle
atomique. Une théorie certes, mais dont les prévisions ont toujours été vérifiées et
dont les applications sont innombrables et notamment au sein de tous les ordinateurs
de la Tech. Ensuite ce n'est pas tant l'échelle de l'analyse qui importe mais plutôt
l'idée d'une remise en question d'un principe d'objectivité qui semble désormais bien
naïf. Et c'est également cette question qui se pose, à notre échelle, dans toutes les
sciences humaines où il est si délicat de mesurer sans biais les comportements
humains. C'est ce nouveau questionnement que la physique du vingtième siècle nous
pose et que les ingénieurs utilisateurs de l'IA devraient méditer.
Pour finir il faudrait aussi évoquer la remarque de Charles Darwin (1809 – 1882) à
propos de sa théorie de l'évolution des espèces. Il précise que l'évolution des sociétés
humaines n'obéit pas aux règles de la sélection naturelle car justement il n'y a pas ce
découplage entre la pression de l'environnement et l'espèce sur laquelle elle s'exerce
car l'homme rétroagit sur celui-ci et invalide la théorie. C'est ici une autre forme de
l'interdépendance entre le sujet, ici la loi, et l'objet, l'espèce humaine.
Si l'on risque une conclusion au terme de ces lignes, on pourrait dire que
l'utilisation d'une méthode statistique comme les RN doit être soumise au principe
d'objectivité.
Si les données sont issues de mesures physiques brutes (OCR, imagerie médicale),
les RN sont, à priori (avec quelques prudences sur la neutralité des capteurs), une
remarquable méthode pour en extraire des informations invisibles à nos yeux, en
revanche, si les données doivent être restructurées, organisées et donc choisies, alors
il sera impossible d'obtenir des résultats non biaisés.
Cette conclusion n'exclue évidemment pas l'utilisation des RN pour des données
restructurées, mais à la condition de connaître les biais et de les assumer. Ceci
implique que ces méthodes doivent se soumettre, comme toute machine industrielle,
à un processus de certification. Ces qualifications, faites par des organismes reconnus
et indépendants (le LNE : laboratoire national de métrologie y a compétence),
seraient alors une garantie pour les utilisateurs qui sinon peuvent légitimement se
sentir victimes de décisions arbitraires.
Deuxième partie : une approche mathématique
des réseaux de neurones

Introduction
On présente souvent les réseaux de neurones comme des boîtes noires où, à l'issue
d'un apprentissage, des connexions se sont établies dans le silicium aussi
mystérieusement que dans le cerveau d'une grenouille avec au final des résultats
épatants. Cette représentation tient plus de la pensée magique que de la lucidité et,
pour une personne normalement curieuse, elle est difficilement acceptable. Nous ne
nous dispenserons donc pas de soulever le capot.
Il est rare qu'une méthode émergente soit totalement neuve. Il existe des filiations
avec des théories ou des tentatives anciennes qui n'avaient pas trouvé, faute d'intérêt
ou de moyens, d'expression concrète. Il advient un jour où la convergence de facteurs
externes mène ces méthodes à leur maturité et leur utilisation à grande échelle.
Les réseaux de neurones n'échappent pas à cette observation. Les facteurs
permettant leur utilisation actuelle sont : la puissance de calcul, les données
disponibles : les Big Data, et l'existence de grandes entreprises assez puissantes pour
mener à bien leur industrialisation.
Afin d'ancrer les RN dans la continuité d'un savoir éprouvé, nous insisterons donc
sur une analyse mathématique reposant sur des principes connus.
Les RN ont deux objectifs : faire de la régression et de la classification. Ces deux
applications sont liées dans leur principe.
Il s'agit fondamentalement de joindre par une courbe une série de mesures.
Chacune possède plusieurs éléments, ce sont les variables car elles diffèrent pour
chaque point de mesure. Ce sont, au fond, ses coordonnées, comme un point de
l'espace euclidien en a trois. Ce nombre fixe la dimension de l'espace de
représentation.
Une suite de mesures, c'est à dire de points dans cet espace, dessine,
éventuellement et si elle existe, une relation entre les variables que l'on peut imaginer
comme une trajectoire formalisable par une fonction analytique (qui se traduit par
une expression algébrique). Autrement dit, il s'agit de passer d'une série discontinue
à une représentation continue.
C'est cette fonction que l'on cherche car son existence permet ensuite d'obtenir un
résultat en tout point du domaine de définition, c'est à dire hors des points de mesure
qui sont peu nombreux car il faut imaginer l'espace de représentation
majoritairement constitué de zones aveugles.
Cette expression n'aura pas de signification physique car il ne s'agit nullement ici
d'expliquer ou de comprendre un phénomène. C'est une pure description sans autre
ambition, autrement dit une formulation phénoménologique.
Avant d'être utilisable, cet outil empirique, de par son principe même, demande un
apprentissage fait à partir de mesures déjà effectuées afin de fixer ses paramètres de
fonctionnement, c'est à dire ceux de la fonction analytique, souvent en très grands
nombres.
Quand le nombre de dimensions est important et que les relations entre les
variables ne sont pas maîtrisées ou explicables, les RN représentent alors une
solution possible ; en régression comme en classification.
Quelques méthodes pour ajuster une série de
mesures, ou l'art de la régression
Il faut prendre ici le terme de régression au pied de la lettre, c'est à dire agir de
manière à obtenir une représentation réduite, simplifiée par rapport à celle de l'état
initial.
Considérons les graphiques ci-dessous. En toute rigueur on peut en faire deux
interprétations.
Soit il s'agit en abscisse d'une variable et en ordonnée d'une mesure et le problème
est à une dimension.
Ou bien il s'agit de la relation entre deux variables d'une même mesure et la
dimension du problème est double.
Du premier point de vue, cela peut être en entrée (en abscisse) : le temps ou une
variable d'espace et en sortie (ordonnée) une température ou un temps de parcours
sur le périphérique...
Dans le second, on considère que chaque point représente un état qui dépend de
deux variables dont les relations sont décrites par le graphique. Mais dans ce cas il
existe une variable cachée, car les mesures sont successives, au cours du temps le plus
souvent, et celle-ci représente une troisième variable implicite. Imaginons ainsi la
trajectoire d'un ballon. Les mesures successives sont deux coordonnées de l'espace :
la hauteur et la distance qui sont en relation (c'est une parabole), le problème est à
deux dimensions et les points représentent des états au cours du temps.
Dans nos raisonnements futurs, c'est cette dernière interprétation qui nous
concernera.
Les données sont numériques et discrètes (mais pas forcément échantillonnées car
non nécessairement régulièrement espacées). La courbe représentée est donc
l'enveloppe d'une suite de points. Par simplification, la relation est ici
bidimensionnelle bien que les RN trouvent leur utilité dans des problèmes de grande
dimension (disons, supérieure à trois). Il faut donc plutôt imaginer des relations en
plusieurs dimensions dessinant des hyper-courbes.
La question posée est de l'ordre de l'interpolation. Nous disposons d'un certain
nombre de points ; quelle est la valeur de la mesure entre ceux-ci ? Comme on l'a
noté, il s'agit de passer d'une suite discrète à une représentation continue.

Pour faire court, nous sélectionnerons d'abord quatre méthodes :


1 - La ligne brisée
2 - Les polynômes de Lagrange
3 - L'approximation par les moindres carrés
4 - Le développement en série de Fourier

La première a l'avantage de la simplicité. Il suffit de joindre chaque point par un


segment de droite. C'est une interpolation linéaire, une bonne méthode pourvu que
les points ne soient pas trop éloignés les uns des autres, sinon l'approximation risque
d'être grossière.
La seconde stipule que par N points il passe un polynôme de degrés N-1 (par deux
points passe une droite, trois une parabole). Si nous disposons de 100 points, on sait
calculer le polynôme de degrés 99 qui va passer par chacun d'entre eux. Pas
franchement économique !
De plus, souhaitons-nous que notre courbe passe effectivement par tous les
points ? N'oublions pas qu'une mesure est toujours entachée d'erreur, est-il utile de la
reproduire exactement et ne convient-il pas plutôt de lisser les mesures ? (les petites
oscillations sur la courbe sont-elles pertinentes ou ne traduisent-elles pas plutôt des
incertitudes ?).
Ni la ligne brisée ni les polynômes de Lagrange ne sont donc une solution
souhaitable.
La troisième méthode est universellement utilisée. Elle consiste aussi à calculer un
polynôme mais de degrés bien inférieurs (pluriel ?) à celui de Lagrange. On obtiendra
donc un effet de lissage et une représentation algébrique assez compacte. A titre
d'exemple :

s(x) = a.x4 + b.x3 + c.x2 + d.x + e

Le calcul des coefficients a, b, c, d et e ; est conduit par minimisation de l'erreur


quadratique entre les données et le polynôme (Gauss 1777-1855).
Nous avons pris ici un degré 4, mais il faut choisir à priori le meilleur degré du
polynôme, sur quel critère ? D'autre part, passé le degré trois, le calcul des
coefficients se montre très sensible aux incertitudes de mesure, on observe une
grande instabilité qui ne donne pas confiance...
Signalons au passage qu'il existe d'autres méthodes d'ajustement polynomial. Les
polynômes de Legendre par exemple qui permettent un développement en série du
signal sur une base de polynômes orthogonaux, exactement comme l'analyse en série
de Fourier que nous détaillons ci-dessous. Mais ces méthodes s'avèrent en réalité très
peu pratiques.
Nous allons maintenant nous appesantir sur la quatrième méthode car l'analyse de
Fourier (1768–1830) est fondatrice. Elle inaugure deux siècles de recherches
mathématiques. Et désormais Fourier est partout ; toute l'industrie numérique utilise
cette méthode : le son, l'image, le traitement des signaux, l’acoustique, l'optique etc...
Les réseaux de neurones en sont une ramification et leur compréhension découle
d'une bonne connaissance des principes de l'analyse de Fourier.

Naissance des séries de Fourier


Le développement en série de Fourier possède un statut particulier car, plutôt
qu'un pur outil mathématique, il traduit un comportement des phénomènes naturels.
D'ailleurs, Joseph Fourier considérait les mathématiques comme un instrument au
service de l'explication des phénomènes de la nature et non comme une discipline en
soi. Ainsi son propos initial est-il d'étudier la diffusion de la chaleur dans les solides.
Il se trouve que celle-ci nécessite la résolution d'une équation différentielle, ce qui le
conduira chemin faisant à sa découverte lumineuse.

« L'étude approfondie de la nature est la source la plus féconde des


découvertes mathématiques. Non seulement cette étude, en offrant aux
recherches un but déterminé, a l'avantage d'exclure les questions vagues et les
calculs sans issue; elle est encore un moyen assuré de former l'analyse elle-même, et
d'en découvrir les éléments qu'il nous importe le plus de connaître, et que cette
science doit toujours conserver: ces éléments fondamentaux sont ceux qui se
reproduisent dans tous les effets naturels. »
Fourier, Discours Préliminaire à la Théorie Analytique de la Chaleur (1822)

Et plus précisément :

« La question de la propagation de la chaleur consiste à déterminer quelle est la


température de chaque point d'un corps, à un instant donné, en supposant que les
températures initiales sont connues. »
Fourier, Théorie Analytique de la Chaleur, ch. I, sect. 1 (1822)

En voici un résumé historique.


Fourier établit dans un premier temps l'équation de diffusion de la chaleur dans un
solide. Il prend d'abord comme dispositif expérimental une lame métallique de
longueur infinie à droite, dont le bord gauche est maintenu à une température plus
élevée que les bords infinis et dont la température globale est stationnaire, donc
indépendante du temps. Il étudie la distribution de la température dans les deux
dimensions.
Nous prendrons ici un dispositif un peu différent qui fait intervenir une évolution
dans le temps. Soit une barre métallique en une dimension, chauffée un instant à une
extrémité. L'origine du temps est à l'arrêt du chauffage. On veut ensuite déterminer
l'évolution de la température en tout point de la barre et au cours du temps en
connaissant seulement les conditions initiales. Comme tout ça est animé, il s'agit
d'une équation différentielle et plus précisément d'une équation aux dérivées
partielles, soit tout calcul fait (le mener n'est pas notre propos) :
ou

où le delta est le Laplacien de T, la température qui dépend à la fois du temps et de


l'endroit considéré.
C'est une équation aux dérivées partielles à deux variables qui se lit de la manière
suivante :
En un point, la variation de la température au cours du temps (le terme de gauche)
est proportionnelle à l'écart de température entre le point considéré et son
environnement (le terme de droite. La dérivée seconde, appelée aussi Laplacien,
mesure l'écart en x avec son entourage). Le coefficient de proportionnalité, D, est
caractéristique du solide (un métal conduit bien mieux la chaleur qu'un isolant), c'est
le coefficient de diffusion.
A l'époque on ne sait pas intégrer cette équation. C'est alors que Fourier à l'idée de
rechercher une solution de la forme :

avec N assez grand et L est la longueur de la barre. Il sépare donc la variable de


temps en an(t) de celle de distance sous la forme d'une série de cosinus. En anticipant
un peu, notons que dans ce cas il n'y a pas de termes en sinus et on verra pourquoi.
Nous ne saurons jamais pourquoi Joseph Fourier introduit ici ces séries
trigonométriques dans un cas où on ne les attend pas vraiment.
Comme Daniel Bernouilli l'avait déjà noté en 1748, soixante-dix ans auparavant,
elles semblent bien plus intuitives dans le phénomène des cordes vibrantes que dans
la diffusion de la chaleur.
Remarquons toutefois, que l'équation aux dérivées partielles des cordes vibrantes
est assez voisine de celle de la propagation de la chaleur soit :

où y représente l'amplitude de la vibration. Notons au passage que la dérivée


première dans l'équation de la chaleur signe l'irréversibilité de sa diffusion du chaud
vers le froid et jamais l'inverse.
D'autre part, Fourier connaissait certainement les travaux de Bernouilli et la
controverse avec Euler et d'Alembert un demi-siècle plus tôt. Sans doute ces
observations le conduisent-il à sa géniale intuition.
Reprenant l'équation différentielle, on calcule alors facilement la dérivée par
rapport au temps de la température soit :
puis la dérivée première par rapport à la position qui physiquement représente le
flux de chaleur :

et ensuite la dérivée seconde :

On respecte ainsi les conditions aux limites, à savoir que le flux de chaleur est nul
aux deux extrémités (c'est la raison pour laquelle les termes en sinus sont nuls) :

Replaçons nos termes dans l'équation aux dérivées partielles :

qui est satisfaite si :

Équation différentielle que l'on sait résoudre et donc :

Attention, les zn sont maintenant des constantes. Les solutions de l'équation de


diffusion de la chaleur sont donc :
on souhaite N pas trop grand. On note une séparation des fonctions de temps et de
position. Nous ne connaissons pas pour l'instant les coefficients zn qui seront calculés
grâce aux conditions initiales.
Au temps t = 0, la température le long de la barre, chaude à une extrémité et donc
froide à l'autre, est représentée par une fonction décroissante connue puisque c'est
l'état initial, dont le développement en série est :

n sont multipliés par


l'exponentielle négative, qui joue le rôle d'un coefficient d'atténuation dans le temps,
et tendent donc vers 0. Au bout d'un temps assez long tous les termes de la série
s'annulent, sauf pour n=0. Nous réécrirons donc les solutions plutôt sous la forme :

ainsi :

et z0 représente donc la température d'équilibre.


Résumons et précisons le développement en cosinus qui apparaît quelque peu
arbitraire.
Supposons que la fonction F(x, t) représentant la mesure puisse être développée en
séries de fonctions élémentaires paramétrables. Soit, sans préjuger de leur expression
analytique ni de la convergence de la série :

A un instant donné la fonction de position s'écrit :


Nous pouvons interpréter cette égalité comme la décomposition de F(x) sur des
fonctions fn qui, moyennant quelques précautions, constitueraient une base,
exactement comme le serait un vecteur sur une base vectorielle. De ce point de vue,
les coefficients an deviennent les « coordonnées » de la fonction F(x) dans cette base
fonctionnelle. Dès lors, on peut imaginer la fonction F en mouvement dans cet espace
et ses « coordonnées » dépendent alors du temps alors que les fn, la base, demeurent
invariables. D'où la séparation des variables d'espace et de temps et l'équation de
F(x,t).
L'équation aux dérivées partielles s'écrit alors en omettant les signes somme :

En posant D=1 par simplification.


On intègre par rapport au temps :
(En notant pour alléger la notation, les dérivés par rapport à x : f', f''').
On a donc l'expression générale de notre fonction sous la forme :

Comme pour t tendant vers l'infini, F(x,infini) tend vers la température d'équilibre,
les exponentielles jouent le rôle de coefficients d'atténuation afin d'obtenir finalement
une constante. Nous en déduisons d'abord que l'exponentielle doit être négative.
Ensuite ces coefficients, qui décrivent l'évolution de la température au cours du
temps, ne doivent pas dépendre de la base dans laquelle elle est décrite, exactement
comme une trajectoire est indépendante de la base dans laquelle on l'exprime car le
phénomène existe en lui-même et le référentiel n'en est qu'une des traductions.
Ces deux observations nous conduisent vers des fonctions fn de la forme :

car alors :

et en remplaçant :

ou encore :
Qui rend bien compte que lorsque tend vers l'infini la fonction F tend vers la
température d'équilibre z0.
Mais par ailleurs, comme nous le savons depuis Euler, un demi-siècle avant
Fourier :

Et nous retrouvons ainsi le développement en série trigonométrique cher à


Fourier.
D'après les conditions aux limites les flux sont nuls aux extrémités il n'y a donc pas
de termes en sinus, (le contraire des cordes vibrantes), sinon la dérivée de F par
rapport à x représentant le flux de chaleur, comprendrait des termes en cosinus non
nuls en x=0 et x=L.
Nous concluons donc que la seule solution pour un barreau de longueur L s'écrit
alors conformément à l'énoncé de Fourier :

où z0 est la température finale.


Des esprits sourcilleux pourraient formuler trois remarques.
D'abord c'est une solution certes, mais est-ce la seule ?
Ensuite la série converge-t-elle raisonnablement vite ? (Fourrier en est persuadé !
Mais cette question sera débattue pendant des siècles !).
Et enfin il nous faut encore calculer les coefficients zn.

Calcul des coefficients : la transformée de Fourier


A présent, délaissant un moment son problème de physique pour se saisir de son
nouvel outil et poussé par sa géniale intuition, Fourier va étudier la possibilité de
représenter n'importe quelle fonction par un développement en série
trigonométrique.
Il pense que la somme, disons la superposition des cosinus et sinus de fréquence
multiple et d'amplitude variable peut reproduire toute les formes de courbes.
Plus prosaïquement il s'agit d'un jeu de construction à l'aide d'éléments semblables
mais homothétiques dont la combinaison reproduira une architecture complexe. Le
jeu consiste donc à trouver la bonne combinaison et donc à calculer l'amplitude de
chaque fonction de base. Bien sûr ces fonctions élémentaires ne sont pas arbitraires
mais doivent tout au contraire vérifier certaines propriétés Citons Fourier dans un de
ses premiers écrits :
« Il résulte de mes recherches sur cet objet que les fonctions arbitraires même
discontinues peuvent toujours être représentées par les développements
en sinus ou cosinus d'arcs multiples, et que les [solutions de l'équation de la
chaleur] qui contiennent ces développements sont précisément aussi générales que
celles ou entrent les fonctions arbitraires d'arcs multiples. Conclusion que le
célèbre Euler a toujours repoussée. »
Fourier (1805), cité par I. Grattan-Guinness
Il convient de noter au passage que l'analyse de Fourier exprime une propriété
remarquable de la nature : à savoir le principe de superposition dont les
conséquences s'observent quotidiennement : un arc en ciel où un prisme décompose
la lumière blanche en ses composantes monochromatique (que l'on peut recombiner
ensuite pour la retrouver) ; notre oreille interne décompose les vibrations de l'air en
série de sons purs (un musicien reconnaît chaque note d'un accord, ainsi nous
possédons deux transformées de Fourier entre les oreilles !).
C'est la raison pour laquelle la décomposition en série trigonométrique est plus
intuitive dans l'étude d'une corde vibrante (piano, violon, guitare...) où l'on entend
littéralement les fonctions trigonométriques successives (les sinus) appelées pour
cette raison les harmoniques. A savoir la note fondamentale f, l'octave au-dessus 2f,
l'octave plus la quinte 3f, le deuxième octave 4f , deux octaves + tierce 5f etc ...
Chaque harmonique étant affecté d'un coefficient donnant ainsi à l'ensemble du son
un caractère propre : le timbre de l'instrument.
C'est donc naturellement par l'étude de ce phénomène que Joseph Sauveur (1653-
1716) puis Daniel Bernouilli (1700- 1782) introduisirent, sans l'exploiter plus avant, la
décomposition en série trigonométrique.
Chaque harmonique correspond à un mode propre de vibration de la corde et le
tout se comporte comme autant d'oscillateurs indépendants. On conçoit ici qu'une
des conditions de la décomposition d'un signal en série de fonctions élémentaires est
que celles-ci soient indépendantes les unes des autres, ce que vérifient les fonctions
trigonométriques puisqu'elles sont, de plus, orthogonales.
Nous y reviendrons mais il convient d'insister sur cette propriété d'orthogonalité
qui fait que des informations ne se mélangent pas et que l'une peut varier sans que
l'autre ne le sache. Notre équilibre dépend ainsi de notre oreille interne, encore elle,
qui découple les trois dimensions de l'espace ce qui nous permet de marcher droit, de
monter, de descendre sans dévier à droite ou à gauche.
D'une manière générale, on peut écrire le développement d'une fonction f(x),
définie sur un segment L (il est fondamental de préciser le domaine de définition de
la fonction), en série trigonométrique comme :

que l'on écrira :

Où oméga est le convertisseur de l'unité de x en radian.


Le terme de gauche représente la fonction initiale, celui de droite sa décomposition
en une somme de cosinus de fréquence croissante, multiple de oméga, déphasés et
affecté d'une amplitude propre.
Ces trois degrés de liberté : l'amplitude, la fréquence et la phase permettent de
reconstruire f(x) aussi précisément que l'on veut. Après avoir développé le cosinus
(cos(a+b)=cos a.cos b - sin a.sin b) on trouve l'expression de la série trigonométrique
rencontrée habituellement dans la littérature :

Que l'on peut également écrire sous la forme d'une exponentielle imaginaire :

C'est une égalité qui fait le lien entre deux classes : les fonctions et les suites.
Parfait, mais il est bien d'avoir établi la possibilité de développer en série une
fonction encadrée quelconque, encore faut-il savoir déterminer la valeur des degrés
de liberté des fonctions élémentaires, à savoir ici les an et les bn, en remarquant que le
numéro des harmoniques, n, est lui connu d'avance car c'est la suite des entiers : 1, 2,
3 ...
C'est l'objet de la seconde partie de l'étude de Fourier qui donne leur méthode de
calcul et conclut ainsi son analyse.

Voyons, en résumer, comment il s'y prend.


Les coefficients an et les bn mesurent la "quantité" de chaque harmonique présent
dans la fonction f(x), autrement dit leur coïncidence avec f(x). Il existe un moyen de
la mesurer qui est de regarder, sur l'intervalle de définition L, la surface de
recouvrement située sous leur courbe, c'est exactement la définition de l'intégrale sur
laquelle s'appuie Fourier et que la figure suivante illustre. Pour ce faire il va créer la
notation de l'intégrale définie :

La courbe bleue est sin(x), donc le premier harmonique, la rouge représente la


fonction f(x). On constate que les deux courbes "se ressemblent". Pour mesurer cette
propriété il suffit de calculer point par point leur produit puis d'en faire la somme
algébrique et donc de calculer :

La seconde figure montre à l'inverse, une fonction qui coïncide mal avec le sinus,
donc la présence de l'harmonique 1 dans ce signal sera plus faible.
Il va donc aboutir après de longs calculs à l'expression définitive des coefficients a n
et bn :

Ou en notation exponentielle :

En termes modernes, Fourier effectue le produit scalaire de f(x) avec chaque


harmonique que l'on note maintenant :

Il convient ici d'ajouter une remarque importante. Ce calcul n'est possible que
parce que les fonctions de bases, c'est à dire tous les cosinus et sinus, sont
orthogonales. Autrement dit leur produit scalaire est nul. Ce qui donne avec la
notation actuelle :
Comme pour tout espace vectoriel, c'est l'existence d'une base de fonctions qui
permet la décomposition du signal. On retrouve la notion de base fonctionnelle qui
sera développée par Hilbert près d'un siècle après Fourier. Mais nous constatons que
c'est le développement d'une fonction en série trigonométrique qui ouvre la voie à
cette interprétation.
Remarque : base de fonctions, donc indépendance linéaire, n'implique pas
obligatoirement leur orthogonalité. Par exemple, une fonction polynôme de la forme :

peut être interprétée comme la projection de f(x) sur la base des fonctions x4 x3
x2 et x. Ces fonctions sont linéairement indépendantes et forment donc une base
mais elle n'est pas orthogonale et l'on y définit pas de produit scalaire. Les
"coordonnées" de f(x) sont alors a, b, c et d dans cet espace. (e est juste une valeur de
décalage : l'ordonnée à l'origine).
S'il n'y avait pas indépendance, il serait impossible de mesurer la contribution de
chaque composante, ou harmonique dans notre cas, sans faire abstraction des autres
et le principe même d'une analyse d'un phénomène comme la superposition ou
comme la somme d'atomes élémentaires serait inconcevable.
Il se trouve que les fonctions trigonométriques sont en plus orthogonales et c'est ce
qui rend possible le calcul du produit scalaire, et donc le calcul des coefficients tel que
l'a mené Fourier.
Pour finir et rester fidèle à la discipline de Fourier pour qui une recherche, même
théorique, doit rendre compte de la réalité, reprenons la configuration de départ et
menons à son terme une application numérique sur la diffusion de la chaleur dans
une barre.
Nous connaissons la longueur de la barre : L, le coefficient de diffusion du solide :
D.
Nous connaissons également la distribution de la température à l'origine des
temps soit : T(x,0).
Imaginons que cette connaissance se résume à N points de mesure : par exemple
100 points sur une barre de 1 m. D'après le théorème de l'échantillonnage nous
pouvons développer T(x,0) sur N/2 harmoniques. (Rappelons que le théorème stipule
que pour échantillonner un signal continu de fréquence maximale f sans perte, il faut
échantillonner au moins à une fréquence double. Inversement, nous avons ici la
fréquence d'échantillonnage : N points donc la fréquence max correspond à N/2.)
Il faut maintenant calculer les coefficients zn grâce à la formule du produit
scalaire :
où 0< n < N/2

Dans notre cas numérique, les intégrales sont remplacées par des sommes
discrètes.
zn représente la température moyenne qui sera égale à la température finale car la
quantité de chaleur se conserve.
Dès lors nous avons toutes les données pour calculer numériquement la
température en chaque point de la barre au cours du temps.
En résumé, la méthode de Fourier considère une fonction, encadrée dans des
limites données et suppose qu'elle est développable en série trigonométrique.
On en fait donc d'abord l'analyse en calculant les coefficients de chaque
harmonique, ce qui définit la série de manière unique.
En retour, partant des coefficients on peut en faire la synthèse en effectuant la
somme pondérée des fonctions circulaires de fréquence multiple.
Pour illustration, la figure suivante montre la synthèse d'un signal carré avec
quatre harmoniques.

Au terme de l'analyse on obtient le spectre de la fonction. Remarquons que nous


avons analysé des fonctions à une dimension, mais l'analyse de Fourier, par
séparation des variables, se généralise aux images ou à tout autre système de
dimension supérieure pourvu que celles-ci soient homogènes.
On peut donc interpréter la transformée de Fourier comme une bascule entre deux
espaces de représentation du monde : l'espace métrique où temporel et l'espace des
fréquences. On dit alors que ces deux espaces sont duals et il est intéressant de
disposer ainsi de deux points de vue sur la réalité car un phénomène est souvent plus
simple à étudier sous la forme de son spectre, dans l'espace des fréquences, que dans
sa représentation réelle. Une large part du traitement numérique du signal est basée
sur cette observation.
Afin de préfigurer les schémas représentant les réseaux de neurones, la figure
suivante résume l'analyse et la synthèse de Fourier sur une fonction T(x). (On a omis
le terme constant).
La partie gauche effectue les sommes sur x, c'est à dire le calcul par produit
scalaire des coefficients de la série :

pour chaque valeur de n.


La partie droite effectue la synthèse de la série : la reconstruction de T(x), c'est à
dire les sommes sur n, tel que :

Fourier a mené une analyse fondée sur les fonctions trigonométriques qui
possèdent cette remarquable propriété de former une base orthogonale. Maintenant
il est légitime de se demander s'il n'existerait pas d'autres familles de fonctions ayant
cette particularité où l'analyse serait alors formellement identique, où il suffirait dans
le calcul des coefficients de remplacer l'exponentielle imaginaire sous l'intégrale par
un autre noyau de fonctions de base.
Il existe en effet d'autres bases de fonctions orthogonales, notamment des
polynômes : polynômes de Legendre par exemple mais qui ne sont pas pratique à
manipuler et aboutissent à d'inextricables calculs. Il faudra attendre les années 1980
pour trouver des nouvelles familles de fonctions vraiment opérationnelles : les
ondelettes.
Fourier était conscient de la portée de son analyse, mais elle a sans doute dépassé
en universalité ce que son auteur pouvait imaginer. Elle ouvre des champs
d'applications inépuisables, démultipliés avec le calcul numérique dans le domaine
du traitement du signal. Sans Fourier point de stockage d'images, de streaming, pas
de compression du son etc...
Alors, pour revenir à l'origine de la discussion, pourquoi cette analyse ne serait-elle
pas bien adaptée à notre problème ?

Développement en série et réseau de neurones


Prenons le point de vue de l'ingénieur qui souhaite modéliser un processus
industriel : pilotage d'un réacteur chimique ou nucléaire, d'un véhicule autonome,
maintenance prédictive de machines complexes, suivi épidémiologique etc...
Le résultat désiré est l'expression des relations existant entre les variables du
problème. Ce résultat est une fonction. Elle dépend de nombreuses variables
hétérogènes dont l’interaction n'est pas maîtrisée ; il est donc difficile, voire
impossible, de mettre le problème en équation comme Fourier pouvait le faire dans la
diffusion de la chaleur.
Toutefois, il possède des séries de mesures et souhaite passer de ces observations
ponctuelles à une fonction continue, phénoménologique pourrait-on dire, pour
connaître le résultat quel que soit l'état du système. C'est un problème de régression
auquel les méthodes précédemment exposées peuvent éventuellement répondre.
Avec les réserves déjà mentionnées il pourrait s'orienter vers une analyse de
Fourier en plusieurs dimensions.
Revenons aux fondamentaux. Lorsque Fourier affirme que toute fonction définie
sur un intervalle, même discontinue, est développable en série trigonométrique il fait
preuve d'un enthousiasme sans doute excessif. Si la fonction est régulière,
stationnaire au sens du traitement du signal, il est certain que la série va rapidement
converger. En revanche, si celle-ci est discontinue, voire en partie transitoire, il est
non moins certain qu'elle va prendre son temps avec pour conséquence l'apparition
de hautes fréquences, nécessaire pour ajuster les angles (voir le signal carré) et même
des hautes fréquences parasites ne faisant pas partie du signal connues sous le nom
de fuites spectrales (algorithme JPEG et DCT).
Le recours à l'analyse de Fourier n'est donc pas toujours fondée, de plus
l'utilisation de cette méthode excède de beaucoup la simple description d'un
phénomène. Les harmoniques présents dans la série, les modes propres du signal, ont
une vertu explicative dont un ingénieur, dans son pragmatisme, n'a pas forcément
besoin. (Pensons à une analyse de Fourier qui étudierait la hauteur de l'eau de mer
sur la façade atlantique sur un temps assez long. La série mettrait en relief la période
lunaire donnant ainsi une explication aux marées.)
Il est donc probable que notre ingénieur se tourne vers d'autres méthodes.
Supposons que notre fonction, celle qui exprime les relations entre les variables
soit assez régulière pour être développée en série. On a ainsi :
Les fonctions h(n,x) représentent la base de l'espace fonctionnel. Elles sont
linéairement indépendantes mais pas nécessairement orthogonales. (On parle de
famille libre).
Dans les cas précédents les h(n,x) sont les puissances de xn pour les moindres
carré
Pour une erreur d'ajustement de s(x) donnée, la meilleure série est celle qui
converge le plus vite, soit N le plus petit possible.
L’inconvénient des fonctions de base déjà vues est leur rigidité. Le paramètre n est
un entier si bien que les formes de ces fonctions est contrainte et, mise à part
l'amplitude, il n'y a qu'un seul degré de liberté.
Pour reprendre l’image du jeu de construction, il conviendrait de disposer de
fonctions de base plus souples avec pour but une réduction de leur nombre pour un
ajustement donné. On parle alors d'approximation parcimonieuse.
Nous pouvons écrire le développement de la manière suivante :

Où bn n'est plus un entier mais un nouveau paramètre à déterminer. Nous avons


ainsi ajouté un degré de liberté à nos fonctions de base.
Se pose alors deux questions. D'abord comment choisir ces fonctions ? Et ensuite
comment déterminer les an et les bn. La détermination des an est le problème
classique des coefficients des polynômes ou de Fourier, par contre celle des b n est une
nouvelle question.
Les fonctions de base doivent former une famille libre, c'est à dire être
linéairement indépendantes (elles ne se mélangent pas). Elles doivent être bornées,
(ne pas tendre vers l'infini) paramétrables et infiniment dérivables.
Plusieurs type de fonctions répondent à ces exigences et sont appelés fonctions
universelles. Nous retiendrons notamment les gaussiennes mais surtout les fonctions
de la famille des sigmoïdes qui sont adaptées à notre propos. Parmi celles-ci,
prenons la tangente hyperbolique dont l'expression analytique est la suivante :
Son allure est :

Elle est bornée entre -1 et +1, dérivable, la valeur du paramètre, a, en change la


pente, on peut l'inverser, la décaler en x, en y, en changer l'amplitude, bref elle
possède la souplesse que nous souhaitons et leur somme en nombre réduit est
susceptible de copier n'importe quelle courbe régulière sur un support donné.

Nous avons donc répondu à notre première interrogation.

Cependant, ces sigmoïdes ne forment pas une base orthogonale, c'est à dire que
nous ne possédons pas d'expression simple du produit scalaire dans cet espace. En
effet, un repère non orthogonal est légitime mais le théorème de Pythagore n'y trouve
pas d'expression simple, les distances sont ainsi difficiles à déterminer ainsi que le
produit scalaire, or, c'est cette opération qui permet à Fourier de calculer les
coefficients de la série trigonométrique.
Demeure la seconde question concernant la détermination de l'amplitude de
chaque fonction th() soit an et celle du paramètre bn,
Comme on vient de le constater il nous est impossible de calculer les a n avec un
produit scalaire du genre :

an =< f(x), th(bn ,x) >


car les fonctions th(bn ,x) ne sont pas orthogonales mais de plus nous ne
connaissons même pas les bn !

Ainsi, le prix à payer pour la souplesse, c'est à dire la parcimonie, est l'impossibilité
de calculer analytiquement les fonctions de la série.
Nous possédons bien un théorème d'existence du développement mais nous
sommes incapables de le traduire dans la réalité, de faire l'application numérique
chère à Fourier.
Nous en étions incapables ! Depuis une vingtaine d'années la puissance de calcul
disponible permet d'envisager la solution de certains problèmes mathématiques
autrement. Le développement en série de fonctions universelles en est une
illustration.
Comme il est impossible de mener un calcul à priori, il faut adopter une méthode
empirique de fixation des paramètres.
Position du problème :
On dispose d'une collection de mesures circonscrites dans un domaine d'étude (un
espace borné), les données dont chacune dépend de plusieurs variables, leur nombre
est la dimension du problème. Les relations qu'entretiennent ces variables se
traduisent par une fonction que nous recherchons mais dont nous n'avons aucune
idée.
Afin de la déterminer il faut plusieurs mesures, plus il y en a mieux ça vaut. Mais
dans la pratique leur acquisition n'est pas toujours facile, on en dispose donc en
nombre réduit avec pour conséquence beaucoup de trous, de points aveugles, dans le
domaine considéré et pourtant nous voulons un résultat en tout point de l'espace de
définition.
Pour fixer les idées, la solution analytique de la diffusion de la chaleur dans la
barre demande la connaissance de l'état initial du système. Soit 100 points de mesure
de T sur une barre de 1 m par exemple. Ensuite nous pouvons connaître T(x,t), quel
que soit la position et le temps.
Imaginons maintenant que nous ne sachions pas résoudre l'équation de diffusion
et que nous soyons donc conduit à utiliser une méthode empirique de fixation de
T(x,t).
Cette méthode, (un peu comme Fourier et c'est là que son idée est universelle), est
basée sur l'hypothèse que la fonction recherchée est assez régulière pour être
développable en série de sigmoïdes, mais dont nous n'avons qu'une très vague idée de
leur nombre et aucune des paramètres les gouvernant !
Pour pallier cette ignorance nous allons nous appuyer sur une suite de mesures.
Après avoir fixé arbitrairement le nombre d'éléments de la série (en fait le nombre de
neurones cachés), nous initialisons au hasard les paramètres des fonctions de base,
les sigmoïdes.
On calcule la série qui fournit, évidemment, une température totalement
fantaisiste ! Mais, grâce à nos mesures préalables, nous mesurons l'erreur commise :
erreur quadratique par exemple qui représente alors une fonction de coût.
Ensuite, par rétroaction, nous pouvons corriger chaque coefficient de manière à
minimiser cette erreur, puis recommencer l'opération jusqu'à juger l'erreur
acceptable. Cette opération s'appelle la rétro propagation du gradient, car pour
corriger les coefficients on calcule la dérivée partielle de l'erreur par rapport à chacun
d'entre eux, puis on les modifie proportionnellement à celle-ci par incréments
successifs. Nous ne nous étendrons pas davantage sur cet algorithme qui est
amplement documenté par ailleurs. Notons au passage que cela demande une grande
puissance de calcul qui ne fut disponible qu'assez récemment.
Au terme de cette étape d'apprentissage nous avons théoriquement obtenu une
fonction phénoménologique qui nous donne la température en position et dans le
temps même, et surtout car elle est faite pour ça, aux endroits où nous n'avions pas
fait de mesure.
Insistons cependant sur le fait que la résolution analytique de l'équation de
diffusion de la chaleur donne le comportement réel de la diffusion suivant la position
et le temps, alors que la solution par RN fournit une fonction virtuelle sans aucune
signification physique.
Afin de montrer aussi l'énorme différence entre une méthode analytique et la
méthode empirique (ou disons statistique) regardons le nombre de mesures
nécessaires pour la mettre en œuvre.
Imaginons une période d'observation de 1 h avec un bout à température ambiante
et l'autre à 100 °C (pour une barre de 1m cela semble raisonnable. Plus grand est le
coefficient de diffusion D, plus rapide sera l'égalisation de T.). Échantillonnons la
position avec 100 points et le temps à 1s. Sous ces conditions il nous faudra :
100x3600 = 360 000 points de mesure, soit 3600 fois plus qu'avec la méthode
analytique !
On comprend ainsi la raison pour laquelle les méthodes statistiques sont
particulièrement gourmandes en quantité de données. Si on en réduit le nombre, la
précision de l'ajustement en souffrira et il y a donc un compromis à trouver.
Évidemment, l'équation de chaleur qui ne dépend que de deux variables est
intégrable mais pour des problèmes compliqués en multiple dimension toute solution
analytique devient illusoire. Nous sommes alors conduits vers ces méthodes
statistiques, autrement dit les réseaux de neurones, pourvu que l'on ait les données
en qualité et quantité suffisantes.

Un réseau de neurones canonique : l'auto encodeur


Afin de mieux comprendre comment agit un RN, nous allons considérer d'abord
un réseau de neurones linéaire de type « auto-encodeur ». Puis nous introduirons des
fonctions non linéaires dans les neurones cachés.
Voici un réseau de neurones à trois dimensions avec deux neurones cachés et à
trois sorties.

Il a pour particularité d'avoir des sorties formellement identiques aux entrées.


C'est un RN de type auto-encodeur (AE) dont la configuration est intéressante
pour comprendre ce qui se passe dans les couches cachées qui, comme leur nom
l'indique restent assez mystérieuses. Cette architecture permet de comparer
directement la sortie avec l'entrée et de constater ainsi l'action du réseau.
C'est un réseau linéaire avec les équations suivantes pour la partie gauche :

Les entrées sont par exemple un nuage de points dans l'espace euclidien.
Les deux égalités représentent une projection dans un plan, donc une réduction de
dimension. C'est une application linéaire de l'espace dans un sous-espace, un
changement de repère (un endomorphisme).
La partie droite est la transformation inverse avec retour dans le repère initial.
Le but est d'entraîner le réseau afin de déterminer les coefficients de manière à
revenir autant que possible au même point avec :

C'est bien sûr impossible, sauf configuration particulière, car ce réseau agit comme
un compresseur côté gauche et décompresseur côté droit, mais non conservatif
puisque la réduction de dimension engendre une perte d'information. Cela ne nous
empêche pas d'entraîner le réseau sous la contrainte de minimisation de l'erreur
(erreur quadratique). Nous allons procéder ainsi pour tous les points de l'échantillon
d'apprentissage. A son terme, tout point non présent dans l'apprentissage, aura son
image optimale au sens de la fonction de coût utilisée.
Maintenant il est permis de se poser deux questions.
D'abord celle de savoir quelles sont les informations gardées (et donc celles
éliminées) dans la partie centrale ?
Et par conséquent quel est l'intérêt de diminuer la dimension du problème ?
L'exemple proposé est une projection de l'espace à trois dimensions dans un plan
sous la contrainte d'une déformation minimale des distances puisque la transformée
inverse agit en miroir.
Cette transformation reprend exactement le principe de l'analyse en composantes
principales (ACP).
En effet, imaginons que le nuage de points ait une forme lenticulaire, un ellipsoïde
assez plat (une galaxie par exemple). Prenons l'origine du repère euclidien au centre
de gravité du nuage (chaque point à la même masse). Aucun des axes du nuage ne
coïncident avec ceux du repère. Dans ce repère, les trois coordonnées sont donc liées
entre elles par une relation de proportionnalité, c'est à dire une relation linéaire. Elles
sont corrélées. La figure ci-dessous illustre cette configuration en deux dimensions.

Dans le repère x;y les points du nuage sont corrélés : quand les x augmentent les y
aussi. En revanche, dans X;Y ils sont décorrélés : la croissance d'une variable
n'entraîne pas l'autre. Dans ce repère l'axe X est aligné avec celui du nuage, il porte
donc le maximum de variance (ou d'inertie ou d'information comme on préfère) au
détriment de l'axe orthogonal Y, si bien que si la configuration est assez plate on peut
alors négliger les projections sur Y et le problème initialement à deux dimensions
dans x;y devient monodimensionnel sur X. La transformation est une rotation.
Pour trouver le repère X;Y l'élégante méthode de l'analyse en composantes
principales calcule les covariances entre les variables sous la forme d'une matrice
dont la diagonale contient les variances sur chaque axe. Ensuite on diagonalise la
matrice de covariance car dans le repère X;Y où les covariances sont nuls. La
diagonalisation de la matrice est géométriquement une rotation. Les valeurs propres
représentent alors les variances sur les nouveaux axes et donc leur concentration sur
certains au détriment des autres.
Il suffit ensuite de décider en fonction des valeurs relatives des valeurs propres
quels sont les axes à garder et donc quelle sera la dimension du problème dans le
nouveau repère.
La matrice de changement de repère est donnée par les vecteurs propres associés à
chaque valeur propre.
Pour répondre à la première question posée plus haut, à savoir quelles sont les
informations contenues dans la couche du milieu : elle contient les nouvelles
coordonnées des points projetés dans un repère de dimension inférieure.
En revenant à la configuration initiale à trois dimensions, on constate que le
réseau de neurones linéaire effectue très exactement une ACP où nous aurions décidé
par avance de la réduction à deux dimensions.
Il s'ensuit que la matrice de changement de repère est donnée par les coefficients
Ci. et représente la projection du nuage de points sur un plan. Les Ci ' font l'inverse.
Remarquons que l'architecture du réseau, à savoir le nombre réduit de neurones
cachés par rapport à celui des variables est subordonnée à une hypothèse : l'existence
de relations entre les variables dont une part est linéaire : elles sont donc corrélées,
et si les covariances sont importantes, certains axes dans le nouveau repère décorrélé
porteront peu d'information et on pourra ainsi diminuer la dimension de la
configuration de départ.
C'est une hypothèse qui demandera une vérification empirique car contrairement
au calcul des valeurs propres, on ne dispose ici d'aucune connaissance sur la
hiérarchie des variances.
Ajoutons une remarque : la projection dans un sous-espace va presque confondre
certains points de la configuration de départ car ils se trouvent approximativement
sur la même droite de projection. Il s'ensuit que le nombre de points « utiles » dans le
nouveau repère est réduit, ainsi faire une ACP a pour conséquence intéressante une
moindre quantité de mesures nécessaires en amont.
Seconde question, quel est l’intérêt de la réduction de dimension ?
On peut supposer que l’information vraiment importante est portée par les axes
principaux et que le reste est négligeable, soit numériquement comme une inertie du
second ordre, soit parce qu'elle représente plutôt du bruit. Il s'agit alors
schématiquement d'un arrondi.
Mais réduire la dimension aux axes principaux, c'est aussi concentrer l'information
importante comme le ferait en quelque sorte une distillation.
Evidemment, il serait mal venu d'utiliser un réseau de neurones quand une
méthode analytique fait le même travail, sans erreur, sans apprentissage, avec en plus
la maîtrise du choix des dimensions. Il faut donc que le RN nous apporte quelque
chose en plus...
On imagine sans peine que les relations entre des variables ne se réduisent pas
toutes à une simple dépendance linéaire.
Par exemple, imaginons une relation entre deux variables x et y sur un segment [ -1
; +1 ] du type :

y = x² - 2x

la relation entre x et y est double : à la fois non linéaire et linéaire.


L'ACP va nous donner deux valeur propres dont la plus grande représentera la
composante linéaire et l'autre celle qui ne l'est pas, en l’occurrence la composante
parabolique. Nous pourrions éventuellement la négliger sous l'hypothèse qu'elle
représenterait un épiphénomène et réduire notre problème, sur cet intervalle, à une
seule dimension. En revanche, si nous considérons :

y = x² - x

La composante linéaire est moins forte et la seconde valeur propre, représentant la


composante non linéaire est peut-être même majoritaire. On ne peut en négliger
aucune. La réduction de dimension n'est pas possible.
On comprend que l'ACP sert à extraire la composante linéaire dans des relations
complexes. Les variables sont décorrélées dans le nouveau repère mais peut être liées
par d'autres relations, mais celles-ci sont inaccessibles dans cet espace.

En rouge : y = x² sur un intervalle [-1;1] : décorrélation, aucune composante


linéaire.
En vert : y = x² - x relation à la fois linéaire et non linéaire.
En bleu : y = x² -2x forte composante linéaire, x et y sont anti corrélées

Dans ce nouveau repère, et par définition, nous ne disposons plus de méthode


directe pour révéler des relations que nous ne connaissons pas à priori.
Une piste possible serait de convertir des relations non linéaires en relations qui le
seraient.
Prenons l'exemple de la figure ci-dessous qui représente une dépendance non
linéaire entre deux variables x et y. Son expression analytique est en réalité :
y = cos(x) + 2.cos(2x) + 4.cos(3x) + 8.cos(4x)

Les variables x et y ne sont pas corrélées et pourtant elles sont liées, une ACP est
ainsi inapte à révéler cette relation.
Mais à la suite d'une transformée de Fourier, c'est à dire une conversion dans
l'espace des fréquences, la relation entre les nouvelles variables est parfaitement
linéaire : 1 ; 2 ; 4 ; 8, qui sont les coefficients de la série de Fourier. Une ACP
appliquée dans cet espace mettrait donc en évidence une relation invisible dans
l'espace réel.
Une solution à notre problème consisterait donc, à la suite d'une étape de
décorrélation des variables et de la réduction de dimension associée, de changer
d'espace de représentation (fréquences ou autres formant une base fonctionnelle)
puis de rechercher des relations linéaires dans ce nouvel espace grâce à la méthode
éprouvée de décorrélation-réduction, et éventuellement d'enchaîner en cascade cette
séquence jusqu'à ne constater plus aucune relation entre les variables. Une sorte
d'analyse multi-résolution.
La question centrale concerne maintenant le choix de l'espace fonctionnel.
Comme déjà noté, les fonctions sigmoïdes sont de bonnes candidates pour ajuster
des fonctions.
Envisageons le réseau de neurones suivant.
Il y a au départ deux degrés de liberté.
En premier lieu l'architecture du réseau, le nombre de couches cachées (ici deux)
ainsi que la décroissance de dimension à chaque étape autrement dit le nombre de
neurones dans chaque couche.
Ensuite la valeur des coefficients.
Pendant l'apprentissage la contrainte imposée aux sorties d'être aussi proche que
possible des entrées, fixe la valeur des coefficients. Par ailleurs, si l'architecture n'est
pas adaptée au problème (pas assez de couches ou trop de réduction de dimension
par exemple), il est possible que l'apprentissage échoue ou que les résultats soient
décevants. Il faut donc une certaine habitude car il n'existe aucune adaptation en
temps réel, tout se décide avant et au terme de l'apprentissage tout est rigide, il n'y a
plus aucun degré de liberté.

Les xi sont les entrées. Il convient de remarquer qu'elles sont dans la même unité
car elles vont s'additionner. Si ce n'est pas le cas il faut les exprimer comme des ratios
sans unité.
On reconnaît la première étape de combinaison linéaire de l'ACP où les coefficients
Ci sont ceux de la matrice de changement de repère (toujours sous la contrainte
d'identité des entrées et des sorties). On diminue d'autorité (c'est l'architecture du
réseau qui en décide) la dimension du problème, passant de 4 à 3. Les nouvelles
coordonnées dans ce repère sont les X'i. Dans ce repère les variables sont décorrélées.

Pour ne pas en rester là, la deuxième étape est un changement d'espace où les
fonctions de base sont des tangentes hyperboliques dont les paramètres ont été fixés
au terme de l'apprentissage. Elles forment une base (non orthogonale), c'est à dire
qu'aucune n'est fonction des autres, les th(X'i) sont donc de nouvelles variables
(formellement assimilables à des coordonnées dans l'espace des th() ), donc
indépendantes mais entre lesquelles on va chercher une relation linéaire imposée par
les contraintes sur la sortie.
C'est l'objet de la combinaison linéaire avec les C'i et on décrémente ensuite la
dimension. Ainsi cette étape est-elle une réplique de la première. Soit en
développant :
Si le réseau n'est pas un auto encodeur, la sortie s'exprime comme la combinaison
linéaire des X''i

Sortie = C''1 .X''1 + C''2 .X''2

qui représente finalement la relation recherchée entre les variables d'entrées. Elle
s'exprime comme un développement en série de tangentes hyperboliques ayant elles-
mêmes comme argument des séries de th() etc... avec pour dernier argument une
combinaison linéaire des entrées.
Finalement qu'y a-t-il dans le goulot d'étranglement ? Les X''k qui sont les
coordonnées des entrées successivement projetées orthogonalement dans des plans
de dimension décroissante, d'abord dans l'espace réel, puis dans l'espace des th().
Plus physiquement, on peut imaginer des variables ultimes, intrinsèquement
indépendantes qui refléteraient les relations les plus fondamentales entre les
variables d'entrée.
En fonction de la dimension initiale on pourrait ainsi multiplier les étages, chacun
se comportant comme une sorte d'extracteur de linéarité jusqu'à ce que la réduction
de dimension n'ait plus de sens.
Pour reprendre l'image déjà évoquée, le réseau se comporte comme un procédé de
distillation fractionnée.
Rappelons-nous que l'architecture du réseau fige la profondeur de l'analyse et qu'à
l'issue de l'apprentissage tous les coefficients sont fixés. On préjuge donc des
relations implicites entre les variables d'entrée. Ceci a notamment pour conséquence
qu'il faille essayer, empiriquement, plusieurs architectures pour retenir celle qui
conviendra le mieux. Mais si de nouvelles entrées ne correspondent pas à celles de
l'apprentissage, les relations présupposées n'existeront pas et la sortie sera aléatoire !
Notons qu'un auto encodeur a au minimum deux couches cachées, sinon il s'agit
d'une ACP, (ce qui peut être très bien aussi quand les relations sont d'ordre linéaire).
Remarque : mettre autant de neurones cachés que de variables de la couche
précédente, s'est supposer qu'il n’existe aucune relation linéaire entre celles-ci.
Pour un auto encodeur, en mettre davantage n'a guère de sens puisque ça revient à
augmenter la dimension du problème. Ce type de RN est plutôt réservé à des
problèmes de classification où une séparation linéaire dans l'espace de départ est
impossible (ce point est abordé plus loin dans le cas du XOR). Accroître la dimension
peut permettre cette séparation.

Généralisation aux autres types de RN

Les problèmes de régression


Toute question relative à l'existence de relations entre des variables (dans les faits
plus de trois) peut espérer trouver une solution phénoménologique avec un RN,
pourvu que les mesures préalables soient en assez grand nombre. Formellement il
s'agit donc d'un problème de régression.
Sous la réserve de variables homogènes, le but du réseau est de trouver une
fonction traduisant les relations supposées. Une fois posée l'architecture du réseau,
l’apprentissage calcule les coefficients des combinaisons linéaires reliant les couches.
Cette étape est supervisée et s'exprime par une fonction de coût qui représente
l'écart quadratique entre la sortie et le résultat escompté.
Ce schéma est conforme à celui de l'auto encodeur analysé ci-dessus si l'on omet la
partie décompression (qui nous a servie à visualiser l'action du réseau). L'approche
menée jusqu'à présent est donc généralisable aux réseaux multicouches dont le but
est la recherche de relations entre de multiples variables.
Les exemples suivants montrent des réseaux de complexité croissante. Toutes les
fonctions de coût sont une minimisation d'une erreur quadratique.
Le premier cas est une simple combinaison linéaire des variables d'entrée. C'est
l'équivalent d'une droite en une dimension. Un RN n'est guère utile dans ce cas car on
dénombre n inconnues et il suffit donc de n mesures pour résoudre le système.
Le deuxième est semblable mis à part que la relation linéaire est « bruitée » dans le
repère initial. Une ACP permet une meilleure discrimination dans un sous-espace de
plus petite dimension obtenu par rotation du repère initial. Là encore, une ACP est
bien préférable à un RN.
Le troisième cas s'applique en l'absence de relations linéaires entre les variables.
C'est typiquement le rôle d'un RN que de déterminer une fonction complexe qui
enchaîne les réductions de dimension et les changements d'espace de représentation.
On note que le dernier étage est toujours une combinaison linéaire des séries des
étages précédents. Le prix à payer est une phase d'apprentissage afin de fixer les très
nombreux paramètres de cette structure soit : 3.n + 6 + 2 inconnues.
A titre d’illustration, voici le développement du RN ci-dessus. On imagine la
complexité avec des centaines de variables et des dizaines de couches!
Ouf ! Vous pouvez vérifier !

Les problèmes de classification


Le plus souvent la classification d'un motif : caractère, image etc... consiste à
chercher un plan séparant cet objet de tous les autres.
L'existence de ce séparateur est soumise à l'hypothèse que les relations liant les
variables du motif à isoler sont différentes de celles des autres.
Ce fait est illustré par le réseau linéaire ci-dessous concernant deux points A et B
dans le plan. La constante notée 1 représente le décalage ou disons l'ordonnée à
l'origine.

Le développement est le suivant :

C1.XA + C2.YA + C0 = oui


C1.XB + C2.YB + C0 = non

Cela signifie qu'une certaine combinaison linéaire caractérisée par la valeur des
coefficients, autrement dit une certaine relation entre les variables XA et YA convient,
alors que celle-ci n'est pas vérifiée entre XB et YB.

Imaginons que nous entraînions un réseau pour déterminer les coefficients Ci.

Par raison de symétrie, les coefficients vont se fixer de manière à déterminer une
séparation à égale distance de A et de B puisqu'ils jouent le même rôle, autrement dit,
ils vont retrouver la médiatrice du segment AB d'équation :

C1.x + C2.y + C0 = 0
Cette médiatrice est le séparateur entre les groupes A et B si, comme dans la
pratique, les points A et B sont plutôt des nuages sans recouvrement.
Quand l'espace de représentation est de dimension supérieure on parle alors
d'hyper plan séparateur.
On observe donc que la classification est fondamentalement un problème de même
nature que celui de la régression puisqu'il s'agit toujours de trouver des relations
entre de multiples variables et qu'ainsi les RN sont susceptibles de fournir une
solution, toujours à la condition de disposer d'assez de données pour l'apprentissage.
Nous avons décrit ci-dessus un réseau élémentaire linéaire. Il se trouve que pour la
plupart des classificateurs, les objets sont linéairement séparables et que le type de
réseau décrit (dans des dimensions supérieures) convient. Maintenant il faut se poser
la question de savoir comment faire quand les classes ne sont pas linéairement
séparables et donc que l'apprentissage d'un réseau linéaire échoue.

On peut imaginer deux stratégies.

1 - Comme il n'existe pas de séparateur plan dans l'espace de représentation on


doit rechercher une frontière sinueuse, autrement dit une fonction. Suivant alors la
démarche utilisée en régression, cela revient à chercher des séparateurs linéaires
dans d'autres espaces fonctionnels en ajoutant des couches jusqu'à trouver un hyper
plan car il convient de remarquer que la dernière étape est toujours une combinaison
linéaire donc une séparation qui l'est également.

2 - On peut essayer d'augmenter la dimension du problème. Par exemple, deux


objets inséparables sur une photo, peuvent l'être en réalité dans l'espace réel car ils ne
situent pas dans le même plan. Dans ce cas il faut ajouter une couche contenant
davantage de neurones que la dimension de l'entrée. Cette couche peut être
simplement linéaire.

Le problème du XOR, déjà mentionné en première partie en est une illustration.


Il y a deux approches pour résoudre le problème du XOR .
C'est une classification à deux variables et deux classes de sortie.
Soit x et y tel que :
(0;1) = (1;0) = 0
(0;0) = (1;1) = 1
La figure ci-dessous montre que les deux classes ne sont pas linéairement séparables
dans le plan.

Une solution est donc de projeter le plan dans une dimension supérieure de
manière à trouver une séparation linéaire possible. Ce qui donne un réseau avec plus
de neurones que la dimension initiale.

Avec les combinaisons linéaires :


Il y a donc huit inconnues qui seront déterminées lors de l'apprentissage.
On peut imaginer que dans l'espace à trois dimensions, le réseau a trouvé un plan
de séparation entre les deux classes. En réalité on ne sait pas bien ce qui se passe car
il faut inventer de l'information.
Il y a cependant une autre solution afin d'éviter cette cécité.
Il s'agit de restructurer préalablement les données pour les mettre sciemment dans
un espace à trois dimensions. Soit les nouvelles variables :

x, y, x.y
où l'on considère le produit x.y comme une nouvelle dimension. On a alors :

(0;1;0) = (1;0;0) = 0
(0;0;0) = (1;1;1) = 1

La figure suivante montre que l'on a ainsi « décollé » le point (1;1) du plan sur le
nouvel axe x.y.

Il s'ensuit qu'un simple réseau linéaire à trois dimensions va trouver facilement le


plan séparateur des deux classes. Il n'y a plus que trois inconnues et donc bien moins
d'information à inventer.
Cette solution est préférable, quand c'est possible, à la précédente car on garde la
maîtrise des opérations.

Conclusion et résumé
Les RN sont vus ici comme une méthode d'ajustement d'une suite de mesures
expérimentales par une fonction phénoménologique afin de passer d'une suite
discontinue à une fonction continue. Cette dernière traduit les relations supposées
entre les variables constituant chaque mesure.
Les applications sont de nature très différente mais se résument à des problèmes
de régression ou de classification
Le fonctionnement des RN a été analysé sur la base de deux principes : les séries
de Fourier et l'analyse en composantes principale.
Le premier ouvre la possibilité d'exprimer une fonction comme une somme
d'autres fonctions constituant une base fonctionnelle. Les RN utilisent des fonctions
universelles afin d'obtenir des séries courtes (la parcimonie) avec pour conséquence
escomptée un moindre nombre de données.
Le prix à payer est l'impossibilité d'un calcul analytique à priori et donc un passage
obligé par un calcul préalable des paramètres des fonctions de la série. C'est la phase
d'apprentissage supervisé, guidé par une fonction d'erreur exprimée comme la
différence entre le résultat provisoire du réseau et la valeur escomptée.
La structure du réseau, c'est à dire le nombre de couches ainsi que le nombre de
neurones par couche est déterminé empiriquement.
Toutefois, afin d'une meilleure compréhension, on peut envisager chaque couche
comme le passage successif dans un nouvel espace fonctionnel de dimension réduite
permettant une extraction de linéarité par un processus assimilable à une ACP.
L'expression finale est une fonction analytique construite comme un enchaînement
de développement en série de fonctions universelles se terminant par une
combinaison linéaire du dernier étage.
A propos de l’auteur
Joël Journaux, était professeur de compression de données à l’Epita, une Ecole
d'ingénieurs informatique à Paris pendant plus de 6 ans. Sa formation initiale, un
doctorat de physique des solides obtenu à l’université d’Orsay, est principalement
axée sur la physique et les mathématiques.
A l’obtention de son doctorat, Joël Journaux entre au CNRS où il ne reste que très
peu de temps. Il décide ensuite de s’orienter vers le traitement d’images, la
reconnaissance de formes et par extension la compression des images et des sons.
Nous sommes au début des années 80, une période où l’informatique permet de
mettre en application des algorithmes sur des PC. « C’était une époque où la micro-
informatique était un outil qui naissait et je trouvais ça très séduisant de faire, non
pas de l’informatique de gestion, mais de l’informatique au niveau des applications
scientifiques, des applications d’automatisme… Et à l’époque c’était quasiment de
l’artisanat : une époque de pionniers en quelque sorte, où une seule personne pouvait
prétendre faire une application dans son intégralité! ».
Joël Journaux est donc d’abord allé se « faire les dents » pendant une dizaine
d’années, comme il aime à le dire, au sein de PME spécialisées dans l’automatisme.
Après avoir acquis expérience et relations, il fonde une petite entreprise : ELSA.
« J’ai rapidement et délibérément orienté ELSA vers l’utilisation de la micro-
informatique, à la place des gros automates programmables qui pilotaient les
machines. Nous nous sommes spécialisés dans la micro-informatique, le pilotage
d’unités plus petites et sur des programmes un peu plus abstraits, ce qui nous a
poussé graduellement vers le traitement d’image, le traitement du signal en général,
très à la mode dans les années 80 ».
Dans le même temps, Joël Journaux crée un logiciel de reconnaissance de
caractères. « J’apprenais aux machines à lire. J’avais commencé à faire cela pour me
distraire et puis très rapidement je me suis mis à y consacrer énormément de temps
au point d’abandonner tout le reste… ce qui était quand même très risqué. »
Coïncidence et coup de chance, la Française des Jeux lance à ce moment-là un appel
d’offre pour un logiciel qui serait capable de lire des caractères numériques sur les
bulletins de jeux. « J’ai répondu à l’appel d’offre et, à ma grande stupéfaction, mon
soft a été sélectionné. Ma candidature a finalement été retenue alors que j’avais conçu
ce programme tout seul. J’ai travaillé pour la Française des Jeux pendant 7 ans ».
« Dans les années 90, j’ai intégré une entreprise un peu plus importante. Elle
s’occupait de compression d’images, de boîtiers numériques, d’embarqué. Je n’y suis
resté que 2 ans, car je m’y suis très vite ennuyé…J’avais besoin de création ».
Joël Journaux ne quitte pas l’entreprise seul, il repart avec 3 autres collègues avec
lesquels il crée en 2001 SURVISION, une société qui fait de la lecture automatique de
plaque d’immatriculation. SURVISION fournit aux intégrateurs et aux utilisateurs de
contrôle d’accès (sociétés d’autoroute par exemple ou gestionnaires de parking) des
technologies pointues en matière de traitement d’image pour la reconnaissance et le
suivi des véhicules.
A côté de ces activités professionnelles, Joël Journaux est aussi enseignant à
l’Epita. « J’ai toujours eu le goût de l’enseignement. A l’université, déjà, j’étais
assistant pendant ma thèse. Je cherchais à faire de l’enseignement, parce que mon
métier est un peu austère, je passe mon temps devant un écran et j’aime voir les gens
donc je me suis tourné vers cette solution depuis déjà une dizaine d’années. En
regardant où je pouvais être utile, je suis arrivé à l’Epita. »
Au départ le cours était une option, mais il est rapidement devenu obligatoire. « La
compression des données et notamment de l’image est devenue, dans les nouvelles
technologies, un point central, focal, extrêmement important. Si on ne savait pas
compresser l’image et le son, la plupart des applications multimédias qui nous
entourent ne seraient pas possible. C’est donc devenu une discipline incontournable.
Un ingénieur en informatique ne peut pas ignorer à présent ce domaine, et doit au
moins en connaître les principes et les enjeux. »
Les cours de Joël Journaux laissent délibérément une large place à la théorie.
Selon lui, une formation théorique solide permet de s’adapter. « A l’heure actuelle je
suis gâté, parce que comme je viens de vous le dire les applications de compression de
donnée et de traitement du signal foisonnent donc j’ai de multiples exemples à
donner à mes élèves. Mais je souhaite toujours qu’ils comprennent les principes de
bases, le fil conducteur qui leur permettra plus tard s’ils en ont le goût d’innover à
leur tour. »

Vous aimerez peut-être aussi