Académique Documents
Professionnel Documents
Culture Documents
artificielle et
réseaux de
neurones
ou
« Tout ce que vous voulez savoir sans oser ni avoir le
temps de le demander !! »
ou
La reconnaissance de forme sans la connaissance du
fond
Joël Journaux
Copyright © 2021 Joël Jouannais
Tous droits réservés.
Table des matières
Première partie
Introduction
Pour quelles raisons ces méthodes représentent-elles une rupture ?
Comment ça marche ?
La structure du réseau
Au cœur de l’apprentissage du réseau
Formalisation du réseau
Un exemple poétique de classification par RN
Résumé
Les grandes bases de données : les « Big Data »
Encadrement des utilisations de l'Intelligence Artificielle
Quatre exemples d'utilisation des réseaux de neurones
1 Reconnaissance optique de caractères (OCR)
2 L'imagerie médicale
3 Une compagnie d'assurance
4 Application judiciaire
Quelle est ici la politique des GAFA ?
L'intelligence artificielle dans une épidémie comme le Corona virus
Point de vue épidémiologique
Point de vue médical
Maîtrise de l'épidémie en sortie de confinement
Les réseaux de neurones et la prédiction
OCR
Imagerie médicale
Compagnie d'assurance
Application judiciaire
Erreurs et biais
Intelligence Artificielle et consommation énergétique
Conséquences sociales des intelligences artificielles à base de réseaux de neurones
Conceptions philosophiques des promoteurs de l'Intelligence Artificielle
Deuxième partie : une approche mathématique des réseaux de neurones
Introduction
Quelques méthodes pour ajuster une série de mesures, ou l'art de la régression
Naissance des séries de Fourier
Calcul des coefficients : la transformée de Fourier
Développement en série et réseau de neurones
Un réseau de neurones canonique : l'auto encodeur
Généralisation aux autres types de RN
Les problèmes de régression
Les problèmes de classification
Conclusion et résumé
Première partie
Introduction
Les pages suivantes ont pour objet de préciser le sens des expressions : intelligence
artificielle (IA) et réseaux de neurones (RN).
L'IA recouvre le domaine et les RN en constituent actuellement l'outil principal.
On s'attachera à décrire les principes de base de ces méthodes sans aborder toutes
leurs nombreuses déclinaisons.
Au vue de leur rapide diffusion dans la société, il est aussi important de fixer leurs
limites, tant fonctionnelles que dans leurs conséquences sociales. Un chapitre sera
donc consacré à leur encadrement juridique.
Soulignons qu'à nos yeux IA et RN sont deux expressions maladroites prêtant à
confusion. Elles accréditent l'idée que ces méthodes imitent le fonctionnement du
cerveau et seraient donc vouées un jour à s'y substituer. Mais ajoutons que c'est aussi
la conviction de certains spécialistes de l'IA.
Cependant et à titre d'illustration, en reconnaissance de formes Google Image
présente un taux de réussite de 82% sur quelques centaines de catégories, légèrement
inférieur à la reconnaissance humaine de 88%. Cette performance est obtenue en
entraînant le réseau avec des centaines de milliers d'images de chats, par exemple, de
toutes les couleurs et dans de multiples situations.
Le maître mot des réseaux de neurones est en effet : apprentissage. Avant d'être
opérationnelles, ces machines demandent une longue étape où l'algorithme
« apprend » sous notre direction. Apprentissage est un mot séduisant qui nous
renvoie à l'enfance et une machine la mimant ne peut être à nos yeux que
prometteuse.
Mais l’apprentissage de Google Image est à comparer avec celui d'un enfant de
deux ans pour lequel sa mère ou son père lui désigneront trois fois le félin pour qu'il
le reconnaisse à vie. L'apprentissage n'est donc pas de même nature.
L'intelligence artificielle se retrouve donc au cœur de l'éternel débat entre l'inné et
l'acquis. Si l'acquis est prépondérant dans l'élaboration de notre intelligence, alors
une machine basée sur l'apprentissage est susceptible d'atteindre les mêmes
performances voire les surpasser.
En revanche si l'inné est primordial, alors aucun logiciel ne peut prétendre
remplacer les cent millions d'années d'évolution qui ont façonné un héritage
inaccessible à une machine. Un bébé devra certes, apprendre à marcher mais son
corps est déjà fait pour ça. Les apprentissages de notre enfance sont comme le bronze
coulé dans un moule fait tout exprès pour les recevoir et lui donner forme de vie.
Pourtant, même si nous pensons qu'une machine logique ne peut pas se copier
elle- même, nous pouvons nous inspirer de ses mécanismes, c'est le rôle de l'IA, mais
ce serait aussi de l'intelligence que de l'imiter sans se bercer d'illusions.
Par-delà ces considérations, ces méthodes connaissent un succès grandissant du
fait de leur efficacité et il est impossible de lister les domaines d'application tant ils
sont divers ; de la commande de processus industriels à la mesure des émotions sur
un visage ! Mais ils reposent tous sur le même principe, à savoir l'analogie d'un cas
avec ceux déjà observés. Les RN sont ainsi le domaine de l'interpolation et jamais de
l'extrapolation comme pourrait l'être une méthode scientifique.
Pour quelles raisons ces méthodes représentent-elles
une rupture ?
Si les RN constituent actuellement la méthode principale de l'IA, elle n'est pas la
seule. Des algorithmes classiques l'ont précédée dans ce qu'il est convenu d'appeler
les systèmes experts utilisés essentiellement pour de la classification. Ils utilisent une
modélisation préalable du problème, et partant des données initiales, parviennent au
résultat par une suite de déductions logiques en parcourant un arbre de décisions. Un
peu comme nous parcourrons une flore (petit ouvrage botanique) afin de nommer
une plante, où dans une suite d'observations le livre nous guide par étapes au
résultat.
Cette intelligence artificielle est dite symbolique, car elle s'appuie sur le
raisonnement formel et la logique.
Les RN se fondent sur une méthode totalement différente, l'IA qui en découle est
dite connexionniste car sa structure met en relation de multiples unités de traitement
élémentaires. Elle supplante aujourd'hui largement l'approche symbolique. Elle est
désormais bien plus simple à mettre en œuvre et permet en principe, de surmonter
les limites du modèle symbolique qui échoue à mettre en règles des problèmes aussi
compliqués que le traitement du langage : pensons à la grammaire française et à
l’exception qui confirme la règle ! En cette matière, les RN y parviennent mieux (mais
sans que l'on sache toujours bien pourquoi).
L'apparente supériorité de l'approche connexionniste réside dans le fait qu'il est
inutile de lui formaliser les règles. Les données brutes, fournies en grand nombre
suffisent au réseau pour y détecter des relations implicites, non formulées par nous-
mêmes.
Une fois l'observation faite sur des milliers de parties, une IA connexionniste peut
être un partenaire de jeu sans même en avoir appris les règles ! Elle les a intégrées au
cours d'une (très longue) période d'apprentissage représentant, ne l'oublions pas, un
énorme travail préparatoire. Un peu comme un enfant apprend à parler sans savoir la
grammaire.
Mais ne rêvons pas, si chacun d'entre nous limitait ses connaissances et sa
conduite à sa seule expérience alors l'humanité en serait toujours à l'âge de pierre !
Les règles, les lois et les savoirs se sont forgés au fil du temps par la somme des
expériences et des réflexions accumulées, les connaître est une condition pour
dépasser son propre horizon. Ainsi, un modèle uniquement connexionniste
semblerait ainsi condamner à redécouvrir sans cesse le déjà connu sans élaborer la
moindre connaissance.
Toutefois, sur des problèmes complexes avec plus de variables que notre esprit ne
peut en concevoir, les RN entraînés sur de grandes (très grandes) bases de données
sont capables d'y détecter des relations qui nous échappent et de trouver parmi la
multitude des causes possibles, les coïncidences menant par exemple à une maladie,
de découvrir des interactions médicamenteuses (pharmacovigilance), de débusquer
des structures dans des radios, de détecter enfin des relations cachées, révélées par
cette puissance combinatoire. Bref, d'augmenter nos capacités de discernement et
d'association.
Encore un point théorique afin de cerner précisément le domaine de validité des
méthodes connexionnistes. Les RN ne sont pas, comme on peut l'entendre, une
méthode inductive au sens où, partant d'observations elle remonterait aux principes.
Les RN n'ont que faire des principes, ils établissent juste des relations fortuites dans
un cadre stricte d'observations et, suivant l'expression consacrée, corrélation n'est
pas causalité, autrement dit ce n'est pas parce que j'ai remarqué qu'il fallait avancer
pour que mon vélo tienne debout que j'ai compris l'effet gyroscopique.
Les RN sont une méthode descriptive et non explicative, il est intéressant de noter
que leur domaine d'excellence est la reconnaissance de forme et non la connaissance
du fond. Un réseau de neurones est un bibliothécaire méticuleux qui classe des livres
sans n’en avoir lu aucun.
Mais la détection d'une tumeur dans une radio, le repérage d’interaction
médicamenteuse sont les domaines où les RN deviennent irremplaçables, en
revanche comprendre les mécanismes d'un cancer ou les réactions chimiques ne sont
pas de ses compétences.
Une bonne illustration de ces deux concepts, symbolique versus connexionniste,
concerne la prévision météo. Pour prévoir le temps des jours à venir nous avons
schématiquement deux manières de faire.
Premièrement : acquérir une connaissance suffisante du comportement des
masses d'air grâce à la mécanique des fluides afin d'établir les équations générales du
mouvement permettant la prédiction.
Deuxièmement : disposer des archives (depuis 1850 à Paris) et chercher dans le
passé une séquence semblable à celle actuellement observée. Supposant que les
mêmes causes produisent les mêmes effets nous pouvons alors, dans une sorte de
copié-collé, prévoir le temps dans une espèce de « rétro-prévision ».
La première méthode est scientifique, la seconde est statistique. La première
cherche à comprendre le phénomène, pas la seconde.
Autre exemple : nous cherchons à reconnaître un carré sur des photos de
polygones. On peut d'abord dire qu'un carré est un quadrilatère ayant quatre côtés
égaux et quatre angles droits et faire l'analyse correspondante pour le prouver.
On peut aussi concevoir un RN auquel on présentera en phase d'apprentissage des
milliers de dessins de polygones en tous genres en lui indiquant pour chacun s'il s'agit
d'un carré ou non. Si la base d'apprentissage est bien faite (contient assez de carrés
mais pas trop), le RN reconnaîtra alors les carrés. C'est une méthode en l'occurrence
un peu niaise mais où l'on s'économise la définition à priori des propriétés de la
forme à rechercher. Remarquons que même avec 100% de réussite et même s'il fait
mieux que moi, le réseau ne comprendra jamais rien à la géométrie. Si je veux
maintenant des triangles rectangles, je dois tout recommencer.
Là aussi la première méthode est scientifique quand la seconde est statistique et ne
cherche aucunement à comprendre les propriétés du carré.
C'est pourtant cette dernière qui préside à la constitution des RN car lorsqu'un
problème complexe, (bien plus complexe que définir un carré), apparaît comme
inaccessible à la compréhension, les RN semblent une approche pertinente pourvu
que l'on dispose d'archives suffisantes et correctement structurées.
Là se situe le point névralgique de ces méthodes. On conçoit en effet que dans une
approche statistique, plus les données sont nombreuses et de qualité, meilleurs
seront les résultats.
A ce propos, une étude du début de 2019 signale que la moitié des projets d'IA
menés dans les entreprises sont des échecs à cause du manque de données
nécessaires à l'apprentissage.
Comment ça marche ?
La structure du réseau
Position du problème :
On dispose d'une collection de mesures circonscrites dans un domaine d'étude. Ce
sont les données dont chacune dépend de plusieurs variables, leur nombre est la
dimension du problème.
Ce peut être des points de l'espace et leurs trois coordonnées, ou pour un individu :
le poids, la taille, le taux de cholestérol etc... , ou encore les milliers de pixels d'une
image.
Les relations qu'entretiennent ces variables ont des conséquences mesurables, des
effets matérialisés par des résultats. Ainsi certaines combinaisons du tableau clinique
d'un individu mènent à une pathologie, les relations entre les pixels d'une image
dessinent un caractère. Imaginons aussi la course d'un ballon qui s'élève et retombe
plus loin. Nous avons une dizaine de photos de sa trajectoire. Chacune représente un
point dans un plan avec deux coordonnées. Le problème est à deux dimensions (les
photos étant successives, le temps est une variable implicite). La hauteur et la
distance sont en relation. (Ici le problème est simple : cette relation est la trajectoire
et c'est une parabole. Mais en pratique on utilise des RN pour des problèmes avec
davantage de dimensions.)
Le but du RN est de détecter des relations entre les variables. Autrement dit,
d'établir une expression analytique, c'est-à-dire à dire une formule qui les relie. Il
s'agit donc de passer d'une suite discontinue à une représentation continue en
joignant les mesures par une courbe. Ceci permettra ensuite d'obtenir un résultat en
tout point du domaine de définition (la trajectoire entre les deux points au sol par
exemple), c'est-à-dire à dire hors des points de mesure qui sont peu nombreux, car il
faut imaginer en général l'espace de représentation majoritairement constitué de
zones aveugles.
La mise en évidence des relations entre variables est la définition même d'une
fonction. C'est cette dernière que nous cherchons mais nous n'en avons aucune idée.
Mais... mais nous avons des exemples hérités du passé et dûment étiquetés quant au
résultat escompté. Il s'agit donc d'un raisonnement inductif dans la mesure où,
connaissant les effets, on désire remonter à la cause.
On matérialisera donc notre outil sous forme d'une fonction mais modestement,
sans autre ambition qu'une pure description, une fonction phénoménologique,
empirique, car faute d'un raisonnement déductif, scientifique, et de l'ignorance totale
dans laquelle nous nous trouvons, l'idée est d'en concevoir une « toute faite ». Une
sorte de fonction universelle assez souple, construite de manière à s'adapter au mieux
au couple données-résultats que l'on possède.
Cette fonction définit l'architecture du réseau : le réseau c'est la fonction et la
fonction c'est le réseau, soit le nombre de couches et le nombre de neurones par
couche. Une fois ce plan global établi, le réseau devient donc une structure de calcul
rigide, sans possibilité d'adaptation. Et si à la suite de l'apprentissage elle ne convient
pas, alors on en conçoit une autre en changeant simplement l'architecture du réseau.
Cependant, il faut se ménager des degrés de liberté à une échelle plus fine. Ainsi, à
l'intérieur d'un cadre strict on se réserve des paramètres que l'apprentissage précisera
comme on règle une machine avant de s'en servir.
Une telle approche non déterministe, faite un peu au hasard était inconcevable il y
a trente ans, mais désormais la puissance de calcul disponible en donne la possibilité.
Maintenant comment construire la fonction adéquate comme un tailleur fait une
robe ?
Il faut imaginer qu'une expression algébrique puisse être constituée comme la
somme de fonctions élémentaires connues. Après tout une simple parabole f(x) = ax²
+ bx, peut être vue comme la somme des fonctions élémentaires x² et x affectées des
coefficients a et b. Mathématiquement on parle de développement en série et nous
pouvons supposer que la fonction que nous cherchons s'exprime elle aussi comme la
somme de fonctions élémentaires, ou fonctions de base, affectées chacune d'un
coefficient.
Une fois cette hypothèse posée (c'est ni plus ni moins celle des séries de Fourier) il
convient alors de choisir les fonctions élémentaires ainsi que leur nombre.
Ces fonctions sont paramétrables, l'apprentissage précisera la valeur des
paramètres. Un tel développement en série s'apparente à une sorte de jeu de
construction où l'on disposerait de fonctions de base assez souples, déformables (c'est
le rôle des paramètres), pour que leur somme puisse épouser n'importe quel gabarit.
Bien sûr, le nombre nécessaire d'éléments de la somme doit être raisonnable et même
le plus faible possible pour un ajustement donné. On parle alors d'approximation
parcimonieuse.
Ces considérations mathématiques sont abordées dans la seconde partie mais on
peut dès lors imaginer le réseau dans ses deux états successifs :
- d'abord pendant l'apprentissage supervisé qui est chargé de le paramétrer,
- puis en exploitation où il se comporte comme une machine à calculer qui, à
partir des entrées, fournira un résultat.
Plus généralement, quel est le résultat attendu ? Qu'attendons-nous en sortie ? On
demande essentiellement deux choses à un RN :
Ces deux problématiques sont résolues de manière assez semblable par un RN. Il
s'agit toujours de rechercher une expression analytique qui représentera soit une
formule, soit une frontière.
On note que les variables sont ajoutées sous la forme d'une combinaison linéaire.
Le neurone caché est en fait la petite fonction universelle « toute faite » que nous
avons évoqué plus haut. Appelons la ∫. (La théorie des fonctions ∫est développée
dans la partie mathématique). Les sorties de la première couche sont donc de la
forme :
et le second :
Résultat = C15. ∫ [C9. ∫ (C1.x1+ C2.x2+ C3.x3+ C4.x4) + C10. ∫ (C5.x1+ C6.x2+
C7.x3+ C8.x4)+ C11. ∫ (C9.x1+ C10.x2+ C11.x3+ C12.x4)] +
C16. ∫ [C12. ∫ (C1.x1+ C2.x2+ C3.x3+ C4.x4) + C13. ∫ (C5.x1+ C6.x2+ C7.x3+
C8.x4) + C14. ∫ (C9.x1+ C10.x2+ C11.x3+ C12.x4))]
N = d.n1 + n1.n2 + n2
où d est la dimension du problème, ici 4. Avec n1=3 et n2=2.
Remarquons qu'en multipliant le nombre de couches on fait de même avec les
coefficients dont la détermination pendant l'apprentissage sera sans doute délicate.
Autrement dit, moins il y a de couches mieux ça vaut, tant que l'apprentissage s'en
arrange.
Enfin, on distingue bien deux niveaux de définition.
Le premier est rigide et donné par l'architecture du réseau. Ici deux couches de
quatre et trois neurones. Cela fixe le développement en série des fonctions ∫ estimé
nécessaire pour rendre compte des relations entre les variables.
Le second donne les degrés de liberté à l'intérieur de ce cadre et représente le
paramétrage induit par le résultat imposé lors de l'apprentissage.
Je vais montrer à quatre réseaux construit à priori (les futurs séparateurs) des
milliers de photos de printemps, d'été... en prenant soin d'avoir autant d'exemples de
chaque saison. Puis, pas à pas, par différences entre les classes, (et un réseau de ce
type peut être considéré comme un opérateur différentiel) il va ajuster ses paramètres
jusqu'à ne plus commettre, en principe, d'erreur de classification sur la base
d'exemples. Les paramètres sont alors fixés et l'apprentissage terminé.
Imaginons d'abord le plus simple des réseaux représenté ici (en réalité un réseau
pour chaque saison) :
Entrées : Pixels de la photo
Sortie : décision
Réseau monocouche pour une séparation linéaire
En toute rigueur, on ne peut guère parler de réseau car il n'y a pas de neurone
caché. Ce type de structure effectue une simple séparation linéaire entre les classes.
Autrement dit, si l'apprentissage est un succès cela implique qu'il existe des droites,
ou plutôt des hyper plans, qui séparent les classes les unes des autres. Il se trouve que
ce cas est fréquent et il est alors inutile d'envisager un réseau plus compliqué.
Il est ainsi probable que notre problème de classification des saisons fonctionne
avec cette simple architecture. Mais si ce n'est pas le cas ? Observons les figures
suivantes :
Maintenant comment faire quand les classes ne sont pas linéairement séparables
et donc que l'apprentissage d'un réseau linéaire échoue.
Résumé
Un réseau de neurones est une formule de calcul chargée d'établir d'éventuelles
relations entre les variables constituant les données. Cette formule n'est pas le
résultat d'un raisonnement déductif mais est fixée à priori. Sa définition est soumise à
l'hypothèse que les relations entre les variables sont formalisables par une fonction
assez régulière pour être développée en série de fonctions élémentaires
paramétrables.
Afin de se ménager une faculté d'adaptation dans ce cadre rigide, il y a de
nombreux paramètres à déterminer. Ce réglage oblige à passer par une étape
d'apprentissage faite à partir d'exemples hérités du passé.
Au terme de l'apprentissage le RN est opérationnel afin de fournir un résultat pour
n'importe quelle entrée à condition d'être à l'intérieur du domaine délimité par les
exemples. Le RN fonctionne par interpolation, jamais par extrapolation.
Afin d'y voir plus clair, divisons les données en deux types :
- les données impersonnelles ou anonymes.
- celles qui sont nominatives avec deux cas : celui des états et celui des
entreprises privées.
Il existe donc un institut national des données de santé qui se prononce sur la
conformité des travaux engagés et donc sur les applications à base de RN.
Ces précautions sont absentes aux États-Unis où Google vient de vient de signer
dans la plus grande discrétion, un accord avec Ascension, l'un des plus gros acteurs
de la santé qui exploite 2 600 sites de soins et 150 hôpitaux. Au terme de celui-ci
Google récupère les dossiers médicaux complets de millions d'Américains : identité
des patients, diagnostics, résultats d'examens, antécédents... Sans qu'aucun des
intéressés n'ait été prévenu ! Pour en faire quoi ? Nul ne le sait précisément, mais il
est peu probable que cette récolte serve la recherche médicale, longue et incertaine
alors que ces données ont une valeur marchande immédiate, si bien que même le
ministère de la santé s'en émeut... tardivement.
Nous pourrions également évoquer la vogue des objets connectés, vecteurs de
nombreuses données de santé nominatives : fréquence cardiaque, pression artérielle,
glycémie etc... qui sont envoyées directement chez les GAFA qui peuvent ensuite en
faire commerce sans cadre légal. Tout ceci témoigne de l'avancée de ces acteurs dans
la santé considérée comme stratégique.
Le RGPD
Le Règlement Général pour la Protection des Données, RGPD du 25 mai 2018, fixe
un cadre européen pour la circulation et la protection des données personnelles.
Reprenons ici la définition d'une donnée personnelle.
Une donnée personnelle (ou donnée à caractère personnel) est une information
qui concerne une personne physique, identifiée directement ou indirectement. Il peut
s’agir d’un nom, d’une photographie, d’une adresse IP, d’un numéro de téléphone,
d’un identifiant de connexion informatique, d’une adresse postale, d’une empreinte,
d’un enregistrement vocal, d’un numéro de sécurité sociale, d’un mail, etc...
Certaines données sont sensibles car elles touchent à des informations qui peuvent
donner lieu à de la discrimination ou des préjugés : une opinion politique, une
sensibilité religieuse, un engagement syndical, une appartenance ethnique, une
orientation sexuelle, une situation médicale ou des idées philosophiques sont des
données sensibles. Elles ont un cadre particulier, qui interdit toute collecte préalable
sans consentement écrit, clair et explicite, et pour des cas précis, validés par la CNIL
et dont l’intérêt public est avéré.
Le RGPD est la première tentative légale, mais tardive, pour encadrer les menaces
que l'utilisation exubérante de l'IA fait indéniablement planer sur les libertés
publiques et les démocraties. Elle semble constituer une prise de conscience générale
et bien qu'outre atlantique les scrupules ne soient pas les mêmes cette réglementation
semble faire école. Après tout, il existe des lois sur la bioéthique que tout le monde
comprend et donc accepte, elles pourraient donc être un exemple dans un domaine
tout aussi grave.
Néanmoins, les gouvernements européens font face à un débat cornélien. Brider
l'utilisation de ces méthodes alors que d'autres n'ont aucun scrupule à les déployer
sans vergogne, n'est-ce pas prendre le risque d'un retard technologique ? Les États-
Unis et la Chine investissent massivement dans l'IA, les premiers surtout dans le
domaine militaire et les seconds dans le contrôle des personnes.
Il ne fait aucun doute que l'IA ne tiendra pas toutes ses promesses car nous
assistons aujourd’hui à un engouement irrationnel et une grande partie des milliards
investis est gaspillée, mais laquelle ? Comment le savoir ? Quelle est la priorité, la
liberté ou la sécurité ? Mais la première existe-t-elle sans la seconde ? C'est un débat
infini car on sent bien qu'il s'agit là d'une question fondamentalement politique. Il
existe deux dangers pour les nations : le désordre et l'ordre.
Enfin d'après certains juristes, ce texte semble difficilement capable de répondre
aux besoins d’encadrement des entreprises du secteur des Big Data et donc de celui
des applications liées à l’intelligence artificielle. Il arrive bien tard car appliqué il y a
vingt ans, il aurait sans doute évité que 80% des données personnelles des européens
soit siphonnées par les GAFA.
Le destin de ces grandes réformes législatives serait-il d'avoir toujours un train de
retard sur des pratiques techniques et commerciales évoluant très rapidement ? Le
temps de la loi est moins que jamais celui du business mais il n'existe pas de
démocratie sans contre-pouvoir judiciaire.
Quatre exemples d'utilisation des réseaux de
neurones
1 Reconnaissance optique de caractères (OCR)
Il s'agit sans doute là, de la plus ancienne application des RN. Pourquoi, direz-
vous, utiliser une méthode compliquée alors qu'il suffit d'une base de dessins des
caractères alphanumériques puis de venir y superposer le signe inconnu pour trouver
celui qui coïncide le mieux ? Donc une simple méthode par corrélation. C'est possible,
mais on peut faire beaucoup mieux.
En effet, dans la méthode par corrélation chaque caractère est considéré
indépendamment de ses voisins, or, on reconnaîtra bien mieux une forme inconnue
par comparaison avec l'ensemble des signes de référence plutôt que par simple
appariement en ignorant le reste. Il convient donc de créer à partir des caractères
initiaux une nouvelle base qui exprimera leurs différences : une base différentielle en
quelque sorte. Ceci revient à substituer chaque caractère par son séparateur d'avec
tous les autres. Pour le séparateur du 0 : quels sont les pixels qui différencient 0 du 1,
du 2.. ? Et ainsi de suite pour chaque classe. Certaines portions des graphes sont
présentes dans la majorité des graphes et participent donc peu à la discrimination, les
coefficients correspondant à ces pixels seront donc faibles, en revanche ceux qui
matérialisent la diagonale seront importants pour reconnaître un 2 ou un 7.
Un réseau de neurones calcule ces plans séparateurs et construit ainsi un pavage
de l'espace de représentation où les frontières séparent les classes. Après
apprentissage sur une base de dessins ou un échantillon réel, le RN construit autant
de séparateurs que de caractères à reconnaître. En exploitation, il suffit de présenter
le signe inconnu devant chaque séparateur pour déterminer sa classe d'appartenance.
Ce domaine à récemment fait de gros progrès avec l'utilisation de nouveaux RN
par convolution (CNN). Une couche supplémentaire est ajoutée en entrée du réseau
permettant d'extraire, par apprentissage les caractéristiques des graphes. Le résultat
de cette opération préalable sert ensuite d'entrée au réseau classique à la place des
caractères eux-mêmes.
Les résultats obtenus sur des bases de milliers de caractères de référence tutoient
les 99,8%. (Remarquons toutefois que pour une page de 1100 caractères comme celle-
ci, cela représente 2 ou 3 erreurs.)
2 L'imagerie médicale
C'est un domaine en pleine expansion. Il existe même des bases de données
homologuées constituées de milliers de radiographies (mammographies, radios
pulmonaires), afin d'entraîner des RN.
Qu'attendons-nous ici de leur utilisation ?
Actuellement, l'analyse d'une mammographie mobilise deux radiologues.
L'intervention d'une IA permettrait de poser un premier diagnostic ensuite validé par
le radiologue. L'IA intervient donc dans ce cas comme une aide à la décision, comme
un premier filtre afin de ne proposer aux médecins que les cas litigieux. Mais nous
pouvons également imaginer une IA très performante capable d'une analyse plus fine
qu'un professionnel. Quel serait alors le protocole ?
Les performances de dépistage du RN reposent évidemment sur la qualité et les
nombres de radios utilisées pendant l'apprentissage. Ce sont des centaines de milliers
de clichés, dûment labellisés, qui l'alimentent. Mais combien de clichés normaux
relativement aux pathologiques doit-on y mettre ? Quelle est la meilleure architecture
du réseau ? Quant aux inévitables erreurs : il faut évidemment éliminer les faux
négatifs (c'est à dire passer à côté d'un cancer) mais au prix de combien de faux
positifs, terriblement anxiogènes ? Il y a encore du chemin à faire.
Récemment mon ophtalmo, parlant de l’analyse par RN des photos de la rétine, me
faisait part de son étonnement devant la clairvoyance de cette méthode. Elle est
capable de déterminer à 97% le sexe du patient (uniquement à partir du cliché
rétinien) alors que lui en est incapable ! Avec lui nous devons nous interroger devant
ce miracle. Évidement de miracle il n'y en a point, mais on peut penser que nous,
humains, trouvons seulement ce que nous cherchons ; autrement dit nous avons des
a- priori, des œillères que n'a pas la machine. L'absence de préjugés, sur des signaux
en entrée du RN (nous verrons qu'il n'en va pas du tout de même ailleurs), est une
précieuse qualité des RN, reste qu'il est embêtant, vraiment très embêtant que la
machine ne puisse pas expliquer ce qu'elle fait, et il serait regrettable qu'elle nous
oblige à accepter ses résultats sans les comprendre.
Il ne fait aucun doute que les GAFA œuvrent au bonheur de l'humanité (sans aller
toutefois jusqu'à payer leurs impôts), mais cette pression constante, cette lourde
évidence d'un progrès inéluctable, cette incitation si bien orchestrée pour l'utilisation
d'une technologie dont ils tirent le plus grand profit jette une ombre sur son bien
fondée, comme un doute avant de s'engager sur un chemin trop complaisamment
indiqué.
L'intelligence artificielle dans une épidémie comme
le Corona virus
Cette approche est moins solide que les précédentes dans la mesure où elle est
soumise à trois hypothèses :
- les mêmes causes produiront toujours les mêmes effets.
- l'expérience embrasse la totalité des possibles.
- l'expérience est objective.
Dans l'exemple météo, dans quelle mesure le réchauffement climatique invalide-t-
il l'hypothèse de la reproductibilité du passé ?
Pour l'exemple judiciaire, dans quelle mesure l'examen des cas anciens prétend-il
être le juste reflet de l'étendu du présent ?
Et troisièmement, les populations servant d'étalonnage sont-elles justement
représentées ? C'est la question des biais dans l'apprentissage (par exemple, sur-
représentation des Afro-Américains dans les condamnations).
Dans la pratique, la première hypothèse est souvent vérifiée : invariance dans le
temps ; les mêmes causes produisent les mêmes effets.
La seconde ne l'est évidement jamais, même si on peut faire semblant. On ne peut
pas prétendre avoir tout vécu.
Enfin, la troisième n'est souvent vérifiable qu'à posteriori ! On ne s'aperçoit des
erreurs qu'après coup.
Maintenant, mettons en œuvre un RN et reprenons nos quatre exemples à l'aune
de nos hypothèses. Sont-elles raisonnablement respectées ?
OCR
Pour la reconnaissance des caractères la première hypothèse est remplie car il
s'agit d'un problème indépendant du temps.
La seconde est plus problématique. En effet, si mon but est de reconnaître les
caractères écrits ou provenant de photographies plus ou moins bonnes, les
déformations et fluctuations autour des formes canoniques est quasiment infinie :
distorsions en tout genre, variation de lumière, effacement partiel etc...
Ainsi, même avec une base d'apprentissage de dizaines de milliers de caractères,
les formes incidentes ne seront probablement jamais celles ayant servi à
l'apprentissage. C'est le rôle du RN de généraliser afin de raccrocher ce graphe à un
caractère. Mais quelle est sa tolérance ? Les habitués savent bien qu'il suffit parfois de
déplacer quelques pixels pour faire basculer le résultat.
La troisième contrainte concerne l'équilibre de la base d'échantillons. A première
vue il semble raisonnable de mettre autant d'exemples dans chaque classe. Mais s'il
s'agit de caractères alphabétiques dans un texte français ne conviendrait-il pas mieux
de respecter la fréquence d'apparition de chaque lettre dans la langue (donc plus de e
que de h) ? A vous de voir.
Imagerie médicale
Là encore la première hypothèse semble satisfaite dans la mesure où l'espèce
humaine n'évolue pas au point où même mille ans d'archives pourraient détecter la
moindre différence. Pourtant des changements de mode de vie pourraient induire des
modifications dans l'apparition des troubles. Comme on l'ignore nous supposerons
raisonnablement que les archives reflètent correctement l'état du présent.
La deuxième hypothèse est-elle vérifiée ? Il est impossible de prétendre que les
échantillons recouvrent toutes les virtualités. Néanmoins au fil du temps et de
l'accroissement des bases on peut espérer tendre vers une vérification raisonnable.
C'est une hypothèse sur l'hypothèse.
Respecter la troisième contrainte est affaire de spécialistes et de mise au point. Il
s'agit d'équilibrer la base d'apprentissage avec un ratio de clichés normaux et
pathologiques à trouver. A tenir compte aussi de l'âge des patients, de leurs
antécédents, de leur patrimoine génétique etc...
On voit que cet équilibre est surtout empirique, fait d'essais, d'erreurs... un long
chemin.
Compagnie d'assurance
Nous sommes ici dans une application de l'IA nominative où l'évolution des
comportements suit celle de la société. Les données collectées il y a vingt ans sont-
elles encore valables ? Dans les critères retenus est-il pertinent de mentionner une
pension d'ancien combattant ou de demander si l'assuré a eu la tuberculose alors que
d'autres maladies apparaissent ? L'invariance des données est ici une vraie question.
Deuxième hypothèse : les données recouvrent-elles tous les cas possibles ? Si elles
sont réactualisées, on peut penser que oui. Les cas individuels des assurés ne
représentent pas des combinaisons infinies et l'on peut penser qu'ils sont tous
répertoriés.
Troisièmement, existe-t-il des biais dans les données ? Autrement dit, les critères
retenus pour décrire les personnes sont-ils équilibrés ? Nous verrons dans le chapitre
suivant que ce point est capital dans les applications nominatives des RN car il suffit
qu'un des attributs soit statistiquement déséquilibré (par exemple trop de parisiens
pour le critère du lieu d'habitation, pas assez de femmes pour les conducteurs) pour
que celui-ci devienne prépondérant dans la décision du RN suivant un mécanisme
que nous analyserons. C'est ici au concepteur du réseau de structurer les données
convenablement. Le plus gênant, c'est que même avec la meilleure volonté on ne
puisse s'apercevoir des biais que durant l'exploitation, donc trop tardivement.
Application judiciaire
Les arguments développés pour le cas de l'assurance sont largement transposables,
sauf qu'ici le problème des biais dans les données devient crucial. Il est question de
justice. Or, dans la centaine de questions posées aux détenus combien d'entre elles
sont statistiquement déséquilibrées ou inutiles comme nous l'avons vu
précédemment ? La représentation excessive de certaines populations dans les
condamnations, largement supérieure à leur ratio dans la population, ne donne guère
confiance dans ces algorithmes qui par principe sont récursifs puisqu'ils fondent leur
prévision sur des jugements passés et déjà biaisés.
La troisième hypothèse n'est donc pas respectée et le concepteur est contraint de
revoir la structuration de ses données. A la suite de ce travail il s'apercevra
probablement de l'apparition de nouveaux biais suivi d'une autre remise à jour et
ainsi de suite...
Nous constatons sans surprise que la prédiction est un art difficile surtout, comme
c'est le cas des RN, où le mode d'observation est un rétroviseur.
Si dans les applications anonymes et les processus industriels une certaine
extrapolation est concevable de par l'invariance des données, celles concernant des
personnes au sein d'une société en évolution est plus problématique.
Les écueils proviennent justement de l'évolution des mentalités et des
comportements qui rend discutable l'utilisation des archives.
Afin de s'affranchir de ce décalage, les acteurs du Net qui disposent de données en
temps réel peuvent entraîner des réseaux en continu (dans une débauche de Kilowatt
heure ! Mais on le verra, la sobriété n'est pas une valeur de l'IA). Dans cette réduction
du décalage entre le passé de la base d'apprentissage et le cas présent, le réseau
devient plus réactif avec comme projet un profilage permanent. Ils peuvent ainsi
« prévoir », disons deviner, si nous allons cliquer sur une publicité en fonction du
comportement que nous avons eu la veille.
Mais l'essentiel du problème réside surtout dans les biais induits par la
structuration des données ce qui est l'objet du chapitre suivant.
Ainsi, comme nous l'avons déjà noté, avant de se lancer, il convient de bien évaluer
les frontières de ces méthodes, autrement dit de ne pas leur demander la lune sachant
que par principe leurs limites sont celles d'une description fortuite, comme on voit
des formes dans les nuages.
Imaginons que depuis l'antiquité grecque on ait archivé le mouvement des
planètes. Louis XIV décide ensuite de créer un gros réseau de neurones s'appuyant
sur toutes ces données. Nous disposerions maintenant d'une belle IA qui décrirait le
système solaire sans avoir eu besoin ni de Newton ni d'Einstein et conceptuellement
nous en serions à l'âge de pierre.
Il est intéressant de disposer de very Big Data et d'une grande puissance de calcul,
mais il est déraisonnable quand on a un gros marteau de voir des clous partout.
Erreurs et biais
Une mesure physique est toujours accompagnée de son incertitude, de même
conviendrait-il d'évaluer les résultats en sortie des RN.
Ici, encore les RN se distinguent des méthodes numériques classiques.
Dans le cas où le résultat d'une application est faux ou jugé trop imprécis, le
développeur passe en mode debug. Il déroule le code pas à pas jusqu'à trouver
l'erreur, la corrige, compile le programme et tout repart jusqu'à la prochaine. Les
outils de correction à sa disposition sont désormais très élaborés, fruits de décennies
de casse-têtes et de crises de nerfs.
Par contre, quand un RN faillit, ceux qui l'ont conçu ne possèdent aucun moyen
pour le corriger car l'erreur est diffuse, éparpillée sur les milliers de coefficients fixés
au terme de l'apprentissage. Il faut alors revoir l'architecture du réseau ou bien, plus
vraisemblablement, refaire la base et l'apprentissage du réseau ce qui représente
souvent un travail énorme.
Les erreurs sont de deux types. Il y a les erreurs flagrantes : la substitution d'un
caractère dans une reconnaissance automatique par exemple. Ce type d'erreur révèle
un aspect gênant des RN qui ne savent pas s'abstenir. Un RN ne sait pas répondre : je
ne sais pas. Si je lui donne à reconnaître une lettre grecque, donc hors de la base
d'apprentissage, j'obtiendrais de toute façon une réponse, évidemment fausse, et
même avec un score de confiance honorable. Les RN ne connaissent pas le doute.
Il y a également les erreurs flagrantes et dramatiques : une cycliste tuée par une
voiture autonome en 2018 (sans que le véhicule ait fait la moindre manœuvre
d'évitement !?).
En second il y a les erreurs pernicieuses. Pourquoi cet adjectif ? Parce qu'il s'agit ici
de biais. Un biais, du verbe biaiser, est une erreur dont les conséquences ne sont pas
conscientes. On parle ainsi de biais cognitif pour parler d'un raisonnement faussé par
des préjugés ou des idées préconçues par exemple.
Résumons : les RN sont des algorithmes qui jugent du présent en se référant à des
états passés. Nous avons émis trois hypothèses pour que cette méthode fonctionne,
notamment que la base d'apprentissage soit objective, voici comment cela peut ne pas
être le cas, ou comment biaiser un réseau de neurones en toute discrétion.
Imaginons un RN qui prend une décision : oui/non, à propos de personnes. La
base d'apprentissage comporte des milliers d'individus. Par simplification imaginons
que chacun soit caractérisé par deux attributs : le sexe et l'âge. Les répartitions sont
équilibrées entre les femmes et les hommes et les âges sont uniformément
représentés.
Il se trouve qu'en fonction du critère de décision oui/non, la réponse par sexe est
clivante alors que les âges sont équitablement distribués. Autrement dit, les femmes
répondent de la même façon et inversement pour les hommes ; on dit que la variance
suivant ce critère est grande (la variance mesure l'étalement de la distribution). Lors
de l'apprentissage supervisé, le RN cherche à établir des différences, à trouver un
séparateur entre la classe oui et la classe non. Comme l'âge n'est pas discriminant, le
RN va s'appuyer sur l'autre attribut, celui qui est déséquilibré. Ensuite, en
exploitation, quand une personne est présentée au RN, c'est l'attribut du sexe qui est
prépondérant et détermine donc la réponse de la machine.
Il s'avère donc que si parmi les critères retenus afin de décrire un individu, l'un
d'eux (ou plusieurs) présente une distribution statistiquement déséquilibrée dans la
base d'apprentissage, il acquiert de ce fait une plus grande importance et croyant
juger en fonction de tous les critères, en réalité un seul compte et détermine la
réponse : les dés sont pipés. On appelle ceci un biais.
Cet effet est bien connu des statisticiens qui pondèrent les attributs en fonction de
leur variance (leur déséquilibre) pour contrebalancer le biais, mais la correction
semble moins appliquée par les concepteurs de RN.
En effet objectera-t-on, si un critère présente une distribution déséquilibrée c'est
peut être aussi une information objective, car après tout il existe des informations
plus importantes que d'autres et il n'y a donc pas lieu de normer les attributs en
fonction de leur variance.
Encore un exemple (purement imaginaire) : les filles sont sous-représentées dans
les filières informatiques. Imaginons un RN qui fasse l'orientation post-bac dont la
base d'apprentissage est historique avec autant, sinon plus de filles que de garçons.
Au sein de cette base on caractérise chaque étudiant par un jeu de critères (peut-
être une douzaine), dont le sexe.
Pour la classe de sortie filière informatique et pendant l'apprentissage supervisé,
on demande au RN de confirmer la sélection des candidats telle qu'elle s'est effectuée
les années précédentes. Pour chaque étudiant de la base, on lui indique la réponse
qu'il doit donner, admis ou non.
Or, le critère sexuel est déséquilibré, historiquement très excluant, comme le RN
cherche à établir une différence il s'appuie sur celui qui en présente le plus et ce
critère devient alors mécaniquement prépondérant car du point de vue du RN c'est
un bon séparateur. Durant l'apprentissage le calcul des coefficients tire profit du
critère le plus dispersé pour séparer la classe de sortie des autres, et ceci à notre insu
(si l’on n’est pas averti).
Une fois l'apprentissage terminé, en phase d'exploitation les filles seront alors
discriminées et orientées ailleurs. Le RN va donc reproduire les inégalités. D'autant
que les résultats présents viendront alimenter la base de l'année suivante et rien ne
changera dans une préoccupante récursivité.
Convient-il alors de pondérer ce critère et faire de la discrimination positive ? Pas
du tout répondront les conservateurs, car si les filles sont sous-représentées dans
cette discipline c'est sans doute pour une bonne raison et d'ailleurs il n'y en fort peu
dans la Silicon Valley etc, etc... Bref, sous le couvert de la neutralité technique,
l'utilisation d'une IA par un RN peut devenir très politique.
Pour les applications nominatives, nous constatons que les biais ne proviennent
pas tant des données elles-mêmes que de leur structuration sous la forme d'un jeu de
critères dont le responsable est le concepteur du réseau. Il n'y a donc pas d'objectivité
scientifique dans ce domaine car il n'y a pas vraiment d'indépendance entre le sujet et
l'objet de son étude. Les données brutes ne parlent pas d'elles-mêmes, elles ne
cachent aucune vérité qu'une méthode, aussi élaborée soit-elle, révélerait comme par
magie. Il existe en réalité une conception préalable de ce que l'on cherche qui conduit
à leur faire dire ce que l'on veut. Un RN n'est pas un instrument de mesure comme un
microscope, l'algorithme décrit ce que son auteur y a mis et ne lui montre que ses
propres empreintes.
La question des biais dans les bases d'apprentissage est donc très grave. Même
avec un soin méticuleux et honnête apporté à la structuration des données, les biais
qui surviendront ne seront visibles qu'en exploitation. Le plus dangereux serait de
l'ignorer, de croire sur parole un algorithme telle la pythie. Si l'on y prend garde les
RN seront le miroir de nos conservatismes.
Alors soit les décideurs font preuve de naïveté en prêtant aux RN, sous le charme
d'une sorte de pensée magique, des facultés qu'ils n'ont pas et vont au-devant de
désillusions, soit il y a manipulation et sous couvert d'impartialité technique il y a en
réalité des intentions.
A la suite de ces remarques, il est tout à fait étonnant de remarquer qu'une
méthode présentée comme disruptive, pour reprendre un terme à la mode, se révèle
au contraire et par principe, conservatrice. Sous un vernis technico-scientifique high-
tech il serait paradoxal que dans le domaine social les RN mènent à l'uniformité et au
conformisme.
Introduction
On présente souvent les réseaux de neurones comme des boîtes noires où, à l'issue
d'un apprentissage, des connexions se sont établies dans le silicium aussi
mystérieusement que dans le cerveau d'une grenouille avec au final des résultats
épatants. Cette représentation tient plus de la pensée magique que de la lucidité et,
pour une personne normalement curieuse, elle est difficilement acceptable. Nous ne
nous dispenserons donc pas de soulever le capot.
Il est rare qu'une méthode émergente soit totalement neuve. Il existe des filiations
avec des théories ou des tentatives anciennes qui n'avaient pas trouvé, faute d'intérêt
ou de moyens, d'expression concrète. Il advient un jour où la convergence de facteurs
externes mène ces méthodes à leur maturité et leur utilisation à grande échelle.
Les réseaux de neurones n'échappent pas à cette observation. Les facteurs
permettant leur utilisation actuelle sont : la puissance de calcul, les données
disponibles : les Big Data, et l'existence de grandes entreprises assez puissantes pour
mener à bien leur industrialisation.
Afin d'ancrer les RN dans la continuité d'un savoir éprouvé, nous insisterons donc
sur une analyse mathématique reposant sur des principes connus.
Les RN ont deux objectifs : faire de la régression et de la classification. Ces deux
applications sont liées dans leur principe.
Il s'agit fondamentalement de joindre par une courbe une série de mesures.
Chacune possède plusieurs éléments, ce sont les variables car elles diffèrent pour
chaque point de mesure. Ce sont, au fond, ses coordonnées, comme un point de
l'espace euclidien en a trois. Ce nombre fixe la dimension de l'espace de
représentation.
Une suite de mesures, c'est à dire de points dans cet espace, dessine,
éventuellement et si elle existe, une relation entre les variables que l'on peut imaginer
comme une trajectoire formalisable par une fonction analytique (qui se traduit par
une expression algébrique). Autrement dit, il s'agit de passer d'une série discontinue
à une représentation continue.
C'est cette fonction que l'on cherche car son existence permet ensuite d'obtenir un
résultat en tout point du domaine de définition, c'est à dire hors des points de mesure
qui sont peu nombreux car il faut imaginer l'espace de représentation
majoritairement constitué de zones aveugles.
Cette expression n'aura pas de signification physique car il ne s'agit nullement ici
d'expliquer ou de comprendre un phénomène. C'est une pure description sans autre
ambition, autrement dit une formulation phénoménologique.
Avant d'être utilisable, cet outil empirique, de par son principe même, demande un
apprentissage fait à partir de mesures déjà effectuées afin de fixer ses paramètres de
fonctionnement, c'est à dire ceux de la fonction analytique, souvent en très grands
nombres.
Quand le nombre de dimensions est important et que les relations entre les
variables ne sont pas maîtrisées ou explicables, les RN représentent alors une
solution possible ; en régression comme en classification.
Quelques méthodes pour ajuster une série de
mesures, ou l'art de la régression
Il faut prendre ici le terme de régression au pied de la lettre, c'est à dire agir de
manière à obtenir une représentation réduite, simplifiée par rapport à celle de l'état
initial.
Considérons les graphiques ci-dessous. En toute rigueur on peut en faire deux
interprétations.
Soit il s'agit en abscisse d'une variable et en ordonnée d'une mesure et le problème
est à une dimension.
Ou bien il s'agit de la relation entre deux variables d'une même mesure et la
dimension du problème est double.
Du premier point de vue, cela peut être en entrée (en abscisse) : le temps ou une
variable d'espace et en sortie (ordonnée) une température ou un temps de parcours
sur le périphérique...
Dans le second, on considère que chaque point représente un état qui dépend de
deux variables dont les relations sont décrites par le graphique. Mais dans ce cas il
existe une variable cachée, car les mesures sont successives, au cours du temps le plus
souvent, et celle-ci représente une troisième variable implicite. Imaginons ainsi la
trajectoire d'un ballon. Les mesures successives sont deux coordonnées de l'espace :
la hauteur et la distance qui sont en relation (c'est une parabole), le problème est à
deux dimensions et les points représentent des états au cours du temps.
Dans nos raisonnements futurs, c'est cette dernière interprétation qui nous
concernera.
Les données sont numériques et discrètes (mais pas forcément échantillonnées car
non nécessairement régulièrement espacées). La courbe représentée est donc
l'enveloppe d'une suite de points. Par simplification, la relation est ici
bidimensionnelle bien que les RN trouvent leur utilité dans des problèmes de grande
dimension (disons, supérieure à trois). Il faut donc plutôt imaginer des relations en
plusieurs dimensions dessinant des hyper-courbes.
La question posée est de l'ordre de l'interpolation. Nous disposons d'un certain
nombre de points ; quelle est la valeur de la mesure entre ceux-ci ? Comme on l'a
noté, il s'agit de passer d'une suite discrète à une représentation continue.
Et plus précisément :
On respecte ainsi les conditions aux limites, à savoir que le flux de chaleur est nul
aux deux extrémités (c'est la raison pour laquelle les termes en sinus sont nuls) :
ainsi :
Comme pour t tendant vers l'infini, F(x,infini) tend vers la température d'équilibre,
les exponentielles jouent le rôle de coefficients d'atténuation afin d'obtenir finalement
une constante. Nous en déduisons d'abord que l'exponentielle doit être négative.
Ensuite ces coefficients, qui décrivent l'évolution de la température au cours du
temps, ne doivent pas dépendre de la base dans laquelle elle est décrite, exactement
comme une trajectoire est indépendante de la base dans laquelle on l'exprime car le
phénomène existe en lui-même et le référentiel n'en est qu'une des traductions.
Ces deux observations nous conduisent vers des fonctions fn de la forme :
car alors :
et en remplaçant :
ou encore :
Qui rend bien compte que lorsque tend vers l'infini la fonction F tend vers la
température d'équilibre z0.
Mais par ailleurs, comme nous le savons depuis Euler, un demi-siècle avant
Fourier :
Que l'on peut également écrire sous la forme d'une exponentielle imaginaire :
C'est une égalité qui fait le lien entre deux classes : les fonctions et les suites.
Parfait, mais il est bien d'avoir établi la possibilité de développer en série une
fonction encadrée quelconque, encore faut-il savoir déterminer la valeur des degrés
de liberté des fonctions élémentaires, à savoir ici les an et les bn, en remarquant que le
numéro des harmoniques, n, est lui connu d'avance car c'est la suite des entiers : 1, 2,
3 ...
C'est l'objet de la seconde partie de l'étude de Fourier qui donne leur méthode de
calcul et conclut ainsi son analyse.
La seconde figure montre à l'inverse, une fonction qui coïncide mal avec le sinus,
donc la présence de l'harmonique 1 dans ce signal sera plus faible.
Il va donc aboutir après de longs calculs à l'expression définitive des coefficients a n
et bn :
Ou en notation exponentielle :
Il convient ici d'ajouter une remarque importante. Ce calcul n'est possible que
parce que les fonctions de bases, c'est à dire tous les cosinus et sinus, sont
orthogonales. Autrement dit leur produit scalaire est nul. Ce qui donne avec la
notation actuelle :
Comme pour tout espace vectoriel, c'est l'existence d'une base de fonctions qui
permet la décomposition du signal. On retrouve la notion de base fonctionnelle qui
sera développée par Hilbert près d'un siècle après Fourier. Mais nous constatons que
c'est le développement d'une fonction en série trigonométrique qui ouvre la voie à
cette interprétation.
Remarque : base de fonctions, donc indépendance linéaire, n'implique pas
obligatoirement leur orthogonalité. Par exemple, une fonction polynôme de la forme :
peut être interprétée comme la projection de f(x) sur la base des fonctions x4 x3
x2 et x. Ces fonctions sont linéairement indépendantes et forment donc une base
mais elle n'est pas orthogonale et l'on y définit pas de produit scalaire. Les
"coordonnées" de f(x) sont alors a, b, c et d dans cet espace. (e est juste une valeur de
décalage : l'ordonnée à l'origine).
S'il n'y avait pas indépendance, il serait impossible de mesurer la contribution de
chaque composante, ou harmonique dans notre cas, sans faire abstraction des autres
et le principe même d'une analyse d'un phénomène comme la superposition ou
comme la somme d'atomes élémentaires serait inconcevable.
Il se trouve que les fonctions trigonométriques sont en plus orthogonales et c'est ce
qui rend possible le calcul du produit scalaire, et donc le calcul des coefficients tel que
l'a mené Fourier.
Pour finir et rester fidèle à la discipline de Fourier pour qui une recherche, même
théorique, doit rendre compte de la réalité, reprenons la configuration de départ et
menons à son terme une application numérique sur la diffusion de la chaleur dans
une barre.
Nous connaissons la longueur de la barre : L, le coefficient de diffusion du solide :
D.
Nous connaissons également la distribution de la température à l'origine des
temps soit : T(x,0).
Imaginons que cette connaissance se résume à N points de mesure : par exemple
100 points sur une barre de 1 m. D'après le théorème de l'échantillonnage nous
pouvons développer T(x,0) sur N/2 harmoniques. (Rappelons que le théorème stipule
que pour échantillonner un signal continu de fréquence maximale f sans perte, il faut
échantillonner au moins à une fréquence double. Inversement, nous avons ici la
fréquence d'échantillonnage : N points donc la fréquence max correspond à N/2.)
Il faut maintenant calculer les coefficients zn grâce à la formule du produit
scalaire :
où 0< n < N/2
Dans notre cas numérique, les intégrales sont remplacées par des sommes
discrètes.
zn représente la température moyenne qui sera égale à la température finale car la
quantité de chaleur se conserve.
Dès lors nous avons toutes les données pour calculer numériquement la
température en chaque point de la barre au cours du temps.
En résumé, la méthode de Fourier considère une fonction, encadrée dans des
limites données et suppose qu'elle est développable en série trigonométrique.
On en fait donc d'abord l'analyse en calculant les coefficients de chaque
harmonique, ce qui définit la série de manière unique.
En retour, partant des coefficients on peut en faire la synthèse en effectuant la
somme pondérée des fonctions circulaires de fréquence multiple.
Pour illustration, la figure suivante montre la synthèse d'un signal carré avec
quatre harmoniques.
Fourier a mené une analyse fondée sur les fonctions trigonométriques qui
possèdent cette remarquable propriété de former une base orthogonale. Maintenant
il est légitime de se demander s'il n'existerait pas d'autres familles de fonctions ayant
cette particularité où l'analyse serait alors formellement identique, où il suffirait dans
le calcul des coefficients de remplacer l'exponentielle imaginaire sous l'intégrale par
un autre noyau de fonctions de base.
Il existe en effet d'autres bases de fonctions orthogonales, notamment des
polynômes : polynômes de Legendre par exemple mais qui ne sont pas pratique à
manipuler et aboutissent à d'inextricables calculs. Il faudra attendre les années 1980
pour trouver des nouvelles familles de fonctions vraiment opérationnelles : les
ondelettes.
Fourier était conscient de la portée de son analyse, mais elle a sans doute dépassé
en universalité ce que son auteur pouvait imaginer. Elle ouvre des champs
d'applications inépuisables, démultipliés avec le calcul numérique dans le domaine
du traitement du signal. Sans Fourier point de stockage d'images, de streaming, pas
de compression du son etc...
Alors, pour revenir à l'origine de la discussion, pourquoi cette analyse ne serait-elle
pas bien adaptée à notre problème ?
Cependant, ces sigmoïdes ne forment pas une base orthogonale, c'est à dire que
nous ne possédons pas d'expression simple du produit scalaire dans cet espace. En
effet, un repère non orthogonal est légitime mais le théorème de Pythagore n'y trouve
pas d'expression simple, les distances sont ainsi difficiles à déterminer ainsi que le
produit scalaire, or, c'est cette opération qui permet à Fourier de calculer les
coefficients de la série trigonométrique.
Demeure la seconde question concernant la détermination de l'amplitude de
chaque fonction th() soit an et celle du paramètre bn,
Comme on vient de le constater il nous est impossible de calculer les a n avec un
produit scalaire du genre :
Ainsi, le prix à payer pour la souplesse, c'est à dire la parcimonie, est l'impossibilité
de calculer analytiquement les fonctions de la série.
Nous possédons bien un théorème d'existence du développement mais nous
sommes incapables de le traduire dans la réalité, de faire l'application numérique
chère à Fourier.
Nous en étions incapables ! Depuis une vingtaine d'années la puissance de calcul
disponible permet d'envisager la solution de certains problèmes mathématiques
autrement. Le développement en série de fonctions universelles en est une
illustration.
Comme il est impossible de mener un calcul à priori, il faut adopter une méthode
empirique de fixation des paramètres.
Position du problème :
On dispose d'une collection de mesures circonscrites dans un domaine d'étude (un
espace borné), les données dont chacune dépend de plusieurs variables, leur nombre
est la dimension du problème. Les relations qu'entretiennent ces variables se
traduisent par une fonction que nous recherchons mais dont nous n'avons aucune
idée.
Afin de la déterminer il faut plusieurs mesures, plus il y en a mieux ça vaut. Mais
dans la pratique leur acquisition n'est pas toujours facile, on en dispose donc en
nombre réduit avec pour conséquence beaucoup de trous, de points aveugles, dans le
domaine considéré et pourtant nous voulons un résultat en tout point de l'espace de
définition.
Pour fixer les idées, la solution analytique de la diffusion de la chaleur dans la
barre demande la connaissance de l'état initial du système. Soit 100 points de mesure
de T sur une barre de 1 m par exemple. Ensuite nous pouvons connaître T(x,t), quel
que soit la position et le temps.
Imaginons maintenant que nous ne sachions pas résoudre l'équation de diffusion
et que nous soyons donc conduit à utiliser une méthode empirique de fixation de
T(x,t).
Cette méthode, (un peu comme Fourier et c'est là que son idée est universelle), est
basée sur l'hypothèse que la fonction recherchée est assez régulière pour être
développable en série de sigmoïdes, mais dont nous n'avons qu'une très vague idée de
leur nombre et aucune des paramètres les gouvernant !
Pour pallier cette ignorance nous allons nous appuyer sur une suite de mesures.
Après avoir fixé arbitrairement le nombre d'éléments de la série (en fait le nombre de
neurones cachés), nous initialisons au hasard les paramètres des fonctions de base,
les sigmoïdes.
On calcule la série qui fournit, évidemment, une température totalement
fantaisiste ! Mais, grâce à nos mesures préalables, nous mesurons l'erreur commise :
erreur quadratique par exemple qui représente alors une fonction de coût.
Ensuite, par rétroaction, nous pouvons corriger chaque coefficient de manière à
minimiser cette erreur, puis recommencer l'opération jusqu'à juger l'erreur
acceptable. Cette opération s'appelle la rétro propagation du gradient, car pour
corriger les coefficients on calcule la dérivée partielle de l'erreur par rapport à chacun
d'entre eux, puis on les modifie proportionnellement à celle-ci par incréments
successifs. Nous ne nous étendrons pas davantage sur cet algorithme qui est
amplement documenté par ailleurs. Notons au passage que cela demande une grande
puissance de calcul qui ne fut disponible qu'assez récemment.
Au terme de cette étape d'apprentissage nous avons théoriquement obtenu une
fonction phénoménologique qui nous donne la température en position et dans le
temps même, et surtout car elle est faite pour ça, aux endroits où nous n'avions pas
fait de mesure.
Insistons cependant sur le fait que la résolution analytique de l'équation de
diffusion de la chaleur donne le comportement réel de la diffusion suivant la position
et le temps, alors que la solution par RN fournit une fonction virtuelle sans aucune
signification physique.
Afin de montrer aussi l'énorme différence entre une méthode analytique et la
méthode empirique (ou disons statistique) regardons le nombre de mesures
nécessaires pour la mettre en œuvre.
Imaginons une période d'observation de 1 h avec un bout à température ambiante
et l'autre à 100 °C (pour une barre de 1m cela semble raisonnable. Plus grand est le
coefficient de diffusion D, plus rapide sera l'égalisation de T.). Échantillonnons la
position avec 100 points et le temps à 1s. Sous ces conditions il nous faudra :
100x3600 = 360 000 points de mesure, soit 3600 fois plus qu'avec la méthode
analytique !
On comprend ainsi la raison pour laquelle les méthodes statistiques sont
particulièrement gourmandes en quantité de données. Si on en réduit le nombre, la
précision de l'ajustement en souffrira et il y a donc un compromis à trouver.
Évidemment, l'équation de chaleur qui ne dépend que de deux variables est
intégrable mais pour des problèmes compliqués en multiple dimension toute solution
analytique devient illusoire. Nous sommes alors conduits vers ces méthodes
statistiques, autrement dit les réseaux de neurones, pourvu que l'on ait les données
en qualité et quantité suffisantes.
Les entrées sont par exemple un nuage de points dans l'espace euclidien.
Les deux égalités représentent une projection dans un plan, donc une réduction de
dimension. C'est une application linéaire de l'espace dans un sous-espace, un
changement de repère (un endomorphisme).
La partie droite est la transformation inverse avec retour dans le repère initial.
Le but est d'entraîner le réseau afin de déterminer les coefficients de manière à
revenir autant que possible au même point avec :
C'est bien sûr impossible, sauf configuration particulière, car ce réseau agit comme
un compresseur côté gauche et décompresseur côté droit, mais non conservatif
puisque la réduction de dimension engendre une perte d'information. Cela ne nous
empêche pas d'entraîner le réseau sous la contrainte de minimisation de l'erreur
(erreur quadratique). Nous allons procéder ainsi pour tous les points de l'échantillon
d'apprentissage. A son terme, tout point non présent dans l'apprentissage, aura son
image optimale au sens de la fonction de coût utilisée.
Maintenant il est permis de se poser deux questions.
D'abord celle de savoir quelles sont les informations gardées (et donc celles
éliminées) dans la partie centrale ?
Et par conséquent quel est l'intérêt de diminuer la dimension du problème ?
L'exemple proposé est une projection de l'espace à trois dimensions dans un plan
sous la contrainte d'une déformation minimale des distances puisque la transformée
inverse agit en miroir.
Cette transformation reprend exactement le principe de l'analyse en composantes
principales (ACP).
En effet, imaginons que le nuage de points ait une forme lenticulaire, un ellipsoïde
assez plat (une galaxie par exemple). Prenons l'origine du repère euclidien au centre
de gravité du nuage (chaque point à la même masse). Aucun des axes du nuage ne
coïncident avec ceux du repère. Dans ce repère, les trois coordonnées sont donc liées
entre elles par une relation de proportionnalité, c'est à dire une relation linéaire. Elles
sont corrélées. La figure ci-dessous illustre cette configuration en deux dimensions.
Dans le repère x;y les points du nuage sont corrélés : quand les x augmentent les y
aussi. En revanche, dans X;Y ils sont décorrélés : la croissance d'une variable
n'entraîne pas l'autre. Dans ce repère l'axe X est aligné avec celui du nuage, il porte
donc le maximum de variance (ou d'inertie ou d'information comme on préfère) au
détriment de l'axe orthogonal Y, si bien que si la configuration est assez plate on peut
alors négliger les projections sur Y et le problème initialement à deux dimensions
dans x;y devient monodimensionnel sur X. La transformation est une rotation.
Pour trouver le repère X;Y l'élégante méthode de l'analyse en composantes
principales calcule les covariances entre les variables sous la forme d'une matrice
dont la diagonale contient les variances sur chaque axe. Ensuite on diagonalise la
matrice de covariance car dans le repère X;Y où les covariances sont nuls. La
diagonalisation de la matrice est géométriquement une rotation. Les valeurs propres
représentent alors les variances sur les nouveaux axes et donc leur concentration sur
certains au détriment des autres.
Il suffit ensuite de décider en fonction des valeurs relatives des valeurs propres
quels sont les axes à garder et donc quelle sera la dimension du problème dans le
nouveau repère.
La matrice de changement de repère est donnée par les vecteurs propres associés à
chaque valeur propre.
Pour répondre à la première question posée plus haut, à savoir quelles sont les
informations contenues dans la couche du milieu : elle contient les nouvelles
coordonnées des points projetés dans un repère de dimension inférieure.
En revenant à la configuration initiale à trois dimensions, on constate que le
réseau de neurones linéaire effectue très exactement une ACP où nous aurions décidé
par avance de la réduction à deux dimensions.
Il s'ensuit que la matrice de changement de repère est donnée par les coefficients
Ci. et représente la projection du nuage de points sur un plan. Les Ci ' font l'inverse.
Remarquons que l'architecture du réseau, à savoir le nombre réduit de neurones
cachés par rapport à celui des variables est subordonnée à une hypothèse : l'existence
de relations entre les variables dont une part est linéaire : elles sont donc corrélées,
et si les covariances sont importantes, certains axes dans le nouveau repère décorrélé
porteront peu d'information et on pourra ainsi diminuer la dimension de la
configuration de départ.
C'est une hypothèse qui demandera une vérification empirique car contrairement
au calcul des valeurs propres, on ne dispose ici d'aucune connaissance sur la
hiérarchie des variances.
Ajoutons une remarque : la projection dans un sous-espace va presque confondre
certains points de la configuration de départ car ils se trouvent approximativement
sur la même droite de projection. Il s'ensuit que le nombre de points « utiles » dans le
nouveau repère est réduit, ainsi faire une ACP a pour conséquence intéressante une
moindre quantité de mesures nécessaires en amont.
Seconde question, quel est l’intérêt de la réduction de dimension ?
On peut supposer que l’information vraiment importante est portée par les axes
principaux et que le reste est négligeable, soit numériquement comme une inertie du
second ordre, soit parce qu'elle représente plutôt du bruit. Il s'agit alors
schématiquement d'un arrondi.
Mais réduire la dimension aux axes principaux, c'est aussi concentrer l'information
importante comme le ferait en quelque sorte une distillation.
Evidemment, il serait mal venu d'utiliser un réseau de neurones quand une
méthode analytique fait le même travail, sans erreur, sans apprentissage, avec en plus
la maîtrise du choix des dimensions. Il faut donc que le RN nous apporte quelque
chose en plus...
On imagine sans peine que les relations entre des variables ne se réduisent pas
toutes à une simple dépendance linéaire.
Par exemple, imaginons une relation entre deux variables x et y sur un segment [ -1
; +1 ] du type :
y = x² - 2x
y = x² - x
Les variables x et y ne sont pas corrélées et pourtant elles sont liées, une ACP est
ainsi inapte à révéler cette relation.
Mais à la suite d'une transformée de Fourier, c'est à dire une conversion dans
l'espace des fréquences, la relation entre les nouvelles variables est parfaitement
linéaire : 1 ; 2 ; 4 ; 8, qui sont les coefficients de la série de Fourier. Une ACP
appliquée dans cet espace mettrait donc en évidence une relation invisible dans
l'espace réel.
Une solution à notre problème consisterait donc, à la suite d'une étape de
décorrélation des variables et de la réduction de dimension associée, de changer
d'espace de représentation (fréquences ou autres formant une base fonctionnelle)
puis de rechercher des relations linéaires dans ce nouvel espace grâce à la méthode
éprouvée de décorrélation-réduction, et éventuellement d'enchaîner en cascade cette
séquence jusqu'à ne constater plus aucune relation entre les variables. Une sorte
d'analyse multi-résolution.
La question centrale concerne maintenant le choix de l'espace fonctionnel.
Comme déjà noté, les fonctions sigmoïdes sont de bonnes candidates pour ajuster
des fonctions.
Envisageons le réseau de neurones suivant.
Il y a au départ deux degrés de liberté.
En premier lieu l'architecture du réseau, le nombre de couches cachées (ici deux)
ainsi que la décroissance de dimension à chaque étape autrement dit le nombre de
neurones dans chaque couche.
Ensuite la valeur des coefficients.
Pendant l'apprentissage la contrainte imposée aux sorties d'être aussi proche que
possible des entrées, fixe la valeur des coefficients. Par ailleurs, si l'architecture n'est
pas adaptée au problème (pas assez de couches ou trop de réduction de dimension
par exemple), il est possible que l'apprentissage échoue ou que les résultats soient
décevants. Il faut donc une certaine habitude car il n'existe aucune adaptation en
temps réel, tout se décide avant et au terme de l'apprentissage tout est rigide, il n'y a
plus aucun degré de liberté.
Les xi sont les entrées. Il convient de remarquer qu'elles sont dans la même unité
car elles vont s'additionner. Si ce n'est pas le cas il faut les exprimer comme des ratios
sans unité.
On reconnaît la première étape de combinaison linéaire de l'ACP où les coefficients
Ci sont ceux de la matrice de changement de repère (toujours sous la contrainte
d'identité des entrées et des sorties). On diminue d'autorité (c'est l'architecture du
réseau qui en décide) la dimension du problème, passant de 4 à 3. Les nouvelles
coordonnées dans ce repère sont les X'i. Dans ce repère les variables sont décorrélées.
Pour ne pas en rester là, la deuxième étape est un changement d'espace où les
fonctions de base sont des tangentes hyperboliques dont les paramètres ont été fixés
au terme de l'apprentissage. Elles forment une base (non orthogonale), c'est à dire
qu'aucune n'est fonction des autres, les th(X'i) sont donc de nouvelles variables
(formellement assimilables à des coordonnées dans l'espace des th() ), donc
indépendantes mais entre lesquelles on va chercher une relation linéaire imposée par
les contraintes sur la sortie.
C'est l'objet de la combinaison linéaire avec les C'i et on décrémente ensuite la
dimension. Ainsi cette étape est-elle une réplique de la première. Soit en
développant :
Si le réseau n'est pas un auto encodeur, la sortie s'exprime comme la combinaison
linéaire des X''i
qui représente finalement la relation recherchée entre les variables d'entrées. Elle
s'exprime comme un développement en série de tangentes hyperboliques ayant elles-
mêmes comme argument des séries de th() etc... avec pour dernier argument une
combinaison linéaire des entrées.
Finalement qu'y a-t-il dans le goulot d'étranglement ? Les X''k qui sont les
coordonnées des entrées successivement projetées orthogonalement dans des plans
de dimension décroissante, d'abord dans l'espace réel, puis dans l'espace des th().
Plus physiquement, on peut imaginer des variables ultimes, intrinsèquement
indépendantes qui refléteraient les relations les plus fondamentales entre les
variables d'entrée.
En fonction de la dimension initiale on pourrait ainsi multiplier les étages, chacun
se comportant comme une sorte d'extracteur de linéarité jusqu'à ce que la réduction
de dimension n'ait plus de sens.
Pour reprendre l'image déjà évoquée, le réseau se comporte comme un procédé de
distillation fractionnée.
Rappelons-nous que l'architecture du réseau fige la profondeur de l'analyse et qu'à
l'issue de l'apprentissage tous les coefficients sont fixés. On préjuge donc des
relations implicites entre les variables d'entrée. Ceci a notamment pour conséquence
qu'il faille essayer, empiriquement, plusieurs architectures pour retenir celle qui
conviendra le mieux. Mais si de nouvelles entrées ne correspondent pas à celles de
l'apprentissage, les relations présupposées n'existeront pas et la sortie sera aléatoire !
Notons qu'un auto encodeur a au minimum deux couches cachées, sinon il s'agit
d'une ACP, (ce qui peut être très bien aussi quand les relations sont d'ordre linéaire).
Remarque : mettre autant de neurones cachés que de variables de la couche
précédente, s'est supposer qu'il n’existe aucune relation linéaire entre celles-ci.
Pour un auto encodeur, en mettre davantage n'a guère de sens puisque ça revient à
augmenter la dimension du problème. Ce type de RN est plutôt réservé à des
problèmes de classification où une séparation linéaire dans l'espace de départ est
impossible (ce point est abordé plus loin dans le cas du XOR). Accroître la dimension
peut permettre cette séparation.
Cela signifie qu'une certaine combinaison linéaire caractérisée par la valeur des
coefficients, autrement dit une certaine relation entre les variables XA et YA convient,
alors que celle-ci n'est pas vérifiée entre XB et YB.
Imaginons que nous entraînions un réseau pour déterminer les coefficients Ci.
Par raison de symétrie, les coefficients vont se fixer de manière à déterminer une
séparation à égale distance de A et de B puisqu'ils jouent le même rôle, autrement dit,
ils vont retrouver la médiatrice du segment AB d'équation :
C1.x + C2.y + C0 = 0
Cette médiatrice est le séparateur entre les groupes A et B si, comme dans la
pratique, les points A et B sont plutôt des nuages sans recouvrement.
Quand l'espace de représentation est de dimension supérieure on parle alors
d'hyper plan séparateur.
On observe donc que la classification est fondamentalement un problème de même
nature que celui de la régression puisqu'il s'agit toujours de trouver des relations
entre de multiples variables et qu'ainsi les RN sont susceptibles de fournir une
solution, toujours à la condition de disposer d'assez de données pour l'apprentissage.
Nous avons décrit ci-dessus un réseau élémentaire linéaire. Il se trouve que pour la
plupart des classificateurs, les objets sont linéairement séparables et que le type de
réseau décrit (dans des dimensions supérieures) convient. Maintenant il faut se poser
la question de savoir comment faire quand les classes ne sont pas linéairement
séparables et donc que l'apprentissage d'un réseau linéaire échoue.
Une solution est donc de projeter le plan dans une dimension supérieure de
manière à trouver une séparation linéaire possible. Ce qui donne un réseau avec plus
de neurones que la dimension initiale.
x, y, x.y
où l'on considère le produit x.y comme une nouvelle dimension. On a alors :
(0;1;0) = (1;0;0) = 0
(0;0;0) = (1;1;1) = 1
La figure suivante montre que l'on a ainsi « décollé » le point (1;1) du plan sur le
nouvel axe x.y.
Conclusion et résumé
Les RN sont vus ici comme une méthode d'ajustement d'une suite de mesures
expérimentales par une fonction phénoménologique afin de passer d'une suite
discontinue à une fonction continue. Cette dernière traduit les relations supposées
entre les variables constituant chaque mesure.
Les applications sont de nature très différente mais se résument à des problèmes
de régression ou de classification
Le fonctionnement des RN a été analysé sur la base de deux principes : les séries
de Fourier et l'analyse en composantes principale.
Le premier ouvre la possibilité d'exprimer une fonction comme une somme
d'autres fonctions constituant une base fonctionnelle. Les RN utilisent des fonctions
universelles afin d'obtenir des séries courtes (la parcimonie) avec pour conséquence
escomptée un moindre nombre de données.
Le prix à payer est l'impossibilité d'un calcul analytique à priori et donc un passage
obligé par un calcul préalable des paramètres des fonctions de la série. C'est la phase
d'apprentissage supervisé, guidé par une fonction d'erreur exprimée comme la
différence entre le résultat provisoire du réseau et la valeur escomptée.
La structure du réseau, c'est à dire le nombre de couches ainsi que le nombre de
neurones par couche est déterminé empiriquement.
Toutefois, afin d'une meilleure compréhension, on peut envisager chaque couche
comme le passage successif dans un nouvel espace fonctionnel de dimension réduite
permettant une extraction de linéarité par un processus assimilable à une ACP.
L'expression finale est une fonction analytique construite comme un enchaînement
de développement en série de fonctions universelles se terminant par une
combinaison linéaire du dernier étage.
A propos de l’auteur
Joël Journaux, était professeur de compression de données à l’Epita, une Ecole
d'ingénieurs informatique à Paris pendant plus de 6 ans. Sa formation initiale, un
doctorat de physique des solides obtenu à l’université d’Orsay, est principalement
axée sur la physique et les mathématiques.
A l’obtention de son doctorat, Joël Journaux entre au CNRS où il ne reste que très
peu de temps. Il décide ensuite de s’orienter vers le traitement d’images, la
reconnaissance de formes et par extension la compression des images et des sons.
Nous sommes au début des années 80, une période où l’informatique permet de
mettre en application des algorithmes sur des PC. « C’était une époque où la micro-
informatique était un outil qui naissait et je trouvais ça très séduisant de faire, non
pas de l’informatique de gestion, mais de l’informatique au niveau des applications
scientifiques, des applications d’automatisme… Et à l’époque c’était quasiment de
l’artisanat : une époque de pionniers en quelque sorte, où une seule personne pouvait
prétendre faire une application dans son intégralité! ».
Joël Journaux est donc d’abord allé se « faire les dents » pendant une dizaine
d’années, comme il aime à le dire, au sein de PME spécialisées dans l’automatisme.
Après avoir acquis expérience et relations, il fonde une petite entreprise : ELSA.
« J’ai rapidement et délibérément orienté ELSA vers l’utilisation de la micro-
informatique, à la place des gros automates programmables qui pilotaient les
machines. Nous nous sommes spécialisés dans la micro-informatique, le pilotage
d’unités plus petites et sur des programmes un peu plus abstraits, ce qui nous a
poussé graduellement vers le traitement d’image, le traitement du signal en général,
très à la mode dans les années 80 ».
Dans le même temps, Joël Journaux crée un logiciel de reconnaissance de
caractères. « J’apprenais aux machines à lire. J’avais commencé à faire cela pour me
distraire et puis très rapidement je me suis mis à y consacrer énormément de temps
au point d’abandonner tout le reste… ce qui était quand même très risqué. »
Coïncidence et coup de chance, la Française des Jeux lance à ce moment-là un appel
d’offre pour un logiciel qui serait capable de lire des caractères numériques sur les
bulletins de jeux. « J’ai répondu à l’appel d’offre et, à ma grande stupéfaction, mon
soft a été sélectionné. Ma candidature a finalement été retenue alors que j’avais conçu
ce programme tout seul. J’ai travaillé pour la Française des Jeux pendant 7 ans ».
« Dans les années 90, j’ai intégré une entreprise un peu plus importante. Elle
s’occupait de compression d’images, de boîtiers numériques, d’embarqué. Je n’y suis
resté que 2 ans, car je m’y suis très vite ennuyé…J’avais besoin de création ».
Joël Journaux ne quitte pas l’entreprise seul, il repart avec 3 autres collègues avec
lesquels il crée en 2001 SURVISION, une société qui fait de la lecture automatique de
plaque d’immatriculation. SURVISION fournit aux intégrateurs et aux utilisateurs de
contrôle d’accès (sociétés d’autoroute par exemple ou gestionnaires de parking) des
technologies pointues en matière de traitement d’image pour la reconnaissance et le
suivi des véhicules.
A côté de ces activités professionnelles, Joël Journaux est aussi enseignant à
l’Epita. « J’ai toujours eu le goût de l’enseignement. A l’université, déjà, j’étais
assistant pendant ma thèse. Je cherchais à faire de l’enseignement, parce que mon
métier est un peu austère, je passe mon temps devant un écran et j’aime voir les gens
donc je me suis tourné vers cette solution depuis déjà une dizaine d’années. En
regardant où je pouvais être utile, je suis arrivé à l’Epita. »
Au départ le cours était une option, mais il est rapidement devenu obligatoire. « La
compression des données et notamment de l’image est devenue, dans les nouvelles
technologies, un point central, focal, extrêmement important. Si on ne savait pas
compresser l’image et le son, la plupart des applications multimédias qui nous
entourent ne seraient pas possible. C’est donc devenu une discipline incontournable.
Un ingénieur en informatique ne peut pas ignorer à présent ce domaine, et doit au
moins en connaître les principes et les enjeux. »
Les cours de Joël Journaux laissent délibérément une large place à la théorie.
Selon lui, une formation théorique solide permet de s’adapter. « A l’heure actuelle je
suis gâté, parce que comme je viens de vous le dire les applications de compression de
donnée et de traitement du signal foisonnent donc j’ai de multiples exemples à
donner à mes élèves. Mais je souhaite toujours qu’ils comprennent les principes de
bases, le fil conducteur qui leur permettra plus tard s’ils en ont le goût d’innover à
leur tour. »