Vous êtes sur la page 1sur 4

UQAM

Programme de doctorat en informatique cognitive

Cours DIC 8101

Distributed Representations, Chapter 3

de G.E. Hinton, J.L. McClelland et D.E. Rumelhart

Résumé

par

Albert Lejeune

Remis aux professeurs Jean-Guy Meunier et Pierre Poirier

Montréal, le 22 novembre 2008


Ce chapitre 3 de G.E. Hinton, J.L. McClelland et D.E. Rumelhart (HMR) du livre Parallel Distributed
Processing (MIT Press, 1986) décrit un type de représentation qui est moins familier que les
représentations dites locales. Chaque entité y est représentée par un patron d'activité distribuée sur un
grand nombre d'éléments de calcul et chacun de ces éléments est impliqué dans la représentation de
nombreuses entités. Le chapitre est organisé en trois sections: 1. les vertus des représentations
distribuées, 2. des représentations distribuées qui fonctionnent efficacement, 3. des représentations
structurées et des processus.

Les vertus des représentations distribuées


La première section aborde trois caractéristiques importantes de la représentation distribuée: (a) leur
caractère essentiellement constructiviste, (b) leur capacité de généraliser automatiquement face à des
situations nouvelles et ( c ) leur réglage en fonction d'environnements changeant.

La mémoire comme inférence


Les personnes peuvent avoir accès à leur mémoire de façon très flexible. Il leur suffit de se rappeler
d'éléments appartenant à des descriptions partielles de leurs contenus. Cette architecture est très
difficile à implanter sur un ordinateur qui stocke chaque élément à une adresse donnée, et retrouve cet
élément grâce à son adresse. Les représentations distribuées apportent une façon efficace d'utiliser des
machines parallèles pour implanter des recherches du meilleur résultat. À cette fin, on fait
correspondre différents éléments correspondant à différents patrons d'activité sur un groupe donné
d'unités matérielles. Une description partielle est présentée sous la forme d'un patron d'activité partiel
qui active certains éléments matériels. Un nouvel élément est stocké en modifiant les interactions entre
les éléments matériels de façon à créer un nouveau patron d'activité stable. Une façon de réfléchir aux
mémoires distribuées est de le faire en termes d'un ensemble très grand de règles d'inférence plausibles.
Chaque unité active représente une microcaractéristique d'un élément et les forces de connexion
remplacent de possibles microinférences entre microcaractéristiques. On arrive ainsi, comme pour la
mémoire humaine, à ne plus distinguer vraiment entre un rappel véridique et une confabulation ou une
reconstruction plausible.

Similarité et généralisation
Quand un nouvel élément est stocké, les modifications dans les forces de connexion ne doivent pas
faire disparaître les éléments existants. On y arrive en modifiant très faiblement un très grand nombre
de poids. Automatiquement, les représentations distribuées permettent des généralisations. S'il s'agit de
se rappeler avec précision d'un ensemble d'éléments non reliés, la généralisation devient une
interférence. Au contraire, s'il s'agit d'aborder efficacement des situations nouvelles, les généralisations
sont d'un grand secours. Un exemple très simple serait celui du chimpanzé qui raffole des oignons. La
représentation d'un élément est composée de deux parties: une qui représente le type et l'autre qui
représente comment cette instance est distincte d'autres instances du même type (Est-ce que les gorilles,
eux aussi, aiment les oignons?). La construction manuelle des liens entre les unités d'un réseau permet
à l'expert de mieux comprendre le comportement du réseau. Mais cette compréhension est illusoire
quand c'est l'ensemble du patron distribué qui fait le travail.

Créer de nouveaux concepts


Un schéma plausible de représentation de la connaissance doit être capable d'apprendre de nouveaux
concepts qui ne pouvaient être anticipés au moment de la connexion du réseau. Avec des
représentations locales, cela implique que les unités qui correspondent à des concepts ne soient pas
connectées entre elles mais au moyen de couches intermédiaires. Avec des représentations distribuées,
on modifiera très légèrement un grand nombre de connections; ainsi la création d'un nouveau patron
conservera les représentations existantes.

Des représentations distribuées qui fonctionnent efficacement


Cette section considère les détails techniques qui permettent l'implantation des représentations
distribuées. L'encodage conjonctif discute les pour et contre de l'utilisation d'une unité matérielle pour
l'encodage de chaque caractéristique discriminante. Le codage grossier aborde la question de la
délimitation des zones qui utilisent un schéma d'encodage donné et discute les équilibres entre
résolution et précision. La sous-section Implanter un mapping arbitraire entre deux domaines vise à
démontrer comment une représentation distribuée dans un groupe d'unités peut causer une
représentation distribuée appropriée dans un autre groupe d'unités en prenant comme exemple la forme
visuelle d'un mot et sa signification. Les significations du mot sont représentées à l'aide de sémèmes, ce
qui provoque un débat entre les vues componentielle et structuraliste (la signification d'un mot se
définit seulement par rapport à ses relations avec d'autres significations).

Des représentations structurées et des processus


Cette section considère deux exceptions des représentations distribuées. Ces extensions sont
congruentes avec les découvertes en IA au sujet de l'importance de la structure dans les représentations
et les processus.

Représenter la structure constitutive


Afin de représenter des structures conceptuelles analogues à celles utilisées par des personnes, un
système doit représenter deux hiérarchies bien distinctes. La première est la hiérarchie IS-A qui relie
les types aux instances de ces types. Dans cette hiérarchie IS-A, la représentation distribuée d'une
instance inclut, comme composante, la représentation distribuée de ce type. La seconde hiérarchie est
celle de la partie par rapport au tout. Dans l'approche localiste, un tout est nœud relié par des arcs
nommés aux nœuds qui sont ses parties. Mais dans le schéma distribué, on veut que différents items
correspondent à des patrons alternatifs d'activités dans le même ensemble d'unités, ce qui ne permet pas
de représenter en même temps le tout et ses parties. La solution proposée par Hinton repose sur le fait
que les ''tout'' ne sont pas seulement la somme de leurs parties; ils sont composés de parties qui jouent
un rôle particulier dans la grande structure. Bien sûr, il doit y avoir un chemin d'accès entre la
représentation d'un item comme un tout et la représentation de ce même item jouant un rôle particulier
au sein d'une plus grande structure. On considère ainsi le tout comme une instance particulière d'un
nombre de types plus généraux, chaque tout étant défini comme un type possédant des espèces
particulières de parties jouant chacune un rôle particulier.

Le traitement séquentiel de symboles


Reste la question du nombre de structures pouvant être actives à un moment donné. En fait, on peut
considérer que les personnes sont des processeurs séquentiels de symboles pour autant que chaque
représentation symbolique soit identifiée à un des états successifs d'un vaste réseau interactif. Dans
une implantation traditionnelle, on utilise des pointeurs. Dans un réseau parallèle on crée en quelque
sorte des pointeurs arbitraires fournis par les sous patrons combinant identité et rôle.