!mon Cours de Réseaux Connexionnistes Master 1 - Chap 1

Réseaux connexionnistes
Dr. Jean Marie DEMBELE
UFR SAT
Université Gaston Berger
Saint-Louis/Sénégal.
1
Réseaux connexionnistes, Dr. Jean Marie Dembélé, UFR SAT, novembre 17
Programme
1. Définitions, historiques, applications et défis
2. Le neurone formel
3. L’apprentissage
4. Différents modèles de RdN
2
1- Introduction(1/13)
1. Définitions (1/4)
Il n’existe pas vraiment de consensus sur la définition du terme “intelligence
artificielle”(il n’y en a même pas sur le terme “intelligence” ! ).
Pour vous qu’est ce que l’intelligence?
Qu’est ce qu’en dit Wikipedia?
3
Il n’existe pas vraiment de consensus sur la définition du terme “intelligence
artificielle”(il n’y en a même pas sur le terme “intelligence” ! ).
Pour vous qu’est ce que l’intelligence?
Et le Larousse?
4
“L’étude des facultés mentales à l’aide des modèles de type calculatoires” (Charniak
et McDermott, 1985)
“Conception d’agents intelligents” (Poole et al., 1998)
“Discipline étudiant la possibilité de faire executer par l’ordinateur des tâches pour
lesquelles l’homme est aujourd’hui meilleur que la machine” (Rich et Knight, 1990)
“L’automatisation des activités associées au raisonnement humain, telles que la
décision, la résolution de problèmes, l’apprentissage, ...” (Bellman, 1978)
“l’ etude des mécanismes permettant à un agent de percevoir, raisonner, et agir”
(Winston, 1992)
“L’études des entités ayant un comportement intelligent” (Nilsson, 1998)
L'Intelligence Artificielle (IA) est la science dont le but est de faire faire par une
machine des tâches que l'homme accomplit en utilisant son intelligence. La
terminologie d'Intelligence Artificielle est apparue en 1956. On peut lui préférer
celle d'Informatique Heuristique.
5
Elements de comparaison
Algorithmique classique Intelligence Artificielle
•Plus près du fonctionnement •Plus près du fonctionnement

de la machine de l’être humain
•Plus adaptées aux •Plus adaptées aux
traitements numériques traitements symboliques
•Utilisent beaucoup de calculs •Utilisent beaucoup
•Suivent des algorithmes d’inférences
rigides et exhaustifs •Font appel à des heuristiques
•Ne sont généralisables qu’à et à des raisonnements
une classe de problèmes incertains
semblables •Sont généralisables à des
domaines différents
6
2. Historiques (1/6)
Traits en Maths :
• 9ème siècle : al-Khowarazmi introduit l’algorithmique, l’algèbre et la

notation arabe
• 1815-1864 : Boole construit l’algèbre binaire et la logique formelle
• 1848-1925 : Frege établit la logique du premier ordre
• 1906-1978 : Gödel établit son théorème d’incomplétude et

d’indécidabilité
• 1912-1954 : Turing montre que toute fonction calculable l’est par une
machine de Turing (et donc par un ordinateur). Attention ! il existe des
fonctions non calculables.
7
Traits en Informatique :
• Boulier, Pascaline…
• en 1937 : le Mark I d'IBM permet de calculer 5 fois plus vite que

l'homme. Il est constitué de 3300 engrenages, 1400 commutateurs et
800 km de fil. Les engrenages seront remplacés en 1947 par des
composants électroniques.
• en 1946 : ENIAC : premier grand ordinateur universel. 30 tonnes. 18 000

tubes électroniques.
• en 1947 : invention du transistor qui va permettre de rendre les

ordinateurs moins encombrants et moins coûteux.
• en 1948 : UNIVAC (UNIVersal Automatic Computer)
8
Traits en Informatique (bis) :
• en 1958 : mise au point du circuit intégré, qui permet de réduire

encore la taille et le coût des ordinateurs.
• en 1960 : l'IBM 7000, premier ordinateur à base de transistors.
• en 1971 : l'Intel 4004 le premier microprocesseur, voit le jour. De la taille

d'un ongle. Composé de 2 300 transistors. Puissance de calcul
comparable à celle de l'ENIAC !
• en 1978 : l'ordinateur familial (oric, sinclair, etc.)
• en 1980 : IBM-PC (Personal Computer)
• en 1984 : Macintosh d'APPLE
• de nos jours…PC, réseaux, grilles, clouds, …
9
Intelligence artificielle :
• 1943-1955 : Gestation de l’IA
Premiers travaux qui peuvent être considérés comme les débuts de

l’intelligence (même si le terme n’existait pas encore).
• 1943 : McCulloch et Pitts créent le modèle du neurone formel
• 1948 : Création de la cybernétique (science des systèmes) par Norbert

Wiener.
• 1949 : Hebb établit la première règle d’apprentissage neuronal
• 1950 Shannon, 1952 Samuel, 1953 Turing : machine pour jouer aux
échecs
10
Intelligence artificielle (bis):
• 1956 : Naissance de l’IA
C’est durant cette année qu’un petit groupe d’informaticiens (John

McCarthy, Marvin Minsky , Claude Shannon…) se réunirent pour une
conférence (Dartmouth Workshop ) sur ce thème. Cette conférence
dura deux mois, et permit de poser les fondements de l’intelligence
artificielle (nom qui fut choisi à l’issue de cette conférence)
• Jusqu’en 1969 : grands espoirs
Plusieurs programmes furent développés : Logic Theorist (Newell et

Simon) et Geometry Theorem Prover (Gelernter) pour prouver certains
théorèmes mathématiques. Le General Problem Solver (Newell et Simon)
pour résoudre des puzzles simples. Programme pour jouer au Dames.
McCarthy au MIT crée le LISP.
11
Intelligence artificielle (ter):
Premiers désespoirs (1966-1973)

L’annulation en 1966 de tout le financement du gouvernement américain
pour les pro jets de traduction automatique.
Manque de mémoire et de puissance de calcul
Minsky et Papert prouvèrent dans leur livre “Perceptrons” de 1969 que les
réseaux de neurones de l’époque ne pouvaient pas calculer certaines
fonctions pourtant très simples (XOR)
Systèmes experts (1969-1979)
Le premier système expert, DENDRAL (1969) détermine la structure
moléculaire
MYCIN, réalise un diagnostic des infections sanguines
1986…: retour des réseaux de neurones, théories maths, logiques…
Aujourd’hui… (SE, Systèmes d apprentissage, Data Mining, simulation,

robotique,…)
12
3. Applications et défis (1/2)
Les principales applications de l’IA
• la traduction automatique
• Les systèmes d’aide au diagnostic ou à la programmation
• Les systèmes de résolution de problèmes
• Les jeux
• La robotique
• La reconnaissance de formes
• La compréhension de données (Data Mining)
• La simulation
13
3. Applications et défis (2/2)
Les principales limites et autres défis de l’IA
• Problèmes de la traduction syntaxique
• Problème sur les applications à taille réelle
• Modélisation du sens commun
• Explosion combinatoire
• Apprentissage
• Niveau de représentation
• Complexité/chaos
14
4. Objectifs des Réseaux connexionnistes
Classification
Répartir en plusieurs classes des objets
données quantitatives à informations qualitatives
Reconnaissance de formes
Recherche Opérationnelle
Résoudre des problèmes dont on ne connaît pas la solution
Mémoire Associative
Restituer une donnée à partir d’informations incomplètes et/ou bruitées.
15
Machine learning
1 Le neurone biologique
2- Le neurone formel (1/11)

A la suite des observations de l’anatomiste espagnole Ramòn y Cajal, dès la fin du 19ème
siècle, on a pu déterminer que le cerveau était composé de cellules distinctes appelées
neurones formant un ensemble dense d’environ 10 à 100 milliards d’unités intercon-
nectées[Rosenzweig and Leiman, 1992]. La principale caractéristique de ces neurones est
1. Le neurone biologique
qu’ils permettent de véhiculer et de traiter des informations en faisant circuler des mes-
sages électriques dans le réseau ténu et massivement parallèle formé par leur axone 1 .
Le cerveau
L’extrémitéhumain
des axones seestdivisecomposé
en une multitudede decellules distinctes
ramifications. appelées
A l’inverse, les ar-
borescences qui amènent l’information vers le corps cellulaire sont appelés dendrites. Les
neurones formant
informations sont un ensemble
transmises dense
d’un neurone d’environ
à l’autre, de manière100 milliards d’unités
unidirectionnelle, par
interconnectées
l’intermédiaire de[Rosenzweig
points de jonction and
appelésLeiman,
synapses. En1992].
moyenne Nombre
le nombre de moyen
connex- de
connexions:
ions entre10000.
neurones1estmm3
de 10 contient
4
. Le schéma 1
d’unmilliards deest
neurone réel connexions.
proposé figure 1.
Noyau cellulaire
Corps cellulaire
Axone
Synapse
Dendrites
Neurones véhiculent Figureet traitent des

1. Représentation informations
schématique en faisant circuler des
d’un neurone biologique.
messages électriques dans le réseau massivement 2parallèle formé par
L’activité d’un neurone se mesure en fonction de la fréquence du train de poten-
leur axone. Les informations sont transmises d’un neurone à l’autre, de
manière unidirectionnelle (influx nerveux), par l’intermédiaire de points
1
L’axone est le prolongement terminal du corps du neurone. Ils peuvent atteindre jusqu’à un mètre
de long.
de jonction
2
Cetteappelés synapses.
fréquence est inférieure à 300 Hz ce qui est bien sur très lent comparé aux capacités des circuits
électroniques modernes.
56 19

1. Le neurone biologique (bis) Cellules de Purkinie (Cervelet)
20

1. Le neurone biologique (ter) – le cerveau
Trois couches successives

Le cerveau reptilien (la couche la plus ancienne)
L’hippocampe (cerveau archaïque)
Le cortex (la couche la plus récente)
Découpage en régions
Au niveau morphologique et fonctionnel
Adaptation
Renforcement de l’efficacité synaptique
Renforcement des corrélations
21

1. Le neurone biologique (qua) – le cerveau (caractéristiques)
Apprentissage – Adaptation
– Plasticité synaptique
– Reconversion
Robustesse
– Résistance à l’imprécision des entrées
– Résistance à la détérioration
– Distribution des informations
Parallélisme
– Interactions locales
– Propriétés globales
– Simultanéité du traitement
Ces caractéristiques inspirent la construction des réseaux de neurones

formels
22

2. Comparaison (Cerveau Vs Machine)
Architecture de Von Neumann Cerveau Humain
– déterministe – parallélisme
– séquences d’instructions – adaptation (apprentissage)
– tâches répétitives – vitesse lente
– vitesse élevée – comportement flou
– programmation – différentes façons d’aborder un

problème
– unicité des solutions
– différentes solutions
ex: produit matriciel ex: reconnaissance de visages
23

3. Le neurone artificiel (1/3)
Soit Xi une entrée d’un neurone (activité du neurone i précédent).
Wij poids synaptique associé à la synapse liant le neurone i au neurone j.
Oj la sortie du neurone j.
netj , le potentiel, sommation des Xi pondérées par les Wij
Θj le seuil d’activation
φ la fontion d’activation, fonction du potentiel netj
Les entrées et sorties sont soit binaires soit réelles.
24
On définit aussi, Réseaux connexionnistes, Dr. Jean Marie Dembélé, UFR SAT, novembre 17
• Le potentiel : P otj = Wij · Ii − θ

!
2- Le• Laneurone formel (7/11)

fonction d’activation (ou fonction de sortie) : O (t) = f (P ot ) j j
Les entrées et sorties sont soit binaires soit réelles. La fonction de sortie est une fonction
3. Le
non neurone
linéaire artificiel
plus ou (2/3) de la sigmoı̈de. Les principales fonctions de sortie sont :
moins proche
Exemples de fonction de sortie:
1
"
1 si x ≥ 0
0.8
• la fonction de Heaviside : H(x) =

0.6
0 si x < 0 0.4
0.2
−0.2
−5 −4 −3 −2 −1 0 1 2 3 4 5
0.8
" 0.6
1 si x ≥ 0 0.4
• la fonction signe : Sign(x) =

0.2
−1 si x < 0 −0.2
−0.4
−0.6
−0.8
−1
−5 −4 −3 −2 −1 0 1 2 3 4 5
 1

 1 si x > a 0.8
0.6
0.4
1
• les fonctions linéaires à seuils :f (x) = x si x ∈ [−a, a]
0.2
a −0.2
−0.4
−1 si x < a

 −0.6
−0.8
−1
−5 −4 −3 −2 −1 0 1 2 3 4 5
0.8
0.6
0.4
1
• les fonctions sigmoı̈des : f (x) = tanh(kx) ou
0.2
1+e−kx −0.2
−0.4
−0.6
−0.8
−1
−5 −4 −3 −2 −1 0 1 2 3 4 5
25

3. Le neurone artificiel (3/3)
Exemples de fonction de sortie: (bis)
Les modèles linéaires et sigmoïdaux sont bien adaptés aux algorithmes

d’apprentissage impliquant une rétro-propagation du gradient car
leur fonction d’activation est différentiable ; ce sont les plus utilisés.
Le modèle à seuil est sans doute plus conforme à la “réalité”

biologique mais pose des problèmes d’apprentissage.
26

4. Architecture d’un réseau de neurone (1/3)
Pattern Pattern
d'entrée de sortie
0 1
1 1
0 Réseau 0
Stimulus 1 0 Réponse
1 1
décodage
codage 1 0
0 1
0 0
27

4. Architecture d’un réseau de neurone (2/3) – Propagation avant
couche d’entrée
couche cachée
couche de sortie
réseau à connections
réseau multicouche locales
La propagation des activations : de l ’entrée vers la sortie
28

4. Architecture d’un réseau de neurone (3/3) – modèle récurrent
propagation des activations :

synchrone : toutes les unités sont mises à jour simultanément
asynchrone : les unités sont mises à jours séquentiellement
29
3- L’apprentissage(1/11)
1. Définition
L’apprentissage est une phase du

développement d’un réseau de
neurones durant laquelle le
comportement du réseau est
modifié jusqu’à l’obtention du
comportement désiré.
On distingue deux grandes
classes d’algorithmes
d’apprentissage :
• L’apprentissage
supervisé
• L’apprentissage non
supervisé
30
2. L’apprentissage supervisé
Modifier les connexions en fonction d’un but
superviseur sortie désirée
erreur
réseau sortie obtenue
Base d’apprentissage : exemples représentatifs du comportement ou de

le fonction à modéliser. Ces exemples sont sous la forme de couples
(entrée ; sortie) connus.
Base d’essai : pour une entrée quelconque (bruitée ou incomplète),
calculer la sortie. On peut alors évaluer la performance du réseau.
31
3. L’apprentissage non supervisé
On ne dispose pas de base d’apprentissage. Les coefficients

synaptiques sont déterminés par rapport à des critères de conformité :
spécifications générales.
réseau sortie obtenue
32
4. Règles d’apprentissage (1/8)
L’apprentissage consiste à modifier le poids des connections entre les

neurones.
i j
Wij
Il existe plusieurs règles de modification :

Loi de Hebb : Dwij=Raiaj
Règle de Widrow-Hoff (delta rule) : Dwij=R(dj - aj)ai
Règle de Grossberg : Dwij=R(aj - wij)ai
33
Loi de Hebb :
Lorsque deux unités neurones artificiels sont activés en même temps, le
poids de leur connexion est augmenté ou diminué.
R est une constante positive qui représente la force d'apprentissage
(learning rate).
i
Wij
j ΔWij = Rai a j
ai = -1 ai = 1
aj = -1 DWij = R DWij = -R
aj = 1 DWij = -R DWij = R
34
Loi de Hebb – Algorithme itératif
R est une constante positive.

Initialiser aléatoirement les coefficients wij
Répéter
Prendre un exemple (e, c) dans la base d’apprentissage
Calculer la sortie o du réseau pour l ’entrée e
Si c ≠ o
Modification des poids wij
wij = wij + R (ai aj)
Fin Si
Fin Répéter
35
Loi de Widrow-Hoff (delta rule) :

aj activation produite par le réseau dj réponse désirée par l'expert
Par exemple si la sortie est inférieure à la réponse désirée, il va falloir
augmenter le poids de la connexion à condition bien sûr que l'unité i
soit excitatrice (égale à 1). Valeurs booléennes {0,1}.
i j
Wij
ΔWij = R(d j − a j )ai

aj = 0 aj = 1
dj = 0 DWij = 0 DWij = -R
dj = 1 DWij = R DWij = 0
Loi de Grossberg : A rechercher….
40
4- Différents modèles de RdN

1. Perceptron (1/7) - Présentation
1957 (Rosenblatt) Perceptron (n coefficients et un seuil ou biais)
L’algorithme du Perceptron doit alors calculer (mettre à jour) les poids w en

fonction des données d’entrées x, du résultat obtenu o, et du résultat attendu c.
[1] F. Rosenblatt. The perceptron, a perceiving and recognizing automaton Project Para. Cornell Aeronautical Laboratory, 1957.
41

1. Perceptron (2/7) – l’algorithme de mise à jour des poids
42

1. Perceptron (3/7) – l’algorithme de mise à jour des poids – Exemple 1
Déterminer si un chiffre donné sur 7 leds est pair (0) ou impair (1)
Notre échantillon S: les chiffres de 0 à 9 (codés sur 7 leds)

et le résutat qui dit si le chiffre est pair ou impair (0 ou 1). 7
43

Déterminer si un chiffre donné sur 7 leds est pair (0) ou impair (1)
Pour chaque élément de l’échantillon :
Perceptron biais
de sortie
44

Travail à rendre: Réaliser un perceptron qui reproduit les opérations du OU et du

ET logiques. Quel est l’effet de l’ordre dans la présentation des exemples de
l’échantillon? Il y’a t’il un critère d’arrêt pour la boucle?
Remarque: Le XOR ne peut pas être calculé par un perceptron linéaire à seuil.
Travail à rendre: donner la démonstration algébrique de cette remarque.
Seuls les ensembles linéairement séparables peuvent être discriminés par un

perceptron.
45

TP à rendre: Réaliser un perceptron (en C ou Java) qui classifie des fleurs selon les
types Setosa et Versicolor.
Les données d’entrée sont (voir fichier Excel) :
- longueur des sépales en cm (Sepal length)
- et longueur des pétales en cm (Petal length),
Procédé:
Ø Construire un Perceptron avec:
- 3 entrées; 2 entrées (longueur sépale et longueur pétale de chaque fleur
mesurée ) + le biais
- et une sortie (0 pour Setosa et 1 pour Versicolor) pour la classification
Ø Procéder à l’apprentissage avec N Setosa et N Versicolor (2N itérations,
N<<50) et vérifier avec les autres données si votre perceptron parvient à
reconnaître les deux types.
46

1. Perceptron (7/7) – Limites
L’algorithme ne converge pas si S n’est pas linéairement séparable!
Pour un perceptron avec n entrées on peut borner la valeur des poids mais avec
de très grands nombres (exponentiels en fonction de n), donc on obtient une
convergence exponentielle.
La solution n’est pas robuste et pas tolérant aux bruits.
47

!mon Cours de Réseaux Connexionnistes Master 1 - Chap 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

!mon Cours de Réseaux Connexionnistes Master 1 - Chap 1

Transféré par

Droits d'auteur :

Formats disponibles

Réseaux connexionnistes

Dr. Jean Marie DEMBELE

1. Définitions, historiques, applications et défis

4. Différents modèles de RdN

Qu’est ce qu’en dit Wikipedia?

Algorithmique classique Intelligence Artificielle

•Plus près du fonctionnement •Plus près du fonctionnement

• 9ème siècle : al-Khowarazmi introduit l’algorithmique, l’algèbre et la

• 1815-1864 : Boole construit l’algèbre binaire et la logique formelle

• 1848-1925 : Frege établit la logique du premier ordre

• 1906-1978 : Gödel établit son théorème d’incomplétude et

• en 1937 : le Mark I d'IBM permet de calculer 5 fois plus vite que

• en 1946 : ENIAC : premier grand ordinateur universel. 30 tonnes. 18 000

• en 1947 : invention du transistor qui va permettre de rendre les

• en 1948 : UNIVAC (UNIVersal Automatic Computer)

Traits en Informatique (bis) :

• en 1958 : mise au point du circuit intégré, qui permet de réduire

• en 1960 : l'IBM 7000, premier ordinateur à base de transistors.

• en 1971 : l'Intel 4004 le premier microprocesseur, voit le jour. De la taille

• en 1978 : l'ordinateur familial (oric, sinclair, etc.)

• en 1980 : IBM-PC (Personal Computer)

• en 1984 : Macintosh d'APPLE

• de nos jours…PC, réseaux, grilles, clouds, …

• 1943-1955 : Gestation de l’IA

Premiers travaux qui peuvent être considérés comme les débuts de

• 1943 : McCulloch et Pitts créent le modèle du neurone formel

• 1948 : Création de la cybernétique (science des systèmes) par Norbert

• 1949 : Hebb établit la première règle d’apprentissage neuronal

Intelligence artificielle (bis):

• 1956 : Naissance de l’IA

C’est durant cette année qu’un petit groupe d’informaticiens (John

• Jusqu’en 1969 : grands espoirs

Plusieurs programmes furent développés : Logic Theorist (Newell et

Intelligence artificielle (ter):

Premiers désespoirs (1966-1973)

1986…: retour des réseaux de neurones, théories maths, logiques…

Aujourd’hui… (SE, Systèmes d apprentissage, Data Mining, simulation,

Les principales applications de l’IA

• Les systèmes d’aide au diagnostic ou à la programmation

• Les systèmes de résolution de problèmes

• La compréhension de données (Data Mining)

Les principales limites et autres défis de l’IA

• Problèmes de la traduction syntaxique

• Problème sur les applications à taille réelle

• Modélisation du sens commun

2- Le neurone formel (1/11)

Neurones véhiculent Figureet traitent des

2- Le neurone formel (2/11)

2- Le neurone formel (3/11)

Trois couches successives

2- Le neurone formel (4/11)

Ces caractéristiques inspirent la construction des réseaux de neurones

2- Le neurone formel (5/11)

Architecture de Von Neumann Cerveau Humain

– séquences d’instructions – adaptation (apprentissage)

– tâches répétitives – vitesse lente

– vitesse élevée – comportement flou

– programmation – différentes façons d’aborder un

ex: produit matriciel ex: reconnaissance de visages

2- Le neurone formel (6/11)

Les entrées et sorties sont soit binaires soit réelles.

• Le potentiel : P otj = Wij · Ii − θ

2- Le• Laneurone formel (7/11)