Vous êtes sur la page 1sur 2

Réseaux de Neurones et Applications as

Architecture des Systèmes d’Information

Ph. Leray
Examen 2004/2005 4eme année

– Durée : 3h
– Calculatrice autorisée mais inutile
– Documents autorisés :
– supports de cours et notes personnelles
– votre voisin n’est pas un document
– Barême indicatif sur 20 points

1 Réseaux de neurones (13 points) 1 et (2-3) sont indépendants

1. (5 points) Considérons un PMC avec un seul neurone en sortie ỹ(x), l’entrée du réseau étant le vecteur x et
sa sortie désirée y. La fonction de coût utilisée est le coût quadratique moyen (où N est la taille de la base
d’apprentissage) :
1 X
N
J= (ỹ(x(l) ) − y (l) )2
N
l=1
Quand N est très grand, cette fonction de coût approche l’espérance suivante :

JE = Ex,y [(ỹ(x) − y)2 ]

(a) (3 points) La valeur désirée y valant seulement 0 ou 1, montrez que JE se réécrit de la façon suivante :
Z Z Z
JE = ỹ(x)2 p(x)dx − 2 ỹ(x)p(x, y = 1)dx + p(x, y = 1)dx
x x x

(b) (2 points) Montrer que la fonction ỹ(x) qui minimise JE est la fonction ỹ(x) = p(y = 1|x)

2. (4 points) Lorsqu’un Perceptron multi-couches est utilisé en classification, le nombre de sorties est généralement
égal au nombre de classes. La sortie désirée est égale à 0 pour toutes les sorties, sauf celle correspondant à la
classe de l’exemple qui est égale à 1.
Considérons ici un PMC à K sorties {ỹk }k=1:K dont la fonction d’activation de la couche de sortie est la fonction
logsig (où ak est l’activation de la k ème sortie) :
1
ỹk = f (ak ) =
1 + e−ak
avec le coût quadratique suivant :
1 XX
N K
(l)
J= (ỹk (x(l) ) − yk )2
N
l=1 k=1
∂ ỹk
(a) (1 point) Exprimer ∂ak en fonction de f (ak ).
∂J
(b) (3 points) Calculer le gradient des poids de la couche cachée ∂w kj
en reprenant les notations du cours. Vous
pouvez simplifier les calculs en ne prenant en compte que le coût local lié à un seul exemple de la base.

3. (4 points) Remplaçons maintenant le coût quadratique par une entropie croisée, et la fonction d’activation par une
fonction de type softmax
XN X K
(l) ỹk (x(l) )
J =− yk ln (l)
l=1 k=1 yk
eak
ỹk = f (ak ) = PK
k′ =1 eak′
(a) (1 point) Quel est l’intérêt pratique de cette fonction d’activation utilisée dans la couche de sortie ?
∂ ỹk
(b) (1 point) Exprimer ∂a k
en fonction de f (ak ).
∂J
(c) (2 points) Calculer le gradient des poids de la couche cachée ∂wkj .

p.1/2
ASI4 Examen RNA 2004/2005

2 Réseaux bayésiens (7 pts)


Supposons que nous désirons équiper la Laguna ASI d’un module d’aide à la
conduite concernant la décision de doubler ou non la voiture qui se trouve devant
la notre. Pour cela, la Laguna est équipée d’une caméra qui remplace le rétroviseur
gauche, et d’un système de stéréovision dirigé vers l’avant qui permet d’estimer la
vitesse relative de la voiture qui se trouve devant nous.

1. (1.5 points) L’image prise par la caméra "rétroviseur" est traitée par un réseau de neurones (ou tout autre algo-
rithme de classification) et nous rend la probabilité que la file de gauche soit vide ou non (file estimée={ V=vide
| NV=non vide}). Dans ces situations réalistes, on sait que le classifieur utilisé n’est pas parfait et que ses perfor-
mances peuvent être résumées dans une matrice de confusion M1 .
Proposez une matrice M1 correspondant au fait que le classifieur reconnait dans 99% des cas que la file de gauche
est vide et se trompe 5% si la file est occupée.
Selon le même raisonnement, proposez la matrice de confusion M2 pour l’algorithme d’estimation de la vitesse
relative avec le véhicule avant (vitesse estimée={ RV=rapproche vite | RL=rapproche lentement | E=s’éloigne}),
en supposant que l’algorithme reconnait parfaitement la situation E, mais confond une fois sur quatre RL et RV .

2. (1 point) Supposons maintenant que notre décision de doubler dépende de la vitesse relative réelle du véhicule à
l’avant et de l’état réel de la file de gauche. Proposer une structure de réseau bayésien permettant de modéliser cela.

3. (1.5 points) Est-ce la seule structure possible ? Si ce n’est pas le cas, proposez-en une autre en expliquant pour-
quoi elles sont équivalentes.

4. (2 points) Nous allons choisir la structure dans laquelle on retrouve le plus facilement possible les matrices de
confusion M1 et M2 . Quelles autres probabilités conditionnelles manque-t-il pour finir de définir le réseau bayé-
sien ?

5. (1 point) A quelle décomposition de la loi jointe correspond votre réseau ?

p.2/2