Académique Documents
Professionnel Documents
Culture Documents
Suivant
2.1. Architecture
Le rseau GRBF (Gaussian Radial Basis Functions, base de fonctions radiales gaussiennes)[6] est un rseau deux couches [POGG89]. Les neurones de la premire couche sont relis aux entres et ont chacun deux paramtres : un vecteur prototype et un coefficient d'talement strictement positif. La fonction ralise, de forme gaussienne, est la suivante : quation 2.10. Fonction ralise par la premire couche d'un rseau GRBF
Le vecteur prototype dfinit un point dans l'espace d'entre. La sortie du neurone est gale 1 pour une entre gale , puis dcrot vers 0 lorsque l'entre s'loigne de . La vitesse de dcroissance est rgle par : plus le coefficient est petit et plus la fonction sera concentre autour du point et proche de 0 ailleurs. Figure 2.8. Gaussiennes obtenues avec diffrents talements (= 0,1 1 et 10)
Les neurones de la seconde couche quand eux calculent la sortie du rseau en effectuant une combinaison linaire des sorties de ceux de la premire couche, et un biais est ajout au total. La fonction qu'ils ralisent est la suivante : quation 2.11. Fonction ralise par la seconde couche d'un rseau GRBF
o est un vecteur compos des sorties de tous les neurones de la premire couche, est un vecteur de poids et est le biais. et sont ajusts lors de l'apprentissage. Ainsi le rseau peut tre reprsent par le schma suivant : Figure 2.9. Schma gnral d'un rseau GRBF
Et chaque sortie du rseau GRBF est donne par la formule : quation 2.12. Sortie d'un rseau GRBF
o est le numro de la sortie (c'est dire le numro du neurone de la seconde couche dont on calcule la sortie), le nombre de neurones de la premire couche, le vecteur prototype du neurone numro de la premire couche, son coefficient d'talement, les poids du neurone de sortie , et son biais. Il a t montr que le rseau GRBF est un approximateur universel [PARK91], c'est dire que le rseau est capable d'approximer n'importe quelle fonction douce avec une prcision donne, pourvu que l'on fournisse un nombre suffisant de neurones, et que l'on utilise un algorithme d'apprentissage adquat. Lors de l'apprentissage d'un rseau GRBF deux problmes se posent : la constitution de la premire couche (choix du nombre de neurones, choix des prototypes et des coefficients d'talement), et la dtermination des poids et biais de la seconde couche.
K-means est un algorithme itratif permettant de sparer une srie de vecteurs dans diffrents groupes (les clusters) et chaque groupe est reprsent par un prototype, plac en son centre. Dans l'exemple suivant la base est compose de 8000 vecteurs en deux dimensions, reprsents ici sous la forme d'un nuage de points. 5 prototypes ont t dtermins par un algorithme k-means, indiqus dans la figure 2.10 par une croix. Figure 2.10. Exemple de clustering ralis par un k-means
Le droulement de l'algorithme k-means est le suivant : il faut tout d'abord choisir le nombre de prototypes dsir, empiriquement ou l'aide de connaissances a priori sur la base d'apprentissage. Ensuite une srie de prototypes initiaux est dtermine par l'une des mthodes prcdentes (gnralement un tirage alatoire des exemples est utilis). Puis chaque itration est ralise en deux tapes. Chaque vecteur d'entre de la base est class dans un cluster en dterminant le prototype le plus proche, puis aprs avoir parcouru toute la base, la position de chaque prototype est recalcule, en prenant le barycentre de tous les exemples situs dans son cluster. L'algorithme s'arrte lorsque le systme est stable, c'est dire quand aucun vecteur ne change de cluster d'une itration la suivante. La solution trouve par l'algorithme k-means est une solution locale, c'est dire qu'il ne garantit pas de trouver une solution optimale. Cependant dans la plupart des cas pratiques la solution trouve est satisfaisante, lorsque le nombre de prototypes dcids est adapt la base. D'autres algorithmes ont t tudis et peuvent tre galement utiliss. Le problme rsoudre s'apparente la construction d'un dictionnaire pour une quantification vectorielle. Une tude comparative des diffrentes solutions possibles est ralise dans [FOUC02]. Elle s'intresse particulirement au cas des images, mais la plupart des mthodes peuvent s'appliquer d'autres cas. Le choix des coefficients d'talement va influer sur la forme de la fonction ralise. S'ils sont trop faibles, on verra apparatre des pics autour des points dfinis par les prototypes, et au contraire s'ils sont trop grands la fonction pourra difficilement prendre des valeurs diffrentes prs de deux prototypes diffrents. Il est raisonnable de choisir une valeur qui soit de l'ordre de grandeur du carr de la distance entre deux prototypes voisins.
Figure 2.11. Exemples de fonctions ralises par un GRBF avec diffrents coefficients d'talement
o est le numro de l'exemple et celui de la composante de calcule, c'est--dire le numro du neurone de la premire couche dont on calcule la sortie. Le critre minimiser est l'erreur quadratique moyenne du rseau sur la base d'apprentissage et a donc pour expression : quation 2.14. Expression de la performance en fonction des sorties de la premire couche
o de
est la sortie du neurone de la seconde couche ((2.12)), est la composante (c'est dire la sortie voulue pour l'exemple sur le neurone de la seconde couche) et est le nombre de sorties. Un algorithme des moindres carrs peut tre appliqu afin de trouver les paramtres et qui minimisent ce critre. Cette mthode d'apprentissage qui consiste d'abord slectionner des prototypes puis ensuite optimiser les poids de la seconde couche est simple mettre en oeuvre. D'autres algorithmes, tels que EM (Expectation-Maximization) peuvent tre appliqus aux GRBF afin de dterminer ces deux jeux paramtres en mme temps, avec souvent une meilleure performance du rseau, mais aux pris d'un temps d'apprentissage plus long [BISH95]. Cependant toutes ces mthodes ncessitent de savoir par avance le nombre de prototypes dfinir dans la premire couche. D'autres mthodes ont donc t tudies, de type incrmental, c'est dire que des prototypes sont ajouts dans la premire couche au fur et mesure des besoins de l'apprentissage.
2.5. Discussion
Les rseaux GRBF approximent localement les fonctions. En effet les neurones de la premire couche ne produisent de valeurs significatives en sortie que dans une certaine zone de l'espace d'entre (c'est dire que leur sortie est proche de 1 pour une entre proche de leur prototype et
proche de 0 ailleurs). La seconde couche permet d'associer une certaine sortie chaque zone. Les rseaux GRBF sont donc particulirement adapts lorsque les vecteurs des entres sont regroups par zones, tel que dans l'exemple indiqu pour l'algorithme des k-means (figure 2.10). Dans cette situation les GRBF ont gnralement de meilleures performances que les autres solutions neuronales, ou des performances quivalentes pour une complexit moindre. Par contre lorsque les vecteurs d'entre sont rpartis plus uniformment, ou lorsque le nombre de dimensions de l'espace d'entre est important, le nombre de prototypes ncessaires augmente rapidement et les rseaux GRBF perdent leur intrt. Enfin un autre avantage des rseaux GRBF est leur rapidit d'apprentissage, plus grande que pour le perceptron, que nous allons prsenter maintenant.
[6]
dans la littrature on peut trouver galement le sigle RBF (Radial Basis Functions, base de fonction radiales) pour dcrire ces rseaux, et le fait que les fonctions radiales soient gaussiennes est souvent implicite. Dans ce mmoire nous utiliserons le sigle GRBF.