Vous êtes sur la page 1sur 5

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/228773262

Classification de Défauts de Rail par SVM

Article · January 2004

CITATIONS READS

6 1,438

5 authors, including:

Bentoumi Miloud Gilles Millerioux


Université de M'sila University of Lorraine
13 PUBLICATIONS   100 CITATIONS    122 PUBLICATIONS   1,594 CITATIONS   

SEE PROFILE SEE PROFILE

Latifa Oukhellou Patrice Aknin


Université Gustave Eiffel IRT System X
132 PUBLICATIONS   2,726 CITATIONS    130 PUBLICATIONS   1,245 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Track circuit, shunting booster View project

Smart Water Grids View project

All content following this page was uploaded by Patrice Aknin on 22 May 2014.

The user has requested enhancement of the downloaded file.


Classification de Défauts de Rail par SVM

M. Bentoumi1,3, G. Millérioux1, G. Bloch1, L. Oukhellou2, P. Aknin3


1
: Centre de Recherche en Automatique de Nancy (CRAN, UMR CNRS 7039)
ESSTIN, Rue Jean Lamour, 54519 Vandoeuvre Cedex, France, {bentoumi, millerioux, bloch}@esstin.uhp-nancy.fr
2
: CERTES – Université Paris XII, 61 avenue du Général De Gaulle, 94100 Créteil, France
3
: Institut National de Recherche sur les Transports et leur Sécurité (INRETS)
2 avenue du Général Malleret-Joinville, 94114 Arcueil Cedex, France, {ouhkellou, aknin}@inrets.fr

Résumé mainteneurs de mettre en place une politique de


maintenance prédictive des rails.
L'article présente la classification par SVM de La première partie de l’article présente la chaîne
défauts de rail répartis en 4 classes. Une combinaison d’instrumentation et les traitements associés des
de classifieurs 1 parmi 4 a été utilisée. Après une signaux issus du capteur CF. En seconde partie, on
introduction du contexte d'application et des travaux présente un bref rappel sur le principe de la
antérieurs, les SVM sont présentées, en particulier le classification par SVM. Enfin on expose les résultats
réglage des hyperparamètres à partir de l'estimation obtenus en appliquant la classification par SVM aux
de l'erreur de généralisation. Les centres des noyaux signaux CF de l'application traitée.
RBF utilisés et leur nombre sont déterminés
automatiquement et les résultats sont similaires aux 2. Le système et la chaîne de traitement
meilleurs résultats obtenus par des approches
neuronales plus classiques. Des travaux antérieurs ont conduit à la réalisation
d'un capteur original à courants de Foucault [1]. Afin
1. Introduction de bien discerner les différents types de défauts, la
structure du capteur a été optimisée et comporte deux
La détection de rail cassé est une tâche cruciale bobinages de mesures différentielles d'entraxes
pour les exploitants ferroviaires afin d'assurer un haut différents et deux fréquences de contrôle. Le capteur
niveau de sécurité. L'organe actuel assurant cette délivre donc 4 voies complexes après démodulation,
fonction, le circuit de voie (CdV), est amené à soit 8 signaux réels (figure 1).
disparaître dans un contexte de conduite automatisée. f1+f2 Alimentation Carte
Il est donc nécessaire de développer un nouveau Capteur électronique CF
système de contrôle du rail en exploitation f1 f2
commerciale. C'est l'objectif assigné à un capteur à 2 2 2 2 vitesse
courants de Foucault spécifique qui permet une mesure digitalisation
sans contact des fissures de rail, en exploitation d1,d2,... d8
commerciale jusqu’à 70 Km/h, avec des contraintes Alarmes
8 registres à décalage
fortes sur le du mouvement relatif capteur/rail, la majeures
Détection
compatibilité électromagnétique, les niveaux et mineures
d'accélération, et sur la pollution (pluie, graisse, Classification Classes
de défauts
poussière…).
Par ailleurs un capteur à courant de Foucault (CF) Figure 1. La chaîne d’instrumentation.
est sensible à toute modification de la géométrie et/ou La digitalisation est cadencée par une horloge dont
des caractéristiques électromagnétiques de la cible et la fréquence est fonction de la vitesse de déplacement
permet donc également la détection de défauts de du véhicule permettant ainsi un échantillonnage à pas
moindre importance comme les petites écailles de spatial fixe, fixé à 5mm. Le bloc de détection génère
surface. Le suivi de ces défauts permet aux des alarmes majeures et mineures selon le type de

1
défauts détectés et active au besoin le module de en ondelettes qui résout le problème de détection dans
classification. le plan temps-échelle. La dernière est une méthode de
La figure 2 donne un exemple d'évolution de la recoloration qui reconstitue les mesures absolues à
partie active d1 du premier signal de mesure sur 500m partir des mesures différentielles issues du capteur CF.
de rail. Des points singuliers ont été repérés : Ces procédures de détection/classification se sont
aiguillage (JA), usure ondulatoire du rail, joint éclissé avérées efficaces pour la détection des défauts majeurs
(JE), joint soudé (JS) ou écaille (Ec). ainsi que certains défauts mineurs (JS et Ec).
0.5 Dans cet article, nous présentons une procédure de
0.3 JE JE JE
JA JE classification par SVM à partir de la base
0.1 JS...
JS
Ec d'apprentissage utilisée dans les travaux antérieurs
0
-0.1 [3][4].
-0.3 usure ondulatoire
JA
-0.5
0 100 200 300 400 500 m 3. La classification par SVM
3.1. Notions
Figure 2. Evolution du signal d1 sur 500m de rail.
Le dépouillement des signaux a nécessité des visites Seules les notions de base de la classification par
en voies afin d’identifier chaque point singulier du machine à vecteurs de support (Support Vector
relevé et permettre ainsi un étiquetage précis en classe Machines, SVM) sont ici introduites ; pour plus de
de défaut. Ce dépouillement a conduit à la réalisation détails, le lecteur peut se référer aux références
d’une base statistique d’environ 633 défauts répartis [6][7][8].
selon 4 classes (JA, JE, JS, Ec). (X i , yi )1≤i ≤ n est un ensemble d’apprentissage de n
Plusieurs méthodes ont été testées pour détecter et p
classer le défaut selon son type. Les premiers travaux couples (ou exemples) et X i ∈ appartient à une
[2][3][4] se sont focalisés sur les problématiques de classe labellisée par yi ∈ {+1, − 1} . La fonction de
paramétrisation des signaux, sélection de paramètre et décision est donnée par un classifieur SVM est :
classification (figure 3).
 n 
signaux f ( X j ) = sgn  ∑ α i yi k( X i , X j ) + b  (1)
bruts Détection Paramétrisation Sélection Classes
 
 i =1 
des signaux de Classification de
numérisés paramètres défauts

où les coefficients αi sont obtenus par maximisation de


Figure 3. Procédure de détection - classification.
la fonction :
Dans l'étape de paramétrisation des signaux, une n
1 n
approche modélisation a été adoptée [2]. Dans [2], on W (α ) = ∑αi − 2 ∑ αiα j yi y j k( X i , X j ) (2)
propose une modélisation par les Descripteurs de i =1 i, j =1
Fourier Modifiés (DFM) qui donne les meilleures sous les contraintes :
performances pour la classification. Ces descripteurs n
restent insensibles à des transformations telles que ∑αi yi = 0 et 0 ≤ α i ≤ C i = 1, ,n (3)
homothéties, translations et retournements temporels. i =1
Les performances de différents types de réseaux de où C est une constante de régularisation qui contrôle le
neurones [4] ont été comparées et un soin particulier a compromis entre la complexité de la fonction de
été porté à la définition de l'espace de représentation décision et le nombre des exemples d’apprentissage
des signaux [3]. Une sélection des paramètres mal classés. Les SVM sont des classifieurs linéaires à
pertinents est effectuée afin de réduire la dimension de marge maximale dans un espace où les données sont
l'espace d'entrée du module de classification. projetées via une fonction non linéaire φ ( i ) telle que
Cependant, en amont de cette problématique, se φ ( X i )φ ( X j ) = k( X i , X j ) , où k est appelée fonction
pose celle de la détection. Celle-ci doit bien entendu
rester compatible avec les moyens de calcul embarqués noyau ou kernel. Seule cette fonction noyau k apparaît
de l'application temps-réel. dans (1) et (2) et la connaissance explicite de φ n’est
Différentes techniques de détection ont été testées, jamais requise. Parmi les noyaux couramment utilisés
parmi lesquelles trois méthodes dédiées à la détection pour la classification :
des défauts mineurs (écaillages et joints soudés) [5]. Ê -1 2ˆ
RBF k( X i , X j ) = exp Á 2 X i - X j ˜
La première est une méthode heuristique temporelle Ë 2σ ¯
basée sur une connaissance experte du capteur CF. La
seconde est une méthode de détection par transformée Polynomial k( X i , X j ) = ( X i ◊ X j + 1 )d

2
Sigmoïdal k( X i , X j ) = ( d X i ◊ X j - δ ) Dans ce qui suit, on présente les résultats de
classification de défauts de rail par SVM en utilisant la
l’application décrite ici utilise le noyau à fonction de
procédure 5-fold pour le réglage des hyperparamètres
base radiale (Radial Basis Fonction, RBF), où la
C et σ, puis la LOO comme indicateur final de
largeur σ de la gaussienne doit être réglée comme
généralisation.
hyperparamètre du classifieur.
Les points Xi avec αi>0 sont appelés vecteurs de
support (Support Vector, SV). On distingue deux types 4. Classification des défauts de rail par
de SV : la première catégorie contient les SV bien SVM
classés (0<αi<C), la seconde les SV mal classés 4.1. Données, paramétrisation et sélection
(αi=C).
Autour de chaque point détecté, une fenêtre de
3.2. Estimation de l’erreur de généralisation 500mm, soit 100 points (avec un pas d'échantillonnage
de 5mm), pour chacun des 8 signaux, est considérée
La technique la plus populaire pour l'estimation de pour la paramétrisation (figure 3). Les Descripteurs de
l'erreur de généralisation est la validation croisée qui Fourier Modifiés (DFM) sont obtenus à partir des 12
est utilisée indépendamment de la nature de la machine premiers coefficients ({Cj}j=1,…,12) de la transformée de
d'apprentissage utilisée. La LOO (Leave One Out) est Fourier discrète (TFD) des signaux de la fenêtre
une procédure de la validation croisée adaptée pour des d'observation [3] par :
données en faible nombre n. Elle consiste à diviser C j C- j
dj = (5)
l'ensemble des données en deux : une base C1 C-1
d'apprentissage de n-1 exemples et une base de test ne
La base d'apprentissage contient 140 défauts.
contenant qu'un seul exemple. La méthode réitère n
Chaque défaut est représenté par 100 points, puis,
apprentissages où l'exemple de test est un exemple
après paramétrisation, par 12 DFM, pour chacun des 8
différent. On note le nombre d'erreurs de classification
signaux. La matrice obtenue (140 x 96) contient 4
de la procédure LOO par L ( X 1 , y1 , , X n , yn ) . Il est
types de défauts : joint éclissé (JE), joint soudé (JS),
connu [10] que la procédure LOO donne une aiguillage (JA), écaille (Ec).
estimation presque non biaisée de l'espérance de La classification par SVM est une classification
l'erreur de généralisation. En effet, l'espérance E( i ) binaire, c'est-à-dire qu'on ne peut séparer que deux
de la probabilité perr n -1
de l'erreur de test par une classes seulement. On a donc utilisé l'approche 1 parmi
K pour construire un classifieur de 4 classes, ce qui
machine entraînée à partir de n-1 exemples est donnée
nous mène à concevoir 4 sous-classifieurs.
par :
Pour chacun des sous-classifieurs, la sélection des
n -1 1 paramètres est réalisée par la méthode
E( perr ) = E( L ( X 1 , y1 , , X n , yn )) (4)
n d'orthogonalisation dite Orthogonal Forward
Cependant, la procédure est coûteuse en calcul, car Regression (OFR) associée à un critère d'arrêt de
nécessitant n apprentissages. Pour alléger les calculs, sélection par l'adjonction d'un paramètre aléatoire [4].
une borne supérieure d'expression plus simple de On obtient alors pour les sous-classifieurs JE/autre,
l'erreur de généralisation peut être calculée [9][10]. JS/autre, JA/autre et Ec/autre respectivement 15, 15, 8
Une procédure simple d'estimation de l'erreur de et 9 paramètres.
généralisation est la validation croisée dite k-fold. Elle
consiste à diviser l'ensemble des données en k sous- 4.2. Réglage des hyperparamètres et résultats
ensembles mutuellement exclusifs de taille
approximativement égale. L'apprentissage de la Deux hyperparamètres doivent être réglés pour
machine est effectué en utilisant k-1 sous-ensembles et chacun des sous-classifieurs : le paramètre de
le test est effectué sur le sous-ensemble restant. Cette régularisation C (3), la largeur σ de la gaussienne des
procédure est répétée k fois et chaque sous-ensemble noyaux RBF. Chaque vecteur de paramètres est
est utilisé une fois pour le test. La moyenne des k taux normalisé entre –1 et +1. Cela justifie par ailleurs le
d'erreur obtenus estime l'erreur de généralisation. choix d'une valeur unique pour les largeurs σ des
La LOO peut être vue comme le cas extrême de la gaussiennes.
validation croisée k-fold, où k=n. Dans [9], on montre L'apprentissage comprend le réglage des
que la procédure de validation croisée k-fold permet un hyperparamètres et la détermination des paramètres
réglage des hyperparamètres SVM et donne une bonne
optimums (αi, b) de l'hyperplan séparateur pour chaque
estimation de l'erreur de généralisation.

3
sous-classifieur. Pour régler les hyperparamètres, un nombre d’exemples d'apprentissage. Pour des noyaux
balayage croisé de valeurs de C et σ est effectué et les RBF l'apprentissage estime automatiquement les
valeurs optimales sont celles qui donnent la plus faible centres des gaussiennes et leur nombre. Pour un
estimation de l'erreur de généralisation par la problème multi-classes, une combinaison de
procédure 5-fold. La figure 4 montre un exemple de classifieurs 1 parmi K a été utilisée et les performances
l'estimation de l'erreur de généralisation par la 5-fold améliorées par levée d'ambiguïté. Les résultats sont
pour le sous-classifieur JE/autres pour trois valeurs de similaires aux meilleurs résultats par réseaux de
C et 0.1 £ σ £ 100 . neurones RBF obtenus avec la distance de
Mahalanobis [4].
Le travail a été supporté par le programme national
de recherche et d’innovation dans les transports
terrestres PREDIT en coordination avec la RATP.

10. Références
[1] L. Oukhellou, P. Aknin, and J.P. Perrin, “Dedicated
sensor and classifier of rail head defects for railway
systems”, Control Engineering Practice, 1999, vol.7, pp. 57-
61.
Figure 4. Erreur de généralisation estimée par la [2] L. Oukhellou and P. Aknin, “Modified Fourier
5-fold pour le sous classifieur JE/autres. Descriptors: a new parametrization of eddy current signature
Le tableau 1 résume les performances obtenues de applied to the rail defect classification”, III International
bonne classification pour chaque sous-classifieur et Workshop on Advances in Signals Processing for Non
Destructive Evaluation of Materials, Québec, 1997.
pour la classification globale. Pour tous les
classifieurs, le taux de bonne détection est estimé par [3] L. Oukhellou, P. Aknin, H. Stoppiglia, and G. Dreyfus,
la procédure Leave One Out (LOO). Pour chacun des “A new decision criterion for feature selection: application to
sous-classifieurs (JE, JS, JA, Ec) sont indiqués les the classification of non destructive testing signatures”,
valeurs optimales des hyperparamètres (C, σ) et le EUSIPCO, Greece, 1998.
nombre des SV obtenus (Nsv).
Le classifieur global considère simultanément les [4] L. Oukhellou and P. Aknin, “Optimization of Radial
sorties des sous-classifieurs, les ambiguïtés étant prises Basis Function Network for Classification Tasks”,
Neurap’98, Marseille, 1998.
comme des erreurs de classification. Le classifieur
global sans ambiguïté considère les sorties des sous- [5] M. Bentoumi, P. Aknin, and G. Bloch, “On-line rail
classifieurs avant la fonction sgn (1) et attribue defect diagnosis with differential eddy current probes and
l'exemple à la classe du sous-classifieur dont la sortie specific detection processing”, European Physical Journal -
est maximale. Cette levée d'ambiguïté améliore Applied Physics, September 2003, vol.23, pp. 227-233.
nettement la classification globale.
[6] Vapnik, V., Statistical Learning Theory, Wiley, New
York, 1998.
Tableau 1. Taux de bonne classification
[7] C.J.C. Burges, “A Tutorial on Support Vector Machines
classifieur LOO C σ NSV
for Pattern Recognition”, Data Mining and Knowledge
JE/autre 94.3% 100 2.91 54 Discovery 2, 1998, pp. 121-167.
JS/autre 100% 2.02 1.11 44
JA/autre 95.7% 18.77 1.11 21 [8] Cristianini, N., and J. Shawe-Taylor, An Introduction to
Ec/autre 99.3 % 100 0.69 21 Support Vector Machines and other kernel-based learning
global 91.4% methods, Cambridge University Press, 2000.
global sans ambiguïté 96.4%
[9] K. Duan, S.S. Keerthi, and A.N. Poo, “Evaluation of
simple performance measures for tuning SVM
5. Conclusion hyperparameters”, Neurocomputing, 2003, vol.51, pp. 41-59.

Les SVM sont des classifieurs binaires possédant [10] O. Chapelle, V. Vapnik, O. Bousquet, and S.
une bonne capacité de généralisation pour un faible Mukherjee, “Choosing kernel parameters for support vector
machines”, Machine Learning, 2001, pp. 131–160.

View publication stats

Vous aimerez peut-être aussi