Académique Documents
Professionnel Documents
Culture Documents
Classification de Defauts de Rail Par SVM
Classification de Defauts de Rail Par SVM
net/publication/228773262
CITATIONS READS
6 1,438
5 authors, including:
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Patrice Aknin on 22 May 2014.
1
défauts détectés et active au besoin le module de en ondelettes qui résout le problème de détection dans
classification. le plan temps-échelle. La dernière est une méthode de
La figure 2 donne un exemple d'évolution de la recoloration qui reconstitue les mesures absolues à
partie active d1 du premier signal de mesure sur 500m partir des mesures différentielles issues du capteur CF.
de rail. Des points singuliers ont été repérés : Ces procédures de détection/classification se sont
aiguillage (JA), usure ondulatoire du rail, joint éclissé avérées efficaces pour la détection des défauts majeurs
(JE), joint soudé (JS) ou écaille (Ec). ainsi que certains défauts mineurs (JS et Ec).
0.5 Dans cet article, nous présentons une procédure de
0.3 JE JE JE
JA JE classification par SVM à partir de la base
0.1 JS...
JS
Ec d'apprentissage utilisée dans les travaux antérieurs
0
-0.1 [3][4].
-0.3 usure ondulatoire
JA
-0.5
0 100 200 300 400 500 m 3. La classification par SVM
3.1. Notions
Figure 2. Evolution du signal d1 sur 500m de rail.
Le dépouillement des signaux a nécessité des visites Seules les notions de base de la classification par
en voies afin d’identifier chaque point singulier du machine à vecteurs de support (Support Vector
relevé et permettre ainsi un étiquetage précis en classe Machines, SVM) sont ici introduites ; pour plus de
de défaut. Ce dépouillement a conduit à la réalisation détails, le lecteur peut se référer aux références
d’une base statistique d’environ 633 défauts répartis [6][7][8].
selon 4 classes (JA, JE, JS, Ec). (X i , yi )1≤i ≤ n est un ensemble d’apprentissage de n
Plusieurs méthodes ont été testées pour détecter et p
classer le défaut selon son type. Les premiers travaux couples (ou exemples) et X i ∈ appartient à une
[2][3][4] se sont focalisés sur les problématiques de classe labellisée par yi ∈ {+1, − 1} . La fonction de
paramétrisation des signaux, sélection de paramètre et décision est donnée par un classifieur SVM est :
classification (figure 3).
n
signaux f ( X j ) = sgn ∑ α i yi k( X i , X j ) + b (1)
bruts Détection Paramétrisation Sélection Classes
i =1
des signaux de Classification de
numérisés paramètres défauts
2
Sigmoïdal k( X i , X j ) = ( d X i ◊ X j - δ ) Dans ce qui suit, on présente les résultats de
classification de défauts de rail par SVM en utilisant la
l’application décrite ici utilise le noyau à fonction de
procédure 5-fold pour le réglage des hyperparamètres
base radiale (Radial Basis Fonction, RBF), où la
C et σ, puis la LOO comme indicateur final de
largeur σ de la gaussienne doit être réglée comme
généralisation.
hyperparamètre du classifieur.
Les points Xi avec αi>0 sont appelés vecteurs de
support (Support Vector, SV). On distingue deux types 4. Classification des défauts de rail par
de SV : la première catégorie contient les SV bien SVM
classés (0<αi<C), la seconde les SV mal classés 4.1. Données, paramétrisation et sélection
(αi=C).
Autour de chaque point détecté, une fenêtre de
3.2. Estimation de l’erreur de généralisation 500mm, soit 100 points (avec un pas d'échantillonnage
de 5mm), pour chacun des 8 signaux, est considérée
La technique la plus populaire pour l'estimation de pour la paramétrisation (figure 3). Les Descripteurs de
l'erreur de généralisation est la validation croisée qui Fourier Modifiés (DFM) sont obtenus à partir des 12
est utilisée indépendamment de la nature de la machine premiers coefficients ({Cj}j=1,…,12) de la transformée de
d'apprentissage utilisée. La LOO (Leave One Out) est Fourier discrète (TFD) des signaux de la fenêtre
une procédure de la validation croisée adaptée pour des d'observation [3] par :
données en faible nombre n. Elle consiste à diviser C j C- j
dj = (5)
l'ensemble des données en deux : une base C1 C-1
d'apprentissage de n-1 exemples et une base de test ne
La base d'apprentissage contient 140 défauts.
contenant qu'un seul exemple. La méthode réitère n
Chaque défaut est représenté par 100 points, puis,
apprentissages où l'exemple de test est un exemple
après paramétrisation, par 12 DFM, pour chacun des 8
différent. On note le nombre d'erreurs de classification
signaux. La matrice obtenue (140 x 96) contient 4
de la procédure LOO par L ( X 1 , y1 , , X n , yn ) . Il est
types de défauts : joint éclissé (JE), joint soudé (JS),
connu [10] que la procédure LOO donne une aiguillage (JA), écaille (Ec).
estimation presque non biaisée de l'espérance de La classification par SVM est une classification
l'erreur de généralisation. En effet, l'espérance E( i ) binaire, c'est-à-dire qu'on ne peut séparer que deux
de la probabilité perr n -1
de l'erreur de test par une classes seulement. On a donc utilisé l'approche 1 parmi
K pour construire un classifieur de 4 classes, ce qui
machine entraînée à partir de n-1 exemples est donnée
nous mène à concevoir 4 sous-classifieurs.
par :
Pour chacun des sous-classifieurs, la sélection des
n -1 1 paramètres est réalisée par la méthode
E( perr ) = E( L ( X 1 , y1 , , X n , yn )) (4)
n d'orthogonalisation dite Orthogonal Forward
Cependant, la procédure est coûteuse en calcul, car Regression (OFR) associée à un critère d'arrêt de
nécessitant n apprentissages. Pour alléger les calculs, sélection par l'adjonction d'un paramètre aléatoire [4].
une borne supérieure d'expression plus simple de On obtient alors pour les sous-classifieurs JE/autre,
l'erreur de généralisation peut être calculée [9][10]. JS/autre, JA/autre et Ec/autre respectivement 15, 15, 8
Une procédure simple d'estimation de l'erreur de et 9 paramètres.
généralisation est la validation croisée dite k-fold. Elle
consiste à diviser l'ensemble des données en k sous- 4.2. Réglage des hyperparamètres et résultats
ensembles mutuellement exclusifs de taille
approximativement égale. L'apprentissage de la Deux hyperparamètres doivent être réglés pour
machine est effectué en utilisant k-1 sous-ensembles et chacun des sous-classifieurs : le paramètre de
le test est effectué sur le sous-ensemble restant. Cette régularisation C (3), la largeur σ de la gaussienne des
procédure est répétée k fois et chaque sous-ensemble noyaux RBF. Chaque vecteur de paramètres est
est utilisé une fois pour le test. La moyenne des k taux normalisé entre –1 et +1. Cela justifie par ailleurs le
d'erreur obtenus estime l'erreur de généralisation. choix d'une valeur unique pour les largeurs σ des
La LOO peut être vue comme le cas extrême de la gaussiennes.
validation croisée k-fold, où k=n. Dans [9], on montre L'apprentissage comprend le réglage des
que la procédure de validation croisée k-fold permet un hyperparamètres et la détermination des paramètres
réglage des hyperparamètres SVM et donne une bonne
optimums (αi, b) de l'hyperplan séparateur pour chaque
estimation de l'erreur de généralisation.
3
sous-classifieur. Pour régler les hyperparamètres, un nombre d’exemples d'apprentissage. Pour des noyaux
balayage croisé de valeurs de C et σ est effectué et les RBF l'apprentissage estime automatiquement les
valeurs optimales sont celles qui donnent la plus faible centres des gaussiennes et leur nombre. Pour un
estimation de l'erreur de généralisation par la problème multi-classes, une combinaison de
procédure 5-fold. La figure 4 montre un exemple de classifieurs 1 parmi K a été utilisée et les performances
l'estimation de l'erreur de généralisation par la 5-fold améliorées par levée d'ambiguïté. Les résultats sont
pour le sous-classifieur JE/autres pour trois valeurs de similaires aux meilleurs résultats par réseaux de
C et 0.1 £ σ £ 100 . neurones RBF obtenus avec la distance de
Mahalanobis [4].
Le travail a été supporté par le programme national
de recherche et d’innovation dans les transports
terrestres PREDIT en coordination avec la RATP.
10. Références
[1] L. Oukhellou, P. Aknin, and J.P. Perrin, “Dedicated
sensor and classifier of rail head defects for railway
systems”, Control Engineering Practice, 1999, vol.7, pp. 57-
61.
Figure 4. Erreur de généralisation estimée par la [2] L. Oukhellou and P. Aknin, “Modified Fourier
5-fold pour le sous classifieur JE/autres. Descriptors: a new parametrization of eddy current signature
Le tableau 1 résume les performances obtenues de applied to the rail defect classification”, III International
bonne classification pour chaque sous-classifieur et Workshop on Advances in Signals Processing for Non
Destructive Evaluation of Materials, Québec, 1997.
pour la classification globale. Pour tous les
classifieurs, le taux de bonne détection est estimé par [3] L. Oukhellou, P. Aknin, H. Stoppiglia, and G. Dreyfus,
la procédure Leave One Out (LOO). Pour chacun des “A new decision criterion for feature selection: application to
sous-classifieurs (JE, JS, JA, Ec) sont indiqués les the classification of non destructive testing signatures”,
valeurs optimales des hyperparamètres (C, σ) et le EUSIPCO, Greece, 1998.
nombre des SV obtenus (Nsv).
Le classifieur global considère simultanément les [4] L. Oukhellou and P. Aknin, “Optimization of Radial
sorties des sous-classifieurs, les ambiguïtés étant prises Basis Function Network for Classification Tasks”,
Neurap’98, Marseille, 1998.
comme des erreurs de classification. Le classifieur
global sans ambiguïté considère les sorties des sous- [5] M. Bentoumi, P. Aknin, and G. Bloch, “On-line rail
classifieurs avant la fonction sgn (1) et attribue defect diagnosis with differential eddy current probes and
l'exemple à la classe du sous-classifieur dont la sortie specific detection processing”, European Physical Journal -
est maximale. Cette levée d'ambiguïté améliore Applied Physics, September 2003, vol.23, pp. 227-233.
nettement la classification globale.
[6] Vapnik, V., Statistical Learning Theory, Wiley, New
York, 1998.
Tableau 1. Taux de bonne classification
[7] C.J.C. Burges, “A Tutorial on Support Vector Machines
classifieur LOO C σ NSV
for Pattern Recognition”, Data Mining and Knowledge
JE/autre 94.3% 100 2.91 54 Discovery 2, 1998, pp. 121-167.
JS/autre 100% 2.02 1.11 44
JA/autre 95.7% 18.77 1.11 21 [8] Cristianini, N., and J. Shawe-Taylor, An Introduction to
Ec/autre 99.3 % 100 0.69 21 Support Vector Machines and other kernel-based learning
global 91.4% methods, Cambridge University Press, 2000.
global sans ambiguïté 96.4%
[9] K. Duan, S.S. Keerthi, and A.N. Poo, “Evaluation of
simple performance measures for tuning SVM
5. Conclusion hyperparameters”, Neurocomputing, 2003, vol.51, pp. 41-59.
Les SVM sont des classifieurs binaires possédant [10] O. Chapelle, V. Vapnik, O. Bousquet, and S.
une bonne capacité de généralisation pour un faible Mukherjee, “Choosing kernel parameters for support vector
machines”, Machine Learning, 2001, pp. 131–160.