Académique Documents
Professionnel Documents
Culture Documents
02-Infant Cry Classification To Identify Asphyxia Using Time-Frequency Analysis and Radial Basis Neural Networks
02-Infant Cry Classification To Identify Asphyxia Using Time-Frequency Analysis and Radial Basis Neural Networks
Systèmes experts avec applications 39 (2012) 9515–9523
Listes de contenu disponibles sur SciVerse ScienceDirect
Systèmes experts avec applications
page d'accueil de la revue : www.elsevier.com/locate/eswa
Classification des cris du nourrisson pour identifier l'asphyxie à l'aide d'une analyse tempsfréquence
et de réseaux de neurones à base radiale
b
M. Hariharan a, Wan Khairunizam , Sazali Yaacob
un un un
, J. Saraswathy , R. Sindhu ,
un
École d'ingénierie mécatronique, Universiti Malaysia Perlis (UniMAP), 02600 Perlis, Malaisie
b
École de génie microélectronique, Universiti Malaysia Perlis (UniMAP), 02600 Perlis, Malaisie
informations sur l'article abstrait
Mots clés: Un cri est la première communication verbale des nourrissons et il est décrit comme un son fort et aigu émis par les nourrissons en
Cri du nourrisson réponse à certaines situations. Les signaux de cri du nourrisson peuvent être utilisés pour identifier l'état physique ou psychologique
Extraction de caractéristiques
d'un nourrisson. Récemment, l'analyse acoustique du signal de cri du nourrisson a montré des résultats prometteurs et s'est avérée
Transformée de Fourier à court terme
être un excellent outil pour étudier l'état pathologique d'un nourrisson. Cet article propose une analyse tempsfréquence basée sur
PNN et GRNN
la transformée de Fourier à court terme (STFT) des signaux de pleurs du nourrisson. Peu de caractéristiques statistiques sont
dérivées du tracé tempsfréquence des signaux de pleurs du nourrisson et utilisées comme caractéristiques pour quantifier les
signaux de pleurs du nourrisson. Deux types de réseaux neuronaux à base radiale tels que le réseau neuronal probabiliste (PNN)
et le réseau neuronal de régression générale sont utilisés comme classificateurs pour discriminer les signaux de pleurs du
nourrisson. Deux classes de signaux de pleurs infantiles sont considérées, telles que les signaux de pleurs normaux et les signaux
de pleurs pathologiques des nourrissons asphyxiques. À des fins de comparaison, les fonctionnalités proposées sont également
testées à l'aide de deux modèles de réseaux de neurones tels que le Perceptron multicouche (MLP) et le Réseau de neurones à
retard temporel (TDNN) entraînés par un algorithme de gradient conjugué mis à l'échelle. Les résultats expérimentaux montrent que
le PNN et le GRNN donnent une précision de classification très prometteuse par rapport au MLP et au TDNN et que les méthodes
proposées peuvent classer efficacement les cris normaux et pathologiques des nourrissons souffrant d'asphyxie.
2012 Elsevier Ltd. Tous droits réservés.
1. Introduction Puebla, 2009; ReyesGalaviz & ReyesGarcia, 2004 ; ReyesGalaviz,
Verduzco, ArchTirado et ReyesGarcía, 2005 ; Varallyay, 2007 ; Várallyay,
Le cri du nourrisson est défini comme un son fort et aigu émis par le Benyó, Illényi, Farkas, & Kovács, 2004 ; WaszHockert et al., 1968). Au
nourrisson en réponse à certaines situations et il s'agit de la première cours des dernières années, des techniques simples ont été proposées
communication verbale du nourrisson. Cry est de nature multimodale et dynamique. pour analyser le cri du nourrisson à travers le codage de prédiction linéaire,
La détection de l'état pathologique des bébés à l'aide des méthodes les coefficients cepstraux de fréquence Mel, les informations de hauteur,
conventionnelles prend plusieurs mois voire des années après la naissance l'analyse harmonique et l'analyse du bruit (BarajasMontiel & ReyesGarcía,
du nourrisson. Il est nécessaire de détecter l'état pathologique plus tôt pour 2006; Cano et al., 1995) . , 2006; Escobedo et al., 2001; Garcia & Reyes
éviter des traitements et des thérapies inutiles. Les pleurs des nourrissons García, 2003a, 2003b; Manfredi et al., 2006; Petroni et al., 1995; Reyes
sont dus à certaines raisons possibles telles que la faim, la douleur, la Galaviz, Arch Tirado, & Reyes Garcia, 2004; Reyes Galaviz & Reyes
somnolence, l'inconfort, la sensation d'avoir trop chaud ou trop froid et trop Garcia , 2004 ; ReyesGalaviz et al., 2005, 2009 ; Várallyay, 2007 ; Várallyay
de bruit ou de lumière. Dès le cri, un professionnel qualifié tel qu'un pédiatre et al., 2004 ; WaszHockert et al., 1968). Différents algorithmes de
et une infirmière pédiatrique peut comprendre l'état physique ou classification et systèmes hybrides ont été utilisés pour la classification des
psychologique du bébé. L'analyse acoustique du signal de cri du nourrisson pleurs du nourrisson (BarajasMontiel & ReyesGarcía, 2006 ; Cano et al.,
est un outil non invasif pour la détection de certaines conditions 1995, 2006 ; Escobedo et al., 2001 ; Garcia & Reyes García, 2003a, 2003b ;
pathologiques (Barajas Montiel & ReyesGarcía, 2006; Cano, SuasteRivas, Manfredi et al., 2006; Petroni et al., 1995; Reyes Galaviz et al., 2004; Reyes
Escobedo, ReyesGarcia, & Ekkel, 2006; Cano et al. , 1995 ; Escobedo, Galaviz & ReyesGarcia, 2004; ReyesGalaviz et al., 2005, 2009; Várallyay,
Cano, Coello, Regueiferos et Capdevila, 2001 ; Garcia et Reyes García, 2007; Várallyay et al. , 2004 ; WaszHockert et al., 1968). Le cri du
2003a, 2003b ; Manfredi, Tocchioni et Bocchi, 2006 ; Petroni, Malowany, nourrisson est un signal hautement non stationnaire ; La transformée de
Johnston et Stevens, 1995 ; Reyes Galaviz et Reyes Garcia , 2004 ; Reyes Fourier n'est pas un outil très utile pour analyser les signaux non stationnaires
Galaviz, CanoOrtiz, ReyesGarcia, et Electronica, & car les informations du domaine temporel sont perdues lors de l'exécution
de la transformation de fréquence. Lorsque l'on regarde une transformée
de Fourier d'un signal, il est impossible de dire quand un événement
Auteur correspondant. Tél. : +60 49798419 ; télécopie : +60 49885167.
particulier a eu lieu. Afin de surmonter les inconvénients de la technique de
Adresse email : hari@unimap.edu.my (M. Hariharan). transformée de Fourier, l'analyse tempsfréquence a été
09574174/$ voir couverture 2012 Elsevier Ltd. Tous droits réservés. doi:10.1016/
j.eswa.2012.02.102
Machine Translated by Google
9516 M. Hariharan et al. / Systèmes experts avec applications 39 (2012) 9515–9523
proposé par les chercheurs car c'est un bon outil pour analyser simultanément les signaux cette expérience, nous avons pris le même nombre d'échantillons pour chaque classe 340.
de pleurs du nourrisson à la fois sur l'échelle de temps et de fréquence (Hariharan, Sindhu Les signaux de cri d'asphyxie sont enregistrés à partir de 6 bébés et les signaux de cri
et Yaacob, 2011c). Peu de travaux peuvent être trouvés dans la littérature utilisant l'analyse normaux sont enregistrés à partir de 5 bébés. La fréquence d'échantillonnage des signaux
tempsfréquence pour la reconnaissance du signal de cri du nourrisson (Cano et al., 1995 ; de pleurs du nourrisson est fixée à 8000 Hz pour notre analyse.
Escobedo et al., 2001 ; Manfredi et al., 2006 ; Petroni et al., 1995 ; Várallyay, 2007 ; Wasz Tous les signaux de pleurs du nourrisson sont soumis à une extraction de caractéristiques
Hockert et al., 1968). Mais, l'interprétation de l'analyse tempsfréquence est différente. via STFT. Le signal de cri du nourrisson enregistré chez un bébé normal et un bébé atteint
Beaucoup d'entre eux ont utilisé la hauteur, l'analyse harmonique et l'analyse du bruit d'asphyxie est représenté sur la figure 1.
(Cano et al., 1995 ; Escobedo et al., 2001 ; Manfredi et al., 2006 ; Petroni et al., 1995 ;
Várallyay, 2007 ; WaszHockert et al., 1968). Cet article présente le développement d'un 3. Méthode
système d'apprentissage intelligent pour classer les cris normaux et pathologiques en
utilisant la transformée de Fourier à court terme et les réseaux de neurones à base radiale
La classification des cris du nourrisson est un système typique de reconnaissance
(PNN et GRNN). Les chercheurs ont proposé des approches pour les problèmes de de formes et se compose de deux blocs : traitement du signal basé sur la transformée de
domaine à deux classes (normal ou pathologique) ou à plus de deux classes de cris du
Fourier à court terme et classification utilisant PNN, GRNN, MLP et TDNN. Cette section
nourrisson (signaux de cri normaux ou pathologiques). Le tableau 1 présente quelques
décrit brièvement les méthodes d'extraction et de classification des caractéristiques.
uns des travaux significatifs sur la classification des signaux de cri normaux et pathologiques.
4. Extraction de caractéristiques à l'aide de la transformée de Fourier à court terme (STFT)
De la littérature, il a été observé que l'extraction de caractéristiques joue un rôle
important dans le domaine de la détection automatique des cris pathologiques. Dans cet Le cri du nourrisson est un signal dynamique ou non stationnaire. La transformée de
article, une méthode d'extraction de caractéristiques utilisant une analyse tempsfréquence Fourier n'est pas un outil très utile pour analyser les signaux non stationnaires car les
basée sur STFT pour dériver des caractéristiques à partir de signaux de pleurs infantiles informations du domaine temporel sont perdues lors de l'exécution de la transformation
et des réseaux de neurones à base radiale est proposée pour discriminer les cris normaux de fréquence. Lorsque l'on regarde une transformée de Fourier d'un signal, il est impossible
et pathologiques (Asphyxie). de dire quand un événement particulier a eu lieu.
Deux schémas de méthodes de validation des données sont utilisés (validation Afin de surmonter les inconvénients de l'approche de la transformée de Fourier, l'analyse
conventionnelleConV et validation croisée 10 foisCrossV), afin de tester l'efficacité des tempsfréquence a été proposée par les chercheurs car c'est un bon outil pour analyser
fonctionnalités proposées et la fiabilité des résultats de classification. Les investigations simultanément les signaux de pleurs du nourrisson à la fois à l'échelle temporelle et
expérimentales élucident que le STFT combiné avec des caractéristiques statistiques et fréquentielle. Afin de produire un bon spectrogramme tempsfréquence des signaux de
des réseaux de neurones à base radiale peut être utilisé pour détecter certains états pleurs du nourrisson, STFT est sélectionné comme extraction de caractéristiques. Le
pathologiques d'un nourrisson à partir de signaux de pleurs. spectrogramme basé sur STFT est une technique simple et rapide par rapport à d'autres
analyses tempsfréquence. La courte durée est une approche simple consistant à découper
la forme d'onde d'intérêt en un certain nombre de segments courts et à effectuer l'analyse
sur chacun des segments à l'aide de la transformée de Fourier standard ( John, 2004 ;
2. Base de données
Rabiner & Juang, 1993). Une fonction de fenêtre est appliquée à un segment de données,
isolant efficacement ce segment de la forme d'onde globale, et une transformée de Fourier
La base de données des cris infantiles est téléchargeable sur le site http:// est appliquée à ce segment. C'est ce qu'on appelle le spectrogramme ou ''transformée de
www.ingenieria.uatx.mx/orionfrg/cry/ appelée base de données Baby Chillanto et est la Fourier à court terme''.
propriété de l'Instituto Nacional de Astrofisica Optica y Electronica (INAOE) CONACYT,
Mexique. La base de données est décrite en référence (ReyesGalaviz et al., 2009). Tous STFT est représenté dans le domaine discret donné par Eq. (1):
les échantillons de cette base de données ont une longueur de 1 s et nous avons pris les
mêmes échantillons pour notre analyse. Il se compose de 507 signaux de pleurs normaux
Xðm ; kÞ ¼ XN xðnÞ½Wðn kÞejnm=N ð1Þ
et de 340 signaux d'asphyxie (l'asphyxie est définie comme l'incapacité à bien respirer
n¼1
dans la minute qui suit l'accouchement. Cette maladie peut causer des dommages au
cerveau, aux organes et aux tissus, voire la mort si elle est soumise à un retard ou où W[n] est une fonction de fenêtrage à court terme de taille L, centrée à
traitement inapproprié) signaux de cri. Dans l'emplacement temporel m, et N est le nombre de fréquences discrètes
(NPL). Habituellement, N est choisi comme étant une puissance de 2 pour utiliser un
Tableau 1
Quelquesuns des travaux importants sur la classification des signaux de pleurs du nourrisson.
M. Hariharan et al. / Systèmes experts avec applications 39 (2012) 9515–9523 9517
Fig. 1. Signaux de pleurs du nourrisson (normaux et asphyxiques).
Analyse tempsfréquence à Classement par
Cri du nourrisson l'aide de STFT PNN,
Signal (caractéristiques statistiques) GRNN, MLP et
TDNN
Fig. 2. Schéma fonctionnel de la classification des cris normaux et asphyxiques du nourrisson.
Transformée de Fourier rapide et efficace (FFT). La transformée de Fourier étant
une fonction complexe, la densité spectrale de puissance (PSD) est utilisée et est
donnée par l'équation. (2):
Le spectrogramme peut être utilisé pour observer les caractéristiques temporelles
Figure 3a. Tracé tempsfréquence du signal de cri normal (segment 350).
et spectrales en tout point des signaux de pleurs du nourrisson. Généralement, la
longueur de trame est choisie entre 10 ms et 50 ms dans le domaine de l'analyse
du signal de parole (Rabiner & Juang, 1993) et donc dans ce travail, les signaux de
pleurs du nourrisson sont segmentés en différentes longueurs de trame de 20 ms,
30 ms, 40 ms et 50 ms avec un chevauchement de 50 % entre les trames. L'effet
de différentes longueurs de trame a été étudié et ses résultats sont présentés dans
ce travail. La sortie du STFT est une matrice dont les lignes se rapportent à la
fréquence et les colonnes au temps.
À partir du STFT PSD des signaux de cri (Fig. 3a et 3b), des tracés temps
fréquence, tempsamplitude et fréquenceamplitude peuvent être générés et
peuvent afficher clairement la discrimination entre les différents types de signaux
de cri. Le schéma fonctionnel de l'extraction et de la classification des caractéristiques
est illustré à la Fig. 2.
Figues. 3a et 3b illustrent le tracé tempsfréquence du signal de cri normal
(segment 350) et du signal de cri pathologique (Asphyxie, segment 250).
Figues. 4 et 5(a) illustrent le tracé d'amplitude tempsmaximum, qui est
l'amplitude maximale en fonction du temps en trouvant des colonnes de tracé Figure 3b. Tracé tempsfréquence du signal de cri pathologique (asphyxie, segment 250).
tempsfréquence. Figues. 4 et 5(b) illustrent le tracé fréquence – amplitude
maximale, qui est l'amplitude maximale par rapport à la fréquence en trouvant fréquence en trouvant des lignes de tracé tempsfréquence à chaque fréquence.
des lignes de tracé tempsfréquence à chaque fréquence. Figues. 4 et 5(c) L'extraction de caractéristiques joue un rôle essentiel dans le domaine de la
illustrent le tracé fréquenceécarttype, qui montre l'écarttype par rapport à fre classification des signaux de pleurs du nourrisson. En utilisant les Fig. 3a et 3b,
normalisé on peut différencier le cri normal et pathologique par inspection visuelle.
Machine Translated by Google
9518 M. Hariharan et al. / Systèmes experts avec applications 39 (2012) 9515–9523
Fig. 4. (a) Tracé de l'amplitude maximale dans le temps (dB) du signal de cri normal (segment 350), (b). Tracé fréquenceamplitude maximale (dB), et (c). Fréquence tracé de l'écart
type de l'amplitude (dB).
Fig. 5. (a) Tracé de l'amplitude maximale temporelle (dB) du signal de cri pathologique (asphyxie, segment 250), (b). Tracé fréquenceamplitude maximale (dB), et (c). Fréquence tracé
de l'écart type de l'amplitude (dB).
Cependant, il existe une possibilité d'interprétation erronée des tracés temps des tracés d'amplitude maximum de temps des signaux de pleurs du nourrisson,
fréquence et les résultats dépendent également de l'expertise des professionnels des tracés d'amplitude maximale de fréquence des signaux de cri du nourrisson et
de la santé. Par conséquent, dans cet article, une méthode simple d'extraction de des tracés d'amplitude d'écarttype de fréquence des signaux de cri du nourrisson.
caractéristiques est proposée en appliquant des techniques statistiques standard Les caractéristiques statistiques standard se sont avérées utiles pour la
aux tracés tempsfréquence des signaux de pleurs du nourrisson, quantification et la classification des signaux de pleurs du nourrisson.
Machine Translated by Google
M. Hariharan et al. / Systèmes experts avec applications 39 (2012) 9515–9523 9519
Tableau
2 Statistiques des paramètres extraits (moyenne ± std) pour les différentes longueurs de trame.
Ensemble 1. Extraction de caractéristiques à partir de tracés temps motifs. Dans ce travail, deux types de structures de réseaux de neurones à base radiale
fréquence Moyenne et écart type de l'amplitude du tempsfréquence sont sélectionnés, tels que le réseau de neurones probabiliste et le réseau de neurones
parcelles (2 éléments, élément 1 et élément 2). de régression générale, et ils sont utilisés pour la classification des cris normaux et
Ensemble 2. Extraction de caractéristiques à partir des tracés d'amplitude maximum pathologiques car ils ont été appliqués avec succès dans différentes applications
de temps, des tracés d'amplitude de fréquence maximum et des tracés de fréquence (Bowden, Bixon, Dandy , Maier et Holmes, 2006 ; Erkmen et Yildirim, 2008 ; Feng, Chu
écart type Maximum, et Song, 2004 ; Firat et Gungor, 2009 ; Hariharan, Paulraj et Yaacob, 2011b ; Hariharan,
minimum, moyenne, écart type, asymétrie et kurtosis des tracés d'amplitude de Sin Chee et Yaacob, 2010 ; Hariharan, Yaacob et Awang, 2011a ; Hariharan et al.,
temps maximum, fréquence maximum des tracés d'amplitude et fréquence – tracés 2011c ; Leung, Chen et Daouk, 2000 ; Polat et Yildirim, 2008). PNN et GRNN ont des
d'écart type (Caractéristique 3–8, Caractéristique 9–14 et Caractéristique 15–20, architectures similaires. La variable cible est catégorielle pour le classificateur PNN alors
totalisant 18 caractéristiques). que pour le réseau GRNN la variable cible est continue. Réseaux de fonctions à base
Vingt caractéristiques sont extraites de chaque signal de cri du nourrisson et utilisées radiale qui calculent les activations à l'aide d'une exponentielle d'une mesure de
comme entrée pour les classificateurs afin de distinguer les signaux de cri entre les distance (généralement la distance euclidienne ou une norme pondérée) entre le vecteur
cris normaux et les cris d'asphyxie. d'entrée et un vecteur prototype qui caractérise la fonction de signal au niveau d'un
Le tableau 2 montre les statistiques des caractéristiques extraites (moyenne ± std) neurone caché plutôt que d'employer un produit interne entre le vecteur d'entrée et le
pour les différentes longueurs de trame. D'après le tableau 2, on observe que les vecteur de poids (Kumar, 2004). Pour prouver la fiabilité des fonctionnalités proposées,
caractéristiques extraites des signaux de cri normaux et pathologiques sont presque deux modèles de réseaux de neurones tels que le Perceptron multicouche et le réseau
distinguables. de neurones à retard temporel entraînés par un algorithme de gradient conjugué mis à
l'échelle sont également utilisés comme classificateurs.
5. Réduction de la dimensionnalité à l'aide de l'analyse en composantes
principales (ACP)
L'analyse en composantes principales est un type de méthode de projection
et il est utilisé pour réduire les caractéristiques redondantes dans la matrice de
caractéristiques. L'ACP maximise la variance des vecteurs projetés (Jolliffe, 1986 ; 6.1. Réseau de neurones probabiliste
Lindsay, 2002). L'extraction ou la sélection de caractéristiques est une étape clé de tout
processus de reconnaissance de formes. Les caractéristiques de haute dimension Specht a proposé le réseau neuronal probabiliste basé sur la classification
affectent les performances du classifieur et augmentent également la complexité de bayésienne et les estimateurs classiques pour la fonction de densité de probabilité
calcul. La sélection d'entités est un processus par lequel un espace de données de (Fausett, 1994 ; Specht, 1990). Le PNN comprend quatre unités, telles que les unités
grande dimension est transformé en un espace d'entités, qui a exactement la même d'entrée, les unités de modèle, les unités de sommation et les unités de sortie. Toutes
dimension que les données d'origine. À partir de l'espace des caractéristiques les unités sont entièrement interconnectées et les unités de motif sont activées par une
transformées, les caractéristiques non redondantes sont sélectionnées sur la base du fonction exponentielle, au lieu d'une fonction d'activation sigmoïde. L'unité de motif
critère de valeur propre, où le nombre de caractéristiques correspondant aux valeurs calcule les distances entre le vecteur d'entrée et les vecteurs d'entrée d'apprentissage,
propres supérieures à 1,0 (Jolliffe, 1986 ; Lindsay, 2002). Dans ce travail, 13 lorsqu'une entrée est présentée, et produit un vecteur dont les éléments indiquent à
caractéristiques sont identifiées à partir de l'espace des caractéristiques transformées, quel point l'entrée est proche d'une entrée d'apprentissage. L'unité de sommation
qui correspondent à des valeurs propres supérieures à 1,0. additionne ces contributions pour chaque classe d'entrées et produit une sortie nette qui
est un vecteur de probabilités. À partir du maximum de ces probabilités, les unités de
sortie produisent un 1 pour cette classe et un 0 pour les autres classes en utilisant la
6. Classificateurs fonction de transfert en concurrence. Considérons le problème à deux classes, à savoir
la classe A et la classe B. PNN utilise l'estimateur suivant pour la fonction de densité de
Les réseaux de neurones artificiels sont largement utilisés dans les problèmes de probabilité donnée par l'équation. (3)
reconnaissance de formes et de classification en apprenant à partir d'exemples.
Différents modèles de réseaux de neurones sont disponibles pour classer les
Machine Translated by Google
9520 M. Hariharan et al. / Systèmes experts avec applications 39 (2012) 9515–9523
la classe A et r est un paramètre de lissage correspondant à l'écart type de choisis à 0,001, 0,1 et 0,9. L'algorithme conjugué mis à l'échelle est choisi pour former le
la distribution gaussienne. modèle de réseau de neurones (Garcia & Reyes García, 2003a, 2003b). Les neurones
Le filet peut être utilisé pour la classification dès qu'un exemple de motif de chacune cachés et de sortie sont activés par une fonction d'activation sigmoïde binaire. Dans ce
des deux classes lui a été présenté. travail, l'architecture MLP est construite en utilisant newff() dans la fonction MATLAB
Cependant, PNN se généralise bien car il est formé avec plus d'exemples. La variation (Matlab, version 7.0, 2004). Les performances du classificateur MLP dépendent fortement
du paramètre de lissage (r) permet de contrôler le degré de nonlinéarité des frontières des différents paramètres d'apprentissage, tels que le nombre de neurones cachés, le
de décision pour le réseau. Une limite de décision s'approche d'un hyperplan pour les taux d'apprentissage, le facteur d'impulsion, les critères d'arrêt et les fonctions d'activation.
grandes valeurs de r et se rapproche de la surface de décision hautement non linéaire du
classificateur voisin le plus proche pour les petites valeurs de r proches de zéro. Dans cet
article, l'architecture PNN est construite à l'aide de newpnn() dans la fonction MATLAB Sur la base de plusieurs enquêtes expérimentales, les meilleurs paramètres d'apprentissage
(Matlab, version 7.0, 2004). Les informations détaillées sur l'architecture PNN et les sont trouvés et utilisés lors de la formation et des tests du classificateur MLP.
équations mathématiques peuvent être trouvées dans l'article de Specht (Specht, 1990).
6.4. Réseau neuronal temporisé
Les performances du classificateur PNN dépendent fortement du paramètre de lissage ou
du facteur d'étalement (r). Sur la base des recherches expérimentales, la valeur r varie Le réseau de neurones à retard temporel a été utilisé dans les applications de
entre 0,04 et 0,085 par pas de 0,005. reconnaissance de la parole (Hampshire & Waibel, 1990 ; Waibel, Hanazawa, Hin ton,
Shikano, & Lang, 1989) ainsi que dans la classification des pleurs du nourrisson (Reyes
Galaviz & Reyes Garcia, 2004 ; Reyes Galaviz et al., 2005). Il a été proposé de l'utiliser
6.2. Réseau de neurones de régression générale dans la classification des pleurs du nourrisson puisque les données sur les pleurs ne sont
pas statiques et dépendent du temps des modèles de pleurs (Reyes Galaviz & Reyes
Specht a proposé le modèle de GRNN pour effectuer des régressions générales Garcia, 2004; ReyesGalaviz et al., 2005). Les informations détaillées sur le TDNN
(linéaires ou non linéaires) (Specht, 1991). GRNN est basé sur la théorie de l'analyse de peuvent être trouvées dans Hampshire et Waibel (1990), Reyes Galaviz et Reyes Garcia
régression de probabilité. Il utilise généralement des estimations de fenêtre Par zen pour (2004) Reyes Galaviz et al. (2005) et Waibel et al. (1989). Un modèle TDNN est développé
configurer le PDF à partir des échantillons de données observés. En supposant que x est et formé par un algorithme de gradient conjugué mis à l'échelle. Il se compose de 20
une variable vectorielle aléatoire, y est une variable scalaire aléatoire, X et Y sont des neurones et le délai d'entrée spécifié par l'utilisateur, dans ce cas le délai (Reyes Galaviz
valeurs mesurées, f(x, y) est la PDF jointe continue connue. La valeur attendue de y (la & Reyes Garcia, 2004) est (0,1), les neurones cachés qui varient entre 10 et 20 par pas de
valeur de régression sur X) est donnée par l'équation. (4) (Specht, 1991) 2 et 1 neurone de sortie. L'objectif de performance, le taux d'apprentissage, le facteur
d'élan sont respectivement choisis à 0,001, 0,1 et 0,9.
1
R 1 yfðX ; yÞdy
EðyjXÞ ð4Þ
¼ 11 1fðX ; yÞdy L'algorithme conjugué mis à l'échelle est choisi pour former le modèle TDNN (Garcia &
Reyes García, 2003a, 2003b). Les neurones cachés et de sortie sont activés par une
où y = la sortie prédite par GRNN. fonction d'activation sigmoïdale binaire. Dans ce travail, l'architecture TDNN est construite
X = le vecteur d'entrée (x1, x2, ..., xn) qui se compose de n variables prédictives, E(y|
en utilisant newfftd() dans la fonction MATLAB (Matlab, version 7.0, 2004). Les performances
X) = la valeur
du classificateur TDNN dépendent fortement des différents paramètres d'apprentissage,
attendue de la sortie y étant donné un vecteur d'entrée X, et f(X,y) = la fonction de
tels que le nombre de neurones cachés, le nombre de retards d'entrée, le taux
densité
d'apprentissage, le facteur d'impulsion, les critères d'arrêt et les fonctions d'activation.
de probabilité conjointe de X et y.
Sur la base de plusieurs enquêtes expérimentales, les meilleurs paramètres d'apprentissage
La valeur estimée Y est une moyenne pondérée exponentiellement va
sont trouvés et utilisés lors de la formation et des tests du classificateur TDNN.
lue de toutes les valeurs observées Yi données comme dans l'Eq. (5) (Specht, 1991) :
D2
Pn i¼1Yi expð
b
je 2r2Þ
YðxÞ ¼ D2
ð5Þ 7. Résultats et discussion
Pn i¼1expð je 2r2Þ
Dans ce travail, deux schémas de validation (Conventional Validation ConV et 10fold
où Di est défini comme dans l'Eq. (6)
cross validation (Kohavi, 1995)) sont utilisés pour prouver la fiabilité des résultats de la
J classification. Dans le schéma de validation croisée de 10 fois, les vecteurs de
D2 ¼ ðX Xi Þ
je
ðX Xi Þ ð6Þ
caractéristiques proposés sont divisés au hasard en 10 ensembles et la formation est
La variable r est un paramètre de lissage qui peut être rendu grand pour répétée 10 fois. Pour chaque cycle de validation croisée, le nombre de cas normaux et
lisser les données bruitées ou petit pour permettre à la surface de régression pathologiques est égal. Dans le schéma de validation conventionnelle (un ensemble
estimée d'être aussi non linéaire qu'il est nécessaire pour approcher d'entraînement et un ensemble de test), 680 segments (340 asphyxie + 340 normaux) sont
étroitement les valeurs réelles observées
. de Yi Le GRNN a 4 couches utilisés. Parmi les caractéristiques extraites de 680 segments, les caractéristiques extraites
différentes : entrée couche, couche de motif, couche de sommation et de 408 segments sélectionnés au hasard (60 %) sont utilisées pour la formation et les
couche de sortie. Dans ce travail, l'architecture GRNN est construite en caractéristiques extraites des 272 segments restants (40 %) sont utilisées pour les tests.
utilisant newgrnn() dans la fonction MATLAB (Matlab, version 7.0, 2004). Les Tous les réseaux sont formés et testés avec 20 fonctionnalités originales et également 13
informations détaillées sur l'architecture GRNN et les équations mathématiques fonctionnalités réduites qui sont trouvées en utilisant l'analyse PCA. Résultats pour le
peuvent être trouvées dans l'article de Specht (Specht, 1991). Sur la base classificateur MLP, TDNN, PNN et GRNN utilisant un schéma de validation croisée de 10
des recherches expérimentales, la valeur r varie entre 0,04 et 0,085 par pas et
de 0,005.
Machine Translated by Google
M. Hariharan et al. / Systèmes experts avec applications 39 (2012) 9515–9523 9521
Le schéma de validation conventionnelle avec 20 caractéristiques originales de 96,11 ± 1,50 % (20 ms et 16 neurones cachés), 96,47 ± 1,18 % (30 ms
et également avec des caractéristiques réduites (13) trouvées à l'aide de et 14 neurones cachés), 96,54 ± 1,32 % (40 ms et 12 neurones cachés),
l'analyse PCA sont tabulées dans les tableaux 3 et 4. La moyenne et 96,99 ± 1,12 % (50 ms et 12 neurones cachés). neurones) sont obtenus à
l'écart type des précisions de classification des signaux de pleurs normaux l'aide du classifieur MLP à 20 caractéristiques originales (Conventional
et pathologiques du nourrisson (asphyxie) sont tabulés. . L'écart type de la Validation). La meilleure précision globale de 95,81 ± 0,50 % (20 ms et 10
classification révèle clairement la cohérence des résultats du classificateur. neurones cachés), 95,04 ± 3,02 % (30 ms et 10 neurones cachés), 94,93
Si l'écart type est plus élevé, les résultats de la classification sont ± 1,65 % (40 ms et 10 neurones cachés), 96,47 ± 1,26 % ( 50 ms et 10
incohérents et cela révèle également que les paramètres d'apprentissage neurones cachés) sont obtenus à l'aide du classificateur MLP à 13
des classificateurs affectent les performances des classificateurs. caractéristiques réduites (validation conventionnelle).
PNN et GRNN sont entraînés avec différents facteurs d'étalement ou D'après le tableau 3, la meilleure précision globale de 96,88 ± 0,51 %
facteurs de lissage entre 0,04 et 0,085 et leurs effets sur les performances (20 ms et 10 neurones cachés), 97,03 ± 0,32 % (30 ms et 10 neurones
de classification sont analysés. Le MLP et le TDNN sont entraînés avec un cachés), 96,85 ± 0,55 % (40 ms et 12 neurones cachés), 97,47 ± 0,79%
nombre différent de neurones cachés entre 10 et 20 et leurs effets sur les (50 ms et 10 neurones cachés) sont obtenus à l'aide du classificateur MLP
performances de classification sont analysés. La précision maximale de la avec 20 caractéristiques originales (validation croisée 10 fois).
classification a été mise en évidence dans les tableaux 3 et 4 pour chaque La meilleure précision globale de 95,85 ± 0,70 % (20 ms et 10 neurones
longueur de trame. D'après le tableau 3, la meilleure précision globale cachés), 95,96 ± 0,45 % (30 ms et 10 neurones cachés), 96,12 ±
Tableau
3 Résultats du classificateur MLP et TDNN formé par l'algorithme de gradient conjugué mis à l'échelle pour la longueur de trame 20 ms, 30 ms, 40 ms et 50 ms (validation conventionnelle et validation
croisée 10 fois).
dix 12 14 16 18 20
Tableau
4 Résultats des classificateurs PNN et GRNN (validation conventionnelle + validation croisée 10 fois).
9522 M. Hariharan et al. / Systèmes experts avec applications 39 (2012) 9515–9523
0,55 % (40 ms et 16 neurones cachés), 97,14 ± 0,44 % (50 ms et 12 neurones cachés) et une validation croisée de 10 fois sont effectuées, afin de tester la généralisabilité et
sont obtenus à l'aide du classificateur MLP avec 13 caractéristiques réduites (validation la fiabilité des classificateurs PNN, GRNN, MLP et TDNN. La méthode suggérée
croisée 10 fois). fournit une précision de classification maximale de 99 % (PNN), 97 % (TDNN) et 97 %
D'après le tableau 3, la meilleure précision globale de 96,40 ± 0,69 % (20 ms et 10 (MLP) en utilisant un schéma de validation croisée de 10 fois. En utilisant le schéma
neurones cachés), 96,54 ± 1,44 % (30 ms et 12 neurones cachés), 96,99 ± 1,37 % de validation conventionnelle, la précision de classification maximale de 98 % (PNN et
(40 ms et 14 neurones cachés), 97,06 ± 1,46% (50 ms et 14 neurones cachés) sont GRNN), 97 % (TDNN) et 96 % (MLP) est obtenue. D'après les résultats, on peut
obtenus à l'aide du classificateur TDNN avec 20 caractéristiques originales déduire que le PNN et le GRNN donnent une plus grande précision par rapport au
(Conventional Validation). La meilleure précision globale de 95,15 ± 0,96 % (20 ms MLP et au TDNN. Les résultats de la classification indiquent que la méthode suggérée
et 18 neurones cachés), 95,59 ± 1,51 % (30 ms et 16 neurones cachés), 95,37 ± 0,72 pourrait être utilisée comme un outil précieux pour classer les signaux de pleurs du
% (40 ms et 14 neurones cachés), 97,24 ± 1,11 % (50 ms et 10 neurones cachés) nourrisson en normaux et pathologiques. Dans les travaux futurs, différentes
sont obtenus à l'aide du classificateur TDNN à 13 caractéristiques réduites (validation techniques de réduction de caractéristiques seront mises en œuvre pour proposer
conventionnelle). D'après le tableau 3, la meilleure précision globale de 96,56 ± 0,25 l'ensemble de caractéristiques réduit avec des caractéristiques prédominantes. La
% (20 ms et 18 neurones cachés), 96,88 ± 0,39 % (30 ms et 14 neurones cachés), méthode proposée sera validée avec des échantillons plus importants.
97,03 ± 0,45 % (40 ms et 14 neurones cachés), 97,76 ± 0,28% (50 ms et 18 neurones
cachés) sont obtenus à l'aide du classificateur TDNN avec 20 caractéristiques
originales (validation croisée de 10 fois). La meilleure précision globale de 96,35 ± Remerciements
0,49 % (20 ms et 10 neurones cachés), 96,26 ± 0,71 % (30 ms et 12 neurones cachés),
96,53 ± 0,68 % (40 ms et 10 neurones cachés), 97,35 ± 0,21 % (50 ms et 12 neurones La base de données Baby Chillanto est la propriété de l'Instituto Nacional de
cachés) sont obtenus à l'aide du classificateur TDNN avec 13 caractéristiques réduites Astrofisica Optica y Electronica CONACYT, Mexique.
(validation croisée de 10 fois). Nous tenons à remercier le Dr Carlos A. ReyesGarcia, le Dr Emilio ArchTirado et son
groupe INRMexique, et le Dr Edgar M. GarciaTamayo pour leur dévouement à la
collecte de la base de données Infant Cry. Les auteurs tiennent à remercier le Dr
Carlos Alberto ReyesGarcia, chercheur, CCCInaoep, Mexique pour avoir fourni la
D'après le tableau 4, la meilleure précision globale de 98,87 ± 0,15 % (20 ms) est base de données sur les cris du nourrisson.
obtenue en utilisant le classificateur PNN avec 20 caractéristiques originales et une Les auteurs remercient les relecteurs anonymes pour leurs précieux commentaires.
précision globale de 98,88 ± 0,19 (20 ms) est obtenue avec des caractéristiques
réduites (13) (Conventionnel Validation). Le classificateur GRNN donne une précision
globale de 98,57 ± 0,28% avec 20 caractéristiques originales et une précision globale Les références
de 97,15 ± 1,10% avec des caractéristiques réduites (Validation Conventionnelle). En
utilisant le schéma de validation croisée de 10 fois, la meilleure précision globale de BarajasMontiel, SE, & ReyesGarcía, CA (2006). Machines à vecteurs de support flous pour la
99,18 ± 0,14 % et 99,19 ± 0,17 % est obtenue en utilisant le classificateur PNN avec reconnaissance automatique des pleurs du nourrisson. Springer, Notes de cours en sciences du
contrôle et de l'information, 345, 876–881.
20 caractéristiques originales et caractéristiques réduites respectivement. De même,
Bowden, GJ, Bixon, JB, Dandy, GC, Maier, HR et Holmes, M. (2006). Prévision des résidus de chlore dans
GRNN donne une précision globale de 98,28 ± 0,31 % et 97,75 ± 1,19 % en utilisant un système de distribution d'eau à l'aide d'un réseau neuronal de régression générale. Modélisation
respectivement 20 caractéristiques originales et caractéristiques réduites. Dans tous mathématique et informatique, 44, 469–484.
les classificateurs, il n'y a pas de changements spécifiques dans les précisions de Cano, S., SuasteRivas, I., Escobedo, D., ReyesGarcia, CA, & Ekkel, T. (2006). Un classificateur combiné
d'unités de cri avec de nouveaux attributs acoustiques. Notes de cours en informatique, 4225, 416–
classification en raison de la longueur de trame différente. 425.
Cano. S. et al. (1995). L'analyse spectrale du cri du nourrisson : une première approximation. In
À partir de la discussion cidessus, il a été observé que les caractéristiques Communication présentée à la conférence EUROSPEECH'95 (sponsorisée par ESCA & IEEE),
Madrid.
statistiques basées sur l'analyse tempsfréquence suggérées peuvent être utilisées
Erkmen, B., & Yildirim, T. (2008). Amélioration des performances de classification des cibles sonar en
pour fournir la représentation la plus discriminante des signaux de cri normaux et appliquant un réseau neuronal de régression général avec PCA. Systèmes experts avec applications,
d'asphyxie. Dans cet article, vingt caractéristiques statistiques simples et effi caces 35, 472–475.
Escobedo, D., Cano, S., Coello, E., Regueiferos, L. et Capdevila, L. (2001). Décalage croissant de la
sont dérivées par une analyse tempsfréquence basée sur STFT pour fournir une
fréquence tonale dans le cri du nourrisson dans certains cas pathologiques. Dans un article présenté
représentation robuste des signaux de pleurs du nourrisson. Nous avons obtenu une à la 2e Conférence internationale, MAVEBA 2001, Florence, Italie, 2001.
précision de classification supérieure à 98 % avec seulement vingt caractéristiques Fausett, L. (1994). Fondamentaux du réseau de neurones. New Jersey, ÉtatsUnis : Prentice Hall.
Feng, Z., Chu, F. et Song, X. (2004). Application du réseau neuronal de régression générale à la prédiction
statistiques basées sur une analyse tempsfréquence et des réseaux de neurones à
des tendances vibratoires des machines tournantes. Notes de cours en informatique, 3174, 767–772.
base radiale (PNN et GRNN). Il montre que les fonctionnalités suggérées et le
classificateur PNN et GRNN fournissent des résultats plus proches des travaux Firat, M., & Gungor, M. (2009). Réseaux de neurones à régression généralisée et réseaux de neurones à
anticipation pour la prédiction de la profondeur d'affouillement autour des piles de pont.
antérieurs. Enfin, le résultat expérimental indique la force de la méthode suggérée et
Avancées dans les logiciels d'ingénierie, 40, 731–737.
a le potentiel de détecter le problème pathologique d'un nourrisson à partir de signaux Garcia, JO, & Reyes García, CA (2003a). Détecter les pathologies du cri du nourrisson en appliquant des
de cri. réseaux de neurones à gradient conjugué mis à l'échelle. Dans Communication présentée au
Symposium européen sur les réseaux de neurones artificiels, Bruges (Belgique), 23–25 avril 2003.
Garcia, JO, & Reyes García, CA (2003b). Analyse des caractéristiques acoustiques pour la reconnaissance
des pleurs normaux et hypoacoustiques du nourrisson basée sur les réseaux de neurones. Notes de
8. Conclusion cours en informatique, Méthodes de résolution de problèmes de réseaux de neurones artificiels,
2687, 615–622.
Hampshire, JB, & Waibel, AH (1990). Une nouvelle fonction objective pour une meilleure reconnaissance
Cet article présente une méthode simple d'extraction de caractéristiques basée des phonèmes à l'aide d'un réseau neuronal à retardement. Réseau neuronal, 1(2), 216–228.
sur l'analyse tempsfréquence à l'aide de STFT pour l'étude des signaux de pleurs du
Hariharan, M., Sin Chee, L. et S., Yaacob (2010). Analyse des pleurs du nourrisson à l'aide de coefficients
nourrisson. Des caractéristiques statistiques simples sont dérivées des tracés temps
cepstraux de prédiction linéaire pondérée et d'un réseau de neurones probabiliste. Journal des
fréquence, des tracés tempsamplitude maximale, des tracés fréquenceamplitude systèmes médicaux, 1–7.
maximale et des tracés fréquenceécart type. Les réseaux de neurones à base radiale Hariharan, M., Yaacob, S. et Awang, SA (2011a). Analyse pathologique des pleurs du nourrisson à l'aide
d'une transformation par paquets d'ondelettes et d'un réseau neuronal probabiliste. Systèmes experts
(PNN et GRNN) sont utilisés pour classer les signaux de cri en normaux ou
avec applications, 38(12), 15377–15382.
pathologiques (asphyxie). Pour prouver la fiabilité des fonctionnalités proposées, deux Hariharan, M., Paulraj, MP et Yaacob, S. (2011b). Détection de la paralysie et de l'œdème des cordes
modèles de réseaux de neurones tels que le Perceptron multicouche et le réseau de vocales à l'aide de caractéristiques temporelles et d'un réseau neuronal probabiliste.
Journal international d'ingénierie et de technologie biomédicales, 6(1), 46–57.
neurones à retard temporel entraînés par un algorithme de gradient conjugué mis à
Hariharan, M., Sindhu, R. et Yaacob, S. (2011c). Signal de cri du nourrisson normal et hypoacoustique
l'échelle sont également utilisés comme classificateurs. Validation conventionnelle utilisant l'analyse tempsfréquence et le réseau neuronal de régression général.
Méthode informatique et programmes en biomédecine, 1–11.
Machine Translated by Google
M. Hariharan et al. / Systèmes experts avec applications 39 (2012) 9515–9523 9523
Jolliffe, IT (1986). Analyse des composants principaux. Springer Verlag. Reyes Galaviz, DE, & Reyes Garcia, CA (2004). Classification des cris du nourrisson pour identifier l'hypoacoustique
Semmlow, JL (2004). Traitement du biosignal et des images biomédicales. Marcel Deker et l'asphyxie avec les réseaux de neurones. MICAI 2004. LNAI, 2972,
Inc. 69–78.
En ligneKohavi, R. (1995). Une étude de la validation croisée et du bootstrap pour l'estimation de la précision et la ReyesGalaviz, OF, & ReyesGarcia, C. (2004). L'invention concerne un système de traitement des cris du
sélection du modèle. Dans Document présenté à la 14e Conférence conjointe internationale sur l'intelligence nourrisson pour reconnaître les pathologies chez les bébés récemment nés avec des réseaux neuronaux.
artificielle, Montréal, Québec, Canada, 1995. Dans un article présenté à la 9e conférence Speech and Computer (SPECOM'2004), St.
En ligneKumar, S. (2004). Réseaux de neurones : une approche en classe. New Delhi : Tata McGraw SaintPétersbourg, Russie, 2022 septembre 2004.
Colline. ReyesGalaviz, OF, Verduzco, A., ArchTirado, E., & ReyesGarcía, CA (2005).
Leung, MT, Chen, AS et Daouk, H. (2000). Prévision des taux de change à l'aide d'un réseau de neurones de Analyse d'un système de reconnaissance des cris du nourrisson pour l'identification précoce des pathologies.
régression générale. Ordinateurs et recherche opérationnelle, 27, 1093–1110. Modélisation et applications de la parole non linéaire, 3445, 404–409.
ReyesGalaviz, OF, CanoOrtiz, S., ReyesGarcia, C., et Electronica, O., & Puebla, M.
Lindsay IS (2002). Un tutoriel sur l'analyse en composantes principales. (2009). Système neuronal évolutif pour classer les unités de cri du nourrisson pour l'identification des
Manfredi, C., Tocchioni, V., & Bocchi, L. (2006). Un outil robuste pour l'analyse des cris du nouveauné. Dans un pathologies chez les bébés récemment nés. In Document présenté à la 8e conférence internationale
article présenté à la conférence internationale de l'IEEE Engineering in Medicine and Biology Society, 2006. mexicaine sur l'intelligence artificielle, MICAI 2009, Guanajuato, Mexique.
Specht, DF (1990). Réseaux de neurones probabilistes. Réseaux de neurones, 3(1), 109–118.
Documentation Matlab., Version 7.0, Version 14, The MathWorks, Inc., 2004. Specht, DF (1991). Un réseau de neurones de régression générale. Réseaux neuronaux, 2(6),
Petroni, M., Malowany, A., Johnston, C. et Stevens, B. (1995). Identification de la douleur des vocalisations de 568–576.
pleurs du nourrisson à l'aide de réseaux de neurones artificiels (ANN). Várallyay, G., Jr., Benyó, Z., Illényi, A., Farkas, Z., & Kovács, L. (2004). Analyse acoustique du cri du nourrisson :
Applications et science des réseaux de neurones artificiels. La Société internationale d'ingénierie optique, méthodes classiques et nouvelles. In Article présenté à la 26e conférence internationale annuelle de l'IEEE
2492, 729–738. EMBS, San Francisco, CA, USA.
Polat, O., & Yildirim, T. (2008). Identification de la géométrie de la main sans extraction de caractéristiques par Varallyay, G., Jr. (2007). La mélodie des pleurs. In Communication présentée à l'international
réseau neuronal de régression générale. Systèmes experts avec applications, 34, 845–849. journal d'otorhinolaryngologie pédiatrique, 2007.
Waibel, A., Hanazawa, T., Hinton, G., Shikano, K., & Lang, KJ (1989). Reconnaissance de phonèmes à l'aide d'un
Rabiner, L., & Juang, B. (1993). Fondamentaux de la reconnaissance vocale. Prentice Hall. réseau de neurones à retardement. IEE Transactions on Acoustics, Speech, and Signal Processing, 37(3),
Reyes Galaviz, OF, Arch Tirado, E., & Reyes Garcia, CA (2004). Classification des pleurs du nourrisson pour 328–339.
identifier les pathologies chez les bébés récemment nés atteints d'ANFIS. LNCS, 3118, 408–415. WaszHockert, O. et al. (1968). Le cri du nourrisson : une analyse spectrographique et auditive.
William Heinemann Medical Books Ltd.