Académique Documents
Professionnel Documents
Culture Documents
03-Normal and Hypoacoustic Infant Cry Signal Classification Using Time-Frequency Analysis and General Regression Neural Network
03-Normal and Hypoacoustic Infant Cry Signal Classification Using Time-Frequency Analysis and General Regression Neural Network
m éthodes et programmes informatiques en biomédecine 1 0 8 ( 2 0 1 2 ) 559–569
page d'accueil du journal : www.intl.elsevierhealth.com/journals/cmpb
Classification des signaux de pleurs normaux et hypoacoustiques du
nourrisson à l'aide d'une analyse tempsfréquence et d'un réseau
neuronal de régression général
M. Hariharana, , R. Sindhub, Sazali Yaacob a
a École d'ingénierie mécatronique, Universiti Malaysia Perlis (UniMAP), 02600, Perlis, Malaisie b École
d'ingénierie microélectronique, Universiti Malaysia Perlis (UniMAP), 02600, Perlis, Malaisie
informations sur l'article abstrait
Historique des articles : Les pleurs sont le comportement le plus notable de la petite enfance. Les signaux de cri du nourrisson peuvent être
Reçu le 12 octobre 2010 utilisés pour identifier l'état physique ou psychologique d'un nourrisson. Récemment, l'analyse acoustique du signal
Reçu sous forme révisée le 2 juin 2011 de cri du nourrisson a montré des résultats prometteurs et s'est avérée être un excellent outil pour étudier l'état
Accepté le 19 juillet 2011 pathologique d'un nourrisson. Cet article propose une analyse tempsfréquence basée sur la transformée de Fourier
à court terme (STFT) des signaux de pleurs du nourrisson. Peu de caractéristiques statistiques sont dérivées du tracé
Mots clés: tempsfréquence des signaux de pleurs du nourrisson et utilisées comme caractéristiques pour quantifier les signaux
Analyse acoustique de pleurs du nourrisson. Le réseau de neurones de régression générale (GRNN) est utilisé comme classificateur
Cri du nourrisson pour discriminer les signaux de pleurs du nourrisson. Deux classes de signaux de cris infantiles sont considérées,
Extraction de caractéristiques telles que les signaux de cris normaux et les signaux de cris pathologiques des enfants sourds. Pour prouver la
Transformée de Fourier à court terme fiabilité des fonctionnalités proposées, deux modèles de réseaux de neurones tels que le Perceptron multicouche
Classement des motifs (MLP) et le Réseau de neurones à retard temporel (TDNN) entraînés par un algorithme de gradient conjugué mis à
Réseau de neurones de régression générale l'échelle sont également utilisés comme classificateurs. Les résultats expérimentaux montrent que le classificateur
GRNN donne une précision de classification très prometteuse par rapport au MLP et au TDNN et que la méthode
proposée peut classer efficacement les pleurs normaux et
pathologiques du nourrisson. © 2011 Elsevier Ireland Ltd. Tous droits réservé
Au cours des dernières années, des techniques simples ont été proposées
1. Introduction pour analyser le cri du nourrisson grâce au codage par prédiction linéaire,
aux coefficients cepstraux de fréquence Mel, aux informations de hauteur, à
Cry est de nature multimodale et dynamique. La détection de l'état l'analyse harmonique et à l'analyse du bruit [1–14]. Différents algorithmes
pathologique des bébés à l'aide des méthodes conventionnelles prend de classification et systèmes hybrides ont été utilisés pour la classification
plusieurs mois, voire des années après la naissance du nourrisson. Il est des pleurs du nourrisson [1–14]. Le cri du nourrisson est un signal hautement
nécessaire de détecter l'état pathologique plus tôt pour éviter des traitements non stationnaire ; La transformée de Fourier n'est pas un outil très utile pour
et des thérapies inutiles. Les pleurs des nourrissons sont dus à certaines analyser les signaux non stationnaires car les informations du domaine
raisons possibles telles que la faim, la douleur, la somnolence, le manque temporel sont perdues lors de l'exécution de la transformation de fréquence.
de confort, la sensation de trop chaud ou trop froid et trop de bruit ou de Lorsque l'on regarde une transformée de Fourier d'un signal, il est
lumière. Dès le cri, un professionnel formé peut comprendre l'état physique impossible de dire quand un événement particulier a eu lieu. Afin de
ou psychologique du bébé. L'analyse acoustique du signal de cri du surmonter les inconvénients de la technique de transformée de Fourier,
nourrisson est un outil non invasif pour la détection de certaines conditions l'analyse tempsfréquence a été proposée par les chercheurs car c'est un
pathologiques [1–14]. Au cours des dernières bon outil pour analyser les signaux de pleurs du nourrisson à la fois à l'échelle temporelle et
Auteur correspondant. Tél. : +6049885167.
Adresse email : hari@unimap.edu.my (M. Hariharan). 01692607/$
– voir avantpropos © 2011 Elsevier Ireland Ltd. Tous droits réservés. doi:10.1016/j.cmpb.2011.07.010
Machine Translated by Google
560 m éthodes et programmes informatiques en biomédecine 1 0 8 ( 2 0 1 2 ) 559–569
Tableau 1 – Quelquesuns des travaux significatifs sur la classification des signaux de cri normaux et sourds.
simultanément. Il existe de nombreux travaux sur la reconnaissance du signal de cri du Le signal de cri du nourrisson enregistré chez un bébé normal et un bébé sourd est
nourrisson utilisant l'analyse tempsfréquence. Mais l'interprétation de l'analyse temps représenté sur la figure 1.
fréquence est différente. Beaucoup d'entre eux ont utilisé la hauteur, l'analyse harmonique
et l'analyse du bruit [7–12]. Cet article présente le développement d'un système
3. Méthode
d'apprentissage intelligent pour classer les cris normaux et pathologiques à l'aide de la
transformée de Fourier à court terme et d'un réseau de neurones de régression générale.
La classification des cris du nourrisson est un système de reconnaissance de formes
Des chercheurs ont proposé des approches pour des problèmes de domaine à deux
typique et se compose de deux blocs : le traitement du signal basé sur la transformée de
classes (normal ou pathologique) ou à plus de deux classes de cris du nourrisson (signaux
Fourier à court terme et la classification à l'aide d'un réseau neuronal de régression
de cris normaux ou pathologiques). Le tableau 1 présente quelquesuns des travaux
général, MLP et TDNN. Cette section décrit brièvement les méthodes d'extraction et de
significatifs sur la classification des signaux de cri normaux et sourds.
classification des caractéristiques.
3.1. Traitement du signal basé sur la transformée de Fourier à court
De la littérature, il a été observé que l'extraction de caractéristiques joue un rôle
terme (STFT)
important dans le domaine de la détection automatique des cris pathologiques. Dans cet
article, une méthode d'extraction de caractéristiques utilisant une analyse tempsfréquence
Le cri du nourrisson est un signal dynamique ou non stationnaire. La transformée de
basée sur STFT pour dériver des caractéristiques à partir des signaux de pleurs du
Fourier n'est pas un outil très utile pour analyser les signaux non stationnaires car les
nourrisson et un GRNN sont proposés pour discriminer les cris normaux et pathologiques.
informations du domaine temporel sont perdues lors de l'exécution de la transformation
Deux schémas de méthodes de validation des données sont utilisés (validation croisée 10
de fréquence. Lorsque l'on regarde une transformée de Fourier d'un signal, il est impossible
fois et schéma de validation indépendant des données où les classificateurs sont formés
de dire quand un événement particulier a eu lieu. Afin de surmonter les inconvénients de
avec un ensemble sélectionné d'échantillons et testés avec des échantillons qui ne sont
l'approche par transformée de Fourier, l'analyse tempsfréquence a été proposée par les
pas pris en compte pendant la formation), afin de tester l'efficacité des caractéristiques
chercheurs car c'est un bon outil pour analyser simultanément les signaux de pleurs du
proposées et la fiabilité des résultats de la classification. Les investigations expérimentales
nourrisson à la fois à l'échelle temporelle et fréquentielle. Afin de produire un bon
montrent que le STFT combiné avec des caractéristiques statistiques et le classificateur
spectrogramme tempsfréquence des signaux de pleurs du nourrisson, STFT est
GRNN peut être utilisé pour détecter certains
sélectionné comme extraction de caractéristiques.
Le spectrogramme basé sur STFT est une technique simple et rapide par rapport à d'autres
état pathologique d'un nourrisson à partir de signaux de cri.
analyses tempsfréquence. Le temps court est une approche simple consistant à découper
la forme d'onde d'intérêt en un certain nombre de segments courts et à effectuer l'analyse
sur chacun des segments à l'aide de la transformée de Fourier standard [21,22] . Une
2. Base de données
fonction de fenêtre est appliquée à un segment de données, isolant efficacement ce
segment de la forme d'onde globale, et une transformée de Fourier est appliquée à ce
La base de données des cris infantiles est téléchargeable sur le site http://ingenieria.uatx.mx/
segment. C'est ce qu'on appelle le spectrogramme ou "transformée de Fourier à court
orionfrg/cry/ appelée base de données Baby Chillanto et est la propriété de l'Instituto
terme".
Nacional de Astrofisica Optica y Electronica (INAOE) CONACYT, Mexique.
STFT est représenté dans le domaine discret donné par Eq. (1):
La base de données est décrite dans la Réf. [5]. Tous les échantillons de cette base de
données ont une durée de 1 seconde et nous avons pris les mêmes échantillons pour N
notre analyse. Il se compose de 507 signaux de cri normaux et de 879 signaux de cri
X(m, k) = x(n)[W(n − k)e−jnm/N] (1)
sourds. Dans cette expérience, nous avons pris le même nombre d'échantillons pour
n=1
chaque classe 507. Les signaux de cris sourds sont enregistrés à partir de 6 bébés et les
signaux de cris normaux sont enregistrés à partir de 5 bébés. La fréquence d'échantillonnage où W[n] est une fonction de fenêtrage à court terme de taille L, centrée à l'emplacement
des signaux de pleurs du nourrisson est fixée à 8000 Hz pour notre analyse. Tous les temporel m, et N est le nombre de fréquences discrètes (N ≥ L). Habituellement, N est
signaux de pleurs du nourrisson sont soumis à une extraction de caractéristiques via STFT. choisi comme étant une puissance de 2 pour utiliser une transformée de Fourier rapide
Le (FFT) efficace. Depuis le
Machine Translated by Google
m éthodes et programmes informatiques en biomédecine 1 0 8 ( 2 0 1 2 ) 559–569 561
Fig. 1 – Signaux de pleurs du nourrisson (bébé normal et sourd).
La transformée de Fourier est une fonction complexe, la densité spectrale de du tracé tempsfréquence à chaque fréquence. L'extraction de caractéristiques
puissance (PSD) est utilisée et est donnée par Eq. (2): joue un rôle essentiel dans le domaine de la classification des signaux de
cris du nourrisson. En utilisant les Fig. 3(a), 3(b), 6(a) et 6(b), on peut
1 2 différencier le cri normal et pathologique par inspection visuelle.
Ps[m, k] = X[m, k] (2)
N Cependant, il existe une possibilité d'interprétation erronée des tracés temps
fréquence et les résultats dépendent également de l'expertise des
Le spectrogramme peut être utilisé pour observer les caractéristiques professionnels de la santé. Par conséquent, dans cet article, une méthode
temporelles et spectrales en tout point des signaux de cris du nourrisson. simple d'extraction de caractéristiques est proposée en appliquant des
Généralement, la longueur de trame est choisie entre 10 ms et 50 ms dans le techniques statistiques standard aux tracés tempsfréquence des signaux de
domaine de l'analyse du signal de parole [21] et, par conséquent, dans ce cris du nourrisson, aux tracés tempsamplitude maximale des signaux de cri
travail, les signaux de pleurs du nourrisson sont segmentés en différentes du nourrisson, aux tracés de fréquenceamplitude maximale des signaux de
longueurs de trame de 20 ms, 30 ms, 40 ms et 50 ms avec un chevauchement cri du nourrisson et à la fréquence tracés d'amplitude d'écarttype des signaux
de 50 %. entre les cadres. L'effet de différentes longueurs de trame a été de pleurs du nourrisson. Les caractéristiques statistiques standard s'avèrent
étudié et ses résultats sont présentés dans ce travail. La sortie du STFT est utiles pour la quantification et la classification des signaux de pleurs du
une matrice dont les lignes se rapportent à la fréquence et les colonnes au nourrisson.
temps. À partir du STFTPSD des signaux de cri (Figs. 3(a), 3(b), 6(a) et 6(b)), Ensemble 1. Extraction de caractéristiques à partir de tracés
les tracés tempsfréquence, tempsamplitude et fréquenceamplitude peuvent tempsfréquence Moyenne et écart type de l'amplitude de
être générés ment et qui peut afficher clairement la discrimination entre les tracés tempsfréquence (2 caractéristiques, caractéristique 1 et caractéristique 2).
différents types de signaux de cri. Le schéma fonctionnel de l'extraction et de Ensemble 2. Extraction de caractéristiques à partir des tracés temps
la classification des caractéristiques est illustré à la Fig. 2. amplitude maximale, fréquencemaximum d'amplitude et fréquenceécarttype.
Les figures 3(a) et (b) illustrent le tracé tempsfréquence du signal de cri Maximum, minimum, moyenne, écart type, asymétrie et kurtosis des
pathologique (sourd, segment 6) et du signal de cri normal (segment 4). Les tracés tempsamplitude maximale, fréquencemaximum des tracés d'amplitude
figures 6 (a) et (b) illustrent le tracé tempsfréquence du signal de cri et fréquenceécarttype (Caractéristiques 3–8, Caractéristiques 9–14 et
pathologique (sourd, segment 300) et du signal de cri normal (segment 200). Caractéristiques 15–20, totalisant 18 fonctionnalités). Vingt caractéristiques
Figues. 4(a), 5(a), 7(a) et 8(a) illustrent le tracé tempsamplitude maximale, sont extraites de chaque trame d'un signal de cri de bébé et enfin la moyenne
qui est l'amplitude maximale en fonction du temps en trouvant des colonnes des caractéristiques est utilisée comme entrée pour les classificateurs afin de
de tracé tempsfréquence. Figues. 4(b), 5(b), 7(b) et 8(b) illustrent le tracé distinguer les signaux de cri entre les cris normaux et sourds.
fréquenceamplitude maximale, qui est l'amplitude maximale par rapport à la
fréquence en trouvant des lignes de tracé tempsfréquence à chaque
fréquence. Figues. 4(c), 5(c), 7(c) et 8(c) illustrent le diagramme fréquence Les figures 9 (a) à (d) montrent les nuages de points entre les entités. À
écarttype, qui montre l'écarttype par rapport à la fréquence normalisée en partir des diagrammes de dispersion, on a observé que les caractéristiques
trouvant des lignes extraites des signaux de cri normaux et pathologiques sont presque
distinguables.
Machine Translated by Google
562 m éthodes et programmes informatiques en biomédecine 1 0 8 ( 2 0 1 2 ) 559–569
Analyse tempsfréquence à Classement
Cri du nourrisson l'aide de STFT par GRNN,
Signal (caractéristiques statistiques) MLP, et
TDNN
Fig. 2 – Schéma fonctionnel de la phase d'extraction et de classification des caractéristiques.
Fig. 3 – (a) Courbe tempsfréquence du signal de cri normal (segment 4) et (b) Courbe tempsfréquence du signal de cri pathologique (sourd, segment 6).
Fig. 4 (a) Graphique tempsamplitude maximale (dB) du signal de cri normal (segment 4), (b) graphique fréquenceamplitude maximale (dB) et (c) graphique
fréquenceécart type de l'amplitude (dB) .
network est utilisé pour la classification des cris normaux et pathologiques
4. Classificateurs
puisqu'il a été appliqué avec succès dans différentes applications de
reconnaissance de formes [15–20]. Pour prouver la fiabilité des fonctionnalités
Les réseaux de neurones artificiels sont largement utilisés dans les problèmes proposées, deux modèles de réseaux de neurones tels que Perceptron
de reconnaissance de formes et de classification en apprenant à partir d'exemples. multicouche et Réseau de neurones à retard temporel entraînés par un algorithme
Différents modèles de réseaux de neurones sont disponibles pour classer les de gradient conjugué mis à l'échelle sont également utilisés comme classificateurs.
motifs. Dans ce travail, une régression neuronale générale
Machine Translated by Google
m éthodes et programmes informatiques en biomédecine 1 0 8 ( 2 0 1 2 ) 559–569 563
Fig. 5 (a) Tracé tempsamplitude maximale (dB) du signal de cri pathologique (sourd, segment 6), (b) tracé fréquenceamplitude maximale (dB) et (c) fréquence
écart type d'amplitude (dB ) parcelle.
Fig. 6 (a) Tracé tempsfréquence du signal de cri normal (segment 300) et tracé tempsfréquence du signal de cri pathologique (sourd, segment 200).
564 m éthodes et programmes informatiques en biomédecine 1 0 8 ( 2 0 1 2 ) 559–569
Fig. 7 (a) Tracé tempsamplitude maximale (dB) du signal de cri normal (segment 300), (b) tracé fréquenceamplitude maximale (dB) et (c) tracé fréquenceécart type de
l'amplitude (dB) .
Fig. 8 (a) Tracé tempsamplitude maximale (dB) du signal de cri pathologique (sourd, segment 200), (b) tracé fréquenceamplitude maximale (dB) et (c) fréquenceécart
type d'amplitude (dB ) parcelle.
La valeur estimée Y est une moyenne pondérée exponentiellement où Di est défini comme dans l'Eq. (5)
valeur d'âge de toutes les valeurs observées Yi données comme dans l'Eq. (4) [24] :
J
D2 = (X − Xi ) (X − Xi ) (5)
je
n
i=1Yi exp(−(D2 /22)) je
La variable est un paramètre de lissage qui peut être grand pour lisser les données
Yˆ (x) = n (4)
exp(−(D2 /22))
je=1 je
bruitées ou petit pour permettre l'estimation
Machine Translated by Google
m éthodes et programmes informatiques en biomédecine 1 0 8 ( 2 0 1 2 ) 559–569 565
Fig. 9 (a) Nuage de points entre la caractéristique 1 et la caractéristique 2, (b) nuage de points entre la caractéristique 6 et la caractéristique 11, (c) nuage de points
entre la caractéristique 10 et la caractéristique 13 et (d) nuage de points entre la caractéristique 13 et la caractéristique 18.
La surface de régression doit être aussi non linéaire qu'il est nécessaire pour les meilleurs paramètres d'apprentissage sont trouvés et utilisés lors de la
approcher étroitement les valeurs réelles observées de Yi GRNN a 4 . Le formation et des tests du classificateur MLP.
couches différentes : couche d'entrée, couche de motif, couche de sommation et
couche de sortie. Dans ce travail, l'architecture GRNN est construite en utilisant
4.3. Réseau neuronal temporisé
newgrnn() dans la fonction MATLAB [25]. Les informations détaillées sur
l'architecture GRNN et les mathématiques
Le réseau de neurones à retard temporel a été utilisé dans les applications de
des équations mathématiques peuvent être trouvées dans l'article de Specht [24].
reconnaissance de la parole [26, 27] ainsi que dans la classification des pleurs du
Les performances du classificateur GRNN dépendent fortement du paramètre de
nourrisson [1, 28]. Il a été proposé de l'utiliser dans la classification des pleurs du
lissage ou du facteur de propagation (). Sur la base des recherches
nourrisson puisque les données sur les pleurs ne sont pas statiques et dépendent
expérimentales, la valeur varie entre 0,03 et 0,12 par pas de 0,01.
du temps des schémas de pleurs [1,28]. Les informations détaillées sur le TDNN
peuvent être trouvées dans [1, 26–28]. Un modèle TDNN est développé et formé
par un algorithme de gradient conjugué mis à l'échelle. Il se compose de 20
neurones et le délai d'entrée spécifié par l'utilisateur, dans ce cas le délai [28] est
4.2. Classificateur Perceptron multicouche (0, 1), les neurones cachés variant entre 10 et 20 par pas de 2 et 1 neurone de
sortie. L'objectif de performance, le taux d'apprentissage et le facteur d'élan sont
Un modèle de réseau de neurones à trois couches est développé avec 20 respectivement choisis à 0,001, 0,1 et 0,9. L'algorithme conjugué mis à l'échelle
neurones d'entrée, les neurones cachés variant entre 10 et 20 par pas de 2 et 1 est choisi pour l'apprentissage du modèle TDNN [2,3]. Les neurones cachés et de
neurone de sortie. L'objectif de performance, le taux d'apprentissage, le facteur sortie sont activés par une fonction d'activation sigmoïde binaire. Dans ce travail,
d'élan sont respectivement choisis à 0,001, 0,1 et 0,9. L'algorithme conjugué mis l'architecture TDNN est construite en utilisant newfftd() dans la fonction MATLAB
à l'échelle est choisi pour entraîner le modèle de réseau de neurones [2,3]. Les [25].
neurones cachés et de sortie sont activés par une fonction d'activation sigmoïdale
binaire. Dans ce travail, l'architecture MLP est construite en utilisant newff() dans Les performances du classificateur TDNN dépendent fortement des différents
la fonction MATLAB [25]. Les performances du classificateur MLP dépendent paramètres d'apprentissage, tels que le nombre de neurones cachés, le nombre
fortement des différents paramètres d'apprentissage, tels que le nombre de de retards d'entrée, le taux d'apprentissage, le facteur d'impulsion, les critères
neurones cachés, le taux d'apprentissage, le facteur d'impulsion, les critères d'arrêt et les fonctions d'activation. Sur la base de plusieurs enquêtes
d'arrêt et les fonctions d'activation. Sur la base de plusieurs enquêtes expérimentales, les meilleurs paramètres d'apprentissage sont trouvés et utilisés
expérimentales, le lors de la formation et des tests du classifieur TDNN.
Machine Translated by Google
566 m éthodes et programmes informatiques en biomédecine 1 0 8 ( 2 0 1 2 ) 559–569
Tableau 2 Résultats du classificateur MLP formé par l'algorithme de gradient conjugué mis à l'échelle pour la longueur de trame 20 ms, 30 ms, 40 ms et 50
ms (validation croisée de 10 fois).
dix 97.04 96,85 96,94 97,63 97,44 97,53 97.02 96,28 96,65 97.06 97,62 97,34
12 97,81 97.06 97,44 97,22 96,67 96,94 97,62 97,25 97,44 97.05 97,23 97.14
14 97.02 96,47 96,75 97,24 97,24 97,24 96,65 96,84 96,75 96,67 97,22 96,94
16 97,60 96,49 97.04 97,44 97,44 97,44 96,48 97,41 96,94 97,64 98.02 97,83
18 96,81 95,71 96,25 98,22 97,84 98.03 98,00 96,69 97,34 96,28 97.02 96,65
20 97,42 96,67 97.04 96,84 96,65 96,75 97.02 96,28 96,65 98,00 96,88 97,44
Tableau 3 Résultats du classificateur TDNN formé par l'algorithme de gradient conjugué mis à l'échelle pour la longueur de trame 20 ms, 30 ms, 40 ms et 50
ms (validation croisée de 10 fois).
dix 97,82 97,45 97,63 97,44 97,44 97,44 96,87 97,61 97,24 97.06 97,62 97,34
12 97,43 97.05 97,24 96,30 97,60 96,94 97,81 97.06 97,44 96,86 97,42 97.14
14 97,80 96,31 97,04 97,61 96,87 97,24 97,61 96,68 97,14 97,04 96,85 96,94
16 96,46 96,64 96,55 97,45 97,82 97,63 97,24 97,43 97,34 97,83 97,83 97,83
18 96,84 96,84 96,84 97,64 98,02 97,83 97,04 97,04 97,04 97,01 95,91 96,45
20 97,60 96,49 97.04 98,01 97,07 97,53 97,63 97,44 97,53 97,83 97,83 97,83
Le GRNN est formé avec différents facteurs de propagation ou facteur de
5. Résultats et discussion
lissage entre 0,03 et 0,12 et ses effets sur les performances de classification
sont analysés. Le MLP et le TDNN sont formés avec un nombre différent de
Dans ce travail, deux schémas de validation (validation croisée 10 fois [29] et neurones cachés entre
validation indépendante des données) sont utilisés pour prouver la fiabilité des
10 et 20 et ses effets sur les performances de classification sont analysés. Les
résultats de la classification. Dans le schéma de validation croisée de 10 fois, les
résultats pour le classificateur MLP, TDNN et GRNN utilisant un schéma de
vecteurs de caractéristiques proposés sont divisés au hasard en 10 ensembles
validation croisée de 10 fois sont tabulés dans les tableaux 2–4. La précision de
et la formation est répétée 10 fois. Pour chaque cycle de validation croisée, le
classification maximale a été mise en évidence dans les tableaux 2 à 4 pour
nombre de cas normaux et pathologiques est égal. Dans le schéma de validation
chaque longueur de trame. D'après le tableau 2, la meilleure précision globale
indépendant des données, les classificateurs sont formés avec un ensemble
de 97,44 % (20 ms et 12 neurones cachés), 98,03 % (30 ms et 18 neurones
sélectionné d'échantillons et sont testés avec différents échantillons qui ne sont
cachés), 97,44 % (40 ms et 12 neurones cachés), 97,83 % (50 ms et 16 neurones
pas pris en compte pour l'étape de formation. L'ensemble de données de
cachés) sont obtenu à l'aide du classificateur MLP. D'après le tableau 3, la
formation et de test est également préparé comme suit : 670 segments sont
meilleure précision globale de 97,63 % (20 ms et 10 neurones cachés), 97,83 %
utilisés pour la formation. (335
(30 ms et 18 neurones cachés), 97,53 % (40 ms et 20 neurones cachés) et
segments de 3 bébés sourds + 335 segments de 2 bébés normaux) et les
97,83 % (50 ms et 16 neurones cachés) sont obtenu à l'aide du classificateur
344 segments restants sont utilisés pour le test (172 segments des 3 bébés
TDNN. D'après le tableau 4, on observe que le classificateur GRNN donne une
sourds restants + 172 segments des 3 bébés normaux restants). Afin de tester
précision globale maximale de 99,01 % (20 ms, facteur d'étalement de 0,06),
les performances du classificateur, trois mesures, à savoir la sensibilité (SE), la
99,01 % (30 ms, facteur d'étalement de 0,05), 99,21 % (40 ms, facteur d'étalement
spécificité (SP) et la précision globale (AUC) sont prises en compte. Ces mesures
de 0,05) et 99,31 % (50 ms, facteur d'étalement de 0,08). Dans tous les
sont calculées à partir des mesures vrai positif (TP, nombre d'échantillons
classificateurs, il n'y a pas de changements spécifiques dans les précisions de
pathologiques correctement classés), vrai négatif (TN, nombre d'échantillons
classification en raison de la longueur de trame différente. D'après les résultats
normaux correctement classés), faux positif (FP, nombre d'échantillons
des tableaux 2 et 3, le meilleur nombre de neurones cachés peut se situer entre
pathologiques mal classés), et faux négatif ( FN, nombre d'échantillons normaux
10 et 20 pour obtenir une précision de classification maximale en utilisant le
mal classés). classificateur MLP et TDNN. D'après les résultats du tableau 4, le meilleur facteur
d'étalement peut être compris entre 0,06 et 0,10 pour obtenir une classification
maximale
Vrai positif précision à l'aide du classificateur GRNN.
Sensibilité =
Vrai positif + faux négatif Les résultats pour le classificateur MLP, TDNN et GRNN utilisant le schéma
de validation indépendant des données (les classificateurs sont formés avec un
ensemble sélectionné d'échantillons et sont testés avec différents échantillons
Vrai négatif
Spécificité = qui ne sont pas pris en compte pour l'étape de formation) sont tabulés dans les
Vrai Négatif + Faux Positif
tableaux 5–7. La précision de classification maximale a été mise en évidence
dans les tableaux 5 à 7 pour chaque longueur de trame. D'après le tableau 5, la
(TP + TN) meilleure précision de classification globale de 89,10 % (20 ms et 12 neurones
Précision globale =
(TP + TN + FP + FN) cachés), 89,39 % (30 ms et
Machine Translated by Google
m éthodes et programmes informatiques en biomédecine 1 0 8 ( 2 0 1 2 ) 559–569 567
Tableau 4 – Résultats du classificateur GRNN pour la longueur de trame 20 ms, 30 ms, 40 ms et 50 ms (validation croisée de 10 fois).
0,03 95,95 99.18 96,94 95,76 99,39 96,84 96,35 99,59 97,63 95,44 99,38 97.14
0,04 98,82 99.21 98,82 98,62 99.01 98,72 98,82 99,40 98,92 98,81 99.01 98,72
0,05 98,62 99.21 98,82 99.21 99.02 99.01 99.21 99,41 99.21 99,40 98,82 99.01
0,06 99,40 98,82 99.01 98,81 98,62 98,62 99,60 99.02 99.21 99,80 98,64 99.11
0,07 99,40 98,82 99.01 99.01 98,82 98,92 98,81 98,82 98,72 99,80 98,83 99.21
0,08 99.21 98,82 99.01 99.01 98,62 98,82 98,82 99.01 98,92 99,80 98,83 99,31
0,09 99.01 98,82 98,92 98,81 98,24 98,52 98,81 98,62 98,72 99,60 98,83 99.21
0,10 98,81 98.04 98,42 98,81 98.04 98,42 98,80 97,85 98,32 99,60 98,44 99.01
0,11 98,61 97,66 98.13 98,22 98.03 98.13 98,41 97,65 98.03 99,40 98.05 98,72
0,12 98.19 96.14 97.14 98.21 97,46 97,83 97,60 96,49 97.04 99,00 97,29 98.13
Tableau 5 Résultats Classificateur MLP formé par l'algorithme de gradient conjugué mis à l'échelle pour la longueur de trame 20 ms, 30 ms, 40 ms et 50 ms
(670 segments utilisés pour la formation et 344 segments pour les tests).
dix 84,82 95,76 89,53 81,40 97,30 87,65 80,88 96.05 86,92 82.23 96,79 88.08
12 84,53 95,10 89.10 83,66 97,69 89,39 80,76 96,40 86,92 81,81 96,96 87,88
14 83,75 95.12 88,52 82,83 97,86 88,92 81,99 96,70 87,94 82,41 97,30 88,43
16 81,73 95.21 87,24 81,91 97.03 87,94 81.23 96,72 87,38 82,92 97,81 88,95
18 83,32 94,86 88.14 82,75 97,43 88,69 81,76 96,75 87,79 83,85 97,74 89,56
20 82,52 94,87 87,65 83.02 97,53 88,92 82,27 96,66 88.11 81,80 96,82 87,85
Tableau 6 Résultats du classificateur TDNN formé par l'algorithme de gradient conjugué mis à l'échelle pour la longueur de trame 20 ms, 30 ms, 40 ms et
50 ms (670 segments utilisés pour la formation et 344 segments pour les tests).
dix 84,76 94,55 89.04 82,56 97,91 88,72 81,77 96,92 87,82 83,48 96,24 88,81
12 84,91 95,20 89,39 82,33 97,54 88,43 82.10 96,85 88.08 80,74 97.05 87,15
14 82,82 95,15 87,94 82,93 98,28 89.13 82.11 96,57 87,97 84.18 96,78 89,45
16 84.08 94,78 88,55 82.18 97,47 88,31 83,26 96,90 88,90 84,26 96,50 89,42
18 84,98 95,27 89,45 83,65 97,62 89,42 82,36 96,85 88,23 83,61 96,81 89.10
20 84,74 94,87 89,13 82,21 97,54 88,37 80,98 96,50 87,15 84,55 97,65 90.03
Tableau 7 – Résultats du classificateur GRNN pour la longueur de trame 20 ms, 30 ms, 40 ms et 50 ms (670 segments utilisés pour l'apprentissage et 344
segments pour les tests).
0,03 67.33 98,90 75,29 70.12 99.01 78,20 71.31 99.05 79,36 72,46 100,00 80,81
0,04 82,44 99,27 88,66 82,84 98,56 88,95 82,52 99,27 88,95 83,33 99,28 89,53
0,05 85,86 99,31 91,28 85,71 97,96 90,70 86,73 99,32 91,86 85,86 99,31 91,28
0,06 85,43 99,31 90,99 85,71 97,96 90,70 86,29 99,32 91,57 87,56 98,67 92,15
0,07 86,22 98,64 91,28 87.11 98,00 91,86 86,73 99,32 91,86 87,56 98,67 92,15
0,08 86,22 97,97 91,28 87.11 98,00 91,86 87,63 98,67 92,44 88,48 98,68 92,73
0,09 85,35 97,95 90,70 86,15 97,32 90,99 87,63 98,67 92,44 89,95 98,71 93,90
0,10 84,62 95,30 89.24 85,28 97,28 90,41 87.11 98,00 91,86 88,54 98,68 93.02
0,11 83,51 93,33 87,79 83,58 97,20 89.24 86,15 97,32 90,99 87,50 97,37 91,86
0,12 83,33 92.11 87.21 82,59 95,80 88.08 85,71 97,30 90,70 87,37 96.10 91,28
12 neurones cachés), 88,11 % (40 ms et 20 neurones cachés) et 89,56 % (50 Classificateur TDNN. D'après le tableau 7, on observe que le classificateur
ms et 18 neurones cachés) sont obtenus à l'aide du classificateur MLP. D'après GRNN donne une précision globale maximale de 91,28 % (20 ms, facteur
le tableau 6, la meilleure précision de classification globale de 89,40 % (20 ms d'étalement de 0,07), 91,86 % (30 ms, facteur d'étalement de 0,07), 92,44 %
et 18 neurones cachés), 89,42 % (30 ms et 18 neurones cachés), 88,90 % (40 (40 ms, facteur d'étalement de 0,08) et 93,90 % (50 ms, facteur d'étalement
ms et 16 neurones cachés) et 90,03 % (50 ms et 20 neurones cachés) sont de 0,09). Dans tous les classificateurs, il n'y a pas de changements spécifiques
obtenu en utilisant dans les précisions de classification en raison des différentes longueurs de trame.
Machine Translated by Google
568 m éthodes et programmes informatiques en biomédecine 1 0 8 ( 2 0 1 2 ) 559–569
D'après les résultats des tableaux 5 et 6, le meilleur nombre de neurones normal et pathologique. Dans les travaux futurs, la méthode suggérée sera
cachés peut se situer entre 10 et 20 pour obtenir une précision de utilisée pour classer plus d'un signal de cri pathologique à partir du signal de
classification maximale à l'aide du classificateur MLP et TDNN. D'après les cri normal. Des techniques de réduction de fonctionnalités seront mises en
résultats du tableau 7, le meilleur facteur d'étalement peut se situer entre 0,06 œuvre pour proposer l'ensemble de fonctionnalités réduit avec des
fonctionnalités
et 0,10 pour obtenir une précision de classification maximale à l'aide du classificateur
GRNN. prédominantes. La méthode proposée sera validée avec des
À partir de la discussion cidessus, il a été observé que les caractéristiques échantillons plus importants.
statistiques basées sur l'analyse tempsfréquence suggérées peuvent être
utilisées pour fournir la représentation la plus discriminante des signaux de
cri normaux et sourds. Dans cet article, vingt caractéristiques statistiques Déclaration de conflit d'intérêts
simples et efficaces sont dérivées par une analyse tempsfréquence basée
sur STFT pour fournir une représentation robuste des signaux de pleurs du Aucun.
nourrisson. Dans le tableau 1, certains des travaux significatifs sont rapportés
et la précision de classification maximale de 100 % a été obtenue [5]. Le
nombre de caractéristiques utilisées dans les travaux rapportés dans le Remerciements
tableau 1 est différent et différents algorithmes de classification et systèmes
hybrides ont également été utilisés pour la classification des pleurs du La base de données Baby Chillanto est la propriété de l'Insti tuto Nacional
nourrisson. Dans [5], les auteurs ont proposé une approche évolutionnaire de Astrofisica Optica y Electronica – CONACYT, Mexique. Nous tenons à
utilisant deux ensembles différents de bébés mexicains et cubains. Ils ont remercier le Dr Carlos A. ReyesGarcia, le Dr Emilio ArchTirado et son
classé les signaux de cri du nourrisson soit en signaux de cri du nourrisson groupe INRMexique, et le Dr Edgar M.
normaux, soit en signaux pathologiques (bébés sourds et bébés asphyxiants), GarciaTamayo pour leur dévouement à la collecte de la base de données
mais les signaux pathologiques n'ont pas été davantage classés en signaux Infant Cry. Les auteurs tiennent à remercier le Dr Car los Alberto Reyes
de cri d'asphyxie ou en signaux de cri de surdité. Ils ont utilisé 30 Garcia, chercheur, CCCInaoep, Mexique pour avoir fourni la base de données
caractéristiques ou plus pour obtenir une précision de 100 % pour la sur les cris du nourrisson. Les auteurs remercient les relecteurs anonymes
reconnaissance des signaux de cri du nourrisson enregistrés chez les bébés pour leurs précieux commentaires.
mexicains. Mais nous avons obtenu une précision de classification supérieure
à 99 % avec seulement vingt caractéristiques statistiques basées sur une
les références
analyse de fréquence et un classificateur GRNN. Il montre que les
fonctionnalités suggérées et le classificateur GRNN fournissent des résultats
plus proches des travaux antérieurs. En utilisant le schéma de validation
[1] DE ReyesGalaviz, A. Verduzco, E. ArchTirado, Californie
indépendant des données, la précision de classification maximale de 93 %
ReyesGarcía, Analyse d'un système de reconnaissance des cris du
(GRNN), 89 % (TDNN) et 89 % (MLP) est obtenue. Enfin, le résultat nourrisson pour l'identification précoce des pathologies, Nonlinear
expérimental indique la force de la méthode suggérée et a le potentiel de Speech Modeling and Applications 3445 (2005) 404–409.
détecter le problème pathologique d'un nourrisson à partir de signaux de [2] JO Garcia, CA Reyes García, Détecter les pathologies du cri du nourrisson en
pleurs. appliquant des réseaux de neurones à gradient conjugué mis à
l'échelle, dans : Symposium européen sur les réseaux de neurones
artificiels, Bruges (Belgique), 2003, pp. 349–354.
[3] JO Garcia, CA Reyes García, Analyse des caractéristiques acoustiques pour la
6. conclusion reconnaissance des cris de bébé normaux et hypoacoustiques basée sur les
réseaux de neurones, Notes de cours en informatique, Méthodes de
Cet article présente une méthode simple d'extraction de caractéristiques résolution de problèmes de réseaux de neurones artificiels 2687 (2003) 615–
basée sur l'analyse tempsfréquence à l'aide de STFT pour l'étude des 622, doi : 10.1007/ 3540448691 78.
signaux de pleurs du nourrisson. Les caractéristiques statistiques simples [4] G. Várallyay Jr., Z. Benyó, A. Illényi, Z. Farkas, L. Kovács, Analyse acoustique
du cri du nourrisson : méthodes classiques et nouvelles, dans : Actes
sont dérivées des tracés tempsfréquence, des tracés tempsamplitude
de la 26e conférence internationale annuelle de l'IEEE EMBS , San Francisco,
maximale, des tracés fréquenceamplitude maximale et des tracés fréquence
Californie, ÉtatsUnis, 2004, p. 313–316.
écarttype. Un classificateur GRNN est utilisé pour classer les signaux de cri
en normaux ou pathologiques. Pour prouver la fiabilité des fonctionnalités [5] DE ReyesGalaviz, S. CanoOrtiz, C. ReyesGarca,
proposées, deux modèles de réseaux de neurones tels que le Perceptron Système neuronal évolutif pour classer les unités de cris infantiles pour
multicouche et le réseau de neurones à retard temporel entraînés par un l'identification des pathologies chez les bébés récemment nés, dans:
algorithme de gradient conjugué mis à l'échelle sont également utilisés comme Actes de la 8e Conférence internationale mexicaine sur l'intelligence artificielle,
MICAI 2009, Guanajuato, Mexique, 2009, pp. 330–335.
classificateurs. Une validation croisée 10 fois et un schéma de validation
indépendant des données sont effectués, afin de tester la généralisabilité et
[6] DE ReyesGalaviz, C. ReyesGarcia, Un système pour la
la fiabilité des classificateurs GRNN, MLP et TDNN. La méthode suggérée traitement du cri du nourrisson pour reconnaître les pathologies chez les bébés
fournit une précision de classification maximale de 99 % (GRNN), 97 % récemment nés avec des réseaux de neurones, dans : Actes de la 9e conférence
(TDNN) et 97 % (MLP) en utilisant un schéma de validation croisée de 10 fois. sur la parole et l'ordinateur (SPECOM'2004), St.
En utilisant le schéma de validation indépendant des données, la précision SaintPétersbourg, Russie, 2004.
de classification maximale de 93 % (GRNN), 88 % (TDNN) et 88 % (MLP) [7] D. Escobedo, S. Cano, E. Coello, L. Regueiferos, L. Capdevila, Rising shift of
pitch frequency in the infant cry pf some pathologic cases, in: Actes de la
est obtenue. D'après les résultats, on peut déduire que le GRNN donne une
2nd International Conference MAVEBA 2001, Firenze, Italie, 2001.
plus grande précision par rapport au MLP et au TDNN. Les résultats de la
classification indiquent que la méthode suggérée pourrait être utilisée comme [8] S. Cano, et al., The spectral analysis of infant cry: an initial approximation, dans:
un outil précieux pour classer les signaux de pleurs du nourrisson en Actes de l'EUROSPEECH'95 (sponsorisé par ESCA & IEEE), Madrid,
1995.
Machine Translated by Google
m éthodes et programmes informatiques en biomédecine 1 0 8 ( 2 0 1 2 ) 559–569 569
[9] C. Manfredi, V. Tocchioni, L. Bocchi, Un outil robuste pour en utilisant un réseau neuronal de régression général, Mathematical
analyse des cris du nouveauné, dans : Actes de la 28e Conférence and Computer Modeling 44 (2006) 469–484.
internationale annuelle de l'IEEE EMBS, New York, ÉtatsUnis, 30 août3 [19] MT Leung, AS Chen, H. Daouk, Prévision des taux de change à l'aide d'un
septembre 2006, pp. 509512. réseau neuronal de régression générale, Computers and Operation
[10] G. Várallyay Jr., La mélodie des pleurs, International Journal of Pediatric Research 27 (2000) 1093–1110.
Otorhinolaryngology 71 (11) (2007) 1699–1708. [20] M. Firat, M. Gungor, Réseaux de neurones à régression généralisée et
[11] WaszHockert, et al., The Infant Cry: A Spectrographic and Auditory réseaux de neurones à anticipation pour la prédiction de la profondeur
Analysis, William Heinemann Medical Books Ltd., 1968. d'affouillement autour des piliers de pont, Advances in Engineering
Software 40 (2009) 731–737.
[12] M. Petroni, A. Malowany, C. Johnston, B. Stevens, [21] L. Rabiner, B. Juang, Principes fondamentaux de la reconnaissance
Groupe international de recherche sur les cris du nourrisson, vocale, Prentice Hall, 1993.
Identification de la douleur causée par les cris du nourrisson à l'aide [22] John L. Semmlow, Traitement des images biomédicales et
de réseaux de neurones artificiels (ANN). Applications et science biosignaux, Marcel Dekker Inc., 2004.
des réseaux de neurones artificiels, The International Society for [23] S. Kumar, Réseaux de neurones : une approche en classe, Tata
Optical Engineering 2492 (1995) 729–738. McGraw Hill, New Delhi, 2004.
[13] S. Cano, I. SuasteRivas, D. Escobedo, CA ReyesGarcia, T. [24] DF Specht, Un réseau neuronal de régression générale, IEEE
Ekkel, Un classificateur combiné d'unités de cri avec de nouveaux Transactions on Neural Networks 2 (6) (1991) 568–576.
attributs acoustiques, Lecture Notes in Computer Sciences (LNCS) 4225 [25] Documentation Matlab® , version 7.0, version 14, The MathWorks,
(2006) 416–425. Inc., 2004.
[14] SE BarajasMontiel, CA ReyesGarcía, Machines vectorielles à [26] A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, KJ Lang,
support flou pour la reconnaissance automatique des pleurs du Reconnaissance de phonèmes à l'aide d'un réseau de neurones à retard
nourrisson Notes de cours en sciences de contrôle et de l'information temporel, IEEE Transactions on Acoustics, Speech, and Signal Processing
(LNCIS), vol. 345, Springer, 2006, p. 876–881. 37 (3) (1989) 328–339.
[15] Z. Feng, F. Chu, X. Song, Application du réseau neuronal de régression [27] JB Hampshire, AH Waibel, Une nouvelle fonction objective pour améliorer
générale à la prédiction des tendances vibratoires des machines la reconnaissance des phonèmes à l'aide du réseau de neurones à
tournantes, Lecture Notes in Computer Sciences (LNCS) 3174 (2004) 767– retardement, IEEE Transactions on Neural Network 1 (2) (1990)
772. 216–228.
[16] B. Erkmen, T. Yildirim, Amélioration des performances de classification des [28] OF Reyes Galaviz, CA Reyes Garcia, Infant Cry
cibles de sonar en appliquant un réseau neuronal de régression classification pour identifier l'hypoacoustique et l'asphyxie avec des
général avec PCA, Expert Systems with Applications 35 (2008) 472– réseaux de neurones, MICAI 2004, LNAI 2972 (2004) 69–
475. 78.
[17] O. Polat, T. Yildirim, Identification de la géométrie de la main sans [29] R. Kohavi, A study of crossvalidation and bootstrap for
extraction de caractéristiques par réseau neuronal de régression estimation de la précision et sélection du modèle, dans : Actes de la 14e
générale, Expert Systems with Applications 34 (2008) 845–849. Conférence conjointe internationale sur l'intelligence artificielle,
[18] GJ Bowden, JB Bixon, GC Dandy, HR Maier, M. Holmes, Montréal, Québec, Canada, 1995.
Prévision des résidus de chlore dans un système de distribution d'eau