Vous êtes sur la page 1sur 11

Machine Translated by Google

m  éthodes  et  programmes  informatiques  en  biomédecine  1  0  8  ( 2  0  1  2 )  559–569

page  d'accueil  du  journal :  www.intl.elsevierhealth.com/journals/cmpb

Classification  des  signaux  de  pleurs  normaux  et  hypoacoustiques  du  
nourrisson  à  l'aide  d'une  analyse  temps­fréquence  et  d'un  réseau  
neuronal  de  régression  général

M.  Hariharana, ,  R.  Sindhub,  Sazali  Yaacob  a
a  École  d'ingénierie  mécatronique,  Universiti  Malaysia  Perlis  (UniMAP),  02600,  Perlis,  Malaisie  b  École  
d'ingénierie  microélectronique,  Universiti  Malaysia  Perlis  (UniMAP),  02600,  Perlis,  Malaisie

informations  sur  l'article abstrait

Historique  des  articles : Les  pleurs  sont  le  comportement  le  plus  notable  de  la  petite  enfance.  Les  signaux  de  cri  du  nourrisson  peuvent  être  
Reçu  le  12  octobre  2010 utilisés  pour  identifier  l'état  physique  ou  psychologique  d'un  nourrisson.  Récemment,  l'analyse  acoustique  du  signal  
Reçu  sous  forme  révisée  le  2  juin  2011 de  cri  du  nourrisson  a  montré  des  résultats  prometteurs  et  s'est  avérée  être  un  excellent  outil  pour  étudier  l'état  
Accepté  le  19  juillet  2011 pathologique  d'un  nourrisson.  Cet  article  propose  une  analyse  temps­fréquence  basée  sur  la  transformée  de  Fourier  
à  court  terme  (STFT)  des  signaux  de  pleurs  du  nourrisson.  Peu  de  caractéristiques  statistiques  sont  dérivées  du  tracé  

Mots  clés: temps­fréquence  des  signaux  de  pleurs  du  nourrisson  et  utilisées  comme  caractéristiques  pour  quantifier  les  signaux  

Analyse  acoustique de  pleurs  du  nourrisson.  Le  réseau  de  neurones  de  régression  générale  (GRNN)  est  utilisé  comme  classificateur  

Cri  du  nourrisson pour  discriminer  les  signaux  de  pleurs  du  nourrisson.  Deux  classes  de  signaux  de  cris  infantiles  sont  considérées,  
Extraction  de  caractéristiques telles  que  les  signaux  de  cris  normaux  et  les  signaux  de  cris  pathologiques  des  enfants  sourds.  Pour  prouver  la  
Transformée  de  Fourier  à  court  terme fiabilité  des  fonctionnalités  proposées,  deux  modèles  de  réseaux  de  neurones  tels  que  le  Perceptron  multicouche  
Classement  des  motifs (MLP)  et  le  Réseau  de  neurones  à  retard  temporel  (TDNN)  entraînés  par  un  algorithme  de  gradient  conjugué  mis  à  
Réseau  de  neurones  de  régression  générale l'échelle  sont  également  utilisés  comme  classificateurs.  Les  résultats  expérimentaux  montrent  que  le  classificateur  
GRNN  donne  une  précision  de  classification  très  prometteuse  par  rapport  au  MLP  et  au  TDNN  et  que  la  méthode  
proposée  peut  classer  efficacement  les  pleurs  normaux  et  
pathologiques  du  nourrisson.  ©  2011  Elsevier  Ireland  Ltd.  Tous  droits  réservé

Au  cours  des  dernières  années,  des  techniques  simples  ont  été  proposées  
1. Introduction pour  analyser  le  cri  du  nourrisson  grâce  au  codage  par  prédiction  linéaire,  
aux  coefficients  cepstraux  de  fréquence  Mel,  aux  informations  de  hauteur,  à  
Cry  est  de  nature  multimodale  et  dynamique.  La  détection  de  l'état   l'analyse  harmonique  et  à  l'analyse  du  bruit  [1–14].  Différents  algorithmes  
pathologique  des  bébés  à  l'aide  des  méthodes  conventionnelles  prend   de  classification  et  systèmes  hybrides  ont  été  utilisés  pour  la  classification  
plusieurs  mois,  voire  des  années  après  la  naissance  du  nourrisson.  Il  est   des  pleurs  du  nourrisson  [1–14].  Le  cri  du  nourrisson  est  un  signal  hautement  
nécessaire  de  détecter  l'état  pathologique  plus  tôt  pour  éviter  des  traitements   non  stationnaire ;  La  transformée  de  Fourier  n'est  pas  un  outil  très  utile  pour  
et  des  thérapies  inutiles.  Les  pleurs  des  nourrissons  sont  dus  à  certaines   analyser  les  signaux  non  stationnaires  car  les  informations  du  domaine  
raisons  possibles  telles  que  la  faim,  la  douleur,  la  somnolence,  le  manque   temporel  sont  perdues  lors  de  l'exécution  de  la  transformation  de  fréquence.  
de  confort,  la  sensation  de  trop  chaud  ou  trop  froid  et  trop  de  bruit  ou  de   Lorsque  l'on  regarde  une  transformée  de  Fourier  d'un  signal,  il  est  
lumière.  Dès  le  cri,  un  professionnel  formé  peut  comprendre  l'état  physique   impossible  de  dire  quand  un  événement  particulier  a  eu  lieu.  Afin  de  
ou  psychologique  du  bébé.  L'analyse  acoustique  du  signal  de  cri  du   surmonter  les  inconvénients  de  la  technique  de  transformée  de  Fourier,  
nourrisson  est  un  outil  non  invasif  pour  la  détection  de  certaines  conditions   l'analyse  temps­fréquence  a  été  proposée  par  les  chercheurs  car  c'est  un  
pathologiques  [1–14].  Au  cours  des  dernières bon  outil  pour  analyser  les  signaux  de  pleurs  du  nourrisson  à  la  fois  à  l'échelle  temporelle  et

  Auteur  correspondant.  Tél. :  +6049885167.
Adresse  e­mail :  hari@unimap.edu.my  (M.  Hariharan).  0169­2607/$  
–  voir  avant­propos  ©  2011  Elsevier  Ireland  Ltd.  Tous  droits  réservés.  doi:10.1016/j.cmpb.2011.07.010
Machine Translated by Google

560 m  éthodes  et  programmes  informatiques  en  biomédecine  1  0  8  ( 2  0  1  2 )  559–569

Tableau  1  –  Quelques­uns  des  travaux  significatifs  sur  la  classification  des  signaux  de  cri  normaux  et  sourds.

Nom  de  l'auteur Méthode  d'extraction  de  caractéristiques Classificateur Meilleure  précision

DE  Reyes­Galaviz  et  al.  [1] Coefficients  cepstraux  de  fréquence  Mel Réseau  de  neurones  à  retard  d'entrée  à   96,08–97,39 %


anticipation  (normal,  cri  sourd,  cri  d'asphyxie,  
problème  de  3 classes)
JO  García  [2] Technique  de  prédiction  linéaire Réseaux  de  neurones  à  gradient  conjugué   91,08  %  (314  échantillons)  
mis  à  l'échelle  (cri  normal  et  sourd) 86,20  %  (1036  échantillons)  
JO  García  [3] Coefficients  cepstraux  de  fréquence  Mel  et   Réseaux  de  neurones  à  gradient  conjugué   97,43  %
technique  de  prédiction  linéaire mis  à  l'échelle  (cri  normal  et  sourd)
– –
G.  Varallyay  [4] Détection  de  fréquence  fondamentale  à  
l'aide  de  la  méthode  du  spectre  lissé
DE  Reyes­Galaviz  et  al.  [5] Coefficients  cepstraux  de  fréquence  Mel Système  évolutif­neural  (cri­sourd  normal  et   100 %  de  certaines  
pathologique  +  asphyxie) expériences  
DE  Reyes­Galaviz  et  al.  [6] Coefficients  prédictifs  linéaires, Système  neuronal  évolutif  et  système  de   96,49 %
Coefficients  cepstraux  de  fréquence  Mel réseau  neuronal  (cri  normal,  sourd,  cri  d'asphyxie,  
problème  de  3  classes)

simultanément.  Il  existe  de  nombreux  travaux  sur  la  reconnaissance  du  signal  de  cri  du   Le  signal  de  cri  du  nourrisson  enregistré  chez  un  bébé  normal  et  un  bébé  sourd  est  
nourrisson  utilisant  l'analyse  temps­fréquence.  Mais  l'interprétation  de  l'analyse  temps­ représenté  sur  la  figure  1.
fréquence  est  différente.  Beaucoup  d'entre  eux  ont  utilisé  la  hauteur,  l'analyse  harmonique  
et  l'analyse  du  bruit  [7–12].  Cet  article  présente  le  développement  d'un  système  
3.  Méthode
d'apprentissage  intelligent  pour  classer  les  cris  normaux  et  pathologiques  à  l'aide  de  la  
transformée  de  Fourier  à  court  terme  et  d'un  réseau  de  neurones  de  régression  générale.  
La  classification  des  cris  du  nourrisson  est  un  système  de  reconnaissance  de  formes  
Des  chercheurs  ont  proposé  des  approches  pour  des  problèmes  de  domaine  à  deux  
typique  et  se  compose  de  deux  blocs :  le  traitement  du  signal  basé  sur  la  transformée  de  
classes  (normal  ou  pathologique)  ou  à  plus  de  deux  classes  de  cris  du  nourrisson  (signaux  
Fourier  à  court  terme  et  la  classification  à  l'aide  d'un  réseau  neuronal  de  régression  
de  cris  normaux  ou  pathologiques).  Le  tableau  1  présente  quelques­uns  des  travaux  
général,  MLP  et  TDNN.  Cette  section  décrit  brièvement  les  méthodes  d'extraction  et  de  
significatifs  sur  la  classification  des  signaux  de  cri  normaux  et  sourds.
classification  des  caractéristiques.

3.1. Traitement  du  signal  basé  sur  la  transformée  de  Fourier  à  court  
De  la  littérature,  il  a  été  observé  que  l'extraction  de  caractéristiques  joue  un  rôle  
terme  (STFT)
important  dans  le  domaine  de  la  détection  automatique  des  cris  pathologiques.  Dans  cet  
article,  une  méthode  d'extraction  de  caractéristiques  utilisant  une  analyse  temps­fréquence  
Le  cri  du  nourrisson  est  un  signal  dynamique  ou  non  stationnaire.  La  transformée  de  
basée  sur  STFT  pour  dériver  des  caractéristiques  à  partir  des  signaux  de  pleurs  du  
Fourier  n'est  pas  un  outil  très  utile  pour  analyser  les  signaux  non  stationnaires  car  les  
nourrisson  et  un  GRNN  sont  proposés  pour  discriminer  les  cris  normaux  et  pathologiques.  
informations  du  domaine  temporel  sont  perdues  lors  de  l'exécution  de  la  transformation  
Deux  schémas  de  méthodes  de  validation  des  données  sont  utilisés  (validation  croisée  10  
de  fréquence.  Lorsque  l'on  regarde  une  transformée  de  Fourier  d'un  signal,  il  est  impossible  
fois  et  schéma  de  validation  indépendant  des  données  où  les  classificateurs  sont  formés  
de  dire  quand  un  événement  particulier  a  eu  lieu.  Afin  de  surmonter  les  inconvénients  de  
avec  un  ensemble  sélectionné  d'échantillons  et  testés  avec  des  échantillons  qui  ne  sont  
l'approche  par  transformée  de  Fourier,  l'analyse  temps­fréquence  a  été  proposée  par  les  
pas  pris  en  compte  pendant  la  formation),  afin  de  tester  l'efficacité  des  caractéristiques  
chercheurs  car  c'est  un  bon  outil  pour  analyser  simultanément  les  signaux  de  pleurs  du  
proposées  et  la  fiabilité  des  résultats  de  la  classification.  Les  investigations  expérimentales  
nourrisson  à  la  fois  à  l'échelle  temporelle  et  fréquentielle.  Afin  de  produire  un  bon  
montrent  que  le  STFT  combiné  avec  des  caractéristiques  statistiques  et  le  classificateur  
spectrogramme  temps­fréquence  des  signaux  de  pleurs  du  nourrisson,  STFT  est  
GRNN  peut  être  utilisé  pour  détecter  certains
sélectionné  comme  extraction  de  caractéristiques.

Le  spectrogramme  basé  sur  STFT  est  une  technique  simple  et  rapide  par  rapport  à  d'autres  
état  pathologique  d'un  nourrisson  à  partir  de  signaux  de  cri.
analyses  temps­fréquence.  Le  temps  court  est  une  approche  simple  consistant  à  découper  
la  forme  d'onde  d'intérêt  en  un  certain  nombre  de  segments  courts  et  à  effectuer  l'analyse  
sur  chacun  des  segments  à  l'aide  de  la  transformée  de  Fourier  standard  [21,22] .  Une  
2. Base  de  données
fonction  de  fenêtre  est  appliquée  à  un  segment  de  données,  isolant  efficacement  ce  
segment  de  la  forme  d'onde  globale,  et  une  transformée  de  Fourier  est  appliquée  à  ce  
La  base  de  données  des  cris  infantiles  est  téléchargeable  sur  le  site  http://ingenieria.uatx.mx/
segment.  C'est  ce  qu'on  appelle  le  spectrogramme  ou  "transformée  de  Fourier  à  court  
orionfrg/cry/  appelée  base  de  données  Baby  Chillanto  et  est  la  propriété  de  l'Instituto  
terme".
Nacional  de  Astrofisica  Optica  y  Electronica  (INAOE)  ­  CONACYT,  Mexique.

STFT  est  représenté  dans  le  domaine  discret  donné  par  Eq.  (1):
La  base  de  données  est  décrite  dans  la  Réf.  [5].  Tous  les  échantillons  de  cette  base  de  
données  ont  une  durée  de  1  seconde  et  nous  avons  pris  les  mêmes  échantillons  pour   N
notre  analyse.  Il  se  compose  de  507  signaux  de  cri  normaux  et  de  879  signaux  de  cri  
X(m,  k)  = x(n)[W(n  −  k)e−jnm/N] (1)
sourds.  Dans  cette  expérience,  nous  avons  pris  le  même  nombre  d'échantillons  pour  
n=1
chaque  classe  507.  Les  signaux  de  cris  sourds  sont  enregistrés  à  partir  de  6  bébés  et  les  
signaux  de  cris  normaux  sont  enregistrés  à  partir  de  5  bébés.  La  fréquence  d'échantillonnage   où  W[n]  est  une  fonction  de  fenêtrage  à  court  terme  de  taille  L,  centrée  à  l'emplacement  
des  signaux  de  pleurs  du  nourrisson  est  fixée  à  8000  Hz  pour  notre  analyse.  Tous  les   temporel  m,  et  N  est  le  nombre  de  fréquences  discrètes  (N  ≥  L).  Habituellement,  N  est  

signaux  de  pleurs  du  nourrisson  sont  soumis  à  une  extraction  de  caractéristiques  via  STFT.   choisi  comme  étant  une  puissance  de  ­2  pour  utiliser  une  transformée  de  Fourier  rapide  
Le (FFT)  efficace.  Depuis  le
Machine Translated by Google

m  éthodes  et  programmes  informatiques  en  biomédecine  1  0  8  ( 2  0  1  2 )  559–569 561

Fig.  1  –  Signaux  de  pleurs  du  nourrisson  (bébé  normal  et  sourd).

La  transformée  de  Fourier  est  une  fonction  complexe,  la  densité  spectrale  de   du  tracé  temps­fréquence  à  chaque  fréquence.  L'extraction  de  caractéristiques  
puissance  (PSD)  est  utilisée  et  est  donnée  par  Eq.  (2): joue  un  rôle  essentiel  dans  le  domaine  de  la  classification  des  signaux  de  
cris  du  nourrisson.  En  utilisant  les  Fig.  3(a),  3(b),  6(a)  et  6(b),  on  peut  
1 2 différencier  le  cri  normal  et  pathologique  par  inspection  visuelle.
Ps[m,  k]  = X[m,  k] (2)
N Cependant,  il  existe  une  possibilité  d'interprétation  erronée  des  tracés  temps­
fréquence  et  les  résultats  dépendent  également  de  l'expertise  des  
Le  spectrogramme  peut  être  utilisé  pour  observer  les  caractéristiques   professionnels  de  la  santé.  Par  conséquent,  dans  cet  article,  une  méthode  
temporelles  et  spectrales  en  tout  point  des  signaux  de  cris  du  nourrisson.   simple  d'extraction  de  caractéristiques  est  proposée  en  appliquant  des  
Généralement,  la  longueur  de  trame  est  choisie  entre  10  ms  et  50  ms  dans  le   techniques  statistiques  standard  aux  tracés  temps­fréquence  des  signaux  de  
domaine  de  l'analyse  du  signal  de  parole  [21]  et,  par  conséquent,  dans  ce   cris  du  nourrisson,  aux  tracés  temps­amplitude  maximale  des  signaux  de  cri  
travail,  les  signaux  de  pleurs  du  nourrisson  sont  segmentés  en  différentes   du  nourrisson,  aux  tracés  de  fréquence­amplitude  maximale  des  signaux  de  
longueurs  de  trame  de  20  ms,  30  ms,  40  ms  et  50  ms  avec  un  chevauchement   cri  du  nourrisson  et  à  la  fréquence­  tracés  d'amplitude  d'écart­type  des  signaux  
de  50 %.  entre  les  cadres.  L'effet  de  différentes  longueurs  de  trame  a  été   de  pleurs  du  nourrisson.  Les  caractéristiques  statistiques  standard  s'avèrent  
étudié  et  ses  résultats  sont  présentés  dans  ce  travail.  La  sortie  du  STFT  est   utiles  pour  la  quantification  et  la  classification  des  signaux  de  pleurs  du  
une  matrice  dont  les  lignes  se  rapportent  à  la  fréquence  et  les  colonnes  au   nourrisson.
temps.  À  partir  du  STFT­PSD  des  signaux  de  cri  (Figs.  3(a),  3(b),  6(a)  et  6(b)),   Ensemble  1.  Extraction  de  caractéristiques  à  partir  de  tracés  
les  tracés  temps­fréquence,  temps­amplitude  et  fréquence­amplitude  peuvent   temps­fréquence  Moyenne  et  écart  type  de  l'amplitude  de
être  générés  ment  et  qui  peut  afficher  clairement  la  discrimination  entre  les   tracés  temps­fréquence  (2  caractéristiques,  caractéristique  1  et  caractéristique  2).
différents  types  de  signaux  de  cri.  Le  schéma  fonctionnel  de  l'extraction  et  de   Ensemble  2.  Extraction  de  caractéristiques  à  partir  des  tracés  temps­
la  classification  des  caractéristiques  est  illustré  à  la  Fig.  2. amplitude  maximale,  fréquence­maximum  d'amplitude  et  fréquence­écart­type.

Les  figures  3(a)  et  (b)  illustrent  le  tracé  temps­fréquence  du  signal  de  cri   Maximum,  minimum,  moyenne,  écart  type,  asymétrie  et  kurtosis  des  
pathologique  (sourd,  segment  6)  et  du  signal  de  cri  normal  (segment  4).  Les   tracés  temps­amplitude  maximale,  fréquence­maximum  des  tracés  d'amplitude  
figures  6  (a)  et  (b)  illustrent  le  tracé  temps­fréquence  du  signal  de  cri   et  fréquence­écart­type  (Caractéristiques  3–8,  Caractéristiques  9–14  et  
pathologique  (sourd,  segment  300)  et  du  signal  de  cri  normal  (segment  200).   Caractéristiques  15–20,  totalisant  18  fonctionnalités).  Vingt  caractéristiques  
Figues.  4(a),  5(a),  7(a)  et  8(a)  illustrent  le  tracé  temps­amplitude  maximale,   sont  extraites  de  chaque  trame  d'un  signal  de  cri  de  bébé  et  enfin  la  moyenne  
qui  est  l'amplitude  maximale  en  fonction  du  temps  en  trouvant  des  colonnes   des  caractéristiques  est  utilisée  comme  entrée  pour  les  classificateurs  afin  de  
de  tracé  temps­fréquence.  Figues.  4(b),  5(b),  7(b)  et  8(b)  illustrent  le  tracé   distinguer  les  signaux  de  cri  entre  les  cris  normaux  et  sourds.
fréquence­amplitude  maximale,  qui  est  l'amplitude  maximale  par  rapport  à  la  
fréquence  en  trouvant  des  lignes  de  tracé  temps­fréquence  à  chaque  
fréquence.  Figues.  4(c),  5(c),  7(c)  et  8(c)  illustrent  le  diagramme  fréquence­ Les  figures  9  (a)  à  (d)  montrent  les  nuages  de  points  entre  les  entités.  À  
écart­type,  qui  montre  l'écart­type  par  rapport  à  la  fréquence  normalisée  en   partir  des  diagrammes  de  dispersion,  on  a  observé  que  les  caractéristiques  
trouvant  des  lignes extraites  des  signaux  de  cri  normaux  et  pathologiques  sont  presque  
distinguables.
Machine Translated by Google

562 m  éthodes  et  programmes  informatiques  en  biomédecine  1  0  8  ( 2  0  1  2 )  559–569

Analyse  temps­fréquence  à   Classement  
Cri  du  nourrisson l'aide  de  STFT   par  GRNN,
Signal (caractéristiques  statistiques) MLP,  et
TDNN

Fig.  2  –  Schéma  fonctionnel  de  la  phase  d'extraction  et  de  classification  des  caractéristiques.

Fig.  3  –  (a)  Courbe  temps­fréquence  du  signal  de  cri  normal  (segment  4)  et  (b)  Courbe  temps­fréquence  du  signal  de  cri  pathologique  (sourd,  segment  6).

Fig.  4  ­  (a)  Graphique  temps­amplitude  maximale  (dB)  du  signal  de  cri  normal  (segment  4),  (b)  graphique  fréquence­amplitude  maximale  (dB)  et  (c)  graphique  
fréquence­écart  type  de  l'amplitude  (dB) .

network  est  utilisé  pour  la  classification  des  cris  normaux  et  pathologiques  
4. Classificateurs
puisqu'il  a  été  appliqué  avec  succès  dans  différentes  applications  de  
reconnaissance  de  formes  [15–20].  Pour  prouver  la  fiabilité  des  fonctionnalités  
Les  réseaux  de  neurones  artificiels  sont  largement  utilisés  dans  les  problèmes   proposées,  deux  modèles  de  réseaux  de  neurones  tels  que  Perceptron  
de  reconnaissance  de  formes  et  de  classification  en  apprenant  à  partir  d'exemples. multicouche  et  Réseau  de  neurones  à  retard  temporel  entraînés  par  un  algorithme  
Différents  modèles  de  réseaux  de  neurones  sont  disponibles  pour  classer  les   de  gradient  conjugué  mis  à  l'échelle  sont  également  utilisés  comme  classificateurs.
motifs.  Dans  ce  travail,  une  régression  neuronale  générale
Machine Translated by Google

m  éthodes  et  programmes  informatiques  en  biomédecine  1  0  8  ( 2  0  1  2 )  559–569 563

Fig.  5  ­  (a)  Tracé  temps­amplitude  maximale  (dB)  du  signal  de  cri  pathologique  (sourd,  segment  6),  (b)  tracé  fréquence­amplitude  maximale  (dB)  et  (c)  fréquence­
écart  type  d'amplitude  (dB )  parcelle.

Fig.  6  ­  (a)  Tracé  temps­fréquence  du  signal  de  cri  normal  (segment  300)  et  tracé  temps­fréquence  du  signal  de  cri  pathologique  (sourd,  segment  200).

4.1. Réseau  de  neurones  de  régression  générale GRNN  est  basé  sur  la  théorie  de  l'analyse  de  régression  de  probabilité.


Il  utilise  généralement  des  estimations  de  fenêtre  de  Parzen  pour  configurer  la  
GRNN  est  une  sorte  de  réseaux  à  base  radiale  et  la  formation  est  effectuée  en   fonction  de  densité  de  probabilité  (PDF)  à  partir  des  échantillons  de  données  observés.
utilisant  un  apprentissage  en  une  seule  passe.  Ce  réseau  ne  nécessite  pas  de   Supposons  que  x  est  une  variable  vectorielle  aléatoire,  y  est  une  variable  scalaire  
procédure  de  formation  itérative ;  il  présente  un  apprentissage  beaucoup  plus   aléatoire,  X  et  Y  sont  des  valeurs  mesurées,  f(x,  y)  est  la  PDF  jointe  continue  
rapide  que  le  Perceptron  multicouche,  il  est  plus  précis  que  le  MLP  et  relativement   connue.  La  valeur  attendue  de  y  (la  valeur  de  régression  sur  X)  est  donnée  par  Eq.  
insensible  aux  valeurs  aberrantes  [15­20].  Pour  le  GRNN,  la  variable  cible  est   (3)  [24].
continue.  Les  réseaux  de  fonctions  à  base  radiale  calculent  les  activations  à  l'aide  
∞ yf(X,  y)dy
d'une  exponentielle  d'une  mesure  de  distance  (généralement  la  distance  euclidienne  
E(y|X)  = −∞ (3)
ou  une  norme  pondérée)  entre  le  vecteur  d'entrée  et  un  vecteur  prototype  qui   ∞ f(X,  y)dy
−∞
caractérise  la  fonction  de  signal  au  niveau  d'un  neurone  caché  plutôt  que  
d'employer  un  produit  interne  entre  le  vecteur  d'entrée  et  le  vecteur  de  poids  [23].   où  y  est  la  sortie  prédite  par  GRNN.  X  le  vecteur  d'entrée  (x1,  x2, . . .,  xn)  qui  se  
DF  Specht  a  proposé  le  modèle  de  GRNN  pour  effectuer  des  régressions  générales   compose  de  n  variables  prédictives,  E(y|X)  la  valeur  attendue  de  la  sortie  y  étant  
(linéaires  ou  non  linéaires)  [24]. donné  un  vecteur  d'entrée  X,  et  f(X,  y)  le  joint  fonction  de  densité  de  probabilité  de  
X  et  y.
Machine Translated by Google

564 m  éthodes  et  programmes  informatiques  en  biomédecine  1  0  8  ( 2  0  1  2 )  559–569

Fig.  7  ­  (a)  Tracé  temps­amplitude  maximale  (dB)  du  signal  de  cri  normal  (segment  300),  (b)  tracé  fréquence­amplitude  maximale  (dB)  et  (c)  tracé  fréquence­écart  type  de  
l'amplitude  (dB) .

Fig.  8  ­  (a)  Tracé  temps­amplitude  maximale  (dB)  du  signal  de  cri  pathologique  (sourd,  segment  200),  (b)  tracé  fréquence­amplitude  maximale  (dB)  et  (c)  fréquence­écart  
type  d'amplitude  (dB )  parcelle.

La  valeur  estimée  Y  est  une  moyenne  pondérée  exponentiellement où  Di  est  défini  comme  dans  l'Eq.  (5)
valeur  d'âge  de  toutes  les  valeurs  observées  Yi  données  comme  dans  l'Eq.  (4)  [24] :
J
D2 =  (X  −  Xi )   (X  −  Xi ) (5)
je

n
i=1Yi  exp(−(D2 /22)) je

La  variable  est  un  paramètre  de  lissage  qui  peut  être  grand  pour  lisser  les  données  
Yˆ  (x)  = n (4)
exp(−(D2 /22))
je=1 je
bruitées  ou  petit  pour  permettre  l'estimation
Machine Translated by Google

m  éthodes  et  programmes  informatiques  en  biomédecine  1  0  8  ( 2  0  1  2 )  559–569 565

Fig.  9  ­  (a)  Nuage  de  points  entre  la  caractéristique  1  et  la  caractéristique  2,  (b)  nuage  de  points  entre  la  caractéristique  6  et  la  caractéristique  11,  (c)  nuage  de  points  
entre  la  caractéristique  10  et  la  caractéristique  13  et  (d)  nuage  de  points  entre  la  caractéristique  13  et  la  caractéristique  18.

La  surface  de  régression  doit  être  aussi  non  linéaire  qu'il  est  nécessaire  pour   les  meilleurs  paramètres  d'apprentissage  sont  trouvés  et  utilisés  lors  de  la  
approcher  étroitement  les  valeurs  réelles  observées  de  Yi  GRNN  a  4   .  Le formation  et  des  tests  du  classificateur  MLP.
couches  différentes :  couche  d'entrée,  couche  de  motif,  couche  de  sommation  et  
couche  de  sortie.  Dans  ce  travail,  l'architecture  GRNN  est  construite  en  utilisant  
4.3.  Réseau  neuronal  temporisé
newgrnn()  dans  la  fonction  MATLAB  [25].  Les  informations  détaillées  sur  
l'architecture  GRNN  et  les  mathématiques
Le  réseau  de  neurones  à  retard  temporel  a  été  utilisé  dans  les  applications  de  
des  équations  mathématiques  peuvent  être  trouvées  dans  l'article  de  Specht  [24].  
reconnaissance  de  la  parole  [26,  27]  ainsi  que  dans  la  classification  des  pleurs  du  
Les  performances  du  classificateur  GRNN  dépendent  fortement  du  paramètre  de  
nourrisson  [1,  28].  Il  a  été  proposé  de  l'utiliser  dans  la  classification  des  pleurs  du  
lissage  ou  du  facteur  de  propagation  ().  Sur  la  base  des  recherches  
nourrisson  puisque  les  données  sur  les  pleurs  ne  sont  pas  statiques  et  dépendent  
expérimentales,  la  valeur  varie  entre  0,03  et  0,12  par  pas  de  0,01.
du  temps  des  schémas  de  pleurs  [1,28].  Les  informations  détaillées  sur  le  TDNN  
peuvent  être  trouvées  dans  [1,  26–28].  Un  modèle  TDNN  est  développé  et  formé  
par  un  algorithme  de  gradient  conjugué  mis  à  l'échelle.  Il  se  compose  de  20  
neurones  et  le  délai  d'entrée  spécifié  par  l'utilisateur,  dans  ce  cas  le  délai  [28]  est  
4.2. Classificateur  Perceptron  multicouche (0,  1),  les  neurones  cachés  variant  entre  10  et  20  par  pas  de  2  et  1  neurone  de  
sortie.  L'objectif  de  performance,  le  taux  d'apprentissage  et  le  facteur  d'élan  sont  
Un  modèle  de  réseau  de  neurones  à  trois  couches  est  développé  avec  20   respectivement  choisis  à  0,001,  0,1  et  0,9.  L'algorithme  conjugué  mis  à  l'échelle  
neurones  d'entrée,  les  neurones  cachés  variant  entre  10  et  20  par  pas  de  2  et  1   est  choisi  pour  l'apprentissage  du  modèle  TDNN  [2,3].  Les  neurones  cachés  et  de  
neurone  de  sortie.  L'objectif  de  performance,  le  taux  d'apprentissage,  le  facteur   sortie  sont  activés  par  une  fonction  d'activation  sigmoïde  binaire.  Dans  ce  travail,  
d'élan  sont  respectivement  choisis  à  0,001,  0,1  et  0,9.  L'algorithme  conjugué  mis   l'architecture  TDNN  est  construite  en  utilisant  newfftd()  dans  la  fonction  MATLAB  
à  l'échelle  est  choisi  pour  entraîner  le  modèle  de  réseau  de  neurones  [2,3].  Les   [25].
neurones  cachés  et  de  sortie  sont  activés  par  une  fonction  d'activation  sigmoïdale  
binaire.  Dans  ce  travail,  l'architecture  MLP  est  construite  en  utilisant  newff()  dans   Les  performances  du  classificateur  TDNN  dépendent  fortement  des  différents  
la  fonction  MATLAB  [25].  Les  performances  du  classificateur  MLP  dépendent   paramètres  d'apprentissage,  tels  que  le  nombre  de  neurones  cachés,  le  nombre  
fortement  des  différents  paramètres  d'apprentissage,  tels  que  le  nombre  de   de  retards  d'entrée,  le  taux  d'apprentissage,  le  facteur  d'impulsion,  les  critères  
neurones  cachés,  le  taux  d'apprentissage,  le  facteur  d'impulsion,  les  critères   d'arrêt  et  les  fonctions  d'activation.  Sur  la  base  de  plusieurs  enquêtes  
d'arrêt  et  les  fonctions  d'activation.  Sur  la  base  de  plusieurs  enquêtes   expérimentales,  les  meilleurs  paramètres  d'apprentissage  sont  trouvés  et  utilisés  
expérimentales,  le lors  de  la  formation  et  des  tests  du  classifieur  TDNN.
Machine Translated by Google

566 m  éthodes  et  programmes  informatiques  en  biomédecine  1  0  8  ( 2  0  1  2 )  559–569

Tableau  2  ­  Résultats  du  classificateur  MLP  formé  par  l'algorithme  de  gradient  conjugué  mis  à  l'échelle  pour  la  longueur  de  trame  20  ms,  30  ms,  40  ms  et  50  
ms  (validation  croisée  de  10  fois).

Neurones  cachés  Longueur  de  trame  (20ms) Durée  de  la  trame  (30 ms) Longueur  de  trame  (40ms) Durée  de  la  trame  (50 ms)

SE SP  ASC SE SP  ASC SE SP  ASC SE SP  ASC

dix 97.04 96,85 96,94 97,63 97,44 97,53 97.02 96,28 96,65 97.06 97,62 97,34
12 97,81 97.06 97,44 97,22 96,67 96,94 97,62 97,25 97,44 97.05 97,23 97.14
14 97.02 96,47 96,75 97,24 97,24 97,24 96,65 96,84 96,75 96,67 97,22 96,94
16 97,60 96,49 97.04 97,44 97,44 97,44 96,48 97,41 96,94 97,64 98.02 97,83
18 96,81 95,71 96,25 98,22 97,84 98.03 98,00 96,69 97,34 96,28 97.02 96,65
20 97,42 96,67 97.04 96,84 96,65 96,75 97.02 96,28 96,65 98,00 96,88 97,44

Tableau  3  ­  Résultats  du  classificateur  TDNN  formé  par  l'algorithme  de  gradient  conjugué  mis  à  l'échelle  pour  la  longueur  de  trame  20  ms,  30  ms,  40  ms  et  50  
ms  (validation  croisée  de  10  fois).

Facteur  d'étalement  Longueur  de  trame  (20  ms) Durée  de  la  trame  (30 ms) Longueur  de  trame  (40ms) Durée  de  la  trame  (50 ms)

SE PS ASC SE PS ASC SE PS ASC SE PS ASC

dix 97,82 97,45 97,63 97,44 97,44 97,44 96,87 97,61 97,24 97.06 97,62 97,34
12 97,43 97.05 97,24 96,30 97,60 96,94 97,81 97.06 97,44 96,86 97,42 97.14
14 97,80   96,31   97,04   97,61   96,87   97,24   97,61   96,68   97,14   97,04   96,85   96,94  
16   96,46   96,64   96,55   97,45   97,82   97,63   97,24   97,43   97,34   97,83   97,83   97,83  
18 96,84 96,84 96,84 97,64   98,02   97,83   97,04 97,04 97,04 97,01 95,91 96,45
20 97,60 96,49 97.04 98,01 97,07 97,53 97,63 97,44 97,53 97,83 97,83 97,83

Le  GRNN  est  formé  avec  différents  facteurs  de  propagation  ou  facteur  de  
5. Résultats  et  discussion
lissage  entre  0,03  et  0,12  et  ses  effets  sur  les  performances  de  classification  
sont  analysés.  Le  MLP  et  le  TDNN  sont  formés  avec  un  nombre  différent  de  
Dans  ce  travail,  deux  schémas  de  validation  (validation  croisée  10  fois  [29]  et   neurones  cachés  entre
validation  indépendante  des  données)  sont  utilisés  pour  prouver  la  fiabilité  des  
10  et  20  et  ses  effets  sur  les  performances  de  classification  sont  analysés.  Les  
résultats  de  la  classification.  Dans  le  schéma  de  validation  croisée  de  10  fois,  les  
résultats  pour  le  classificateur  MLP,  TDNN  et  GRNN  utilisant  un  schéma  de  
vecteurs  de  caractéristiques  proposés  sont  divisés  au  hasard  en  10  ensembles  
validation  croisée  de  10  fois  sont  tabulés  dans  les  tableaux  2–4.  La  précision  de  
et  la  formation  est  répétée  10  fois.  Pour  chaque  cycle  de  validation  croisée,  le  
classification  maximale  a  été  mise  en  évidence  dans  les  tableaux  2  à  4  pour  
nombre  de  cas  normaux  et  pathologiques  est  égal.  Dans  le  schéma  de  validation  
chaque  longueur  de  trame.  D'après  le  tableau  2,  la  meilleure  précision  globale  
indépendant  des  données,  les  classificateurs  sont  formés  avec  un  ensemble  
de  97,44 %  (20  ms  et  12  neurones  cachés),  98,03 %  (30  ms  et  18  neurones  
sélectionné  d'échantillons  et  sont  testés  avec  différents  échantillons  qui  ne  sont  
cachés),  97,44 %  (40  ms  et  12  neurones  cachés),  97,83 %  (50  ms  et  16  neurones  
pas  pris  en  compte  pour  l'étape  de  formation.  L'ensemble  de  données  de  
cachés)  sont  obtenu  à  l'aide  du  classificateur  MLP.  D'après  le  tableau  3,  la  
formation  et  de  test  est  également  préparé  comme  suit :  670  segments  sont  
meilleure  précision  globale  de  97,63 %  (20  ms  et  10  neurones  cachés),  97,83 %  
utilisés  pour  la  formation.  (335  
(30  ms  et  18  neurones  cachés),  97,53 %  (40  ms  et  20  neurones  cachés)  et  
segments  de  3  bébés  sourds  +  335  segments  de  2  bébés  normaux)  et  les  
97,83 %  (50  ms  et  16  neurones  cachés)  sont  obtenu  à  l'aide  du  classificateur  
344  segments  restants  sont  utilisés  pour  le  test  (172  segments  des  3  bébés  
TDNN.  D'après  le  tableau  4,  on  observe  que  le  classificateur  GRNN  donne  une  
sourds  restants  +  172  segments  des  3  bébés  normaux  restants).  Afin  de  tester  
précision  globale  maximale  de  99,01 %  (20  ms,  facteur  d'étalement  de  0,06),  
les  performances  du  classificateur,  trois  mesures,  à  savoir  la  sensibilité  (SE),  la  
99,01 %  (30  ms,  facteur  d'étalement  de  0,05),  99,21 %  (40  ms,  facteur  d'étalement  
spécificité  (SP)  et  la  précision  globale  (AUC)  sont  prises  en  compte.  Ces  mesures  
de  0,05)  et  99,31  %  (50  ms,  facteur  d'étalement  de  0,08).  Dans  tous  les  
sont  calculées  à  partir  des  mesures  vrai  positif  (TP,  nombre  d'échantillons  
classificateurs,  il  n'y  a  pas  de  changements  spécifiques  dans  les  précisions  de  
pathologiques  correctement  classés),  vrai  négatif  (TN,  nombre  d'échantillons  
classification  en  raison  de  la  longueur  de  trame  différente.  D'après  les  résultats  
normaux  correctement  classés),  faux  positif  (FP,  nombre  d'échantillons  
des  tableaux  2  et  3,  le  meilleur  nombre  de  neurones  cachés  peut  se  situer  entre  
pathologiques  mal  classés),  et  faux  négatif  ( FN,  nombre  d'échantillons  normaux  
10  et  20  pour  obtenir  une  précision  de  classification  maximale  en  utilisant  le  
mal  classés). classificateur  MLP  et  TDNN.  D'après  les  résultats  du  tableau  4,  le  meilleur  facteur  

d'étalement  peut  être  compris  entre  0,06  et  0,10  pour  obtenir  une  classification  
maximale

Vrai  positif précision  à  l'aide  du  classificateur  GRNN.
Sensibilité  =
Vrai  positif  +  faux  négatif Les  résultats  pour  le  classificateur  MLP,  TDNN  et  GRNN  utilisant  le  schéma  
de  validation  indépendant  des  données  (les  classificateurs  sont  formés  avec  un  
ensemble  sélectionné  d'échantillons  et  sont  testés  avec  différents  échantillons  
Vrai  négatif
Spécificité  = qui  ne  sont  pas  pris  en  compte  pour  l'étape  de  formation)  sont  tabulés  dans  les  
Vrai  Négatif  +  Faux  Positif
tableaux  5–7.  La  précision  de  classification  maximale  a  été  mise  en  évidence  
dans  les  tableaux  5  à  7  pour  chaque  longueur  de  trame.  D'après  le  tableau  5,  la  
(TP  +  TN) meilleure  précision  de  classification  globale  de  89,10 %  (20 ms  et  12 neurones  
Précision  globale  =
(TP  +  TN  +  FP  +  FN) cachés),  89,39 %  (30 ms  et
Machine Translated by Google

m  éthodes  et  programmes  informatiques  en  biomédecine  1  0  8  ( 2  0  1  2 )  559–569 567

Tableau  4  –  Résultats  du  classificateur  GRNN  pour  la  longueur  de  trame  20  ms,  30  ms,  40  ms  et  50  ms  (validation  croisée  de  10  fois).

Facteur  d'étalement  Longueur  de  trame  (20  ms) Durée  de  la  trame  (30 ms) Longueur  de  trame  (40ms) Durée  de  la  trame  (50 ms)

SE PS ASC SE PS ASC SE PS ASC SE PS ASC

0,03 95,95 99.18 96,94 95,76 99,39 96,84 96,35 99,59 97,63 95,44 99,38 97.14
0,04 98,82 99.21 98,82 98,62 99.01 98,72 98,82 99,40 98,92 98,81 99.01 98,72
0,05 98,62 99.21 98,82 99.21 99.02 99.01 99.21 99,41 99.21 99,40 98,82 99.01
0,06 99,40 98,82 99.01 98,81 98,62 98,62 99,60 99.02 99.21 99,80 98,64 99.11
0,07 99,40 98,82 99.01 99.01 98,82 98,92 98,81 98,82 98,72 99,80 98,83 99.21
0,08 99.21 98,82 99.01 99.01 98,62 98,82 98,82 99.01 98,92 99,80 98,83 99,31
0,09 99.01 98,82 98,92 98,81 98,24 98,52 98,81 98,62 98,72 99,60 98,83 99.21
0,10 98,81 98.04 98,42 98,81 98.04 98,42 98,80 97,85 98,32 99,60 98,44 99.01
0,11 98,61 97,66 98.13 98,22 98.03 98.13 98,41 97,65 98.03 99,40 98.05 98,72
0,12 98.19 96.14 97.14 98.21 97,46 97,83 97,60 96,49 97.04 99,00 97,29 98.13

Tableau  5  ­  Résultats  Classificateur  MLP  formé  par  l'algorithme  de  gradient  conjugué  mis  à  l'échelle  pour  la  longueur  de  trame  20  ms,  30  ms,  40  ms  et  50  ms  
(670  segments  utilisés  pour  la  formation  et  344  segments  pour  les  tests).

Neurones  cachés  Longueur  de  trame  (20ms) Durée  de  la  trame  (30 ms) Longueur  de  trame  (40ms) Durée  de  la  trame  (50 ms)

SE SP  ASC SE SP  ASC SE SP  ASC SE SP  ASC

dix 84,82 95,76 89,53 81,40 97,30 87,65 80,88 96.05 86,92 82.23 96,79 88.08
12 84,53 95,10 89.10 83,66 97,69 89,39 80,76 96,40 86,92 81,81 96,96 87,88
14 83,75 95.12 88,52 82,83 97,86 88,92 81,99 96,70 87,94 82,41 97,30 88,43
16 81,73 95.21 87,24 81,91 97.03 87,94 81.23 96,72 87,38 82,92 97,81 88,95
18 83,32 94,86 88.14 82,75 97,43 88,69 81,76 96,75 87,79 83,85 97,74 89,56
20 82,52 94,87 87,65 83.02 97,53 88,92 82,27 96,66 88.11 81,80 96,82 87,85

Tableau  6  ­  Résultats  du  classificateur  TDNN  formé  par  l'algorithme  de  gradient  conjugué  mis  à  l'échelle  pour  la  longueur  de  trame  20  ms,  30  ms,  40  ms  et  
50  ms  (670  segments  utilisés  pour  la  formation  et  344  segments  pour  les  tests).

Facteur  d'étalement  Longueur  de  trame  (20  ms) Durée  de  la  trame  (30 ms) Longueur  de  trame  (40ms) Durée  de  la  trame  (50 ms)

SE PS ASC SE PS ASC SE PS ASC SE PS ASC

dix 84,76 94,55 89.04 82,56 97,91 88,72 81,77 96,92 87,82 83,48 96,24 88,81
12 84,91 95,20 89,39 82,33 97,54 88,43 82.10 96,85 88.08 80,74 97.05 87,15
14 82,82 95,15 87,94 82,93 98,28 89.13 82.11 96,57 87,97 84.18 96,78 89,45
16 84.08 94,78 88,55 82.18 97,47 88,31 83,26 96,90 88,90 84,26 96,50 89,42
18   84,98   95,27   89,45   83,65   97,62   89,42   82,36   96,85   88,23   83,61   96,81   89.10  
20 84,74 94,87 89,13 82,21 97,54 88,37 80,98 96,50 87,15 84,55 97,65 90.03

Tableau  7  –  Résultats  du  classificateur  GRNN  pour  la  longueur  de  trame  20  ms,  30  ms,  40  ms  et  50  ms  (670  segments  utilisés  pour  l'apprentissage  et  344  
segments  pour  les  tests).

Facteur  d'étalement  Longueur  de  trame  (20  ms) Durée  de  la  trame  (30 ms) Longueur  de  trame  (40ms) Durée  de  la  trame  (50 ms)

SE PS ASC SE PS ASC SE PS ASC SE PS ASC

0,03 67.33 98,90 75,29 70.12 99.01 78,20 71.31 99.05 79,36 72,46 100,00 80,81
0,04 82,44 99,27 88,66 82,84 98,56 88,95 82,52 99,27 88,95 83,33 99,28 89,53
0,05 85,86 99,31 91,28 85,71 97,96 90,70 86,73 99,32 91,86 85,86 99,31 91,28
0,06 85,43 99,31 90,99 85,71 97,96 90,70 86,29 99,32 91,57 87,56 98,67 92,15
0,07 86,22 98,64 91,28 87.11 98,00 91,86 86,73 99,32 91,86 87,56 98,67 92,15
0,08 86,22 97,97 91,28 87.11 98,00 91,86 87,63 98,67 92,44 88,48 98,68 92,73
0,09 85,35 97,95 90,70 86,15 97,32 90,99 87,63 98,67 92,44 89,95 98,71 93,90
0,10 84,62 95,30 89.24 85,28 97,28 90,41 87.11 98,00 91,86 88,54 98,68 93.02
0,11 83,51 93,33 87,79 83,58 97,20 89.24 86,15 97,32 90,99 87,50 97,37 91,86
0,12 83,33 92.11 87.21 82,59 95,80 88.08 85,71 97,30 90,70 87,37 96.10 91,28

12  neurones  cachés),  88,11  %  (40  ms  et  20  neurones  cachés)  et  89,56  %  (50   Classificateur  TDNN.  D'après  le  tableau  7,  on  observe  que  le  classificateur  
ms  et  18  neurones  cachés)  sont  obtenus  à  l'aide  du  classificateur  MLP.  D'après   GRNN  donne  une  précision  globale  maximale  de  91,28 %  (20  ms,  facteur  
le  tableau  6,  la  meilleure  précision  de  classification  globale  de  89,40 %  (20  ms   d'étalement  de  0,07),  91,86 %  (30  ms,  facteur  d'étalement  de  0,07),  92,44 %  
et  18  neurones  cachés),  89,42 %  (30  ms  et  18  neurones  cachés),  88,90 %  (40   (40  ms,  facteur  d'étalement  de  0,08)  et  93,90  %  (50  ms,  facteur  d'étalement  
ms  et  16  neurones  cachés)  et  90,03 %  (50  ms  et  20  neurones  cachés)  sont   de  0,09).  Dans  tous  les  classificateurs,  il  n'y  a  pas  de  changements  spécifiques  
obtenu  en  utilisant dans  les  précisions  de  classification  en  raison  des  différentes  longueurs  de  trame.
Machine Translated by Google

568 m  éthodes  et  programmes  informatiques  en  biomédecine  1  0  8  ( 2  0  1  2 )  559–569

D'après  les  résultats  des  tableaux  5  et  6,  le  meilleur  nombre  de  neurones   normal  et  pathologique.  Dans  les  travaux  futurs,  la  méthode  suggérée  sera  
cachés  peut  se  situer  entre  10  et  20  pour  obtenir  une  précision  de   utilisée  pour  classer  plus  d'un  signal  de  cri  pathologique  à  partir  du  signal  de  
classification  maximale  à  l'aide  du  classificateur  MLP  et  TDNN.  D'après  les   cri  normal.  Des  techniques  de  réduction  de  fonctionnalités  seront  mises  en  
résultats  du  tableau  7,  le  meilleur  facteur  d'étalement  peut  se  situer  entre  0,06   œuvre  pour  proposer  l'ensemble  de  fonctionnalités  réduit  avec  des  
fonctionnalités  
et  0,10  pour  obtenir  une  précision  de  classification  maximale  à  l'aide  du  classificateur  
GRNN. prédominantes.  La  méthode  proposée  sera  validée  avec  des  
À  partir  de  la  discussion  ci­dessus,  il  a  été  observé  que  les  caractéristiques   échantillons  plus  importants.
statistiques  basées  sur  l'analyse  temps­fréquence  suggérées  peuvent  être  
utilisées  pour  fournir  la  représentation  la  plus  discriminante  des  signaux  de  
cri  normaux  et  sourds.  Dans  cet  article,  vingt  caractéristiques  statistiques   Déclaration  de  conflit  d'intérêts
simples  et  efficaces  sont  dérivées  par  une  analyse  temps­fréquence  basée  
sur  STFT  pour  fournir  une  représentation  robuste  des  signaux  de  pleurs  du   Aucun.
nourrisson.  Dans  le  tableau  1,  certains  des  travaux  significatifs  sont  rapportés  
et  la  précision  de  classification  maximale  de  100 %  a  été  obtenue  [5].  Le  
nombre  de  caractéristiques  utilisées  dans  les  travaux  rapportés  dans  le   Remerciements
tableau  1  est  différent  et  différents  algorithmes  de  classification  et  systèmes  
hybrides  ont  également  été  utilisés  pour  la  classification  des  pleurs  du   La  base  de  données  Baby  Chillanto  est  la  propriété  de  l'Insti  tuto  Nacional  
nourrisson.  Dans  [5],  les  auteurs  ont  proposé  une  approche  évolutionnaire   de  Astrofisica  Optica  y  Electronica  –  CONACYT,  Mexique.  Nous  tenons  à  
utilisant  deux  ensembles  différents  de  bébés  mexicains  et  cubains.  Ils  ont   remercier  le  Dr  Carlos  A.  Reyes­Garcia,  le  Dr  Emilio  Arch­Tirado  et  son  
classé  les  signaux  de  cri  du  nourrisson  soit  en  signaux  de  cri  du  nourrisson   groupe  INR­Mexique,  et  le  Dr  Edgar  M.
normaux,  soit  en  signaux  pathologiques  (bébés  sourds  et  bébés  asphyxiants),   Garcia­Tamayo  pour  leur  dévouement  à  la  collecte  de  la  base  de  données  
mais  les  signaux  pathologiques  n'ont  pas  été  davantage  classés  en  signaux   Infant  Cry.  Les  auteurs  tiennent  à  remercier  le  Dr  Car  los  Alberto  Reyes­
de  cri  d'asphyxie  ou  en  signaux  de  cri  de  surdité.  Ils  ont  utilisé  30   Garcia,  chercheur,  CCC­Inaoep,  Mexique  pour  avoir  fourni  la  base  de  données  
caractéristiques  ou  plus  pour  obtenir  une  précision  de  100  %  pour  la   sur  les  cris  du  nourrisson.  Les  auteurs  remercient  les  relecteurs  anonymes  
reconnaissance  des  signaux  de  cri  du  nourrisson  enregistrés  chez  les  bébés   pour  leurs  précieux  commentaires.
mexicains.  Mais  nous  avons  obtenu  une  précision  de  classification  supérieure  
à  99 %  avec  seulement  vingt  caractéristiques  statistiques  basées  sur  une  
les  références
analyse  de  fréquence  et  un  classificateur  GRNN.  Il  montre  que  les  
fonctionnalités  suggérées  et  le  classificateur  GRNN  fournissent  des  résultats  
plus  proches  des  travaux  antérieurs.  En  utilisant  le  schéma  de  validation  
[1]  DE  Reyes­Galaviz,  A.  Verduzco,  E.  Arch­Tirado,  Californie
indépendant  des  données,  la  précision  de  classification  maximale  de  93 %  
Reyes­García,  Analyse  d'un  système  de  reconnaissance  des  cris  du  
(GRNN),  89 %  (TDNN)  et  89 %  (MLP)  est  obtenue.  Enfin,  le  résultat   nourrisson  pour  l'identification  précoce  des  pathologies,  Nonlinear  
expérimental  indique  la  force  de  la  méthode  suggérée  et  a  le  potentiel  de   Speech  Modeling  and  Applications  3445  (2005)  404–409.
détecter  le  problème  pathologique  d'un  nourrisson  à  partir  de  signaux  de   [2]  JO  Garcia,  CA  Reyes  García,  Détecter  les  pathologies  du  cri  du  nourrisson  en  
pleurs. appliquant  des  réseaux  de  neurones  à  gradient  conjugué  mis  à  
l'échelle,  dans :  Symposium  européen  sur  les  réseaux  de  neurones  
artificiels,  Bruges  (Belgique),  2003,  pp.  349–354.
[3]  JO  Garcia,  CA  Reyes  García,  Analyse  des  caractéristiques  acoustiques  pour  la  
6. conclusion reconnaissance  des  cris  de  bébé  normaux  et  hypoacoustiques  basée  sur  les  
réseaux  de  neurones,  Notes  de  cours  en  informatique,  Méthodes  de  
Cet  article  présente  une  méthode  simple  d'extraction  de  caractéristiques   résolution  de  problèmes  de  réseaux  de  neurones  artificiels  2687  (2003)  615–
basée  sur  l'analyse  temps­fréquence  à  l'aide  de  STFT  pour  l'étude  des   622,  doi :  10.1007/  3­540­44869­1  78.

signaux  de  pleurs  du  nourrisson.  Les  caractéristiques  statistiques  simples   [4]  G.  Várallyay  Jr.,  Z.  Benyó,  A.  Illényi,  Z.  Farkas,  L.  Kovács,  Analyse  acoustique  
du  cri  du  nourrisson :  méthodes  classiques  et  nouvelles,  dans :  Actes  
sont  dérivées  des  tracés  temps­fréquence,  des  tracés  temps­amplitude  
de  la  26e  conférence  internationale  annuelle  de  l'IEEE  EMBS ,  San  Francisco,  
maximale,  des  tracés  fréquence­amplitude  maximale  et  des  tracés  fréquence­
Californie,  États­Unis,  2004,  p.  313–316.
écart­type.  Un  classificateur  GRNN  est  utilisé  pour  classer  les  signaux  de  cri  
en  normaux  ou  pathologiques.  Pour  prouver  la  fiabilité  des  fonctionnalités   [5]  DE  Reyes­Galaviz,  S.  Cano­Ortiz,  C.  Reyes­Garca,
proposées,  deux  modèles  de  réseaux  de  neurones  tels  que  le  Perceptron   Système  neuronal  évolutif  pour  classer  les  unités  de  cris  infantiles  pour  
multicouche  et  le  réseau  de  neurones  à  retard  temporel  entraînés  par  un   l'identification  des  pathologies  chez  les  bébés  récemment  nés,  dans:  
algorithme  de  gradient  conjugué  mis  à  l'échelle  sont  également  utilisés  comme   Actes  de  la  8e  Conférence  internationale  mexicaine  sur  l'intelligence  artificielle,  
MICAI  2009,  Guanajuato,  Mexique,  2009,  pp.  330–335.
classificateurs.  Une  validation  croisée  10  fois  et  un  schéma  de  validation  
indépendant  des  données  sont  effectués,  afin  de  tester  la  généralisabilité  et  
[6]  DE  Reyes­Galaviz,  C.  Reyes­Garcia,  Un  système  pour  la
la  fiabilité  des  classificateurs  GRNN,  MLP  et  TDNN.  La  méthode  suggérée   traitement  du  cri  du  nourrisson  pour  reconnaître  les  pathologies  chez  les  bébés  
fournit  une  précision  de  classification  maximale  de  99 %  (GRNN),  97 %   récemment  nés  avec  des  réseaux  de  neurones,  dans :  Actes  de  la  9e  conférence  
(TDNN)  et  97 %  (MLP)  en  utilisant  un  schéma  de  validation  croisée  de  10 fois.   sur  la  parole  et  l'ordinateur  (SPECOM'2004),  St.
En  utilisant  le  schéma  de  validation  indépendant  des  données,  la  précision   Saint­Pétersbourg,  Russie,  2004.

de  classification  maximale  de  93 %  (GRNN),  88 %  (TDNN)  et  88 %  (MLP)   [7]  D.  Escobedo,  S.  Cano,  E.  Coello,  L.  Regueiferos,  L.  Capdevila,  Rising  shift  of  
pitch  frequency  in  the  infant  cry  pf  some  pathologic  cases,  in:  Actes  de  la  
est  obtenue.  D'après  les  résultats,  on  peut  déduire  que  le  GRNN  donne  une  
2nd  International  Conference  MAVEBA  2001,  Firenze,  Italie,  2001.
plus  grande  précision  par  rapport  au  MLP  et  au  TDNN.  Les  résultats  de  la  
classification  indiquent  que  la  méthode  suggérée  pourrait  être  utilisée  comme   [8]  S.  Cano,  et  al.,  The  spectral  analysis  of  infant  cry:  an  initial  approximation,  dans:  
un  outil  précieux  pour  classer  les  signaux  de  pleurs  du  nourrisson  en Actes  de  l'EUROSPEECH'95  (sponsorisé  par  ESCA  &  IEEE),  Madrid,  
1995.
Machine Translated by Google

m  éthodes  et  programmes  informatiques  en  biomédecine  1  0  8  ( 2  0  1  2 )  559–569 569

[9]  C.  Manfredi,  V.  Tocchioni,  L.  Bocchi,  Un  outil  robuste  pour en  utilisant  un  réseau  neuronal  de  régression  général,  Mathematical  
analyse  des  cris  du  nouveau­né,  dans :  Actes  de  la  28e  Conférence   and  Computer  Modeling  44  (2006)  469–484.
internationale  annuelle  de  l'IEEE  EMBS,  New  York,  États­Unis,  30  août­3   [19]  MT  Leung,  AS  Chen,  H.  Daouk,  Prévision  des  taux  de  change  à  l'aide  d'un  
septembre  2006,  pp.  509­512. réseau  neuronal  de  régression  générale,  Computers  and  Operation  
[10]  G.  Várallyay  Jr.,  La  mélodie  des  pleurs,  International  Journal  of  Pediatric   Research  27  (2000)  1093–1110.
Otorhinolaryngology  71  (11)  (2007)  1699–1708. [20]  M.  Firat,  M.  Gungor,  Réseaux  de  neurones  à  régression  généralisée  et  
[11]  Wasz­Hockert,  et  al.,  The  Infant  Cry:  A  Spectrographic  and  Auditory   réseaux  de  neurones  à  anticipation  pour  la  prédiction  de  la  profondeur  
Analysis,  William  Heinemann  Medical  Books  Ltd.,  1968. d'affouillement  autour  des  piliers  de  pont,  Advances  in  Engineering  
Software  40  (2009)  731–737.
[12]  M.  Petroni,  A.  Malowany,  C.  Johnston,  B.  Stevens, [21]  L.  Rabiner,  B.  Juang,  Principes  fondamentaux  de  la  reconnaissance  
Groupe  international  de  recherche  sur  les  cris  du  nourrisson,   vocale,  Prentice  Hall,  1993.
Identification  de  la  douleur  causée  par  les  cris  du  nourrisson  à  l'aide   [22]  John  L.  Semmlow,  Traitement  des  images  biomédicales  et  
de  réseaux  de  neurones  artificiels  (ANN).  Applications  et  science   biosignaux,  Marcel  Dekker  Inc.,  2004.
des  réseaux  de  neurones  artificiels,  The  International  Society  for   [23]  S.  Kumar,  Réseaux  de  neurones :  une  approche  en  classe,  Tata
Optical  Engineering  2492  (1995)  729–738. McGraw  Hill,  New  Delhi,  2004.
[13]  S.  Cano,  I.  Suaste­Rivas,  D.  Escobedo,  CA  Reyes­Garcia,  T. [24]  DF  Specht,  Un  réseau  neuronal  de  régression  générale,  IEEE  
Ekkel,  Un  classificateur  combiné  d'unités  de  cri  avec  de  nouveaux   Transactions  on  Neural  Networks  2  (6)  (1991)  568–576.
attributs  acoustiques,  Lecture  Notes  in  Computer  Sciences  (LNCS)  4225   [25]  Documentation  Matlab® ,  version  7.0,  version  14,  The  Math­Works,  
(2006)  416–425. Inc.,  2004.
[14]  SE  Barajas­Montiel,  CA  Reyes­García,  Machines  vectorielles  à   [26]  A.  Waibel,  T.  Hanazawa,  G.  Hinton,  K.  Shikano,  KJ  Lang,
support  flou  pour  la  reconnaissance  automatique  des  pleurs  du   Reconnaissance  de  phonèmes  à  l'aide  d'un  réseau  de  neurones  à  retard  
nourrisson  Notes  de  cours  en  sciences  de  contrôle  et  de  l'information   temporel,  IEEE  Transactions  on  Acoustics,  Speech,  and  Signal  Processing  
(LNCIS),  vol.  345,  Springer,  2006,  p.  876–881. 37  (3)  (1989)  328–339.
[15]  Z.  Feng,  F.  Chu,  X.  Song,  Application  du  réseau  neuronal  de  régression   [27]  JB  Hampshire,  AH  Waibel,  Une  nouvelle  fonction  objective  pour  améliorer  
générale  à  la  prédiction  des  tendances  vibratoires  des  machines   la  reconnaissance  des  phonèmes  à  l'aide  du  réseau  de  neurones  à  
tournantes,  Lecture  Notes  in  Computer  Sciences  (LNCS)  3174  (2004)  767– retardement,  IEEE  Transactions  on  Neural  Network  1  (2)  (1990)
772. 216–228.
[16]  B.  Erkmen,  T.  Yildirim,  Amélioration  des  performances  de  classification  des   [28]  OF  Reyes  Galaviz,  CA  Reyes  Garcia,  Infant  Cry
cibles  de  sonar  en  appliquant  un  réseau  neuronal  de  régression   classification  pour  identifier  l'hypoacoustique  et  l'asphyxie  avec  des  
général  avec  PCA,  Expert  Systems  with  Applications  35  (2008)  472– réseaux  de  neurones,  MICAI  2004,  LNAI  2972  (2004)  69–
475. 78.
[17]  O.  Polat,  T.  Yildirim,  Identification  de  la  géométrie  de  la  main  sans   [29]  R.  Kohavi,  A  study  of  cross­validation  and  bootstrap  for
extraction  de  caractéristiques  par  réseau  neuronal  de  régression   estimation  de  la  précision  et  sélection  du  modèle,  dans :  Actes  de  la  14e  
générale,  Expert  Systems  with  Applications  34  (2008)  845–849. Conférence  conjointe  internationale  sur  l'intelligence  artificielle,  
[18]  GJ  Bowden,  JB  Bixon,  GC  Dandy,  HR  Maier,  M.  Holmes, Montréal,  Québec,  Canada,  1995.
Prévision  des  résidus  de  chlore  dans  un  système  de  distribution  d'eau

Vous aimerez peut-être aussi