Vous êtes sur la page 1sur 4

Analyse de signaux sonores par les lois de Zipf et Zipf Inverse

Emmanuel D ELLANDRA1 , Pascal M AKRIS1 , Michelle B OIRON2 , Nicole V INCENT1


1 Laboratoire 2 Laboratoire

dInformatique - Universit de Tours 64 avenue Jean Portalis, 37200 Tours, France

de Physiologie et de Motricit Digestive 2 boulevard Tonnell, 37000 Tours, France dellandrea@univ-tours.fr, makris@univ-tours.fr boiron@med.univ-tours.fr, vincent@univ-tours.fr

Rsum Nous prsentons dans cet article un ensemble de codages de signaux sonores que nous avons dvelopps an dadapter ce type de signaux, lanalyse par les lois de Zipf et Zipf Inverse. Lefcacit de ces lois dcrire les phnomnes physiques nest plus dmontrer, et motiver nos investigations concernant le problme de la caractrisation de signaux sonores. An de valider notre approche, la mthode a t value sur des signaux sonores mdicaux, correspondant des bruits xiphodiens. Abstract We present in this paper a set of audio signal codings that we have developped in order to adapt to this kind of signals, studies by Zipf and Inverse Zipf laws. The efciency of these laws to model numerous physical phenomena has been shown and has motivated our investigations concerning the problem of audio signals characterization. In order to validate our approach, the method has been evaluated on medical audio signals, corresponding to xiphoidal sounds.

1 Introduction
Lidentication et la caractrisation de signaux est un vaste domaine de recherche du fait des nombreuses difcults rencontres, ainsi que du nombre trs important des applications possibles (indexage multimdia, diagnostique mdical, analyse de la parole, ...). Ainsi les ordinateurs sont dune grande aide pour les humains, leur permettant danalyser des signaux de plus en plus nombreux dans des domaines varis. Cependant, si la tche est ralise naturellement par les humains dune manire apparemment aise, il est ncessaire de dterminer une mthodologie implicite an de dvelopper des systmes didentication automatique. La classication de signaux sonores (ASC pour Audio Signal Classication) [1] est une branche spcique, destine lanalyse de signaux sonores. Gnralement, le principe dun ASC est dextraire des primitives partir des signaux sonores et ensuite didentier les classes en fonction de la plus grande probabilit dappartenance. Diffrents types de primitives peuvent tre envisags [1], en particulier des primitives de type physique et de type perceptuel. Les premires sons bases sur les proprits statistiques et mathmatiques des signaux, alors que les deuximes sont lies la manire dont les humains entendent les signaux. Lorsque les primitives ont t extraites, elles sont assembles dans un vecteur de primitives. Une mthode de classication est alors utilise an de determiner la classe laquelle le vecteur a la plus grande probabilit dappartenir. Nous prsentons dans cet article de nouvelles primitives permettant la quantication de la structure des signaux grce aux lois de Zipf et Zipf Inverse [2]. Lefcacit de ces lois dcrire les phnomnes physiques nest plus dmontrer. Cependant, la nature de la structure mise en vidence est lie au choix dun

codage du signal. Dans la premire partie de cet article, nous prsentons les lois de Zipf et Zipf Inverse. Les codages permettant ladaptation de ces lois aux signaux sonores seront ensuite dcrits. Les primitives issues de lanalyse des signaux par les lois de Zipf et Zipf Inverse, ainsi que les mthodes de classication utilises seront dcrites dans une troisime partie. Enn, une dernire partie sera consacre lapplication de nos codages des signaux mdicaux, an de valider notre mthodologie.

Les lois de Zipf


G. K. Zipf proposa dans [3] une loi empirique connue sous le nom de loi de Zipf, qui a t observe dans de nombreux dun vnedomaines. Cette loi nonce que la frquence ment et son rang par rapport sa frquence dapparition (du plus frquent au moins frquent) sont lis par une loi de puissance : o et sont des constantes relles. Lapplication la plus clbre de la loi de Zipf est la linguistique statistique. En effet, il a t montr [3] que cette loi est valide dans le cas de textes crits en langage naturel, tant proche de . Cette rgularit a ensuite t observe pour de trs nombreux phnomnes dans divers domaines. Citons par exemple la distribution de la population des villes [3, 4], la distribution du revenu des employs, la distribution de la taille des entreprises aux Etats-Unis [5] ainsi que les squences dADN [6]. Grce la loi de Zipf, une caractrisation de certains phnomnes peut tre ralise par ltude des paramtres lis cette loi. Il est ainsi possible, par exemple, de distinguer les diffrents auteurs de textes [7]. Un autre comportement observ pour les textes crits en lan-

 

  

gage naturel a t modlis par une loi, appele loi de Zipf Inverse. Elle sintresse la distribution de la frquence des mots dun texte. Zipf a dcouvert une loi de puissance qui est vrie uniquement pour les mots de faible frquence : le nombre de mots distincts de frquence dapparition et la frquence sont lis par la relation : o et sont des constantes relles. Les perspectives trs intressantes offertes par les lois de Zipf nous ont amen valuer leur pertinence et leur efcacit pour le problme de classication de signaux sonores. Ainsi, nous avons choisi dutiliser une analogie entre les signaux sonores et les textes, considrs comme des squences ordonnes de motifs. La premire tape du processus est donc le codage des signaux sonores an de les transformer en textes. Les lois de Zipf pourront alors tre utilises pour lanalyse de ces signaux valeurs discrtes.

est un paramtre qui doit tre x et qui dpend de la longueur de la fentre dobservation utiliser. Lintrt du codage TC1 est que chaque lettre correspond la forme locale de lenveloppe du signal temporel. Ainsi, les mots reprsentent les variations damplitude du signal. 3.1.2 Le codage TC2 : codage damplitude adaptatif Lobjectif du codage TC2 est dutiliser linformation relative lamplitude du signal sonore. La notion de grande ou petite amplitude est bien sr lie au signal tudier car pouvant dpendre notamment des conditions dacquisition du signal. Une mthode de dnition adaptative de limportance des signaux est donc utilise. Pour cela, le signal doit tre lu entirement avant le dbut du processus de codage. Le principe du codage TC2 est de considrer la valeur damplitude des chantillons sonores du signal. An de rduire la dimension des donnes, ces valeurs doivent tre discrtises selon valeurs. Ainsi, partir de ces donnes initiales, une classication par lalgorithme des K-mean [8] est ralise, permettant dobtenir classes. Chacune delles correspond un intervalle damplitude. Ce processus de classication permet de sassurer que le code nest pas absolu mais plus sensible aux variations internes des signaux. Une lettre de lalphabet est ensuite associe chaque classe. A partir du signal sonore, une squence de lettres est obtenue, celles-ci correspondant la classe de chaque chantillon. Enn, les lettres sont regroupes an de construire un texte constitu de mots de longueur .

3.1 Codages temporels


Les codages temporels des signaux sonores exploitent linformation apporte par lvolution temporelle de lamplitude des signaux. Deux codages TC (Temporal coding) ont t dvelopps : les codages TC1 et TC2. 3.1.1 Le codage TC1 : codage dvolution Comme pour tous les codages proposs, le principe du codage TC1 est de permettre la construction dune squence de motifs base sur le codage du signal sonore dorigine. Ici, les motifs sont eux-mmes des squences de trois caractres. Ces derniers, pour chaque chantillon sonore, peuvent prendre trois valeurs : la lettre U (Up), F (Flat) et D (Down), qui remplacent les valeurs du signal. La lettre U est utilise lorsque la diffrence damplitude entre deux chantillons successifs du signal est positive. Si cette diffrence est proche de , la lettre F est utilise, et sinon la lettre D est utilise. Ainsi, un motif reprsente lvolution temporelle locale sur quatre chantillons du signal. Le motif suivant est obtenu en translatant dun chantillon vers la droite, la fentre danalyse de taille chantillons. Une squence de motifs est nalement construite partir du signal sonore. Il y a possibilits diffrentes de motifs lorsquils sont de taille . Chacun deux est associ une lettre de lalphabet. Le nombre de lettres ncessaires est gal au cardinal de lensemble des motifs. A ce stade, une squence de lettres est obtenue, ces dernires prenant en compte une information de variation damplitude trs locale. An dadapter la longueur de la fentre dobservation des chelles plus larges, les lettres sont regroupes an de crer des mots de longueur qui vont constituer un texte.

3.2 Codages temps-frquence


Dans cette section, deux codages bass sur la reprsentation temps-chelle des signaux sonores sont prsents, permettant de prendre en compte simultanment linformation temporelle et frquentielle. 3.2.1 Codage TSC1 : transforme en ondelettes continue Le codage TSC1 (Time Scale Coding) repose sur une reprsentation temps-chelle des signaux sonores, obtenus grce la transforme en ondelettes continue [9]. Le rsultat de cette transforme correspond aux coefcients dondelettes qui sont fonction de lchelle lie la frquence, et de la position . Les positions correspondent lindice des chantillons du signal, et les valeurs dchelle doivent tre xes. La transforme en ondelettes continue des signaux sonores est ralise en utilisant diffrentes valeurs dchelle. Ainsi, chaque position est associe un ensemble de coefcients appel prol et organis dans le vecteur suivant : o dsigne la transpose de la matrice et est le coefcient dondelette calcul la position . Lobjectif, ce stade o la nature de linformation considrer chaque instant a t choisie, est de crer un code en utilisant un nombre limit de symboles qui seront regroups an de former de courtes squences signicatives correspondant des "mots". Ainsi, les prols calculs chaque instant sont constitus de coefcients numriques tels que les premiers soient

G c a b fe a eg`d`b T U U U P S T Y Y ` S  P PX S WVWVT P) S 1P &RQI G

P QI

Un signal sonore contient au moins deux types dinformations : une information temporelle et une information frquentielle. Ainsi, deux types de codages vont tre prsents, permettant dexploiter linformation pertinente contenue dans les signaux. Le premier type repose sur la reprsentation temporelle des signaux sonores et le second repose sur leur reprsentation temps-frquence.

3 Codage des signaux sonores

) 0

3  )   4210('%&

7 8 97 B@ CA

%$

"

lis aux hautes frquences du signal alors que les suivants soient lis aux frquences plus basses. Cette varit de linformation doit tre prserve dans le codage, et les mots vont donc reprsenter cette unit dobservation. An de permettre ltude de lvolution des paramtres dans le temps, chaque valeur de coefcient est compare la valeur moyenne des coefcients correspondants calcule sur lensemble du signal. Seule une information binaire est alors conserve, relative limportance du coefcient considr par rapport la valeur moyenne. Cette information est contenue dans une reprsentation binaire de coefcients. Nanmoins, an dobtenir un codage plus compact, ces coefcients sont regroups de manire former une squence de longueur interprte comme le code dun nombre exprim dans une base binaire. Un symbole explicite est ainsi dni parmi symboles possibles. Les diffrentes tapes de ce processus sont exprimes par les formules suivantes. Soit le vecteur gal la valeur moyenne des vecteurs : o est gal au nombre dchantillons considrs. Pour chaque position , un prol binaire est ensuite calcul avec :

Les coefcients sont ensuite regroups en ensembles de coefcients tels que et soient des entiers strictement positifs et . Le vecteur est nalement calcul : avec :

Les entiers sont interprts comme lindex de caractres dun alphabet contenant caractres. Ainsi, chaque vecteur , et donc chaque position , est cod par un mot de longueur lettres, slectionn dans un ensemble de mots de cardinal . A partir de lensemble de prols constitus des coefcients de la transforme en ondelettes continue du signal, un texte compos dune squence ordonne de mots est donc obtenu. 3.2.2 Le codage TSC2 : multirsolution par ondelettes Le codage TSC2 (Time Scale Coding) est bas sur une analyse multirsolution par ondelettes des signaux sonores [9] permettant de dcomposer un signal dorigine en un ensemble de signaux dapproximation comportant les informations basses frquences du signal, et de signaux de dtail comportant les informations hautes frquences. Puisque les signaux auxquels nous nous intressons ont un comportement non stationnaire avec de fortes discontinuits, notre tude porte sur les signaux de dtail permettant de mettre en vidence ces informations. Ainsi, partir de la reprsentation du signal obtenue par une sont calanalyse multirsolution par ondelettes, des prols culs, tout comme dans le cas du codage TSC1. Ces prols sont obtenus en considrant signaux de dtail de niveaux successifs. Pour chaque position , les prols sont donc constitus de coefcients numriques correspondant aux valeurs des signaux de dtail la position .

Y T U U U T  ` P VWWVT P) yP &(P

f @

P I

g j T !i h

! H T c

si sinon

P QI

P QI

f ed b Qf &v  G P

q p Y TUUU ) v X S WWVWT uS T  S R P I  tpr  I  s I

b S gb S P

P @ P  sb   b @ f P H P  i  i bG P ! 6  b G P G G G Y TUUU T G ` PX uVWWT P) yP x P w

f@

Un texte est ensuite obtenu de la mme manire que pour le codage TSC1. Cette phase de codage peut tre considre comme la transformation dun signal dans un nouvel espace de reprsentation, et dans chaque cas, est obtenue une squence de mots construits sur un alphabet relativement petit. Chaque codage a pour rle de mettre en valeur diffrentes caractristiques du signal sonore. Nanmoins la quantit de donnes est toujours importante et un nombre limit de primitives doit tre extrait an de permettre la classication des signaux.

Extraction des primitives et classication

(1)

(2)

Comme indiqu dans la section 2, la loi de Zipf implique le nombre doccurrences dun vnement et permet de modliser la relation entre le nombre doccurrences de ces vnements et leur rang relatif leur frquence dapparition (du plus frquent au moins frquent). Cette relation sexprime sous la forme dune loi de puissance qui, lorsquelle est reprsente dans un espace logarithmique (appel courbe de Zipf) devient linaire. La forme de cette courbe est lie la structure du texte correspondant. An de ltudier, la loi de Zipf ntant pas toujours parfaitement vrie, la fonction correspondante est approxime par un polynme dont les coefcients feront partie de lensemble des primitives associes lensemble Zipf. La loi de Zipf Inverse correspond ltude de la distribution de la frquence des mots dun texte. Cette loi tant galement une loi de puissance, elle est reprsente dans un espace logarithmique, la courbe correspondante tant appele courbe de Zipf Inverse. Seules les frquences les plus faibles sont considres (par exemple les 10 plus faibles). Il apparat dans les cas tudis que cette courbe est gnralement correctement approxime par une droite. Une seule valeur est donc retenue an de caractriser la courbe de Zipf Inverse : le coefcient directeur de la droite de rgression linaire. Enn, les paramtres suivants sont calculs : les entropies lies aux lois de Zipf et Zipf Inverse, laire sous les courbes de Zipf et de Zipf rchantillonne, le nombre de mots distincts, le nombre total de mots, le nombre de mots dont la frquence dapparition est de , le nombre total doccurrences diffrentes et la frquence la plus leve. Ces primitives vont ensuite tre assembles dans un vecteur entit qui caractrisera chaque signal sonore. Ltape suivante correspond la classication des signaux an de dterminer les classes auxquelles les signaux ont la plus grande probabilit dappartenir. Nous avons considr quatre mthodes de classication supervises : lanalyse disciminante (AD), un rseau de neurones (RN) de type perceptron une couche cache, un algorithme Kmean (Kmean) et une distance aux classes utilisant la distance de Mahalanobis (Mahal). De plus, an de combiner les rsutats de ces mthodes, un mthode de fusion des classieurs base sur lutilisation des matrices de confusion [10] a t applique.

5 Application lanalyse de signaux mdicaux


An dtudier lefcacit des codages dvelopps, et la pertinence des primitives extraites, nous avons appliqu notre mthode ltude de signaux mdicaux. Ces signaux sont des signaux de dglutition enregistrs par un microphone plac prs de lappendice xiphode du patient, lors du passage dun bolus travers lsophage et le sphincter infrieur de lsophage (SIO). Notre objectif est dtudier les bruits xiphodiens produits par le SIO dont le dysfonctionnement est responsable du phnomne de reux gastro-sophagien. Diffrents ensembles de classes lis aux caractristiques de la pathologie, ont t considrs. Lensemble ba est compos de deux classes : les patients avant et aprs opration. Lensemble hiat1 est compos de la classe des patients souffrant dune hernie hiatale et de celle des patients nen souffrant pas. Lensemble hiat2 est compos de la classe des patients souffrant dune hernie hiatale avec une faible pression du SIO, et de celle des patients nen souffrant pas. Enn, lensemble oo est compos de la classe des patients ayant une faible ouverture sophagienne, et de celle des patients en ayant une forte. 111 signaux ont t traits. Ils ont t enregistrs partir de 11 patients souffrant de reux gastro-sophagien. Pour chacun deux, les signaux ont t enregistrs avant et aprs opration. des signaux ont t utiliss pour lapprentissage, et pour lensemble de test. Les rsultats obtenus pour la classication des bruits xiphodiens de lensemble de test sont donns TAB. 1, 2, 3, 4 respectivement pour les codages TC1, TC2, TSC1 et TSC2. Les taux de reconnaissance obtenus par AD, RN, Kmean, et Mahal ainsi que la fusion de ces classieurs sont indiqus pour les quatre ensembles de classes.
Ensemble ba hiat1 hiat2 oo AD 80.00 80.00 70.00 92.86 RN 83.33 90.00 60.00 92.86 Kmean 73.33 80.00 60.00 50.00 Mahal 73.33 60.00 30.00 57.14 Fusion 90.00 90.00 80.00 92.86 Max 90.00 90.00 80.00 92.86

Ensemble ba hiat1 hiat2 oo

AD 53.13 81.82 72.73 71.43

RN 43.75 72.73 63.64 57.14

Kmean 68.75 63.64 63.64 50.00

Mahal 43.75 72.73 45.45 57.14

Fusion 68.75 90.91 63.64 57.14

Max 68.75 90.91 72.73 71.43

TAB . 1: Rsultat de la classication pour le codage TC1.


Ensemble ba hiat1 hiat2 oo AD 78.13 81.82 54.55 85.71 RN 75.00 81.82 63.64 64.29 Kmean 56.25 72.73 54.55 71.43 Mahal 65.63 63.64 45.45 57.14 Fusion 75.00 90.91 72.73 85.71 Max 78.13 90.91 72.73 85.71

TAB . 2: Rsultat de la classication pour le codage TC2.


Ensemble ba hiat1 hiat2 oo AD 84.38 54.55 63.64 64.29 RN 62.50 72.73 72.73 64.29 Kmean 65.63 63.64 63.64 57.14 Mahal 56.25 63.64 27.27 57.14 Fusion 81.25 72.73 81.82 64.29 Max 84.38 72.73 81.82 64.29

TAB . 3: Rsultat de la classication pour le codage TSC1. Les rsultats montrent que pour les diffrents ensembles de classes, un bon taux de reconnaissance est gnralement obtenu. En effet, le taux maximum est de 90,00 % pour lensemble ba avec le codage TC1, de 90,91% pour hiat1 avec TC2

7 ! l

TAB . 4: Rsultat de la classication pour le codage TSC2. et TSC2, de 81,82% pour hiat2 avec TSC1 et de 92,86% pour oo avec TC1. Ces rsultats indiquent que les codages sont complmentaires, dpendant de linformation considrer. La bonne classication des bruits xiphodiens prouvent que dune part, linformation sur la pathologie obtenue partir des donnes mdicales peut tre extraite des signaux sonores, et que dautre part les primitives de Zipf sont bien adaptes ces signaux.

Conclusion

Nous avons prsent dans cet article de nouvelles primitives permettant la caractrisation de signaux sonores. Elles reposent sur lapplication des lois de Zipf et Zipf Inverse, grce au codage des signaux sonores permettant de les transformer en textes. An de valider notre approche, nous avons analys des signaux mdicaux pour lesquels des mthodes classiques ne nous ont pas permis dobtenir des rsultats satisfaisants. Les rsultats obtenus par notre mthode montrent que les codages sont complmentaires, et particulirement bien adapts la nature de ces signaux, permettant de les classer avec succs en des classes lies la pathologie des patients.

l @

Rfrences
[1] D. GERHARD, Audio signal classication: an overview, Canadian Articial Intelligence, vol. 45, pp. 46, 2000. [2] A. COHEN, R. N. MANTEGNA, and S. HAVLIN, Numerical analysis of word frequencies in articial and natural language texts, Fractals, vol. 5, no. 1, pp. 95104, 1997. [3] G. K. Zipf, Human Behavior and the Principle of Least Effort, Addison-Wesley Press, 1949. [4] M. MARSILI and Y.-C. ZHANG, Interacting individuals leading to zipf law, PHYSICAL REVIEW LETTERS, vol. 80, no. 12, pp. 27412744, July 1998. [5] R. L. AXTELL, Zipf distribution of u.s. rm size, SCIENCE, vol. 293, pp. 18181820, September 2001. [6] C.K. PENG and AL, Statistical properties of dna sequences, Physica A 221, pp. 180192, 1995. [7] S. HAVLIN, The distance between zipf plots, Physica A216, pp. 148150, 1995. [8] JOHN A. HARTIGAN, Clustering algorithms, John Wiley & Sons, Inc, 1975. [9] G. STRANG and T. NGUYEN, Wavelets and Filter Banks, Wellesley-Cambridge Press, 1997. [10] C. Y. SUEN L. XU, A. KRYZAK, Methods of combining multiple classiers and their application to handwriting recognition, IEEE Transactions on Systems, Man, and Cybernetics, vol. 22, no. 3, pp. 418435, June 1992.

Vous aimerez peut-être aussi