Académique Documents
Professionnel Documents
Culture Documents
de Physiologie et de Motricit Digestive 2 boulevard Tonnell, 37000 Tours, France dellandrea@univ-tours.fr, makris@univ-tours.fr boiron@med.univ-tours.fr, vincent@univ-tours.fr
Rsum Nous prsentons dans cet article un ensemble de codages de signaux sonores que nous avons dvelopps an dadapter ce type de signaux, lanalyse par les lois de Zipf et Zipf Inverse. Lefcacit de ces lois dcrire les phnomnes physiques nest plus dmontrer, et motiver nos investigations concernant le problme de la caractrisation de signaux sonores. An de valider notre approche, la mthode a t value sur des signaux sonores mdicaux, correspondant des bruits xiphodiens. Abstract We present in this paper a set of audio signal codings that we have developped in order to adapt to this kind of signals, studies by Zipf and Inverse Zipf laws. The efciency of these laws to model numerous physical phenomena has been shown and has motivated our investigations concerning the problem of audio signals characterization. In order to validate our approach, the method has been evaluated on medical audio signals, corresponding to xiphoidal sounds.
1 Introduction
Lidentication et la caractrisation de signaux est un vaste domaine de recherche du fait des nombreuses difcults rencontres, ainsi que du nombre trs important des applications possibles (indexage multimdia, diagnostique mdical, analyse de la parole, ...). Ainsi les ordinateurs sont dune grande aide pour les humains, leur permettant danalyser des signaux de plus en plus nombreux dans des domaines varis. Cependant, si la tche est ralise naturellement par les humains dune manire apparemment aise, il est ncessaire de dterminer une mthodologie implicite an de dvelopper des systmes didentication automatique. La classication de signaux sonores (ASC pour Audio Signal Classication) [1] est une branche spcique, destine lanalyse de signaux sonores. Gnralement, le principe dun ASC est dextraire des primitives partir des signaux sonores et ensuite didentier les classes en fonction de la plus grande probabilit dappartenance. Diffrents types de primitives peuvent tre envisags [1], en particulier des primitives de type physique et de type perceptuel. Les premires sons bases sur les proprits statistiques et mathmatiques des signaux, alors que les deuximes sont lies la manire dont les humains entendent les signaux. Lorsque les primitives ont t extraites, elles sont assembles dans un vecteur de primitives. Une mthode de classication est alors utilise an de determiner la classe laquelle le vecteur a la plus grande probabilit dappartenir. Nous prsentons dans cet article de nouvelles primitives permettant la quantication de la structure des signaux grce aux lois de Zipf et Zipf Inverse [2]. Lefcacit de ces lois dcrire les phnomnes physiques nest plus dmontrer. Cependant, la nature de la structure mise en vidence est lie au choix dun
codage du signal. Dans la premire partie de cet article, nous prsentons les lois de Zipf et Zipf Inverse. Les codages permettant ladaptation de ces lois aux signaux sonores seront ensuite dcrits. Les primitives issues de lanalyse des signaux par les lois de Zipf et Zipf Inverse, ainsi que les mthodes de classication utilises seront dcrites dans une troisime partie. Enn, une dernire partie sera consacre lapplication de nos codages des signaux mdicaux, an de valider notre mthodologie.
G. K. Zipf proposa dans [3] une loi empirique connue sous le nom de loi de Zipf, qui a t observe dans de nombreux dun vnedomaines. Cette loi nonce que la frquence ment et son rang par rapport sa frquence dapparition (du plus frquent au moins frquent) sont lis par une loi de puissance : o et sont des constantes relles. Lapplication la plus clbre de la loi de Zipf est la linguistique statistique. En effet, il a t montr [3] que cette loi est valide dans le cas de textes crits en langage naturel, tant proche de . Cette rgularit a ensuite t observe pour de trs nombreux phnomnes dans divers domaines. Citons par exemple la distribution de la population des villes [3, 4], la distribution du revenu des employs, la distribution de la taille des entreprises aux Etats-Unis [5] ainsi que les squences dADN [6]. Grce la loi de Zipf, une caractrisation de certains phnomnes peut tre ralise par ltude des paramtres lis cette loi. Il est ainsi possible, par exemple, de distinguer les diffrents auteurs de textes [7]. Un autre comportement observ pour les textes crits en lan-
gage naturel a t modlis par une loi, appele loi de Zipf Inverse. Elle sintresse la distribution de la frquence des mots dun texte. Zipf a dcouvert une loi de puissance qui est vrie uniquement pour les mots de faible frquence : le nombre de mots distincts de frquence dapparition et la frquence sont lis par la relation : o et sont des constantes relles. Les perspectives trs intressantes offertes par les lois de Zipf nous ont amen valuer leur pertinence et leur efcacit pour le problme de classication de signaux sonores. Ainsi, nous avons choisi dutiliser une analogie entre les signaux sonores et les textes, considrs comme des squences ordonnes de motifs. La premire tape du processus est donc le codage des signaux sonores an de les transformer en textes. Les lois de Zipf pourront alors tre utilises pour lanalyse de ces signaux valeurs discrtes.
est un paramtre qui doit tre x et qui dpend de la longueur de la fentre dobservation utiliser. Lintrt du codage TC1 est que chaque lettre correspond la forme locale de lenveloppe du signal temporel. Ainsi, les mots reprsentent les variations damplitude du signal. 3.1.2 Le codage TC2 : codage damplitude adaptatif Lobjectif du codage TC2 est dutiliser linformation relative lamplitude du signal sonore. La notion de grande ou petite amplitude est bien sr lie au signal tudier car pouvant dpendre notamment des conditions dacquisition du signal. Une mthode de dnition adaptative de limportance des signaux est donc utilise. Pour cela, le signal doit tre lu entirement avant le dbut du processus de codage. Le principe du codage TC2 est de considrer la valeur damplitude des chantillons sonores du signal. An de rduire la dimension des donnes, ces valeurs doivent tre discrtises selon valeurs. Ainsi, partir de ces donnes initiales, une classication par lalgorithme des K-mean [8] est ralise, permettant dobtenir classes. Chacune delles correspond un intervalle damplitude. Ce processus de classication permet de sassurer que le code nest pas absolu mais plus sensible aux variations internes des signaux. Une lettre de lalphabet est ensuite associe chaque classe. A partir du signal sonore, une squence de lettres est obtenue, celles-ci correspondant la classe de chaque chantillon. Enn, les lettres sont regroupes an de construire un texte constitu de mots de longueur .
P QI
Un signal sonore contient au moins deux types dinformations : une information temporelle et une information frquentielle. Ainsi, deux types de codages vont tre prsents, permettant dexploiter linformation pertinente contenue dans les signaux. Le premier type repose sur la reprsentation temporelle des signaux sonores et le second repose sur leur reprsentation temps-frquence.
) 0
3 ) 4210('%&
7 8 97 B@ CA
%$
"
lis aux hautes frquences du signal alors que les suivants soient lis aux frquences plus basses. Cette varit de linformation doit tre prserve dans le codage, et les mots vont donc reprsenter cette unit dobservation. An de permettre ltude de lvolution des paramtres dans le temps, chaque valeur de coefcient est compare la valeur moyenne des coefcients correspondants calcule sur lensemble du signal. Seule une information binaire est alors conserve, relative limportance du coefcient considr par rapport la valeur moyenne. Cette information est contenue dans une reprsentation binaire de coefcients. Nanmoins, an dobtenir un codage plus compact, ces coefcients sont regroups de manire former une squence de longueur interprte comme le code dun nombre exprim dans une base binaire. Un symbole explicite est ainsi dni parmi symboles possibles. Les diffrentes tapes de ce processus sont exprimes par les formules suivantes. Soit le vecteur gal la valeur moyenne des vecteurs : o est gal au nombre dchantillons considrs. Pour chaque position , un prol binaire est ensuite calcul avec :
Les coefcients sont ensuite regroups en ensembles de coefcients tels que et soient des entiers strictement positifs et . Le vecteur est nalement calcul : avec :
Les entiers sont interprts comme lindex de caractres dun alphabet contenant caractres. Ainsi, chaque vecteur , et donc chaque position , est cod par un mot de longueur lettres, slectionn dans un ensemble de mots de cardinal . A partir de lensemble de prols constitus des coefcients de la transforme en ondelettes continue du signal, un texte compos dune squence ordonne de mots est donc obtenu. 3.2.2 Le codage TSC2 : multirsolution par ondelettes Le codage TSC2 (Time Scale Coding) est bas sur une analyse multirsolution par ondelettes des signaux sonores [9] permettant de dcomposer un signal dorigine en un ensemble de signaux dapproximation comportant les informations basses frquences du signal, et de signaux de dtail comportant les informations hautes frquences. Puisque les signaux auxquels nous nous intressons ont un comportement non stationnaire avec de fortes discontinuits, notre tude porte sur les signaux de dtail permettant de mettre en vidence ces informations. Ainsi, partir de la reprsentation du signal obtenue par une sont calanalyse multirsolution par ondelettes, des prols culs, tout comme dans le cas du codage TSC1. Ces prols sont obtenus en considrant signaux de dtail de niveaux successifs. Pour chaque position , les prols sont donc constitus de coefcients numriques correspondant aux valeurs des signaux de dtail la position .
f @
P I
g j T !i h
! H T c
si sinon
P QI
P QI
f ed b Qf &v G P
b S gb S P
f@
Un texte est ensuite obtenu de la mme manire que pour le codage TSC1. Cette phase de codage peut tre considre comme la transformation dun signal dans un nouvel espace de reprsentation, et dans chaque cas, est obtenue une squence de mots construits sur un alphabet relativement petit. Chaque codage a pour rle de mettre en valeur diffrentes caractristiques du signal sonore. Nanmoins la quantit de donnes est toujours importante et un nombre limit de primitives doit tre extrait an de permettre la classication des signaux.
(1)
(2)
Comme indiqu dans la section 2, la loi de Zipf implique le nombre doccurrences dun vnement et permet de modliser la relation entre le nombre doccurrences de ces vnements et leur rang relatif leur frquence dapparition (du plus frquent au moins frquent). Cette relation sexprime sous la forme dune loi de puissance qui, lorsquelle est reprsente dans un espace logarithmique (appel courbe de Zipf) devient linaire. La forme de cette courbe est lie la structure du texte correspondant. An de ltudier, la loi de Zipf ntant pas toujours parfaitement vrie, la fonction correspondante est approxime par un polynme dont les coefcients feront partie de lensemble des primitives associes lensemble Zipf. La loi de Zipf Inverse correspond ltude de la distribution de la frquence des mots dun texte. Cette loi tant galement une loi de puissance, elle est reprsente dans un espace logarithmique, la courbe correspondante tant appele courbe de Zipf Inverse. Seules les frquences les plus faibles sont considres (par exemple les 10 plus faibles). Il apparat dans les cas tudis que cette courbe est gnralement correctement approxime par une droite. Une seule valeur est donc retenue an de caractriser la courbe de Zipf Inverse : le coefcient directeur de la droite de rgression linaire. Enn, les paramtres suivants sont calculs : les entropies lies aux lois de Zipf et Zipf Inverse, laire sous les courbes de Zipf et de Zipf rchantillonne, le nombre de mots distincts, le nombre total de mots, le nombre de mots dont la frquence dapparition est de , le nombre total doccurrences diffrentes et la frquence la plus leve. Ces primitives vont ensuite tre assembles dans un vecteur entit qui caractrisera chaque signal sonore. Ltape suivante correspond la classication des signaux an de dterminer les classes auxquelles les signaux ont la plus grande probabilit dappartenir. Nous avons considr quatre mthodes de classication supervises : lanalyse disciminante (AD), un rseau de neurones (RN) de type perceptron une couche cache, un algorithme Kmean (Kmean) et une distance aux classes utilisant la distance de Mahalanobis (Mahal). De plus, an de combiner les rsutats de ces mthodes, un mthode de fusion des classieurs base sur lutilisation des matrices de confusion [10] a t applique.
TAB . 3: Rsultat de la classication pour le codage TSC1. Les rsultats montrent que pour les diffrents ensembles de classes, un bon taux de reconnaissance est gnralement obtenu. En effet, le taux maximum est de 90,00 % pour lensemble ba avec le codage TC1, de 90,91% pour hiat1 avec TC2
7 ! l
TAB . 4: Rsultat de la classication pour le codage TSC2. et TSC2, de 81,82% pour hiat2 avec TSC1 et de 92,86% pour oo avec TC1. Ces rsultats indiquent que les codages sont complmentaires, dpendant de linformation considrer. La bonne classication des bruits xiphodiens prouvent que dune part, linformation sur la pathologie obtenue partir des donnes mdicales peut tre extraite des signaux sonores, et que dautre part les primitives de Zipf sont bien adaptes ces signaux.
Conclusion
Nous avons prsent dans cet article de nouvelles primitives permettant la caractrisation de signaux sonores. Elles reposent sur lapplication des lois de Zipf et Zipf Inverse, grce au codage des signaux sonores permettant de les transformer en textes. An de valider notre approche, nous avons analys des signaux mdicaux pour lesquels des mthodes classiques ne nous ont pas permis dobtenir des rsultats satisfaisants. Les rsultats obtenus par notre mthode montrent que les codages sont complmentaires, et particulirement bien adapts la nature de ces signaux, permettant de les classer avec succs en des classes lies la pathologie des patients.
l @
Rfrences
[1] D. GERHARD, Audio signal classication: an overview, Canadian Articial Intelligence, vol. 45, pp. 46, 2000. [2] A. COHEN, R. N. MANTEGNA, and S. HAVLIN, Numerical analysis of word frequencies in articial and natural language texts, Fractals, vol. 5, no. 1, pp. 95104, 1997. [3] G. K. Zipf, Human Behavior and the Principle of Least Effort, Addison-Wesley Press, 1949. [4] M. MARSILI and Y.-C. ZHANG, Interacting individuals leading to zipf law, PHYSICAL REVIEW LETTERS, vol. 80, no. 12, pp. 27412744, July 1998. [5] R. L. AXTELL, Zipf distribution of u.s. rm size, SCIENCE, vol. 293, pp. 18181820, September 2001. [6] C.K. PENG and AL, Statistical properties of dna sequences, Physica A 221, pp. 180192, 1995. [7] S. HAVLIN, The distance between zipf plots, Physica A216, pp. 148150, 1995. [8] JOHN A. HARTIGAN, Clustering algorithms, John Wiley & Sons, Inc, 1975. [9] G. STRANG and T. NGUYEN, Wavelets and Filter Banks, Wellesley-Cambridge Press, 1997. [10] C. Y. SUEN L. XU, A. KRYZAK, Methods of combining multiple classiers and their application to handwriting recognition, IEEE Transactions on Systems, Man, and Cybernetics, vol. 22, no. 3, pp. 418435, June 1992.