Académique Documents
Professionnel Documents
Culture Documents
electroacoustiques
Sebastien Gulluni
EDITE - ED 130
Doctorat ParisTech
THSE
pour obtenir le grade de docteur dlivr par
TELECOM ParisTech
Spcialit Signal et Images
Sbastien GULLUNI
le 20 Dcembre 2011
musiques lectroacoustiques
Jury
Mme Myriam DESAINTE CATHERINE Rapporteur
Mme Anne SDES Rapporteur
M. Michel CRUCIANU Examinateur
M. Pierre COUPRIE Examinateur
M. Olivier BUISSON Encadrant industriel
M. Slim ESSID Encadrant acadmique
TELECOM ParisTech
cole de lInstitut Tlcom - membre de ParisTech
2
3
Remerciements
Je tiens remercier tout dabord mon directeur de thse Gal Richard pour avoir cru
en lintrt de ce travail qui repose en grande partie sur une application trs spcifique
ainsi que pour tous les conseils apports pendant ces annes de thse.
Je remercie galement Olivier Buisson et Slim Essid pour le solide encadrement scien-
tifique quils mont apport tout au long de cette thse ainsi que pour leur grande dispo-
nibilit.
Mes remerciements vont galement Emmanuel Favreau pour son encadrement la
fois scientifique et applicatif qui fut trs utile pour me permettre de garder en tte les
contraintes dutilisation du systme. Merci galement Marie-Luce Viaud pour avoir suivi
de prs le droulement de la thse ainsi que pour son esprit critique.
Je tiens galement remercier Pierre Couprie, Franois Delalande et Cyrille Delhaye
davoir accept de participer aux entretiens raliss au sujet des pratiques danalyse des
musiques lectroacoustiques. De mme, je remercie Evelyne Gayou et Yann Geslin pour
leurs critiques sur le chapitre concernant les musiques lectroacoustiques. Merci galement
Alexandre Bazin, Diego Losa et Daniel Teruggi pour mavoir fourni des sons lectroa-
coustiques pertinents mayant permis de raliser mon corpus synthtique. Je remercie
galement Adrien Lefvre pour ses conseils experts en dveloppement ainsi que Dominique
Saint Martin pour son approche du mtier et son got du dbat musical.
Le fait de travailler dans trois lieux diffrents pendant trois annes multiplie forcment
les camarades de bureau que je tiens saluer. Au GRM : Sbastien R., Michael, Franois,
Sbastien M., Antonin, Orianne, Eric, Pierre-Marie, Nicolas, Julien et Raphal. A lINA :
Herv, Benjamin, Pierre et Clment. Enfin, TSI : Benot, Flicien et Franois. Je salue
galement lquipe de production du GRM, Philippe et Franois, pour la causticit lgen-
daire de leur humour et pour leur bureau/muse fourni en jouets pour musiciens (quand je
pense ce MS-20 qui prend la poussire...). Je tiens galement remercier toute lquipe
du GRM pour cette passion quils ont pour la musique qui ma permis denrichir mon
approche personnelle.
Enfin, je remercie infiniment mes proches qui mont toujours soutenu durant ces annes
de thse et ont su faire preuve dempathie dans les moments difficiles.
4
5
Rsum
Les musiques lectroacoustiques sont encore aujourdhui relativement peu abordes
dans les recherches qui visent retrouver des informations partir du contenu musical.
La plupart des travaux de recherche concernant ces musiques sont centrs sur les outils de
composition, la pdagogie et lanalyse musicale. Dans ce travail de thse, nous nous int-
ressons aux problmatiques scientifiques lies lanalyse des musiques lectroacoustiques.
Aprs avoir replac ces musiques dans leur contexte historique, une tude des pratiques
danalyse de trois professionnels nous permet de dgager des invariants pour llaboration
dun systme danalyse. Ainsi, nous proposons un systme interactif daide lanalyse des
musiques lectroacoustiques qui permet de retrouver les diffrentes instances des objets
sonores composant une pice polyphonique. Le systme propos permet dans un premier
temps de raliser une segmentation afin de dgager les instances initiales des objets sonores
principaux. Lutilisateur peut ainsi slectionner les objets quil vise avant de rentrer dans
une boucle dinteraction qui utilise lapprentissage actif et le retour de pertinence fourni
par lutilisateur. Le retour apport par lutilisateur est utilis par le systme qui ralise
une classification multilabel des diffrents segments sonores en fonction des objets sonores
viss. Une valuation par simulation utilisateur est ralise partir dun corpus de pices
synthtiques. Lvaluation montre que notre approche permet dobtenir des rsultats sa-
tisfaisants en un nombre raisonnable dinteractions.
Abstract
Electro-acoustic music is still hardly studied in the field of Music Information Retrieval.
Most research on this type of music focuses on composition tools, pedagogy and music ana-
lysis. In this thesis, we focus on scientific issues related to the analysis of electro-acoustic
music. After placing this music into historical context, a study of the practices of three
professional musicologist allows us to obtain guidelines for building an analysis system.
Thus, we propose an interactive system for helping the analysis of electro-acoustic music
that allows one to find the various instances of the sound objects of a polyphonic piece.
The proposed system first performs a segmentation to identify the initial instances of the
main sound objects. Then, the user can select the target sound objects before entering
an interactive loop that uses active learning and relevance feedback provided by the user.
The feedback of the user is then used by the system to perform a multilabel classification
of sound segments based on the selected ones sound objects. An evaluation of the system
is performed by user simulation using a synthetic corpus. The evaluation shows that our
approach achieves satisfying results in a reasonable number of interactions.
1 Introduction 11
1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Objectifs et problmatiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Prsentation du manuscrit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
5 Conclusion 95
5.1 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Index 117
Bibliographie 126
10 TABLE DES MATIRES
11
Chapitre 1
Introduction
Sommaire
1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Objectifs et problmatiques . . . . . . . . . . . . . . . . . . . . . 12
1.3 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Prsentation du manuscrit . . . . . . . . . . . . . . . . . . . . . . 13
1.1 Contexte
Cette thse en convention CIFRE sest droule dans deux dpartements distincts de
lInstitut National dAudiovisuel (INA). Les membres de lquipe Visualisation, Indexa-
tion et Fouille de donnes (VIF) ont assur lencadrement scientifique et le Groupe de
Recherches Musicales (GRM) a men lencadrement applicatif. La cotutelle acadmique
a t effectue par le dpartement Traitement du Signal et de lImage (TSI) de lcole
TELECOM ParisTech.
de subjectivit dans les mthodes dveloppes afin de sadapter aux nombreux points de
vues possibles.
1.3 Contributions
La premire contribution de ce travail de thse est la proposition dune architecture ori-
ginale qui utilise le retour de pertinence afin de raliser un systme adaptatif (Gulluni et al.
(2011b,a)). La notion de retour de pertinence dsigne une mthode qui prend en compte le
jugement quun utilisateur fournit lors de la recherche automatique de documents. A lori-
gine, le retour de pertinence est employ dans les travaux de Rocchio qui lutilisait pour
modifier des requtes en fonction du jugement apport par lutilisateur sur les documents
retrouvs par son systme (Rocchio & Salton (1971)). Des recherches rcentes emploient
souvent cette mthode pour retrouver des documents multimdias (photos etc.). Larchi-
tecture que nous proposons procde en deux phases principales. La premire phase ralise
une segmentation de la pice qui permet dassister lutilisateur dans la slection dobjets
sonores. La deuxime phase effectue une classification des objets sonores afin de retrouver
les diffrentes instances des objets slectionns dans la premire tape. Larchitecture pro-
pose est dcrite en dtail dans la section 2.5.2.2.
Nous proposons une approche de classification multilabel des objets sonores (un segment
audio peut appartenir plusieurs classes) et exploitant le retour de pertinence adapte
notre problme (chapitre 4). Ainsi, dans la section 4.6, nous comparons deux approches
dinteractions pour la classification multilabel de segments audio sur plusieurs niveaux de
polyphonie : une approche par passages multiples et une autre par passage unique. Nous
proposons galement, dans lapproche par passage unique, une mthode de classification
qui sadapte aux diffrentes mixtures sonores exprimes par lutilisateur (Gulluni et al.
(2011b)). Dans la section 4.7.2.1, nous montrons que cette dernire mthode permet dob-
tenir un gain de performances consistant sur plusieurs niveaux de polyphonie par rapport
lapproche directe, tout en conservant des temps de calcul acceptables.
Afin de cerner les besoins rels des professionnels de llectroacoustique, une tude
des pratiques danalyse a t ralise auprs de trois musicologues (section 2.4.2). Les
renseignements apports par cette tude sont exploits dans ce travail. De plus, cette tude
peut galement tre utile la communaut car elle met en vidence des problmatiques
qui pourraient donner lieu de nouvelles directions de recherche.
musicales. Les musiques lectroacoustiques sont une consquence directe de ces pratiques.
Nous aborderons ensuite des dfinitions musicales essentielles propres aux musiques lec-
troacoustiques. Ce chapitre prsente galement une srie dentretiens avec des musicologues
qui permettent de cerner leurs besoins rels. La fin du chapitre prsente une vision globale
du systme daide lanalyse des musiques lectroacoustiques que nous proposons et le
corpus dvaluation du systme.
Le chapitre 3 porte sur la phase dinitialisation du systme qui repose sur la segmen-
tation de la pice en units sonores homognes afin dobtenir les frontires temporelles qui
sparent les diffrentes mixtures sonores dune pice lectroacoustique polyphonique. Ce
chapitre aborde dans un premier temps ltat de lart des diffrents systmes de segmen-
tation audio puis il propose une solution interactive et compare deux scnarios diffrents
dinteraction avant dvaluer le systme de segmentation.
Le chapitre 4 est focalis sur la phase de classification des objets sonores. La solution
propose est une classification interactive exploitant le retour fourni par lutilisateur. Aprs
avoir prsent un tat de lart portant sur les diffrents domaines connexes au sujet, nous
verrons comment exploiter les informations obtenues pendant linitialisation et nous propo-
serons diffrentes approches dinteraction pour raliser la classification. La dernire partie
du chapitre dcrit lvaluation du systme complet base sur des simulations utilisateurs.
Enfin, dans le chapitre 5 nous exposons un bilan des travaux effectus pendant cette
thse et abordons les perspectives et travaux futurs.
15
Chapitre 2
Musiques lectroacoustiques :
dfinitions, analyse et architecture
dun systme adapt
Sommaire
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Naissance des musiques lectroacoustiques . . . . . . . . . . . . 16
2.2.1 Dveloppements avant 1945 . . . . . . . . . . . . . . . . . . . . . 16
2.2.2 Paris et la musique concrte . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Cologne et lelektronische musik . . . . . . . . . . . . . . . . . . 20
2.2.4 Milan, un autre studio europen important . . . . . . . . . . . . 22
2.3 Dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 Analyse des musiques lectroacoustiques . . . . . . . . . . . . . 25
2.4.1 Etat de lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.2 Approche analytique de trois musicologues . . . . . . . . . . . . 27
2.5 Un systme interactif daide lanalyse des musiques lec-
troacoustiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.1 Etat de lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.2 Architecture du systme . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.3 Corpus synthtique . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
16 2. Musiques lectroacoustiques et architecture du systme
2.1 Introduction
Dans ce chapitre, nous prsentons le contexte musical li ce travail de thse. Lobjectif
nest pas de prsenter les musiques lectroacoustiques de manire exhaustive mais plutt
dexposer leurs origines et leurs caractristiques puis dexpliquer comment les musicologues
abordent leur analyse. Les enseignements tirs de ce travail prparatoire nous permettrons
de prsenter les objectifs ainsi que larchitecture du systme propos. Aprs avoir abord
la naissance des musiques lectroacoustiques, nous donnerons quelques dfinitions essen-
tielles avant daborder leur analyse. La section 2.4 de ce chapitre intgre la prsentation
dune synthse dentretiens raliss avec trois musicologues spcialiss dans lanalyse de
ces musiques. Le chapitre se termine par la prsentation gnrale du systme propos et
du corpus dvaluation.
Fig. 2.1 Le premier Telharmonium Fig. 2.2 Lon Thrmin et son invention
Fig. 2.3 Les Ondes Martenot avec leurs Fig. 2.4 Le Trautonium
diffuseurs
Malgr les contributions de compositeurs tablis tel que Messiaen, Koechlin, Honeg-
ger, Hindemith ou encore Milhaud, le rpertoire compte un nombre limit de compositions
ddies ces instruments. Les compositeurs ayant montr le plus dintrt pour ces instru-
ments sont ceux qui crivaient des musiques de films. Cependant, les Ondes Martenot ont
tout de mme russi se faire une place relative notamment dans les pices de Messiaen
(Turangalla-Symphonie, Trois Petites Liturgies). Les Ondes Martenot sont aujourdhui
encore enseignes au conservatoire de Paris.
treint des sons musicaux purs et conqurir linfinie varit des bruits (Russolo (1913)).
Ces propositions furent matrialises par la construction dinstruments bruitistes : les In-
tonarumori, en collaboration avec le percussionniste Ugo Piatti. Ainsi, le premier concert
bas sur ces instruments, lArt des bruits, eut lieu Milan en juin 1913 au thtre Storchi.
des chos du son original), deux types de Phonognes qui taient conus pour jouer des
bandes en boucle diffrentes vitesses (le premier type permettait un contrle continu de
la vitesse, le deuxime tait associ un clavier et effectuait des transpositions de hauteurs
fixes en variant la vitesse). Le nouveau studio connu une expansion importante des acti-
vits et des collaborateurs de Schaeffer. Ainsi, le groupe fut renomm Groupe Recherche
de Musique Concrte pour devenir le Groupe de Recherches Musicales (GRM) en 1958.
Le premier travail de Schaeffer, Etude aux chemins de fer (la premire des Cinq tudes
de bruits), pose une constante de ce qui deviendra la musique concrte : la composition
partir denregistrements issus de sources sonores diverses. Cette premire pice est com-
pose partir denregistrements effectus la Gare des Batignolles Paris. Les sources
sonores enregistres incluaient le sifflement de locomotives vapeur, leurs acclrations et
les wagons passant dun rail un autre. La pice est base principalement sur des juxta-
positions de parties ( loppos de la superposition de plusieurs parties), ce qui amplifie le
caractre rptitif des sons. Pendant lt 1949, Schaeffer a commenc se rapproprier
les instruments de musique en tant que sources sonores ce qui lui permet de renouer avec
les travaux de Varse initis 20 ans plus tt. La pice suivante de Schaeffer est Suite pour
quatorze instruments et a pour caractristique dtre le point de dpart de son travail sur
la syntaxe de la musique concrte. Cette pice en cinq mouvements met en valeur divers
procds caractristiques de la musique concrte : Courante est une monodie assemble
par juxtaposition de petits extraits de lensemble de la librairie denregistrements sonores,
Gavotte utilise linterprtation par divers instruments dune petite phrase musicale en jux-
taposition pour crer un ensemble de variations. On peut noter un emploi intensif de la
transposition de hauteur en jouant les enregistrements des vitesses diffrentes. Schaeffer
ne tarda pas donner une premire dfinition au concept dobjet sonore : vnement so-
nore lmentaire qui est isol de son contexte original et examin pour ses caractristiques
natives en dehors du continuum temporel normal.
3
piano dont le son est modifi par le placement dobjets extrieurs dans ses cordes
20 2. Musiques lectroacoustiques et architecture du systme
Contrairement la musique concrte qui utilise des sources sonores enregistres prin-
cipalement acoustiques comme matriel de base, lelektronische musik utilise plutt des
procds lectroniques pour la gnration sonore. Le dsir de contrle total sur le timbre
induit le gnrateur dondes sinusodales comme tant la source sonore la plus approprie.
En effet, selon le thorme de Fourier, on peut dcomposer une source sonore priodique
en la somme de plusieurs composantes sinusodales de frquences, amplitudes et phases d-
termines. Initialement, le studio de Cologne tait constitu exclusivement dun gnrateur
sinusodal de haute prcision, un gnrateur de bruit blanc, un Monochord lectronique et
un Melochord. Ces deux derniers instruments taient quips de claviers et le Melochord
pouvait gnrer des ondes caractristiques que lon retrouvera plus tard dans les premiers
synthtiseurs : onde en dents de scie, onde triangulaire et onde carre.
Aprs les quelques divergences entre la musique concrte et lelektronische musik, on ad-
met aujourdhui que les deux coles constituent deux facettes complmentaires des dbuts
de la musique lectroacoustique.
Le studio de Milan fut cr en 1955 par la Radio Audizioni Italiane (RAI) et co-fond
par les compositeurs Luciano Berio et Bruno Maderna. Ce centre, qui a fortement influenc
le studio de Cologne, a t cr pour les besoins de lcole italienne de composition. La ma-
jorit des compositeurs de ce studio ne rentraient pas dans les querelles franco-allemandes
sur la production des sons, prfrant se consacrer aux caractristiques perues des struc-
tures sonores.
Une constante des pices produites dans le studio de Milan pendant les annes 50 et
au dbut des annes 60 tait la proccupation quavaient les compositeurs pour la texture
et la sonorit. Un processus de composition courant tait la formation de clusters de sons
partir de sinusodes et la cration de flux sonores partir de bruits blancs filtrs.
Lcole de Milan a donn une rponse pertinente aux problmes rencontrs par lelektro-
nische musik et la musique concrte. Dans Diffrences, Berio montre comment des sons
naturels peuvent tre dvelopps par lutilisation de traitements sonores. Cette pice est
un quintet pour flte, clarinette, harpe, alto et violoncelle auxquels sajoute une partie sur
bande magntique qui reprend des enregistrements des instruments en les modifiant par
des procds lectroniques. La partie lectronique sur bande est utilise comme un moyen
de dveloppement des sonorits aprs une exposition ralise par les instruments seuls. On
peut remarquer que la parole devient une source sonore trs utilise par les compositeurs de
Milan. Par exemple, dans la pice Thema, Berio utilise principalement de courts extraits
du texte Ulysses de James Joyce quil manipule par des procds lectroniques. Le texte
est dabord expos en intgralit dans une premire lecture puis la pice se dveloppe en
dsagrgeant le texte original par fragmentations, superpositions et variations du timbre
par filtrage.
Le studio de Milan, tout comme ceux de Paris et Cologne, a continu de jouer un rle im-
portant dans le dveloppement artistique des annes 60. Plusieurs studios se dvelopprent
dans le monde. Ainsi, la Russie, le Japon, le Royaume-Uni, la Sude, la Belgique et les
Etats-Unis ont galement t des acteurs importants dans le dveloppement des musiques
lectroacoustiques. On pourra se rfrer Manning (2004) qui prsente le dveloppement
des musiques lectroacoustiques de manire exhaustive.
23
2.3 Dfinitions
Cette section regroupe des dfinitions et notions musicales essentielles la comprhen-
sion de la suite du document.
Musiques lectroacoustiques
La naissance des pratiques lectroacoustiques a engendr plusieurs esthtiques musi-
cales trs diffrentes. Aujourdhui, il est difficile de donner une dfinition prcise de la
musique lectroacoustique. Selon le Larousse, ce terme a t cr dans les annes 50 pour
dsigner toute musique construite partir de sons enregistrs (musique concrte) ou de
synthses (elektronische musik ) en rfrences aux deux courants initis en France et en
Allemagne. Aujourdhui, le Wikipdia recense plusieurs dfinitions de la musique lectroa-
coustique :
1. Le terme musique lectroacoustique dsigne tout type de musique dans laquelle
llectricit a un rle autre que la simple utilisation du microphone ou de lamplifi-
cation pour la production de cette musique ;
2. Dsigne tout ce qui utilise la conversion dun signal acoustique en signal lectrique
et vice et versa ;
3. Musique utilisant la technologie pour enregistrer, produire, crer, manipuler et dif-
fuser le son ;
4. Dsigne toutes les activits utilisant llectricit pour produire, manipuler, diffuser
et tudier le son (correspond au terme electroacoustics des pays anglo-saxons).
Ces dfinitions sont difficiles utiliser dans le contexte musical actuel ou la quasi-totalit
de la production musicale utilise des moyens lectroniques un moment de la chaine de
cration. Ainsi, si on applique ces dfinitions, une musique utilisant le langage tonal, en-
tirement produite partir dinstruments acoustiques, mais enregistre par des moyens
lectroniques devient lectroacoustique. Les dfinitions cites ne prennent pas en compte
le paradoxe que nous venons dexposer. Ainsi, dans ce document, nous ferons principale-
ment rfrence une dfinition stylistique des musiques lectroacoustiques : regroupement
de courants musicaux aux esthtiques distinctes ns dans les annes 40 en raction aux
innovations technologiques de production sonore. Par consquent, on considre la musique
lectroacoustique comme une collection de genres musicaux et non comme une musique
utilisant des moyens lectroniques pour sa production.
Musique acousmatique
Le terme de musique acousmatique revient frquemment dans les crits consacrs aux
musiques lectroacoustiques. A lorigine, ladjectif acousmatique est repris par lcrivain
et pote Jrme Peignot en 1955 pour exprimer la distance qui spare les sons de leur
origine. Cette expression est par la suite reprise par Schaeffer en 1966 dans le Trait
des objets musicaux (Schaeffer (1966)). En 1974, le compositeur Franois Bayle reprend
lexpression afin dviter la confusion avec les musiques qui utilisent des instruments ayant
recours llectricit. La musique acousmatique dsigne selon Bayle une musique qui se
tourne, se dveloppe en studio, se projette en salle, comme le cinma. Dans lusage courant,
les deux expressions musique concrte et musique acousmatique sont souvent utilises pour
dsigner une mme musique, celle cre par Schaeffer dans les annes 40.
24 2. Musiques lectroacoustiques et architecture du systme
Objet sonore
La notion dobjet sonore a t formalise par Schaeffer lors de la naissance de la musique
concrte. La dfinition prliminaire cite dans la section prcdente laisse place aujourdhui
la dfinition suivante qui est admise par la majorit de la communaut : phnomne so-
nore peru dans le temps comme un tout, une unit, quels que soient ses causes, son sens,
et le domaine auquel il appartient (musical ou non). On peut galement se rfrer Kane
(2007) qui propose dtudier lemploi de la notion dobjet sonore dans un contexte la
fois contemporain et historique. La notion dobjet sonore est suffisamment universelle pour
sappliquer des esthtiques autres que celle de la musique concrte qui a engendr sa
dfinition. Lobjet sonore est galement un outil danalyse puissant qui permet disoler les
atomes constituants des musiques lectroacoustiques. Le systme que nous proposons ne
prtend pas convenir toutes les esthtiques de la grande famille des musiques lectroa-
coustiques. Ainsi, le systme prsent sera principalement ddi aux musiques
pouvant tre dcomposes en objets sonores.
Dans Gayou (2006), lauteur prsente les portraits polychromes, une srie de livres
associs des documents multimdias en grande partie raliss avec lAcousmographe
et disponibles sur le site internet du Groupe de Recherches Musicales 6 depuis 2001. Les
6
http://www.inagrm.com/accueil/collections/portraits-polychromes
27
Cet tat de lart montre quil existe des outils thoriques penss par des musicologues pour
lanalyse des musiques lectroacoustiques. Le but de cette thse nest pas de prsenter
un nouveau modle danalyse mais dapporter une assistance logicielle aux
musicologues pour mettre en pratique leurs mthodes personnelles.
Sciences de la Musique.
Cyrille Delhaye : charg de cours lUniversit de Rouen et chercheur affili au
GRHIS (Groupe de Recherche en HIStoire).
Un questionnaire a t ralis pour les entretiens, il porte la fois sur lanalyse pure
et sur la reprsentation. Ces questions correspondent des interrogations personnelles qui
nont pas de rponses directes dans la littrature. Nous avons donc crit les questions dans
le but de nous informer sur laspect pratique de lanalyse, lever certaines ambiguts et
obtenir des suggestions. Les rponses obtenues permettent dorienter les choix et spcifi-
cations du systme. Les trois entretiens ont ts enregistrs et ils durent entre 45 minutes
et 2 heures. Dans cette section, nous prsentons une synthse des rponses aux questions
et comparons les points de vue afin de reprer les invariants dans les pratiques dana-
lyse. La synthse des entretiens a t ralise de faon rester focalis sur les questions
poses : viter les digressions, redondances et les hsitations qui nuisent la comprhension.
Lentretien est divis en plusieurs grands thmes avec une question principale et parfois
des sous questions complmentaires. Les grands thmes abords sont les suivants :
1. Aspect mthodologique
2. Approche potique et esthsique
3. Rapport avec lanalyse tonale
4. Loutil informatique
5. Perception sonore et reprsentations sonores
Franois Delalande : Je vais dabord dterminer de quel point de vue je vais analyser
la pice ce qui est valable aussi bien pour les pices crites que la musique lectroacoustique.
Il marrive parfois dutiliser des mthodologies diffrentes. Par exemple si vous prenez les
29
units smiotiques temporelles, le point de vue est dtermin par une problmatique parti-
culire (en loccurrence, lanalyse du temps). Il est important de dterminer galement les
pertinences. Dans le cas de ltude du temps, on peut par exemple sintresser au caractre
cyclique. Ensuite, une fois le point de vue et les pertinences dtermines, on utilise presque
toujours une transcription. En gnral, je transcris aprs la dtermination des points de
vue pour ne pas tre orient par lanalyse. Je ralise toujours une transcription de reprage
la plupart du temps en objets sonores (units morphologiques). Sur cette toile de fond, je
vais par la suite ajouter et dcrire des traits qui vont maider analyser par rapport au
point de vue que jai choisi initialement. Aujourdhui, on pratique toujours la transcrip-
tion avec une coute instrumente : on utilise un instrument dcoute (un lecteur de CD,
lAcousmographe etc. . .) qui nous permet daffiner la transcription en donnant la possibilit
de revenir en arrire, de ralentir ou filtrer dans le cas de lAcousmographe. Je ne change
pas de point de vue en cours danalyse. Si je veux prendre un autre point de vue, je reprend
depuis le dpart car il est important pour la clart de la mthodologie de sparer les points
de vus. Il est possible de raliser plusieurs points de vue pour une mme pice.
Cyrille Delhaye : Je nai pas de mthodologie gnrale, je pense que chaque pice est
totalement diffrente et jessaie dadapter les outils que jai ma disposition en fonction
de ce que je veux analyser. Chaque analyse est diffrente et jutilise chaque fois une
mthodologie diffrente. Par contre, il y a des pratiques qui reviennent souvent : lcoute
acousmatique (coute noire) sans reprsentation qui est trs importante, mais cela dpend
galement de la longueur de la pice car nos capacits de mmorisation diminuent si la pice
est trop longue. Je ralise plusieurs sries dcoutes acousmatiques. Pour une pice de 5
minutes, jcoute la pice 4 5 fois de suite en prenant des notes chaque fois. Je construis
souvent lanalyse partir de cette coute. Il peut galement arriver que janalyse une pice
dont jai entendu parler, dans ce cas jai dj tudi de la littrature son sujet et cela va
guider mon coute. On pourrait dire, si on se place dun point de vue smiologique que cest
de la potique externe. Ce sont les crits des compositeurs qui mamnent lanalyse et
jamais linverse. Je vais chercher dans un premier temps des sections (grandes priodes)
dans la pice. Je ne vais pas tout annoter, mais je vais rechercher les objets sonores avec des
factures trs fortes et facilement identifiables. Jarrive rarement avec une coute totalement
blanche, je fais souvent plus attention certains objets sonores en fonction de ce que jai
lu en amont et donc je ne suis pas compltement dtach pour mon analyse. Par contre, il
est possible que je change mon point de vue de dpart, mes hypothses, en cours danalyse
en fonction de ce que je vais dcouvrir. Je pense que cest primordial.
Pour cette premire question de mthodologie, on remarque que les trois musicologues
ralisent une transcription partielle des objets sonores les plus saillants. Couprie et Delhaye
avouent couter la pice de 4 10 fois, en laissant passer quelques jours entre les coutes
pour Couprie. Les trois musicologues utilisent une coute instrumente un moment ou
un autre. Ils parlent galement tous les trois de limportance de trouver un point de
vue. Par contre, ce sujet, il est plus difficile de dterminer un invariant sur lordre
des tapes mthodologiques car les trois musicologues ont des approches assez diffrentes :
Couprie utilise sa premire transcription pour dgager un point de vue pertinent, Delalande
a dj trouv un point de vue avant de transcrire, Delhaye utilise la transcription ou des
crits pour trouver un point de vue. De plus Delhaye semble accorder de limportance au
changement de point de vue en cours danalyse alors que les deux autres musicologues
prfrent sattacher chaque point de vue sparment.
30 2. Musiques lectroacoustiques et architecture du systme
Cyrille Delhaye : Je pense que les deux approches sont complmentaires. Etant avant
tout musicologue, je suis trs attach lhistoire, aux crits et par consquent je commence
souvent par la potique. Jutilise beaucoup les notes de programme, brouillons du compo-
siteur, les ractions dans la presse.
Cette question met en valeur lopposition entre les coles danalyse. On peut noter
que Couprie et Delhaye dmarrent leur analyse de faons diffrentes : Couprie utilise uni-
quement lenregistrement de la pice et Delhaye se base souvent sur les crits en premier
lieu. Delalande sintresse aux interfrences entre les deux approches.
Cyrille Delhaye : Je ne pense pas que cela soit la direction o il faut chercher. Nous
avons besoin doutils souples qui peuvent sadapter chaque pice. Je pense que la force de
la musique lectroacoustique cest justement de stre libre de ces carcans thoriques et
le fait dappliquer une mthode trs normative peut mon avis tuer le geste crateur et la
libert apporte au compositeur dans cette musique. Contrairement la musique tonale, je
pense quen musique lectroacoustique, la rptition pure nexiste pas, jai plutt rencontr
des compositeurs qui citaient les mmes objets sonores mais en les variant. Par contre, il
est intressant de voir que Pierre Henry rutilise des objets sonores, quil a enregistr dans
les annes 50, dans des pices des annes 2000.
Pierre Couprie : Par exemple, jaimerais pouvoir reprer les diffrentes itrations
dun mme son dans lacousmographe, cest ce qui mintresserait le plus. Il pourrait gale-
ment tre intressant dessayer de reprer des sries de sons un peu comme dans la musique
srielle. Je souhaiterais galement avoir un outil qui me ferait des propositions de segmen-
tation plusieurs niveaux de prcision un peu comme dans les logiciels de musique tel que
Live qui segmente automatiquement les sons.
Franois Delalande : Il serait intressant de pouvoir avoir une sorte de fond de carte
de la pice (pour les objets saillants) pour pouvoir ensuite continuer lannotation la main.
Je pense quon peut aller assez loin dans lautomatisation de lanalyse des contrastes, des
registres de hauteurs, des grains. Cela pourrait tre trs utile car certains sonagrammes
sont parfois difficiles exploiter. Je pense quon peut automatiser le reprage des sons vu
quon ne pose pas le problme des pertinences ce moment. Il sagit plus davoir un certain
confort de lecture. Par contre, dans une seconde tape, il me semble important de pouvoir
raliser des symboles graphiques la main comme dans lAcousmographe afin de pouvoir
32 2. Musiques lectroacoustiques et architecture du systme
par exemple tirer ou contracter les symboles si certains objets sont plus longs.
Cyrille Delhaye : Ce que je recherche dans loutil informatique cest une caution
scientifique : je lui demande une vrification de mes hypothses analytiques. Par exemple
lorsque jai essay Sound Spotter (un outil de recherche de sons par similarits), jai trouv
des occurrences de sons que je navais pas perues. Evidemment, on rve tous dun outil
qui permettrait de sparer les diffrentes voix de mixage dune pice pour voir comment
le compositeur a ralis lassemblage des sons entre eux. Il serait galement intressant
davoir un outil qui permettrait de pouvoir trouver automatiquement les grandes priodes
dune pice mais cela me semble un peu moins important. Avoir un outil pour isoler les
objets sonores entres eux serait dj une grande aide pour mes travaux.
Au sujet des apports de loutil informatique pour lanalyse, les musicologues ont des
demandes assez diverses qui correspondent en fait leurs habitudes danalyse qui peuvent
tre assez diffrentes. Ainsi, on peut remarquer les propositions suivantes : reprage de
grandes priodes ou sries de sons (Delhaye et Couprie), sparation des voix de mixage
(Delhaye), utilisation de symboles graphiques personnaliss (Delalande). Les trois musico-
logues expriment le besoin davoir un outil leur permettant de reprer les objets sonores
principaux.
5. Est-ce que vous utilisez une reprsentation visuelle (forme donde, spectro-
gramme etc.) du signal sonore pour vous aider dmarrer votre analyse ? Les
informations de reprsentation ne risquent-elles pas dinfluencer votre ana-
lyse ?
Franois Delalande : Je commence toujours par une coute pure. Dans mes travaux
danalyse esthsique, je mets de ct mon coute personnelle : je fais couter des per-
sonnes que jenregistre et je recoupe les informations afin de reprer les tmoignages qui
se rejoignent. Je commence la transcription uniquement aprs avoir distingu les points de
vue cest--dire environ trois mois aprs. Jutilise alors une reprsentation graphique (le
sonagramme). Les perceptions ne sont pas influences par le support visuel car jai dj des
points de vue analytiques en amont et jutilise les reprsentations par la suite comme des
outils.
Cyrille Delhaye : Je commence mon analyse par une coute sans support visuel.
Ensuite jutilise le spectrogramme et la forme donde pour structurer mon analyse et pour
maider me reprer dans le document sonore. Jai fait lexprience avec mes lves de
leur faire dcouvrir une pice en leur montrant le spectrogramme en mme temps et ils
sont trs influencs par le support visuel. Je pense que pour dcouvrir une pice, lcoute
33
pure permet une perception plus intressante. Les outils visuels sont intressants pour nous
aider comprendre la musique mais dans un second temps.
Ecoute de la pice entre 4 et 10 fois pour localiser les objets sonores les plus saillants ;
Elaboration de points de vues ;
Pour certains, la transcription en objets sonores aide former un point de vue alors
que dautres en ont dj un en amont ;
La transcription seffectue principalement sur les objets saillants ou ceux qui
clairent un point de vue danalyse.
Des travaux ont ts proposs afin de raliser une description morphologique du signal
audio (Ricard & Herrera (2004), Peeters & Deruty (2008)). La notion de description mor-
phologique est introduite par Schaeffer, elle dsigne la description de la forme dun objet
sonore. Dans sa thorie, Shaeffer dcrit les critres morphologiques comme des caractres
observables dans lobjet sonore, des traits distinctifs ou encore des proprits de lobjet
sonore peru. Thoriquement le nombre de critres observables est infini mais Schaeffer en
a limit le nombre sept :
Critres de matire : masse, timbre harmonique
Critres dentretien : grain, allure
Critre de forme : dynamique
Critres de variations : profil mlodique, profil de masse
On peut noter que la description morphologique peut constituer une information utile
pour lanalyse musicale (Franois Delalande parle de reprer des units morphologiques
dans la section 2.4.2). Cependant, les travaux proposs sintressent des objets sonores
individuels or dans notre cas nous souhaitons traiter des polyphonies dobjets. Dans Nuci-
bella et al. (2005), la mthode de description morphologique de Ricard & Herrera (2004)
est applique une pice lectroacoustique. Le temps de calcul pour la description mor-
phologique est important : 3 heures pour un segment de 2 minutes. De plus, les auteurs
mentionnent que cette mthode a t conue pour analyser des objets sonores dans un
contexte monophonique et que la pice teste comporte beaucoup de polyphonie. Ainsi, la
35
description morphologique donne de bons rsultats dans les passages monophoniques mais
les rsultats se dgradent fortement dans les passages comportant beaucoup de polyphonie.
Dans notre cas, cette approche est de toute faon trop lente car nous souhaitons permettre
lutilisateur de raliser des interactions avec le systme dans un temps acceptable.
Les caractristiques des systmes existants sont rsums dans le tableau 2.9. Il est
important de prciser quaucun des systmes existants ne permet danalyser les
objets sonores de manire semi-automatique et dans un contexte polyphonique.
Lobjectif de cette thse est de combler ce manque.
Nous avons remarqu dans le chapitre 2 que les musicologues passent systmatiquement
par une premire srie dcoutes pendant laquelle ils vont reprer les objets sonores aux-
quels ils sintressent. Il est important de considrer la notion de point de vue qui peut
tre dtermin avant les coutes de reprage ou bien aprs quelques coutes. Le point de
vue est galement propre chaque musicologue pour une analyse donne do limportance
de considrer laspect subjectif du problme : le systme doit sadapter au point de vue
danalyse de lutilisateur. On peut galement remarquer que les musicologues vont sint-
resser en particulier aux objets sonores saillants et ne vont pas raliser une transcription
complte de la pice dans un premier temps.
Une des attentes principales des musicologues porte sur lidentification des diffrentes
instances des objets sonores principaux de lensemble de la pice. Ainsi, dans ce travail
de thse, nous cherchons assister le musicologue dans le reprage dobjets en
laidant retrouver leurs diffrentes instances partir dune instance initiale.
La figure 2.10 illustre le problme pour retrouver les diffrentes instances de lobjet de
couleur verte.
Pour laborer larchitecture de notre systme, nous devons prendre en compte les
contraintes suivantes :
Nature indtermine des sons utiliss par les compositeurs : nous ne pou-
vons pas nous baser sur des grandes bases de signaux audio pour apprendre les
sons. Nous devons donc forcment utiliser des chantillons sonores de la pice pour
apprendre les classes sonores.
Polyphonie des pices musicales : la plupart des pices sont polyphoniques et
donc il faut considrer la superposition des objets sonores. Autrement dit, un segment
audio contenant lobjet sonore cherch peut galement en contenir dautres qui lui
36 2. Musiques lectroacoustiques et architecture du systme
Fig. 2.10 La figure (a), reprsente la superposition de diverses sources sonores dans
une pice musicale (un son diffrent par ligne/couleur), comme cest le cas dans une pice
lectroacoustique polyphonique. La figure (b) est le mixage rsultant de toutes les sources
sonores, lors de lanalyse nous navons accs qu ce mlange de sources. Le systme doit
pouvoir prdire les diffrentes instances dun objet donn (en loccurrence le son vert)
partir de linstance de la slection utilisateur.
sont superposs.
Adaptation au point de vue danalyse : lutilisateur doit pouvoir exprimer les
objets auxquels il sintresse.
Ractivit : les composants du systme doivent tre suffisamment rapides pour que
le systme soit ractif aux interactions de lutilisateur.
qui seront utilises pour initialiser la classification. Nous avons choisi le timbre comme
critre de segmentation car il sagit dun des aspects les plus structurant des musiques
lectroacoustiques. Les objets sonores se trouvent des chelles temporelles diffrentes
et la segmentation timbrale permet lutilisateur dcouter des mixtures sonores homo-
gnes. De plus, lapproche de segmentation que nous proposons apporte galement une
information de similarit timbrale entre les segments afin de pouvoir les comparer et de
choisir les instances initiales de faon ce quelles soient reprsentatives. Nous dtaillerons
lapproche de segmentation dans le chapitre 3.
Ltape de classification des objets permet daffecter des tiquettes aux diffrents seg-
ments de la pice. Ltiquette dun segment correspond aux objets viss par lutilisateur
prsents dans le segment. Comme nous lavons abord dans les contraintes fonctionnelles,
tant donn que les pices sont polyphoniques, les segments sonores peuvent contenir plu-
sieurs objets viss. Lapproche de classification que nous proposons doit donc permettre de
raliser un multi-tiquetage des segments sonores. Autrement dit, le systme doit pouvoir
prdire pour chaque segment les diffrentes classes sonores auxquelles le segment appar-
tient. De plus, tant donn la nature indtermine des sons utiliss par les compositeurs,
38 2. Musiques lectroacoustiques et architecture du systme
la tche de classification est relativement difficile car nous ne disposons que des segments
sonores de la pice choisis par lutilisateur pour dmarrer lapprentissage. Une approche
par retour de pertinence est adapte au problme car elle permet dintgrer le jugement de
lutilisateur au fur et mesure afin de faire progresser les prdictions du classifieur. Pour
bnficier du retour de pertinence, le systme slectionne des segments que lutilisateur va
pouvoir couter afin de valider/corriger les prdictions du classifieur. La classification est
ensuite remise jour en fonction des informations apportes par lutilisateur. Ainsi, une
boucle dinteraction est mise en place et la classification progresse chaque itration jus-
qu ce que lutilisateur soit satisfait des prdictions. La slection des segments prsents
lutilisateur par le systme se base sur lapprentissage actif qui est une mthode per-
mettant de slectionner les segments les plus utiles pour lapprentissage. Nous dtaillerons
la phase de classification dans le chapitre 4. La figure 2.12 prsente un scnario typique
dutilisation du systme.
1. Initialisation
(a) Lutilisateur interagit avec le systme afin dobtenir une segmentation adap-
te la pice considre.
(b) Lutilisateur slectionne le segment quil considre comme caractristique
pour chaque classe sonore.
2. Classification des objets
(a) Le systme ralise une classification en apprenant partir des segments va-
lids par lutilisateur. Ainsi, des tiquettes sont prdites automatiquement
pour les parties restantes de la pice.
(b) Afin damliorer la classification, le systme ralise la slection active dun
segment et demande lutilisateur de valider/corriger les prdictions dti-
quette.
(c) Les tapes (a) et (b) sont rptes jusqu satisfaction de lutilisateur
Lvaluation de notre systme nest pas une tche simple, notamment en ce qui concerne
la recherche dune vrit terrain. Les annotations de certaines musiques lectroacoustiques
existent mais la plupart dentre elles ne font pas la diffrence entre la description des vne-
ments sonores et linterprtation musicologique. De plus lannotation de ce type de musique
requiert lexpertise de spcialistes qui sont beaucoup plus rares que les personnes capables
dannoter de la musique classique ou tout autre style plus conventionnel. Ayant connais-
sance de cette ralit, nous avons dcid de gnrer un corpus dvaluation synthtique. Un
des grands avantages de ce choix est de pouvoir gnrer de nombreuses pices diffrentes et
simultanment lannotation correspondante ce qui permet de rendre lvaluation plus ro-
buste. Nous avons ainsi gnr deux types de corpus qui seront utiliss pour les valuations
prsentes dans les chapitres suivants. Le premier corpus, Corpus M, est monophonique et
le deuxime, Corpus P, est polyphonique et par consquent plus complexe.
39
2.5.3.1 Corpus M
Ce premier corpus est le plus simple des deux de par sa nature monophonique. Il a t
utilis en dbut de thse pour lvaluation du systme de segmentation timbrale.
Pour la cration de ce corpus, nous partons dune pice de musique concrte annote
manuellement : un extrait de Timbre Dure dOlivier Messiaen a t choisi. Cette pice
peut tre considre comme un archtype car elle utilise des enchainements de timbres et de
mixtures pour crer une pice musicale la structure complexe. Une proprit importante
de cette pice est quelle est monophonique : seulement un timbre/mixture est expos
la fois. Cette proprit est adapte notre problme initial de segmentation : crer des
frontires entre les enchainements de mixtures qui constituent une pice musicale.
2.5.3.2 Corpus P
Ce deuxime corpus, polyphonie variable a t ralis un stade plus avanc de la
thse afin dvaluer le systme complet.
Comme nous le savons maintenant, dans les musiques lectroacoustiques, on peut ren-
contrer nimporte quelle source sonore acoustique ou lectronique. Ce constat nous amne
nous poser des questions pour le choix des sons constituant les pices synthtiques. Nous
proposons de choisir des sources sonores de difficult raliste qui pourraient tre utilises
dans des compositions. Pour cette raison, nous avons utilis des sons slectionns par des
compositeurs du GRM. Une description dtaille des chantillons utiliss pour la gnration
peut tre trouve en annexe A.2.
Pour la gnration de pices synthtiques, nous cherchons crer des polyphonies com-
plexes dobjets sonores. Ainsi, nous choisissons dutiliser des sons complexes ayant une
volution temporelle. Autrement dit, il ne sagit pas de notes ou de squences de notes
hauteur dtermine. Trois compositeurs du GRM ont particip la slection des sons
qui pour la plupart viennent denregistrements personnels et ont t slectionns ind-
pendamment, sans intention compositionelle particulire. La contrainte principale pour la
slection tait de choisir des sons qui gardent des caractristiques timbrales relativement
stables afin de pouvoir les considrer comme une classe unique. Les trois compositeurs ont
40 2. Musiques lectroacoustiques et architecture du systme
2.6 Conclusion
Dans ce chapitre, nous avons dcrit le type de musiques auxquelles le systme est des-
tin. Nous avons galement abord lanalyse des musiques lectroacoustiques telle quelle
est pratique par des spcialistes afin de mettre en valeur leurs attentes. Certaines pra-
tiques danalyse sont partages par les personnes interroges et nous ont permis de proposer
une application utile ainsi que de dgager les contraintes fonctionnelles applicatives. Nous
en avons dduit un choix darchitecture en adquation avec les diffrentes contraintes et
objectifs. Les deux corpus utiliss pour lvaluation du systme ont galement ts prsen-
ts. Le chapitre suivant expose la premire tape dinitialisation du systme base sur une
segmentation timbrale interactive.
42 2. Musiques lectroacoustiques et architecture du systme
43
Chapitre 3
Segmentation interactive de
musiques lectroacoustiques
Sommaire
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2 tat de lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.1 Approches par mesures de similarits . . . . . . . . . . . . . . . . 45
3.2.2 Approches par dtections de ruptures . . . . . . . . . . . . . . . 46
3.2.3 Approches par programmation dynamique . . . . . . . . . . . . . 47
3.2.4 Approches par clustering . . . . . . . . . . . . . . . . . . . . . . 47
3.2.5 Approches issues dautres domaines . . . . . . . . . . . . . . . . 48
3.3 Segmentation interactive . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2 Extraction de descripteurs . . . . . . . . . . . . . . . . . . . . . . 49
3.3.3 Construction dun descripteur de timbre adapt . . . . . . . . . . 52
3.3.4 Reprsentation dunits sonores . . . . . . . . . . . . . . . . . . . 54
3.3.5 Clustering hirarchique . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.6 Clustering interactif . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.1 Critres dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.2 Expriences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
44 3. Segmentation interactive de musiques lectroacoustiques
3.1 Introduction
Comme nous lavons vu dans le chapitre prcdent, on peut distinguer deux phases
interactives dans notre systme : la segmentation timbrale et la classification dobjets. Ce
chapitre se concentre sur la premire phase qui peut tre assimile une segmentation en
units sonores homognes. Pour raliser cette segmentation, nous axons cette initialisation
sur un des aspects les plus structurants de la musique contemporaine : le timbre. La
segmentation timbrale a pour objectif de faciliter le choix et la dcouverte des instances
initiales de classes qui seront utilises pour initialiser la classification. Cette phase nous
permet galement de connaitre les frontires principales entre les superpositions de timbres
dune pice polyphonique afin de pouvoir classifier des units sonores homognes.
Comme nous lavons voqu dans la section 2.5.2.1, nous navons pas de connaissances
a priori sur les diffrents sons de la pice. Par consquent, nous souhaitons obtenir une
segmentation timbrale homogne de manire non supervise . La taille des segments que
lon souhaite obtenir est variable : de lordre de la seconde dans la plupart des cas mais
pouvant atteindre la dizaine de secondes dans certaines pices prsentant de longues trames.
La nature non supervise du problme est due la diversit des timbres qui peuvent tre
rencontrs. Comme nous lavons vu dans le chapitre 2 consacr en partie la prsentation
des musiques objets, les sources sonores rencontres dans ce type de musique ne sont pas
prtablies comme cest le cas dans dautres styles musicaux : la musique symphonique
est orchestre partir des grandes familles instrumentales traditionnelles (cordes, bois,
vents et percussions), les musiques tendance rock utilisent souvent une formation de
type : guitare, basse, batterie, chant et les musiques tendance lectronique sappuient
principalement sur les synthtiseurs ou autres sonorits dorigine lectronique. Dans le cas
qui nous intresse, on peut dire que toute source sonore instrumentale rencontre dans
un style musical quelconque peut tre retrouve dans les musiques objets. De plus, ces
musiques largissent le spectre des sources possibles aux sons environnementaux ou de
manire plus gnrale tout ce qui est du domaine du sonore (sources acoustiques ou
lectroniques).
Nous commencerons par envisager des segmentations inspires de ltat de lart (ex-
pos dans la section 3.2) qui montrera des limites que nous dpasserons par une approche
interactive comme dcrit dans la section 3.3. Aprs avoir prsent ltat de lart et dcrit le
systme, nous tudierons deux scnarios dinteraction diffrents. Le chapitre se terminera
par une valuation suivie dune discussion des rsultats obtenus.
Dans Goto (2003), Bartsch & Wakefield (2001, 2005), Van Steelant et al. (2002), une re-
prsentation de type temps/retard quivalente la matrice de similarit est utilise. Cette
reprsentation transforme les rptitions reprsentes par des diagonales dans la matrice de
similarit en des lignes de retard horizontales constantes. Dans Goto (2003), lauteur utilise
cette dernire reprsentation pour dcouvrir automatiquement la structure de morceaux
46 3. Segmentation interactive de musiques lectroacoustiques
Fig. 3.2 Un exemple de matrice de similarit. Les deux axes reprsentent le temps. Les
distances entre les trames sont reprsentes par des niveaux de gris. En loccurence les
grandes distances sont affectes un niveau sombre et les faibles distances un niveau
clair.
de musique en se concentrant sur la recherche des refrains. Ainsi, des descripteurs de type
chromas (Bartsch & Wakefield (2005)) sont extraits du signal partir desquels la matrice
temps/retard est calcule. Les sections musicales similaires sont dtectes grce un cri-
tre de rptition. On peut noter que cette mthode prend en compte la modulation de
tonalit : deux passages similaires musicalement une transposition prs seront considrs
comme proches. Cette mthode obtient des rsultats satisfaisants sur une base importante
(80 chansons tiquetes correctement sur 100) mais est assez loigne de notre problme :
elle se positionne clairement dans un cadre musical conventionnel en prenant la tonalit et
les notes qui la constituent comme hypothses de base.
Peeters et al. (2002) utilise la segmentation de base obtenue par une matrice de simila-
rit pour gnrer des classes potentielles ainsi quune approximation du nombre de classes.
Ensuite, les rsultats obtenus sont utiliss pour initialiser un algorithme de clustering (K-
means). Enfin les clusters obtenus sont utiliss leur tour pour initialiser un modle de
Markov cach et la reprsentation optimale du document est dduite par dcodage du mo-
dle.
Dans Levy et al. (2006), le problme de structuration est reformul comme un problme
de clustering. Avant deffectuer le clustering, les vecteurs de description originaux subissent
un changement de reprsentation. Ainsi, un modle de Markov cach est appris sur ces don-
nes puis dcod afin dobtenir une suite dtats. Le nombre dtats est fixe et reprsente
le nombre de catgories de timbre diffrents dans le document. Une estimation de la lon-
gueur dun temps (unit temporelle de base dpendant du tempo du morceau de musique)
est galement effectue. Ensuite, des histogrammes dtats sont calculs des intervalles
rguliers et aligns sur les temps de la musique. Les histogrammes obtenus reprsentent
des distributions de types de timbres dcods. Enfin, une mthode de clustering (soft k-
means) est utilise pour regrouper les histogrammes et ainsi en dduire les segments. Cette
mthode, de par sa dpendance au tempo nest pas assez gnrale pour tre applique di-
rectement notre problme (nous voulons pouvoir traiter des pices arythmiques comme
48 3. Segmentation interactive de musiques lectroacoustiques
On peut noter quEASY, le systme prsent dans Park et al. (2009) que nous avons
dj voqu dans la section 2.5.1 propose galement des fonctionnalits de segmentation
de la musique. Deux approches simples sont proposes. La premire ralise directement
un clustering des vecteurs de descripteurs et reporte une couleur diffrente pour chaque
cluster sur la forme donde. La deuxime utilise des fentres danalyse longues et compare
les distances entre les diffrentes fentres (le systme propose plusieurs distances).
3.3.1 Architecture
Le systme de segmentation comporte deux phases distinctes comme le montre la fi-
gure 3.3 : une phase dapprentissage et une phase de test qui font intervenir deux bases de
signaux distinctes. Dans la phase dapprentissage, aprs avoir extrait les descripteurs des
signaux de la base dapprentissage, une slection dattributs est effectue afin de conserver
les plus pertinents. Dans la phase de test, les attributs slectionns prcdemment sont
extraits de la base de test.
En parallle, une segmentation de bas-niveau est effectue laide dune dtection de
transitoires. Cette premire segmentation permet dobtenir des segments inter-transitoires
dont les attributs seront par la suite intgrs temporellement afin de rsumer linformation
en un unique vecteur de description pour chaque segment. Les vecteurs ainsi obtenus se-
ront par la suite regroups par similarit timbrale laide dun algorithme de clustering.
Linteraction de lutilisateur avec le systme se situe au niveau des regroupements effectus
par lalgorithme de clustering. Il est important de noter que les regroupements effectus d-
finissent la segmentation temporelle finale ainsi que ltiquetage des segments. Les sections
suivantes dcrivent les dtails de chaque tape de la segmentation.
Tous les descripteurs ont t extraits sur des fentres danalyse de 20ms avec un pas de
recouvrement de 10ms. On dnombre un total de 279 attributs extraits avant la slection
automatique.
Descripteurs Spectraux
Les descripteurs spectraux sont calculs partir du spectre estim par une Transforme
de Fourrier Court Terme. Voici ceux qui ont t extraits :
Les moments spectraux, sont calculs en considrant le spectre comme une distribu-
tion. Les 4 premiers moments du spectre sont calculs.
centrode spectral : barycentre du spectre (valeur moyenne)
largeur spectrale : talement du spectre autour de la valeur moyenne
asymtrie spectrale : mesure lasymtrie de la distribution autour de la valeur
moyenne
platitude spectrale : mesure la platitude de la distribution autour de la valeur
moyenne
La platitude damplitude spectrale et facteur de crte spectrale par bandes : mesure les
proportions relatives de bruit et de composantes sinusodales du spectre sur plusieurs
bandes de frquences.
La platitude spectrale globale : mesure les proportions relatives de bruit et de com-
posantes sinusodales sur lensemble du spectre.
La pente spectrale : reprsente le taux de dcroissance spectrale.
51
Fig. 3.4 Ensemble des descripteurs extraits pour la phase de segmentation timbrale.
Descripteurs Cepstraux
Descripteurs Temporels
Descripteurs Perceptifs
|1 2 |2
r= , (3.1)
1 2 + 2 2
1) Pour lensemble des attributs i (avec 1 i D), des scores fiq sont calculs pour
chaque classe Cq (avec 1 q Q) comme il suit :
Q
|p q |
fiq
!
i i
= (3.2)
p=1
ip + iq
2
http://people.kyb.tuebingen.mpg.de/spider/
53
fiq correspond la moyenne non normalise des discriminants de Fisher dans lesquels
la classe Cq intervient. Des discriminants de Fisher sont ainsi calculs pour tous les couples
de classes possibles et pour chaque attribut.
2) Les valeurs de discriminants sont ensuite tries par ordre dcroissant afin de trouver
les d attributs distincts correspondant aux valeurs arrives les premires dans le tri. Les d
attributs trouvs seront ceux retourns par la slection.
Afin dobtenir un bon rapport entre le nombre dattributs slectionns et les perfor-
mances, une exprience prliminaire mesurant les performances de clustering a t ralise
en faisant varier le nombre dattributs slectionns entre 10 et 40 sur les 279 attributs
initiaux. Il est ncessaire de garder un nombre dattributs relativement bas pour que lal-
gorithme reste rapide, cette condition est essentielle dans une approche interactive. Les
rsultats obtenus montrent quun optimum local est atteint pour la slection de 30 et 40
attributs (figure 3.5). Dans un but defficacit, nous choisissons de garder les 30 premiers
attributs slectionns qui sont dcrits dans le tableau 3.3.3.2. On remarque dans cette s-
lection une rpartition homogne des diffrentes familles de descripteurs. Cependant les
descripteurs temporels sont un peu en retrait avec la prsence unique du taux de passage
par zro dans la slection.
On peut noter que la plupart des descripteurs slectionns sont parmi les plus employs
pour dcrire le timbre musical.
Aprs la slection dattributs, on peut associer chaque trame k un vecteur de des-
cription Xk de dimension d (nombre dattributs choisis)
les suites de vecteurs dfinissant des segments seront utiliss par la suite pour reprsenter
des units sonores.
54 3. Segmentation interactive de musiques lectroacoustiques
Des units sonores sont par la suite dduites de la dtection de transitoires en consi-
drant quune unit se situe entre deux transitoire (figure 3.7). Chaque segment inter-
transitoire dfinit donc une unit sonore.
Une tude spcifique sur le sujet de lintgration temporelle (voir Joder et al. (2009)) a
montr que des oprateurs statistiques simples permettaient dobtenir des reprsentations
efficaces du signal audio pour dcrire des units sonores. Lintgration temporelle utilise
dans la segmentation en tient compte dans le choix de reprsentation propos. Ainsi, le
ieme segment inter-transitoire est reprsent par un vecteur S de dimension D = 2d :
S = ( , 2 ) (3.5)
k +L
! 1
1
2 = (Xk )2 (3.7)
L
k=k
Par consquent, chaque unit sonore est reprsente par un vecteur S de dimension
D.
un cluster plus gros. Le processus de fusion est rpt jusqu ce que les deux derniers
clusters soient fusionns. Ainsi, nous obtenons un arbre dont la partie extrme-haute de
la hirarchie (aussi appele racine) est associe lensemble total des donnes et sym-
triquement, les parties extrme-basses (les feuilles) sont associes un vecteur unique. Le
graphe hirarchique ainsi obtenu se nomme dendrogramme (figure 3.8), il peut tre vu
comme un arbre binaire ou chaque noeud est associ un ensemble de vecteurs. De plus, le
dendrogramme a pour avantage de reprsenter la distance entre les clusters : les longueurs
des lignes verticales des branches reliant deux clusters entre eux sont proportionnelles la
distance qui les spare.
Pour comparer deux clusters, une mtrique est ncessaire afin de mesurer la distance
entre deux vecteurs de dimension D. Nous utiliserons ici la distance euclidienne dE qui a
donn les meilleurs rsultats aprs des essais empiriques :
"
#D
|xi yi |2 ;
#!
dE (X, Y ) = $ (3.8)
i=1
1 !!
LdE (A, B) = dE (a, b), (3.9)
|A||B|
aA bB
de vecteurs total). Comme le montre la figure 3.8, on obtient un nombre diffrent de clusters
suivant le niveau ou lon coupe le dendrogramme. Si lon se rfre la figure 3.8, pour
le niveau nC1 reprsent en rouge on obtient 2 clusters : le cluster de gauche contient les
vecteurs 1, 3, 4, 2, 9, 6, 5 et 8 ; celui de droite contient les vecteurs 7 et 10. Pour le niveau
nC2 reprsent en bleu, on obtient les 8 clusters suivants : (1, 3), (4), (2, 9), (6), (5),
(8), (7), (10). Nous utiliserons et tendrons cette proprit par la suite afin damliorer les
performances de clustering.
Une fois le clustering ralis, nous pouvons obtenir une segmentation timbrale du signal
audio en donnant lalgorithme de clustering le nombre de clusters souhaits en entre.
Les units sonores sont regroupes par similarit : des segments se crent lorsque plusieurs
units sonores contiges temporellement sont regroupes dans un mme cluster. De mme,
une frontire apparait entre deux units sonores lorsquelles se succdent temporellement
mais appartiennent des clusters diffrents.
Fig. 3.9 Comparaison des coupes globale (en rouge) et locale (en bleu)
proposons. Nous appellerons la mthode de coupe prsente dans la section 3.3.5 coupe
globale. Nous proposons dintroduire une approche de coupe locale en utilisant le retour
utilisateur afin damliorer le clustering. La coupe locale est illustre dans la figure 3.9 (en
bleu).
On peut noter que chacune des deux stratgies nous permet de propager le retour
utilisateur sur toute la dure du signal. Cette proprit est illustre par les figures 3.10
et 3.11 : les parties hautes reprsentent les segments temporels sous lesquels on trouve
leurs dendrogrammes correspondants. Lapproche de coupe locale permet dobtenir des
59
3.4 Evaluation
Dans cette section, nous prsentons lvaluation de la segmentation timbrale de manire
indpendante. Nous avons ralis cette premire valuation avec le corpus monophonique
(corpus M ) dcrit dans la section 2.5.3.
2RP
f mesure = (3.12)
R+P
o R et P sont respectivement les moyennes de Ri et Pi sur toutes les classes.
60 3. Segmentation interactive de musiques lectroacoustiques
3.4.2 Expriences
3.4.2.1 Simulation utilisateur
Pour valuer linfluence de linteraction de lutilisateur sur les performances du clus-
tering, nous tirons avantage du fait que la segmentation souhaite ne laisse pas de place
des interprtations subjectives : il existe avec notre corpus synthtique une unique seg-
mentation correcte pour chaque pice. En connaissant cette vrit terrain, il est possible
de simuler les actions dun utilisateur. Un cluster est un ensemble de segments qui ne sont
pas ncessairement contigus temporellement. Nous considrons lors de la simulation que
lutilisateur commence par corriger les segments les plus erratiques : ceux dont le nombre
de trames mal tiquetes par rapport la vrit terrain est maximal. Le clustering est
par la suite mis jour et une nouvelle segmentation est prsente lutilisateur. Le mme
processus est rpt par lutilisateur jusqu obtenir une segmentation satisfaisante. De
plus, nous considrons que lutilisateur a accs la fonction logicielle classique annuler
(fonction undo en anglais) qui permet de remettre le systme dans ltat prcdent la
dernire action effectue.
0.9
Scenario 1
0.85 Scenario 2
0.8
0.75
0.7
fmesure
0.65
0.6
0.55
0.5
0.45
0.4
1 2 3 4 5 6 7 8 9 10
Nombre diterations
Les rsultats obtenus montrent que le second scnario donne les meilleurs rsultats et
que linteraction permet damliorer la segmentation initiale. Nous avons observ expri-
mentalement que la fusion de clusters ajoutait de linstabilit au systme ce qui explique
la dgradation des performances par rapport au premier mode dinteraction. En effet, la
fusion entre deux clusters quelconques dans le dendrogramme revient trouver lanctre
commun le plus proche entre ces deux clusters. Par consquent, la fusion peut tre dange-
reuse : dans un cas extrme, lanctre commun le plus proche des deux clusters peut tre la
racine du dendrogramme. Dans un tel cas, la fusion entre les deux clusters peut entrainer
61
3.5 Conclusion
Dans ce chapitre, nous avons propos un systme interactif de segmentation adapt aux
musiques composes dobjets sonores exploitant le retour utilisateur. Cette mthode permet
dobtenir la fois des frontires entre les mixtures et galement un tiquetage de chaque
segment. Deux scnarios dinteraction diffrents ont ts compars en gnrant un corpus
synthtique dont la construction est base sur une pice de musique concrte dOlivier
Messiaen. Les expriences ont t ralises en simulant lutilisateur et ses interactions avec
le systme. Les rsultats ont montr quune mthode simple qui propose lutilisateur
de couper les segments errons permet damliorer les performances de clustering par
rapport une approche statique.
La segmentation en mixtures ainsi obtenue permet dinitialiser le systme danalyse en
donnant la possibilit lutilisateur de choisir les segments contenant les classes sonores
62 3. Segmentation interactive de musiques lectroacoustiques
quil souhaite annoter dans le document : nous les nommerons segments reprsentatifs de
classe dans la suite de ce document.
63
Chapitre 4
Sommaire
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2 Etat de lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2.1 Classification dinstruments dans la musique polyphonique . . . . 66
4.2.2 Retour de Pertinence et Apprentissage actif . . . . . . . . . . . . 67
4.2.3 Classification multilabel . . . . . . . . . . . . . . . . . . . . . . . 68
4.2.4 Classification dimages . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3 Exploitation des informations dinitialisation . . . . . . . . . . . 71
4.4 Descripteurs utiliss . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5 Apprentissage interactif . . . . . . . . . . . . . . . . . . . . . . . 73
4.5.1 Architecture de la boucle dinteraction . . . . . . . . . . . . . . . 74
4.5.2 Slection dynamique dattributs . . . . . . . . . . . . . . . . . . 75
4.5.3 Prdiction au niveau des segments de mixtures . . . . . . . . . . 75
4.5.4 Apprentissage actif . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.6 Comparaison de deux approches interactives . . . . . . . . . . . 78
4.6.1 Approche par passages multiples (PM) . . . . . . . . . . . . . . . 78
4.6.2 Approche par passage unique (PU) . . . . . . . . . . . . . . . . . 82
4.7 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.7.1 Simulation utilisateur . . . . . . . . . . . . . . . . . . . . . . . . 85
4.7.2 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
64 4. Classification interactive dobjets sonores
4.1 Introduction
Ce chapitre se concentre sur la deuxime phase principale du systme : la classification
dobjets sonores qui permet de catgoriser les segments de mixtures obtenus par le procd
de clustering dcrit dans le chapitre prcdent. Pour obtenir une classification adapte
aux souhaits de lutilisateur, nous utilisons une approche interactive base sur le retour
de pertinence (relevance feedback) et lapprentissage actif (active learning). En effet, les
besoins de lutilisateur sont dpendants du point de vue danalyse (chapitre 2) et par
consquent, la classification doit pouvoir sadapter aux diffrents points de vue. Dans un
premier temps, il est ncessaire de dfinir certains concepts qui nous seront utiles dans
la suite du document. On peut distinguer plusieurs types de problmes de classification
(illustrs dans la figure 4.1) :
Problme bi-classes : ce type de problme est le plus simple. Dans ce cas, nous
avons uniquement deux classes possibles. Par consquent, ltiquetage dun chan-
tillon dans un problme bi-classe est binaire.
Problme multiclasses : ce type de problme concerne le cas o le nombre de
classes possible Q est suprieur deux. Ltiquette dun tel chantillon peut donc
tre reprsente par un entier e tel que 1 e Q avec Q > 2.
Problme multilabel : dans ce cas, un chantillon peut appartenir plusieurs
classes en mme temps. On parle souvent de classification non exclusive. Pour un
problme multilabel Q classes, on peut reprsenter ltiquette associe un chan-
tillon x par un vecteur (v1 , v2 , ..., vQ ) avec vq = 1 si x Cq et vq = 1 si x % Cq
(1 q Q).
Dans la phase de classification, lobjectif est dobtenir un tiquetage multiple des dif-
frents segments de mixtures constituant la pice. Autrement dit, le systme doit pouvoir
prdire pour chaque segment si il contient les classes sonores exprimes par lutilisateur ou
non. Il sagit donc dun problme multilabel. Le problme de classification est illustr par
la figure 4.2. Dans cet exemple, lutilisateur sintresse deux classes sonores en particulier
(S1 et S3) et des segments ont t tiquets manuellement. Le but est dobtenir lti-
65
quetage des autres segments en apprenant des classifieurs partir des segments tiquets
manuellement. Il sera ainsi possible dobtenir linformation de prsence dune classe sonore
donne sur lensemble du signal (flches en pointill sur la figure 4.2). Il sagit donc dun
problme de classification supervise avec un nombre dchantillons restreint.
Le systme danalyse propos a pour fonction dassister lutilisateur dans la tche dan-
notation des objets sonores. Il convient donc de faire en sorte que lannotation manuelle soit
minimale. Cependant, comment minimiser le nombre de segments tiquets manuellement ?
Comment choisir les segments tiqueter manuellement afin dobtenir des prdictions ef-
ficaces ?
Godsmark & Brown (1999) proposent dexploiter une trajectoire de timbre dans la-
quelle le centrode spectral en fonction de lamplitude est utilis pour sparer la musique
polyphonique en ses lignes mlodiques constituantes. Le modle propos permet dobtenir
un taux de reconnaissance de 80% pour des mlanges piano/contrebasse mais chute de 40%
pour des mixtures plus complexes 4 instruments.
Kinoshita et al. (1999) proposent une extension un systme existant qui ntait
pas robuste pour les signaux de mixtures prsentant des chevauchements de partiels. Le
systme est test avec des mlanges de deux notes crant des chevauchements. La mthode
fonctionne par rapprochement avec des templates connus qui seront pondrs en valuant
limportance des descripteurs.
Eggink & Brown (2003) proposent un systme de reconnaissance dinstruments par
Modle de Mlange Gaussien (GMM) et utilisent le concept de lattribut manquant (mis-
sing feature theory) quand il y a plus dun son la fois. Ainsi, les rgions frquentielles
qui contiennent des interfrences sont exclues du processus de classification car considres
comme non fiables. La mthode propose est value sur des combinaisons de deux instru-
ments avec des accords de deux notes ainsi que sur des mlanges de phrases instrumentales.
Essid et al. (2006) proposent une nouvelle approche de reconnaissance des instruments
base sur lapprentissage de taxonomies instrumentales. Cette approche nutilise pas de
sources instrumentales spares pour lapprentissage mais exploite des annotations de mu-
siques commerciales. Ainsi, les diffrents types de mixtures instrumentales sont appris sur
des morceaux de jazz (du duo au quartet) et lalgorithme cherche retrouver directement
ces mixtures dans les signaux de test. Cette mthode prend pour hypothse linvariabilit
de linstrumentation de certains styles musicaux et apprend retrouver les mlanges dans
des morceaux bass sur les mmes instruments.
Kitahara et al. (2007) prsentent une solution pour les problmes de variation des des-
cripteurs dus aux superpositions des sons instrumentaux. Pour rsoudre ce problme, les
auteurs utilisent une pondration des descripteurs base sur le degr de perturbation in-
troduit par la superposition. Dans cet article, linfluence de la superposition sur chaque
descripteur est assimile au rapport des variances intra-classe et inter-classe. La pondra-
tion est ralise par une analyse linaire discriminante qui permet de minimiser ce dernier
rapport.
Little & Pardo (2008) sintressent lidentification dinstruments dans des mixtures
en ralisant un apprentissage partir de segments partiellement tiquets. Dans ce travail,
les chantillons dapprentissage sont les mixtures qui contiennent linstrument appris dans
une proportion significative. Ainsi, le systme apprend partir de mixtures qui contiennent
la fois linstrument appris et galement dautres instruments. Une tude comparative est
ralise et montre que lapprentissage sur des chantillons partiellement tiquets permet
67
dobtenir de meilleurs rsultats quune approche classique o les modles sont appris
partir de sources instrumentales isoles.
Dans de nombreux travaux prsents, lapprentissage des modles se base sur la connais-
sance des instruments qui seront utiliss. La plupart du temps, les instruments appris sont
standards et appartiennent aux grandes familles dinstruments rencontres dans la mu-
sique occidentale. Dans notre cas, nous navons pas de connaissance a priori sur les sons qui
composent les pices lectroacoustiques car les compositeurs travaillent directement sur le
matriau sonore et peuvent utiliser nimporte quelle source sonore acoustique ou lectro-
nique. De plus les sources utilises sont souvent htrognes et polyphoniques lorigine
(par exemple : des chants doiseaux). Dans les travaux prsents, on peut sintresser par-
ticulirement lapproche de Little & Pardo (2008) qui utilise des chantillons de mixtures
partiellement tiquets pour lapprentissage. En effet, dans notre cas, comme nous ne dis-
posons pas de sources spares a priori, nous devrons forcment raliser lapprentissage
partir de mixtures sonores. Dans la section suivante, nous prsentons un tat de lart du
retour de pertinence et de lapprentissage actif dans le domaine audio car comme nous
lavons dit dans la section 2.5.2.2, tant donn la ncessit de proposer un systme adap-
tatif (pour les raisons musicologiques voques dans la section 2.4.2) et la difficult du
problme (un segment peut avoir plusieurs tiquettes car les pices sont polyphoniques),
le retour utilisateur est une source dinformation qui peut fortement aider la classification.
Hoashi et al. (2003) proposent de retrouver des morceaux de musique selon les pr-
frences propres un utilisateur qui sont supposes tre ambiges en utilisant le retour
de pertinence. Lapproche utilise des arbres de vecteurs quantifis (TreeQ) pour raliser la
recherche. Pour valuer la mthode, une base de donnes a t construite partir dune
collection de CDs du commerce. Les expriences montrent lefficacit du retour de perti-
nence pour la recherche dans la base ainsi que pour la constitution de profils utilisateurs
personnaliss.
Dans Mandel et al. (2006), un systme de recherche par similarit musicale exploitant
des machines vecteurs supports (SVM) combin lapprentissage actif est prsent. Pour
tester le systme, 1210 morceaux de musique pop ont ts classs par motions, styles et
artistes. Ainsi, un classifieur est appris pour chaque requte partir de diffrentes reprsen-
tations de descripteurs bas-niveaux dun ou plusieurs morceaux fournis par lutilisateur. Le
systme fonctionne itrativement : chaque itration, il prdit les tiquettes des morceaux
non tiquets partir du classifieur courant puis il utilise lapprentissage actif pour deman-
der lutilisateur dannoter de nouveaux morceaux afin de faire progresser lapprentissage.
Le but du systme est dobtenir une prdiction correcte des tiquettes en un minimum
ditrations. Ce travail vrifie que dans ce contexte, le recours lapprentissage actif per-
met de diminuer de moiti le nombre de morceaux annots manuellement. De plus, parmi
les diffrentes reprsentations de descripteurs bas-niveau compares, les rsultats montrent
68 4. Classification interactive dobjets sonores
quune reprsentation simple (moyenne et matrice de covariance des MFCC dun morceau)
permet dobtenir de meilleurs rsultats que des reprsentations plus complexes (GMM etc.).
Chen et al. (2008) prsentent un systme de recherche de contenu musical qui intgre le
retour utilisateur. Un algorithme dapprentissage bas sur une fonction de base radiale est
utilis pour la classification et un algorithme de pondration des descripteurs qui utilise la
fois les exemples positifs et ngatifs est prsent. Le systme est test pour la classification
en genres et en motions et obtient des rsultats comparables ceux prsents dans la
littrature.
Shan et al. (2008) proposent une approche pour la recherche de catgories musicales
spcifiques qui partagent un mme concept smantique. Les catgories tant subjectives,
ils utilisent le retour de pertinence pour apprendre les concepts smantiques sur de la
musique polyphonique reprsente symboliquement. Un modle de segment et une repr-
sentation qui intgrent des descripteurs globaux et locaux sont utiliss. La recherche est
effectue via un algorithme de reconnaissance de formes et un algorithme associatif de clas-
sification modifi. Trois stratgies sont utilises pour slectionner les objets les plus utiles
pour lapprentissage du concept (le plus positif, le plus informatif et une stratgie hybride).
On peut retenir que ces travaux utilisent le retour de pertinence et lapprentissage actif
afin dexprimer la subjectivit et ladaptabilit. Dans ces travaux, la recherche dun objet
particulier est dfinie par des exemples dobjets considrs comme appartenant une mme
catgorie par un utilisateur donn. Ces mthodes sont donc des outils puissants et utiles
dans notre contexte car ils peuvent permettre un utilisateur de dfinir ses propres objets
sonores en donnant des exemples choisis. Nous pouvons galement mentionner que la phase
de classification des segments de mixtures se rapproche de Mandel et al. (2006) qui cherche
classifier des reprsentations de morceaux complets en utilisant un algorithme SVM. Une
diffrence importante avec notre travail est que les segments de mixtures sont de lordre
de quelques secondes (cest peu par rapport aux 3 minutes dune chanson standard). Nous
avons donc moins dchantillons notre disposition pour lapprentissage des classes ce qui
justifie galement lapprentissage actif qui vise amliorer les performances de classification
lorsquon a peu dchantillons tiquets notre disposition (section 4.5.4).
original est dcrit dans Duda et al. (2001)). Cet algorithme modifi permet de prendre
en compte les tiquettes multiples pouvant tre affectes un chantillon. Pour prdire
le multilabel dun chantillon, lalgorithme calcule un histogramme des tiquettes de son
voisinage. Les tiquettes dont le nombre doccurrences dpasse un certain seuil (dtermin
exprimentalement) seront affectes lchantillon considr.
Trohidis et al. (2008) proposent une valuation de 4 algorithmes de classification multi-
label de la musique en motions, 6 classes dmotions diffrentes sont considres. La base
utilise comporte 593 morceaux et les approches compares sont les suivantes : pertinence
des rsultats de classifieurs binaires ou Binary Relevance (BR), tiquettes construites
avec les parties de lensemble initial ou Label Powerset (LP), k sous-ensembles ala-
toires RAndom K-labELsets (RAKEL), k plus proches voisins multilabel ou MultiLabel
k-Nearest Neighbor (MLkNN). Les trois premires mthodes sont des approches par trans-
formation du problme et la dernire est une approache par adaptation de lalgorithme. BR
considre la prdiction de chaque tiquette comme un problme de classification binaire
indpendant. Soit L lensemble des tiquettes possibles dun chantillon, LP considre le
problme de prdiction multiclasse des tiquettes dfinies par les parties de lensemble L.
RAKEL est une mthode rcente qui amliore lalgorithme LP (Tsoumakas & Vlahavas
(2007)). MLkNN est une approche performante de type adaptation de lalgorithme qui
adapte lalgorithme des k plus proches voisins la problmatique multilabel. Les trois
premires approches (BR,LP et RAKEL) ont t ralises laide dun classifieur SVM. Il
ressort de cette tude que la mthode RAKEL est la plus performante au dtriment dun
temps de calcul plus long. En effet, RAKEL ncessite de raliser des validations croises afin
de slectionner plusieurs paramtres avant la phase dentrainement. De plus, RAKEL est
une mthode de type ensemble qui utilise plusieurs modles dou un temps dentrainement
plus long.
Dans Lukashevich et al. (2009), une nouvelle approche pour la classification multila-
bel des genres musicaux est prsente. Trois expriences diffrentes sont ralises sur une
base de 430 morceaux de musiques du monde. On distingue 16 sous-genres ou influences
rgionales rpertories et chaque morceau peut tre affect une ou plusieurs tiquettes
parmi les 16. Dans la premire exprience, on considre quun multilabel unique est affect
chaque morceau. Dans la deuxime exprience, chaque morceau est segment et chaque
segment est affect un multilabel. Enfin, dans la troisime exprience, chaque segment
de morceau est considr selon trois aspects (le timbre, le rythme, la mlodie/harmonie)
et tiquet selon une tiquette unique. Un classifieur bas sur le modle de mlange de
gaussiennes (ou GMM pour Gaussian Mixture Model) est utilis. Pour la classification
multilabel, une approche de type BR est utilise. Ainsi, chaque classifieur binaire HC est
appris pour prendre une dcision binaire : lchantillon appartient-il la classe C ou non ?
Les auteurs prcisent que les rsultats obtenus pourraient tre amliors en utilisant un
classifieur de type SVM au lieu des GMMs.
Ces travaux nous renseignent notamment sur les diffrentes approches de classifications
utilises pour rsoudre un problme multilabel. On peut retenir en particulier que les
approches de type LP semblent tre plus performantes car elles prennent en compte les
intersections des classes mais elles demandent galement plus de temps de calcul car il faut
considrer un nombre de classifieurs plus important que le nombre dtiquettes possibles. La
mthode RAKEL obtient de bons rsultats mais souffre dune complexit importante qui
augmenterait fortement le temps dattente utilisateur. Nous pouvons galement remarquer
que les travaux rcents utilisent des classifieurs SVM ou, comme Lukashevich et al. (2009),
70 4. Classification interactive dobjets sonores
Crucianu et al. (2004) et Zhou & Huang (2003) dcrivent une vue densemble de la
littrature sur le retour de pertinence et lapprentissage actif appliqus la recherche
dimages. Certains travaux intgrent la fois le retour de pertinence par apprentissage
actif et la classification multilabel (Li et al. (2004), Goeau et al. (2008), Goeau (2009),
Singh et al. (2009), Qi et al. (2009)).
Li et al. (2004) proposent une mthode multilabel base sur des SVMs et exploitant
lapprentissage actif pour la classification dimages. Dans cette publication, une approche
de type BR est utilise et deux stratgies dchantillonnage originales sont prsentes et
compares une slection dchantillons alatoire.
Goeau et al. (2008) et Goeau (2009) prsentent un systme de classification dimages
bas sur une version videntielle de lalgorithme des k plus proches voisins qui utilise
galement lapprentissage actif. Ce systme permet lutilisateur dinitialiser, supprimer ou
fusionner des classes et ventuellement de corriger les propositions dtiquettes du systme.
Lapproche choisie permet de prendre en compte limprcision, lincertitude et les conflits
entre les descripteurs visuels. Ainsi, des stratgies dchantillonnage prenant en compte
la positivit, lambiguit et la diversit sont prsentes. Dans cette approche, les sorties
des classifieurs sont exprimes sous forme de probabilits pignistiques (Smets (2005)) qui
permettent de slectionner les chantillons en fonction de la stratgie. Lvaluation du
systme est ralise par simulation utilisateur et permet de comparer les rsultats obtenus
avec les diffrentes stratgies dchantillonnage. Le classifieur propos permet galement de
grer la classification multilabel.
Singh et al. (2009) proposent une approche de classification multilabel exploitant lap-
prentissage actif qui permet de rduire le nombre dimages prsentes lutilisateur. Cet
article propose dutiliser un classifieur SVM dans une approche BR et compare trois stra-
tgies dchantillonnage afin de rduire le nombre dimages que lutilisateur doit annoter
manuellement. La premire stratgie est alatoire, elle sert de point de rfrence. Pour
toutes les stratgies, limage nouvellement annote est ajoute lensemble dapprentissage
(elle est donc retire des images non tiquetes) et le processus est rpt itrativement.
La deuxime stratgie est dite annotation monolabel : il sagit dune stratgie souvent
utilise en apprentissage actif qui consiste chercher lchantillon le plus informatif. Dans
le cas des SVM, dans un problme bi-classe, lchantillon le plus informatif est lchantillon
le plus ambigu (celui le plus proche de lhyperplan sparateur). Dans la dernire strat-
gie, dite annotation multilabel, la distance la marge est probabilise et effectu pour
71
chaque tiquette possible et pour chaque chantillon. Une moyenne est ensuite calcule
pour chaque chantillon et celui qui maximise cette moyenne est slectionn. Les exp-
riences ralises dmontrent que la stratgie annotation monolabel est plus performante
que la stratgie annotation multilabel.
Qi et al. (2009) proposent une nouvelle approche de slection dchantillons pour des
problmes multilabels. Cette approche est dite 2 dimensions (ou 2DAL pour 2 Dimen-
sional Active Learning), elle slectionne des paires dtiquettes annoter manuellement
pour un chantillon slectionn. En considrant la fois la redondance des chantillons et
des tiquettes, lannotation manuelle est minimise. On peut noter que cette approche, si
elle semble performante, introduit des calculs supplmentaires lors de la slection afin de
calculer les redondances.
De nombreux travaux comme Hong et al. (2000), Tong & Chang (2001), Joshi et al.
(2009), Singh et al. (2009) utilisent des classifieurs SVM coupls des stratgies dchan-
tillonnage pour slectionner des exemples utiles. En effet, les SVM apparaissent comme
des classifieurs de choix car en apprentissage actif, nous avons besoin de mesurer lappar-
tenance relative dun chantillon une classe. Or, cette information peut tre obtenue
naturellement partir de la distance dun chantillon lhyperplan sparateur dans le cas
des SVM. On peut remarquer que les travaux exploitant lapprentissage actif dans des
problmes multilabels sont encore assez rares.
Pour initialiser lapprentissage des diffrentes classes sonores, lutilisateur doit choisir
un segment de dmarrage pour chaque classe vise. Il est souhaitable dinitialiser lappren-
tissage avec des segments reprsentatifs de chaque classe afin de ne pas obtenir des rsultats
contradictoires pour les premires itrations du systme. En effet, comme nous lavons ex-
pliqu dans le chapitre prcdent, les segments obtenus aprs segmentation sont pour la
plupart des mixtures composes de plusieurs sons superposs car la plupart des pices lec-
troacoustiques sont polyphoniques. Si nous reprenons notre exemple et la segmentation
correspondante (figure 4.3), il est facile dobserver ce phnomne de superposition propre
la musique polyphonique. La figure 4.3 oppose les segments reprsentatifs dune classe
sonore aux segments ambigus. On considre que les mixtures M 1 et M 4 sont reprsenta-
tives respectivement des classes de sons S1 et S3. En effet, ces deux segments contiennent
des sons isols et par consquent ils ne sont pas sujets aux phnomnes de masquage
sonore que peut engendrer la superposition de sons (Fastl & Zwicker (2007)). A loppos,
les segments M 3 et M 5 sont ambigus car ils sont constitus du mixage de plusieurs sons.
Du point de vue de lutilisation du systme, les remarques qui prcdent conduisent
72 4. Classification interactive dobjets sonores
4 5 5
Descripteurs Spectraux :
Les OBSIR : mesure de la diffrence entre les valeurs OBSI de bandes conscutives
(Essid (2005)).
Les coefficients LSF (Line Spectral Frequency) : utiliss pour reprsenter les coeffi-
cients de prdiction linaires Bckstrm & Magi (2006), Schussler (1976).
73
Fig. 4.4 Ensemble des descripteurs extraits pendant la phase de classification des objets
sonores.
Descripteurs Temporels :
Nous avons rappel en Annexe C les techniques dapprentissage que nous exploitons
dans notre systme. Cette section expose les grandes tapes de lapprentissage interactif,
les mthodes propres chaque approche dinteraction seront prsentes et compares dans
la section suivante.
74 4. Classification interactive dobjets sonores
Les segments qui rentrent en compte dans lapprentissage sont uniquement ceux valids
par lutilisateur. Par consquent, pour la premire itration, seuls les segments de dmar-
rage sont pris en compte. La phase dapprentissage regroupe deux tches distinctes : la
slection dattributs et lapprentissage des modles pour la classification. Ensuite, la phase
de classification est effectue : elle ralise une classification bas-niveau (pour chaque trame)
suivie dune intgration temporelle permettant la prise de dcision au niveau du segment.
Une fois la prdiction effectue, les tiquettes de segments sont mises jour dans linter-
face. La dernire phase de la boucle dinteraction est la slection active de segments. Dans
cette dernire, les segments non valids par lutilisateur sont considrs pour une slection
active (voir section 4.5.4). Le segment slectionn est par la suite prsent lutilisateur
pour la validation ou la correction. Lalgorithme peut ensuite dmarrer un nouveau cycle
en prenant en compte le segment valid/corrig par lutilisateur.
75
Dans cette phase de prdiction, nous utilisons galement linformation des frontires
de segments de mixtures obtenue dans la phase de clustering (chapitre 3). Ainsi, nous
cherchons estimer pour chaque segment de texture , une probabilit dappartenance
chaque classe P (Ci |Xk , ..., Xk +L 1 ). Pour raliser cette estimation, nous faisons lhypo-
thse simplificatrice classique que les observations (Xk , ..., Xk +L 1 ) sont indpendantes
ce qui nous permet dcrire :
k +L
% 1
P (Ci |Xk , ..., Xk +L 1 ) = p(Ci |Xk ) (4.2)
k=k
76 4. Classification interactive dobjets sonores
Il peut arriver que le produit dcrit dans 4.2 devienne trop petit pour des petites valeurs
de p(Ci |Xk ) donc nous prfrons utiliser :
k +L
! 1
log (P (Ci |Xk , ..., Xk +L 1 )) = log p(Ci |Xk ) (4.3)
k=k
Connaissant log (p(Ci |Xk )), nous obtenons log (P (Ci |Xk , ..., Xk +L 1 )) de faon si-
milaire :
k +L
! 1
log (P (Ci |Xk , ..., Xk +L 1 )) = log (1 p(Ci |Xk )) (4.4)
k=k
h,i = arg max (log (P (Ci |Xk , ..., Xk +L 1 )), log (P (Ci |Xk , ..., Xk +L 1 ))) (4.5)
Ci ,Ci
Ainsi, pour chaque segment de mixture, nous disposons dune estimation de son appar-
tenance chaque classe.
1 Variable
2 M:modle
3 L,U:ensembles de vecteurs
4 n,e:entiers
5 Dbut
6 Rpter
7 M train(L)
8 e = arg maxxU u(x, M )
9 label(e) input()
10 U U \e
11 L Le
12 TantQue |L| < n
13 Fin
Dans la procdure dapprentissage actif, M est entrain avec les exemples de L puis
lchantillon e qui maximise la fonction dutilit u est recherch. Ensuite on demande
lutilisateur ltiquette de e. Enfin, lchantillon e est enlev de lensemble des chantillons
non tiquets U puis ajout celui des tiquets L.
k +L
! 1
1
S( ) = u(k) (4.6)
L
k=k
Ainsi, le segment choisi est prsent lutilisateur expert qui peut valider ou corriger
la prdiction du modle.
1 Variable
2 M:ensemble de modles
3 L,U :ensemble de segments de mixtures
4 C :ensemble de classes
5 S0 :segment de mixtures
6 i, Q, :entiers
7 Dbut
8 Pour i variant de 1 Q Faire
9 Rpter
10 Mi train(L, Ci )
11 S0 = arg max U E(, Mi )
12 label(S0 ) correction_pm(S0 )
13 U U \ S0
14 L L S0
15 TantQue lutilisateur nest pas satisfait
16 Fin
Dans la boucle dinteraction par passages multiples, pour chaque classe i, Mi est en-
train avec les exemples de L puis le segment S0 qui maximise la fonction dutilit E est
recherch. Ensuite on demande lutilisateur de valider ou corriger S0 . Enfin, le segment
S0 est enlev de lensemble des segments non tiquets U puis ajout celui des tiquets
L. La boucle tant que est rpte jusqu ce que lutilisateur soit satisfait de la prdiction
pour la classe i avant de passer la classe suivante.
Cette stratgie slectionne les chantillons qui sont considrs par le classifieur comme
tant les plus pertinents (Crucianu et al. (2004)). Dans notre cas, nous disposons dune
probabilit a postriori estimant lappartenance la classe vise. Par consquent, les chan-
tillons les plus pertinents sont ceux qui maximisent la probabilit a postriori. Gomtri-
quement, ces chantillons sont les plus loigns de la surface de dcision et du ct positif.
Cette stratgie a pour avantage de proposer lutilisateur rapidement des chantillons de
la classe dintrt. Lutilisateur est donc rassur car il na pas beaucoup de corrections
effectuer mais en contrepartie la gnralisation peut prendre plus de temps.
Cette stratgie est le contraire de la prcdente : elle slectionne les chantillons qui
sont considrs par le classifieur comme tant les moins pertinents (Wu et al. (2006)).
Gomtriquement, ces chantillons sont les plus loigns de la surface de dcision et du ct
ngatif (nappartenant pas la classe vise). Cette stratgie a pour avantage dintroduire
de la diversit dans les donnes dapprentissage en slectionnant des chantillons considrs
comme diffrents de la classe vise.
1
Most Positive
0.9 Most Negative
Most Ambiguous
0.8
0.7
0.6
Score
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
p(Ci/Xk)
Fig. 4.6 Courbes de calcul des scores dutilits pour diffrentes stratgies
Dans le cas de la stratgie MP, les chantillons dont la probabilit est infrieure 0.5
nappartiennent probablement pas la classe en question et auront donc un score nul.
Par contre, les chantillons ayant une probabilit forte dappartenance la classe auront
un score fort comme on peut le voir sur la courbe. Dans le cas de la stratgie MA, les
chantillons les plus ambigus sont ceux ayant une probabilit incertaine situe autour de
la valeur 0.5. Donc, la courbe correspondante admet un score dutilit maximum pour
cette valeur de probabilit et des scores nuls pour les valeurs de probabilits certaines
(cest--dire 0 ou 1).
Nous avons ralis une exprience prliminaire sur les pices synthtiques du corpus
polyphonique afin de comparer les diffrentes stratgies dchantillonnage : chantillon le
plus ambigu (MA), le plus positif (MP), le plus ngatif (MN). Dans cette exprience, nous
simulons les interactions avec lutilisateur pendant la phase de classification. Le corpus
synthtique utilis pour cette exprience est polyphonique (corpus P) et nous utilisons la
segmentation parfaite obtenue lors de la gnration. Ainsi, nous valuons la f-mesure
chaque itration de lalgorithme pour 100 pices synthtiques de difficult intermdiaire
(3 sources sonores peuvent apparaitre simultanment au maximum). La simulation boucle
jusqu ce que le score maximum soit atteint (f mesure = 1). Nous calculons le score de
f-mesure Fi pour la classe Ci en utilisant les prdictions au niveau de chaque segment :
2Ri Pi
Fi = (4.8)
Ri + Pi
o Ri et Pi sont les mesures de rappel et de prcision de la classe i.
La figure 4.7 prsente une vue globale de la moyenne de f-mesure pour toutes les
itrations de lexprience. La figure 4.8 montre les performances dtailles des 3 stratgies
dchantillonnage sur les premires itrations. Dans cette dernire figure, la marque centrale
des boites en fil de fer correspond la mdiane, les bords des boites sont les 25eme et 75eme
centiles, les fils de fer stendent jusquaux minimas et maximas des donnes. Les deux
figures nous permettent de voir que la stratgie MA est la plus performante suivie de la
stratgie MP et de MN. La stratgie MA permet dobtenir un score de f-mesure de 0.95
en 12 itrations en moyenne comme le montre la figure 4.7. Les deux autres stratgies,
82 4. Classification interactive dobjets sonores
train(L, C) : fonction dentrainement qui retourne lensemble des modles appris pour
lensemble des classes C avec un ensemble dchantillons tiquets L.
E(, M) : fonction dchantillonnage qui retourne le degr dutilit dun segment
S U tant donn lensemble des modles M .
83
1 Variable
2 M:ensemble de modles
3 L,U :ensemble de segments de mixtures
4 C :ensemble de classes
5 S0 :segment de mixtures
6 :entier
7 Dbut
8 Rpter
9 M train(L, C)
10 S0 = arg max U E(, M)
11 label(S0 ) correction_pu(S0 )
12 U U \ S0
13 L L S0
14 TantQue lutilisateur nest pas satisfait
15 Fin
Entropie
Lentropie est utilise pour mesurer lincertitude dune variable alatoire. Cette infor-
mation peut tre trs utile dans notre cas car elle permet de prsenter lutilisateur un
segment dont la classification est incertaine (Settles (2010)). Le calcul de lentropie se fait
partir des estimations de probabilits a postriori pi des Q classes :
Q
!
H= pi log pi (4.9)
i=1
84 4. Classification interactive dobjets sonores
Les valeurs dentropie les plus grandes impliquent plus dincertitude sur la distribution.
Par consquent, si un chantillon a une distribution de probabilit avec une forte entropie
cela signifie que le classifieur nest pas certain de lappartenance aux classes. Linconvnient
de ce critre est quil est fortement influenc par les valeurs des classes peu importantes
(celles ayant des probabilits faibles). Ainsi, un chantillon ayant des probabilits trs
proches pour deux classes diffrentes pourra se retrouver avec une entropie relativement
faible alors que lincertitude sur son appartenance aux diffrentes classes est grande.
Ce deuxime critre propos par Joshi et al. (2009) tente de rsoudre les problmes
du critre dentropie. Dans ce critre, la mesure dincertitude est calcule par la diffrence
des probabilits des deux classes ayant les valeurs de probabilits les plus grandes. Cette
approche est une mesure plus directe de lincertitude dappartenance des classes. Le
calcul de ce critre est fait partir dune fonction D qui utilise max 1(p) et max 2(p),
respectivement la premire et deuxime plus grande probabilit de p :
Ainsi les petites valeurs de D seront les plus incertaines. Pour rester conforme lqua-
tion 4.9 nous souhaitons que les valeurs grandes soient les plus incertaines donc dans la
pratique, on obtient le critre Best Versus Second Best (BVSB) de la manire suivante :
Nous utilisons ce critre qui a dj fait ses preuves dans le domaine de la classification
dimages (voir Joshi et al. (2009)) et se rvle plus efficace que lentropie en pratique.
Mthode directe
Dans cette premire mthode, la gestion des classifieurs est une version multiclasse de
celle par passages multiples. La diffrence principale est que pour les Q classes considres,
chaque itration, Q classifieurs sont considrs (soit un par classe). Ainsi, les chantillons
positifs dune classe Cq sont ceux qui contiennent cette classe et les ngatifs ceux qui ne
la contiennent pas. La dcision dappartenance dun segment de mixture S la classe Cq
est donne par la rgle de combinaison que nous avons prsente (quation 4.5). On peut
considrer que cette mthode est une stratgie de classification de type Binary Relevance
tel que nous lavons dcrit dans ltat de lart (section 4.2.3).
85
h,j = arg max (log (P (Cj |Xk , ..., Xk +L 1 )), log (P (Cj |Xk , ..., Xk +L 1 ))) (4.12)
Cj ,Cj
4.7 Evaluation
4.7.1 Simulation utilisateur
Pour raliser lvaluation, nous avons simul les interactions de lutilisateur avec le
systme au cours des diffrentes tapes. Dans cette section nous prsentons la simulation
de cette suite dinteractions ainsi que les valuations ralises sur le corpus P que nous
avons dcrit prcdemment (section 2.5.3).
4.7.1.1 Segmentation
La segmentation a t prsente dans le chapitre 3. Nous rappelons quelle est utilise
pour trouver les frontires qui sparent les segments de mixtures dans le signal. De plus, la
segmentation permet de regrouper les mixtures proches entre elles timbralement afin que
lutilisateur puisse les comparer. Dans le chapitre 3, nous tirons comme conclusion que le
meilleur scnario utiliser parmi les deux compars est celui qui permet lutilisateur de
couper les segments. Nous avons vu que la mthode de clustering hirarchique offrait des
possibilits dinteraction intressantes pour adapter la segmentation au signal considr
mais il est galement important que lensemble du systme soit intuitif pour un utilisateur
86 4. Classification interactive dobjets sonores
qui na dans la plupart des cas pas de connaissances sur son fonctionnement interne. Par
consquent, nous dcidons de garder un mode dinteraction simple lors de linitialisation
afin de rendre le systme plus facile dutilisation et de bien distinguer les tapes de seg-
mentation et de classification. Le moyen dinteraction choisi est lutilisation dun slider
qui permet dobtenir une segmentation plus ou moins dense en fonction de sa position. La
position dorigine du slider correspond au niveau le plus haut du dendrogramme savoir
la racine (pas de segmentation) et la position la plus haute du slider correspond au niveau
des feuilles dans le dendrogramme (segmentation maximale). Ainsi, chaque incrment du
slider, on descend dun niveau dans la hirarchie du dendrogramme (cela correspond une
coupe globale). Cette approche permet lutilisateur dobtenir un compromis sans grand
effort puisque linteraction est simple et il sera dautant plus disponible pour la phase de
classification pendant laquelle il est activement sollicit.
Lutilisateur a la capacit de trouver le bon positionnement du slider en ralisant un
compromis entre le rappel et la prcision. Pour arriver ce rsultat, lutilisateur regarde
les frontires positionnes sur le signal et en coute les segments rsultants. Pour simuler
le positionnement du slider par lutilisateur, nous valuons la f-mesure pour chacune des
valeurs possibles de ce dernier. Or, la position optimale du slider correspond au score de
f-mesure le plus lev qui reprsente le meilleur compromis entre le rappel et la prcision.
Nous garderons cette valeur optimale pour raliser la simulation du choix des segments
reprsentatifs.
avec
"
#
# 1 k +L
! 1
E (i) = $ x2i (k) (4.14)
L
k=k
tapes de classification avec la figure 4.5. La seule simulation intervenant dans ce proces-
sus semi-automatique est la correction des prdictions ainsi que les dcisions darrt de
la boucle. La correction des prdictions est simule facilement du fait que nous disposons
de la vrit terrain construite pendant la gnration des pices synthtiques. Pour simuler
les dcisions darrt, on considre que lutilisateur interrompt le processus interactif lors-
quil est satisfait ce qui se traduit par le dpassement dun certain seuil de f-mesure. Par
consquent, la boucle dinteraction se termine lorsque chaque classe a atteint le seuil de
satisfaction F m0 . Dans les expriences, nous considrons que la prdiction est acceptable
lorsque la valeur seuil F m0 = 0.85 est atteinte. Nous avons galement simul la fonction
logicielle standard annuler : si le seuil de satisfaction F m0 est atteint pour une classe
donne, les rsultats ne doivent pas dcrotre dans les itrations suivantes. Par consquent
nous supposons que lutilisateur utilisera la fonction annuler si les rsultats dcroissent et
la classe correspondante sera verrouille afin de conserver les prdictions prcdentes afin
de les rutiliser litration suivante sans mise jour. De plus, lors de la slection dun
segment par apprentissage actif, nous filtrons les segments de longueurs infrieures 0.5 s
car ils pourraient tre mal jugs lors de la demande de retour utilisateur tant donn les
limites de la perception humaine.
Ainsi, nous calculons la f-mesure pendant toutes les itrations de lalgorithme complet
du systme pour les 500 signaux synthtiques.
4.7.2 Rsultats
4.7.2.1 Performances
Approche par passages multiples
Pour cette premire approche, nous avons conserv la stratgie dchantillonnage du
plus ambigu pour raliser lvaluation. Ce choix a t motiv dans la section 4.6.1.2. La
figure 4.9 prsente la f-mesure moyenne obtenue pour 20 itrations de lalgorithme sur des
classes individuelles pour les 5 niveaux de polyphonie.
Fig. 4.9 Score de f-mesure pour lannotation dune classe en fonction du nombre dit-
rations pour une approche par passages multiples sur les 5 niveaux de polyphonie
Compte tenu de la nature de lalgorithme, les rsultas sont donns pour la prdiction
88 4. Classification interactive dobjets sonores
dune classe unique. La figure 4.9 montre que les rsultats dcroissent en fonction de la
difficult polyphonique (cest un rsultat attendu compte tenu de la complexit croissante).
Nous observons que de bons rsultats sont obtenus aprs 10 itrations de lalgorithme pour
un niveau de polyphonie acceptable : on obtient une f-mesure moyenne de 0.87 pour une
complexit polyphonique de degr 4. Il est important de noter que compte tenu de la nature
de lapproche qui permet lutilisateur de se concentrer sur une classe la fois, le nombre
ditrations doit tre multipli par le nombre de classes vises prsentes dans la pice.
Fig. 4.10 Score de f-mesure pour lannotation dune pice complte en fonction du nombre
ditrations pour les deux mthodes par passage unique (la figure de gauche prsente les
rsultats pour un degr de polyphonie de 2 et celle de droite pour un degr de polyphonie
de 4).
Les rsultats montrent que la mthode qui introduit des classifieurs de mixtures dyna-
miquement en fonction du retour utilisateur (PU2) permet dobtenir un gain faible mais
consistant sur lensemble des niveaux de polyphonie. Ces deux mthodes considrent en
mme temps toutes les classes dintrt et nous observons quelles permettent de rduire
le nombre ditrations en comparaison de lapproche par passages multiples dans laquelle
lutilisateur doit rpter le processus de classification autant de fois quil y a de classes.
On remarque que lon atteint une f-mesure mdiane acceptable (elle dpasse le seuil de
satisfaction de 0.85) en moins de 5 itrations pour une complexit polyphonique de 2. Pour
obtenir une f-mesure mdiane similaire avec un degr de complexit polyphonique de 4, il
faudra raliser 25 itrations.
lutilisateur attende trop longtemps entre chaque itration de lalgorithme principal. Les
interactions pendant la phase de segmentation sont quasiment instantanes sur une machine
standard compte tenu de lefficacit de la structure hirarchique. Nous nous intresserons
donc la phase de classification des objets sonores qui est la plus complexe.
Dans cette phase, nous nous intressons au temps dattente de lutilisateur entre chaque
itration de lalgorithme. Ce temps dattente dpend principalement de lalgorithme de
classification bas sur les SVMs car le reste de lalgorithme est constitu doprations n-
gligeables. La complexit de lalgorithme SVM dpend grandement de limplmentation
utilise. Nous avons utilis celle de Chang & Lin (2011) pour ce travail qui est une librairie
efficace, crite en C. Au sujet de la complexit de cet algorithme, Chang & Lin (2011)
prcise que de nombreux travaux ont tudi la complexit des mthodes SVM (voir List
& Simon (2005)) mais que ces travaux sont consacrs des mthodes diffrentes. De plus,
il ny a actuellement pas de rsultats thoriques sur le nombre ditrations de la mthode
utilise mais Chang & Lin (2011) affirme quempiriquement il est reconnu que la complexit
de cet algorithme est polynomiale.
La figure 4.11 mesure le temps dattente total impos par le systme pour lannotation
dun fichier avec la mthode PM pour diffrents niveaux de polyphonie.
80
70
60
Temps (secondes)
50
40
30
20
10
0
1 2 3 4 5
Polyphonie
Fig. 4.11 Temps dattente total pour lannotation dun fichier avec la mthode PM en
fonction du niveau de polyphonie
On peut interprter facilement cette figure en considrant que le temps mesur corres-
pond au temps dannotation totale dune pice sans compter le temps de rflexion et les
interactions de lutilisateur. On constate que cette mthode est tout fait utilisable : on
observe des mdianes 4 secondes pour les pices monophoniques, 14 secondes pour un
degr polyphonique intermdiaire de 3 et 20 secondes pour un degr polyphonique de 5.
Cependant, comme nous lavons voqu dans la section prcdente, le nombre dinterac-
tions utilisateur demand par le systme est plus important que dans les autres mthodes.
Pour le temps dexcution dune itration, dans le cas des pices de degr polyphonique de
5, on mesure un temps minimum de 0,07 secondes et un temps maximum de 0,8 secondes.
La mthode PU2 (figure 4.12) expose des temps qui peuvent tre considrs comme
acceptables compte tenu du fait que toutes les classes sont gres en mme temps : on
observe des mdianes 18, 42 et 44 secondes pour des polyphonies respectives de 1, 3 et
5. Cette efficacit sexplique par le fait qu chaque itration, on introduit les nouveaux
chantillons dans un unique classifieur (dans cette mthode nous avons un classifieur pour
90 4. Classification interactive dobjets sonores
140
120
100
Temps (secondes)
80
60
40
20
0
1 2 3 4 5
Polyphonie
Fig. 4.12 Temps dattente total pour lannotation dun fichier avec la mthode PU2 en
fonction du niveau de polyphonie
chaque mixture et un segment ne peut tre affect qu une unique mixture). Par cons-
quent, chaque itration ne ncessite de lancer quune unique tche de classification. Cette
mthode a tendance faire augmenter le nombre de classifieurs mais chaque classifieur a
peu dchantillons : cela permet de garder des temps de calculs acceptables pour lunique
tche de classification lance chaque itration. Le temps dexcution dune itration, dans
le cas des pices les plus complexes, est compris entre 0,53 et 5,12 secondes.
On peut prciser que la mthode PU1 est la moins exploitable dans le contexte dune
application interactive. En effet, pour un segment de mixture contenant n classes, ses
chantillons seront introduits dans les classifieurs des n classes correspondantes. Cette
mthode nest pas efficace car elle a tendance augmenter la quantit dchantillons dans
chaque classifieur et elle impose souvent deffectuer plusieurs tches de classification
chaque itration.
Fig. 4.13 Classement des 20 descripteurs les plus slectionns pour lapproche PM (
gauche) et PU ( droite). Chaque descripteur est prsent dans le format Nom du descrip-
teur : Numro de lattribut.
Les figures 4.14 et 4.15 prsentent la variation des descripteurs slectionns pour dif-
frentes itrations de lalgorithme. On remarque une tendance commune entre les deux
approches : les attributs slectionns partir de litration 10 varient trs peu. En effet,
pour lapproche PM, entre les itrations 10 et 30, seul un attribut diffre (le coefficient
Loudness :3 est remplac par MFCC :3) dans la slection (les attributs communs ont ce-
pendant des rangs diffrents). On remarque galement pour lapproche PU que seulement 2
attributs diffrent entre les itrations 10 et 30. Ce rsultat est intressant car il nous permet
de dduire que la slection utile se fait pendant les premires itrations de lalgorithme.
Les figures 4.16 et 4.17 prsentent la variation des descripteurs slectionns pour les
diffrents niveaux de polyphonie. On remarque que les attributs slectionns varient de
manire importante entre les diffrents niveaux de polyphonie. En effet, dans les deux
approches, il ny a que 4 attributs en commun sur 10 pour des niveaux de polyphonie ex-
trmes. Cette observation met en valeur limportance de choisir des descripteurs spcifiques
lors dun problme de classification polyphonique.
92 4. Classification interactive dobjets sonores
Fig. 4.14 Variation des descripteurs slectionns pour lapproche PM pour les itrations
1, 10, 20 et 30. Chaque descripteur est prsent dans le format Nom du descripteur :
Numro de lattribut.
Fig. 4.15 Variation des descripteurs slectionns pour lapproche PU pour les itrations 1,
10, 20 et 30. Chaque descripteur est prsent dans le format Nom du descripteur : Numro
de lattribut.
4.8 Conclusion
Dans ce chapitre, nous avons prsent une solution adapte au problme de classifica-
tion des objets sonores. La mthode propose permet dobtenir un multilabel pour chacun
des segments de mixtures. Ainsi, on peut connaitre lappartenance relative dun segment
chacune des classes. Lapproche propose est interactive et sadapte aux choix de lutilisa-
teur. De plus, nous avons compar deux approches diffrentes dinteraction. Il est important
de noter que la premire approche, par passages multiples, a pour avantage de demander
un retour simple lutilisateur. La deuxime approche, par passage unique, demande un
effort plus important lutilisateur qui doit corriger les prdictions pour toutes les classes
vises dans les segments slectionns par le systme ce qui peut constituer un facteur de
fatigue.
Une valuation par simulation utilisateur nous a permis de comparer les deux approches
dinteraction. Lvaluation montre que lapproche par passages multiples est plus adapte
un petit nombre de classes : si le nombre de classes annoter est important, des rsul-
tats satisfaisants peuvent tre obtenus en un nombre ditrations infrieur avec la mthode
93
Fig. 4.16 Variation des descripteurs slectionns pour lapproche PM pour les diffrents
niveaux de polyphonie. Chaque descripteur est prsent dans le format Nom du descrip-
teur : Numro de lattribut.
par classifieurs de mixtures qui est lapproche par passage unique la plus efficace. Nous
avons galement montr que les approches PM et PU2 sont tout fait exploitables dans le
contexte dune application interactive car les temps de calculs mesurs pour ces mthodes
sont acceptables. Nous avons galement ralis une tude des descripteurs slectionns
dans la boucle dinteraction. Cette tude met en vidence le fait que les descripteurs slec-
tionns varient en fonction du niveau de difficult polyphonique. De plus, la slection de
descripteurs varie principalement pendant les premires itrations de lalgorithme.
94 4. Classification interactive dobjets sonores
Fig. 4.17 Variation des descripteurs slectionns pour lapproche PU pour les diffrents
niveaux de polyphonie. Chaque descripteur est prsent dans le format Nom du descrip-
teur : Numro de lattribut.
95
Chapitre 5
Conclusion
5.1 Bilan
Dans cette thse, nous avons propos un systme interactif destin aider lanalyse des
musiques lectroacoustiques. Le systme procde dabord par une segmentation interactive
lissue de laquelle lutilisateur pourra slectionner les segments qui contiennent les objets
sonores quil vise pour illustrer le point de vue de son analyse. Ensuite, le systme entre
dans une boucle dinteraction dans laquelle il prsentera des segments lutilisateur pour
quil puisse les valider ou les corriger. Ce processus itratif prend en compte les informations
apportes par lutilisateur afin damliorer la classification des objets sonores.
Nous avons ralis une tude sur les pratiques danalyse des musicologues ce qui nous a
permis de dgager des pistes de travail adaptes aux besoins rels et de comprendre la phi-
losophie gnrale de lanalyse des musiques lectroacoustiques qui se distingue de lanalyse
musicale traditionnelle. Il est galement important de considrer la nature subjective du
point de vue de lanalyse. Il ressort de cette tude que les transcriptions de pices en objets
sonores sont rarement ralises entirement car les musicologues se focalisent principale-
ment sur les objets saillants et sur ceux qui illustrent le point de vue de leur analyse. Parmi
les souhaits des musicologues, nous nous sommes concentrs principalement sur la segmen-
tation et la classification dobjets sonores afin de retrouver leurs diffrentes instances dans
une pice.
La premire phase du systme est une segmentation timbrale interactive qui repose sur
une segmentation temporelle obtenue par dtection de transitoires suivie dun clustering
hirarchique. Nous avons compar deux approches dinteractions qui ont t values par
simulation de lutilisateur laide dun corpus synthtique. Lvaluation a montr quil est
possible damliorer les performances de segmentation en ralisant des coupes locales de
dendrogrammes qui exploitent le retour de pertinence. Cette phase de segmentation nous
permet dobtenir la fois des frontires entre les mixtures sonores ainsi que de regrouper les
segments similaires timbralement. Ainsi, lutilisateur peut choisir un segment de mixture
reprsentatif pour chaque classe sonore quil souhaite tudier.
La deuxime phase du systme propose une approche de classification interactive des
objets sonores que lutilisateur souhaite tudier dans une pice lectroacoustique. A chaque
itration de lalgorithme, un nouveau segment est slectionn automatiquement par appren-
tissage actif et lutilisateur corrige ou valide les prdictions du systme. Nous pouvons ainsi
obtenir un ensemble dtiquettes donnant lappartenance relative aux classes tudies pour
les segments de mixtures dfinis dans ltape de segmentation. Deux approches dinterac-
tions ont t compares en simulant lutilisateur sur un corpus synthtique polyphonie
96 5. Conclusion
variable. La premire approche, dite par passages multiples, a pour avantage de demander
un retour trs simple lutilisateur mais prend plus de temps pour raliser lannotation
dune pice. La deuxime approche, par passage unique, est plus efficace mais demande
lutilisateur plus dattention car le retour de pertinence est plus complexe et la gestion de
verrouillage des classes est galement contrle par lutilisateur. Nous avons galement
propos une mthode de classification de type multilabel, dans une approche Label Po-
werset, oriente mixtures exprimes par lutilisateur et par passage unique qui permet
dobtenir une amlioration consistante des performances sur lensemble des niveaux de
polyphonie valus.
Ces travaux sont une premire pierre ldifice. En effet, le sujet tant relativement
inexplor lorigine, de nombreux problmes abords par les musicologues pourraient tre
explors. De plus, la dmarche propose pourrait encore tre amliore sur certains points.
5.2 Perspectives
Une partie des souhaits qui ont t exprims par les musicologues dans la section 2.4.2 ne
sont pas pris en compte par le systme propos qui constitue une base sur laquelle il serait
possible de greffer des fonctionnalits additionnelles. Couprie et Delhaye souhaiteraient par
exemple pouvoir trouver les grandes priodes dans une pice ce qui pourrait tre ralis
en analysant le reprage des instances dobjets sonores retrouves par notre systme. En
effet, dans certaines pices, les suites dobjets rcurrentes pourraient constituer des motifs
donnant des indices sur la structure. Delhaye parle galement dun systme qui permet
de sparer les diffrentes voix de mixage dune pice. Or, une fois les objets sonores
principaux reprs par notre systme, cette connaissance pourrait informer un algorithme
de sparation de sources pour raliser le dmixage de ces objets (Hennequin et al. (2011)).
On peut galement citer Delalande qui considre comme important le fait de pouvoir
raliser des symboles graphiques la main. Ainsi, une intgration de notre systme une
architecture logicielle ouverte telle que lacousmographe permettrait dobtenir le meilleur
des deux mondes.
Nous avons montr lintrt de la coupe locale du dendrogramme pour une tche de
segmentation pure. Cependant, cette approche introduit un nombre dinteractions suppl-
mentaires non ngligeable. Il pourrait tre intressant de tester une approche qui laisse
lutilisateur la possibilit de modifier manuellement des frontires de segmentation. Ainsi,
si certains segments caractristiques de classes ne sont pas segments correctement, luti-
lisateur pourrait intervenir directement et corriger la segmentation pour la rendre plus
adapte. De plus, nous nous sommes limits au timbre pour la segmentation mais il pour-
rait tre envisageable de considrer dautres aspects (enveloppes temporelles, hauteurs etc.)
en utilisant des descripteurs diffrents. Il serait galement possible dessayer dexploiter lin-
formation dtiquetage donne par le clustering : les segments proches timbralement ont la
mme tiquette. Pour dmarrer lapprentissage dune classe, il serait donc possible dutili-
ser les chantillons des segments de mme tiquette que lobjet sonore vis afin dacclrer
le processus dannotation. Cependant, ces segments ntant pas confirms par lutilisateur,
il ne sont pas aussi fiables que ceux directement slectionns par ce dernier.
Pour la phase de slection dattributs qui est ralise chaque itration de lalgorithme
de classification, la mthode teste dans notre systme est une des plus simples et a pour
intrt principal dtre trs rapide. Cependant, lemploi dune mthode plus volue tout en
restant rapide permettrait sans doute dobtenir de meilleures performances gnrales. De
plus, en ce qui concerne les deux approches dinteraction compares, il serait envisageable de
97
considrer une approche hybride par passage unique et passages multiples afin de minimiser
leffort fourni par lutilisateur.
Un bon nombre de pices lectroacoustiques utilisent des effets de spatialisation tant
donn quelles sont la plupart du temps diffuses sur un orchestre de hauts-parleurs 1 .
Ainsi, la composition de lespace une importance capitale dans ce type de pices. Par
consquent, il serait pertinent denvisager des descripteurs multicanaux qui puissent dcrire
les effets de spatialisation afin de les intgrer dans le systme danalyse.
Certains compositeurs de musiques lectroacoustiques utilisent les diffrents effets et
traitements sonores pour prsenter les instances dun mme objet sonore de faons diff-
rentes. Il pourrait tre intressant de prendre en compte ces traitements et altrations des
diffrentes instances dun mme objet dans la phase de classification.
Le systme a t valu partir dun corpus synthtique ce qui semble tre une tape
indispensable afin dobtenir des rsultats sur une quantit raisonnable de donnes et dob-
server le comportement des mthodes en fonction de la complexit polyphonique. Ce-
pendant, une valuation avec des utilisateurs rels pourrait sans doute mettre en valeur
des amliorations possibles des modes dinteractions du systme. De plus, nous sommes
conscients quon ne peut pas tout simuler et que la confrontation des pices relles serait
un indicateur prcieux pour des amliorations possibles du systme.
1
http ://www.inagrm.com/categories/un-orchestre-de-haut-parleurs
98 5. Conclusion
99
Annexe A
Cette annexe prsente les diffrents chantillons sonores utiliss lors de la cration des
deux corpus.
Fig. A.1 Echantillons sonores utiliss pour la cration du corpus monophonique lors de
la phase de slection dattributs.
Fig. A.2 Echantillons sonores utiliss pour la cration du corpus monophonique lors de
la phase de test.
101
Fig. A.3 Echantillons sonores utiliss pour la cration du corpus polyphonique. Chaque
ligne du tableau correspond un chantillon unique.
102 A. Echantillons sonores utiliss
103
Annexe B
Descripteurs utiliss
k
avec ak est lamplitude de la kime composante frquentielle du spectre et fk = N est
la frquence correspondante.
Centrode spectral
Il sagit du barycentre du spectre calcul en considrant le spectre comme une dis-
tribution. Il est souvent utilis pour caractriser la brillance dun spectre en mesurant
lquilibre entre les basses frquences et les hautes frquences :
M1 = 1 (B.2)
Largeur spectrale
Etalement du spectre autour de la valeur moyenne :
'
M2 = 2 21 (B.3)
Asymtrie spectrale
Mesure lasymtrie de la distribution autour de la valeur moyenne (correspond au mo-
ment statistique dordre 3). Une valeur dasymtrie nulle correspond une distribution
symtrique, une valeur ngative indique quil y a plus dnergie dans la partie gauche du
spectre, une valeur positive indique quil y a plus dnergie dans la partie droite du spectre :
104 B. Descripteurs utiliss
231 31 2 + 3
M3 = (B.4)
M23
Platitude spectrale
Mesure la platitude de la distribution autour de la valeur moyenne, elle est calcule
partir du 4me moment statistique :
341 + 61 2 41 3 + 4
M4 = 3 (B.5)
M24
( kbf Ak )1/k
&
P AS(bf ) = 1 & , (B.6)
K kbf Ak
Pour un signal bruit, la valeur P AS est proche de 1. Le cas chant, pour un signal
essentiellement compos de sinusodes, la valeur P AS est proche de 0.
max Akbf
F CSB(bf ) = 1& (B.8)
K kbf Ak
105
Pente Spectrale
La pente spectrale reprsente le taux de dcroissance spectrale. Il est calcul par r-
gression linaire de lamplitude spectrale : P S(f ) = pente.f + c avec
& & &
1 N k f (k).ak k f (k) k ak
pente = & (B.9)
N k f 2 (k) ( k f (k))2
& &
k ak
Dcroissance Spectrale
Mesure la dcroissance des amplitudes spectrales. Il se calcule de la faon suivante :
1 ! ak a1
DS = & (B.10)
k=2...K ak k1
k=2...K
Variation Spectrale
Facteur de variation du spectre en fonction du temps. Il est calcul partir de la
corrlation croise entre les amplitudes spectrales successives a(t 1) et a(t). Le flux
spectral tend vers 0 quand les contenus spectraux successifs sont similaires, vers 1 quand
ils sont diffrents.
&
ak (t 1).ak (t)
VS =1 & k( (& (B.11)
a (t 1)2 2
k k k ak (t)
Frquence de coupure
Frquence partir de laquelle 95% de lnergie du spectre est contenue :
fc f e/2
! !
2
a (f ) = 0.95 a2 (f ), (B.12)
0 0
Flux Spectral
Mesure la variation du spectre entre des trames conscutives conformment Scheirer
& Slaney (1997) :
Modulation dAmplitude
Caractrise les phnomnes de trmolo (entre 4 et 8 Hz) ou encore la rugosit dun son
(entre 10 et 40 Hz). Les 4 critres sont dtaills dans Martin (1999), Eronen (2001), Essid
(2005) :
Frquence MA : frquence du pic damplitude maximale.
Amplitude MA : diffrence entre lamplitude maximale et lamplitude moyenne glo-
bale du spectre.
106 B. Descripteurs utiliss
Coefficients dautocorrlation
Les coefficients dautocorrlation reprsentent la distribution spectrale dans le domaine
temporel. Ce descripteur a dj t utilis avec succs dans Brown (1998) pour la classi-
fication automatique dinstruments de musique et peut tre calcul de la faon suivante
pour un signal x :
N k1
1 !
AC(k) = xn xn+k (B.14)
x20 n=0
Energie
Nous utilisons galement un descripteur dnergie calcul partir de la moyenne qua-
dratique des trames du signal :
"
#
#1 !N
E= $ x2n (B.15)
N
n=1
Enveloppe damplitude
Lenveloppe damplitude est obtenue par une approche sinspirant de celle de Bertho-
mier (1983). Un signal danalyse y est dabord calcul sur des fentres longues :
o (n) est la transforme de Hilbert du signal x(n). Lenveloppe damplitude est par
la suite obtenue par :
avec h(n) est une demi-fentre de Hanning de 50ms qui permet de raliser un filtrage
passe-bas.
108 B. Descripteurs utiliss
Les coefficients utiliss pour la description sont ceux de la loudness spcifique relative
Lr dfinie comme le rapport de la loudness spcifique sur la loudness totale LT :
L(bf )
Lr (bf ) = , (B.19)
LT
avec LT = kbf L(k). La normalisation par LT permet dtre indpendant des condi-
&
tions denregistrement qui peuvent varier de manire importante. De plus, nous utilisons
galement les drives temporelles de premier et de second ordre.
Acuit perceptive
Lacuit perceptive est la version perceptive du centrode spectral. Ce descripteur,
introduit par Peeters (2004), est calcul partir de la loudness spcifique L :
&
bf bf.g(bf ).L(bf )
AP = 0.11 , (B.20)
LT
avec g(bf ) dfinie comme il suit :
)
1 si bf < 15
g(bf ) = (B.21)
0.066 exp (0.171bf ) si bf 15
Etalement perceptif
Mesure lcart entre la loudness spcifique maximale et la loudness totale. Ce descrip-
teur est propos par Peeters (2004) et sobtient comme il suit :
+2
LT maxbf L(bf )
*
EP = (B.22)
LT
109
Annexe C
Apprentissage supervis
Dans cette annexe, nous prsentons une introduction lapprentissage supervis sta-
tique qui constitue un des fondements des mthodes utilises dans nos travaux.
C.1 Principes
Lapprentissage supervis est une forme dapprentissage automatique qui permet,
partir dchantillons tiquets par un expert, de prdire les tiquettes de classes de nou-
veaux chantillons. Dans notre cas, linformation de segmentation et de regroupement des
segments apporte par linitialisation est exploite par lutilisateur expert qui slectionne
les segments caractristiques des classes quil vise (section 4.3). Cette action de slection-
ner des segments distincts pour chaque classe, constitue ltiquetage expert qui permet
dappliquer les mthodes dapprentissage supervis. Dans notre problme, nous avons Q
classes {Cq }1qQ et nous disposons dchantillons (en petit nombre) pour chaque classe.
En apprentissage, on oppose souvent les mthodes gnratives aux mthodes discrimina-
tives.
Dans les mthodes gnratives, on cherche estimer une densit de probabilit a post-
riori P (Cq |x) en utilisant les chantillons connus. On peut obtenir la densit de probabilit
conditionnelle p(x|Cq ) dcrivant la distribution des chantillons x de la classe Cq ainsi que
la probabilit a priori P (Cq ) de chaque classe en utilisant les chantillons connus. On dduit
lappartenance dun chantillon x une classe Cq0 par la rgle de dcision bayesienne :
Le principe du maximum a postriori qui rgit cette dcision garantit une erreur mini-
male. En appliquant la formule de Bayes :
P (Cq )p(x|Cq )
P (Cq |x) = arg max , (C.2)
1qQ p(x)
on peut exprimer q0 en fonction de la densit de probabilit conditionnelle :
Dans la majorit des cas, lhypothse dquiprobabilit des classes Cq est retenue et
permet de simplifier lquation :
110 C. Apprentissage supervis
Dans la section suivante, nous prsentons les Machines Vecteurs Supports qui sont
reprsentatives de lapproche discriminative.
Fig. C.1 Un cas simple de SVM pour des donnes presque sparables linairement
Les Machines Vecteurs Supports (SVM) sont bases sur le principe de la maximisa-
tion de la marge introduit par Vapnik et Lerner. Il existe plusieurs types dimplmentation
des SVMs dans la littrature. Dans ce travail, nous utilisons la version C-SVC (C-Support
Vector Classification) prsente dans Boser et al. (1992), Cortes & Vapnik (1995). Les
SVMs permettent de choisir une surface sparatrice entre les classes en respectant le prin-
cipe de minimisation du risque structurel ce qui revient maximiser la marge. La figure
C.1 illustre les diffrentes variables dans un cas simple. Les vecteurs entours sont des
vecteurs supports : on dsigne ainsi les vecteurs les plus proches de lhyperplan sparateur.
Les distances d1 et d2 sont gales, cette distance est la marge des SVM. Nous avons L
vecteurs dentrainement xi D attributs auxquels nous associons une tiquette yi = 1.
Lhyperplan sparateur peut tre dcrit par :
wT x + b = 0, (C.5)
b
o w est la normale lhyperplan et ||w|| est la distance orthogonale de lhyperplan
lorigine. En observant la figure C.1, nous dduisons que nos donnes dentrainement
peuvent tre dcrites par les quations C.6.
111
)
wT xi + b +1 si yi = +1
(C.6)
wT xi + b +1 si yi = 1
Les deux quations peuvent tre combines comme il suit :
yi (wT xi + b) 1 0 i (C.7)
Pour grer le cas ou les donnes dentrainement ne sont pas compltement sparables
linairement, on introduit une variable dcart positive i avec i = 1...L. Ainsi lquation
prcdente devient :
yi (wT xi + b) 1 + i 0 avec i 0 i (C.8)
Finalement, nous cherchons rsoudre le problme doptimisation suivant :
)
minw,b, 12 wT w + C L
&
i=1 i
(C.9)
sous les contraintes yi (wT xi + b) 1 + i 0, i 0 i
Avec C > 0 est le facteur derreur qui permet de contrler le compromis entre le nombre
dexemples mal classs et la largeur de la marge. Le lecteur pourra se rfrer Fletcher
(2008) qui explique de faon trs didactique les dtails de calcul pour la rsolution du
problme doptimisation des SVM.
Fig. C.2 Exemple de donnes non linairement sparables avec la surface de dcision
estime par un algorithme SVM
Les fondements thoriques que nous venons de prsenter sappliquent uniquement aux
donnes linairement sparables dans lespace de description. Or, ce cas idal est rarement
rencontr dans la nature o les distributions peuvent avoir des formes complexes dans
lespace multidimensionnel comme le montre la figure C.2. Pour cette raison, une fonction
noyau est utilise afin dobtenir des surfaces de dcision non linaires. Le principe dune
fonction noyau est de transformer les donnes exprimes dans lespace des attributs D
dimensions dans un espace de dimension plus grande voir infinie. En procdant ainsi, il est
112 C. Apprentissage supervis
possible de trouver une sparatrice linaire dans le nouvel espace. Les noyaux rencontrs
le plus souvent dans la littrature sont les suivants :
Le noyau linaire : k(x, y) = x.y
Le noyau polynmial de degr : k(x, y) = (x.y)
||xy||2
Le noyau radial exponentiel : k(x, y) = e 2 2
Dans ce travail, nous utilisons le noyau radial exponentiel (encore appel noyau gaus-
sien) qui possde des bonnes proprits de gnralisation.
La sortie des SVM est binaire mais il existe des mthodes permettant destimer des
probabilits a postriori. Cette estimation constitue une information plus complte quune
tiquette binaire : elle donne un degr de confiance pour lappartenance une classe.
Pour estimer la probabilit, lhypothse de dpart est que plus un exemple est loign
de la surface de sparation, plus lestimation dappartenance la classe considre est
fiable. Dans Platt (1999), lauteur propose dutiliser une forme sigmodale pour modliser
la probabilit de la classe positive en partant de lhypothse empirique que les densits
de probabilits conditionnelles sont exponentielles dans la marge. En supposant que f est
la fonction de dcision, la probabilit conditionnelle dappartenance la classe positive
sexprime ainsi :
1
P (y = 1|f (x)) = (C.10)
1 + exp (Af (x) + B)
On pourra consulter Platt (1999) pour plus de dtails.
Stratgie OVO
connue propose par Hastie & Tibshirani (1998) consiste estimer les probabilits a post-
riori P (Cq |x) pour chaque classe. La prise de dcision est par la suite ralise en appliquant
la rgle de dcision bayesienne (quation C.1). La stratgie OVO permet dobtenir de bons
rsultats mais en contrepartie elle peut galement devenir un peu lourde en raison de sa
complexit et du nombre de calculs intermdiaires quelle implique.
Stratgie OVA
La stratgie OVA est plus simple que la prcdente. Dans cette approche, Q classifieurs
sont construits, soit un classifieur par classe. Pour un classifieur q donn (avec 1 q Q),
on considre deux types dchantillons : les chantillons qui appartiennent la classe q
nomms chantillons positifs et ceux qui ne lui appartiennent pas nomms chantillons
ngatifs. Pour chaque classifieur, dans lapproche discriminative, on cherche trouver la
surface qui spare les chantillons positifs des chantillons ngatifs. Comme nous lavons
vu, il est possible de probabiliser la sortie dun classifieur SVM. Ainsi, on peut obtenir
une probabilit dappartenance Pq pour une classe q donne. La dcision finale, dans un
contexte multiclasse classique, sera prise en cherchant la classe qui maximise la probabilit
dappartenance Pq :
Lapproche OVA est moins utilise dans la littrature que la stratgie OVO. Cependant,
une comparaison avec dautres approches plus complexe effectue dans Rifkin & Klautau
(2004) montre que lapproche OVA permet dobtenir de bons rsultats malgr sa simplicit.
On peut noter quil existe des mthodes qui tentent de reformuler les SVM en une
approche multi-classe (voir Rifkin & Klautau (2004) pour un aperu), mais les moyens mis
en oeuvre sont la plupart du temps gourmands en temps de calcul.
114 C. Apprentissage supervis
115
C.1 Un cas simple de SVM pour des donnes presque sparables linairement . . 110
C.2 Exemple de donnes non linairement sparables avec la surface de dcision
estime par un algorithme SVM . . . . . . . . . . . . . . . . . . . . . . . . . 111
117
Index
intgration temporelle, 54
objet sonore, 24
one versus all (OVA), 113
one versus one (OVO), 112
passage unique, 82
passages multiples, 78
118 INDEX
119
Bibliographie
Alonso, M., Richard, G. & David, B. (2005), Extracting note onsets from musical recor-
dings., Multimedia and Expo, 2005. ICME 2005. IEEE International Conference .
Bckstrm, T. & Magi, C. (2006), Properties of line spectrum pair polynomials : a review,
Signal Process. 86(11), 32863298.
Boser, B., Guyon, I. M. & Vapnik, V. (1992), A training algorithm for optimal margin
classifiers, Proceedings of the fifth annual workshop on Computational learning theory
COLT 92 p. 144152.
Casey, M. A., Veltkamp, R., Goto, M., Leman, M., Rhodes, C. & Slaney, M. (2008),
Content-Based music information retrieval : Current directions and future challenges,
Proceedings of the IEEE 96(4), 668696.
Cettolo, M. & Vescovi, M. (2003), Efficient audio segmentation algorithms based on the
BIC, in 2003 IEEE International Conference on Acoustics, Speech, and Signal Proces-
sing, 2003. Proceedings. (ICASSP 03), Vol. 6, IEEE, pp. VI 53740 vol.6.
Chai, W. (2003), Structural analysis of musical signals via pattern matching, in 2003 IEEE
International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings.
(ICASSP 03), Vol. 5, IEEE, pp. V 54952 vol.5.
120 BIBLIOGRAPHIE
Chai, W. & Vercoe, B. (2003), Structural analysis of musical signals for indexing and
thumbnailing, in JCDL 03 : Proceedings of the 3rd ACM/IEEE-CS joint conference on
Digital libraries, IEEE Computer Society, Washington, DC, USA, p. 2734.
Chang, C. & Lin, C. (2011), LIBSVM : a library for support vector machines, ACM
Transactions on Intelligent Systems and Technology 2(3), 27 :127 :27. Software available
at http ://www.csie.ntu.edu.tw/ cjlin/libsvm.
Chen, G., Wang, T. & Herrera, P. (2008), A novel music retrieval system with relevance
feedback, in Proceedings of the 2008 3rd International Conference on Innovative Compu-
ting Information and Control, IEEE Computer Society, Washington, DC, USA, p. 158.
Cohn, D. A., Ghahramani, Z. & Jordan, M. I. (1996), Active learning with statistical
models. Journal of Artificial Intelligence Research, Vol 4, (1996), 129-145.
Cooper, M. (2002), Automatic music summarization via similarity analysis, Proc. IRCAM
.
Cooper, M. & Foote, J. (2003), Summarizing popular music via structural similarity analy-
sis, in Applications of Signal Processing to Audio and Acoustics, 2003 IEEE Workshop
on., IEEE, pp. 127 130.
Couprie, P. (2004), Graphical representation : An analytical and publication tool for elec-
troacoustic music, Organised Sound 9(01), 109113.
Couprie, P. (2006), (Re) presenting electroacoustic music, Organised Sound 11(02), 119
123.
Crucianu, M., Ferecatu, M. & Boujemaa, N. (2004), Relevance feedback for image retrieval :
a short survey, in State of the Art in Audiovisual Content-Based Retrieval, Informa-
tion Universal Access and Interaction including Datamodels and Languages (DELOS2
Report).
Desobry, F., Davy, M. & Doncarli, C. (2005), An online kernel change detection algorithm,
IEEE Transactions on Signal Processing 53(8), 2961 2974.
Eggink, J. & Brown, G. J. (2003), Application of missing feature theory to the recognition
of musical instruments in polyphonic audio, in Proc. of International Conference on
Music Information Retrieval.
121
Essid, S., Richard, G. & David, B. (2006), Instrument recognition in polyphonic music
based on automatic taxonomies, IEEE Transactions on Audio, Speech, and Language
Processing 14(1), 68 80.
Fletcher, T. (2008), Support Vector Machines Explained, Tutorial paper, University College
London.
Foote, J. (2000), Automatic audio segmentation using a measure of audio novelty, in Mul-
timedia and Expo, 2000. ICME 2000. 2000 IEEE International Conference on, Vol. 1,
p. 452455 vol.1.
Formosa, M., Fremiot, T., Delalande, F., Gobin, P., Malbosc, P., Mandelbrojt, J. & Pedler,
E. (1996), Les Units smiotiques temporelles : lments nouveaux danalyse musicale,
Laboratoire musique et informatique de Marseille.
Geslin, Y. & Lefevre, A. (2004), Sound and musical representation : the acousmographe
software, in International Computer Music Conference, Miami, USA.
Gillet, O. & Richard, G. (2004), Automatic transcription of drum loops, in IEEE Inter-
national Conference on Acoustics, Speech, and Signal Processing, 2004. Proceedings.
(ICASSP 04), Vol. 4, IEEE, pp. iv269 iv272 vol.4.
Goeau, H., Buisson, O. & Viaud, M. L. (2008), Image collection structuring based on
evidential active learner, in International Workshop on Content-Based Multimedia In-
dexing, 2008. CBMI 2008, IEEE, pp. 388395.
Goto, M., Hashiguchi, H., Nishimura, T. & Oka, R. (2002), RWC music database : Popu-
lar, classical, and jazz music databases, in Proc. of International Conference on Music
Information Retrieval, p. pp.287288.
Gulluni, S., Buisson, O., Essid, S. & Richard, G. (2009), Interactive segmentation of
Electro-Acoustic music, in 2nd International Workshop on Machine Learning and Mu-
sic.
122 BIBLIOGRAPHIE
Gulluni, S., Essid, S., Buisson, O. & Richard, G. (2011a), Interactive classification of sound
objects for polyphonic Electro-Acoustic music annotation, in Audio Engineering Society
Conference : 42nd International.
Gulluni, S., Essid, S., Buisson, O. & Richard, G. (2011b), An interactive system for electro-
acoustic music analysis, in Proc. of International Conference on Music Information
Retrieval.
Harchaoui, Z., Vallet, F., Lung-Yut-Fong, A. & Cappe, O. (2009), A regularized kernel-
based approach to unsupervised audio segmentation, in Acoustics, Speech, and Signal
Processing, IEEE International Conference on, Vol. 0, IEEE Computer Society, Los
Alamitos, CA, USA, pp. 16651668.
Hennequin, R., David, B. & Badeau, R. (2011), Score informed audio source separation
using a parametric model of non-negative spectrogram, in 2011 IEEE International
Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, pp. 4548.
Hist, D. (2005), Developing an interactive study score for the analysis of electro-acoustic
music, in Australasian Computer Music Conference.
Hoashi, K., Matsumoto, K. & Inoue, N. (2003), Personalization of user profiles for content-
based music retrieval based on relevance feedback, in Proceedings of the eleventh ACM
international conference on Multimedia, ACM, New York, NY, USA, p. 110119.
Hong, P., Tian, Q. & Huang, T. S. (2000), Incorporate support vector machines to content-
based image retrieval with relevance feedback, in International Conference on Image
Processing, Vol. 3, IEEE, pp. 750753 vol.3.
Joder, C., Essid, S. & Richard, G. (2009), Temporal integration for audio classification
with application to musical instrument classification., IEEE Transactions on Audio,
Speech and Language Processing 17(1), 174186.
Joshi, A. J., Porikli, F. & Papanikolopoulos, N. (2009), Multi-class active learning for
image classification, IEEE Conference on Computer Vision and Pattern Recognition
(CVPR) .
Kane, B. (2007), LObjet sonore maintenant : Pierre schaeffer, sound objects and the
phenomenological reduction, Organised Sound 12(01), 1524.
Kinoshita, T., Sakai, S. & Tanaka, H. (1999), Musical sound source identification based on
frequency component adaptation, in Proc. IJCAI Worshop on CASA.
123
Kitahara, T., Goto, M., Komatani, K., Ogata, T. & Okuno, H. G. (2007), Instrument
identification in polyphonic music : Feature weighting to minimize influence of sound
overlaps, EURASIP Journal on Advances in Signal Processing 2007, 116.
Kurtag, G., Di Santo, J., Desainte-Catherine, M. & Guillem, P. (2007), Pdagogie de llec-
troacoustique du geste musical la composition assiste par ordinateur, in Proceedings
of the Journes de lInformatique Musicale (Jim07).
Levy, M., Sandier, M. & Casey, M. (2006), Extraction of High-Level musical structure
from audio data and its application to thumbnail generation, in Proceedings of the
IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 5,
p. V.
Li, X., Wang, L. & Sung, E. (2004), Multilabel SVM active learning for image classification,
in 2004 International Conference on Image Processing, 2004. ICIP 04, Vol. 4, IEEE,
pp. 2207 2210 Vol. 4.
Little, D. & Pardo, B. (2008), Learning musical instruments from mixtures of audio with
weak labels, in Proc. of International Conference on Music Information Retrieval.
Logan, B. & Chu, S. (2000), Music summarization using key phrases, in 2000 IEEE In-
ternational Conference on Acoustics, Speech, and Signal Processing, 2000. ICASSP 00.
Proceedings, Vol. 2, IEEE, pp. II749II752 vol.2.
Lu, L., Wang, M. & Zhang, H. (2004), Repeating pattern discovery and structure ana-
lysis from acoustic music data, in Proceedings of the 6th ACM SIGMM international
workshop on Multimedia information retrieval, MIR 04, ACM, New York, NY, USA,
p. 275282.
Lukashevich, H., Abeer, J., Dittmar, C. & Grossmann, H. (2009), From Multi-Labeling
to Multi-Domain-Labeling : a novel Two-Dimensional approach to music genre classifi-
cation, in Proc. of International Conference on Music Information Retrieval.
Maddage, N. C. (2006), Automatic structure detection for popular music, IEEE Multi-
media 13(1), 65 77.
Maddage, N. C., Xu, C., Kankanhalli, M. S. & Shao, X. (2004), Content-based music
structure analysis with applications to music semantics understanding, in Proceedings
of the 12th annual ACM international conference on Multimedia, MULTIMEDIA 04,
ACM, New York, NY, USA, p. 112119.
Mandel, M., Poliner, G. & Ellis, D. (2006), Support vector machine active learning for
music retrieval, Multimedia Systems 12(1), 313.
Manning, P. D. (2004), Electronic and computer music., Oxford University Press, New
York.
124 BIBLIOGRAPHIE
Mathieu, B., Essid, S., Fillon, T., Prado, J. & Richard, G. (2010), YAAFE, an easy to
use and efficient audio feature extraction software, Proc. of International Conference on
Music Information Retrieval .
McAdams, S., Winsberg, S., Donnadieu, S., Soete, G. & Krimphoff, J. (1995), Perceptual
scaling of synthesized musical timbres : Common dimensions, specificities, and latent
subject classes, Psychological Research 58, 177192.
Moore, B., Glasberg, B. & Baer, T. (1997), A model for the prediction of thresholds,
loudness, and partial loudness, J. Audio Eng. Soc 45(4), 224240.
Ning, J., Zhang, L., Zhang, D. & Wu, C. (2010), Interactive image segmentation by maxi-
mal similarity based region merging, Pattern Recogn. 43(2), 445456.
Nucibella, F., Porcelluzzi, S. & Zattra, L. (2005), Computer music analysis via a multidis-
ciplinary approach, in Sound and Music Computing.
Park, T. H., Li, Z. & Wu, W. (2009), EASY does it : The Electro-Acoustic music analysis
toolbox, in Proc. of International Conference on Music Information Retrieval.
Peeters, G. (2004), A large set of audio features for sound description (similarity and
classification) in the CUIDADO project, Tech. rep., IRCAM.
Peeters, G., Burthe, A. L. & Rodet, X. (2002), Toward automatic music audio summary ge-
neration from signal analysis, in Proc. of International Conference on Music Information
Retrieval, p. 94100.
Platt, J. (1999), Probabilistic outputs for support vector machines and comparisons to
regularized likelihood methods, in Advances in large margin classifiers, p. 6174.
Price, B., Morse, B. & Cohen, S. (2009), LIVEcut : learning-based interactive video seg-
mentation by evaluation of multiple propagated cues., in Proceedings of the IEEE In-
ternational Conference on Computer Vision (ICCV).
Puig, V., Gudy, F., Fingerhut, M., Serrire, F., Bresson, J. & Zeller, O. (2005), Musique
lab 2 : A three level approach for music education at school, in Proceedings of the
International Computer Music Conference, Spain.
Qi, G. J., Hua, X., Rui, Y., Tang, J. & Zhang, H. (2009), Two-Dimensional multilabel
active learning with an efficient online adaptation model for image classification, IEEE
Transactions on Pattern Analysis and Machine Intelligence 31(10), 18801897.
Reynolds, D., Kenny, P. & Castaldo, F. (2009), A study of new approaches to speaker
diarization, in proc. of INTERSPEECH-2009, pp. 10471050.
Schussler, H. (1976), A stability theorem for discrete systems, Acoustics, Speech and Signal
Processing, IEEE Transactions 24(1), 8789.
Sedes, A., Courribet, B. & Thibaut, J. (2004), Visualization of sound as a control interface,
in Proc. of the 7th Int. Conference on Digital Audio Effects (DAFX), Naples, Italy.
Settles, B. (2010), Active learning literature survey, Technical report, University of Wis-
consinMadison.
Shan, M., Chiang, M. & Kuo, F. (2008), Relevance feedback for category search in music
retrieval based on semantic concept learning, Multimedia Tools Appl. 39, 243262.
Simoni, M., Rozell, C., Meek, C. & Wakefield, G. (2000), A theoretical framework for
electro-acoustic music., in International Computer Music Conference.
Singh, M., Curran, E. & Cunningham, P. (2009), Active learning for Multi-Label image
annotation, Technical report, University College of Dublin.
Smets, P. (2005), Decision making in the TBM : the necessity of the pignistic transforma-
tion, International Journal of Approximate Reasoning 38(2), 133147.
Tong, S. & Chang, E. (2001), Support vector machine active learning for image retrieval,
in Proceedings of the ninth ACM international conference on Multimedia, ACM, New
York, NY, USA, p. 107118.
126 BIBLIOGRAPHIE
Trohidis, K., Tsoumakas, G., Kalliris, G. & Vlahavas, I. (2008), Multilabel classification
of music into emotions, in Proc. of International Conference on Music Information
Retrieval, Philadephia, PA, USA.
Tsoumakas, G. & Vlahavas, I. (2007), Random k-Labelsets : an ensemble method for mul-
tilabel classification, in J. N. Kok, J. Koronacki, R. L. d. Mantaras, S. Matwin, D. Mla-
deni & A. Skowron, eds, Machine Learning : ECML 2007, Vol. 4701, Springer Berlin
Heidelberg, Berlin, Heidelberg, pp. 406417.
Van Steelant, D., De Baets, B., De Meyer, H., Leman, M., Martens, J. P., Clarisse, L. &
Lesaffre, M. (2002), Discovering structure and repetition in musical audio, IN PRO-
CEEDINGS OF EUROFUSE WORKSHOP .
Viterbi, A. (1967), Error bounds for convolutional codes and an asymptotically optimum
decoding algorithm, IEEE Transactions on Information Theory 13(2), 260269.
Wu, Y., Kozintsev, I., Bouguet, J.-y. & Dulong, C. (2006), Sampling strategies for ac-
tive learning in personal photo retrieval, in Multimedia and Expo, IEEE International
Conference on, Vol. 0, IEEE Computer Society, Los Alamitos, CA, USA, pp. 529532.
Zwicker, E. (1977), Procedure for calculating loudness of temporally variable sounds, The
Journal of the Acoustical Society of America 62, 675.