These Gulluni Final

Un systeme interactif pour lanalyse des musiques
electroacoustiques
Sebastien Gulluni
To cite this version:

Sebastien Gulluni. Un systeme interactif pour lanalyse des musiques electroacoustiques.
Traitement du signal et de limage. Telecom ParisTech, 2011. Francais. <pastel-00676691>
HAL Id: pastel-00676691

https://pastel.archives-ouvertes.fr/pastel-00676691
Submitted on 6 Mar 2012
HAL is a multi-disciplinary open access Larchive ouverte pluridisciplinaire HAL, est

archive for the deposit and dissemination of sci- destinee au depot et a la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publies ou non,
lished or not. The documents may come from emanant des etablissements denseignement et de
teaching and research institutions in France or recherche francais ou etrangers, des laboratoires
abroad, or from public or private research centers. publics ou prives.
2012-ENST-00xx
EDITE - ED 130
Doctorat ParisTech
THSE
pour obtenir le grade de docteur dlivr par
TELECOM ParisTech
Spcialit Signal et Images
prsente et soutenue publiquement par
Sbastien GULLUNI
le 20 Dcembre 2011
Un systme interactif pour lanalyse des
musiques lectroacoustiques
Directeur de thse : Gal RICHARD
Jury
Mme Myriam DESAINTE CATHERINE Rapporteur
Mme Anne SDES Rapporteur
M. Michel CRUCIANU Examinateur
M. Pierre COUPRIE Examinateur
M. Olivier BUISSON Encadrant industriel
M. Slim ESSID Encadrant acadmique
TELECOM ParisTech
cole de lInstitut Tlcom - membre de ParisTech
2
3
Remerciements
Je tiens remercier tout dabord mon directeur de thse Gal Richard pour avoir cru
en lintrt de ce travail qui repose en grande partie sur une application trs spcifique
ainsi que pour tous les conseils apports pendant ces annes de thse.
Je remercie galement Olivier Buisson et Slim Essid pour le solide encadrement scien-
tifique quils mont apport tout au long de cette thse ainsi que pour leur grande dispo-
nibilit.
Mes remerciements vont galement Emmanuel Favreau pour son encadrement la
fois scientifique et applicatif qui fut trs utile pour me permettre de garder en tte les
contraintes dutilisation du systme. Merci galement Marie-Luce Viaud pour avoir suivi
de prs le droulement de la thse ainsi que pour son esprit critique.
Je tiens galement remercier Pierre Couprie, Franois Delalande et Cyrille Delhaye
davoir accept de participer aux entretiens raliss au sujet des pratiques danalyse des
musiques lectroacoustiques. De mme, je remercie Evelyne Gayou et Yann Geslin pour
leurs critiques sur le chapitre concernant les musiques lectroacoustiques. Merci galement
Alexandre Bazin, Diego Losa et Daniel Teruggi pour mavoir fourni des sons lectroa-
coustiques pertinents mayant permis de raliser mon corpus synthtique. Je remercie
galement Adrien Lefvre pour ses conseils experts en dveloppement ainsi que Dominique
Saint Martin pour son approche du mtier et son got du dbat musical.
Le fait de travailler dans trois lieux diffrents pendant trois annes multiplie forcment
les camarades de bureau que je tiens saluer. Au GRM : Sbastien R., Michael, Franois,
Sbastien M., Antonin, Orianne, Eric, Pierre-Marie, Nicolas, Julien et Raphal. A lINA :
Herv, Benjamin, Pierre et Clment. Enfin, TSI : Benot, Flicien et Franois. Je salue
galement lquipe de production du GRM, Philippe et Franois, pour la causticit lgen-
daire de leur humour et pour leur bureau/muse fourni en jouets pour musiciens (quand je
pense ce MS-20 qui prend la poussire...). Je tiens galement remercier toute lquipe
du GRM pour cette passion quils ont pour la musique qui ma permis denrichir mon
approche personnelle.
Enfin, je remercie infiniment mes proches qui mont toujours soutenu durant ces annes
de thse et ont su faire preuve dempathie dans les moments difficiles.
4
5
Rsum
Les musiques lectroacoustiques sont encore aujourdhui relativement peu abordes
dans les recherches qui visent retrouver des informations partir du contenu musical.
La plupart des travaux de recherche concernant ces musiques sont centrs sur les outils de
composition, la pdagogie et lanalyse musicale. Dans ce travail de thse, nous nous int-
ressons aux problmatiques scientifiques lies lanalyse des musiques lectroacoustiques.
Aprs avoir replac ces musiques dans leur contexte historique, une tude des pratiques
danalyse de trois professionnels nous permet de dgager des invariants pour llaboration
dun systme danalyse. Ainsi, nous proposons un systme interactif daide lanalyse des
musiques lectroacoustiques qui permet de retrouver les diffrentes instances des objets
sonores composant une pice polyphonique. Le systme propos permet dans un premier
temps de raliser une segmentation afin de dgager les instances initiales des objets sonores
principaux. Lutilisateur peut ainsi slectionner les objets quil vise avant de rentrer dans
une boucle dinteraction qui utilise lapprentissage actif et le retour de pertinence fourni
par lutilisateur. Le retour apport par lutilisateur est utilis par le systme qui ralise
une classification multilabel des diffrents segments sonores en fonction des objets sonores
viss. Une valuation par simulation utilisateur est ralise partir dun corpus de pices
synthtiques. Lvaluation montre que notre approche permet dobtenir des rsultats sa-
tisfaisants en un nombre raisonnable dinteractions.
Mots-cls : musiques lectroacoustiques, apprentissage interactif, retour de pertinence,

apprentissage actif, classification multilabel.
Abstract
Electro-acoustic music is still hardly studied in the field of Music Information Retrieval.
Most research on this type of music focuses on composition tools, pedagogy and music ana-
lysis. In this thesis, we focus on scientific issues related to the analysis of electro-acoustic
music. After placing this music into historical context, a study of the practices of three
professional musicologist allows us to obtain guidelines for building an analysis system.
Thus, we propose an interactive system for helping the analysis of electro-acoustic music
that allows one to find the various instances of the sound objects of a polyphonic piece.
The proposed system first performs a segmentation to identify the initial instances of the
main sound objects. Then, the user can select the target sound objects before entering
an interactive loop that uses active learning and relevance feedback provided by the user.
The feedback of the user is then used by the system to perform a multilabel classification
of sound segments based on the selected ones sound objects. An evaluation of the system
is performed by user simulation using a synthetic corpus. The evaluation shows that our
approach achieves satisfying results in a reasonable number of interactions.
Keywords : electroacoustic music, interactive machine learning, relevance feedback,

active learning, multilabel classification.
6
7
Table des matires
1 Introduction 11
1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Objectifs et problmatiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Prsentation du manuscrit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Musiques lectroacoustiques et architecture du systme 15

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Naissance des musiques lectroacoustiques . . . . . . . . . . . . . . . . . . . 16
2.2.1 Dveloppements avant 1945 . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1.1 Apparitions des premiers instruments de musique non acous-
tiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1.2 Vers de nouvelles formes dexpression . . . . . . . . . . . . 17
2.2.2 Paris et la musique concrte . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2.1 Naissance dun groupe de recherche . . . . . . . . . . . . . 18
2.2.2.2 Les dbuts de la musique concrte . . . . . . . . . . . . . . 19
2.2.2.3 Formalisation et notation . . . . . . . . . . . . . . . . . . . 20
2.2.3 Cologne et lelektronische musik . . . . . . . . . . . . . . . . . . . . 20
2.2.3.1 Cration du studio de Cologne . . . . . . . . . . . . . . . . 20
2.2.3.2 Les premires pices delektronische musik . . . . . . . . . . 21
2.2.4 Milan, un autre studio europen important . . . . . . . . . . . . . . 22
2.3 Dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 Analyse des musiques lectroacoustiques . . . . . . . . . . . . . . . . . . . . 25
2.4.1 Etat de lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.2 Approche analytique de trois musicologues . . . . . . . . . . . . . . . 27
2.5 Un systme interactif daide lanalyse des musiques lectroacoustiques . . 33
2.5.1 Etat de lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.2 Architecture du systme . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.2.1 Contraintes fonctionnelles . . . . . . . . . . . . . . . . . . . 35
2.5.2.2 Choix darchitecture . . . . . . . . . . . . . . . . . . . . . . 36
2.5.3 Corpus synthtique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5.3.1 Corpus M . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.5.3.2 Corpus P . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
8 TABLE DES MATIRES
3 Segmentation interactive de musiques lectroacoustiques 43

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2 tat de lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.1 Approches par mesures de similarits . . . . . . . . . . . . . . . . . . 45
3.2.2 Approches par dtections de ruptures . . . . . . . . . . . . . . . . . 46
3.2.3 Approches par programmation dynamique . . . . . . . . . . . . . . . 47
3.2.4 Approches par clustering . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.5 Approches issues dautres domaines . . . . . . . . . . . . . . . . . . . 48
3.3 Segmentation interactive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2 Extraction de descripteurs . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.3 Construction dun descripteur de timbre adapt . . . . . . . . . . . . 52
3.3.3.1 Algorithme de Fisher . . . . . . . . . . . . . . . . . . . . . 52
3.3.3.2 Slection dattributs . . . . . . . . . . . . . . . . . . . . . . 53
3.3.4 Reprsentation dunits sonores . . . . . . . . . . . . . . . . . . . . . 54
3.3.4.1 Segmentation de bas-niveau . . . . . . . . . . . . . . . . . . 54
3.3.4.2 Intgration temporelle . . . . . . . . . . . . . . . . . . . . . 54
3.3.5 Clustering hirarchique . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.6 Clustering interactif . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.6.1 Coupes globales et locales . . . . . . . . . . . . . . . . . . . 57
3.3.6.2 Comparaisons de deux scnarios dinteraction . . . . . . . . 58
3.4 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.1 Critres dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.2 Expriences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4.2.1 Simulation utilisateur . . . . . . . . . . . . . . . . . . . . . 60
3.4.2.2 Comparaison de performances pour les deux scnarios din-
teraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4 Classification interactive dobjets sonores 63

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2 Etat de lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2.1 Classification dinstruments dans la musique polyphonique . . . . . . 66
4.2.2 Retour de Pertinence et Apprentissage actif . . . . . . . . . . . . . . 67
4.2.3 Classification multilabel . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2.4 Classification dimages . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3 Exploitation des informations dinitialisation . . . . . . . . . . . . . . . . . . 71
4.4 Descripteurs utiliss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5 Apprentissage interactif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.5.1 Architecture de la boucle dinteraction . . . . . . . . . . . . . . . . . 74
4.5.2 Slection dynamique dattributs . . . . . . . . . . . . . . . . . . . . . 75
4.5.3 Prdiction au niveau des segments de mixtures . . . . . . . . . . . . 75
4.5.4 Apprentissage actif . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.5.4.1 Prsentation . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.5.4.2 Adaptation notre problme . . . . . . . . . . . . . . . . . 77
4.6 Comparaison de deux approches interactives . . . . . . . . . . . . . . . . . . 78
4.6.1 Approche par passages multiples (PM) . . . . . . . . . . . . . . . . . 78
4.6.1.1 Concept . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
9
4.6.1.2 Stratgies dchantillonnage . . . . . . . . . . . . . . . . . . 79

4.6.2 Approche par passage unique (PU) . . . . . . . . . . . . . . . . . . . 82
4.6.2.1 Concept . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.6.2.2 Stratgies dchantillonnage . . . . . . . . . . . . . . . . . . 83
4.6.2.3 Gestion de classifieurs . . . . . . . . . . . . . . . . . . . . . 84
4.7 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.7.1 Simulation utilisateur . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.7.1.1 Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.7.1.2 Choix des segments les plus reprsentatifs . . . . . . . . . . 86
4.7.1.3 Classification des objets sonores . . . . . . . . . . . . . . . 86
4.7.2 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.7.2.1 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.7.2.2 Complexit des mthodes . . . . . . . . . . . . . . . . . . . 88
4.7.2.3 Analyse des descripteurs slectionns . . . . . . . . . . . . . 90
4.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5 Conclusion 95
5.1 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
A Echantillons sonores utiliss 99

A.1 Corpus Monophonique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
A.2 Corpus Polyphonique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
B Descripteurs utiliss 103

B.1 Descripteurs Spectraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
B.2 Descripteurs Cepstraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
B.3 Descripteurs Temporels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
B.4 Descripteurs Perceptifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
C Apprentissage supervis 109

C.1 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
C.2 Machines Vecteurs Supports . . . . . . . . . . . . . . . . . . . . . . . . . . 110
C.3 Fusion des dcisions de plusieurs classifieurs binaires . . . . . . . . . . . . . 112
Index 117
Bibliographie 126
10 TABLE DES MATIRES
11
Chapitre 1
Introduction
Sommaire
1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Objectifs et problmatiques . . . . . . . . . . . . . . . . . . . . . 12
1.3 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Prsentation du manuscrit . . . . . . . . . . . . . . . . . . . . . . 13
1.1 Contexte
Cette thse en convention CIFRE sest droule dans deux dpartements distincts de
lInstitut National dAudiovisuel (INA). Les membres de lquipe Visualisation, Indexa-
tion et Fouille de donnes (VIF) ont assur lencadrement scientifique et le Groupe de
Recherches Musicales (GRM) a men lencadrement applicatif. La cotutelle acadmique
a t effectue par le dpartement Traitement du Signal et de lImage (TSI) de lcole
TELECOM ParisTech.
Ce travail de thse sinscrit dans des problmatiques propres au Music Information

Retrieval (MIR), un domaine de recherche qui vise retrouver des informations partir
dun contenu musical (Casey et al. (2008)). Le MIR est un domaine ou les applications
concrtes sont trs nombreuses. Un exemple dapplication qui vient naturellement les-
prit est la transcription automatique dun enregistrement musical en partition. On peut
galement imaginer un systme de recommandation musicale qui vous suggre de nouveaux
morceaux en apprenant vos gouts musicaux partir de ce que vous coutez. Vous ntes
pas de bonne humeur et vous comptez sur la musique pour vous apporter la motivation
qui vous manque pour attaquer votre journe sereinement ? Il vous suffit de demander
votre application de classification en humeurs de rechercher les morceaux adquats dans
la bibliothque sonore de votre smartphone. Ou encore, pourquoi ne pas personnaliser ou
diversifier votre exprience dcoute ? Cest une application possible de la sparation de
sources qui vous permet de supprimer les sources instrumentales que vous ne souhaitez pas
couter directement sur vos fichiers musicaux. Enfin, loppos, pouvons nous envisager
la gnration automatique dune symphonie originale telle quelle aurait pu tre compose
par Beethoven en apprenant automatiquement le style du compositeur par des analyses
statistiques de ses pices ?
La plupart des applications et problmatiques cites prcdemment font encore partie
12 1. Introduction
du domaine de la recherche. Si la musique conventionnelle 1 et notamment classique est

largement traite dans la littrature MIR, on ne peut pas en dire autant des musiques plus
atypiques. Ainsi, ce travail de thse est centr autour des musiques lectroacoustiques.
Une proprit importante de ces musiques est quelles ne sont en gnral pas crites et
quil nexiste pas de standard de notation symbolique comme cest le cas dans la musique
conventionnelle. De plus, les musiques lectroacoustiques nutilisent pas les instruments
standards et peuvent faire intervenir nimporte quelle source sonore acoustique ou lectro-
nique. Il est galement important de noter que les musiques lectroacoustiques ne disposent
pas des mmes units sonores de base que la musique conventionnelle qui est centre sur
la notion de note que lon peut assimiler une variable discrte ayant une hauteur et
une dure relative. Des problmes de recherche originaux dcoulent en grande partie de
ces dernires remarques. Les travaux de recherches sur les musiques lectroacoustiques
concernent principalement la cration de nouveaux outils de composition et la pdagogie
(Desainte-Catherine & Marchand (1999), Sedes et al. (2004), Savage & Challis (2002),
Kurtag et al. (2007)). Lanalyse musicale des pices du rpertoire est galement un sujet
dtude important (Geslin & Lefevre (2004), Couprie (2004), Gayou (2006)).
Dans ce travail de thse nous nous intressons en particulier aux problmatiques scien-
tifiques lies lanalyse automatique des musiques lectroacoustiques. En effet, dans la
plupart des cas, lanalyse des musiques conventionnelles sappuie en grande partie sur la
partition et sur des mthodes tablies. Cest, par exemple, le cas de lanalyse des mu-
siques tonales qui passe systmatiquement par une tude harmonique. Cependant, pour
les musiques lectroacoustiques, ne disposant pas de partition, il est ncessaire davoir re-
cours dautres approches. Nous verrons dans la suite du document que les musicologues
passent par une tape de transcription des objets sonores principaux dune pice. Ils uti-
lisent ensuite cette transcription afin dappuyer un point de vue danalyse. Cette tape de
transcription tant la base de chaque analyse, dans ce travail, nous proposons une approche
MIR pour assister les musicologues dans la transcription des diffrents objets sonores.
1.2 Objectifs et problmatiques

Dans un premier temps, il est important de cerner les besoins rels des musicologues
dans le domaine de lanalyse des musiques lectroacoustiques. En effet, il semble impratif
de passer par cette tape car comme nous le verrons, les approches danalyse ne sont pas
standardises. Les problmatiques scientifiques sont en accord avec cette tape initiale.
Nous essayerons de proposer des mthodes qui pourront sadapter la diversit des si-
gnaux possibles ainsi quaux besoins spcifiques de chaque analyse utilisateur. En effet,
pour lanalyse des musiques lectroacoustiques il est important de ne pas ngliger la di-
mension subjective de la tche car chaque analyse est fonde sur un point de vue et les
objets sonores que lutilisateur souhaite transcrire sont en accord avec ce point de vue.
Ainsi, notre objectif est de proposer des mthodes qui permettent dassister lutilisateur
dans la slection des objets sonores quil souhaite transcrire et de retrouver les diffrentes
instances de ces objets pour raliser une transcription adapte. Pour atteindre cet objectif,
nous devons transposer des mthodes devenues classiques en MIR aux musiques lectroa-
coustique qui prsentent des configurations sonores se dmarquant trs nettement de celles
des musiques conventionnelles. De plus, il est galement ncessaire dintroduire la notion
1
Dans ce document, nous dsignerons ainsi toutes les musiques utilisant des systmes dchelles musicales
hauteurs dtermines ainsi quun systme rythmique qui permet dexprimer des dures les unes par
rapport aux autres.
13
de subjectivit dans les mthodes dveloppes afin de sadapter aux nombreux points de
vues possibles.
1.3 Contributions
La premire contribution de ce travail de thse est la proposition dune architecture ori-
ginale qui utilise le retour de pertinence afin de raliser un systme adaptatif (Gulluni et al.
(2011b,a)). La notion de retour de pertinence dsigne une mthode qui prend en compte le
jugement quun utilisateur fournit lors de la recherche automatique de documents. A lori-
gine, le retour de pertinence est employ dans les travaux de Rocchio qui lutilisait pour
modifier des requtes en fonction du jugement apport par lutilisateur sur les documents
retrouvs par son systme (Rocchio & Salton (1971)). Des recherches rcentes emploient
souvent cette mthode pour retrouver des documents multimdias (photos etc.). Larchi-
tecture que nous proposons procde en deux phases principales. La premire phase ralise
une segmentation de la pice qui permet dassister lutilisateur dans la slection dobjets
sonores. La deuxime phase effectue une classification des objets sonores afin de retrouver
les diffrentes instances des objets slectionns dans la premire tape. Larchitecture pro-
pose est dcrite en dtail dans la section 2.5.2.2.
Nous proposons une approche de classification multilabel des objets sonores (un segment
audio peut appartenir plusieurs classes) et exploitant le retour de pertinence adapte
notre problme (chapitre 4). Ainsi, dans la section 4.6, nous comparons deux approches
dinteractions pour la classification multilabel de segments audio sur plusieurs niveaux de
polyphonie : une approche par passages multiples et une autre par passage unique. Nous
proposons galement, dans lapproche par passage unique, une mthode de classification
qui sadapte aux diffrentes mixtures sonores exprimes par lutilisateur (Gulluni et al.
(2011b)). Dans la section 4.7.2.1, nous montrons que cette dernire mthode permet dob-
tenir un gain de performances consistant sur plusieurs niveaux de polyphonie par rapport
lapproche directe, tout en conservant des temps de calcul acceptables.
Une autre contribution de ce travail est la proposition dune mthode de segmentation

audio interactive dans laquelle le retour de pertinence est propag sur lensemble du signal
(chapitre 3). Dans le paragraphe 3.4.2.2, nous dmontrons que des interactions simples
permettent damliorer la segmentation dun signal audio par rapport une approche de
rfrence (Gulluni et al. (2009)).
Afin de cerner les besoins rels des professionnels de llectroacoustique, une tude
des pratiques danalyse a t ralise auprs de trois musicologues (section 2.4.2). Les
renseignements apports par cette tude sont exploits dans ce travail. De plus, cette tude
peut galement tre utile la communaut car elle met en vidence des problmatiques
qui pourraient donner lieu de nouvelles directions de recherche.
1.4 Prsentation du manuscrit

Le manuscrit est divis en cinq parties incluant la prsente introduction. Le chapitre
2 prsente le contexte et les notions musicales intervenant dans la thse et expose larchi-
tecture globale du systme. Ainsi, ce chapitre aborde lmergence des nouvelles pratiques
14 1. Introduction
musicales. Les musiques lectroacoustiques sont une consquence directe de ces pratiques.
Nous aborderons ensuite des dfinitions musicales essentielles propres aux musiques lec-
troacoustiques. Ce chapitre prsente galement une srie dentretiens avec des musicologues
qui permettent de cerner leurs besoins rels. La fin du chapitre prsente une vision globale
du systme daide lanalyse des musiques lectroacoustiques que nous proposons et le
corpus dvaluation du systme.
Le chapitre 3 porte sur la phase dinitialisation du systme qui repose sur la segmen-
tation de la pice en units sonores homognes afin dobtenir les frontires temporelles qui
sparent les diffrentes mixtures sonores dune pice lectroacoustique polyphonique. Ce
chapitre aborde dans un premier temps ltat de lart des diffrents systmes de segmen-
tation audio puis il propose une solution interactive et compare deux scnarios diffrents
dinteraction avant dvaluer le systme de segmentation.
Le chapitre 4 est focalis sur la phase de classification des objets sonores. La solution
propose est une classification interactive exploitant le retour fourni par lutilisateur. Aprs
avoir prsent un tat de lart portant sur les diffrents domaines connexes au sujet, nous
verrons comment exploiter les informations obtenues pendant linitialisation et nous propo-
serons diffrentes approches dinteraction pour raliser la classification. La dernire partie
du chapitre dcrit lvaluation du systme complet base sur des simulations utilisateurs.
Enfin, dans le chapitre 5 nous exposons un bilan des travaux effectus pendant cette
thse et abordons les perspectives et travaux futurs.
15
Chapitre 2
Musiques lectroacoustiques :
dfinitions, analyse et architecture
dun systme adapt
Sommaire
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Naissance des musiques lectroacoustiques . . . . . . . . . . . . 16
2.2.1 Dveloppements avant 1945 . . . . . . . . . . . . . . . . . . . . . 16
2.2.2 Paris et la musique concrte . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Cologne et lelektronische musik . . . . . . . . . . . . . . . . . . 20
2.2.4 Milan, un autre studio europen important . . . . . . . . . . . . 22
2.3 Dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 Analyse des musiques lectroacoustiques . . . . . . . . . . . . . 25
2.4.1 Etat de lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.2 Approche analytique de trois musicologues . . . . . . . . . . . . 27
2.5 Un systme interactif daide lanalyse des musiques lec-
troacoustiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.1 Etat de lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.2 Architecture du systme . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.3 Corpus synthtique . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
16 2. Musiques lectroacoustiques et architecture du systme
2.1 Introduction
Dans ce chapitre, nous prsentons le contexte musical li ce travail de thse. Lobjectif
nest pas de prsenter les musiques lectroacoustiques de manire exhaustive mais plutt
dexposer leurs origines et leurs caractristiques puis dexpliquer comment les musicologues
abordent leur analyse. Les enseignements tirs de ce travail prparatoire nous permettrons
de prsenter les objectifs ainsi que larchitecture du systme propos. Aprs avoir abord
la naissance des musiques lectroacoustiques, nous donnerons quelques dfinitions essen-
tielles avant daborder leur analyse. La section 2.4 de ce chapitre intgre la prsentation
dune synthse dentretiens raliss avec trois musicologues spcialiss dans lanalyse de
ces musiques. Le chapitre se termine par la prsentation gnrale du systme propos et
du corpus dvaluation.
2.2 Naissance des musiques lectroacoustiques

Cette section est une synthse tire de Manning (2004) qui replace les musiques lec-
troacoustiques dans le contexte historique. Nous avons rsum dans cette section les ides
principales qui concernent la naissance des musiques lectroacoustiques et les exprimen-
tations ayant donn lieu aux premires pices du genre. Il nous semble important de men-
tionner que la principale vocation de cette section est didactique et quelle ne constitue
pas une tude musicologique personnelle. Cependant, la prsence de cette section est indis-
pensable, car elle dcrit comment les nouvelles pratiques musicales ont merg et permet
ainsi de comprendre les origines et les procds courants employs dans les musiques lec-
troacoustiques.
2.2.1 Dveloppements avant 1945

2.2.1.1 Apparitions des premiers instruments de musique non acoustiques
Les premiers instruments de musique utilisant des procds de gnration sonore non
acoustiques sont apparus au dbut du 20e sicle. Le premier de ces instruments est le
Dynamophone (ou Telharmonium) conu par Thaddeus Cahill partir de 1897 et prsent
en public pour la premire fois en 1906 (figure 2.1).
Fig. 2.1 Le premier Telharmonium Fig. 2.2 Lon Thrmin et son invention
Cet instrument est le premier avoir utilis un procd lectromcanique pour la g-

nration sonore. Ainsi, cet instrument utilisait principalement une roue phonique place
17
devant un microphone pour produire le signal sonore.

Il faudra ensuite attendre lentre-deux-guerre pour voir apparaitre les premiers ins-
truments lectroniques. Les principaux sont le Thrmin prsent en 1924 (figure 2.2), le
Spharophon (1927), le Dynaphone (1927), les Ondes Martenot et le Trautonium (figures
2.3 et 2.4) prsents en 1930. La plupart de ces instruments utilisaient un clavier et ne
pouvaient jouer quune seule note la fois (instruments monophoniques).
Fig. 2.3 Les Ondes Martenot avec leurs Fig. 2.4 Le Trautonium
diffuseurs
Malgr les contributions de compositeurs tablis tel que Messiaen, Koechlin, Honeg-
ger, Hindemith ou encore Milhaud, le rpertoire compte un nombre limit de compositions
ddies ces instruments. Les compositeurs ayant montr le plus dintrt pour ces instru-
ments sont ceux qui crivaient des musiques de films. Cependant, les Ondes Martenot ont
tout de mme russi se faire une place relative notamment dans les pices de Messiaen
(Turangalla-Symphonie, Trois Petites Liturgies). Les Ondes Martenot sont aujourdhui
encore enseignes au conservatoire de Paris.
2.2.1.2 Vers de nouvelles formes dexpression

Les nouveaux procds de gnration sonore ont attir lattention du mouvement futu-
riste qui cherchait imiter les sons industriels. Ce mouvement fut initi par le pote italien
Filippo Marinetti en fvrier 1909 lors de la publication du Manifesto of Futurist Poetry 1 .
Les intentions musicales de ce mouvement furent par la suite exprimes par Balilla Pratella
dans Manifesto of Futurist Musicians 2 en octobre 1910. Ce document propose un rejet des
principes et mthodes traditionnelles musicales denseignement pour leur substituer une
expression libre inspire par la nature dans toutes ses manifestations. Dautres ouvrages du
mouvement furent publis dans les mois suivants. Dans The art of noise, Luigi Russolo pro-
posait dutiliser des sources sonores environnementales dans la composition musicale : Les
sons musicaux sont trop limits des varits de timbres qualitatives. Les orchestres les
plus complexes se limitent quatre ou cinq catgories dinstruments de timbres diffrents :
les instruments jous larchet, les instruments cordes pinces, la famille des cuivres,
la famille des bois et les instruments percussions ... Nous devons sortir de ce cercle res-
1
ce texte fut publi dans Le Figaro le 20 fvrier 1909
2
http://www.unknown.nu/futurism/musicians.html
treint des sons musicaux purs et conqurir linfinie varit des bruits (Russolo (1913)).
Ces propositions furent matrialises par la construction dinstruments bruitistes : les In-
tonarumori, en collaboration avec le percussionniste Ugo Piatti. Ainsi, le premier concert
bas sur ces instruments, lArt des bruits, eut lieu Milan en juin 1913 au thtre Storchi.
Finalement, le mouvement futuriste ne provoqua pas une rvolution majeure mais sa

remise en cause des relations bien tablies entre les sciences de lacoustique et lart musical
furent prophtiques. Dailleurs, le futuriste Busoni avec son Sketch of a New Esthetic of
Music (Busoni (1911)) attira lattention du jeune Edgard Varse qui se rebella contre le
conservatoire de Paris afin de pouvoir explorer des nouveaux concepts dexpression musi-
cale. On peut citer Varse comme tant le compositeur de son poque ayant le plus contri-
bu lacceptation de sources sonores diverses dans la composition musicale travers son
oeuvre. Malheureusement, il neut accs aux moyens techniques quil esprait que dans les
annes 50, vers la fin de sa vie. Les crits de Varse sur le potentiel des instruments lec-
troniques dans la composition musicale furent approuvs par John Cage, un compositeur
amricain dune esthtique musicale pourtant bien diffrente. En 1937, lors dun congrs
la Seattle Arts Society, John Cage dclarait : Alors que par le pass, les points de di-
vergence se situaient entre la dissonance et la consonance, dans un futur proche cela sera
entre le bruit et les sons dit musicaux. O que nous soyons, tout ce que nous entendons est
principalement du bruit... Nous voulons capturer et contrler ces sons, nous ne souhaitons
pas les utiliser comme des traitements de studio mais comme des instruments... De nom-
breux concepteurs dinstruments musicaux lectriques essayent dimiter les instruments du
18e et 19e sicle... Alors que Thrmin proposait un instrument avec des possibilits nou-
velles vritables, les Thrministes ont fait de leur mieux pour faire sonner linstrument
comme un vieil instrument en lui donnant avec difficult un doux vibrato pour interprter
les pices majeures du pass. Les caractristiques spcifiques des instruments lectriques
seront de donner un contrle total sur la structure harmonique des sons ( loppos des
bruits) et de rendre ces sons utilisables nimporte quelle frquence, amplitude et dure.
La renaissance des arts daprs guerre fut un terrain plus favorable au dveloppement de la
musique lectronique. En Europe, deux grands ples prirent linitiative de sinvestir dans
ce domaine : la Radiodiffusion Tlvision franaise (RTF) Paris avec la musique concrte
et la Norwestdeutscher Rundfunk (NWDR) Cologne avec lelektronische musik. Malgr
une grande curiosit rciproque, les deux coles ont connu quelques divergences leurs
dbuts au sujet des pratiques de composition.
2.2.2 Paris et la musique concrte

2.2.2.1 Naissance dun groupe de recherche
Le courant franais a pour principal initiateur Pierre Schaeffer, un ingnieur polytechni-
cien ayant commenc des recherches dans le domaine des sciences de lacoustique musicale
en France partir de 1942 en crant le Studio dEssai. Lquipement de lpoque tait
rudimentaire puisquil sagissait principalement dun enregistreur sur disque. En 1951, la
RTF accepta de financer un nouveau studio pour les recherches de Schaeffer. La nouveaut
la plus importante tait lutilisation de lenregistreur bande comme outil principal la
place de lenregistreur sur disque. Un des enregistreurs bande disponible permettait de
reproduire cinq pistes sonores la fois ce qui ouvrit la porte la distribution des canaux
audio sur un ensemble de plusieurs haut-parleurs. Trois magntophones particuliers furent
galement introduits dans le nouveau studio : le Morphophone (rverbration base sur
19
des chos du son original), deux types de Phonognes qui taient conus pour jouer des
bandes en boucle diffrentes vitesses (le premier type permettait un contrle continu de
la vitesse, le deuxime tait associ un clavier et effectuait des transpositions de hauteurs
fixes en variant la vitesse). Le nouveau studio connu une expansion importante des acti-
vits et des collaborateurs de Schaeffer. Ainsi, le groupe fut renomm Groupe Recherche
de Musique Concrte pour devenir le Groupe de Recherches Musicales (GRM) en 1958.
2.2.2.2 Les dbuts de la musique concrte
Le premier travail de Schaeffer, Etude aux chemins de fer (la premire des Cinq tudes
de bruits), pose une constante de ce qui deviendra la musique concrte : la composition
partir denregistrements issus de sources sonores diverses. Cette premire pice est com-
pose partir denregistrements effectus la Gare des Batignolles Paris. Les sources
sonores enregistres incluaient le sifflement de locomotives vapeur, leurs acclrations et
les wagons passant dun rail un autre. La pice est base principalement sur des juxta-
positions de parties ( loppos de la superposition de plusieurs parties), ce qui amplifie le
caractre rptitif des sons. Pendant lt 1949, Schaeffer a commenc se rapproprier
les instruments de musique en tant que sources sonores ce qui lui permet de renouer avec
les travaux de Varse initis 20 ans plus tt. La pice suivante de Schaeffer est Suite pour
quatorze instruments et a pour caractristique dtre le point de dpart de son travail sur
la syntaxe de la musique concrte. Cette pice en cinq mouvements met en valeur divers
procds caractristiques de la musique concrte : Courante est une monodie assemble
par juxtaposition de petits extraits de lensemble de la librairie denregistrements sonores,
Gavotte utilise linterprtation par divers instruments dune petite phrase musicale en jux-
taposition pour crer un ensemble de variations. On peut noter un emploi intensif de la
transposition de hauteur en jouant les enregistrements des vitesses diffrentes. Schaeffer
ne tarda pas donner une premire dfinition au concept dobjet sonore : vnement so-
nore lmentaire qui est isol de son contexte original et examin pour ses caractristiques
natives en dehors du continuum temporel normal.
Symphonie pour un homme seul est la premire pice de Schaeffer en collaboration

avec le compositeur Pierre Henry. Les proccupations de Schaeffer taient alors lexten-
sion des possibilits des sources sonores instrumentales par lintermdiaire des nouveaux
moyens techniques et galement le dveloppement du principe dobjet sonore et leurs rgles
de composition. Dans cette pice, Schaeffer et Henry distinguent deux types de sources so-
nores : celles produites par lhomme (respirations, fragments de voix, cris, fredonnements,
sifflements) et celles rsultantes de la communication de lhomme avec son environnement
(bruits de pas, claquements de portes, percussions, piano prpar3 , instruments orches-
traux). Un exemple de divergence entre les courants franais et allemands est la premire
diffusion de Symphonie pour un homme seul aux radios de Cologne (NWDR), Hambourg,
Baden-Baden et Munich en 1951. Les sympathisants de lelektronische musik, un courant
musical allemand qui se dveloppait pendant la mme priode que la musique concrte,
accueillirent la pice avec une certaine hostilit. Malgr cela, cette pice sera par la suite
accepte et considre comme un classique.
3
piano dont le son est modifi par le placement dobjets extrieurs dans ses cordes
2.2.2.3 Formalisation et notation

En 1952, Schaeffer publie une syntaxe de la musique concrte dans la dernire section
de son livre A la recherche dune musique concrte (Schaeffer (1952)). Dans ce chapitre,
Esquisse dun solfge concret, il donne entre autres 25 dfinitions pour lexploitation des
objets sonores ainsi que les procds de base qui leur sont applicables. On peut distinguer
notamment des mthodes de classification, des oprations de traitements en amont du tra-
vail de composition (altrations de divers paramtres des sons), des procds de ralisation
dune pice de musique concrte (montage, mixage, spatialisation etc.). Laboutissement
du travail de formalisation de la musique concrte par Shaeffer est le Trait des Objets
Musicaux qui parut en 1966 et fixa ainsi les notions esquisses de ses prcdents crits
(Schaeffer (1966)).
Henry, pendant la composition de Concerto des ambiguts et Suite en 1950, rencontre

des difficults importantes pour la notation de son travail. Concerto des ambiguts tant
principalement bas sur un piano prpar, lutilisation dune notation classique tait in-
adapte du fait que les rsultats acoustiques taient significativement diffrents des vne-
ments nots sur la partition. Les premires tentatives de notations incluant des graphiques
additionnels la partition classique, notamment pour reprsenter la hauteur des sons,
furent essayes sans succs. Le principal inconvnient de cette proposition tait de ne pas
donner dinformation sur le timbre. En 1951, Schaeffer et Henry travaillaient sur le pre-
mier opra concret Orphe et Schaeffer en cette occasion ressentit la ncessit de crer
deux types de partitions : la partition opratoire dcrivant les procdures techniques et
la partition deffet pour le dveloppement des ides musicales sur des portes parallles
associes chacun des lments concrets.
2.2.3 Cologne et lelektronische musik

2.2.3.1 Cration du studio de Cologne
En Allemagne, les innovations esthtiques et technologiques dans le domaine musical

donneront lieu lelektronische musik. A loppos de la musique concrte dont Schaeffer
est le principal initiateur, il sagit ici du fruit de la collaboration de plusieurs personnes
ayant des comptences techniques et musicales.
En 1948, le docteur Werner Meyer-Eppler qui est alors directeur du dpartement

dtudes phontiques luniversit de Bonn reoit la visite de Homer Dudley, un cher-
cheur amricain du Bell Telephone Laboratories. Dudley profite de cette visite pour pr-
senter la machine quil venait de concevoir : le Vocodeur (Voice Operated reCOrDER).
Impressionn par cette invention, Meyer-Eppler utilise le Vocoder comme illustration lors
dune confrence sur la production du son par des moyens lectroniques qui eu lieu en 1949
Detmold. Par chance, Robert Beyer de la NWDR faisait partie de laudience. Lintrt
des deux scientifiques pour lutilisation des technologies lectroniques dans un contexte
musical aboutit la ralisation dune confrence commune sur le Le monde sonore de la
musique lectronique en 1950 lors de lInternational Summer School for New Music de
Darmstadt. Le compositeur Herbert Eimert qui tait prsent exprima un intrt particu-
lier pour leurs ides et les trois hommes discutrent dune association informelle afin de
promouvoir lelectronische music.
21
Le 18 octobre 1951, la station radio de Cologne propose un programme intitul Le

monde sonore de la musique lectronique sous la forme dun forum tenu par Eimert, Beyer
et Meyer-Eppler. Le forum tait illustr par des dmonstrations sonores ralises partir
dun instrument lectronique, le Melochord, qui ntait pas sans rappeler le Trautonium. Le
jour mme, un comit spcial qui incluait entre autres Fritz Enkel, le directeur technique de
la radio de Cologne, et bon nombre de ses assistants fut form. Ce comit dcida dtablir
un studio de musique lectronique afin de poursuivre les procds suggrs par Meyer-
Eppler et de composer directement sur la bande magntique. Le projet prit deux ans avant
de devenir compltement oprationnel et Eimert fut nomm directeur artistique du studio.
2.2.3.2 Les premires pices delektronische musik

Beyer et Eimert composrent leurs premires pices lectroniques entre 1951 et 1953
alors que le studio de Cologne tait encore en construction (Klang im unbegrenzten Raum,
Klangstudie I, Klangstudie II ). Dans la premire moiti de lanne 1953, ils composrent
Ostinate Figuren und Rhythmen et Eirmert composa Struktur 8 seul. Ces premires pices
du courant de lelektronische musik sont caractrises par lapplication stricte de proc-
dures srielles4 que ce soit au niveau de la slection des timbres ou des traitements. En
effet, de nombreux compositeurs delektronische musik vouent une grande estime la se-
conde cole de Vienne 5 et sont donc de fervents dfenseurs de la cause srielle.
Contrairement la musique concrte qui utilise des sources sonores enregistres prin-
cipalement acoustiques comme matriel de base, lelektronische musik utilise plutt des
procds lectroniques pour la gnration sonore. Le dsir de contrle total sur le timbre
induit le gnrateur dondes sinusodales comme tant la source sonore la plus approprie.
En effet, selon le thorme de Fourier, on peut dcomposer une source sonore priodique
en la somme de plusieurs composantes sinusodales de frquences, amplitudes et phases d-
termines. Initialement, le studio de Cologne tait constitu exclusivement dun gnrateur
sinusodal de haute prcision, un gnrateur de bruit blanc, un Monochord lectronique et
un Melochord. Ces deux derniers instruments taient quips de claviers et le Melochord
pouvait gnrer des ondes caractristiques que lon retrouvera plus tard dans les premiers
synthtiseurs : onde en dents de scie, onde triangulaire et onde carre.
Les premires pices de Karlheinz Stockhausen composes au studio de Cologne, Stu-

die I en 1953 et Studie II en 1954, furent cres uniquement partir du gnrateur de
sinusodes. Ces deux pices illustrent bien la notion de mixture de notes qui dsigne la
combinaison de sinusodes dont les frquences ne sont pas en rapport harmonique. Cette no-
tion permet de distinguer les spectres harmoniques des spectres inharmoniques. On peut
galement citer Gesang der Jnglinge (1955-1956) de Stockhausen comme un tournant
dans le dveloppement artistique du studio de Cologne pour tous les enseignements quelle
apporte et son intgration de la voix humaine avec des sons lectroniques. Parmi les trai-
tements utiliss dans les compositions delektronische musik, on peut citer entre autres le
filtrage et la modulation en anneau. On constate que linterdpendance entre la synthse
et la composition musicale constitue une constante du courant allemand, la frontire entre
4
le srialisme est un courant musical du XXe sicle qui vite toute tonalit en donnant une importance
gale chacune des 12 notes de la gamme chromatique. La musique srielle est compose autour de la
notion de srie : succession de sons fixe au pralable et invariable
5
dsigne les compositeurs Schnberg, Berg et Webern, en rfrence la premire cole de Vienne, celle
dHaydn, Mozart, Beethoven et Schubert
les deux disciplines tait dailleurs parfois trs floue.
Aprs les quelques divergences entre la musique concrte et lelektronische musik, on ad-
met aujourdhui que les deux coles constituent deux facettes complmentaires des dbuts
de la musique lectroacoustique.
2.2.4 Milan, un autre studio europen important
Le studio de Milan fut cr en 1955 par la Radio Audizioni Italiane (RAI) et co-fond
par les compositeurs Luciano Berio et Bruno Maderna. Ce centre, qui a fortement influenc
le studio de Cologne, a t cr pour les besoins de lcole italienne de composition. La ma-
jorit des compositeurs de ce studio ne rentraient pas dans les querelles franco-allemandes
sur la production des sons, prfrant se consacrer aux caractristiques perues des struc-
tures sonores.
Une constante des pices produites dans le studio de Milan pendant les annes 50 et
au dbut des annes 60 tait la proccupation quavaient les compositeurs pour la texture
et la sonorit. Un processus de composition courant tait la formation de clusters de sons
partir de sinusodes et la cration de flux sonores partir de bruits blancs filtrs.
Lcole de Milan a donn une rponse pertinente aux problmes rencontrs par lelektro-
nische musik et la musique concrte. Dans Diffrences, Berio montre comment des sons
naturels peuvent tre dvelopps par lutilisation de traitements sonores. Cette pice est
un quintet pour flte, clarinette, harpe, alto et violoncelle auxquels sajoute une partie sur
bande magntique qui reprend des enregistrements des instruments en les modifiant par
des procds lectroniques. La partie lectronique sur bande est utilise comme un moyen
de dveloppement des sonorits aprs une exposition ralise par les instruments seuls. On
peut remarquer que la parole devient une source sonore trs utilise par les compositeurs de
Milan. Par exemple, dans la pice Thema, Berio utilise principalement de courts extraits
du texte Ulysses de James Joyce quil manipule par des procds lectroniques. Le texte
est dabord expos en intgralit dans une premire lecture puis la pice se dveloppe en
dsagrgeant le texte original par fragmentations, superpositions et variations du timbre
par filtrage.
Lquipement matriel du studio de Milan tait compos de neuf gnrateurs dondes

sinusodales, un gnrateur de bruit blanc, un gnrateur dimpulsions, une version modi-
fie dOndes Martenot et un ensemble de magntophones mono, stereo et quatre pistes.
La prsence des neufs gnrateurs dondes sinusodales tait un avantage certain pour les
compositeurs par rapport au studio de Cologne car cela permettait dajuster certaines
combinaisons et paramtres en temps rel.
Le studio de Milan, tout comme ceux de Paris et Cologne, a continu de jouer un rle im-
portant dans le dveloppement artistique des annes 60. Plusieurs studios se dvelopprent
dans le monde. Ainsi, la Russie, le Japon, le Royaume-Uni, la Sude, la Belgique et les
Etats-Unis ont galement t des acteurs importants dans le dveloppement des musiques
lectroacoustiques. On pourra se rfrer Manning (2004) qui prsente le dveloppement
des musiques lectroacoustiques de manire exhaustive.
23
2.3 Dfinitions
Cette section regroupe des dfinitions et notions musicales essentielles la comprhen-
sion de la suite du document.
Musiques lectroacoustiques
La naissance des pratiques lectroacoustiques a engendr plusieurs esthtiques musi-
cales trs diffrentes. Aujourdhui, il est difficile de donner une dfinition prcise de la
musique lectroacoustique. Selon le Larousse, ce terme a t cr dans les annes 50 pour
dsigner toute musique construite partir de sons enregistrs (musique concrte) ou de
synthses (elektronische musik ) en rfrences aux deux courants initis en France et en
Allemagne. Aujourdhui, le Wikipdia recense plusieurs dfinitions de la musique lectroa-
coustique :
1. Le terme musique lectroacoustique dsigne tout type de musique dans laquelle
llectricit a un rle autre que la simple utilisation du microphone ou de lamplifi-
cation pour la production de cette musique ;
2. Dsigne tout ce qui utilise la conversion dun signal acoustique en signal lectrique
et vice et versa ;
3. Musique utilisant la technologie pour enregistrer, produire, crer, manipuler et dif-
fuser le son ;
4. Dsigne toutes les activits utilisant llectricit pour produire, manipuler, diffuser
et tudier le son (correspond au terme electroacoustics des pays anglo-saxons).
Ces dfinitions sont difficiles utiliser dans le contexte musical actuel ou la quasi-totalit
de la production musicale utilise des moyens lectroniques un moment de la chaine de
cration. Ainsi, si on applique ces dfinitions, une musique utilisant le langage tonal, en-
tirement produite partir dinstruments acoustiques, mais enregistre par des moyens
lectroniques devient lectroacoustique. Les dfinitions cites ne prennent pas en compte
le paradoxe que nous venons dexposer. Ainsi, dans ce document, nous ferons principale-
ment rfrence une dfinition stylistique des musiques lectroacoustiques : regroupement
de courants musicaux aux esthtiques distinctes ns dans les annes 40 en raction aux
innovations technologiques de production sonore. Par consquent, on considre la musique
lectroacoustique comme une collection de genres musicaux et non comme une musique
utilisant des moyens lectroniques pour sa production.
Musique acousmatique
Le terme de musique acousmatique revient frquemment dans les crits consacrs aux
musiques lectroacoustiques. A lorigine, ladjectif acousmatique est repris par lcrivain
et pote Jrme Peignot en 1955 pour exprimer la distance qui spare les sons de leur
origine. Cette expression est par la suite reprise par Schaeffer en 1966 dans le Trait
des objets musicaux (Schaeffer (1966)). En 1974, le compositeur Franois Bayle reprend
lexpression afin dviter la confusion avec les musiques qui utilisent des instruments ayant
recours llectricit. La musique acousmatique dsigne selon Bayle une musique qui se
tourne, se dveloppe en studio, se projette en salle, comme le cinma. Dans lusage courant,
les deux expressions musique concrte et musique acousmatique sont souvent utilises pour
dsigner une mme musique, celle cre par Schaeffer dans les annes 40.
Musique polyphonique et monophonique

Selon le dictionnaire de lacadmie franaise, la polyphonie est un chant plusieurs
voix qui se superposent selon les rgles du contrepoint (par opposition monodie) ; par
extension, combinaison simultane de deux ou plusieurs lignes musicales mlodiques qui,
tout en formant un ensemble homogne, conservent chacune sa beaut singulire.. Il faut
entendre cette dfinition dans le contexte de la musique conventionnelle. Ainsi, en adap-
tant cette dfinition aux musiques qui nous concernent, les musiques lectroacoustiques
polyphoniques sont celles qui superposent plusieurs sons. Dans lusage courant, par abus
de langage, on oppose le terme polyphonique monophonique (et non monodique). Dans
ce document, nous opposerons donc les musiques lectroacoustiques polyphoniques aux
monophoniques qui ne font entendre quun seul son la fois. Un bon exemple de musique
lectroacoustique monophonique est la pice Timbre Dure de Messiaen.
Objet sonore
La notion dobjet sonore a t formalise par Schaeffer lors de la naissance de la musique
concrte. La dfinition prliminaire cite dans la section prcdente laisse place aujourdhui
la dfinition suivante qui est admise par la majorit de la communaut : phnomne so-
nore peru dans le temps comme un tout, une unit, quels que soient ses causes, son sens,
et le domaine auquel il appartient (musical ou non). On peut galement se rfrer Kane
(2007) qui propose dtudier lemploi de la notion dobjet sonore dans un contexte la
fois contemporain et historique. La notion dobjet sonore est suffisamment universelle pour
sappliquer des esthtiques autres que celle de la musique concrte qui a engendr sa
dfinition. Lobjet sonore est galement un outil danalyse puissant qui permet disoler les
atomes constituants des musiques lectroacoustiques. Le systme que nous proposons ne
prtend pas convenir toutes les esthtiques de la grande famille des musiques lectroa-
coustiques. Ainsi, le systme prsent sera principalement ddi aux musiques
pouvant tre dcomposes en objets sonores.
Analyse potique et esthsique

On oppose souvent deux approches danalyse : lanalyse potique et lanalyse esth-
sique. Molino distingue galement le niveau neutre dans son systme de tripartition (Molino
(2009)). Selon Molino : Le potique rassemble les processus qui ont men la cration
dune forme symbolique, et quon nomme aussi les stratgies de production et Lesthsique
rassemble les processus de rception, au cours desquels il y a attribution de significations.
Le niveau neutre correspond loeuvre dans son existence matrielle (la partition dans le
cas de la musique crite).
Units Smiotiques Temporelles

Les Units Smiotiques Temporelles (UST) sont des figures sonores dont la signification
musicale sexprime temporellement (Formosa et al. (1996)). Elles sont issues dune srie de
remarques nes de la pratique de la musique lectroacoustique :
Le matriau sonore de ces musiques chappe une description selon des modles
dorganisation en termes de hauteurs et de dures relatives.
La pratique des musiciens les mne apprhender les phnomnes sonores plutt par
des considrations de sens que par des considrations typo-morphologiques, comme le
25
propose Schaeffer. Cest--dire travers ce quils voquent en arrire-plan, soit au

niveau des images suscites par les sons, soit au niveau de laventure de la matire
sonore elle-mme.
Lorganisation temporelle, la dynamique de loeuvre, serait une des composantes im-
portantes dune musique faite de sons pour lesquels la notion de hauteur vue comme
degr est un cas particulier, et dont le travail de composition sappuie essentiellement
sur une ralit sonore, celle des sons enregistrs.
2.4 Analyse des musiques lectroacoustiques

Aprs avoir dfini le genre musical concern par notre systme, nous proposons dans
cette section de nous intresser lanalyse des musiques lectroacoustiques telle quelle est
pratique par les musicologues. Dans la premire partie, nous dcrivons ltat de lart des
approches thoriques puis dans la seconde partie nous apportons des lments de rponses
pratiques travers trois entretiens raliss avec des musicologues spcialistes du domaine.
2.4.1 Etat de lart

Le problme de la mthode est rcurent dans lanalyse des musiques lectroacous-
tiques. Simoni et al. (2000) mettent en vidence les problmes spcifiquement lis lanalyse
des musiques lectroacoustiques et proposent une thorie caractrise par linteraction dun
modle perceptif et dun modle analytique. Le modle analytique examine des aspects de
la composition aussi bien au niveau macroscopique (la forme) que microscopique (le spectre
instantan). Le modle perceptif, en plus de lcoute, utilise un spectrogramme sur lequel
on peut marquer temporellement les vnements musicaux saillants afin dinformer le mo-
dle analytique. Lauteur distingue deux catgories dvnements : ceux ncessitant une
connaissance thorique musicale et ceux ncessitant des mthodes de traitement du signal
(analyse spectrale, reconnaissance de hauteur ...). Linteraction entre les deux modles nest
pas unidirectionnelle, des aller-retours entre les deux modles peuvent tre ncessaires car
ils sinforment mutuellement.
Hist (2004) propose une procdure pour lanalyse des musiques acousmatiques qui est
drive de la synthse de lapproche top-down oriente connaissances et de lapproche
bottom-up oriente donnes. La procdure danalyse peut tre divise en plusieurs tapes
distinctes qui ne sont pas forcment ralises squentiellement : sgrgation des objets so-
nores, intgration horizontale, intgration verticale, assimilation et signification. Ltape
de sgrgation vise identifier les objets sonores. Lintgration horizontale identifie les flux
dobjets (motifs) et lintgration verticale tudie la cration et variation de timbres. La
dernire tape dassimilation et signification tudie la nature et le type de discours, lim-
plication, la ralisation et lorganisation globale dans le temps. Dans Hist (2005), lauteur
propose dassocier sa mthode danalyse une reprsentation graphique sous la forme dun
score dtude interactif pour lanalyse des musiques lectroacoustiques.
Dans Bossis (2006), lauteur propose de rechercher les invariants des musiques lectroa-
coustiques afin de trouver les conditions dune mthode danalyse systmatique. Larticle
est principalement constitu dune tude approfondie des divers paradigmes propres la
musique lectroacoustique : absence dinstruments connus, reprsentation de la musique,
analyse dune musique dont les variables de hauteur, temps, timbre ne sont pas discrtes (
loppos de la musique conventionnelle). Bossis aborde galement ltat de lart des tho-
ries danalyse de ces musiques ainsi que les progrs en traitement du signal permettant
dapporter des solutions certains sous-problmes. La conclusion de ce travail est dabord

limportance dune catgorisation des pices lectroacoustiques en fonction de leur poque
la manire du rpertoire de la musique occidentale qui distingue la priode baroque,
classique, romantique etc. Ainsi un groupe de documents choisis peut tre tudi afin den
extraire des invariants. Le musicologue doit ensuite trouver un modle formel pour chaque
pice tudie en gardant en tte le contexte global du groupe de documents choisis.
Couprie dmontre que la reprsentation graphique peut tre un outil analytique par-
faitement adapt aux musiques lectroacoustiques (Couprie (2004)). Lauteur conclut que
lassociation de sons, graphiques et textes permise par les documents multimdias permet
dlargir le champ afin de prsenter les oeuvres aussi bien aux nophytes quaux spcialistes.
Dans Couprie (2006), une catgorisation des concepts importants de la reprsentation gra-
phique analytique est ralise afin de mettre en relief les lments considrer lors dune
publication multimdia ddie lanalyse lectroacoustique.
Geslin & Lefevre (2004) prsentent lAcousmographe, un logiciel ddi la cration de
reprsentations graphiques pour les musiques lectroacoustiques (ou plus gnralement les
musiques non crites au sens traditionnel du terme). Dvelopp depuis 1991 par le Groupe
de Recherches Musicales, le logiciel en est actuellement la version 3 et est utilis dans les
coles et conservatoires. LAcousmographe permet dditer ses propres symboles graphiques
afin de raliser des reprsentations de timbre, de sons et de structures personnalises. Les
figures 2.5 et 2.6 sont des exemples de reprsentations (des acousmographies) de deux
mouvements de la pice Labyrinthe ! de Pierre Henry. On peut remarquer la vue globale
situe en haut de chaque acousmographie qui donne une ide de la structure du mouvement.
Fig. 2.5 Acousmographie de la pice Labyrinthe ! de Pierre Henry (4me mouvement,

Apesanteur), travail ralis par Branger Hainaut.
Dans Gayou (2006), lauteur prsente les portraits polychromes, une srie de livres
associs des documents multimdias en grande partie raliss avec lAcousmographe
et disponibles sur le site internet du Groupe de Recherches Musicales 6 depuis 2001. Les
6
http://www.inagrm.com/accueil/collections/portraits-polychromes
27
Fig. 2.6 Acousmographie de la pice Labyrinthe ! de Pierre Henry (10me mouvement,

Remonte), travail ralis par Eline Marchand.
transcriptions multimdias prsentes explorent les diffrentes mthodes danalyse et de

transcription utilises pour lanalyse de compositions lectroacoustiques. Les portraits po-
lychromes abordent galement les questions suivantes :
Quelle est la relation entre la partition et la transcription ?
Quel est le statut de la transcription dans le processus de communication musicale ?
La musique lectroacoustique peut-elle tre crite sur partition ?
Quelle est la relation entre la reprsentation graphique et lcriture ?
Quelle contribution la transcription graphique apporte-t-elle au genre lectroacous-
tique en particulier ?
Cet tat de lart montre quil existe des outils thoriques penss par des musicologues pour
lanalyse des musiques lectroacoustiques. Le but de cette thse nest pas de prsenter
un nouveau modle danalyse mais dapporter une assistance logicielle aux
musicologues pour mettre en pratique leurs mthodes personnelles.
2.4.2 Approche analytique de trois musicologues

Dans la dimension applicative de notre travail, la premire proccupation est dap-
porter des solutions logicielles des problmes pratiques rcurrents rencontrs par les
musicologues. Ainsi, trois entretiens ont ts raliss avec des spcialistes de lanalyse des
musiques lectroacoustiques :
Pierre Couprie 7 : Matre de confrence lIUFM - Universit de Paris-Sorbonne.
Franois Delalande 8 : Groupe de Recherches Musicales de 1970 2006, dabord chef
de travaux de recherche, puis directeur de recherche, responsable des recherches en
7
http://www.pierrecouprie.fr/
8
http://www.francois-delalande.com/
Sciences de la Musique.
Cyrille Delhaye : charg de cours lUniversit de Rouen et chercheur affili au
GRHIS (Groupe de Recherche en HIStoire).
Un questionnaire a t ralis pour les entretiens, il porte la fois sur lanalyse pure
et sur la reprsentation. Ces questions correspondent des interrogations personnelles qui
nont pas de rponses directes dans la littrature. Nous avons donc crit les questions dans
le but de nous informer sur laspect pratique de lanalyse, lever certaines ambiguts et
obtenir des suggestions. Les rponses obtenues permettent dorienter les choix et spcifi-
cations du systme. Les trois entretiens ont ts enregistrs et ils durent entre 45 minutes
et 2 heures. Dans cette section, nous prsentons une synthse des rponses aux questions
et comparons les points de vue afin de reprer les invariants dans les pratiques dana-
lyse. La synthse des entretiens a t ralise de faon rester focalis sur les questions
poses : viter les digressions, redondances et les hsitations qui nuisent la comprhension.
Lentretien est divis en plusieurs grands thmes avec une question principale et parfois
des sous questions complmentaires. Les grands thmes abords sont les suivants :
1. Aspect mthodologique
2. Approche potique et esthsique
3. Rapport avec lanalyse tonale
4. Loutil informatique
5. Perception sonore et reprsentations sonores
1. Avez-vous une mthodologie gnrale pour lanalyse des musiques lectroa-

coustiques ?
Quelles sont selon vous les grandes tapes danalyse ?
Passez-vous forcment par une annotation dtaille de tous les lments de la pice ?
Avez-vous une ide prcise de ce que vous voulez mettre en vidence avant de com-
mencer lanalyse ? Ce point de vue peut-il changer en cours danalyse ?
Pierre Couprie : Jcoute loeuvre plusieurs fois jusqu reprer les lments saillants.
Cela peut tre des sons, des mouvements dans lespace, plein de choses diffrentes. Jutilise
des marqueurs sur lAcousmographe. Chaque fois que jcoute, je cre une nouvelle couche
et je marque des lments qui me semblent ressortir. Je fais au moins une dizaine dcoutes,
cela prend du temps car je laisse passer 2 ou 3 jours entre chaque coute pour pouvoir passer
autre chose et masquer ce que jai dj marqu. Ensuite je cherche ce que je souhaite
analyser car on ne peut pas tout mettre dans une seule analyse, il faut choisir un point de
vue. Si je ne connais pas loeuvre que je vais analyser, je pars sans a priori. Je ne sais pas
ce que je vais analyser et je commence toujours par ltape dcoute pour voir ce qui pourrait
tre intressant analyser. Une fois que jai choisi une direction, janalyse les diffrents
lments et cela devient relativement classique. Mon point de vue nest pas influenc par
des lments extrieurs (notes du compositeur, notice etc.), chacun a sa propre vision de
loeuvre.
Franois Delalande : Je vais dabord dterminer de quel point de vue je vais analyser
la pice ce qui est valable aussi bien pour les pices crites que la musique lectroacoustique.
Il marrive parfois dutiliser des mthodologies diffrentes. Par exemple si vous prenez les
29
units smiotiques temporelles, le point de vue est dtermin par une problmatique parti-
culire (en loccurrence, lanalyse du temps). Il est important de dterminer galement les
pertinences. Dans le cas de ltude du temps, on peut par exemple sintresser au caractre
cyclique. Ensuite, une fois le point de vue et les pertinences dtermines, on utilise presque
toujours une transcription. En gnral, je transcris aprs la dtermination des points de
vue pour ne pas tre orient par lanalyse. Je ralise toujours une transcription de reprage
la plupart du temps en objets sonores (units morphologiques). Sur cette toile de fond, je
vais par la suite ajouter et dcrire des traits qui vont maider analyser par rapport au
point de vue que jai choisi initialement. Aujourdhui, on pratique toujours la transcrip-
tion avec une coute instrumente : on utilise un instrument dcoute (un lecteur de CD,
lAcousmographe etc. . .) qui nous permet daffiner la transcription en donnant la possibilit
de revenir en arrire, de ralentir ou filtrer dans le cas de lAcousmographe. Je ne change
pas de point de vue en cours danalyse. Si je veux prendre un autre point de vue, je reprend
depuis le dpart car il est important pour la clart de la mthodologie de sparer les points
de vus. Il est possible de raliser plusieurs points de vue pour une mme pice.
Cyrille Delhaye : Je nai pas de mthodologie gnrale, je pense que chaque pice est
totalement diffrente et jessaie dadapter les outils que jai ma disposition en fonction
de ce que je veux analyser. Chaque analyse est diffrente et jutilise chaque fois une
mthodologie diffrente. Par contre, il y a des pratiques qui reviennent souvent : lcoute
acousmatique (coute noire) sans reprsentation qui est trs importante, mais cela dpend
galement de la longueur de la pice car nos capacits de mmorisation diminuent si la pice
est trop longue. Je ralise plusieurs sries dcoutes acousmatiques. Pour une pice de 5
minutes, jcoute la pice 4 5 fois de suite en prenant des notes chaque fois. Je construis
souvent lanalyse partir de cette coute. Il peut galement arriver que janalyse une pice
dont jai entendu parler, dans ce cas jai dj tudi de la littrature son sujet et cela va
guider mon coute. On pourrait dire, si on se place dun point de vue smiologique que cest
de la potique externe. Ce sont les crits des compositeurs qui mamnent lanalyse et
jamais linverse. Je vais chercher dans un premier temps des sections (grandes priodes)
dans la pice. Je ne vais pas tout annoter, mais je vais rechercher les objets sonores avec des
factures trs fortes et facilement identifiables. Jarrive rarement avec une coute totalement
blanche, je fais souvent plus attention certains objets sonores en fonction de ce que jai
lu en amont et donc je ne suis pas compltement dtach pour mon analyse. Par contre, il
est possible que je change mon point de vue de dpart, mes hypothses, en cours danalyse
en fonction de ce que je vais dcouvrir. Je pense que cest primordial.
Pour cette premire question de mthodologie, on remarque que les trois musicologues
ralisent une transcription partielle des objets sonores les plus saillants. Couprie et Delhaye
avouent couter la pice de 4 10 fois, en laissant passer quelques jours entre les coutes
pour Couprie. Les trois musicologues utilisent une coute instrumente un moment ou
un autre. Ils parlent galement tous les trois de limportance de trouver un point de
vue. Par contre, ce sujet, il est plus difficile de dterminer un invariant sur lordre
des tapes mthodologiques car les trois musicologues ont des approches assez diffrentes :
Couprie utilise sa premire transcription pour dgager un point de vue pertinent, Delalande
a dj trouv un point de vue avant de transcrire, Delhaye utilise la transcription ou des
crits pour trouver un point de vue. De plus Delhaye semble accorder de limportance au
changement de point de vue en cours danalyse alors que les deux autres musicologues
prfrent sattacher chaque point de vue sparment.
2. Une analyse exclusivement esthsique vous semble-t-elle suffisante pour mettre

en vidence la construction dune pice lectroacoustique ?
Pierre Couprie : Une analyse exclusivement esthsique me semble tout fait perti-
nente pour les musiques lectroacoustiques. La plupart du temps on ne peut pas rencontrer
le compositeur pour discuter et il na dailleurs pas forcment envie de parler de sa pice
non plus. De plus, nous navons pas non plus accs aux rushs9 . Donc je pense quon peut
faire abstraction des lments extrieurs.
Franois Delalande : Oui, je pense quune analyse exclusivement esthsique peut

permettre de mettre en vidence une construction de la pice mais bien sur il en existe
plusieurs. Il faut sparer les analyses potiques et esthsiques, on ne doit pas les mlanger
dans une mme analyse mais par contre il peut tre intressant de regarder les interfrences
entre les deux dans un second temps.
Cyrille Delhaye : Je pense que les deux approches sont complmentaires. Etant avant
tout musicologue, je suis trs attach lhistoire, aux crits et par consquent je commence
souvent par la potique. Jutilise beaucoup les notes de programme, brouillons du compo-
siteur, les ractions dans la presse.
Cette question met en valeur lopposition entre les coles danalyse. On peut noter
que Couprie et Delhaye dmarrent leur analyse de faons diffrentes : Couprie utilise uni-
quement lenregistrement de la pice et Delhaye se base souvent sur les crits en premier
lieu. Delalande sintresse aux interfrences entre les deux approches.
3. Peut-on transposer les approches danalyse tonale aux musiques lectroa-

coustiques ?
En musique tonale, les motifs mlodico-harmoniques sont rpts pour assurer lunit
et la comprhension/assimilation de la pice. Selon vous, peut-on retrouver des sys-
tmes de rptitions de motifs dans la musique lectroacoustique ? Sur quels aspects
sexpriment ces rptitions ?
Pierre Couprie : Il y a des choses qui sont transposables, notamment au niveau de la
structure : on retrouve les structures de type ABA, alternance couplet/refrain, thmes et
variations. Globalement il sagit des structures qui reviennent le plus souvent dans les pices
lectroacoustiques. Il y a galement des rapports au niveau du contrepoint, les rgles de
contrepoint de la musique classique sappliquent galement la musique lectroacoustique.
Lanalyse harmonique nest bien sur pas transposable. Par contre, on peut retrouver des
cadences dans la musique lectroacoustique mais cela ne fonctionne pas de la mme faon
que dans la musique tonale. Les UST (Units Smiotiques Temporelles) arrivent assez bien
dcrire ces fonctions. La superposition des plans sonores est un axe danalyse intressant
pour les musiques lectroacoustiques, Franois Bayle utilise souvent ce principe. Le principe
de rptition sexprime galement en musique lectroacoustique par exemple avec un son
complexe qui revient ponctuellement ou un enchainement de sons. Il ne faut pas prendre
cette rptition au sens strict comme la rexposition dune mlodie : par exemple dans le
cas dun crescendo le mouvement gnral du crescendo peut tre rpt mais pas forcment
9
analogie au vocabulaire cinmatographique dans lequel les rushs sont la totalit des plans films pen-
dant le tournage, ici ce terme dsigne les sons avec lesquels le compositeur travail sur la pice.
31
lidentique. On peut dire que lanalyse de la musique lectroacoustique est diffrente de

celle de la musique tonale mais il existe quelques gros archtypes qui sont communs.
Franois Delalande : On ne peut pas transposer directement les mthodes danalyse

tonale la musique lectroacoustique cependant quand on a dtermin un point de vue et
des pertinences, on rentre dans un cas ou la grille danalyse est peu prs configure, il ne
reste plus qu lappliquer. Les UST sont un bon exemple : on dispose dune grille danalyse
connue, il sagit ensuite de lappliquer. Si vous pensez la musique crite ( e.g. la musique
classique), il faudrait plutt penser lanalyse dun enregistrement de la pice car il ny
a pas que les accords, il y a aussi tout ce que rajoute linterprte etc. . . Cest ce qui nous
rapproche des musiques lectroacoustiques. Dans le cas des musiques lectroacoustiques, on
trouve parfois des ritrations (rptitions) sous forme de simples copies mais cest assez
rare et surtout la rptition dpend galement du point de vue.
Cyrille Delhaye : Je ne pense pas que cela soit la direction o il faut chercher. Nous
avons besoin doutils souples qui peuvent sadapter chaque pice. Je pense que la force de
la musique lectroacoustique cest justement de stre libre de ces carcans thoriques et
le fait dappliquer une mthode trs normative peut mon avis tuer le geste crateur et la
libert apporte au compositeur dans cette musique. Contrairement la musique tonale, je
pense quen musique lectroacoustique, la rptition pure nexiste pas, jai plutt rencontr
des compositeurs qui citaient les mmes objets sonores mais en les variant. Par contre, il
est intressant de voir que Pierre Henry rutilise des objets sonores, quil a enregistr dans
les annes 50, dans des pices des annes 2000.
Au sujet du rapport avec la musique tonale, on apprend principalement que la mtho-

dologie standard de la musique tonale nest pas transposable directement. Il sagit plutt
de trouver dans un premier temps la bonne mthodologie avant de lappliquer. En ce qui
concerne la rptition de motifs, les avis convergent galement : la rptition lidentique
dun mme objet est assez rare, la reprise varie dun mme objet est plus frquente.
4. Quattendez-vous de loutil informatique pour vous assister dans votre ana-

lyse ?
Pierre Couprie : Par exemple, jaimerais pouvoir reprer les diffrentes itrations
dun mme son dans lacousmographe, cest ce qui mintresserait le plus. Il pourrait gale-
ment tre intressant dessayer de reprer des sries de sons un peu comme dans la musique
srielle. Je souhaiterais galement avoir un outil qui me ferait des propositions de segmen-
tation plusieurs niveaux de prcision un peu comme dans les logiciels de musique tel que
Live qui segmente automatiquement les sons.
Franois Delalande : Il serait intressant de pouvoir avoir une sorte de fond de carte
de la pice (pour les objets saillants) pour pouvoir ensuite continuer lannotation la main.
Je pense quon peut aller assez loin dans lautomatisation de lanalyse des contrastes, des
registres de hauteurs, des grains. Cela pourrait tre trs utile car certains sonagrammes
sont parfois difficiles exploiter. Je pense quon peut automatiser le reprage des sons vu
quon ne pose pas le problme des pertinences ce moment. Il sagit plus davoir un certain
confort de lecture. Par contre, dans une seconde tape, il me semble important de pouvoir
raliser des symboles graphiques la main comme dans lAcousmographe afin de pouvoir
par exemple tirer ou contracter les symboles si certains objets sont plus longs.
Cyrille Delhaye : Ce que je recherche dans loutil informatique cest une caution
scientifique : je lui demande une vrification de mes hypothses analytiques. Par exemple
lorsque jai essay Sound Spotter (un outil de recherche de sons par similarits), jai trouv
des occurrences de sons que je navais pas perues. Evidemment, on rve tous dun outil
qui permettrait de sparer les diffrentes voix de mixage dune pice pour voir comment
le compositeur a ralis lassemblage des sons entre eux. Il serait galement intressant
davoir un outil qui permettrait de pouvoir trouver automatiquement les grandes priodes
dune pice mais cela me semble un peu moins important. Avoir un outil pour isoler les
objets sonores entres eux serait dj une grande aide pour mes travaux.
Au sujet des apports de loutil informatique pour lanalyse, les musicologues ont des
demandes assez diverses qui correspondent en fait leurs habitudes danalyse qui peuvent
tre assez diffrentes. Ainsi, on peut remarquer les propositions suivantes : reprage de
grandes priodes ou sries de sons (Delhaye et Couprie), sparation des voix de mixage
(Delhaye), utilisation de symboles graphiques personnaliss (Delalande). Les trois musico-
logues expriment le besoin davoir un outil leur permettant de reprer les objets sonores
principaux.
5. Est-ce que vous utilisez une reprsentation visuelle (forme donde, spectro-
gramme etc.) du signal sonore pour vous aider dmarrer votre analyse ? Les
informations de reprsentation ne risquent-elles pas dinfluencer votre ana-
lyse ?
Pierre Couprie : Jutilise le spectrogramme ds la premire coute de reprage (jai

dj cout la pice sans support auparavant). Il y a certaines oeuvres pour lesquelles le
spectrogramme ne donne rien du tout mais elles sont assez rares. Il est vrai que cela peut
influencer lanalyse par rapport une coute pure mais cela nest pas gnant car les deux
approches sont complmentaires. Par exemple, le spectrogramme peut rvler la faon dont
certains sons complexes sont construits, ce qui est trs informatif. Le spectrogramme peut
reprsenter galement des dtails quon nentend pas mais dans ce cas je nen tiens pas
compte dans lanalyse. Il faut toujours donner la priorit loreille.
Franois Delalande : Je commence toujours par une coute pure. Dans mes travaux
danalyse esthsique, je mets de ct mon coute personnelle : je fais couter des per-
sonnes que jenregistre et je recoupe les informations afin de reprer les tmoignages qui
se rejoignent. Je commence la transcription uniquement aprs avoir distingu les points de
vue cest--dire environ trois mois aprs. Jutilise alors une reprsentation graphique (le
sonagramme). Les perceptions ne sont pas influences par le support visuel car jai dj des
points de vue analytiques en amont et jutilise les reprsentations par la suite comme des
outils.
Cyrille Delhaye : Je commence mon analyse par une coute sans support visuel.
Ensuite jutilise le spectrogramme et la forme donde pour structurer mon analyse et pour
maider me reprer dans le document sonore. Jai fait lexprience avec mes lves de
leur faire dcouvrir une pice en leur montrant le spectrogramme en mme temps et ils
sont trs influencs par le support visuel. Je pense que pour dcouvrir une pice, lcoute
33
pure permet une perception plus intressante. Les outils visuels sont intressants pour nous
aider comprendre la musique mais dans un second temps.
La comparaison des trois rponses fait apparaitre clairement limportance de lcoute

pure sans support visuel pour la dcouverte de la pice. Le support visuel est par la suite
utilis pour aider la transcription. La rponse cette question met en avant le fait quil
serait utile davoir accs une reprsentation de type spectrogramme et/ou forme donde
dans le systme final.
Les figures 2.7 et 2.8 rsument les informations importantes apprises lors des entre-
tiens qui viennent dtre prsents. Ces informations seront utilises pour llaboration du
systme.
Invariants dans les pratiques danalyse des personnes interroges :
Ecoute de la pice entre 4 et 10 fois pour localiser les objets sonores les plus saillants ;
Elaboration de points de vues ;
Pour certains, la transcription en objets sonores aide former un point de vue alors
que dautres en ont dj un en amont ;
La transcription seffectue principalement sur les objets saillants ou ceux qui
clairent un point de vue danalyse.
Fig. 2.7 Bilan des invariants
Attentes et suggestions des musicologues pour un outil danalyse :
Localiser les objets principaux dune pice et cautionner la transcription de ces

derniers ;
Trouver toutes les instances dun objet sonore donn ;
Sparer des diffrentes voix de mixage ;
Reprer les grandes priodes ;
Reprer les sries de sons ;
Proposer une segmentation de la pice ;
Dcouvrir des instances dobjets quils navaient pas remarques.
Fig. 2.8 Bilan des souhaits et suggestions
2.5 Un systme interactif daide lanalyse des musiques

lectroacoustiques
Dans la section prcdente, nous avons cherch dgager les besoins rels des musi-
cologues qui analysent les musiques lectroacoustiques. Le systme propos constitue une
premire pierre ldifice, nous ne prtendons pas pouvoir rpondre toutes les attentes
nonces. De plus nous nous focalisons sur les musiques qui peuvent tre analyses en les
dcomposant en objets sonores. Dans cette section, nous prsentons les systmes danalyse
existants ainsi que les choix concernant larchitecture de notre systme.
2.5.1 Etat de lart

Il existe des logiciels ddis lannotation musicale dans un but analytique (Couprie
(2008), Puig et al. (2005), Geslin & Lefevre (2004)). iAnalyse permet de synchroniser une
partition avec un fichier audio, de visualiser des paramtres musicaux et dannoter la par-
tition partir de divers objets graphiques ( Couprie (2008)). Dans Puig et al. (2005), un
logiciel dducation musicale qui contient un module dannotation musicale et de synchro-
nisation audio/partition est propos (ML-Annotation). Ces deux logiciels ont en commun
dtre ddis aux musiques crites et dutiliser la notation musicale traditionnelle. Par
consquent ils ne sont pas adapts aux musiques qui nous concernent dans ce travail car
les mthodes danalyse sont diffrentes comme nous lavons vu dans la section 2.4.2.
LAcousmographe qui a dj t cit prcdemment est ddi lannotation des mu-

siques non crites (Geslin & Lefevre (2004)). Il constitue un outil dannotation bien im-
plant dans la communaut mais ne dispose actuellement pas de modules permettant de
raliser des classifications dobjets sonores par exemple. Park et al. (2009) propose EASY,
un systme daide lanalyse des musiques lectroacoustiques sous la forme dun pro-
gramme Matlab qui est principalement ddi la reprsentation des descripteurs et qui
se focalise en particulier sur le timbre. Outre les reprsentations classiques de type forme
donde ou autres spectrogrammes, EASY propose galement de visualiser le timbre en
trois dimensions. Les trois axes de reprsentations sont ceux dcris dans McAdams et al.
(1995) comme tant les plus pertinents pour dcrire le timbre (on peut galement affecter
un attribut quelconque aux axes). On peut dailleurs remarquer que ltude effectue dans
McAdams et al. (1995) ne sapplique que dans un contexte monophonique (notes isoles),
ce qui est une limite importante dans le cas des pices lectroacoustiques qui sont majori-
tairement polyphonique.
Des travaux ont ts proposs afin de raliser une description morphologique du signal
audio (Ricard & Herrera (2004), Peeters & Deruty (2008)). La notion de description mor-
phologique est introduite par Schaeffer, elle dsigne la description de la forme dun objet
sonore. Dans sa thorie, Shaeffer dcrit les critres morphologiques comme des caractres
observables dans lobjet sonore, des traits distinctifs ou encore des proprits de lobjet
sonore peru. Thoriquement le nombre de critres observables est infini mais Schaeffer en
a limit le nombre sept :
Critres de matire : masse, timbre harmonique
Critres dentretien : grain, allure
Critre de forme : dynamique
Critres de variations : profil mlodique, profil de masse
On peut noter que la description morphologique peut constituer une information utile
pour lanalyse musicale (Franois Delalande parle de reprer des units morphologiques
dans la section 2.4.2). Cependant, les travaux proposs sintressent des objets sonores
individuels or dans notre cas nous souhaitons traiter des polyphonies dobjets. Dans Nuci-
bella et al. (2005), la mthode de description morphologique de Ricard & Herrera (2004)
est applique une pice lectroacoustique. Le temps de calcul pour la description mor-
phologique est important : 3 heures pour un segment de 2 minutes. De plus, les auteurs
mentionnent que cette mthode a t conue pour analyser des objets sonores dans un
contexte monophonique et que la pice teste comporte beaucoup de polyphonie. Ainsi, la
35
Contexte musical Mode danalyse Polyphonie Complexit

iAnalyse conventionnel manuel oui temps-rel
ML-Annotation conventionnel manuel oui temps-rel
Acousmographe lectroacoustique manuel oui temps-rel
EASY lectroacoustique automatique non non connue
Descr. morphologique lectroacoustique automatique non importante
Fig. 2.9 Tableau rcapitulatif des systmes existants
description morphologique donne de bons rsultats dans les passages monophoniques mais
les rsultats se dgradent fortement dans les passages comportant beaucoup de polyphonie.
Dans notre cas, cette approche est de toute faon trop lente car nous souhaitons permettre
lutilisateur de raliser des interactions avec le systme dans un temps acceptable.
Les caractristiques des systmes existants sont rsums dans le tableau 2.9. Il est
important de prciser quaucun des systmes existants ne permet danalyser les
objets sonores de manire semi-automatique et dans un contexte polyphonique.
Lobjectif de cette thse est de combler ce manque.
2.5.2 Architecture du systme

2.5.2.1 Contraintes fonctionnelles
Nous avons remarqu dans le chapitre 2 que les musicologues passent systmatiquement
par une premire srie dcoutes pendant laquelle ils vont reprer les objets sonores aux-
quels ils sintressent. Il est important de considrer la notion de point de vue qui peut
tre dtermin avant les coutes de reprage ou bien aprs quelques coutes. Le point de
vue est galement propre chaque musicologue pour une analyse donne do limportance
de considrer laspect subjectif du problme : le systme doit sadapter au point de vue
danalyse de lutilisateur. On peut galement remarquer que les musicologues vont sint-
resser en particulier aux objets sonores saillants et ne vont pas raliser une transcription
complte de la pice dans un premier temps.
Une des attentes principales des musicologues porte sur lidentification des diffrentes
instances des objets sonores principaux de lensemble de la pice. Ainsi, dans ce travail
de thse, nous cherchons assister le musicologue dans le reprage dobjets en
laidant retrouver leurs diffrentes instances partir dune instance initiale.
La figure 2.10 illustre le problme pour retrouver les diffrentes instances de lobjet de
couleur verte.
Pour laborer larchitecture de notre systme, nous devons prendre en compte les
contraintes suivantes :
Nature indtermine des sons utiliss par les compositeurs : nous ne pou-
vons pas nous baser sur des grandes bases de signaux audio pour apprendre les
sons. Nous devons donc forcment utiliser des chantillons sonores de la pice pour
apprendre les classes sonores.
Polyphonie des pices musicales : la plupart des pices sont polyphoniques et
donc il faut considrer la superposition des objets sonores. Autrement dit, un segment
audio contenant lobjet sonore cherch peut galement en contenir dautres qui lui
Fig. 2.10 La figure (a), reprsente la superposition de diverses sources sonores dans
une pice musicale (un son diffrent par ligne/couleur), comme cest le cas dans une pice
lectroacoustique polyphonique. La figure (b) est le mixage rsultant de toutes les sources
sonores, lors de lanalyse nous navons accs qu ce mlange de sources. Le systme doit
pouvoir prdire les diffrentes instances dun objet donn (en loccurrence le son vert)
partir de linstance de la slection utilisateur.
sont superposs.
Adaptation au point de vue danalyse : lutilisateur doit pouvoir exprimer les
objets auxquels il sintresse.
Ractivit : les composants du systme doivent tre suffisamment rapides pour que
le systme soit ractif aux interactions de lutilisateur.
2.5.2.2 Choix darchitecture

Nous proposons une approche en deux temps pour le systme :
1. Segmentation timbrale en units sonores homognes, pour initialiser le systme.
2. Classification des objets sonores viss par lutilisateur.
La figure 2.11 illustre les diffrents composants de larchitecture du systme propos.
La segmentation timbrale effectue avant la classification est une tape importante de

notre approche. Comme nous lavons vu dans la section 2.4.2, les utilisateurs du systme
reprent les objets saillants lors des premires coutes. Lintrt de cette segmentation
timbrale est de leur faciliter le choix et la dcouverte des instances initiales de classes
37
Fig. 2.11 Architecture globale du systme
qui seront utilises pour initialiser la classification. Nous avons choisi le timbre comme
critre de segmentation car il sagit dun des aspects les plus structurant des musiques
lectroacoustiques. Les objets sonores se trouvent des chelles temporelles diffrentes
et la segmentation timbrale permet lutilisateur dcouter des mixtures sonores homo-
gnes. De plus, lapproche de segmentation que nous proposons apporte galement une
information de similarit timbrale entre les segments afin de pouvoir les comparer et de
choisir les instances initiales de faon ce quelles soient reprsentatives. Nous dtaillerons
lapproche de segmentation dans le chapitre 3.
Ltape de classification des objets permet daffecter des tiquettes aux diffrents seg-
ments de la pice. Ltiquette dun segment correspond aux objets viss par lutilisateur
prsents dans le segment. Comme nous lavons abord dans les contraintes fonctionnelles,
tant donn que les pices sont polyphoniques, les segments sonores peuvent contenir plu-
sieurs objets viss. Lapproche de classification que nous proposons doit donc permettre de
raliser un multi-tiquetage des segments sonores. Autrement dit, le systme doit pouvoir
prdire pour chaque segment les diffrentes classes sonores auxquelles le segment appar-
tient. De plus, tant donn la nature indtermine des sons utiliss par les compositeurs,
la tche de classification est relativement difficile car nous ne disposons que des segments
sonores de la pice choisis par lutilisateur pour dmarrer lapprentissage. Une approche
par retour de pertinence est adapte au problme car elle permet dintgrer le jugement de
lutilisateur au fur et mesure afin de faire progresser les prdictions du classifieur. Pour
bnficier du retour de pertinence, le systme slectionne des segments que lutilisateur va
pouvoir couter afin de valider/corriger les prdictions du classifieur. La classification est
ensuite remise jour en fonction des informations apportes par lutilisateur. Ainsi, une
boucle dinteraction est mise en place et la classification progresse chaque itration jus-
qu ce que lutilisateur soit satisfait des prdictions. La slection des segments prsents
lutilisateur par le systme se base sur lapprentissage actif qui est une mthode per-
mettant de slectionner les segments les plus utiles pour lapprentissage. Nous dtaillerons
la phase de classification dans le chapitre 4. La figure 2.12 prsente un scnario typique
dutilisation du systme.
1. Initialisation
(a) Lutilisateur interagit avec le systme afin dobtenir une segmentation adap-
te la pice considre.
(b) Lutilisateur slectionne le segment quil considre comme caractristique
pour chaque classe sonore.
2. Classification des objets
(a) Le systme ralise une classification en apprenant partir des segments va-
lids par lutilisateur. Ainsi, des tiquettes sont prdites automatiquement
pour les parties restantes de la pice.
(b) Afin damliorer la classification, le systme ralise la slection active dun
segment et demande lutilisateur de valider/corriger les prdictions dti-
quette.
(c) Les tapes (a) et (b) sont rptes jusqu satisfaction de lutilisateur
Fig. 2.12 Etapes dun scnario dutilisation du systme
2.5.3 Corpus synthtique
Lvaluation de notre systme nest pas une tche simple, notamment en ce qui concerne
la recherche dune vrit terrain. Les annotations de certaines musiques lectroacoustiques
existent mais la plupart dentre elles ne font pas la diffrence entre la description des vne-
ments sonores et linterprtation musicologique. De plus lannotation de ce type de musique
requiert lexpertise de spcialistes qui sont beaucoup plus rares que les personnes capables
dannoter de la musique classique ou tout autre style plus conventionnel. Ayant connais-
sance de cette ralit, nous avons dcid de gnrer un corpus dvaluation synthtique. Un
des grands avantages de ce choix est de pouvoir gnrer de nombreuses pices diffrentes et
simultanment lannotation correspondante ce qui permet de rendre lvaluation plus ro-
buste. Nous avons ainsi gnr deux types de corpus qui seront utiliss pour les valuations
prsentes dans les chapitres suivants. Le premier corpus, Corpus M, est monophonique et
le deuxime, Corpus P, est polyphonique et par consquent plus complexe.
39
2.5.3.1 Corpus M
Ce premier corpus est le plus simple des deux de par sa nature monophonique. Il a t
utilis en dbut de thse pour lvaluation du systme de segmentation timbrale.
Pour la cration de ce corpus, nous partons dune pice de musique concrte annote
manuellement : un extrait de Timbre Dure dOlivier Messiaen a t choisi. Cette pice
peut tre considre comme un archtype car elle utilise des enchainements de timbres et de
mixtures pour crer une pice musicale la structure complexe. Une proprit importante
de cette pice est quelle est monophonique : seulement un timbre/mixture est expos
la fois. Cette proprit est adapte notre problme initial de segmentation : crer des
frontires entre les enchainements de mixtures qui constituent une pice musicale.
Le corpus synthtique a t gnr par concatnation de sons extraits partir de deux

banques dchantillons sonores. La premire, fournie par lINA est une collection de sons
environnementaux et sons dambiances (applaudissements, ambiances urbaines, sonneries
de tlphone etc.). La deuxime est une banque dchantillons trs utilise en recherche :
il sagit de la partie instrumentale de la base RWC, Goto et al. (2002), qui contient la
plupart des instruments de lorchestre. Une description dtaille des chantillons utiliss
pour la gnration peut tre trouve en annexe A.1.
En suivant les principes de construction de la pice Timbre Dure, un algorithme de

gnration a t labor. Ainsi pour crer une pice synthtique, un chantillon est choisi
arbitrairement et un segment est slectionn alatoirement lintrieur de lchantillon
avant dtre concatn au segment prcdent. Les segments sont de dure arbitraire : de
moins dune seconde 5 secondes pour les plus longs. Le processus de gnration est rpt
itrativement pour gnrer des pices synthtiques de 30 secondes. Le corpus total compte
1000 pices de 30 secondes dont 200 dentre elles sont utilises pour la slection dattributs
(voir section 3.3.3.2) et les 800 restantes pour le test de lalgorithme de segmentation
prsent dans la section 3.4.2.
2.5.3.2 Corpus P
Ce deuxime corpus, polyphonie variable a t ralis un stade plus avanc de la
thse afin dvaluer le systme complet.
Comme nous le savons maintenant, dans les musiques lectroacoustiques, on peut ren-
contrer nimporte quelle source sonore acoustique ou lectronique. Ce constat nous amne
nous poser des questions pour le choix des sons constituant les pices synthtiques. Nous
proposons de choisir des sources sonores de difficult raliste qui pourraient tre utilises
dans des compositions. Pour cette raison, nous avons utilis des sons slectionns par des
compositeurs du GRM. Une description dtaille des chantillons utiliss pour la gnration
peut tre trouve en annexe A.2.
Pour la gnration de pices synthtiques, nous cherchons crer des polyphonies com-
plexes dobjets sonores. Ainsi, nous choisissons dutiliser des sons complexes ayant une
volution temporelle. Autrement dit, il ne sagit pas de notes ou de squences de notes
hauteur dtermine. Trois compositeurs du GRM ont particip la slection des sons
qui pour la plupart viennent denregistrements personnels et ont t slectionns ind-
pendamment, sans intention compositionelle particulire. La contrainte principale pour la
slection tait de choisir des sons qui gardent des caractristiques timbrales relativement
stables afin de pouvoir les considrer comme une classe unique. Les trois compositeurs ont
slectionn un total de 24 sons (par consquent 24 classes possibles) pour la gnration.

Les caractristiques principales des sons slectionns sont les suivantes :
Leur longueur est variable, elle se situe dans des ordres de la seconde la minute ;
ils peuvent tre construits partir de lagrgation de sons lmentaires plus petits ;
ou encore par la superposition de plusieurs sons lmentaires.
Afin dtudier linfluence de la polyphonie sur les performances de lalgorithme, pour

chaque pice synthtique, cinq versions ont t gnres avec un degr de difficult po-
lyphonique progressif. La premire version de chaque pice est monophonique et la cin-
quime version superpose un maximum de cinq sons simultanment. Par consquent, pour
la ime version dune pice Pi , nous avons un maximum de i sons superposs. Dans la
suite de ce document, nous dfinissons le degr de polyphonie comme le nombre maximal
dlments superposs dans une version de pice. Au total, 100 pices de 2 minutes ont
t gnres avec 5 versions polyphoniques diffrentes pour chacune (soit un total de 500
fichiers synthtiques).
Le processus de gnration des pices est plus complexe que dans le cas monophonique
(Corpus M). La figure 2.13 illustre le processus de gnration utilis pour crer des s-
quences de sons artificielles. Ainsi, pour raliser les squences, on choisit arbitrairement 5
sons parmi les 24 disponibles dont on extrait des segments alatoirement. Cette premire
tape nous permet dobtenir diffrentes instances dune mme classe sonore. Ensuite, cinq
couches sonores sont ralises en alternant les diffrentes instances de chaque classe et des
silences de dure alatoire. Finalement, les diffrentes couches sont mixes en tenant compte
du degr de polyphonie de chaque version. Dans les pices synthtiques, on considre les
diffrentes instances dun mme son comme des objets sonores de mme classe.
Fig. 2.13 Processus de gnration des pices synthtiques

41
2.6 Conclusion
Dans ce chapitre, nous avons dcrit le type de musiques auxquelles le systme est des-
tin. Nous avons galement abord lanalyse des musiques lectroacoustiques telle quelle
est pratique par des spcialistes afin de mettre en valeur leurs attentes. Certaines pra-
tiques danalyse sont partages par les personnes interroges et nous ont permis de proposer
une application utile ainsi que de dgager les contraintes fonctionnelles applicatives. Nous
en avons dduit un choix darchitecture en adquation avec les diffrentes contraintes et
objectifs. Les deux corpus utiliss pour lvaluation du systme ont galement ts prsen-
ts. Le chapitre suivant expose la premire tape dinitialisation du systme base sur une
segmentation timbrale interactive.
43
Chapitre 3
Segmentation interactive de
musiques lectroacoustiques
Sommaire
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2 tat de lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.1 Approches par mesures de similarits . . . . . . . . . . . . . . . . 45
3.2.2 Approches par dtections de ruptures . . . . . . . . . . . . . . . 46
3.2.3 Approches par programmation dynamique . . . . . . . . . . . . . 47
3.2.4 Approches par clustering . . . . . . . . . . . . . . . . . . . . . . 47
3.2.5 Approches issues dautres domaines . . . . . . . . . . . . . . . . 48
3.3 Segmentation interactive . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2 Extraction de descripteurs . . . . . . . . . . . . . . . . . . . . . . 49
3.3.3 Construction dun descripteur de timbre adapt . . . . . . . . . . 52
3.3.4 Reprsentation dunits sonores . . . . . . . . . . . . . . . . . . . 54
3.3.5 Clustering hirarchique . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.6 Clustering interactif . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.1 Critres dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.2 Expriences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
44 3. Segmentation interactive de musiques lectroacoustiques
3.1 Introduction
Comme nous lavons vu dans le chapitre prcdent, on peut distinguer deux phases
interactives dans notre systme : la segmentation timbrale et la classification dobjets. Ce
chapitre se concentre sur la premire phase qui peut tre assimile une segmentation en
units sonores homognes. Pour raliser cette segmentation, nous axons cette initialisation
sur un des aspects les plus structurants de la musique contemporaine : le timbre. La
segmentation timbrale a pour objectif de faciliter le choix et la dcouverte des instances
initiales de classes qui seront utilises pour initialiser la classification. Cette phase nous
permet galement de connaitre les frontires principales entre les superpositions de timbres
dune pice polyphonique afin de pouvoir classifier des units sonores homognes.
Comme nous lavons voqu dans la section 2.5.2.1, nous navons pas de connaissances
a priori sur les diffrents sons de la pice. Par consquent, nous souhaitons obtenir une
segmentation timbrale homogne de manire non supervise . La taille des segments que
lon souhaite obtenir est variable : de lordre de la seconde dans la plupart des cas mais
pouvant atteindre la dizaine de secondes dans certaines pices prsentant de longues trames.
La nature non supervise du problme est due la diversit des timbres qui peuvent tre
rencontrs. Comme nous lavons vu dans le chapitre 2 consacr en partie la prsentation
des musiques objets, les sources sonores rencontres dans ce type de musique ne sont pas
prtablies comme cest le cas dans dautres styles musicaux : la musique symphonique
est orchestre partir des grandes familles instrumentales traditionnelles (cordes, bois,
vents et percussions), les musiques tendance rock utilisent souvent une formation de
type : guitare, basse, batterie, chant et les musiques tendance lectronique sappuient
principalement sur les synthtiseurs ou autres sonorits dorigine lectronique. Dans le cas
qui nous intresse, on peut dire que toute source sonore instrumentale rencontre dans
un style musical quelconque peut tre retrouve dans les musiques objets. De plus, ces
musiques largissent le spectre des sources possibles aux sons environnementaux ou de
manire plus gnrale tout ce qui est du domaine du sonore (sources acoustiques ou
lectroniques).
Fig. 3.1 Segmentation dun mixage sonore en segments de mixture

45
La problmatique principale de cette phase de segmentation est illustre par la fi-

gure 3.1. A partir dun mixage de plusieurs sources sonores, on cherche identifier les
diffrentes superpositions possibles de timbres et marquer les frontires entre ces dernires.
Ainsi, la superposition de Son1 et Son3 (figure 3.1 (A)) constitue la mixture M2 qui ap-
parait plusieurs fois dans le mixage (figure 3.1 (B)). Il peut arriver que certaines mixtures
ne soient composes que dun seul son : cest le cas de la mixture M1 qui nest compose
que du Son1 dans la figure 3.1.
Nous commencerons par envisager des segmentations inspires de ltat de lart (ex-
pos dans la section 3.2) qui montrera des limites que nous dpasserons par une approche
interactive comme dcrit dans la section 3.3. Aprs avoir prsent ltat de lart et dcrit le
systme, nous tudierons deux scnarios dinteraction diffrents. Le chapitre se terminera
par une valuation suivie dune discussion des rsultats obtenus.
3.2 tat de lart

Dans cette partie, nous prsentons ltat de lart sur la structuration/segmentation du
signal musical. Dans la plupart des mthodes existantes, des descripteurs de timbre bas-
niveau sont utiliss pour tiqueter la musique conventionnelle selon des sections de haut
niveau (introduction, couplet, refrain, pont). Les diffrentes approches sont exclusivement
automatiques et par consquent, elles nutilisent pas le retour utilisateur.
3.2.1 Approches par mesures de similarits

De nombreuses mthodes utilises pour la structuration musicale exploitent des repr-
sentations de type matrices de similarits (Foote (2000), Peeters et al. (2002), Cooper
(2002), Cooper & Foote (2003), Lu et al. (2004)). La premire publication ayant exploit
cette voie est Foote (2000). Dans cet article, lauteur propose dutiliser une matrice de simi-
larit (figure 3.2) pour mesurer la nouveaut dans le signal audio. Cette matrice est calcule
en mesurant les distances euclidiennes entre tous les couples de trames possibles. Ainsi, on
obtient une matrice symtrique avec une distance minimale sur la diagonale qui reprsente
la distance dune trame par rapport elle-mme. Une courbe mesurant la nouveaut dans
le signal est dduite de la matrice dont les maximas locaux indiquent les endroits du signal
ou la nouveaut est notable. Pour obtenir cette courbe, une fentre danalyse est utilise
le long de la diagonale de la matrice et mesure la nouveaut du signal en se basant sur
des proprits locales de la matrice. Cette mthode a pour avantage dtre totalement non
supervise et de ne faire aucune hypothse sur la nature des signaux traiter. Une limite
de cette mthode est quelle ne permet pas dtiqueter directement les rgions similaires
du signal extraites partir des maxima locaux de la courbe de nouveaut. Autrement dit,
cette approche permet uniquement de trouver des frontires temporelles entre les diff-
rentes parties du signal.
Dans Goto (2003), Bartsch & Wakefield (2001, 2005), Van Steelant et al. (2002), une re-
prsentation de type temps/retard quivalente la matrice de similarit est utilise. Cette
reprsentation transforme les rptitions reprsentes par des diagonales dans la matrice de
similarit en des lignes de retard horizontales constantes. Dans Goto (2003), lauteur utilise
cette dernire reprsentation pour dcouvrir automatiquement la structure de morceaux
Fig. 3.2 Un exemple de matrice de similarit. Les deux axes reprsentent le temps. Les
distances entre les trames sont reprsentes par des niveaux de gris. En loccurence les
grandes distances sont affectes un niveau sombre et les faibles distances un niveau
clair.
de musique en se concentrant sur la recherche des refrains. Ainsi, des descripteurs de type
chromas (Bartsch & Wakefield (2005)) sont extraits du signal partir desquels la matrice
temps/retard est calcule. Les sections musicales similaires sont dtectes grce un cri-
tre de rptition. On peut noter que cette mthode prend en compte la modulation de
tonalit : deux passages similaires musicalement une transposition prs seront considrs
comme proches. Cette mthode obtient des rsultats satisfaisants sur une base importante
(80 chansons tiquetes correctement sur 100) mais est assez loigne de notre problme :
elle se positionne clairement dans un cadre musical conventionnel en prenant la tonalit et
les notes qui la constituent comme hypothses de base.
3.2.2 Approches par dtections de ruptures
Il existe plusieurs mthodes de dtections de ruptures : Bayesian Information Criterion

(BIC), Kernel Change Detection (KCD), Kernel Fisher Discriminent analysis (KFDA)
entre autres (Cettolo & Vescovi (2003), Desobry et al. (2005), Harchaoui et al. (2009)).
Ces mthodes sont souvent utilises pour dtecter les changements dans un flux audio (par
exemple dtecter les changements parole/musique). Le principe gnral de ces mthodes
est de comparer des distributions dans une fentre danalyse : soit une fentre danalyse
F contenant n chantillons du signal tudi : F = (x1 , ..., xn ).Pour dtecter la prsence
dune rupture un indice du signal, les distributions des fentre F 1 = (x1 , ..., x 1 ) et
F 2 = (x , ..., xn ) sont compares. Les maximas locaux sont considrs comme des ruptures.
Cette famille de mthodes souffre des mmes limites que Foote (2000) et ne permet donc
pas dtiqueter directement les segments obtenus. De plus, ces mthodes sont plus adaptes
la reconnaissance des grandes sections, or dans notre cas nous cherchons trouver des
changements de mixtures sonores relatifs aux diffrents vnements musicaux.
47
3.2.3 Approches par programmation dynamique

Dautres approches de structuration audio utilisent la programmation dynamique Chai
(2003), Chai & Vercoe (2003), Chai (2005), Maddage et al. (2004), Maddage (2006). Dans
Chai (2003), lextraction de descripteurs est suivie dune segmentation longueur fixe de
la suite de vecteurs de descripteurs (par exemple : 200 vecteurs conscutifs, soit 2 secondes
de musique, avec un recouvrement de 150 vecteurs, soit 1,5 seconde). La rptition des
segments est calcule par une mthode de programmation dynamique qui permet dobtenir
les informations de structuration et les limites temporelles de chaque segment. Ce type
dapproche a pour inconvnient majeur dtre coteuse en temps de calculs : le nombre
doprations effectuer augmente rapidement en fonction de la longueur du document
traiter. Dans notre cas, nous souhaitons une remise en forme rapide des donnes aprs une
intervention utilisateur or cette mthode semble trop rigide pour les applications qui nous
concernent.
3.2.4 Approches par clustering

Logan & Chu (2000) proposent dutiliser une approche de clustering hirarchique ag-
glomratif (nous aborderons cet algorithme en dtail dans la section 3.3.5) pour retrouver
les refrains dans de la musique conventionnelle. Aprs avoir extrait les descripteurs, les
squences de vecteurs dattributs sont divises en segments contigus de mme longueur.
Ces segments sont considrs comme tant les clusters initiaux. Une mesure de distorsion
est par la suite calcule entre chaque paire de clusters et les deux clusters de la paire ayant
la plus faible distorsion sont ensuite fusionns. Le calcul des distorsions entre les paires de
clusters est ensuite rpt jusqu atteindre un certain seuil. A la fin du processus agglom-
ratif, chaque trame audio dispose dune tiquette correspondant au cluster laquelle elle
appartient. Le refrain est ensuite trouv en considrant que le cluster qui contient le plus de
trames est celui du refrain. La mthode propose est compare une approche par modle
de Markov cach. Lvaluation montre que la mthode propose est la plus performante.
Peeters et al. (2002) utilise la segmentation de base obtenue par une matrice de simila-
rit pour gnrer des classes potentielles ainsi quune approximation du nombre de classes.
Ensuite, les rsultats obtenus sont utiliss pour initialiser un algorithme de clustering (K-
means). Enfin les clusters obtenus sont utiliss leur tour pour initialiser un modle de
Markov cach et la reprsentation optimale du document est dduite par dcodage du mo-
dle.
Dans Levy et al. (2006), le problme de structuration est reformul comme un problme
de clustering. Avant deffectuer le clustering, les vecteurs de description originaux subissent
un changement de reprsentation. Ainsi, un modle de Markov cach est appris sur ces don-
nes puis dcod afin dobtenir une suite dtats. Le nombre dtats est fixe et reprsente
le nombre de catgories de timbre diffrents dans le document. Une estimation de la lon-
gueur dun temps (unit temporelle de base dpendant du tempo du morceau de musique)
est galement effectue. Ensuite, des histogrammes dtats sont calculs des intervalles
rguliers et aligns sur les temps de la musique. Les histogrammes obtenus reprsentent
des distributions de types de timbres dcods. Enfin, une mthode de clustering (soft k-
means) est utilise pour regrouper les histogrammes et ainsi en dduire les segments. Cette
mthode, de par sa dpendance au tempo nest pas assez gnrale pour tre applique di-
rectement notre problme (nous voulons pouvoir traiter des pices arythmiques comme
cest souvent le cas dans le style lectroacoustique). Cependant, la philosophie gnrale

de cette approche est intressante car elle fait intervenir un changement de reprsentation
adapt aux donnes afin de prparer le clustering.
On peut noter quEASY, le systme prsent dans Park et al. (2009) que nous avons
dj voqu dans la section 2.5.1 propose galement des fonctionnalits de segmentation
de la musique. Deux approches simples sont proposes. La premire ralise directement
un clustering des vecteurs de descripteurs et reporte une couleur diffrente pour chaque
cluster sur la forme donde. La deuxime utilise des fentres danalyse longues et compare
les distances entre les diffrentes fentres (le systme propose plusieurs distances).
3.2.5 Approches issues dautres domaines

Parmi les approches issues dautres domaines, on peut mentionner celles concernant
laudio diarisation qui sont intressantes pour notre problme de segmentation. Dans ce
domaine, le problme pos est dannoter un flux audio en affectant chaque rgion tem-
porelle une source sonore spcifique. Les sources peuvent tre un locuteur particulier, de
la musique, un bruit de fond etc. Un exemple classique dapplication est la reconnaissance
dun locuteur particulier dans un flux audio. Tranter & Reynolds (2006) proposent une vue
densemble des diffrents systmes sintressant ce problme. La plupart sont bass sur
les mmes briques lmentaires. Selon Reynolds et al. (2009), un systme typique procde
en trois tapes principales. La premire tape consiste dtecter les changements dans
le signal partir dune mthode de dtection de rupture (voir section 3.2.2). La seconde
tape regroupe les segments de mme locuteur ensemble laide dune mthode de clus-
tering hirarchique agglomratif. Idalement, le regroupement produit un groupe diffrent
pour chaque locuteur. Le clustering hirarchique agglomratif bas sur un critre darrt
de type BIC comporte les tapes suivantes :
0. Initialiser les feuilles de larbre avec les segments dtects en amont
1. Calculer les distances entre chaque paire de clusters
2. Fusionner les clusters les plus proches
3. Mettre jours les distances des paires incluant le nouveau cluster
4. Itrer les tapes 1. 3. jusqu ce que le critre darrt soit atteint
La dernire tape est une re-segmentation itrative base sur lalgorithme de Viterbi(Viterbi
(1967)) pour affiner les points de ruptures et les dcisions de clustering.
La structure de cette dernire approche est particulirement intressante : dabord
dtecter les changements puis regrouper les segments qui sont proches entre eux. Nous
utiliserons galement une approche en deux tapes dans la phase de segmentation du
systme en nous adaptant aux signaux concerns.
3.3 Segmentation interactive

Ltat de lart que nous venons de prsenter propose un bon nombre de mthodes
diffrentes mais elles sont toutes automatiques. Autrement dit, il nest pas possible pour
ces mthodes de sadapter un point de vue utilisateur. A notre connaissance, dans la
littrature, il nexiste pas de systme de segmentation interactif dans le domaine audio et
musical. On pourra cependant noter que certains logiciels audio tel que Recycle 1 ralisent
1
http://www.propellerheads.se/products/recycle/
49
des segmentations interactives de signaux en utilisant les transitoires du signal. Cependant,

les applications principales de ces logiciels sont le dcoupage de boucles de batterie ou autres
signaux aux transitoires saillantes. De plus, ces logiciels ne ralisent pas de regroupements
par similarit timbrale entre les segments. On peut remarquer que dans les domaines de
limage et de la vido, des systmes de segmentation interactifs ont dj t proposs
(voir Price et al. (2009), Ning et al. (2010) par exemple).
Dans la suite de ce chapitre, nous prsentons notre approche de segmentation timbrale.
Nous avons remarqu que toutes les mthodes de ltat de lart sont automatiques et se
basent sur des hypothses fortes propres aux musiques conventionnelles : les rptitions
de motifs quasi-identiques sont courantes, les vnements musicaux sont exclusivement
des notes issues des chelles musicales standards, la structure est simple et quasiment
la mme pour tous les morceaux. Dans le cas des musiques lectroacoustiques, nous ne
pouvons pas prendre ces hypothses de dpart et devons nous situer dans une approche
plus gnrale. Une segmentation adaptative semble essentielle tant donn la diversit
des esthtiques sonores potentiellement rencontres dans les pices lectroacoustiques. De
mme, la diversit des points de vues possibles pour une mme pice peuvent conduire des
segmentations diffrentes. Par consquent, nous proposons un systme interactif pouvant
sadapter aux signaux de musiques lectroacoustiques qui permet lutilisateur dintervenir
sur la segmentation en units sonores.
3.3.1 Architecture
Le systme de segmentation comporte deux phases distinctes comme le montre la fi-
gure 3.3 : une phase dapprentissage et une phase de test qui font intervenir deux bases de
signaux distinctes. Dans la phase dapprentissage, aprs avoir extrait les descripteurs des
signaux de la base dapprentissage, une slection dattributs est effectue afin de conserver
les plus pertinents. Dans la phase de test, les attributs slectionns prcdemment sont
extraits de la base de test.
En parallle, une segmentation de bas-niveau est effectue laide dune dtection de
transitoires. Cette premire segmentation permet dobtenir des segments inter-transitoires
dont les attributs seront par la suite intgrs temporellement afin de rsumer linformation
en un unique vecteur de description pour chaque segment. Les vecteurs ainsi obtenus se-
ront par la suite regroups par similarit timbrale laide dun algorithme de clustering.
Linteraction de lutilisateur avec le systme se situe au niveau des regroupements effectus
par lalgorithme de clustering. Il est important de noter que les regroupements effectus d-
finissent la segmentation temporelle finale ainsi que ltiquetage des segments. Les sections
suivantes dcrivent les dtails de chaque tape de la segmentation.
3.3.2 Extraction de descripteurs

Il nexiste pas de descripteur universel pour dcrire le timbre. Par consquent, la strat-
gie que nous avons adopte consiste slectionner un ensemble dattributs parmi un grand
nombre de descripteurs dcrivant les diffrents aspects du timbre musical. Ne connaissant
pas la nature des sources sonores composant les signaux qui nous intressent, il semble perti-
nent deffectuer la slection dattributs parmi un grand nombre de descripteurs. Ainsi, nous
avons effectu lextraction de descripteurs Spectraux, Cepstraux, Temporels et Perceptifs.
Le tableau 3.3.2 rsume lensemble des descripteurs extraits pour la phase de segmentation
timbrale. Les paragraphes qui suivent dcrivent les descripteurs extraits de faon succincte
car ils sont pour la plupart standard dans la communaut. Une prsentation dtaille des
Fig. 3.3 Architecture du systme de segmentation interactif
descripteurs utiliss peut tre trouve en annexe B.
Tous les descripteurs ont t extraits sur des fentres danalyse de 20ms avec un pas de
recouvrement de 10ms. On dnombre un total de 279 attributs extraits avant la slection
automatique.
Descripteurs Spectraux
Les descripteurs spectraux sont calculs partir du spectre estim par une Transforme
de Fourrier Court Terme. Voici ceux qui ont t extraits :
Les moments spectraux, sont calculs en considrant le spectre comme une distribu-
tion. Les 4 premiers moments du spectre sont calculs.
centrode spectral : barycentre du spectre (valeur moyenne)
largeur spectrale : talement du spectre autour de la valeur moyenne
asymtrie spectrale : mesure lasymtrie de la distribution autour de la valeur
moyenne
platitude spectrale : mesure la platitude de la distribution autour de la valeur
moyenne
La platitude damplitude spectrale et facteur de crte spectrale par bandes : mesure les
proportions relatives de bruit et de composantes sinusodales du spectre sur plusieurs
bandes de frquences.
La platitude spectrale globale : mesure les proportions relatives de bruit et de com-
posantes sinusodales sur lensemble du spectre.
La pente spectrale : reprsente le taux de dcroissance spectrale.
51
La dcroissance spectrale : mesure la dcroissance des amplitudes spectrales.

La frquence de coupure : frquence partir de laquelle 95% de lnergie du spectre
a t mesure.
La modulation damplitude : caractrise les phnomnes de trmolo ou encore la
rugosit dun son.
Les coefficients de prdiction linaire (ou LPC pour Linear Predictor Coefficients) :
permettent de reprsenter lenveloppe spectrale dun signal de faon compresse
(voir Makhoul (1975)).
Les OBSI (Octave band signal intensity) : intensit du signal par bande doctave
propos par Essid (2005).
Descripteur Dimension Type Annexe

Centrode spectral 1 Spectral B.1
Largeur spectrale 1 Spectral B.1
Asymtrie spectrale 1 Spectral B.1
Platitude spectrale 1 Spectral B.1
Platitude damplitude spectrale par bandes 23 Spectral B.1
Facteur de crte spectrale par bandes 23 Spectral B.1
Platitude spectrale globale 1 Spectral B.1
Pente spectrale 1 Spectral B.1
Dcroissance spectrale 1 Spectral B.1
Frquence de coupure 1 Spectral B.1
Modulation damplitude 8 Spectral B.1
Coefficients LPC 2 Spectral B.1
OBSI 8 Spectral B.1
Coefficients MFCC 13 Cepstral B.2
Coefficients cepstraux Q constant 114 Cepstral B.2
Taux de passage par zero 1 Temporel B.3
Moments statistiques temporels 4 Temporel B.3
Coefficients dautocorrlation 49 Temporel B.3
Loudness spcifique 24 Perceptif B.4
Acuit perceptive 1 Perceptif B.4
Etalement perceptif 1 Perceptif B.4
Fig. 3.4 Ensemble des descripteurs extraits pour la phase de segmentation timbrale.
Descripteurs Cepstraux
Le Cepstre se dfinit comme la Transforme de Fourier inverse du logarithme du spectre

damplitude. Les descripteurs cepstraux suivants ont t extraits :
Les MFCC (Mel Frequency Cepstral Coefficients) : bass sur lchelle des frquences
de Mel qui modlise le systme auditif humain. Les 13 premiers coefficients sont
extraits.
Les coefficients cepstraux Q constant : calcul du cepste en tenant compte des
gammes musicales occidentales tempres su plusieurs rsolutions (rsolutions dune,
la moiti, un tiers et un quart doctave).
Descripteurs Temporels
Ces descripteurs sont calculs directement partir des trames du signal :

Le taux de passage par zero : nombre de fois que le signal change de signe.
Les moments statistiques temporels : comme pour le spectre, les moments dordre 1
4 sont calculs sur les trames du signal.
Les coefficients dautocorrlation : reprsentent la distribution spectrale dans le do-
maine temporel.
Descripteurs Perceptifs
La loudness spcifique : coefficients de mesure de lintensit perceptive partir des

bandes de frquences de lchelle de Bark.
Lacuit perceptive : version perceptive du centrode spectral calcule partir de la
loudness spcifique.
Ltalement perceptif : mesure lcart entre la loudness spcifique maximale et la
loudness totale.
3.3.3 Construction dun descripteur de timbre adapt

Dans cette tape, nous cherchons slectionner un ensemble dattributs pertinents pour
la description du timbre.
3.3.3.1 Algorithme de Fisher

Nous utilisons lalgorithme de slection dit de Fisher qui exploite un score driv de
lAnalyse Linaire Discriminante (voir Duda et al. (2001)) pour la slection automatique
dattributs. Dans cet algorithme, on cherche conserver les attributs (directions dans
lespace de description) utiles une bonne discrimination des classes. Dans le cas bi-classe,
lalgorithme slectionne itrativement les attributs qui maximisent le rapport
|1 2 |2
r= , (3.1)
1 2 + 2 2
appell Discriminant de Fisher o q et q sont respectivement la moyenne et la variance

empirique de la classe Cq (1 q 2). Cette mthode vise maximiser le rapport entre la
dispersion inter-classe et la dispersion intra-classe.
Nous utilisons limplmentation multiclasse de la toolbox Spider2 qui procde de la
faon suivante :
1) Pour lensemble des attributs i (avec 1 i D), des scores fiq sont calculs pour
chaque classe Cq (avec 1 q Q) comme il suit :
Q
|p q |
fiq
!
i i
= (3.2)
p=1
ip + iq
2
http://people.kyb.tuebingen.mpg.de/spider/
53
fiq correspond la moyenne non normalise des discriminants de Fisher dans lesquels
la classe Cq intervient. Des discriminants de Fisher sont ainsi calculs pour tous les couples
de classes possibles et pour chaque attribut.
2) Les valeurs de discriminants sont ensuite tries par ordre dcroissant afin de trouver
les d attributs distincts correspondant aux valeurs arrives les premires dans le tri. Les d
attributs trouvs seront ceux retourns par la slection.
3.3.3.2 Slection dattributs
Afin dobtenir un bon rapport entre le nombre dattributs slectionns et les perfor-
mances, une exprience prliminaire mesurant les performances de clustering a t ralise
en faisant varier le nombre dattributs slectionns entre 10 et 40 sur les 279 attributs
initiaux. Il est ncessaire de garder un nombre dattributs relativement bas pour que lal-
gorithme reste rapide, cette condition est essentielle dans une approche interactive. Les
rsultats obtenus montrent quun optimum local est atteint pour la slection de 30 et 40
attributs (figure 3.5). Dans un but defficacit, nous choisissons de garder les 30 premiers
attributs slectionns qui sont dcrits dans le tableau 3.3.3.2. On remarque dans cette s-
lection une rpartition homogne des diffrentes familles de descripteurs. Cependant les
descripteurs temporels sont un peu en retrait avec la prsence unique du taux de passage
par zro dans la slection.
Fig. 3.5 Choix du nombre dattributs garder
On peut noter que la plupart des descripteurs slectionns sont parmi les plus employs
pour dcrire le timbre musical.
Aprs la slection dattributs, on peut associer chaque trame k un vecteur de des-
cription Xk de dimension d (nombre dattributs choisis)
Xk = (xk1 , xk2 , ..., xkd ), (3.3)
les suites de vecteurs dfinissant des segments seront utiliss par la suite pour reprsenter
des units sonores.
Descripteur Numro dattribut

Centrode spectral 1
Largeur spectrale 1
Asymtrie spectrale 1
Platitude spectrale 1
Coefficients MFCC 3 13
Loudness spcifique 2 12, 22
Acuit perceptive 1
Etalement perceptif 1
Taux de passage par zro 1
Fig. 3.6 Les 30 attributs slectionns pour dcrire le timbre
3.3.4 Reprsentation dunits sonores

La slection dattributs permet dobtenir une description efficace du timbre pour une
trame de signal audio. Cependant, il semble plus pertinent dun point de vue perceptif de
regrouper les trames adjacentes temporellement en units sonores (Joder et al. (2009)).
Dans cette optique, deux tapes sont ncessaires : une tape de segmentation bas-niveau
suivie dune tape dintgration temporelle pour obtenir une description propre chaque
unit sonore.
3.3.4.1 Segmentation de bas-niveau

Pour la segmentation bas-niveau, nous utilisons la mthode propose dans Alonso et al.
(2005). Il sagit dune dtection de transitoire base sur le flux dnergie spectral (drive
temporelle du spectre). Dans un flux audio, on dfinit une transitoire comme la variation
dune ou plusieurs proprits psychoacoustiques du signal (timbre, hauteur, amplitude ...).
Cette mthode prsente lavantage de ne pas dpendre des descripteurs extraits et donc
ne fait pas dhypothse sur la nature de la variation qui gnre la transitoire. En suivant
cette approche, le signal est dabord dcompos en bandes spectrales par une transforme
de Fourier court terme. Chaque bande est par la suite traite indpendamment pour
trouver la position temporelle et lintensit des transitoires. Les courbes ainsi obtenues
sont par la suite sommes pour obtenir une courbe globale laquelle un seuil est appliqu.
La fonction rsultante est appele fonction de dtection (figure 3.7). Les maximas locaux
de la fonction de dtection sont recherchs par seuillage dynamique.
Des units sonores sont par la suite dduites de la dtection de transitoires en consi-
drant quune unit se situe entre deux transitoire (figure 3.7). Chaque segment inter-
transitoire dfinit donc une unit sonore.
3.3.4.2 Intgration temporelle

La segmentation de bas niveau permet de dlimiter prcisment les units sonores.
Cependant, il faut trouver une stratgie pour reprsenter ces units de manire efficace. Le
ime segment inter-transitoire de longueur L , est dfinit par lensemble S des vecteurs
dattributs qui le constituent :
S = (Xk , Xk +1 , ..., Xk +L ) (3.4)

55
Fig. 3.7 Dtection de transitoires
Une tude spcifique sur le sujet de lintgration temporelle (voir Joder et al. (2009)) a
montr que des oprateurs statistiques simples permettaient dobtenir des reprsentations
efficaces du signal audio pour dcrire des units sonores. Lintgration temporelle utilise
dans la segmentation en tient compte dans le choix de reprsentation propos. Ainsi, le
ieme segment inter-transitoire est reprsent par un vecteur S de dimension D = 2d :
S = ( , 2 ) (3.5)
S est un vecteur constitu de la moyenne et de la variance 2 du ieme segment

inter-transitoire :
k +L
! 1
1
= Xk , (3.6)
L
k=k
k +L
! 1
1
2 = (Xk )2 (3.7)
L
k=k
Par consquent, chaque unit sonore est reprsente par un vecteur S de dimension
D.
3.3.5 Clustering hirarchique

Nous avons prsent dans la section prcdente une approche de reprsentation des
units sonores. Il sagit maintenant de les regrouper par similarits afin de faire apparaitre
les segments de mixtures illustrs par la figure 3.1. Nous utilisons une approche de clustering
hirarchique pour raliser cette tche.
Le clustering (ou partitionnement de donnes) est une mthode non supervise qui
permet de crer les partitions dun ensemble en regroupant les donnes similaires dans
les mmes partitions que lon assimile des clusters. La mthode de clustering que nous
utilisons est une approche agglomrative hirarchise : chaque vecteur dunit sonore com-
mence en tant son propre cluster puis les clusters sont fusionns par paires pour former
un cluster plus gros. Le processus de fusion est rpt jusqu ce que les deux derniers
clusters soient fusionns. Ainsi, nous obtenons un arbre dont la partie extrme-haute de
la hirarchie (aussi appele racine) est associe lensemble total des donnes et sym-
triquement, les parties extrme-basses (les feuilles) sont associes un vecteur unique. Le
graphe hirarchique ainsi obtenu se nomme dendrogramme (figure 3.8), il peut tre vu
comme un arbre binaire ou chaque noeud est associ un ensemble de vecteurs. De plus, le
dendrogramme a pour avantage de reprsenter la distance entre les clusters : les longueurs
des lignes verticales des branches reliant deux clusters entre eux sont proportionnelles la
distance qui les spare.
Fig. 3.8 Exemple de dendogramme
Pour comparer deux clusters, une mtrique est ncessaire afin de mesurer la distance
entre deux vecteurs de dimension D. Nous utiliserons ici la distance euclidienne dE qui a
donn les meilleurs rsultats aprs des essais empiriques :
"
#D
|xi yi |2 ;
#!
dE (X, Y ) = $ (3.8)
i=1
Le clustering hirarchique utilise galement un critre de liaison LdE pour mesurer la

proximit entre deux clusters. Ainsi, pour deux ensembles de vecteurs A et B constituant
les clusters comparer, une distance par paire est utilise :
1 !!
LdE (A, B) = dE (a, b), (3.9)
|A||B|
aA bB
avec |A| le cardinal de lensemble A.
Lavantage de lapproche hirarchique est de pouvoir obtenir diffrents partitionnements

des donnes initiales. En effet, cette proprit se comprend facilement en observant un
dendrogramme (figure 3.8) : on peut obtenir un nombre de clusters donn nC en coupant
le dendrogramme un certain niveau de la hirarchie (1 nC nV avec nV est le nombre
57
de vecteurs total). Comme le montre la figure 3.8, on obtient un nombre diffrent de clusters
suivant le niveau ou lon coupe le dendrogramme. Si lon se rfre la figure 3.8, pour
le niveau nC1 reprsent en rouge on obtient 2 clusters : le cluster de gauche contient les
vecteurs 1, 3, 4, 2, 9, 6, 5 et 8 ; celui de droite contient les vecteurs 7 et 10. Pour le niveau
nC2 reprsent en bleu, on obtient les 8 clusters suivants : (1, 3), (4), (2, 9), (6), (5),
(8), (7), (10). Nous utiliserons et tendrons cette proprit par la suite afin damliorer les
performances de clustering.
Une fois le clustering ralis, nous pouvons obtenir une segmentation timbrale du signal
audio en donnant lalgorithme de clustering le nombre de clusters souhaits en entre.
Les units sonores sont regroupes par similarit : des segments se crent lorsque plusieurs
units sonores contiges temporellement sont regroupes dans un mme cluster. De mme,
une frontire apparait entre deux units sonores lorsquelles se succdent temporellement
mais appartiennent des clusters diffrents.
3.3.6 Clustering interactif

Le but de lapproche interactive est de permettre lutilisateur dintervenir sur les
rsultats de segmentation obtenus par clustering afin de pouvoir rectifier les clusters erro-
ns. Pour effectuer le clustering initial, nous avons vu dans la section prcdente que nous
avons besoin de connaitre le nombre de clusters souhait. Dans ce but, nous considrons que
lutilisateur connait approximativement le nombre de timbres de la pice musicale et quil
donnera ce nombre au systme afin dinitialiser le clustering qui engendrera la premire
segmentation.

Fig. 3.9 Comparaison des coupes globale (en rouge) et locale (en bleu)
3.3.6.1 Coupes globales et locales

Comme nous lavons vu dans la section 3.3.5, il est possible dobtenir diffrents niveaux
de clustering des donnes en fonction du niveau ou lon coupe le dendrogramme (figure
3.8). Ce graphe hirarchique qui peut tre assimil un arbre binaire enrichi de linfor-
mation de distance entre les noeuds possde la proprit suivante : un cluster associ un
noeud dans un dendrogramme peut tre divis en deux clusters qui sont les deux fils du
noeud considr. Cest sur cette proprit de base que se fondent les interactions que nous
proposons. Nous appellerons la mthode de coupe prsente dans la section 3.3.5 coupe
globale. Nous proposons dintroduire une approche de coupe locale en utilisant le retour
utilisateur afin damliorer le clustering. La coupe locale est illustre dans la figure 3.9 (en
bleu).
3.3.6.2 Comparaisons de deux scnarios dinteraction
Deux scnarios alternatifs ont ts compars afin damliorer la segmentation engendre

par le clustering initial.
Premier scnario : casser/fusionner

Dans ce premier scnario, lutilisateur peut casser ou fusionner les segments proposs par
le clustering. Ainsi, lutilisateur peut choisir le segment quil souhaite corriger : lutilisateur
choisit de casser un segment lorsquil considre que deux timbres diffrents sont contenus
dans un mme segment (figure 3.10) et rciproquement, lutilisateur dcide de fusionner
deux segments de mme timbre contigus temporellement lorsquils ont t fragments (fi-
gure 3.11). Etant donn que chaque segment est associ un cluster, le retour utilisateur
est pris en compte au niveau du clustering, de la faon suivante :
Scinder un cluster en ses deux fils lorsque lutilisateur veut casser un segment.
Runir les clusters considrs quand un utilisateur dcide de fusionner deux seg-
ments.
Deuxime scnario : casser

Le deuxime scnario est plus simple car il ne considre que la deuxime action du scnario
prcdant : chaque itration, lutilisateur signale le segment le plus erratique au systme
qui se charge par la suite de scinder le cluster correspondant en ses deux fils.
Fig. 3.10 Casser un segment
On peut noter que chacune des deux stratgies nous permet de propager le retour
utilisateur sur toute la dure du signal. Cette proprit est illustre par les figures 3.10
et 3.11 : les parties hautes reprsentent les segments temporels sous lesquels on trouve
leurs dendrogrammes correspondants. Lapproche de coupe locale permet dobtenir des
59
Fig. 3.11 Fusionner deux segments
partitionnements de donnes sadaptant au retour utilisateur. Nous chercherons valuer

cette approche dans la section suivante.
3.4 Evaluation
Dans cette section, nous prsentons lvaluation de la segmentation timbrale de manire
indpendante. Nous avons ralis cette premire valuation avec le corpus monophonique
(corpus M ) dcrit dans la section 2.5.3.
3.4.1 Critres dvaluation

La comparaison entre la vrit terrain et la segmentation obtenue nest pas directe.
En effet, le nombre de clusters obtenus est la plupart du temps diffrent du nombre de
mixtures relles prsentes dans la pice synthtique. De plus, il ny a pas de correspondances
a priori entre les mixtures relles et les tiquettes affectes aux clusters. Par consquent,
il est ncessaire dassocier chaque mixture un cluster pertinent : chaque mixture Mi
est associe au cluster Wj qui contient le plus grand nombre de trames appartenant la
mixture. On peut ainsi reformuler les mesures standard de rappel Ri et prcision Pi de la
faon suivante :
maxj |Mi Wj | maxj |Mi Wj |

Ri = , Pi = . (3.10)
|Mi | |WJ |
avec
J = arg max |Mi Wj |, (3.11)
j
Nous utilisons ensuite la f-mesure pour valuer les performances :
2RP
f mesure = (3.12)
R+P
o R et P sont respectivement les moyennes de Ri et Pi sur toutes les classes.
3.4.2 Expriences
3.4.2.1 Simulation utilisateur
Pour valuer linfluence de linteraction de lutilisateur sur les performances du clus-
tering, nous tirons avantage du fait que la segmentation souhaite ne laisse pas de place
des interprtations subjectives : il existe avec notre corpus synthtique une unique seg-
mentation correcte pour chaque pice. En connaissant cette vrit terrain, il est possible
de simuler les actions dun utilisateur. Un cluster est un ensemble de segments qui ne sont
pas ncessairement contigus temporellement. Nous considrons lors de la simulation que
lutilisateur commence par corriger les segments les plus erratiques : ceux dont le nombre
de trames mal tiquetes par rapport la vrit terrain est maximal. Le clustering est
par la suite mis jour et une nouvelle segmentation est prsente lutilisateur. Le mme
processus est rpt par lutilisateur jusqu obtenir une segmentation satisfaisante. De
plus, nous considrons que lutilisateur a accs la fonction logicielle classique annuler
(fonction undo en anglais) qui permet de remettre le systme dans ltat prcdent la
dernire action effectue.
3.4.2.2 Comparaison de performances pour les deux scnarios dinteraction

Les rsultats des simulations utilisateurs sont dabord donns sous la forme de f
mesure moyennes en fonction du nombre ditrations de lalgorithme (figure 3.12). Le
nombre ditrations correspond au nombre de retours utilisateur.
0.9
Scenario 1
0.85 Scenario 2
0.8
0.75
0.7
fmesure
0.65
0.6
0.55
0.5
0.45
0.4
1 2 3 4 5 6 7 8 9 10
Nombre diterations
Fig. 3.12 Comparaison de performances pour deux scnarios dinteraction
Les rsultats obtenus montrent que le second scnario donne les meilleurs rsultats et
que linteraction permet damliorer la segmentation initiale. Nous avons observ expri-
mentalement que la fusion de clusters ajoutait de linstabilit au systme ce qui explique
la dgradation des performances par rapport au premier mode dinteraction. En effet, la
fusion entre deux clusters quelconques dans le dendrogramme revient trouver lanctre
commun le plus proche entre ces deux clusters. Par consquent, la fusion peut tre dange-
reuse : dans un cas extrme, lanctre commun le plus proche des deux clusters peut tre la
racine du dendrogramme. Dans un tel cas, la fusion entre les deux clusters peut entrainer
61
la perte de linformation de partitionnement des donnes car on obtient un unique clus-

ter. Pour ne pas tomber dans de tels cas, nous avons limit la fusion des clusters dont
lanctre commun le plus proche est au maximum la hirarchie suprieure dordre 2.
La seconde approche, plus stable, donne de meilleurs rsultats. Ces rsultats sont confir-
ms par lvolution des maximas de la f-mesure moyenne en ne tenant pas compte du
nombre ditrations. Nous avons compar les rsultats obtenus par coupe locale un
score de rfrence obtenu par coupe globale. Partant dun score de rfrence de 0.82, la
premire et la seconde mthode obtiennent respectivement 0.71 et 0.9 et amliorent res-
pectivement 34,2% et 92,5% des scores de rfrence. A titre comparatif, une version non
interactive du systme nobtient que 0.78.
Compte tenu des meilleurs rsultats obtenus avec le second scnario dinteraction, cette
approche a t applique sur un extrait de notre pice musicale de rfrence Timbre dure :
nous observons une amlioration de 0.04 pour la f-mesure par rapport au score de rfrence
(on passe de 0.67 0.71). La figure 3.13 illustre le rsultat obtenu avec notre algorithme
de segmentation pour cette mme pice. Dans cette reprsentation, un spectrogramme de
la pice est affich avec une palette de couleurs diffrente pour une mixture donne. Ainsi,
cette pice de musique est reprsente comme tant un enchainement de mixtures tel que
nous lavons dcrit dans lintroduction du chapitre.

Fig. 3.13 Segmentation dune pice lectroacoustique : Timbre dure
3.5 Conclusion
Dans ce chapitre, nous avons propos un systme interactif de segmentation adapt aux
musiques composes dobjets sonores exploitant le retour utilisateur. Cette mthode permet
dobtenir la fois des frontires entre les mixtures et galement un tiquetage de chaque
segment. Deux scnarios dinteraction diffrents ont ts compars en gnrant un corpus
synthtique dont la construction est base sur une pice de musique concrte dOlivier
Messiaen. Les expriences ont t ralises en simulant lutilisateur et ses interactions avec
le systme. Les rsultats ont montr quune mthode simple qui propose lutilisateur
de couper les segments errons permet damliorer les performances de clustering par
rapport une approche statique.
La segmentation en mixtures ainsi obtenue permet dinitialiser le systme danalyse en
donnant la possibilit lutilisateur de choisir les segments contenant les classes sonores
quil souhaite annoter dans le document : nous les nommerons segments reprsentatifs de
classe dans la suite de ce document.
63
Chapitre 4
Classification interactive dobjets

sonores
Sommaire
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2 Etat de lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2.1 Classification dinstruments dans la musique polyphonique . . . . 66
4.2.2 Retour de Pertinence et Apprentissage actif . . . . . . . . . . . . 67
4.2.3 Classification multilabel . . . . . . . . . . . . . . . . . . . . . . . 68
4.2.4 Classification dimages . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3 Exploitation des informations dinitialisation . . . . . . . . . . . 71
4.4 Descripteurs utiliss . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5 Apprentissage interactif . . . . . . . . . . . . . . . . . . . . . . . 73
4.5.1 Architecture de la boucle dinteraction . . . . . . . . . . . . . . . 74
4.5.2 Slection dynamique dattributs . . . . . . . . . . . . . . . . . . 75
4.5.3 Prdiction au niveau des segments de mixtures . . . . . . . . . . 75
4.5.4 Apprentissage actif . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.6 Comparaison de deux approches interactives . . . . . . . . . . . 78
4.6.1 Approche par passages multiples (PM) . . . . . . . . . . . . . . . 78
4.6.2 Approche par passage unique (PU) . . . . . . . . . . . . . . . . . 82
4.7 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.7.1 Simulation utilisateur . . . . . . . . . . . . . . . . . . . . . . . . 85
4.7.2 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
64 4. Classification interactive dobjets sonores
4.1 Introduction
Ce chapitre se concentre sur la deuxime phase principale du systme : la classification
dobjets sonores qui permet de catgoriser les segments de mixtures obtenus par le procd
de clustering dcrit dans le chapitre prcdent. Pour obtenir une classification adapte
aux souhaits de lutilisateur, nous utilisons une approche interactive base sur le retour
de pertinence (relevance feedback) et lapprentissage actif (active learning). En effet, les
besoins de lutilisateur sont dpendants du point de vue danalyse (chapitre 2) et par
consquent, la classification doit pouvoir sadapter aux diffrents points de vue. Dans un
premier temps, il est ncessaire de dfinir certains concepts qui nous seront utiles dans
la suite du document. On peut distinguer plusieurs types de problmes de classification
(illustrs dans la figure 4.1) :
Problme bi-classes : ce type de problme est le plus simple. Dans ce cas, nous
avons uniquement deux classes possibles. Par consquent, ltiquetage dun chan-
tillon dans un problme bi-classe est binaire.
Problme multiclasses : ce type de problme concerne le cas o le nombre de
classes possible Q est suprieur deux. Ltiquette dun tel chantillon peut donc
tre reprsente par un entier e tel que 1 e Q avec Q > 2.
Problme multilabel : dans ce cas, un chantillon peut appartenir plusieurs
classes en mme temps. On parle souvent de classification non exclusive. Pour un
problme multilabel Q classes, on peut reprsenter ltiquette associe un chan-
tillon x par un vecteur (v1 , v2 , ..., vQ ) avec vq = 1 si x Cq et vq = 1 si x % Cq
(1 q Q).
Fig. 4.1 Les diffrentes types de problmes
Dans la phase de classification, lobjectif est dobtenir un tiquetage multiple des dif-
frents segments de mixtures constituant la pice. Autrement dit, le systme doit pouvoir
prdire pour chaque segment si il contient les classes sonores exprimes par lutilisateur ou
non. Il sagit donc dun problme multilabel. Le problme de classification est illustr par
la figure 4.2. Dans cet exemple, lutilisateur sintresse deux classes sonores en particulier
(S1 et S3) et des segments ont t tiquets manuellement. Le but est dobtenir lti-
65
quetage des autres segments en apprenant des classifieurs partir des segments tiquets
manuellement. Il sera ainsi possible dobtenir linformation de prsence dune classe sonore
donne sur lensemble du signal (flches en pointill sur la figure 4.2). Il sagit donc dun
problme de classification supervise avec un nombre dchantillons restreint.
Fig. 4.2 Classification de deux sons partir de segments tiquets manuellement
Le systme danalyse propos a pour fonction dassister lutilisateur dans la tche dan-
notation des objets sonores. Il convient donc de faire en sorte que lannotation manuelle soit
minimale. Cependant, comment minimiser le nombre de segments tiquets manuellement ?
Comment choisir les segments tiqueter manuellement afin dobtenir des prdictions ef-
ficaces ?
Dans un premier temps, nous prsenterons un tat de lart de la classification relatif

notre problme, puis nous verrons comment exploiter les informations obtenues pen-
dant linitialisation (phase de clustering) et les descripteurs utiliss seront prsents. Nous
terminerons le chapitre en prsentant les diffrentes approches dapprentissage interactif
proposes avant dvaluer le systme complet dans la dernire section.
4.2 Etat de lart

A notre connaissance, il nexiste pas de travaux antrieurs centrs sur la mme pro-
blmatique applicative et scientifique que le systme propos, par contre nous situons ce
travail au croisement de divers domaines. Le but de cet tat de lart est principalement
dexpliquer les points en commun et les diffrences avec ces domaines de recherche ainsi
que de prsenter les concepts importants qui ont inspir la classification dobjets sonores
dans le contexte de pices lectroacoustiques.
4.2.1 Classification dinstruments dans la musique polyphonique

La classification automatique dinstruments dans la musique polyphonique reste un
challenge difficile relever et est de fait moins tudie que la classification dinstruments
pour de la musique monophonique. En effet, dans ce contexte, il sagit de reconnaitre des
instruments de musique dans des mixtures instrumentales. Par consquent, le problme de
la description est plus complexe puisquil fait intervenir des superpositions sonores et tous
les phnomnes que cela peut engendrer (notamment les chevauchements entre partiels).
Certaines mthodes sattachent sparer les notes des diffrents instruments afin dappli-
quer des mthodes classiques, dautres se focalisent sur lextraction de descripteurs adapts.
Godsmark & Brown (1999) proposent dexploiter une trajectoire de timbre dans la-
quelle le centrode spectral en fonction de lamplitude est utilis pour sparer la musique
polyphonique en ses lignes mlodiques constituantes. Le modle propos permet dobtenir
un taux de reconnaissance de 80% pour des mlanges piano/contrebasse mais chute de 40%
pour des mixtures plus complexes 4 instruments.
Kinoshita et al. (1999) proposent une extension un systme existant qui ntait
pas robuste pour les signaux de mixtures prsentant des chevauchements de partiels. Le
systme est test avec des mlanges de deux notes crant des chevauchements. La mthode
fonctionne par rapprochement avec des templates connus qui seront pondrs en valuant
limportance des descripteurs.
Eggink & Brown (2003) proposent un systme de reconnaissance dinstruments par
Modle de Mlange Gaussien (GMM) et utilisent le concept de lattribut manquant (mis-
sing feature theory) quand il y a plus dun son la fois. Ainsi, les rgions frquentielles
qui contiennent des interfrences sont exclues du processus de classification car considres
comme non fiables. La mthode propose est value sur des combinaisons de deux instru-
ments avec des accords de deux notes ainsi que sur des mlanges de phrases instrumentales.
Essid et al. (2006) proposent une nouvelle approche de reconnaissance des instruments
base sur lapprentissage de taxonomies instrumentales. Cette approche nutilise pas de
sources instrumentales spares pour lapprentissage mais exploite des annotations de mu-
siques commerciales. Ainsi, les diffrents types de mixtures instrumentales sont appris sur
des morceaux de jazz (du duo au quartet) et lalgorithme cherche retrouver directement
ces mixtures dans les signaux de test. Cette mthode prend pour hypothse linvariabilit
de linstrumentation de certains styles musicaux et apprend retrouver les mlanges dans
des morceaux bass sur les mmes instruments.
Kitahara et al. (2007) prsentent une solution pour les problmes de variation des des-
cripteurs dus aux superpositions des sons instrumentaux. Pour rsoudre ce problme, les
auteurs utilisent une pondration des descripteurs base sur le degr de perturbation in-
troduit par la superposition. Dans cet article, linfluence de la superposition sur chaque
descripteur est assimile au rapport des variances intra-classe et inter-classe. La pondra-
tion est ralise par une analyse linaire discriminante qui permet de minimiser ce dernier
rapport.
Little & Pardo (2008) sintressent lidentification dinstruments dans des mixtures
en ralisant un apprentissage partir de segments partiellement tiquets. Dans ce travail,
les chantillons dapprentissage sont les mixtures qui contiennent linstrument appris dans
une proportion significative. Ainsi, le systme apprend partir de mixtures qui contiennent
la fois linstrument appris et galement dautres instruments. Une tude comparative est
ralise et montre que lapprentissage sur des chantillons partiellement tiquets permet
67
dobtenir de meilleurs rsultats quune approche classique o les modles sont appris
partir de sources instrumentales isoles.
Dans de nombreux travaux prsents, lapprentissage des modles se base sur la connais-
sance des instruments qui seront utiliss. La plupart du temps, les instruments appris sont
standards et appartiennent aux grandes familles dinstruments rencontres dans la mu-
sique occidentale. Dans notre cas, nous navons pas de connaissance a priori sur les sons qui
composent les pices lectroacoustiques car les compositeurs travaillent directement sur le
matriau sonore et peuvent utiliser nimporte quelle source sonore acoustique ou lectro-
nique. De plus les sources utilises sont souvent htrognes et polyphoniques lorigine
(par exemple : des chants doiseaux). Dans les travaux prsents, on peut sintresser par-
ticulirement lapproche de Little & Pardo (2008) qui utilise des chantillons de mixtures
partiellement tiquets pour lapprentissage. En effet, dans notre cas, comme nous ne dis-
posons pas de sources spares a priori, nous devrons forcment raliser lapprentissage
partir de mixtures sonores. Dans la section suivante, nous prsentons un tat de lart du
retour de pertinence et de lapprentissage actif dans le domaine audio car comme nous
lavons dit dans la section 2.5.2.2, tant donn la ncessit de proposer un systme adap-
tatif (pour les raisons musicologiques voques dans la section 2.4.2) et la difficult du
problme (un segment peut avoir plusieurs tiquettes car les pices sont polyphoniques),
le retour utilisateur est une source dinformation qui peut fortement aider la classification.
4.2.2 Retour de Pertinence et Apprentissage actif

Lutilisation du retour de pertinence a dabord t introduit dans le domaine de la
recherche textuelle (Rijsbergen (1979), Salton (1968)). Ainsi, pendant la recherche de do-
cuments, lutilisateur peut interagir avec le systme et slectionner les documents qui lui
semblent pertinents. Les systmes de classification orients audio exploitant le retour
utilisateur sont peu nombreux en comparaison des systmes purement automatiques.
Hoashi et al. (2003) proposent de retrouver des morceaux de musique selon les pr-
frences propres un utilisateur qui sont supposes tre ambiges en utilisant le retour
de pertinence. Lapproche utilise des arbres de vecteurs quantifis (TreeQ) pour raliser la
recherche. Pour valuer la mthode, une base de donnes a t construite partir dune
collection de CDs du commerce. Les expriences montrent lefficacit du retour de perti-
nence pour la recherche dans la base ainsi que pour la constitution de profils utilisateurs
personnaliss.
Dans Mandel et al. (2006), un systme de recherche par similarit musicale exploitant
des machines vecteurs supports (SVM) combin lapprentissage actif est prsent. Pour
tester le systme, 1210 morceaux de musique pop ont ts classs par motions, styles et
artistes. Ainsi, un classifieur est appris pour chaque requte partir de diffrentes reprsen-
tations de descripteurs bas-niveaux dun ou plusieurs morceaux fournis par lutilisateur. Le
systme fonctionne itrativement : chaque itration, il prdit les tiquettes des morceaux
non tiquets partir du classifieur courant puis il utilise lapprentissage actif pour deman-
der lutilisateur dannoter de nouveaux morceaux afin de faire progresser lapprentissage.
Le but du systme est dobtenir une prdiction correcte des tiquettes en un minimum
ditrations. Ce travail vrifie que dans ce contexte, le recours lapprentissage actif per-
met de diminuer de moiti le nombre de morceaux annots manuellement. De plus, parmi
les diffrentes reprsentations de descripteurs bas-niveau compares, les rsultats montrent
quune reprsentation simple (moyenne et matrice de covariance des MFCC dun morceau)
permet dobtenir de meilleurs rsultats que des reprsentations plus complexes (GMM etc.).
Chen et al. (2008) prsentent un systme de recherche de contenu musical qui intgre le
retour utilisateur. Un algorithme dapprentissage bas sur une fonction de base radiale est
utilis pour la classification et un algorithme de pondration des descripteurs qui utilise la
fois les exemples positifs et ngatifs est prsent. Le systme est test pour la classification
en genres et en motions et obtient des rsultats comparables ceux prsents dans la
littrature.
Shan et al. (2008) proposent une approche pour la recherche de catgories musicales
spcifiques qui partagent un mme concept smantique. Les catgories tant subjectives,
ils utilisent le retour de pertinence pour apprendre les concepts smantiques sur de la
musique polyphonique reprsente symboliquement. Un modle de segment et une repr-
sentation qui intgrent des descripteurs globaux et locaux sont utiliss. La recherche est
effectue via un algorithme de reconnaissance de formes et un algorithme associatif de clas-
sification modifi. Trois stratgies sont utilises pour slectionner les objets les plus utiles
pour lapprentissage du concept (le plus positif, le plus informatif et une stratgie hybride).
On peut retenir que ces travaux utilisent le retour de pertinence et lapprentissage actif
afin dexprimer la subjectivit et ladaptabilit. Dans ces travaux, la recherche dun objet
particulier est dfinie par des exemples dobjets considrs comme appartenant une mme
catgorie par un utilisateur donn. Ces mthodes sont donc des outils puissants et utiles
dans notre contexte car ils peuvent permettre un utilisateur de dfinir ses propres objets
sonores en donnant des exemples choisis. Nous pouvons galement mentionner que la phase
de classification des segments de mixtures se rapproche de Mandel et al. (2006) qui cherche
classifier des reprsentations de morceaux complets en utilisant un algorithme SVM. Une
diffrence importante avec notre travail est que les segments de mixtures sont de lordre
de quelques secondes (cest peu par rapport aux 3 minutes dune chanson standard). Nous
avons donc moins dchantillons notre disposition pour lapprentissage des classes ce qui
justifie galement lapprentissage actif qui vise amliorer les performances de classification
lorsquon a peu dchantillons tiquets notre disposition (section 4.5.4).
4.2.3 Classification multilabel

Le problme de la classification multilabel est galement un aspect important de notre
problmatique de travail. Tsoumakas & Katakis (2007) proposent une vue densemble des
diffrents travaux sur le sujet et distinguent deux types de mthodes : les approches par
transformation du problme et celles par adaptation de lalgorithme. Dans les approches
par transformation du problme, le problme de classification multilabel est remplac par
un problme ou plusieurs problmes de classification simple tiquette. Les mthodes par
adaptation dalgorithmes sont celles qui tendent directement un algorithme dapprentis-
sage spcifique au problme multilabel. Dans le domaine musical, la classification multilabel
a t applique principalement dans les problmes de classification en genres ou en mo-
tions.
Wieczorkowska et al. (2006) prsentent une approche de classification mutilabel en

motions. La base utilise comporte 875 extraits de musique de 30 secondes (chansons et
pices de musique classique). On dnombre 13 classes dmotions diffrentes. Pour la phase
de classification, un algorithme modifi des k plus proches voisins est utilis (lalgorithme
69
original est dcrit dans Duda et al. (2001)). Cet algorithme modifi permet de prendre
en compte les tiquettes multiples pouvant tre affectes un chantillon. Pour prdire
le multilabel dun chantillon, lalgorithme calcule un histogramme des tiquettes de son
voisinage. Les tiquettes dont le nombre doccurrences dpasse un certain seuil (dtermin
exprimentalement) seront affectes lchantillon considr.
Trohidis et al. (2008) proposent une valuation de 4 algorithmes de classification multi-
label de la musique en motions, 6 classes dmotions diffrentes sont considres. La base
utilise comporte 593 morceaux et les approches compares sont les suivantes : pertinence
des rsultats de classifieurs binaires ou Binary Relevance (BR), tiquettes construites
avec les parties de lensemble initial ou Label Powerset (LP), k sous-ensembles ala-
toires RAndom K-labELsets (RAKEL), k plus proches voisins multilabel ou MultiLabel
k-Nearest Neighbor (MLkNN). Les trois premires mthodes sont des approches par trans-
formation du problme et la dernire est une approache par adaptation de lalgorithme. BR
considre la prdiction de chaque tiquette comme un problme de classification binaire
indpendant. Soit L lensemble des tiquettes possibles dun chantillon, LP considre le
problme de prdiction multiclasse des tiquettes dfinies par les parties de lensemble L.
RAKEL est une mthode rcente qui amliore lalgorithme LP (Tsoumakas & Vlahavas
(2007)). MLkNN est une approche performante de type adaptation de lalgorithme qui
adapte lalgorithme des k plus proches voisins la problmatique multilabel. Les trois
premires approches (BR,LP et RAKEL) ont t ralises laide dun classifieur SVM. Il
ressort de cette tude que la mthode RAKEL est la plus performante au dtriment dun
temps de calcul plus long. En effet, RAKEL ncessite de raliser des validations croises afin
de slectionner plusieurs paramtres avant la phase dentrainement. De plus, RAKEL est
une mthode de type ensemble qui utilise plusieurs modles dou un temps dentrainement
plus long.
Dans Lukashevich et al. (2009), une nouvelle approche pour la classification multila-
bel des genres musicaux est prsente. Trois expriences diffrentes sont ralises sur une
base de 430 morceaux de musiques du monde. On distingue 16 sous-genres ou influences
rgionales rpertories et chaque morceau peut tre affect une ou plusieurs tiquettes
parmi les 16. Dans la premire exprience, on considre quun multilabel unique est affect
chaque morceau. Dans la deuxime exprience, chaque morceau est segment et chaque
segment est affect un multilabel. Enfin, dans la troisime exprience, chaque segment
de morceau est considr selon trois aspects (le timbre, le rythme, la mlodie/harmonie)
et tiquet selon une tiquette unique. Un classifieur bas sur le modle de mlange de
gaussiennes (ou GMM pour Gaussian Mixture Model) est utilis. Pour la classification
multilabel, une approche de type BR est utilise. Ainsi, chaque classifieur binaire HC est
appris pour prendre une dcision binaire : lchantillon appartient-il la classe C ou non ?
Les auteurs prcisent que les rsultats obtenus pourraient tre amliors en utilisant un
classifieur de type SVM au lieu des GMMs.
Ces travaux nous renseignent notamment sur les diffrentes approches de classifications
utilises pour rsoudre un problme multilabel. On peut retenir en particulier que les
approches de type LP semblent tre plus performantes car elles prennent en compte les
intersections des classes mais elles demandent galement plus de temps de calcul car il faut
considrer un nombre de classifieurs plus important que le nombre dtiquettes possibles. La
mthode RAKEL obtient de bons rsultats mais souffre dune complexit importante qui
augmenterait fortement le temps dattente utilisateur. Nous pouvons galement remarquer
que les travaux rcents utilisent des classifieurs SVM ou, comme Lukashevich et al. (2009),
souhaiteraient amliorer leurs performances en utilisant ce type de classifieur.
4.2.4 Classification dimages

Le retour de pertinence est trs utilis dans le domaine de la classification dimages/photos.
La raison de ce constat est simple : les photos, tout comme les sons, sont des objets qui
renvoient des jugements trs subjectifs. En effet, un utilisateur peut choisir de classifier
de tels objets selon plusieurs axes : description, concept, motion suggre, vocabulaire
esthtique etc. De plus, en classification dimages, il est courant de vouloir associer une
image plusieurs tiquettes : par exemple une photo dune personne sur une plage peut
tre affecte la fois la classe plage et la classe personne. Certains travaux en clas-
sification dimages constituent une inspiration importante pour ce travail de classification
dobjets sonores car les formalismes possibles pour ces deux types dobjets sont relative-
ment similaires.
Crucianu et al. (2004) et Zhou & Huang (2003) dcrivent une vue densemble de la
littrature sur le retour de pertinence et lapprentissage actif appliqus la recherche
dimages. Certains travaux intgrent la fois le retour de pertinence par apprentissage
actif et la classification multilabel (Li et al. (2004), Goeau et al. (2008), Goeau (2009),
Singh et al. (2009), Qi et al. (2009)).
Li et al. (2004) proposent une mthode multilabel base sur des SVMs et exploitant
lapprentissage actif pour la classification dimages. Dans cette publication, une approche
de type BR est utilise et deux stratgies dchantillonnage originales sont prsentes et
compares une slection dchantillons alatoire.
Goeau et al. (2008) et Goeau (2009) prsentent un systme de classification dimages
bas sur une version videntielle de lalgorithme des k plus proches voisins qui utilise
galement lapprentissage actif. Ce systme permet lutilisateur dinitialiser, supprimer ou
fusionner des classes et ventuellement de corriger les propositions dtiquettes du systme.
Lapproche choisie permet de prendre en compte limprcision, lincertitude et les conflits
entre les descripteurs visuels. Ainsi, des stratgies dchantillonnage prenant en compte
la positivit, lambiguit et la diversit sont prsentes. Dans cette approche, les sorties
des classifieurs sont exprimes sous forme de probabilits pignistiques (Smets (2005)) qui
permettent de slectionner les chantillons en fonction de la stratgie. Lvaluation du
systme est ralise par simulation utilisateur et permet de comparer les rsultats obtenus
avec les diffrentes stratgies dchantillonnage. Le classifieur propos permet galement de
grer la classification multilabel.
Singh et al. (2009) proposent une approche de classification multilabel exploitant lap-
prentissage actif qui permet de rduire le nombre dimages prsentes lutilisateur. Cet
article propose dutiliser un classifieur SVM dans une approche BR et compare trois stra-
tgies dchantillonnage afin de rduire le nombre dimages que lutilisateur doit annoter
manuellement. La premire stratgie est alatoire, elle sert de point de rfrence. Pour
toutes les stratgies, limage nouvellement annote est ajoute lensemble dapprentissage
(elle est donc retire des images non tiquetes) et le processus est rpt itrativement.
La deuxime stratgie est dite annotation monolabel : il sagit dune stratgie souvent
utilise en apprentissage actif qui consiste chercher lchantillon le plus informatif. Dans
le cas des SVM, dans un problme bi-classe, lchantillon le plus informatif est lchantillon
le plus ambigu (celui le plus proche de lhyperplan sparateur). Dans la dernire strat-
gie, dite annotation multilabel, la distance la marge est probabilise et effectu pour
71
chaque tiquette possible et pour chaque chantillon. Une moyenne est ensuite calcule
pour chaque chantillon et celui qui maximise cette moyenne est slectionn. Les exp-
riences ralises dmontrent que la stratgie annotation monolabel est plus performante
que la stratgie annotation multilabel.
Qi et al. (2009) proposent une nouvelle approche de slection dchantillons pour des
problmes multilabels. Cette approche est dite 2 dimensions (ou 2DAL pour 2 Dimen-
sional Active Learning), elle slectionne des paires dtiquettes annoter manuellement
pour un chantillon slectionn. En considrant la fois la redondance des chantillons et
des tiquettes, lannotation manuelle est minimise. On peut noter que cette approche, si
elle semble performante, introduit des calculs supplmentaires lors de la slection afin de
calculer les redondances.
De nombreux travaux comme Hong et al. (2000), Tong & Chang (2001), Joshi et al.
(2009), Singh et al. (2009) utilisent des classifieurs SVM coupls des stratgies dchan-
tillonnage pour slectionner des exemples utiles. En effet, les SVM apparaissent comme
des classifieurs de choix car en apprentissage actif, nous avons besoin de mesurer lappar-
tenance relative dun chantillon une classe. Or, cette information peut tre obtenue
naturellement partir de la distance dun chantillon lhyperplan sparateur dans le cas
des SVM. On peut remarquer que les travaux exploitant lapprentissage actif dans des
problmes multilabels sont encore assez rares.
4.3 Exploitation des informations dinitialisation

Pendant la phase dinitialisation, le systme ralise une segmentation timbrale afin dob-
tenir des units sonores homognes (chapitre 3). Cette tche est effectue par un algorithme
de clustering hirarchique qui permet, en plus de linformation de segmentation, dobtenir
un tiquetage des segments : les segments proches timbralement ont la mme tiquette.
Cette dernire information est importante car elle permet lutilisateur de comparer fa-
cilement les segments proches et deffectuer un choix entre eux. Comme nous lavons vu
dans la figure 4.2, nous reprsentons les diffrents segments par des couleurs identiques
lorsquils appartiennent au mme cluster afin de reprer facilement les segments de mme
timbre.
Pour initialiser lapprentissage des diffrentes classes sonores, lutilisateur doit choisir
un segment de dmarrage pour chaque classe vise. Il est souhaitable dinitialiser lappren-
tissage avec des segments reprsentatifs de chaque classe afin de ne pas obtenir des rsultats
contradictoires pour les premires itrations du systme. En effet, comme nous lavons ex-
pliqu dans le chapitre prcdent, les segments obtenus aprs segmentation sont pour la
plupart des mixtures composes de plusieurs sons superposs car la plupart des pices lec-
troacoustiques sont polyphoniques. Si nous reprenons notre exemple et la segmentation
correspondante (figure 4.3), il est facile dobserver ce phnomne de superposition propre
la musique polyphonique. La figure 4.3 oppose les segments reprsentatifs dune classe
sonore aux segments ambigus. On considre que les mixtures M 1 et M 4 sont reprsenta-
tives respectivement des classes de sons S1 et S3. En effet, ces deux segments contiennent
des sons isols et par consquent ils ne sont pas sujets aux phnomnes de masquage
sonore que peut engendrer la superposition de sons (Fastl & Zwicker (2007)). A loppos,
les segments M 3 et M 5 sont ambigus car ils sont constitus du mixage de plusieurs sons.
Du point de vue de lutilisation du systme, les remarques qui prcdent conduisent
4 5 5
Fig. 4.3 Segments caractristiques et ambigus
spcifier lutilisateur quil doit choisir un segment reprsentatif (dans la mesure du

possible) pour initialiser une classe sonore. Cependant, on peut observer dans certains cas
quil nexiste pas de segments reprsentatifs pour certaines classes (cest le cas pour la
classe S2). Dans ce cas, il est ncessaire que lutilisateur choisisse un segment dans lequel
la classe sonore vise est distinguable dun point de vue sonore.
4.4 Descripteurs utiliss

Les descripteurs employs dans cette phase du systme sont nombreux et couvrent
divers aspects du son. Au total, on dnombre 217 attributs pour 26 descripteurs extraits
en utilisant le logiciel dextraction YAAFE (Mathieu et al. (2010)). Certains descripteurs
sont similaires ceux utiliss dans le chapitre 3 alors que dautres sont propres la phase
de classification. Le tableau 4.4 prsente lensemble des descripteurs extraits pendant la
phase de classification des objets sonores.
Une prsentation dtaille des descripteurs est propose en annexe B). La phase de
classification des objets sonores utilise galement les descripteurs spectraux et temporels
suivants qui nont pas t prsents dans le chapitre prcdent :
Descripteurs Spectraux :
Les OBSIR : mesure de la diffrence entre les valeurs OBSI de bandes conscutives
(Essid (2005)).
Les coefficients LSF (Line Spectral Frequency) : utiliss pour reprsenter les coeffi-
cients de prdiction linaires Bckstrm & Magi (2006), Schussler (1976).
73
Descripteur Dimension Type Annexe

Centrode spectral 1 Spectral B.1
Largeur spectrale 1 Spectral B.1
Asymtrie spectrale 1 Spectral B.1
Platitude spectrale 1 Spectral B.1
Platitude damplitude spectrale par bandes 23 Spectral B.1
Facteur de crte spectrale par bandes 23 Spectral B.1
Platitude spectrale globale 1 Spectral B.1
Pente spectrale 1 Spectral B.1
Dcroissance spectrale 1 Spectral B.1
Flux spectral 1 Spectral B.1
Frquence de coupure 1 Spectral B.1
Coefficients LSF 10 Spectral B.1
OBSI 10 Spectral B.1
OBSIR 9 Spectral B.1
Variation spectrale 1 Spectral B.1
Coefficients LPC 2 Spectral B.3
Coefficients MFCC (+drives dordres 1 et 2) 39 Cepstral B.2
Taux de passage par zero 1 Temporel B.3
Moments statistiques temporels 4 Temporel B.3
Coefficients dautocorrlation 49 Temporel B.3
Energie 1 Temporel B.3
Enveloppe damplitude 6 Temporel B.3
Moments de lenveloppe 4 Temporel B.3
Loudness spcifique 24 Perceptif B.4
Acuit perceptive 1 Perceptif B.4
Etalement perceptif 1 Perceptif B.4
Fig. 4.4 Ensemble des descripteurs extraits pendant la phase de classification des objets
sonores.
Descripteurs Temporels :
Lnergie : calcule partir de la moyenne quadratique des trames du signal.

Lenveloppe damplitude : obtenue par transforme de Hilbert et filtrage passe-bas.
Les moments de lenveloppe temporelle : calculs partir de lenveloppe temporelle
de la mme manire que les moments spectraux (voir 3.3.2).
4.5 Apprentissage interactif
Nous avons rappel en Annexe C les techniques dapprentissage que nous exploitons
dans notre systme. Cette section expose les grandes tapes de lapprentissage interactif,
les mthodes propres chaque approche dinteraction seront prsentes et compares dans
la section suivante.
4.5.1 Architecture de la boucle dinteraction
La boucle dinteraction avec lutilisateur dmarre aprs la phase dinitialisation pendant

laquelle une segmentation en units homognes est effectue. Ensuite, lutilisateur choisit
un segment de dmarrage pour chaque classe sonore vise afin damorcer lapprentissage
(voir section 4.3). La figure 4.5 prsente les grandes parties de larchitecture de la boucle
dinteraction.
Fig. 4.5 Architecture de la phase de classification des objets sonores
Les segments qui rentrent en compte dans lapprentissage sont uniquement ceux valids
par lutilisateur. Par consquent, pour la premire itration, seuls les segments de dmar-
rage sont pris en compte. La phase dapprentissage regroupe deux tches distinctes : la
slection dattributs et lapprentissage des modles pour la classification. Ensuite, la phase
de classification est effectue : elle ralise une classification bas-niveau (pour chaque trame)
suivie dune intgration temporelle permettant la prise de dcision au niveau du segment.
Une fois la prdiction effectue, les tiquettes de segments sont mises jour dans linter-
face. La dernire phase de la boucle dinteraction est la slection active de segments. Dans
cette dernire, les segments non valids par lutilisateur sont considrs pour une slection
active (voir section 4.5.4). Le segment slectionn est par la suite prsent lutilisateur
pour la validation ou la correction. Lalgorithme peut ensuite dmarrer un nouveau cycle
en prenant en compte le segment valid/corrig par lutilisateur.
75
4.5.2 Slection dynamique dattributs

Dans le cas de la classification dobjets sonores dans des pices lectroacoustiques,
nous navons pas de connaissances a priori sur la nature des sources sonores classifier.
Ce cas est complexe car nous ne savons pas ce que lutilisateur cherche dcrire. Pour
rpondre ces difficults, nous proposons de raliser la slection dattributs lintrieur de
la boucle dinteraction afin dadapter la slection au retour utilisateur. Ainsi, les attributs
choisis par lalgorithme de slection peuvent varier au cours des itrations successives. La
stratgie dapprentissage utilise dans le systme propos est du type un contre tous (ou
OVA pour One Versus All), nous dcrivons cette stratgie dans lAnnexe C.3. Tout comme
pour les classifieurs, des slections indpendantes sont effectues pour les Q classes sonores
afin de construire un espace de description propre chacune. La slection dattributs est
ralise laide de lalgorithme de Fisher comme prcdemment (section 3.3.3.1). Ainsi,
les D meilleurs attributs qui maximisent le critre de Fisher sont gards. Comme nous
lavons prcis dans la slection dattributs pour linitialisation, il est ncessaire que la
classification soit efficace afin de ne pas faire attendre lutilisateur entre chaque itration.
Aprs un test prparatoire o nous faisons varier le nombre dattributs choisis dans un
intervalle acceptable dun point de vue de la complexit, nous observons que les meilleurs
rsultats sont obtenus pour D = 10 attributs.
Nous prsenterons dans la section 4.7.2.3 lvolution de la slection des descripteurs
pour diffrents niveaux de polyphonie et deux approches dinteraction diffrentes.
4.5.3 Prdiction au niveau des segments de mixtures

Dans cette section, nous cherchons prendre une dcision de plus haut niveau dans la
hirarchie temporelle : nous exposons comment dcider de lappartenance dun segment
des classes sonores.
Dans notre problme dapprentissage, nous avons Q classes {Cq }1qQ . Aprs avoir
ralis la slection dattributs, nous disposons dun vecteur de description D dimensions
Xk = (xk1 , xk2 , ..., xkD ) pour chaque trame k. La classification bas-niveau est ralise
par un classifieur SVM (voir description en Annexe C.2) qui nous permet destimer une
probabilit a postriori p(Ci |Xk ) de la classe Ci en sortie de chacun des Q classifieurs.
Nous utilisons les SVM avec une stratgie dapprentissage OVA, donc p(Ci |Xk ) estime la
probabilit de lhypothse dappartenance la classe Ci . Or, lunique hypothse alternative
dans la stratgie OVA est que Xk nappartiennent pas la classe Ci . La somme des deux
hypothses tant gale 1 comme il sagit de probabilits on obtient la deuxime hypothse
facilement :
p(Ci |Xk ) = 1 p(Ci |Xk ) (4.1)
Dans cette phase de prdiction, nous utilisons galement linformation des frontires
de segments de mixtures obtenue dans la phase de clustering (chapitre 3). Ainsi, nous
cherchons estimer pour chaque segment de texture , une probabilit dappartenance
chaque classe P (Ci |Xk , ..., Xk +L 1 ). Pour raliser cette estimation, nous faisons lhypo-
thse simplificatrice classique que les observations (Xk , ..., Xk +L 1 ) sont indpendantes
ce qui nous permet dcrire :
k +L
% 1
P (Ci |Xk , ..., Xk +L 1 ) = p(Ci |Xk ) (4.2)
k=k
Il peut arriver que le produit dcrit dans 4.2 devienne trop petit pour des petites valeurs
de p(Ci |Xk ) donc nous prfrons utiliser :
k +L
! 1
log (P (Ci |Xk , ..., Xk +L 1 )) = log p(Ci |Xk ) (4.3)
k=k
Connaissant log (p(Ci |Xk )), nous obtenons log (P (Ci |Xk , ..., Xk +L 1 )) de faon si-
milaire :
k +L
! 1
log (P (Ci |Xk , ..., Xk +L 1 )) = log (1 p(Ci |Xk )) (4.4)
k=k
Finalement, lhypothse retenue h,i de lappartenance du segment de mixture la

classe Ci est celle qui obtient la probabilit maximum :
h,i = arg max (log (P (Ci |Xk , ..., Xk +L 1 )), log (P (Ci |Xk , ..., Xk +L 1 ))) (4.5)
Ci ,Ci
Ainsi, pour chaque segment de mixture, nous disposons dune estimation de son appar-
tenance chaque classe.
4.5.4 Apprentissage actif

4.5.4.1 Prsentation
En apprentissage automatique, lapprenant peut tre vu comme une entit passive
qui est entraine partir de donnes tiquetes par un utilisateur expert. Le but de lap-
prentissage actif est damliorer les performances dapprentissage en donnant un rle actif
lapprenant. Afin de raliser cet objectif, le domaine de lapprentissage actif tudie les
actions de slection dchantillons ainsi que les requtes qui influencent lintroduction de
nouvelles donnes dapprentissage dans lensemble dentrainement. Les principales moti-
vations de lapprentissage actif viennent de la difficult dobtenir des chantillons tique-
ts. En effet, selon les diffrents domaines, lobtention dchantillons peut tre coteuse
en temps et demander lintervention dun ou plusieurs experts. Lhypothse de base sur
laquelle sappuie lapprentissage actif est que lorsque les exemples devant tre tiquets
manuellement sont slectionns de faon utile, la quantit de donnes requises pour un
apprentissage efficace diminue fortement (Cohn et al. (1996)).
Pour raliser cette slection utile des chantillons tiqueter, lapprentissage actif uti-
lise des stratgies dchantillonnage, il en existe de nombreuses dans la littrature. Nous
tudierons les diffrentes stratgies dchantillonnage dans la section suivante. La proc-
dure standard dune mthode dapprentissage actif peut tre illustre par lalgorithme 1.
On peut noter que cette mthode dapprentissage est galement interactive car elle fait
intervenir lutilisateur.
On dfinit variables et fonctions suivantes :

M : un modle de prdiction.
L, U : les ensembles de vecteurs respectivement tiquets et non tiquets du pro-
blme.
n : le nombre dexemples pour lesquels on souhaite demander une annotation ma-
nuelle par lutilisateur.
77
Algorithme 1 Procdure de base dapprentissage actif et interactif
1 Variable
2 M:modle
3 L,U:ensembles de vecteurs
4 n,e:entiers
5 Dbut
6 Rpter
7 M train(L)
8 e = arg maxxU u(x, M )
9 label(e) input()
10 U U \e
11 L Le
12 TantQue |L| < n
13 Fin
e : lchantillon slectionn par la procdure dchantillonnage.

train(L) : fonction dentrainement qui retourne le modle appris avec un ensemble
dchantillons tiquets L.
u(x, M ) : fonction dchantillonnage qui retourne le degr dutilit dun chantillon
x U tant donn le modle M .
label(e) : fonction qui retourne ltiquette dun chantillon e.
input() : fonction qui permet lutilisateur dentrer une tiquette.
Dans la procdure dapprentissage actif, M est entrain avec les exemples de L puis
lchantillon e qui maximise la fonction dutilit u est recherch. Ensuite on demande
lutilisateur ltiquette de e. Enfin, lchantillon e est enlev de lensemble des chantillons
non tiquets U puis ajout celui des tiquets L.
4.5.4.2 Adaptation notre problme

Dans notre cas, il y a deux aspects principaux sur lesquels nous devons raliser une
adaptation pour appliquer lapprentissage actif notre problme :
Nous ne connaissons pas le nombre dchantillons qui devront tre annots manuel-
lement
Nous souhaitons raliser une slection de segments utiles lapprentissage
Pour le premier point, il nous suffit de remplacer la condition darrt de lalgorithme. En

effet, au lieu de fixer le nombre dchantillons annoter manuellement, on peut considrer
que lutilisateur est le seul matre bord et quil peut dcider de la terminaison de
lalgorithme quand il est satisfait du retour quil obtient.
La seconde adaptation revient raliser une intgration temporelle sur les segments de
mixtures des scores dutilits u(k) obtenus pour les diffrentes trames/chantillons. Aprs
des essais empiriques avec plusieurs oprateurs statistiques de base (mdiane, moyenne,
cart type etc.) il sest avr que loprateur de moyenne des scores dutilits u(k) dun
segment constituait un meilleur choix. Le calcul de u(k) dpend de la stratgie dchan-

tillonnage utilise et sera abord dans les sections 4.6.1.2 et 4.6.2.2. On calcule donc le
score dutilit S( ) pour chaque segment :
k +L
! 1
1
S( ) = u(k) (4.6)
L
k=k
Le segment S0 choisi est celui qui maximise le score S( ) :
S0 = arg max S( ) (4.7)

Ainsi, le segment choisi est prsent lutilisateur expert qui peut valider ou corriger
la prdiction du modle.
4.6 Comparaison de deux approches interactives

Cette section prsente les deux approches dinteraction proposes pour la classification
dobjets sonores dans des pices polyphoniques.
4.6.1 Approche par passages multiples (PM)

4.6.1.1 Concept
Cette premire approche est inspire dune pratique courante qui consiste couter
une pice dans son intgralit pour raliser la transcription dun objet particulier. En pro-
cdant ainsi, on peut focaliser toute son attention uniquement sur cet objet et raliser une
transcription prcise (on peut considrer que cette transcription est horizontale car elle
suit lvolution dun objet particulier). Par analogie cette pratique, nous proposons une
premire boucle dinteraction par passages multiples qui invite lutilisateur se concentrer
sur un objet unique la fois. Une nouvelle boucle dinteraction est ralise pour chacune
des Q classes dintrt. Cette approche a pour particularit de proposer un retour utilisa-
teur simple car binaire que lon peut rsumer par la question suivante : le segment propos
appartient-il la classe courante ? Le systme propose une prdiction lutilisateur qui
peut soit la corriger soit la valider. La boucle dinteraction par passages multiples est d-
crite dans lalgorithme 2.
On dfinit les variables et fonctions suivantes :

M : ensemble des modles de prdiction pour chaque classe.
L, U : les ensembles des segments de mixtures respectivement tiquets et non ti-
quets du problme.
C : ensemble des classes de sons vises.
S0 : le segment de mixture slectionn par la procdure dchantillonnage de seg-
ments.
train(L, Ci ) : fonction dentrainement qui retourne le modle appris pour la classe Ci
avec un ensemble dchantillons tiquets L.
E(, Mi ) : fonction dchantillonnage qui retourne le degr dutilit dun segment
S U tant donn le modle Mi .
label(S0 ) : fonction qui retourne ltiquette dun segment S0 .
79
Algorithme 2 Boucle dinteraction par passages multiples
1 Variable
2 M:ensemble de modles
3 L,U :ensemble de segments de mixtures
4 C :ensemble de classes
5 S0 :segment de mixtures
6 i, Q, :entiers
7 Dbut
8 Pour i variant de 1 Q Faire
9 Rpter
10 Mi train(L, Ci )
11 S0 = arg max U E(, Mi )
12 label(S0 ) correction_pm(S0 )
13 U U \ S0
14 L L S0
15 TantQue lutilisateur nest pas satisfait
16 Fin
correction_pm() : fonction qui demande lutilisateur de valider/corriger la prdic-

tion.
Dans la boucle dinteraction par passages multiples, pour chaque classe i, Mi est en-
train avec les exemples de L puis le segment S0 qui maximise la fonction dutilit E est
recherch. Ensuite on demande lutilisateur de valider ou corriger S0 . Enfin, le segment
S0 est enlev de lensemble des segments non tiquets U puis ajout celui des tiquets
L. La boucle tant que est rpte jusqu ce que lutilisateur soit satisfait de la prdiction
pour la classe i avant de passer la classe suivante.
4.6.1.2 Stratgies dchantillonnage

Dans cette section, nous prsentons les diffrentes stratgies dchantillonnage qui ont
t testes dans le cadre de lapproche par passages multiples. En effet, nous avons dfini une
fonction de score dutilit u(k) dans la section 4.5.4.2 qui est utilise pour calculer lutilit
dun segment dans lquation 4.6. Les stratgies dchantillonnage sont diffrentes pour
les deux approches dinteraction. Dans cette premire approche, lutilisateur se focalise
sur une classe unique et le classifieur SVM est bi-classe. Nous cherchons rsoudre un
problme OVA classique et par consquent, il ny a pas de recombinaison de classifieurs :
soit lchantillon appartient la classe, soit il appartient une autre classe. Les stratgies
dchantillonnage suivantes sont les plus courantes :
Stratgie de lchantillon le plus positif ou Most Positive (MP)
Cette stratgie slectionne les chantillons qui sont considrs par le classifieur comme
tant les plus pertinents (Crucianu et al. (2004)). Dans notre cas, nous disposons dune
probabilit a postriori estimant lappartenance la classe vise. Par consquent, les chan-
tillons les plus pertinents sont ceux qui maximisent la probabilit a postriori. Gomtri-
quement, ces chantillons sont les plus loigns de la surface de dcision et du ct positif.
Cette stratgie a pour avantage de proposer lutilisateur rapidement des chantillons de
la classe dintrt. Lutilisateur est donc rassur car il na pas beaucoup de corrections
effectuer mais en contrepartie la gnralisation peut prendre plus de temps.
Stratgie de lchantillon le plus ngatif ou Most Negative (MN)
Cette stratgie est le contraire de la prcdente : elle slectionne les chantillons qui
sont considrs par le classifieur comme tant les moins pertinents (Wu et al. (2006)).
Gomtriquement, ces chantillons sont les plus loigns de la surface de dcision et du ct
ngatif (nappartenant pas la classe vise). Cette stratgie a pour avantage dintroduire
de la diversit dans les donnes dapprentissage en slectionnant des chantillons considrs
comme diffrents de la classe vise.
Stratgie de lchantillon le plus ambigu ou Most Ambiguous (MA)
Cette dernire stratgie (galement appele stratgie de lchantillon le plus informatif

ou Most Informative dans la littrature) a pour but de slectionner les chantillons qui ap-
portent le plus dinformations au classifieur (Tong & Chang (2001)). Ainsi, les chantillons
slectionns sont ceux qui sont les plus proches de la surface de dcision dans lespace des
attributs. Cette stratgie a pour avantage de permettre au classifieur daffiner la surface
de dcision. En thorie, cette approche doit permettre de gnraliser rapidement dans le
cas dun classifieur discriminatif.
1
Most Positive
0.9 Most Negative
Most Ambiguous
0.8
0.7
0.6
Score
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
p(Ci/Xk)
Fig. 4.6 Courbes de calcul des scores dutilits pour diffrentes stratgies
Le score dutilit u(k) est obtenu partir de la probabilit a postriori en utilisant

la courbe correspondante de la figure 4.6. On peut interprter facilement ces courbes.
81
Dans le cas de la stratgie MP, les chantillons dont la probabilit est infrieure 0.5
nappartiennent probablement pas la classe en question et auront donc un score nul.
Par contre, les chantillons ayant une probabilit forte dappartenance la classe auront
un score fort comme on peut le voir sur la courbe. Dans le cas de la stratgie MA, les
chantillons les plus ambigus sont ceux ayant une probabilit incertaine situe autour de
la valeur 0.5. Donc, la courbe correspondante admet un score dutilit maximum pour
cette valeur de probabilit et des scores nuls pour les valeurs de probabilits certaines
(cest--dire 0 ou 1).
Nous avons ralis une exprience prliminaire sur les pices synthtiques du corpus
polyphonique afin de comparer les diffrentes stratgies dchantillonnage : chantillon le
plus ambigu (MA), le plus positif (MP), le plus ngatif (MN). Dans cette exprience, nous
simulons les interactions avec lutilisateur pendant la phase de classification. Le corpus
synthtique utilis pour cette exprience est polyphonique (corpus P) et nous utilisons la
segmentation parfaite obtenue lors de la gnration. Ainsi, nous valuons la f-mesure
chaque itration de lalgorithme pour 100 pices synthtiques de difficult intermdiaire
(3 sources sonores peuvent apparaitre simultanment au maximum). La simulation boucle
jusqu ce que le score maximum soit atteint (f mesure = 1). Nous calculons le score de
f-mesure Fi pour la classe Ci en utilisant les prdictions au niveau de chaque segment :
2Ri Pi
Fi = (4.8)
Ri + Pi
o Ri et Pi sont les mesures de rappel et de prcision de la classe i.

Fig. 4.7 f mesure en fonction du nombre ditrations pour 3 stratgies dchantillon-

nage
La figure 4.7 prsente une vue globale de la moyenne de f-mesure pour toutes les
itrations de lexprience. La figure 4.8 montre les performances dtailles des 3 stratgies
dchantillonnage sur les premires itrations. Dans cette dernire figure, la marque centrale
des boites en fil de fer correspond la mdiane, les bords des boites sont les 25eme et 75eme
centiles, les fils de fer stendent jusquaux minimas et maximas des donnes. Les deux
figures nous permettent de voir que la stratgie MA est la plus performante suivie de la
stratgie MP et de MN. La stratgie MA permet dobtenir un score de f-mesure de 0.95
en 12 itrations en moyenne comme le montre la figure 4.7. Les deux autres stratgies,
Fig. 4.8 Comparaison de performances dtailles pour les premires itrations
respectivement MP et MN permettent dobtenir les mmes rsultats en 19 et 41 itrations.

Lefficacit de la stratgie MA avec les classifieurs SVM est un rsultat attendu compte
tenu du fait que cette stratgie tend prciser la surface de dcision en slectionnant les
chantillons ambigus. Cette exprience nous a permis de vrifier ce rsultat sur nos donnes.
4.6.2 Approche par passage unique (PU)

4.6.2.1 Concept
Dans cette deuxime approche, le scnario dinteraction diffrents : nous considrons

que lutilisateur est capable de donner une information polyphonique sur les segments
dcoute slectionns par le systme. En effet, il est difficile de suivre plusieurs sons la
fois sur toute la dure dune pice mais dans notre cas le systme assiste lutilisateur en
lui proposant des segments de mixtures couter. Or, un musicologue a loreille entraine
et il sera capable de dire au systme quelles sont les classes dintrt entendues dans un
segment de mixture. Partant de cette hypothse, nous proposons un deuxime scnario
dinteraction par passage unique. La dnomination de cette approche vient du fait quune
seule boucle est effectue pour toutes les classes. Dans cette approche, plusieurs classifieurs
sont utiliss puis leurs sorties sont combines afin de proposer des prdictions dtiquettes
pour le problme multilabel. Le retour utilisateur, plus informatif que dans lapproche par
passages multiples, peut tre rsum par la question suivante : le segment propos contient-
il les classes suivantes ?. Le systme propose lutilisateur une prdiction multilabel pour
le segment en question et il doit corriger ou valider les diffrentes tiquettes. La boucle
dinteraction par passage unique est dcrite dans lalgorithme 3.
Ce dernier algorithme est proche de lalgorithme 2 que nous avons dj prsent. Ce-
pendant certaines fonctions diffrent quelque peu :
train(L, C) : fonction dentrainement qui retourne lensemble des modles appris pour
lensemble des classes C avec un ensemble dchantillons tiquets L.
E(, M) : fonction dchantillonnage qui retourne le degr dutilit dun segment
S U tant donn lensemble des modles M .
83
label(S0 ) : fonction qui retourne lensemble des tiquettes dun segment S0 .

correction_pu() : fonction qui demande lutilisateur de valider la prdiction des
diffrentes tiquettes.
Algorithme 3 Boucle dinteraction par passage unique
1 Variable
2 M:ensemble de modles
3 L,U :ensemble de segments de mixtures
4 C :ensemble de classes
5 S0 :segment de mixtures
6 :entier
7 Dbut
8 Rpter
9 M train(L, C)
10 S0 = arg max U E(, M)
11 label(S0 ) correction_pu(S0 )
12 U U \ S0
13 L L S0
14 TantQue lutilisateur nest pas satisfait
15 Fin
4.6.2.2 Stratgies dchantillonnage

Cette section, prsente des stratgies dchantillonnage adaptes lapproche par pas-
sage unique qui expose un problme diffrent puisquelle se situe dans un contexte dap-
prentissage multiclasse loppos de lapproche prcdente qui tait bi-classe. En effet, les
critres dchantillonnage prsents prcdemment se basent sur les surfaces de dcision
des SVM qui sparent les chantillons en deux catgories mais dans lapproche par passage
unique nous utilisons les rsultats de plusieurs classifieurs indpendants qui sont combi-
ns. Par consquent, nous ne disposons pas de surfaces de dcisions qui partitionnent les
chantillons en Q classes. Cependant, lestimation de probabilits a postriori pour chacun
des classifieurs permet dutiliser de nouveaux critres.
Entropie
Lentropie est utilise pour mesurer lincertitude dune variable alatoire. Cette infor-
mation peut tre trs utile dans notre cas car elle permet de prsenter lutilisateur un
segment dont la classification est incertaine (Settles (2010)). Le calcul de lentropie se fait
partir des estimations de probabilits a postriori pi des Q classes :
Q
!
H= pi log pi (4.9)
i=1
Les valeurs dentropie les plus grandes impliquent plus dincertitude sur la distribution.
Par consquent, si un chantillon a une distribution de probabilit avec une forte entropie
cela signifie que le classifieur nest pas certain de lappartenance aux classes. Linconvnient
de ce critre est quil est fortement influenc par les valeurs des classes peu importantes
(celles ayant des probabilits faibles). Ainsi, un chantillon ayant des probabilits trs
proches pour deux classes diffrentes pourra se retrouver avec une entropie relativement
faible alors que lincertitude sur son appartenance aux diffrentes classes est grande.
Best Versus Second Best
Ce deuxime critre propos par Joshi et al. (2009) tente de rsoudre les problmes
du critre dentropie. Dans ce critre, la mesure dincertitude est calcule par la diffrence
des probabilits des deux classes ayant les valeurs de probabilits les plus grandes. Cette
approche est une mesure plus directe de lincertitude dappartenance des classes. Le
calcul de ce critre est fait partir dune fonction D qui utilise max 1(p) et max 2(p),
respectivement la premire et deuxime plus grande probabilit de p :
D(p) = max 1(p) max 2(p) (4.10)
Ainsi les petites valeurs de D seront les plus incertaines. Pour rester conforme lqua-
tion 4.9 nous souhaitons que les valeurs grandes soient les plus incertaines donc dans la
pratique, on obtient le critre Best Versus Second Best (BVSB) de la manire suivante :
BV SB(p) = 1 D(p) (4.11)
Nous utilisons ce critre qui a dj fait ses preuves dans le domaine de la classification
dimages (voir Joshi et al. (2009)) et se rvle plus efficace que lentropie en pratique.
4.6.2.3 Gestion de classifieurs
Nous proposons de comparer deux mthodes de classification diffrentes dans lapproche

par passage unique. Les deux mthodes impliquent une gestion des classifieurs diffrente
mais cela reste transparent pour lutilisateur.
Mthode directe
Dans cette premire mthode, la gestion des classifieurs est une version multiclasse de
celle par passages multiples. La diffrence principale est que pour les Q classes considres,
chaque itration, Q classifieurs sont considrs (soit un par classe). Ainsi, les chantillons
positifs dune classe Cq sont ceux qui contiennent cette classe et les ngatifs ceux qui ne
la contiennent pas. La dcision dappartenance dun segment de mixture S la classe Cq
est donne par la rgle de combinaison que nous avons prsente (quation 4.5). On peut
considrer que cette mthode est une stratgie de classification de type Binary Relevance
tel que nous lavons dcrit dans ltat de lart (section 4.2.3).
85
Mthode par classifieurs de mixtures

Cette mthode diffre de la prcdente car elle repose sur des classes de mixtures. Une
classe de mixture est une classe potentiellement compose de la superposition de plusieurs
sons. Ainsi, lensemble des classes de mixtures Cm est compos de lensemble des parties
de lensemble des classes C. Pour un cas simple trois classes (Q = 3) nous avons donc les
numrations suivantes :
C = {a, b, c}
Cm = {, a, b, c, {a, b}, {a, c}, {b, c}, {a, b, c}}

Pour un problme Q classes, on dnombre |Cm | = 2Q classes de mixtures potentielles.
Dun point de vue sonore, la classe de mixture Cac comprend les segments qui font en-
tendre les sons a et c en mme temps. Cependant, dans la musique lectroacoustique, il
est relativement rare dentendre dans une mme pice toutes les superpositions possibles
de sons. Par consquent, dans cette mthode, nous proposons dintroduire dynamique-
ment les classifieurs de mixtures en fonction du retour utilisateur. De ce point de vue, la
mthode propose se rapproche des stratgies de classification multilabel de type Label
Powerset (voir tat de lart en section 4.2.3), cependant notre approche ne considre que
les mixtures directement exprimes par lutilisateur. Par exemple, dans ltape dannota-
tion manuelle du segment slectionn par apprentissage actif, si lutilisateur exprime que
le segment appartient la fois aux classes a et b, une nouvelle classe de mixture Cab est
cre et le classifieur correspondant est entrain avec ce segment. Lalgorithme commence
avec un classifieur pour chaque classe puis le nombre de classifieurs M augmente au cours
des itrations (Q M 2Q ). Lappartenance dun segment S la j ime classe de mixture
Cj parmi les M classes de mixtures exprimes est prdite de faon similaire la mthode
directe :
h,j = arg max (log (P (Cj |Xk , ..., Xk +L 1 )), log (P (Cj |Xk , ..., Xk +L 1 ))) (4.12)
Cj ,Cj
4.7 Evaluation
4.7.1 Simulation utilisateur
Pour raliser lvaluation, nous avons simul les interactions de lutilisateur avec le
systme au cours des diffrentes tapes. Dans cette section nous prsentons la simulation
de cette suite dinteractions ainsi que les valuations ralises sur le corpus P que nous
avons dcrit prcdemment (section 2.5.3).
4.7.1.1 Segmentation
La segmentation a t prsente dans le chapitre 3. Nous rappelons quelle est utilise
pour trouver les frontires qui sparent les segments de mixtures dans le signal. De plus, la
segmentation permet de regrouper les mixtures proches entre elles timbralement afin que
lutilisateur puisse les comparer. Dans le chapitre 3, nous tirons comme conclusion que le
meilleur scnario utiliser parmi les deux compars est celui qui permet lutilisateur de
couper les segments. Nous avons vu que la mthode de clustering hirarchique offrait des
possibilits dinteraction intressantes pour adapter la segmentation au signal considr
mais il est galement important que lensemble du systme soit intuitif pour un utilisateur
qui na dans la plupart des cas pas de connaissances sur son fonctionnement interne. Par
consquent, nous dcidons de garder un mode dinteraction simple lors de linitialisation
afin de rendre le systme plus facile dutilisation et de bien distinguer les tapes de seg-
mentation et de classification. Le moyen dinteraction choisi est lutilisation dun slider
qui permet dobtenir une segmentation plus ou moins dense en fonction de sa position. La
position dorigine du slider correspond au niveau le plus haut du dendrogramme savoir
la racine (pas de segmentation) et la position la plus haute du slider correspond au niveau
des feuilles dans le dendrogramme (segmentation maximale). Ainsi, chaque incrment du
slider, on descend dun niveau dans la hirarchie du dendrogramme (cela correspond une
coupe globale). Cette approche permet lutilisateur dobtenir un compromis sans grand
effort puisque linteraction est simple et il sera dautant plus disponible pour la phase de
classification pendant laquelle il est activement sollicit.
Lutilisateur a la capacit de trouver le bon positionnement du slider en ralisant un
compromis entre le rappel et la prcision. Pour arriver ce rsultat, lutilisateur regarde
les frontires positionnes sur le signal et en coute les segments rsultants. Pour simuler
le positionnement du slider par lutilisateur, nous valuons la f-mesure pour chacune des
valeurs possibles de ce dernier. Or, la position optimale du slider correspond au score de
f-mesure le plus lev qui reprsente le meilleur compromis entre le rappel et la prcision.
Nous garderons cette valeur optimale pour raliser la simulation du choix des segments
reprsentatifs.
4.7.1.2 Choix des segments les plus reprsentatifs

Comme nous lavons vu dans la section 4.3, lutilisateur a pour consigne de choisir
les segments les plus reprsentatifs comme classes de dpart pour amorcer lapprentissage
actif. Pour la slection dun segment dinitialisation dune classe Ci , on souhaite choisir
celui dans lequel linstance de Ci est la plus dominante du point de vue du volume sonore
en tenant compte des autres classes prsentes. Ainsi, pour chaque segment de mixture S ,
nous calculons des rapports dnergies r (i) entre les diffrentes sources sonores prsentes
dans le segment :
!
r (i) = E (i)/ E (l), (4.13)
l%=i
avec
"
#
# 1 k +L
! 1
E (i) = $ x2i (k) (4.14)
L
k=k
et xi est le signal de la classe Ci . Pour la classe Ci , le segment de mixture Ti qui

maximise le rapport r (i) est utilis comme initialisation :
Ti = arg max r (i) (4.15)

4.7.1.3 Classification des objets sonores

Une fois la slection des segments reprsentatifs de chaque classe effectue, nous cher-
chons simuler la phase de classification. Le chapitre prcdent illustre les diffrentes
87
tapes de classification avec la figure 4.5. La seule simulation intervenant dans ce proces-
sus semi-automatique est la correction des prdictions ainsi que les dcisions darrt de
la boucle. La correction des prdictions est simule facilement du fait que nous disposons
de la vrit terrain construite pendant la gnration des pices synthtiques. Pour simuler
les dcisions darrt, on considre que lutilisateur interrompt le processus interactif lors-
quil est satisfait ce qui se traduit par le dpassement dun certain seuil de f-mesure. Par
consquent, la boucle dinteraction se termine lorsque chaque classe a atteint le seuil de
satisfaction F m0 . Dans les expriences, nous considrons que la prdiction est acceptable
lorsque la valeur seuil F m0 = 0.85 est atteinte. Nous avons galement simul la fonction
logicielle standard annuler : si le seuil de satisfaction F m0 est atteint pour une classe
donne, les rsultats ne doivent pas dcrotre dans les itrations suivantes. Par consquent
nous supposons que lutilisateur utilisera la fonction annuler si les rsultats dcroissent et
la classe correspondante sera verrouille afin de conserver les prdictions prcdentes afin
de les rutiliser litration suivante sans mise jour. De plus, lors de la slection dun
segment par apprentissage actif, nous filtrons les segments de longueurs infrieures 0.5 s
car ils pourraient tre mal jugs lors de la demande de retour utilisateur tant donn les
limites de la perception humaine.
Ainsi, nous calculons la f-mesure pendant toutes les itrations de lalgorithme complet
du systme pour les 500 signaux synthtiques.
4.7.2 Rsultats
4.7.2.1 Performances
Approche par passages multiples
Pour cette premire approche, nous avons conserv la stratgie dchantillonnage du
plus ambigu pour raliser lvaluation. Ce choix a t motiv dans la section 4.6.1.2. La
figure 4.9 prsente la f-mesure moyenne obtenue pour 20 itrations de lalgorithme sur des
classes individuelles pour les 5 niveaux de polyphonie.
Fig. 4.9 Score de f-mesure pour lannotation dune classe en fonction du nombre dit-
rations pour une approche par passages multiples sur les 5 niveaux de polyphonie
Compte tenu de la nature de lalgorithme, les rsultas sont donns pour la prdiction
dune classe unique. La figure 4.9 montre que les rsultats dcroissent en fonction de la
difficult polyphonique (cest un rsultat attendu compte tenu de la complexit croissante).
Nous observons que de bons rsultats sont obtenus aprs 10 itrations de lalgorithme pour
un niveau de polyphonie acceptable : on obtient une f-mesure moyenne de 0.87 pour une
complexit polyphonique de degr 4. Il est important de noter que compte tenu de la nature
de lapproche qui permet lutilisateur de se concentrer sur une classe la fois, le nombre
ditrations doit tre multipli par le nombre de classes vises prsentes dans la pice.
Approches par passage unique

Pour cette deuxime approche interactive, nous limitons le nombre ditrations 30
pour les valuations car nous souhaitons obtenir des rsultats acceptables en un nombre rai-
sonnable dinteractions. La figure 4.10 compare la mthode de classification directe (PU1)
la mthode par classifieurs de mixtures (PU2) pour des complexits polyphoniques de 2
(figure de gauche) et de 4 (figure de droite).
Fig. 4.10 Score de f-mesure pour lannotation dune pice complte en fonction du nombre
ditrations pour les deux mthodes par passage unique (la figure de gauche prsente les
rsultats pour un degr de polyphonie de 2 et celle de droite pour un degr de polyphonie
de 4).
Les rsultats montrent que la mthode qui introduit des classifieurs de mixtures dyna-
miquement en fonction du retour utilisateur (PU2) permet dobtenir un gain faible mais
consistant sur lensemble des niveaux de polyphonie. Ces deux mthodes considrent en
mme temps toutes les classes dintrt et nous observons quelles permettent de rduire
le nombre ditrations en comparaison de lapproche par passages multiples dans laquelle
lutilisateur doit rpter le processus de classification autant de fois quil y a de classes.
On remarque que lon atteint une f-mesure mdiane acceptable (elle dpasse le seuil de
satisfaction de 0.85) en moins de 5 itrations pour une complexit polyphonique de 2. Pour
obtenir une f-mesure mdiane similaire avec un degr de complexit polyphonique de 4, il
faudra raliser 25 itrations.
4.7.2.2 Complexit des mthodes

Dans cette section nous vrifions que les approches proposes sont utilisables dans le
cadre dune application interactive. Une contrainte fonctionnelle que nous avions cite dans
la section 2.5.2.1 est de proposer des approches ractives. Autrement dit, il ne faut pas que
89
lutilisateur attende trop longtemps entre chaque itration de lalgorithme principal. Les
interactions pendant la phase de segmentation sont quasiment instantanes sur une machine
standard compte tenu de lefficacit de la structure hirarchique. Nous nous intresserons
donc la phase de classification des objets sonores qui est la plus complexe.
Dans cette phase, nous nous intressons au temps dattente de lutilisateur entre chaque
itration de lalgorithme. Ce temps dattente dpend principalement de lalgorithme de
classification bas sur les SVMs car le reste de lalgorithme est constitu doprations n-
gligeables. La complexit de lalgorithme SVM dpend grandement de limplmentation
utilise. Nous avons utilis celle de Chang & Lin (2011) pour ce travail qui est une librairie
efficace, crite en C. Au sujet de la complexit de cet algorithme, Chang & Lin (2011)
prcise que de nombreux travaux ont tudi la complexit des mthodes SVM (voir List
& Simon (2005)) mais que ces travaux sont consacrs des mthodes diffrentes. De plus,
il ny a actuellement pas de rsultats thoriques sur le nombre ditrations de la mthode
utilise mais Chang & Lin (2011) affirme quempiriquement il est reconnu que la complexit
de cet algorithme est polynomiale.
La figure 4.11 mesure le temps dattente total impos par le systme pour lannotation
dun fichier avec la mthode PM pour diffrents niveaux de polyphonie.
80
70
60
Temps (secondes)
50
40
30
20
10
0
1 2 3 4 5
Polyphonie
Fig. 4.11 Temps dattente total pour lannotation dun fichier avec la mthode PM en
fonction du niveau de polyphonie
On peut interprter facilement cette figure en considrant que le temps mesur corres-
pond au temps dannotation totale dune pice sans compter le temps de rflexion et les
interactions de lutilisateur. On constate que cette mthode est tout fait utilisable : on
observe des mdianes 4 secondes pour les pices monophoniques, 14 secondes pour un
degr polyphonique intermdiaire de 3 et 20 secondes pour un degr polyphonique de 5.
Cependant, comme nous lavons voqu dans la section prcdente, le nombre dinterac-
tions utilisateur demand par le systme est plus important que dans les autres mthodes.
Pour le temps dexcution dune itration, dans le cas des pices de degr polyphonique de
5, on mesure un temps minimum de 0,07 secondes et un temps maximum de 0,8 secondes.
La mthode PU2 (figure 4.12) expose des temps qui peuvent tre considrs comme
acceptables compte tenu du fait que toutes les classes sont gres en mme temps : on
observe des mdianes 18, 42 et 44 secondes pour des polyphonies respectives de 1, 3 et
5. Cette efficacit sexplique par le fait qu chaque itration, on introduit les nouveaux
chantillons dans un unique classifieur (dans cette mthode nous avons un classifieur pour
140
120
100
Temps (secondes)
80
60
40
20
0
1 2 3 4 5
Polyphonie
Fig. 4.12 Temps dattente total pour lannotation dun fichier avec la mthode PU2 en
fonction du niveau de polyphonie
chaque mixture et un segment ne peut tre affect qu une unique mixture). Par cons-
quent, chaque itration ne ncessite de lancer quune unique tche de classification. Cette
mthode a tendance faire augmenter le nombre de classifieurs mais chaque classifieur a
peu dchantillons : cela permet de garder des temps de calculs acceptables pour lunique
tche de classification lance chaque itration. Le temps dexcution dune itration, dans
le cas des pices les plus complexes, est compris entre 0,53 et 5,12 secondes.
On peut prciser que la mthode PU1 est la moins exploitable dans le contexte dune
application interactive. En effet, pour un segment de mixture contenant n classes, ses
chantillons seront introduits dans les classifieurs des n classes correspondantes. Cette
mthode nest pas efficace car elle a tendance augmenter la quantit dchantillons dans
chaque classifieur et elle impose souvent deffectuer plusieurs tches de classification
chaque itration.
4.7.2.3 Analyse des descripteurs slectionns

Comme nous lavons vu dans la section 4.5.2, la slection dattributs est ralise dans la
boucle dinteraction, pour chaque itration. Cette section expose les rsultats de slection
des descripteurs ainsi que les variations de cette slection.
La figure 4.13 prsente un classement des 20 descripteurs les plus slectionns pour
les deux approches dinteraction. On peut remarquer que les descripteurs slectionns par
les deux mthodes varient quelque peu : les coefficients de loudness, MFCC et moments
spectraux sont plus prsents dans lapproche PM alors que lapproche PU slectionne un
bon nombre de coefficients OBSI dont le rle est de capturer de faon sommaire la distri-
bution de puissance des diffrentes harmoniques du son (Essid (2005)). Etant donn que
lapproche PU cre des classifieurs de mixtures, et que les sons utiliss pour les pices syn-
thtiques sont en bonne partie des sons harmoniques, on peut effectivement sattendre ce
que les diffrentes mixtures aient des distributions harmoniques relativement diffrentes.
La slection automatique de coefficients OBSI pour distinguer les mixtures sonores semble
donc pertinente. De faon gnrale certains descripteurs tels que les coefficients de loudness
sont bien reprsents dans les deux approches. On peut remarquer que parmi les 20 des-
cripteurs les plus slectionns prsents, 12 sont en commun entre les deux approches : le
coefficient MFCC :1 (qui est proche de lnergie du signal), des coefficients de loudness, des
91
Descripteur :attribut Descripteur :attribut

Loudness :1 MFCC :1
MFCC :1 Acuit perceptive :1
Loudness :2 Loudness :1
OBSI :2 Asymtrie spectrale
Largeur spectrale OBSIR :4
OBSIR :2 OBSI :2
OBSI :1 Loudness :2
Platitude spectrale LSF :1
MFCC :3 OBSI :3
OBSIR :4 OBSI :4
OBSI :3 OBSI :1
Etalement perceptif :1 Etalement perceptif :1
Asymtrie spectrale OBSI :8
Loudness :19 Largeur spectrale
Loudness :4 OBSI :5
Acuit perceptive :1 Platitude spectrale
Frquence de coupure :1 OBSI :9
Pente spectrale :1 Taux de passage par zro :1
MFCC :2 OBSIR :2
Fig. 4.13 Classement des 20 descripteurs les plus slectionns pour lapproche PM (
gauche) et PU ( droite). Chaque descripteur est prsent dans le format Nom du descrip-
teur : Numro de lattribut.
descripteurs perceptifs, des coefficients OBSI/OBSIR. Parmi ces 12 attributs en commun,

la diffrence principale entre les deux mthodes est le rang dans le classement qui diffre
dune mthode lautre.
Les figures 4.14 et 4.15 prsentent la variation des descripteurs slectionns pour dif-
frentes itrations de lalgorithme. On remarque une tendance commune entre les deux
approches : les attributs slectionns partir de litration 10 varient trs peu. En effet,
pour lapproche PM, entre les itrations 10 et 30, seul un attribut diffre (le coefficient
Loudness :3 est remplac par MFCC :3) dans la slection (les attributs communs ont ce-
pendant des rangs diffrents). On remarque galement pour lapproche PU que seulement 2
attributs diffrent entre les itrations 10 et 30. Ce rsultat est intressant car il nous permet
de dduire que la slection utile se fait pendant les premires itrations de lalgorithme.
Les figures 4.16 et 4.17 prsentent la variation des descripteurs slectionns pour les
diffrents niveaux de polyphonie. On remarque que les attributs slectionns varient de
manire importante entre les diffrents niveaux de polyphonie. En effet, dans les deux
approches, il ny a que 4 attributs en commun sur 10 pour des niveaux de polyphonie ex-
trmes. Cette observation met en valeur limportance de choisir des descripteurs spcifiques
lors dun problme de classification polyphonique.
Itration 1 Itration 10 Itration 20 Itration 30

OBSIR :4 Loudness :1 Loudness :1 Loudness :1
Loudness :1 MFCC :1 MFCC :1 MFCC :1
MFCC :1 Loudness :2 Loudness :2 Loudness :2
Asymtrie spectrale OBSI :2 OBSI :2 OBSI :2
Loudness :2 OBSIR :4 Largeur spectrale Largeur spectrale
OBSI :2 Largeur spectrale OBSIR :2 OBSIR :2
Acuit perceptive :1 Loudness :3 OBSI :1 OBSI :1
OBSIR :2 Platitude spectrale :1 OBSIR :4 Platitude spectrale :1
Etalement perceptif :1 OBSI :1 Platitude spectrale :1 MFCC :3
Loudness :3 OBSIR :2 Loudness :3 OBSIR :4
Fig. 4.14 Variation des descripteurs slectionns pour lapproche PM pour les itrations
1, 10, 20 et 30. Chaque descripteur est prsent dans le format Nom du descripteur :
Numro de lattribut.
Itration 1 Itration 10 Itration 20 Itration 30

OBSIR :4 MFCC :1 MFCC :1 MFCC :1
Loudness :1 Loudness :1 Acuit perceptive :1 Acuit perceptive :1
MFCC :1 OBSIR :4 Loudness :1 Loudness :1
Asymtrie spectrale Asymtrie spectrale Asymtrie spectrale Asymtrie spectrale
Loudness :2 Acuit perceptive :1 OBSIR :4 OBSIR :4
Acuit perceptive :1 Loudness :2 Loudness :2 OBSI :2
OBSI :2 LSF :1 OBSI :2 Loudness :2
OBSIR :2 OBSI :2 LSF :1 LSF :1
Etalement perceptif :1 Loudness :3 OBSI :3 OBSI :3
LSF :1 Etalement perceptif :1 Loudness :3 OBSI :4
Fig. 4.15 Variation des descripteurs slectionns pour lapproche PU pour les itrations 1,
10, 20 et 30. Chaque descripteur est prsent dans le format Nom du descripteur : Numro
de lattribut.
4.8 Conclusion
Dans ce chapitre, nous avons prsent une solution adapte au problme de classifica-
tion des objets sonores. La mthode propose permet dobtenir un multilabel pour chacun
des segments de mixtures. Ainsi, on peut connaitre lappartenance relative dun segment
chacune des classes. Lapproche propose est interactive et sadapte aux choix de lutilisa-
teur. De plus, nous avons compar deux approches diffrentes dinteraction. Il est important
de noter que la premire approche, par passages multiples, a pour avantage de demander
un retour simple lutilisateur. La deuxime approche, par passage unique, demande un
effort plus important lutilisateur qui doit corriger les prdictions pour toutes les classes
vises dans les segments slectionns par le systme ce qui peut constituer un facteur de
fatigue.
Une valuation par simulation utilisateur nous a permis de comparer les deux approches
dinteraction. Lvaluation montre que lapproche par passages multiples est plus adapte
un petit nombre de classes : si le nombre de classes annoter est important, des rsul-
tats satisfaisants peuvent tre obtenus en un nombre ditrations infrieur avec la mthode
93
Polyphonie 1 Polyphonie 2 Polyphonie 3

MFCC :1 MFCC :1 Loudness :1
Loudness :2 Loudness :1 Loudness :19
Loudness :1 Etalement perceptif :1 MFCC :1
Loudness :3 Loudness :19 Largeur spectrale
Asymtrie spectrale OBSIR :4 Loudness :2
Etalement perceptif :1 Loudness :2 OBSIR :2
Largeur spectrale Acuit perceptive :1 OBSIR :4
OBSIR :4 Loudness :3 Etalement perceptif :1
LSF :4 OBSI :2 Platitude spectrale :1
Platitude spectrale :1 MFCC :2 Frquence de coupure :1
Polyphonie 4 Polyphonie 5
Loudness :1 OBSI :2
OBSIR :2 Loudness :1
OBSI :2 OBSIR :2
Largeur spectrale Largeur spectrale
Etalement perceptif :1 OBSI :1
MFCC :3 MFCC :1
Asymtrie spectrale MFCC :3
OBSI :3 Loudness :4
Loudness :4 OBSI :3
Fig. 4.16 Variation des descripteurs slectionns pour lapproche PM pour les diffrents
niveaux de polyphonie. Chaque descripteur est prsent dans le format Nom du descrip-
par classifieurs de mixtures qui est lapproche par passage unique la plus efficace. Nous
avons galement montr que les approches PM et PU2 sont tout fait exploitables dans le
contexte dune application interactive car les temps de calculs mesurs pour ces mthodes
sont acceptables. Nous avons galement ralis une tude des descripteurs slectionns
dans la boucle dinteraction. Cette tude met en vidence le fait que les descripteurs slec-
tionns varient en fonction du niveau de difficult polyphonique. De plus, la slection de
descripteurs varie principalement pendant les premires itrations de lalgorithme.
Polyphonie 1 Polyphonie 2 Polyphonie 3

OBSIR :4 MFCC :1 MFCC :1
Loudness :1 OBSIR :4 Acuit perceptive :1
MFCC :1 Loudness :1 OBSIR :4
Loudness :2 Acuit perceptive :1 Asymtrie spectrale
Loudness :3 Loudness :2 Loudness :1
Acuit perceptive :1 Asymtrie spectrale Loudness :2
Asymtrie spectrale OBSI :2 LSF :1
OBSIR :2 LSF :1 Loudness :3
OBSI :2 Loudness :3 OBSI :3
Centrode spectral Etalement perceptif :1 OBSI :2
Polyphonie 4 Polyphonie 5
MFCC :1 MFCC :1
Acuit perceptive :1 OBSI :3
Loudness :1 OBSI :4
Asymtrie spectrale OBSI :2
LSF :1 OBSI :9
OBSI :2 OBSI :8
OBSI :8 Asymtrie spectrale
OBSI :9 Acuit perceptive :1
OBSI :3 OBSI :1
Loudness :2 LSF :1
Fig. 4.17 Variation des descripteurs slectionns pour lapproche PU pour les diffrents
niveaux de polyphonie. Chaque descripteur est prsent dans le format Nom du descrip-
95
Chapitre 5
Conclusion
5.1 Bilan
Dans cette thse, nous avons propos un systme interactif destin aider lanalyse des
musiques lectroacoustiques. Le systme procde dabord par une segmentation interactive
lissue de laquelle lutilisateur pourra slectionner les segments qui contiennent les objets
sonores quil vise pour illustrer le point de vue de son analyse. Ensuite, le systme entre
dans une boucle dinteraction dans laquelle il prsentera des segments lutilisateur pour
quil puisse les valider ou les corriger. Ce processus itratif prend en compte les informations
apportes par lutilisateur afin damliorer la classification des objets sonores.
Nous avons ralis une tude sur les pratiques danalyse des musicologues ce qui nous a
permis de dgager des pistes de travail adaptes aux besoins rels et de comprendre la phi-
losophie gnrale de lanalyse des musiques lectroacoustiques qui se distingue de lanalyse
musicale traditionnelle. Il est galement important de considrer la nature subjective du
point de vue de lanalyse. Il ressort de cette tude que les transcriptions de pices en objets
sonores sont rarement ralises entirement car les musicologues se focalisent principale-
ment sur les objets saillants et sur ceux qui illustrent le point de vue de leur analyse. Parmi
les souhaits des musicologues, nous nous sommes concentrs principalement sur la segmen-
tation et la classification dobjets sonores afin de retrouver leurs diffrentes instances dans
une pice.
La premire phase du systme est une segmentation timbrale interactive qui repose sur
une segmentation temporelle obtenue par dtection de transitoires suivie dun clustering
hirarchique. Nous avons compar deux approches dinteractions qui ont t values par
simulation de lutilisateur laide dun corpus synthtique. Lvaluation a montr quil est
possible damliorer les performances de segmentation en ralisant des coupes locales de
dendrogrammes qui exploitent le retour de pertinence. Cette phase de segmentation nous
permet dobtenir la fois des frontires entre les mixtures sonores ainsi que de regrouper les
segments similaires timbralement. Ainsi, lutilisateur peut choisir un segment de mixture
reprsentatif pour chaque classe sonore quil souhaite tudier.
La deuxime phase du systme propose une approche de classification interactive des
objets sonores que lutilisateur souhaite tudier dans une pice lectroacoustique. A chaque
itration de lalgorithme, un nouveau segment est slectionn automatiquement par appren-
tissage actif et lutilisateur corrige ou valide les prdictions du systme. Nous pouvons ainsi
obtenir un ensemble dtiquettes donnant lappartenance relative aux classes tudies pour
les segments de mixtures dfinis dans ltape de segmentation. Deux approches dinterac-
tions ont t compares en simulant lutilisateur sur un corpus synthtique polyphonie
96 5. Conclusion
variable. La premire approche, dite par passages multiples, a pour avantage de demander
un retour trs simple lutilisateur mais prend plus de temps pour raliser lannotation
dune pice. La deuxime approche, par passage unique, est plus efficace mais demande
lutilisateur plus dattention car le retour de pertinence est plus complexe et la gestion de
verrouillage des classes est galement contrle par lutilisateur. Nous avons galement
propos une mthode de classification de type multilabel, dans une approche Label Po-
werset, oriente mixtures exprimes par lutilisateur et par passage unique qui permet
dobtenir une amlioration consistante des performances sur lensemble des niveaux de
polyphonie valus.
Ces travaux sont une premire pierre ldifice. En effet, le sujet tant relativement
inexplor lorigine, de nombreux problmes abords par les musicologues pourraient tre
explors. De plus, la dmarche propose pourrait encore tre amliore sur certains points.
5.2 Perspectives
Une partie des souhaits qui ont t exprims par les musicologues dans la section 2.4.2 ne
sont pas pris en compte par le systme propos qui constitue une base sur laquelle il serait
possible de greffer des fonctionnalits additionnelles. Couprie et Delhaye souhaiteraient par
exemple pouvoir trouver les grandes priodes dans une pice ce qui pourrait tre ralis
en analysant le reprage des instances dobjets sonores retrouves par notre systme. En
effet, dans certaines pices, les suites dobjets rcurrentes pourraient constituer des motifs
donnant des indices sur la structure. Delhaye parle galement dun systme qui permet
de sparer les diffrentes voix de mixage dune pice. Or, une fois les objets sonores
principaux reprs par notre systme, cette connaissance pourrait informer un algorithme
de sparation de sources pour raliser le dmixage de ces objets (Hennequin et al. (2011)).
On peut galement citer Delalande qui considre comme important le fait de pouvoir
raliser des symboles graphiques la main. Ainsi, une intgration de notre systme une
architecture logicielle ouverte telle que lacousmographe permettrait dobtenir le meilleur
des deux mondes.
Nous avons montr lintrt de la coupe locale du dendrogramme pour une tche de
segmentation pure. Cependant, cette approche introduit un nombre dinteractions suppl-
mentaires non ngligeable. Il pourrait tre intressant de tester une approche qui laisse
lutilisateur la possibilit de modifier manuellement des frontires de segmentation. Ainsi,
si certains segments caractristiques de classes ne sont pas segments correctement, luti-
lisateur pourrait intervenir directement et corriger la segmentation pour la rendre plus
adapte. De plus, nous nous sommes limits au timbre pour la segmentation mais il pour-
rait tre envisageable de considrer dautres aspects (enveloppes temporelles, hauteurs etc.)
en utilisant des descripteurs diffrents. Il serait galement possible dessayer dexploiter lin-
formation dtiquetage donne par le clustering : les segments proches timbralement ont la
mme tiquette. Pour dmarrer lapprentissage dune classe, il serait donc possible dutili-
ser les chantillons des segments de mme tiquette que lobjet sonore vis afin dacclrer
le processus dannotation. Cependant, ces segments ntant pas confirms par lutilisateur,
il ne sont pas aussi fiables que ceux directement slectionns par ce dernier.
Pour la phase de slection dattributs qui est ralise chaque itration de lalgorithme
de classification, la mthode teste dans notre systme est une des plus simples et a pour
intrt principal dtre trs rapide. Cependant, lemploi dune mthode plus volue tout en
restant rapide permettrait sans doute dobtenir de meilleures performances gnrales. De
plus, en ce qui concerne les deux approches dinteraction compares, il serait envisageable de
97
considrer une approche hybride par passage unique et passages multiples afin de minimiser
leffort fourni par lutilisateur.
Un bon nombre de pices lectroacoustiques utilisent des effets de spatialisation tant
donn quelles sont la plupart du temps diffuses sur un orchestre de hauts-parleurs 1 .
Ainsi, la composition de lespace une importance capitale dans ce type de pices. Par
consquent, il serait pertinent denvisager des descripteurs multicanaux qui puissent dcrire
les effets de spatialisation afin de les intgrer dans le systme danalyse.
Certains compositeurs de musiques lectroacoustiques utilisent les diffrents effets et
traitements sonores pour prsenter les instances dun mme objet sonore de faons diff-
rentes. Il pourrait tre intressant de prendre en compte ces traitements et altrations des
diffrentes instances dun mme objet dans la phase de classification.
Le systme a t valu partir dun corpus synthtique ce qui semble tre une tape
indispensable afin dobtenir des rsultats sur une quantit raisonnable de donnes et dob-
server le comportement des mthodes en fonction de la complexit polyphonique. Ce-
pendant, une valuation avec des utilisateurs rels pourrait sans doute mettre en valeur
des amliorations possibles des modes dinteractions du systme. De plus, nous sommes
conscients quon ne peut pas tout simuler et que la confrontation des pices relles serait
un indicateur prcieux pour des amliorations possibles du systme.
1
http ://www.inagrm.com/categories/un-orchestre-de-haut-parleurs
98 5. Conclusion
99
Annexe A
Echantillons sonores utiliss
Cette annexe prsente les diffrents chantillons sonores utiliss lors de la cration des
deux corpus.
A.1 Corpus Monophonique

La figure A.1 prsente les chantillons sonores utiliss pour la phase de slection dat-
tributs et la figure A.2 ceux utiliss pour la phase de test. La catgorie environnemental
correspond aux sons fournis par lINA et la catgorie instrumental aux sons de la base
RWC (Goto et al. (2002)). On peut noter quil y a plus de sons instrumentaux mais lqui-
libre entre les deux types de signaux a t pris en compte lors de la gnration. Il est difficile
de donner la dure des sons car chaque source sonore dispose de multiples instances mais
pour la gnration une unique instance est slectionne arbitrairement puis utilise.
A.2 Corpus Polyphonique

La figure A.3 prsente les diffrents chantillons sonores utiliss pour la cration du cor-
pus polyphonique. Le nom de chaque chantillon correspond aux initiales du compositeur
layant fourni suivi du numro de lchantillon. On remarque que la moiti des chantillons
sont polyphoniques et que leurs dures se situent entre 1 et 48 secondes.
100 A. Echantillons sonores utiliss
Source sonore Catgorie

Applaudissements environnemental
Sonnerie environnemental
Sifflet environnemental
Contrebasse instrumental
Cornet piston instrumental
Bugle instrumental
Piano instrumental
Trombone instrumental
Saxophone tnor instrumental
Tuba instrumental
Alto instrumental
Fig. A.1 Echantillons sonores utiliss pour la cration du corpus monophonique lors de
la phase de slection dattributs.
Source sonore Catgorie

Ambiance urbaine environnemental
Rires environnemental
Sirnes environnemental
Saxophone alto instrumental
Clarinette instrumental
Cor anglais instrumental
Flte instrumental
Cor dharmonie instrumental
Hautbois instrumental
Flte de pan instrumental
Saxophone soprano instrumental
Trompette instrumental
Violoncelle instrumental
Violon instrumental
Fig. A.2 Echantillons sonores utiliss pour la cration du corpus monophonique lors de
la phase de test.
101
Nom Source sonore Polyphonique Dure

AB1 Synthtiseur oui 2s
AB3 Synthtiseur non 4s
AB4 Synthtiseur non 17s
AB5 Instrument lectrique non 3s
AB6 Instrument lectrique non 4s
AB8 Instrument acoustique oui 20s
DL1 Acoustique oui 25s
DL2 Acoustique oui 6s
DL3 Acoustique non 7s
DL5 Cymbales non 15s
DL7 Vocale non 1s
DT1 Instruments acoustique oui 41s
DT2 Acoustique oui 2s
DT3 Synthtiseur oui 11s
DT4 Acoustique oui 31s
DT5 Synthtiseur non 44s
DT6 Synthtiseur non 17s
DT9 Acoustique non 19s
Fig. A.3 Echantillons sonores utiliss pour la cration du corpus polyphonique. Chaque
ligne du tableau correspond un chantillon unique.
102 A. Echantillons sonores utiliss
103
Annexe B
Descripteurs utiliss
B.1 Descripteurs Spectraux

Les moments spectraux (centrode spectral, largeur spectrale, asymtrie spectrale, pla-
titude spectrale) permettent de dcrire diffrentes caractristiques spectrales. Ces descrip-
teurs ont t utiliss avec succs notamment dans Gillet & Richard (2004) pour la trans-
cription de boucles de batterie. On utilise les moments i pour le calcul des 4 moments
spectraux :
&K1 i
k=0 (fk ) ak
i = & K1
, (B.1)
k=0 a k
k
avec ak est lamplitude de la kime composante frquentielle du spectre et fk = N est
la frquence correspondante.
Centrode spectral
Il sagit du barycentre du spectre calcul en considrant le spectre comme une dis-
tribution. Il est souvent utilis pour caractriser la brillance dun spectre en mesurant
lquilibre entre les basses frquences et les hautes frquences :
M1 = 1 (B.2)
Largeur spectrale
Etalement du spectre autour de la valeur moyenne :
'
M2 = 2 21 (B.3)
Asymtrie spectrale
Mesure lasymtrie de la distribution autour de la valeur moyenne (correspond au mo-
ment statistique dordre 3). Une valeur dasymtrie nulle correspond une distribution
symtrique, une valeur ngative indique quil y a plus dnergie dans la partie gauche du
spectre, une valeur positive indique quil y a plus dnergie dans la partie droite du spectre :
104 B. Descripteurs utiliss
231 31 2 + 3
M3 = (B.4)
M23
Platitude spectrale
Mesure la platitude de la distribution autour de la valeur moyenne, elle est calcule
partir du 4me moment statistique :
341 + 61 2 41 3 + 4
M4 = 3 (B.5)
M24
Platitude dAmplitude Spectrale par bandes

Mesure des proportions relatives de bruit et de composantes sinusodales du spectre. Ce
critre est calcul par le rapport des moyennes gomtriques et arithmtiques de lnergie
du spectre dans diffrentes bandes de frquences :
( kbf Ak )1/k
&
P AS(bf ) = 1 & , (B.6)
K kbf Ak
ou Ak est lamplitude de la kime bande de frquences et bf est lensemble des bandes.
Gnralement, on distingue les 4 bandes de frquences suivantes :

de 250 500 Hz
de 500 1000 Hz
de 1000 2000 Hz
de 2000 4000 Hz
Pour un signal bruit, la valeur P AS est proche de 1. Le cas chant, pour un signal
essentiellement compos de sinusodes, la valeur P AS est proche de 0.
Platitude Spectrale Globale

Mesure des proportions relatives de bruit et de composantes sinusodales sur lensemble
du spectre :
&
exp (1/N k log (ak ))
P LASG(bf ) = & . (B.7)
1/N k ak
Facteur de Crte Spectral par Bandes

Un autre descripteur relatif la platitude est le facteur de crte spectral qui se cal-
cule partir du rapport de la valeur damplitude maximale des bandes et de la moyenne
arithmtique de lnergie du spectre. Les bandes de frquences considres ainsi que les
variables sont les mmes que pour le critre P AS.
max Akbf
F CSB(bf ) = 1& (B.8)
K kbf Ak
105
Pente Spectrale
La pente spectrale reprsente le taux de dcroissance spectrale. Il est calcul par r-
gression linaire de lamplitude spectrale : P S(f ) = pente.f + c avec
& & &
1 N k f (k).ak k f (k) k ak
pente = & (B.9)
N k f 2 (k) ( k f (k))2
& &
k ak
Dcroissance Spectrale
Mesure la dcroissance des amplitudes spectrales. Il se calcule de la faon suivante :
1 ! ak a1
DS = & (B.10)
k=2...K ak k1
k=2...K
Variation Spectrale
Facteur de variation du spectre en fonction du temps. Il est calcul partir de la
corrlation croise entre les amplitudes spectrales successives a(t 1) et a(t). Le flux
spectral tend vers 0 quand les contenus spectraux successifs sont similaires, vers 1 quand
ils sont diffrents.
&
ak (t 1).ak (t)
VS =1 & k( (& (B.11)
a (t 1)2 2
k k k ak (t)
Frquence de coupure
Frquence partir de laquelle 95% de lnergie du spectre est contenue :
fc f e/2
! !
2
a (f ) = 0.95 a2 (f ), (B.12)
0 0
avec fc est la frquence de coupure et fe la frquence dchantillonnage.
Flux Spectral
Mesure la variation du spectre entre des trames conscutives conformment Scheirer
& Slaney (1997) :
(ak (t) ak (t 1))2

&
F S = (& k (& (B.13)
2 2
k ak (t 1) k ak (t)
Modulation dAmplitude
Caractrise les phnomnes de trmolo (entre 4 et 8 Hz) ou encore la rugosit dun son
(entre 10 et 40 Hz). Les 4 critres sont dtaills dans Martin (1999), Eronen (2001), Essid
(2005) :
Frquence MA : frquence du pic damplitude maximale.
Amplitude MA : diffrence entre lamplitude maximale et lamplitude moyenne glo-
bale du spectre.
Amplitude MA heuristique : diffrence entre lamplitude maximale et lamplitude

moyenne sur la bande de frquences.
Produit MA : produit de la frquence AM et de lamplitude AM.
LSF (Line Spectral Frequency)

Utiliss pour reprsenter les coefficients de prdiction linaires (LPC pour Linear Pre-
diction Coefficiants). Les LSF sont trs utiliss en codage de la parole car ils sont plus
robustes aux bruits de quantifications que les LPC. On pourra consulter Bckstrm &
Magi (2006) et Schussler (1976) pour plus de dtails.
OBSI (Octave band signal intensity)

Propos par Essid (2005), ce descripteur est destin capturer la structure spectrale des
sons instrumentaux. Un banc de 10 filtres triangulaires dune octave (avec un recouvrement
dune demi-octave) est utilis pour mesurer la log nergie de chaque bande.
OBSIR (Octave Band Signal Intensities Ratios)

Logarithme des rapports des OBSI entre octaves conscutives propos par Essid (2005).
Utilis pour mesurer la diffrence entre des valeurs OBSI de bandes conscutives.
Coefficients de prdiction linaire

Les coefficients de prdiction linaire (ou LPC pour Linear Predictor Coefficients) sont
trs utiliss en codage de la parole. Ils permettent de reprsenter lenveloppe spectrale dun
signal de faon compresse (voir Makhoul (1975)).
B.2 Descripteurs Cepstraux

Le cepstre se dfinit comme la Transforme de Fourier inverse du logarithme du spectre
damplitude. Les descripteurs cepstraux suivants ont t extraits :
MFCC (Mel Frequency Cepstral Coefficients)

Permet de reprsenter lenveloppe spectrale avec peu de coefficients (Rabiner & Juang
(1993)). Le Mel-cepstre est bas sur les bandes de frquences de Mel qui modlisent le
systme auditif humain et les MFCC sont les coefficients du Mel-cepstre. Dans ce travail,
nous utilisons les 13 premiers coefficients ainsi que les drives temporelles de premier et
second ordre (pour la classification dobjets).
Coefficients cepstraux Q constant

Dans ce descripteur, le calcul du cepste est ralis en tenant compte des gammes musi-
cales occidentales tempres (Brown (1991)). Plusieurs rsolutions sont considres : une,
la moiti, un tiers et un quart doctave. Nous utilisons galement les drives temporelles
de premier et second ordre.
107
B.3 Descripteurs Temporels

Taux de passage par zero (ou ZCR pour Zero Crossing Rate)
Calcul le nombre de fois que le signal change de signe Kedem (1986). Les signaux
priodiques ont tendance avoir un ZCR faible. A linverse, les signaux bruits ont tendance
avoir un ZCR fort. Ce descripteur est donc particulirement utile pour distinguer ces deux
types de signaux.
Moments statistiques temporels

Comme pour le spectre, les moments statistiques dordre 1 4 sont calculs sur les
trames du signal. Ainsi, nous obtenons le centrode temporel, la largeur temporelle, lasy-
mtrie temporelle et la platitude temporelle en remplaant les coefficients damplitude
spectrale par le signal.
Coefficients dautocorrlation
Les coefficients dautocorrlation reprsentent la distribution spectrale dans le domaine
temporel. Ce descripteur a dj t utilis avec succs dans Brown (1998) pour la classi-
fication automatique dinstruments de musique et peut tre calcul de la faon suivante
pour un signal x :
N k1
1 !
AC(k) = xn xn+k (B.14)
x20 n=0
Energie
Nous utilisons galement un descripteur dnergie calcul partir de la moyenne qua-
dratique des trames du signal :
"
#
#1 !N
E= $ x2n (B.15)
N
n=1
Enveloppe damplitude
Lenveloppe damplitude est obtenue par une approche sinspirant de celle de Bertho-
mier (1983). Un signal danalyse y est dabord calcul sur des fentres longues :
y(n) = x(n) + i(n), (B.16)
o (n) est la transforme de Hilbert du signal x(n). Lenveloppe damplitude est par
la suite obtenue par :
EA(n) = |y(n)| h(n), (B.17)
avec h(n) est une demi-fentre de Hanning de 50ms qui permet de raliser un filtrage
passe-bas.
Moments de lenveloppe temporelle

Les moments statistiques dordre 1 4 sont calculs partir de lenveloppe damplitude
de la mme manire que pour les moments spectraux et temporels.
B.4 Descripteurs Perceptifs

Loudness spcifique
La loudness correspond la mesure de lintensit perceptive tel quelle est dcrite
dans Moore et al. (1997). Nous calculons dabbord la loudness spcifique qui utilise les
bandes de frquences de lchelle de Bark (Zwicker (1977)) :
L(bf ) = E(bf )0.23 , (B.18)

avec E(bf ) est lnergie du signal sur la bande de frquence bf .
Les coefficients utiliss pour la description sont ceux de la loudness spcifique relative
Lr dfinie comme le rapport de la loudness spcifique sur la loudness totale LT :
L(bf )
Lr (bf ) = , (B.19)
LT
avec LT = kbf L(k). La normalisation par LT permet dtre indpendant des condi-
&
tions denregistrement qui peuvent varier de manire importante. De plus, nous utilisons
galement les drives temporelles de premier et de second ordre.
Acuit perceptive
Lacuit perceptive est la version perceptive du centrode spectral. Ce descripteur,
introduit par Peeters (2004), est calcul partir de la loudness spcifique L :
&
bf bf.g(bf ).L(bf )
AP = 0.11 , (B.20)
LT
avec g(bf ) dfinie comme il suit :
)
1 si bf < 15
g(bf ) = (B.21)
0.066 exp (0.171bf ) si bf 15
Etalement perceptif
Mesure lcart entre la loudness spcifique maximale et la loudness totale. Ce descrip-
teur est propos par Peeters (2004) et sobtient comme il suit :
+2
LT maxbf L(bf )
*
EP = (B.22)
LT
109
Annexe C
Apprentissage supervis
Dans cette annexe, nous prsentons une introduction lapprentissage supervis sta-
tique qui constitue un des fondements des mthodes utilises dans nos travaux.
C.1 Principes
Lapprentissage supervis est une forme dapprentissage automatique qui permet,
partir dchantillons tiquets par un expert, de prdire les tiquettes de classes de nou-
veaux chantillons. Dans notre cas, linformation de segmentation et de regroupement des
segments apporte par linitialisation est exploite par lutilisateur expert qui slectionne
les segments caractristiques des classes quil vise (section 4.3). Cette action de slection-
ner des segments distincts pour chaque classe, constitue ltiquetage expert qui permet
dappliquer les mthodes dapprentissage supervis. Dans notre problme, nous avons Q
classes {Cq }1qQ et nous disposons dchantillons (en petit nombre) pour chaque classe.
En apprentissage, on oppose souvent les mthodes gnratives aux mthodes discrimina-
tives.
Dans les mthodes gnratives, on cherche estimer une densit de probabilit a post-
riori P (Cq |x) en utilisant les chantillons connus. On peut obtenir la densit de probabilit
conditionnelle p(x|Cq ) dcrivant la distribution des chantillons x de la classe Cq ainsi que
la probabilit a priori P (Cq ) de chaque classe en utilisant les chantillons connus. On dduit
lappartenance dun chantillon x une classe Cq0 par la rgle de dcision bayesienne :
q0 = arg max P (Cq |x) (C.1)

1qQ
Le principe du maximum a postriori qui rgit cette dcision garantit une erreur mini-
male. En appliquant la formule de Bayes :
P (Cq )p(x|Cq )
P (Cq |x) = arg max , (C.2)
1qQ p(x)
on peut exprimer q0 en fonction de la densit de probabilit conditionnelle :
q0 = arg max P (Cq )p(x|Cq ). (C.3)

1qQ
Dans la majorit des cas, lhypothse dquiprobabilit des classes Cq est retenue et
permet de simplifier lquation :
110 C. Apprentissage supervis
q0 = arg max p(x|Cq ) (C.4)

1qQ
Dans la section suivante, nous prsentons les Machines Vecteurs Supports qui sont
reprsentatives de lapproche discriminative.
C.2 Machines Vecteurs Supports
Fig. C.1 Un cas simple de SVM pour des donnes presque sparables linairement
Les Machines Vecteurs Supports (SVM) sont bases sur le principe de la maximisa-
tion de la marge introduit par Vapnik et Lerner. Il existe plusieurs types dimplmentation
des SVMs dans la littrature. Dans ce travail, nous utilisons la version C-SVC (C-Support
Vector Classification) prsente dans Boser et al. (1992), Cortes & Vapnik (1995). Les
SVMs permettent de choisir une surface sparatrice entre les classes en respectant le prin-
cipe de minimisation du risque structurel ce qui revient maximiser la marge. La figure
C.1 illustre les diffrentes variables dans un cas simple. Les vecteurs entours sont des
vecteurs supports : on dsigne ainsi les vecteurs les plus proches de lhyperplan sparateur.
Les distances d1 et d2 sont gales, cette distance est la marge des SVM. Nous avons L
vecteurs dentrainement xi D attributs auxquels nous associons une tiquette yi = 1.
Lhyperplan sparateur peut tre dcrit par :
wT x + b = 0, (C.5)
b
o w est la normale lhyperplan et ||w|| est la distance orthogonale de lhyperplan
lorigine. En observant la figure C.1, nous dduisons que nos donnes dentrainement
peuvent tre dcrites par les quations C.6.
111
)
wT xi + b +1 si yi = +1
(C.6)
wT xi + b +1 si yi = 1
Les deux quations peuvent tre combines comme il suit :
yi (wT xi + b) 1 0 i (C.7)
Pour grer le cas ou les donnes dentrainement ne sont pas compltement sparables
linairement, on introduit une variable dcart positive i avec i = 1...L. Ainsi lquation
prcdente devient :
yi (wT xi + b) 1 + i 0 avec i 0 i (C.8)
Finalement, nous cherchons rsoudre le problme doptimisation suivant :
)
minw,b, 12 wT w + C L
&
i=1 i
(C.9)
sous les contraintes yi (wT xi + b) 1 + i 0, i 0 i
Avec C > 0 est le facteur derreur qui permet de contrler le compromis entre le nombre
dexemples mal classs et la largeur de la marge. Le lecteur pourra se rfrer Fletcher
(2008) qui explique de faon trs didactique les dtails de calcul pour la rsolution du
problme doptimisation des SVM.
Fig. C.2 Exemple de donnes non linairement sparables avec la surface de dcision
estime par un algorithme SVM
Les fondements thoriques que nous venons de prsenter sappliquent uniquement aux
donnes linairement sparables dans lespace de description. Or, ce cas idal est rarement
rencontr dans la nature o les distributions peuvent avoir des formes complexes dans
lespace multidimensionnel comme le montre la figure C.2. Pour cette raison, une fonction
noyau est utilise afin dobtenir des surfaces de dcision non linaires. Le principe dune
fonction noyau est de transformer les donnes exprimes dans lespace des attributs D
dimensions dans un espace de dimension plus grande voir infinie. En procdant ainsi, il est
possible de trouver une sparatrice linaire dans le nouvel espace. Les noyaux rencontrs
le plus souvent dans la littrature sont les suivants :
Le noyau linaire : k(x, y) = x.y
Le noyau polynmial de degr : k(x, y) = (x.y)
||xy||2
Le noyau radial exponentiel : k(x, y) = e 2 2
Dans ce travail, nous utilisons le noyau radial exponentiel (encore appel noyau gaus-
sien) qui possde des bonnes proprits de gnralisation.
La sortie des SVM est binaire mais il existe des mthodes permettant destimer des
probabilits a postriori. Cette estimation constitue une information plus complte quune
tiquette binaire : elle donne un degr de confiance pour lappartenance une classe.
Pour estimer la probabilit, lhypothse de dpart est que plus un exemple est loign
de la surface de sparation, plus lestimation dappartenance la classe considre est
fiable. Dans Platt (1999), lauteur propose dutiliser une forme sigmodale pour modliser
la probabilit de la classe positive en partant de lhypothse empirique que les densits
de probabilits conditionnelles sont exponentielles dans la marge. En supposant que f est
la fonction de dcision, la probabilit conditionnelle dappartenance la classe positive
sexprime ainsi :
1
P (y = 1|f (x)) = (C.10)
1 + exp (Af (x) + B)
On pourra consulter Platt (1999) pour plus de dtails.
C.3 Fusion des dcisions de plusieurs classifieurs binaires

Ces mthodes servent prendre une dcision pour un problme multiclasse (Q > 2)
en fusionnant les sorties de classifieurs bi-classes (Q = 2). Ltape de fusion est trs utile
dans le cas des SVM qui sont, par essence, des classifieurs bi-classes. Dans la littrature,
on oppose souvent deux stratgies dapprentissage diffrentes qui conduisent la prise de
dcision finale : lapproche Un Contre Un (ou OVO pour One Versus One) et lapproche
Un Contre Tous (ou OVA pour One Versus All).
Stratgie OVO
Cette premire stratgie dcompose un problme multiclasse en un ensemble de sous-

problmes bi-classes. Ainsi, des classifieurs sont construits pour tous les couples possibles
de classes distinctes : pour un problme Q classes, on dnombre C2Q = Q(Q1) 2 classifieurs
construits. Pour un nouvel chantillon x, on ralise le test de classification de x avec les
C2Q classifieurs bi-classes construits avant de recombiner les sorties des classifieurs pour
la prise de dcision finale. Il existe plusieurs approches de recombinaisons de classifieurs.
Certaines mthodes utilisent des sorties de classifieurs de type hard output. Dans ce cas, les
sorties sont binaires : lchantillon est affect une des deux classes du problme bi-classe
sans aucune prcision sur le degr de confiance de la prdiction. Une mthode courante de
fusion avec des sorties hard output consiste effectuer un vote majoritaire : lchantillon
sera affect la classe qui rcolte le plus grand nombre de voix. Une autre mthode bien
113
connue propose par Hastie & Tibshirani (1998) consiste estimer les probabilits a post-
riori P (Cq |x) pour chaque classe. La prise de dcision est par la suite ralise en appliquant
la rgle de dcision bayesienne (quation C.1). La stratgie OVO permet dobtenir de bons
rsultats mais en contrepartie elle peut galement devenir un peu lourde en raison de sa
complexit et du nombre de calculs intermdiaires quelle implique.
Stratgie OVA
La stratgie OVA est plus simple que la prcdente. Dans cette approche, Q classifieurs
sont construits, soit un classifieur par classe. Pour un classifieur q donn (avec 1 q Q),
on considre deux types dchantillons : les chantillons qui appartiennent la classe q
nomms chantillons positifs et ceux qui ne lui appartiennent pas nomms chantillons
ngatifs. Pour chaque classifieur, dans lapproche discriminative, on cherche trouver la
surface qui spare les chantillons positifs des chantillons ngatifs. Comme nous lavons
vu, il est possible de probabiliser la sortie dun classifieur SVM. Ainsi, on peut obtenir
une probabilit dappartenance Pq pour une classe q donne. La dcision finale, dans un
contexte multiclasse classique, sera prise en cherchant la classe qui maximise la probabilit
dappartenance Pq :
q0 = arg max Pq (x) (C.11)

1qQ
Lapproche OVA est moins utilise dans la littrature que la stratgie OVO. Cependant,
une comparaison avec dautres approches plus complexe effectue dans Rifkin & Klautau
(2004) montre que lapproche OVA permet dobtenir de bons rsultats malgr sa simplicit.
On peut noter quil existe des mthodes qui tentent de reformuler les SVM en une
approche multi-classe (voir Rifkin & Klautau (2004) pour un aperu), mais les moyens mis
en oeuvre sont la plupart du temps gourmands en temps de calcul.
115
Table des figures
2.1 Le premier Telharmonium . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2 Lon Thrmin et son invention . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Les Ondes Martenot avec leurs diffuseurs . . . . . . . . . . . . . . . . . . . . 17
2.4 Le Trautonium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5 Acousmographie de la pice Labyrinthe ! de Pierre Henry (4me mouvement,
Apesanteur), travail ralis par Branger Hainaut. . . . . . . . . . . . . . . 26
2.6 Acousmographie de la pice Labyrinthe ! de Pierre Henry (10me mouve-
ment, Remonte), travail ralis par Eline Marchand. . . . . . . . . . . . . 27
2.7 Bilan des invariants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.8 Bilan des souhaits et suggestions . . . . . . . . . . . . . . . . . . . . . . . . 33
2.9 Tableau rcapitulatif des systmes existants . . . . . . . . . . . . . . . . . . 35
2.10 La figure (a), reprsente la superposition de diverses sources sonores dans
une pice musicale (un son diffrent par ligne/couleur), comme cest le cas
dans une pice lectroacoustique polyphonique. La figure (b) est le mixage
rsultant de toutes les sources sonores, lors de lanalyse nous navons accs
qu ce mlange de sources. Le systme doit pouvoir prdire les diffrentes
instances dun objet donn (en loccurrence le son vert) partir de linstance
de la slection utilisateur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.11 Architecture globale du systme . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.12 Etapes dun scnario dutilisation du systme . . . . . . . . . . . . . . . . . 38
2.13 Processus de gnration des pices synthtiques . . . . . . . . . . . . . . . . 40
3.1 Segmentation dun mixage sonore en segments de mixture . . . . . . . . . . 44

3.2 Un exemple de matrice de similarit. Les deux axes reprsentent le temps.
Les distances entre les trames sont reprsentes par des niveaux de gris. En
loccurence les grandes distances sont affectes un niveau sombre et les
faibles distances un niveau clair. . . . . . . . . . . . . . . . . . . . . . . . 46
3.3 Architecture du systme de segmentation interactif . . . . . . . . . . . . . . 50
3.4 Ensemble des descripteurs extraits pour la phase de segmentation timbrale. 51
3.5 Choix du nombre dattributs garder . . . . . . . . . . . . . . . . . . . . . 53
3.6 Les 30 attributs slectionns pour dcrire le timbre . . . . . . . . . . . . . . 54
3.7 Dtection de transitoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.8 Exemple de dendogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.9 Comparaison des coupes globale (en rouge) et locale (en bleu) . . . . . . . . 57
3.10 Casser un segment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.11 Fusionner deux segments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.12 Comparaison de performances pour deux scnarios dinteraction . . . . . . . 60
3.13 Segmentation dune pice lectroacoustique : Timbre dure . . . . . . . . . 61
116 TABLE DES FIGURES
4.1 Les diffrentes types de problmes . . . . . . . . . . . . . . . . . . . . . . . 64

4.2 Classification de deux sons partir de segments tiquets manuellement . . 65
4.3 Segments caractristiques et ambigus . . . . . . . . . . . . . . . . . . . . . . 72
4.4 Ensemble des descripteurs extraits pendant la phase de classification des
objets sonores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.5 Architecture de la phase de classification des objets sonores . . . . . . . . . 74
4.6 Courbes de calcul des scores dutilits pour diffrentes stratgies . . . . . . . 80
4.7 f mesure en fonction du nombre ditrations pour 3 stratgies dchan-
tillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.8 Comparaison de performances dtailles pour les premires itrations . . . . 82
4.9 Score de f-mesure pour lannotation dune classe en fonction du nombre
ditrations pour une approche par passages multiples sur les 5 niveaux de
polyphonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.10 Score de f-mesure pour lannotation dune pice complte en fonction du
nombre ditrations pour les deux mthodes par passage unique (la figure
de gauche prsente les rsultats pour un degr de polyphonie de 2 et celle
de droite pour un degr de polyphonie de 4). . . . . . . . . . . . . . . . . . 88
4.11 Temps dattente total pour lannotation dun fichier avec la mthode PM en
fonction du niveau de polyphonie . . . . . . . . . . . . . . . . . . . . . . . . 89
4.12 Temps dattente total pour lannotation dun fichier avec la mthode PU2
en fonction du niveau de polyphonie . . . . . . . . . . . . . . . . . . . . . . 90
4.13 Classement des 20 descripteurs les plus slectionns pour lapproche PM (
gauche) et PU ( droite). Chaque descripteur est prsent dans le format
Nom du descripteur : Numro de lattribut. . . . . . . . . . . . . . . . . . . 91
4.14 Variation des descripteurs slectionns pour lapproche PM pour les itra-
tions 1, 10, 20 et 30. Chaque descripteur est prsent dans le format Nom
du descripteur : Numro de lattribut. . . . . . . . . . . . . . . . . . . . . . . 92
4.15 Variation des descripteurs slectionns pour lapproche PU pour les itra-
tions 1, 10, 20 et 30. Chaque descripteur est prsent dans le format Nom
du descripteur : Numro de lattribut. . . . . . . . . . . . . . . . . . . . . . . 92
4.16 Variation des descripteurs slectionns pour lapproche PM pour les diff-
rents niveaux de polyphonie. Chaque descripteur est prsent dans le format
4.17 Variation des descripteurs slectionns pour lapproche PU pour les diff-
rents niveaux de polyphonie. Chaque descripteur est prsent dans le format
A.1 Echantillons sonores utiliss pour la cration du corpus monophonique lors

de la phase de slection dattributs. . . . . . . . . . . . . . . . . . . . . . . . 100
A.2 Echantillons sonores utiliss pour la cration du corpus monophonique lors
de la phase de test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
A.3 Echantillons sonores utiliss pour la cration du corpus polyphonique. Chaque
ligne du tableau correspond un chantillon unique. . . . . . . . . . . . . . 101
C.1 Un cas simple de SVM pour des donnes presque sparables linairement . . 110
C.2 Exemple de donnes non linairement sparables avec la surface de dcision
estime par un algorithme SVM . . . . . . . . . . . . . . . . . . . . . . . . . 111
117
Index
apprentissage actif, 76 plus ambigu (ou MA pour Most Ambiguous),

apprentissage supervis, 109 80
plus ngatif (ou MN pour Most Negative),
Best Versus Second Best (BVSB), 84 80
bi-classes, 64 plus positif (ou MP pour Most Positive), 80
potique, 24
clustering hirarchique, 55
polyphonique, 24
clustering interactif, 57
corpus M, 39 retour de pertinence, 13
corpus P, 39
coupe globale, 58 segment de mixture, 55, 64
coupe locale, 58 segment inter-transitoires, 49
segment reprsentatif, 61, 71
dendrogramme, 56 segmentation de bas-niveau, 54
dtection de transitoire, 54 segmentation interactive, 48
segmentation timbrale, 44
elektronische musik, 20
stratgie dchantillonnage, 79, 83
entropie, 83
esthsique, 24 Units Smiotiques Temporelles (UST), 24
f-mesure, 59, 81
Fisher, 52
Groupe de Recherches Musicales (GRM), 19
intgration temporelle, 54
machines vecteurs supports, 110

MIR, 11
monophonique, 24
mouvement futuriste, 17
multiclasses, 64
multilabel, 64
musique acousmatique, 23
musique concrte, 18
musique lectroacoustique, 23
objet sonore, 24
one versus all (OVA), 113
one versus one (OVO), 112
passage unique, 82
passages multiples, 78
118 INDEX
119
Bibliographie
Alonso, M., Richard, G. & David, B. (2005), Extracting note onsets from musical recor-
dings., Multimedia and Expo, 2005. ICME 2005. IEEE International Conference .
Bckstrm, T. & Magi, C. (2006), Properties of line spectrum pair polynomials : a review,
Signal Process. 86(11), 32863298.
Bartsch, M. A. & Wakefield, G. H. (2001), To catch a chorus : using chroma-based repre-

sentations for audio thumbnailing, in Applications of Signal Processing to Audio and
Acoustics, 2001 IEEE Workshop on the, IEEE, pp. 1518.
Bartsch, M. A. & Wakefield, G. H. (2005), Audio thumbnailing of popular music using

chroma-based representations, IEEE Transactions on Multimedia 7(1), 96 104.
Berthomier, C. (1983), Instantaneous frequency and energy distribution of a signal, Signal

Processing 5(1), 3145.
Boser, B., Guyon, I. M. & Vapnik, V. (1992), A training algorithm for optimal margin
classifiers, Proceedings of the fifth annual workshop on Computational learning theory
COLT 92 p. 144152.
Bossis, B. (2006), The analysis of electroacoustic music : From sources to invariants,

Organised Sound 11(02), 101112.
Brown, J. (1998), Musical instrument identification using autocorrelation coefficients, in

Symposium on Musical Acoustics.
Brown, J. C. (1991), Calculation of a constant q spectral transform, Acoustical Society of

America Journal 89, 425434.
Busoni, F. (1911), Sketch Of A New Esthetic Of Music, Schirmer, New York.
Casey, M. A., Veltkamp, R., Goto, M., Leman, M., Rhodes, C. & Slaney, M. (2008),
Content-Based music information retrieval : Current directions and future challenges,
Proceedings of the IEEE 96(4), 668696.
Cettolo, M. & Vescovi, M. (2003), Efficient audio segmentation algorithms based on the
BIC, in 2003 IEEE International Conference on Acoustics, Speech, and Signal Proces-
sing, 2003. Proceedings. (ICASSP 03), Vol. 6, IEEE, pp. VI 53740 vol.6.
Chai, W. (2003), Structural analysis of musical signals via pattern matching, in 2003 IEEE
International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings.
(ICASSP 03), Vol. 5, IEEE, pp. V 54952 vol.5.
120 BIBLIOGRAPHIE
Chai, W. (2005), Automated Analysis of Musical Structure, PhD thesis, Massachusetts

Institute of Technology.
Chai, W. & Vercoe, B. (2003), Structural analysis of musical signals for indexing and
thumbnailing, in JCDL 03 : Proceedings of the 3rd ACM/IEEE-CS joint conference on
Digital libraries, IEEE Computer Society, Washington, DC, USA, p. 2734.
Chang, C. & Lin, C. (2011), LIBSVM : a library for support vector machines, ACM
Transactions on Intelligent Systems and Technology 2(3), 27 :127 :27. Software available
at http ://www.csie.ntu.edu.tw/ cjlin/libsvm.
Chen, G., Wang, T. & Herrera, P. (2008), A novel music retrieval system with relevance
feedback, in Proceedings of the 2008 3rd International Conference on Innovative Compu-
ting Information and Control, IEEE Computer Society, Washington, DC, USA, p. 158.
Cohn, D. A., Ghahramani, Z. & Jordan, M. I. (1996), Active learning with statistical
models. Journal of Artificial Intelligence Research, Vol 4, (1996), 129-145.
Cooper, M. (2002), Automatic music summarization via similarity analysis, Proc. IRCAM
.
Cooper, M. & Foote, J. (2003), Summarizing popular music via structural similarity analy-
sis, in Applications of Signal Processing to Audio and Acoustics, 2003 IEEE Workshop
on., IEEE, pp. 127 130.
Cortes, C. & Vapnik, V. (1995), Support-Vector networks, Machine Learning

20(3), 273297.
Couprie, P. (2004), Graphical representation : An analytical and publication tool for elec-
troacoustic music, Organised Sound 9(01), 109113.
Couprie, P. (2006), (Re) presenting electroacoustic music, Organised Sound 11(02), 119
123.
Couprie, P. (2008), IAnalyse : un logiciel daide lanalyse musicale, in Journe de lIn-

formatique Musicale.
Crucianu, M., Ferecatu, M. & Boujemaa, N. (2004), Relevance feedback for image retrieval :
a short survey, in State of the Art in Audiovisual Content-Based Retrieval, Informa-
tion Universal Access and Interaction including Datamodels and Languages (DELOS2
Report).
Desainte-Catherine, M. & Marchand, S. (1999), Structured additive synthesis : Towards a

model of sound timbre and electroacoustic music forms, in Proceedings of the Interna-
tional Computer Music Conference.
Desobry, F., Davy, M. & Doncarli, C. (2005), An online kernel change detection algorithm,
IEEE Transactions on Signal Processing 53(8), 2961 2974.
Duda, R. O., Hart, P. E. & Stork, D. G. (2001), Pattern classification, Wiley.
Eggink, J. & Brown, G. J. (2003), Application of missing feature theory to the recognition
of musical instruments in polyphonic audio, in Proc. of International Conference on
Music Information Retrieval.
121
Eronen, A. (2001), Automatic Musical Instrument Recognition, Mmoire de master, Tam-

pere University of Technology.
Essid, S. (2005), Classification automatique des signaux audio-frequences : reconnaissance

des instruments de musique, PhD thesis, UPMC.
Essid, S., Richard, G. & David, B. (2006), Instrument recognition in polyphonic music
based on automatic taxonomies, IEEE Transactions on Audio, Speech, and Language
Processing 14(1), 68 80.
Fastl, H. & Zwicker, E. (2007), Psychoacoustics : facts and models, Springer.
Fletcher, T. (2008), Support Vector Machines Explained, Tutorial paper, University College
London.
Foote, J. (2000), Automatic audio segmentation using a measure of audio novelty, in Mul-
timedia and Expo, 2000. ICME 2000. 2000 IEEE International Conference on, Vol. 1,
p. 452455 vol.1.
Formosa, M., Fremiot, T., Delalande, F., Gobin, P., Malbosc, P., Mandelbrojt, J. & Pedler,
E. (1996), Les Units smiotiques temporelles : lments nouveaux danalyse musicale,
Laboratoire musique et informatique de Marseille.
Gayou, E. (2006), Analysing and transcribing electroacoustic music : The experience of

the portraits polychromes of GRM, Organised Sound 11(02), 125129.
Geslin, Y. & Lefevre, A. (2004), Sound and musical representation : the acousmographe
software, in International Computer Music Conference, Miami, USA.
Gillet, O. & Richard, G. (2004), Automatic transcription of drum loops, in IEEE Inter-
national Conference on Acoustics, Speech, and Signal Processing, 2004. Proceedings.
(ICASSP 04), Vol. 4, IEEE, pp. iv269 iv272 vol.4.
Godsmark, D. & Brown, G. J. (1999), A blackboard architecture for computational audi-

tory scene analysis, Speech Commun. 27(3-4), 351366.
Goeau, H. (2009), Structuration de collections dimages par apprentissage actif crdibiliste,

PhD thesis, Universit Joseph Fourier de Grenoble.
Goeau, H., Buisson, O. & Viaud, M. L. (2008), Image collection structuring based on
evidential active learner, in International Workshop on Content-Based Multimedia In-
dexing, 2008. CBMI 2008, IEEE, pp. 388395.
Goto, M. (2003), SmartMusicKIOSK : music listening station with chorus-search function,

in UIST 03 : Proceedings of the 16th annual ACM symposium on User interface software
and technology, ACM, New York, NY, USA, p. 3140.
Goto, M., Hashiguchi, H., Nishimura, T. & Oka, R. (2002), RWC music database : Popu-
lar, classical, and jazz music databases, in Proc. of International Conference on Music
Information Retrieval, p. pp.287288.
Gulluni, S., Buisson, O., Essid, S. & Richard, G. (2009), Interactive segmentation of
Electro-Acoustic music, in 2nd International Workshop on Machine Learning and Mu-
sic.
122 BIBLIOGRAPHIE
Gulluni, S., Essid, S., Buisson, O. & Richard, G. (2011a), Interactive classification of sound
objects for polyphonic Electro-Acoustic music annotation, in Audio Engineering Society
Conference : 42nd International.
Gulluni, S., Essid, S., Buisson, O. & Richard, G. (2011b), An interactive system for electro-
acoustic music analysis, in Proc. of International Conference on Music Information
Retrieval.
Harchaoui, Z., Vallet, F., Lung-Yut-Fong, A. & Cappe, O. (2009), A regularized kernel-
based approach to unsupervised audio segmentation, in Acoustics, Speech, and Signal
Processing, IEEE International Conference on, Vol. 0, IEEE Computer Society, Los
Alamitos, CA, USA, pp. 16651668.
Hastie, T. & Tibshirani, R. (1998), Classification by pairwise coupling, in Proceedings of

the 1997 conference on Advances in neural information processing systems 10, NIPS
97, MIT Press, p. 507513.
Hennequin, R., David, B. & Badeau, R. (2011), Score informed audio source separation
using a parametric model of non-negative spectrogram, in 2011 IEEE International
Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, pp. 4548.
Hist, D. (2004), An analytical methodology for acousmatic music, in Proc. of International

Conference on Music Information Retrieval.
Hist, D. (2005), Developing an interactive study score for the analysis of electro-acoustic
music, in Australasian Computer Music Conference.
Hoashi, K., Matsumoto, K. & Inoue, N. (2003), Personalization of user profiles for content-
based music retrieval based on relevance feedback, in Proceedings of the eleventh ACM
international conference on Multimedia, ACM, New York, NY, USA, p. 110119.
Hong, P., Tian, Q. & Huang, T. S. (2000), Incorporate support vector machines to content-
based image retrieval with relevance feedback, in International Conference on Image
Processing, Vol. 3, IEEE, pp. 750753 vol.3.
Joder, C., Essid, S. & Richard, G. (2009), Temporal integration for audio classification
with application to musical instrument classification., IEEE Transactions on Audio,
Speech and Language Processing 17(1), 174186.
Joshi, A. J., Porikli, F. & Papanikolopoulos, N. (2009), Multi-class active learning for
image classification, IEEE Conference on Computer Vision and Pattern Recognition
(CVPR) .
Kane, B. (2007), LObjet sonore maintenant : Pierre schaeffer, sound objects and the
phenomenological reduction, Organised Sound 12(01), 1524.
Kedem, B. (1986), Spectral analysis and discrimination by zero-crossings, Proceedings of

the IEEE 74(11), 1477 1493.
Kinoshita, T., Sakai, S. & Tanaka, H. (1999), Musical sound source identification based on
frequency component adaptation, in Proc. IJCAI Worshop on CASA.
123
Kitahara, T., Goto, M., Komatani, K., Ogata, T. & Okuno, H. G. (2007), Instrument
identification in polyphonic music : Feature weighting to minimize influence of sound
overlaps, EURASIP Journal on Advances in Signal Processing 2007, 116.
Kurtag, G., Di Santo, J., Desainte-Catherine, M. & Guillem, P. (2007), Pdagogie de llec-
troacoustique du geste musical la composition assiste par ordinateur, in Proceedings
of the Journes de lInformatique Musicale (Jim07).
Levy, M., Sandier, M. & Casey, M. (2006), Extraction of High-Level musical structure
from audio data and its application to thumbnail generation, in Proceedings of the
IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 5,
p. V.
Li, X., Wang, L. & Sung, E. (2004), Multilabel SVM active learning for image classification,
in 2004 International Conference on Image Processing, 2004. ICIP 04, Vol. 4, IEEE,
pp. 2207 2210 Vol. 4.
List, N. & Simon, H. U. (2005), General polynomial time decomposition algorithms, in

P. Auer & R. Meir, eds, Learning Theory, Vol. 3559, Springer Berlin Heidelberg, Berlin,
Heidelberg, pp. 308322.
Little, D. & Pardo, B. (2008), Learning musical instruments from mixtures of audio with
weak labels, in Proc. of International Conference on Music Information Retrieval.
Logan, B. & Chu, S. (2000), Music summarization using key phrases, in 2000 IEEE In-
ternational Conference on Acoustics, Speech, and Signal Processing, 2000. ICASSP 00.
Proceedings, Vol. 2, IEEE, pp. II749II752 vol.2.
Lu, L., Wang, M. & Zhang, H. (2004), Repeating pattern discovery and structure ana-
lysis from acoustic music data, in Proceedings of the 6th ACM SIGMM international
workshop on Multimedia information retrieval, MIR 04, ACM, New York, NY, USA,
p. 275282.
Lukashevich, H., Abeer, J., Dittmar, C. & Grossmann, H. (2009), From Multi-Labeling
to Multi-Domain-Labeling : a novel Two-Dimensional approach to music genre classifi-
cation, in Proc. of International Conference on Music Information Retrieval.
Maddage, N. C. (2006), Automatic structure detection for popular music, IEEE Multi-
media 13(1), 65 77.
Maddage, N. C., Xu, C., Kankanhalli, M. S. & Shao, X. (2004), Content-based music
structure analysis with applications to music semantics understanding, in Proceedings
of the 12th annual ACM international conference on Multimedia, MULTIMEDIA 04,
ACM, New York, NY, USA, p. 112119.
Makhoul, J. (1975), Linear prediction : A tutorial review, Proceedings of the IEEE

63(4), 561580.
Mandel, M., Poliner, G. & Ellis, D. (2006), Support vector machine active learning for
music retrieval, Multimedia Systems 12(1), 313.
Manning, P. D. (2004), Electronic and computer music., Oxford University Press, New
York.
124 BIBLIOGRAPHIE
Martin, K. D. (1999), Sound-Source recognition : A theory and computational model,

PhD thesis, MIT .
Mathieu, B., Essid, S., Fillon, T., Prado, J. & Richard, G. (2010), YAAFE, an easy to
use and efficient audio feature extraction software, Proc. of International Conference on
Music Information Retrieval .
McAdams, S., Winsberg, S., Donnadieu, S., Soete, G. & Krimphoff, J. (1995), Perceptual
scaling of synthesized musical timbres : Common dimensions, specificities, and latent
subject classes, Psychological Research 58, 177192.
Molino, J. (2009), Le singe musicien : essais de smiologie et danthropologie de la musique,

Actes Sud.
Moore, B., Glasberg, B. & Baer, T. (1997), A model for the prediction of thresholds,
loudness, and partial loudness, J. Audio Eng. Soc 45(4), 224240.
Ning, J., Zhang, L., Zhang, D. & Wu, C. (2010), Interactive image segmentation by maxi-
mal similarity based region merging, Pattern Recogn. 43(2), 445456.
Nucibella, F., Porcelluzzi, S. & Zattra, L. (2005), Computer music analysis via a multidis-
ciplinary approach, in Sound and Music Computing.
Park, T. H., Li, Z. & Wu, W. (2009), EASY does it : The Electro-Acoustic music analysis
toolbox, in Proc. of International Conference on Music Information Retrieval.
Peeters, G. (2004), A large set of audio features for sound description (similarity and
classification) in the CUIDADO project, Tech. rep., IRCAM.
Peeters, G., Burthe, A. L. & Rodet, X. (2002), Toward automatic music audio summary ge-
neration from signal analysis, in Proc. of International Conference on Music Information
Retrieval, p. 94100.
Peeters, G. & Deruty, E. (2008), Automatic morphological description of sounds, The

Journal of the Acoustical Society of America 123, 3801.
Platt, J. (1999), Probabilistic outputs for support vector machines and comparisons to
regularized likelihood methods, in Advances in large margin classifiers, p. 6174.
Price, B., Morse, B. & Cohen, S. (2009), LIVEcut : learning-based interactive video seg-
mentation by evaluation of multiple propagated cues., in Proceedings of the IEEE In-
ternational Conference on Computer Vision (ICCV).
Puig, V., Gudy, F., Fingerhut, M., Serrire, F., Bresson, J. & Zeller, O. (2005), Musique
lab 2 : A three level approach for music education at school, in Proceedings of the
International Computer Music Conference, Spain.
Qi, G. J., Hua, X., Rui, Y., Tang, J. & Zhang, H. (2009), Two-Dimensional multilabel
active learning with an efficient online adaptation model for image classification, IEEE
Transactions on Pattern Analysis and Machine Intelligence 31(10), 18801897.
Rabiner, L. & Juang, B. (1993), Fundamentals of Speech Recognition, Prentice Hall.

125
Reynolds, D., Kenny, P. & Castaldo, F. (2009), A study of new approaches to speaker
diarization, in proc. of INTERSPEECH-2009, pp. 10471050.
Ricard, J. & Herrera, P. (2004), Morphological sound description : Computational model

and usability evaluation, in Audio Engineering Society Convention 116.
Rifkin, R. & Klautau, A. (2004), In defense of One-Vs-All classification, The Journal

Machine Learning Research 5, 101141.
Rijsbergen, C. (1979), Information retrieval, Butterwoth-Heinmann, 2nd edition, London.
Rocchio, J. & Salton, G. (1971), Relevance feedback in information retrieval, in The

SMART Retrieval System : Experiments in Automatic Document Processing, Prentice-
Hall, Englewood Cliffs NJ, pp. 313323.
Russolo, L. (1913), The art of noise, Something Else Press.
Salton, G. (1968), Automatic Information Organization and Retrieval, McGraw-Hill.
Savage, J. & Challis, M. (2002), Electroacoustic composition : Practical models of com-

position with new technologies, Journal of the Sonic Arts Network .
Schaeffer, P. (1952), A la recherche dune musique concrte, ditions du Seuil, Paris.
Schaeffer, P. (1966), Trait des objets musicaux, ditions du Seuil.
Scheirer, E. & Slaney, M. (1997), Construction and evaluation of a robust multifeature

speech/music discriminator, in , 1997 IEEE International Conference on Acoustics,
Speech, and Signal Processing, 1997. ICASSP-97, Vol. 2, IEEE, pp. 13311334 vol.2.
Schussler, H. (1976), A stability theorem for discrete systems, Acoustics, Speech and Signal
Processing, IEEE Transactions 24(1), 8789.
Sedes, A., Courribet, B. & Thibaut, J. (2004), Visualization of sound as a control interface,
in Proc. of the 7th Int. Conference on Digital Audio Effects (DAFX), Naples, Italy.
Settles, B. (2010), Active learning literature survey, Technical report, University of Wis-
consinMadison.
Shan, M., Chiang, M. & Kuo, F. (2008), Relevance feedback for category search in music
retrieval based on semantic concept learning, Multimedia Tools Appl. 39, 243262.
Simoni, M., Rozell, C., Meek, C. & Wakefield, G. (2000), A theoretical framework for
electro-acoustic music., in International Computer Music Conference.
Singh, M., Curran, E. & Cunningham, P. (2009), Active learning for Multi-Label image
annotation, Technical report, University College of Dublin.
Smets, P. (2005), Decision making in the TBM : the necessity of the pignistic transforma-
tion, International Journal of Approximate Reasoning 38(2), 133147.
Tong, S. & Chang, E. (2001), Support vector machine active learning for image retrieval,
in Proceedings of the ninth ACM international conference on Multimedia, ACM, New
York, NY, USA, p. 107118.
126 BIBLIOGRAPHIE
Tranter, S. E. & Reynolds, D. A. (2006), An overview of automatic speaker diarization

systems, IEEE Transactions on Audio, Speech, and Language Processing 14(5), 1557
1565.
Trohidis, K., Tsoumakas, G., Kalliris, G. & Vlahavas, I. (2008), Multilabel classification
of music into emotions, in Proc. of International Conference on Music Information
Retrieval, Philadephia, PA, USA.
Tsoumakas, G. & Katakis, I. (2007), Multi-label classification : An overview, INT J DATA

WAREHOUSING AND MINING 2007, 113.
Tsoumakas, G. & Vlahavas, I. (2007), Random k-Labelsets : an ensemble method for mul-
tilabel classification, in J. N. Kok, J. Koronacki, R. L. d. Mantaras, S. Matwin, D. Mla-
deni & A. Skowron, eds, Machine Learning : ECML 2007, Vol. 4701, Springer Berlin
Heidelberg, Berlin, Heidelberg, pp. 406417.
Van Steelant, D., De Baets, B., De Meyer, H., Leman, M., Martens, J. P., Clarisse, L. &
Lesaffre, M. (2002), Discovering structure and repetition in musical audio, IN PRO-
CEEDINGS OF EUROFUSE WORKSHOP .
Viterbi, A. (1967), Error bounds for convolutional codes and an asymptotically optimum
decoding algorithm, IEEE Transactions on Information Theory 13(2), 260269.
Wieczorkowska, A., Synak, P. & Ra, Z. W. (2006), Multi-Label classification of emo-

tions in music, in M. A. Kopotek, S. T. Wierzcho & K. Trojanowski, eds, Intelligent
Information Processing and Web Mining, Vol. 35, Springer Berlin Heidelberg, Berlin,
Heidelberg, pp. 307315.
Wu, Y., Kozintsev, I., Bouguet, J.-y. & Dulong, C. (2006), Sampling strategies for ac-
tive learning in personal photo retrieval, in Multimedia and Expo, IEEE International
Conference on, Vol. 0, IEEE Computer Society, Los Alamitos, CA, USA, pp. 529532.
Zhou, X. S. & Huang, T. S. (2003), Relevance feedback in image retrieval : A comprehensive

review, Multimedia Systems 8(6), 536544.
Zwicker, E. (1977), Procedure for calculating loudness of temporally variable sounds, The
Journal of the Acoustical Society of America 62, 675.

These Gulluni Final

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

These Gulluni Final

Transféré par

Droits d'auteur :

Formats disponibles

Un systeme interactif pour lanalyse des musiques

To cite this version:

HAL Id: pastel-00676691

HAL is a multi-disciplinary open access Larchive ouverte pluridisciplinaire HAL, est

prsente et soutenue publiquement par

Un systme interactif pour lanalyse des

Directeur de thse : Gal RICHARD

Mots-cls : musiques lectroacoustiques, apprentissage interactif, retour de pertinence,

Keywords : electroacoustic music, interactive machine learning, relevance feedback,

Table des matires

2 Musiques lectroacoustiques et architecture du systme 15

3 Segmentation interactive de musiques lectroacoustiques 43

4 Classification interactive dobjets sonores 63

4.6.1.2 Stratgies dchantillonnage . . . . . . . . . . . . . . . . . . 79

A Echantillons sonores utiliss 99

B Descripteurs utiliss 103

C Apprentissage supervis 109

Ce travail de thse sinscrit dans des problmatiques propres au Music Information

du domaine de la recherche. Si la musique conventionnelle 1 et notamment classique est

1.2 Objectifs et problmatiques

Une autre contribution de ce travail est la proposition dune mthode de segmentation

1.4 Prsentation du manuscrit

2.2 Naissance des musiques lectroacoustiques

2.2.1 Dveloppements avant 1945

Cet instrument est le premier avoir utilis un procd lectromcanique pour la g-

devant un microphone pour produire le signal sonore.

2.2.1.2 Vers de nouvelles formes dexpression

Finalement, le mouvement futuriste ne provoqua pas une rvolution majeure mais sa

2.2.2 Paris et la musique concrte

2.2.2.2 Les dbuts de la musique concrte

Symphonie pour un homme seul est la premire pice de Schaeffer en collaboration

2.2.2.3 Formalisation et notation

Henry, pendant la composition de Concerto des ambiguts et Suite en 1950, rencontre

2.2.3 Cologne et lelektronische musik

En Allemagne, les innovations esthtiques et technologiques dans le domaine musical

En 1948, le docteur Werner Meyer-Eppler qui est alors directeur du dpartement

Le 18 octobre 1951, la station radio de Cologne propose un programme intitul Le

2.2.3.2 Les premires pices delektronische musik

Les premires pices de Karlheinz Stockhausen composes au studio de Cologne, Stu-

les deux disciplines tait dailleurs parfois trs floue.

2.2.4 Milan, un autre studio europen important

Lquipement matriel du studio de Milan tait compos de neuf gnrateurs dondes

Musique polyphonique et monophonique

Analyse potique et esthsique

Units Smiotiques Temporelles

propose Schaeffer. Cest--dire travers ce quils voquent en arrire-plan, soit au

2.4 Analyse des musiques lectroacoustiques

2.4.1 Etat de lart

dapporter des solutions certains sous-problmes. La conclusion de ce travail est dabord

Fig. 2.5 Acousmographie de la pice Labyrinthe ! de Pierre Henry (4me mouvement,

Fig. 2.6 Acousmographie de la pice Labyrinthe ! de Pierre Henry (10me mouvement,

transcriptions multimdias prsentes explorent les diffrentes mthodes danalyse et de

2.4.2 Approche analytique de trois musicologues

1. Avez-vous une mthodologie gnrale pour lanalyse des musiques lectroa-

2. Une analyse exclusivement esthsique vous semble-t-elle suffisante pour mettre

Franois Delalande : Oui, je pense quune analyse exclusivement esthsique peut

3. Peut-on transposer les approches danalyse tonale aux musiques lectroa-

lidentique. On peut dire que lanalyse de la musique lectroacoustique est diffrente de

Franois Delalande : On ne peut pas transposer directement les mthodes danalyse

Au sujet du rapport avec la musique tonale, on apprend principalement que la mtho-

4. Quattendez-vous de loutil informatique pour vous assister dans votre ana-

Pierre Couprie : Jutilise le spectrogramme ds la premire coute de reprage (jai

La comparaison des trois rponses fait apparaitre clairement limportance de lcoute

Invariants dans les pratiques danalyse des personnes interroges :