Vous êtes sur la page 1sur 46

Anne universitaire 2005-2006 e MASTER SIC - Syst`mes Intelligents et Communicants e e 2`me anne e

Extraction automatique dune suite daccords ` partir de a lanalyse dun signal audio musical
Hl`ne Papadopoulos ee

Encadrant :

Georoy Peeters
Responsable :

Xavier Rodet

IRCAM (Institut de Recherche et Coordination en Acoustique/Musique) 1, place Igor Stavinsky 75004 Paris

Je voudrais ici remercier M. Georoy Peeters pour avoir consacr une partie de son temps ` lencadrement de mon e a travail. Il a su orienter mes travaux tout en me laissant la libert ncessaire ` lacquisition dune saine autonomie. e e a Je voudrais aussi remercier M. Xavier Rodet pour lintrt ee quil a port ` mon travail. ea Merci aussi ` Niels pour son attention et sa gentillesse. a

Rsum : Nous prsentons ici un syst`me qui permet de dextraire de mani`re e e e e e automatique la suite daccords dun signal audio musical polyphonique complexe. La premi`re partie du syst`me eectue lextraction de vecteurs reprsentant limpore e e tance des direntes hauteurs ` un instant donn (vecteur de chroma). Ces informae a e tions sont de nature probabiliste ; lobjectif est destimer la suite daccords au cours du temps la plus probable. Pour cela nous dveloppons deux mthodes direntes, e e e toutes deux bases sur des Mod`les de Markov Cachs. A travers ces mthodes, nous e e e e comparons linuence de direntes hypoth`ses faites sur le signal. Le syst`me est e e e valu ` partir dun ensemble dextraits musicaux issus de la musique populaire. e ea

Ce document est le compte-rendu du stage que jai eectu ` lIRCAM du 20 ea mars au 20 juillet 2006. Il entre ` la fois dans le cadre de mes tudes dingnieur a e e ` lENSEA, o` il fait lobjet de mon travail de n dtudes, et dans le cadre du a u e master recherche SIC (Syst`mes Intelligents et Communicants) de luniversit de e e Cergy-Pontoise. Mais cest avant tout pour moi le dbut dun travail de reherche qui se poursuivra e par un doctorat ` lIRCAM. a

ii

Table des mati`res e

Table des mati`res e


1 Introduction 2 Pr-requis musicaux ` lattention des e a 2.1 Quest ce que le son ? . . . . . . . . . 2.2 Notes et intervalles . . . . . . . . . . 2.2.1 Notes . . . . . . . . . . . . . 2.2.2 Intervalles . . . . . . . . . . . 2.3 Son fondamental et harmoniques . . 2.4 Gamme et tonalit . . . . . . . . . . e 2.5 Mode majeur, mode mineur . . . . . 2.6 Accords . . . . . . . . . . . . . . . . 2.7 Classes de hauteur ou pitch class . . 3 Etat de lart scientiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . non . . . . . . . . . . . . . . . . . . . . . . . . . . . musiciens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 2 2 3 3 3 4 4 5 5 6 7 7 7 9 10 12 12 12 12 13 15 17 17 17 18 19 20 20 20 22 22 24 25

4 Syst`me initial e 4.1 Observation et traitement du signal . . . . . . . . . . . . . . . . . . . 4.1.1 Transformation du signal temporel dans le domaine frquentiel e 4.1.2 Construction du chromagram . . . . . . . . . . . . . . . . . . 4.2 Estimation de suite daccords base sur des HMM . . . . . . . . . . . e 4.2.1 Rappels thoriques sur les HMM . . . . . . . . . . . . . . . . e 4.3 Utilisation des HMM pour la dtection de suites daccords, modlisae e tion gaussienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Etiquettage des accords . . . . . . . . . . . . . . . . . . . . . 4.3.2 Distribution des tats initiale . . . . . . . . . . . . . . . . . . e 4.3.3 Matrice de transition [A] . . . . . . . . . . . . . . . . . . . . . 4.3.4 Distribution des observations [B] . . . . . . . . . . . . . . . . 4.4 Estimation de suite daccords par corrlation . . . . . . . . . . . . . . e 5 Dveloppements du syst`me e e 5.1 Amliorations de la partie signal . . . . . . . . . . . . . . . . . . . . . e 5.1.1 Tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Taille de la fentre, rsolution frquentielle/temporelle . . . . e e e 5.1.3 Filtrage mdian . . . . . . . . . . . . . . . . . . . . . . . . . . e 5.1.4 Echelle utilise dans la reprsentation spectrale : nergie, ame e e plitude, sones . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Introduction du mod`le de Gomez dans le syst`me . . . . . . . . . . . e e 5.2.1 Prsentation du mod`le . . . . . . . . . . . . . . . . . . . . . e e 5.2.2 Evaluation du mod`le de Gomez . . . . . . . . . . . . . . . . . e 5.2.3 Introduction du mod`le de Gomez dans les matrices de moyenne e et de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Synchronisation sur les tactus . . . . . . . . . . . . . . . . . . . . . . 5.4 Rappels sur lanalyse linaire discriminante (ALD) . . . . . . . . . . . e

iii

Table des gures 6 Implantation 6.1 Schma du syst`me complet . . . . . . . . . . . . . . . . . . . . . . . e e 6.2 Fonctions programmes sous matlab . . . . . . . . . . . . . . . . . . . e 6.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Evaluation des rsultats e 7.1 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e e 7.2 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.2 Choix de la mthode . . . . . . . . . . . . . . . . . . . . . . e 7.2.3 Filtrage mdian . . . . . . . . . . . . . . . . . . . . . . . . . e 7.2.4 Taille de la fentre et bornes des frquences . . . . . . . . . e e 7.2.5 Introduction du mod`le de Gomez . . . . . . . . . . . . . . . e 7.2.6 Echelle et nombre dharmoniques utilises . . . . . . . . . . e 7.3 Quantication des erreurs . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 Inuence de lchelle et du nombre dharmoniques sur les ere reurs obtenues . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2 Comparaison des erreurs rsultant des deux mthodes . . . . e e 7.4 Analyse linaire discriminante . . . . . . . . . . . . . . . . . . . . . e 7.4.1 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.2 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 8 Conclusion et perspectives . . . . . . . . . . . . . . 26 26 26 28 29 29 30 31 31 31 31 32 32 34 34 35 36 36 37 38

Table des gures


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Reprsentation de la perception de la hauteur par loreille humaine e Exemple de chromagram . . . . . . . . . . . . . . . . . . . . . . . . Figure du double cycle des quintes . . . . . . . . . . . . . . . . . . Matrice de transition . . . . . . . . . . . . . . . . . . . . . . . . . . Matrice des observations thorique . . . . . . . . . . . . . . . . . . e Matrice de covariance pour C majeur . . . . . . . . . . . . . . . . . Matrice de covariance pour C mineur . . . . . . . . . . . . . . . . . Histogramme des tunings estims . . . . . . . . . . . . . . . . . . . e Rsolution spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . e Chromagram pour un accord de C majeur et templates pour C majeur et E mineur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Matrice de covariance pour C majeur, avec prise en compte des 4 premires harmoniques . . . . . . . . . . . . . . . . . . . . . . . . . . Matrice de covariance pour C mineur, avec prise en compte des 4 premires harmoniques . . . . . . . . . . . . . . . . . . . . . . . . . . Schma rcapitulatif des principales fonctions implantes . . . . . . e e e Exemple de rsultat . . . . . . . . . . . . . . . . . . . . . . . . . . . e Vecteurs de chroma majeurs et mineurs ramens ` C pour le CD e a Beatles for Sale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 10 13 14 14 16 16 18 19

. 21 . 24 . 24 . 27 . 29 . 37 iv

Liste des tableaux

Liste des tableaux


1 2 3 4 5 6 7 8 9 Contribution des premi`res harmoniques pour un accord de C majeur e Contribution des premi`res harmoniques pour un accord de C mineur e Amplitudes des notes des templates daccords avec mod`le de Gomez e Inuence de lchelle et du nombre dharmoniques . . . . . . . . . . . e Inuence de lchelle et du nombre dharmoniques . . . . . . . . . . . e Tableau des erreurs en fonction de lchelle et du nombre dharmoe niques, premier CD . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tableau des erreurs en fonction de lchelle et du nombre dharmoe niques, deuxi`me CD . . . . . . . . . . . . . . . . . . . . . . . . . . . e Tableau des erreurs en fonction de lchelle et du nombre dharmoe niques, rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Comparaison des erreurs selon la mthode utilise . . . . . . . . . . . e e 22 23 23 33 33 34 35 35 36

Introduction

Ce stage se place dans le contexte de Music Information Retrieval (Recherche en musique) et de la transcription automatique de morceaux de musique. Lobjectif est destimer ` partir dun signal audio, la suite daccords composant un morceau de a musique. Lestimation de la suite daccords est un sujet qui se rattache au domaine de lindexation musicale. Lextraction de descripteurs audio consiste ` trouver des mod`les a e mathmatiques qui dcrivent les proprits du son en utilisant les outils du traitee e ee ment du signal. Lobtention de ces param`tres permet de rpondre ecacement ` e e a une demande qui ne cesse daugmenter : les services de distribution de musique en ligne prolif`rent aujourdhui. Des applications telles que la recherche dans une base e de donnes, ou le traitement du signal par son contenu (par exemple trouver un e certain th`me dans une grande base de donnes) peuvent alors tre dveloppes. e e e e e Lun des param`tres que lon peut extraire du signal audio musical est la suite e daccords composant le morceau. La succession des accords dans le temps est le coeur de lharmonie dune pi`ce de musique. Annoter manuellement un morceau de e musique (transcrire les accords du morceau de mani`re individuelle) est un travail e beaucoup trop fastidieux tant donne lampleur des bases de donnes dont on dise e e pose, cest pourquoi il est ncessaire de dvelopper des technologies de transcription e e automatique. Outre les applications cites prcdemment, cela peut tre galement e e e e e la base dapplications telles que la segmentation musicale, lidentication de similarits musicales, etc. e La suite de ce rapport sera organise de la mani`re suivante : dans une premi`re e e e partie, nous rappelerons bri`vement quelques notions de thorie musicale ncessaires e e e ` la comprhension de ce rapport ; nous prsenterons ensuite ltat de lart ; les seca e e e tions 3, 4 et 5 seront consacres ` la desription du travail ralis pendant le stage ; e a e e enn la derni`re partie prsentera et analysera les rsultats obtenus. e e e

Pr-requis musicaux ` lattention des scientie a ques non musiciens

Ainsi que le sujet de ce stage lindique, il sagit de travailler sur des signaux audio musicaux. Il est donc impossible den prsenter le contenu sans se rfrer ` e ee a des notions et des termes emprunts au langage musical thorique. Cest pourquoi e e nous commencerons par aborder les quelques notions gnrales de la thorie de la e e e musique sans lesquelles la suite de ce rapport ne saurait tre comprise par un none musicien.

2.1 Quest ce que le son ?

2.1

Quest ce que le son ?

Le son est une vibration mcanique qui se propage dans lair. Un son musical e peut tre caractris par trois grandeurs : sa hauteur, son intensit et son timbre. e e e e Ces trois crit`res correspondent respectivement ` trois caractristiques de londe qui e a e sont sa frquence, son amplitude et sa constitution harmonique. Loreille humaine e ne peroit que les sons dont la frquence est comprise entre 20 et 20 000 Hz . c e La hauteur (pitch) dun son est lune de ses caractristiques principales. Cest e une notion subjective. La hauteur perue par loreille est lie ` la frquence du c e a e ` une frquence faible correspond un son grave, ` une frquence leve son. A e a e e e un son aigu. Lamplitude est une autre caractristique importante du son. Cest en particue lier de lamplitude du son que correspond la force perue. Elle reprsente une c e mesure du dplacement des molcules dair. Plus les molcules dair frappent e e e avec force la membrane de loreille, plus lamplitude de londe est grande et donc plus le son para fort. t Le timbre est le terme utilis en musique pour dnir la qualit dmission dun e e e e son spcique ` un instrument donn ou ` la voix. Le timbre dun son dpend e a e a e de nombreux facteurs. Le ou les matriaux qui constituent linstrument (bois, e cuivres, cordes) donnent une empreinte particuli`re au timbre. Deux sons de e mme hauteur et de mme intensit sont dirents selon que les vibrations sont e e e e mises par frottement ou par souement. Le timbre dpend aussi du nombre e e dharmoniques et de leurs amplitudes. Le timbre dun mme instrument sonne e diremment au moment de lattaque dun son, de sa dure, ou de son extince e tion. Lair ambiant tient galement une place dans la spcicit du timbre. e e e Le timbre est donc caractristique dun instrument de musique. Des sons de e mme hauteur mis par deux instruments distincts ont un timbre dirent e e e qui permet de les distinguer. Le timbre dpend de la composition du son en e harmoniques. Un diapason met une vibration sinuso e dale sans harmoniques, cest un son pur. Une vibration sonore associe ` une note a une amplitude e a qui varie au cours du temps. Lenveloppe est la courbe reliant les maxima des amplitudes du son au cours du temps.

2.2
2.2.1

Notes et intervalles
Notes

Avant de poursuivre, nous rappelons quelques notions sur les notes, qui sont les signes employs pour crire la musique. Les notes reprsentent des dures et des e e e e hauteurs de son. Les mthodes de division de loctave en intervalles ont depuis tr`s e e longtemps donn naissance ` la gamme dite heptatonique, cest-`-dire comprenant e a a sept notes dans un intervalle doctave. Ces notes ont t nommes, dans le sens asee e

2.3 Son fondamental et harmoniques cendant : franais c do re mi f a sol la si do anglo-saxon C D E F G A B C Nous utiliserons par la suite la terminologie anglo-saxonne. 2.2.2 Intervalles

Loreille identie des intervalles . Un intervalle est une grandeur additive que nous percevons comme une dirence de hauteur , quand la physique identie e des rapports de frquences. e On appelle octave lintervalle entre deux sons dont lun est ` la frquence f et a e lautre ` la frquence 2f . Loctave correspond ` lintervalle qui spare la frquence a e a e e fondamentale de la premi`re harmonique. e

2.3

Son fondamental et harmoniques

Une vibration sonore est une fonction mathmatique priodique. Elle peut donc e e tre dcompose en srie de Fourier, cest ` dire en une somme de fonctions sinue e e e a so dales lmentaires. Les sons musicaux sont forms dun son fondamental et des ee e harmoniques appeles aussi partiels, dont les rapports de frquence avec la fondae e mentale sont des quotients de nombres entiers. La hauteur dun son est mesure par e la frquence du fondamental. e Lorsque lon entend un C, on entend aussi la premi`re harmonique qui est le C e de loctave suprieure. Une note de la gamme est ainsi dtermine modulo la multie e e plication par une puissance de 2 qui dtermine loctave o` elle se trouve. e u Par exemple lchelle des A, en Hz est la suivante : e Frquence (Hz) 55 110 220 440 880 1760 e note A1 A2 A3 A4 A5 A6 Lorsque lon entend un C de frquence f , on entend aussi les harmoniques de e frquences 2f, 3f . . . : e Frquence (Hz) f 2f 3f 4f 5f 6f e note C C G C E G

2.4

Gamme et tonalit e

Une gamme est une srie de sons conjoints. La gamme tempre est de nos jours e ee utilise de faon presque universelle dans la musique occidentale. Elle est obtenue e c en divisant loctave en douze intervalles gaux. e

2.5 Mode majeur, mode mineur note C D E F G A B C 2 4 5 7 9 1 frquence f a f a f a f a f a f a 1f 2f e

avec a = 21/12 .

On appelle demi-ton lintervalle dni par (f, 21/12 f ). Un ton peut se diviser en e 2 demi-tons. Pour former une gamme, on utilise sept notes de noms dirents. Chacune ayant e un rle dtermin, on lui donne le nom de degr que lon crit en chires romains. o e e e e Chaque degr a un nom particulier qui caractrise la position quil occupe dans la e e gamme. Nous utiliserons par la suite le terme tonique, qui correspond au premier degr, ainsi que les termes mdiante, sous-dominante, dominante et octave qui correse e pondent respectivement aux 3eme , 4eme , 5eme et 8eme degrs. e

2.5

Mode majeur, mode mineur

Deux modes peuvent tre distingus dans la musique occidentale : le mode mae e jeur et le mode mineur. Chacun de ces deux modes prsente des caractristiques e e particuli`res qui sont lies ` la position des tons et demi-tons dans les gammes qui e e a leurs sont associes. Une gamme est compose dune squence de notes. Chaque e e e couple de notes forme un certain intervalle. Un intervalle est dni par le rapport e entre les frquences de deux notes f1 et f2. Pour une gamme tempre, un demi-ton e ee (st) est toujours dni par un rapport de frquence de f 2/f 1 = 21/12 . Un intervalle e e de n demi-tons est dni par un rapport de frquences de f 2/f 1 = 2n/12 . e e Nous pouvons associer ` chaque tonique un mode majeur et un mode mineur. a La tonalit est lensemble des lois qui rgissent la constitution des gammes. Il existe e e donc 24 tonalits (12 majeures et 12 mineures) auxquelles on peut associer 24 accords e de trois notes composs de la tonique, la mdiante et la dominante (on les nomme e e accords parfaits). On ne fait pas ici de distinction entre les notes enharmoniques, cest ` dire entre les notes qui sonnent de la mme mani`re mais qui ont un nom a e e dirent, par exemple C# et Db. e

2.6

Accords

On nomme accord tout ensemble de sons entendus simultanment pouvant done ner lieu ` une perception globale identiable. Pour former un accord, il faut au moins a lmission simultane de trois sons. On distingue les accords de 3 sons (majeurs, mie e neurs, diminus et augments), les accords de 4 sons appels accords de septi`me et e e e e les accords de 5 sons appels accords de neuvi`me. e e La connaissance de la composition de ces dirents accords (intervalles dont ils e sont forms, proprits . . . ) tait ncessaire pour bien comprendre le sujet du stage et e ee e e donner des rponses aux probl`mes poss. Cependant, elle nest pas indispensable ` e e e a

2.7 Classes de hauteur ou pitch class la comprhension de ce rapport, cest pourquoi nous ne nous tendons pas davantage e e sur ce point.

2.7

Classes de hauteur ou pitch class

La perception de la hauteur dun son par loreille humaine est priodique. Les e hauteurs spares par un nombre entier doctaves sont perues commme sonnant e e c de mani`re quivalente, cest pourquoi on leur donne le mme nom. On dit quelles e e e partagent le mme chroma. Lensemble des notes partageant un mme chroma est e e appel classe de hauteurs ou pitch class. e Les thoriciens de la musique se rf`rent en gnral aux direntes classes de e ee e e e hauteur en utilisant des nombres. On peut transformer la frquence fondamentale f e dun son en un nombre rel p selon lquation suivante(conversion en chelle midi) : e e e p = 69 + 12log2 f 440 (1)

Le C4 correspond ` la note midi 60. a Dans lespace des classes de hauteur, il ny a pas de distinction entre les notes qui sont spares par un nombre entier doctaves. (p, p + 12, p + 2 12...). Par exemple e e C4, C5, C6 appartiennent ` la mme classe de hauteur. a e

Etat de lart

La reconnaissance automatique daccords musicaux ` partir dun signal audio a complexe contenant des sons vocaux et percusifs reste ` lheure actuelle un proa bl`me qui nest pas encore rsolu. e e Des travaux rcents sur le sujet de la dtection automatique de suites daccords e e ont montr que lon pouvait obtenir des rsultats intressants sur des morceaux poe e e lyphoniques complexes sans avoir ` passer par une transcription symbolique. Lapa proche traditionnelle consistait ` extraire les notes individuelles prsentes ` chaque a e a instant dans le signal audio pour en dduire les accords en sappuyant sur des r`gles e e musicales. Linconvnient de cette mthode est quil est dicile dextraire les notes, e e dune part en raison du bruit, dautre part en raison des harmoniques des direntes e notes prsentes dans le spectre du signal audio qui se mlangent et se recouvrent. e e Les algorithmes existants sont peu ables et les rsultats obtenus par cette mthode e e sont insusants pour pouvoir esprer arriver ` une transcription automatique. e a En 1999, Fujishima introduit la notion de Pitch Class Proles (PCPs) [1] pour la reconnaissance daccords. Sinspirant des travaux de Fujishima et de Barsh et Wakeeld (2001) [2], Sheh et Ellis obtiennent en 2003 [3] des rsultats encourageants e pour lestimation daccords sans passer par une transcription symbolique. Ils proposent une reprsenation du signal audio en termes de Pitch Class Proles ainsi e que lutilisation de HMM. Ces mthodes sont reprises par Harte et Sandler [4] puis e Bello et Pickens [5] en 2005. Ces derniers obtiennent des rsultats satisfaisants sur e 5

des signaux audio polyphoniques complexes. Les syst`mes existants ont le dfaut de ne pas tenir compte des harmoniques e e prsentes dans le spectre. Ce probl`me a dja t soulev en particulier dans le cas e e e ee e de lestimation de tonalit, sujet proche de celui de lextraction de suites daccords. e Deux sortes de solutions peuvent tre adoptes : soit on peut retirer les harmoniques e e prsentes dans le spectre ([6], [7]), soit les prendre en compte dans la cration des e e Pitch Class Proles ([8]). Pendant ce stage, nous avons repris dans un premier temps les direntes me e thodes prsentes ci-dessus, que nous avons implantes puis testes sur une base de e e e e donnes compose de deux des premiers albums des Beatles , Please Please Me et e e Beatles for Sale. Le choix de ces signaux audio se justie dune part par le fait que lon dispose de transcriptions symboliques prcises qui permettent de comparer les e rsultats obtenus avec les rsultats thoriques et dautre part que, depuis les travaux e e e de Sheh et Ellis sur lestimation de suites daccords, lvaluation des syst`mes a t e e ee faite sur ces morceaux, ce qui nous permet de comparer nos rsultats avec ceux obe tenus auparavant. Nous avons utilis deux approches pour estimer les suites daccords. Lune est e base sur la corrlation dobservations avec des mod`les thoriques, lautre est simie e e e laire ` celle propose par Bello et Pickens dans [5]. Nous les prsentons par la suite a e e et comparons leurs performances.

Syst`me initial e

Rappelons que lobjectif est destimer ` partir dun signal audio, la suite daca cords composant un morceau de musique. La premi`re partie du syst`me eectue e e lextraction dun vecteur reprsentant limportance des direntes hauteurs ` un e e a instant donn (vecteur de chroma). Ces informations sont de nature probabiliste. e A partir de ces observations, lobjectif sera destimer la suite daccords au cours du temps la plus probable. De mani`re quivalente ` la reconnaissance de parole, e e a ladjonction dun dictionnaire de grammaire musicale (estimation des probabilits e de transition entre accords) permettra de formuler lestimation sous forme dune cha de Markov cache. ne e Lestimation de suites daccords dun signal audio commence par une phase danalyse du signal. Dans la plupart des travaux mentionns dans ltat de lart, e e les techniques utilises pour rpondre au probl`me partent dune mme base, bien e e e e que des variations apparaissent dans la phase dimplantation. Nous avons dans un premier temps repris les tapes danalyse communes ` tous e a les syst`mes existants. Elles ont pour but dobtenir des vecteurs dobservation contee nant les caractristiques du signal audio. Elles consistent dabord ` transformer le e a signal temporel subdivis en trames dans le domaine frquentiel. Le spectre est e e 6

4.1 Observation et traitement du signal ensuite transorm dans le domaine des chromas ce qui permet dobtenir des vece teurs dobservation du signal ` travers le temps. Ces observations sont utilises pour a e construire la succession des accords au cours du temps, en formulant lestimation sous forme dune cha de Markov cache. ne e Nous prsenterons deux mthodes direntes. Leur dirence rside dans la mae e e e e ni`re de calculer les probabilits dtat du syst`me (soit par comparaison instantane e e e ne avec un mod`le thorique, soit en modlisant la distribution des observations e e e e par une gaussienne).

4.1
4.1.1

Observation et traitement du signal


Transformation du signal temporel dans le domaine frquentiel e

Le signal audio est chantillonn ` 11025Hz. Sil sagit dun signal au format e e a strophonique, il est converti en signal monophonique en prenant la moyenne sur ee les deux canaux. Il est ensuite divis en trames se recouvrant partiellement. e Dans un premier temps, nous avons x, ainsi que dans [4], [5], la taille des trames e ` N = 8212 points (ce qui correspond ` une taille de fentre danalyse de 0.743s) a a e et le taux de recouvrement ` 7/8. Le signal est alors transform dans le domaine a e frquentiel avec une transforme de Fourier discr`te ([1], [3], [9]) ou une constant Q e e e transform ( [5], [4], [10]) 4.1.2 Construction du chromagram

La notion de chroma a t introduite par le psychologiste Roger Shepard dans ee les annes 1960 [11]. Les chromas transforment les frquences en classes dquivae e e lence doctaves. Shepard a montr que deux dimensions sont ncessaires pour bien e e reprsenter la perception du syst`me auditif humain. Celle-ci peut tre reprensente e e e e par une hlice. (Voir gure 1). e La hauteur dune note (pitch (p)) en Hz peut tre dcrite par deux valeurs : le e e chroma (ou Pitch Class) (c) et la hauteur de ton (ou Pitch heigh) (h) . p = 2c+h (2)

Le chromagram (ou spectre de chroma) est une extension de la notion de chroma qui inclut la dimension temporelle. Il peut tre utilis pour reprsenter les proprits e e e ee de la distribution du spectre dnergie du signal ` travers les frquences et le temps. e a e Il sagit dune reprsentation compacte de la reprsentation spectrale (FFT ou CQ) e e du signal audio. Le chromagram sobtient en eectuant un mapping entre cette reprsentation e spectrale et un vecteur ` 12 dimensions reprsentant les 12 demi-tons de la gamme a e

4.1 Observation et traitement du signal

Fig. 1 Reprsentation de la perception de la hauteur par loreille humaine. Bn+1 e est une octave au-dessus de Bn . Extrait de [4] chromatique. La reprsentation sous forme de chromas est tr`s utilise dans les trae e e vaux relatifs ` lestimation automatique de tonalit, dharmonie ou daccords. ([12], a e [6], [13], [7], [4]...). Le calcul du chromagram est bas sur les Pitch Class Prole e (PCP) introduits par Fujishima en 1999. La procdure est la suivante : e Mapping des valeurs du spectre aux 12 demi-tons des pitch-classes. Pour chaque frquence fk on a : e fk ), 12) (3) 261.62 o` c(fk ) est la valeur associe ` fk sur lchelle des chromas et 261.61 corresu e a e pond ` la frquence dun C4. a e c(fk ) = mod(12log2 ( Calcul du vecteur de chroma ` 12 dimensions en additionnant les intensits de a e la transforme de Fourier des frquences de mme valeur c(fk ) : e e e Pour l = 1, . . . , 12 C(l) =
fk telle quec(fk )=l

A(fk )

(4)

Ici, le calcul du chromagram a t fait selon la mthode propose par Peeters ee e e dans [9]. Dans un premier temps, les frquences fk du spectre sont converties en notes e midi correspondant aux hauteurs des demi-tons : n(fk ) = 69 + 12log2 ( fk ) 440 (5)

Le spectre est ensuite fractionn en rgions centres sur les frquences n correse e e e pondant aux demi-tons appartenant ` lintervalle de frquences considres. Nous a e ee 8

4.2 Estimation de suite daccords base sur des HMM e avons dabord considr lintervalle [98Hz; 5250Hz] ce qui correpond aux notes alee lant du G2 au E8, ou encore aux notes midi de lintervalle [43; 112]. Nous construisons alors ce qui est nomm spectre de demi-tons dans [9]. Pour e cela, le spectre du signal est multipli avec un ensemble de ltres centrs sur les e e 1 2 frquences n = 43 + R , 43 + R , . . . , 112 o` R est un facteur qui dnit la rsolution e u e e du chromagram. Autrement dit, R correspond au nombre de ltres reprsentant un e chroma. Par exemple pour R = 3, un ltre reprsente un tiers de demi-ton. Le ltre e 2 1 Hn centr sur n [43 + R , 43 + R , . . . , 112] est dni par : e e 1 1 tanh((1 2x)) + (6) 2 2 o` x est la distance relative entre le centre du ltre n et les frquences de la u e tansforme de Fourier : x = R|n n(fk )|. e Hn = Les valeurs N(n) du spectre de demi-tons sont obtenues par : N (n ) =
fk

Hn (fk )A(fk )

(7)

o` les A(fk ) sont les valeurs de la transforme de Fourier. u e Le mapping entre les valeurs n du spectre de demi-tons et les chromas c est dni e par : c(n) = mod(n, 12). Les vecteurs de chroma C(l) ` 12 dimensions sont alors obtenus en cumulant les a valeurs du spectre de demi-tons correspondant ` un mme chroma : a e C(l) =
n tel que c(n )= l

N (n )

avec

l [0, 12[

(8)

Nous obtenons alors un spectre de chroma ou chromagram. Pour chaque trame, nous avons calcul un vecteur de chroma ` 12 dimensions qui correspondent aux 12 e a notes de la gamme C, C#, . . . , B. Ces vecteurs de chroma sont nos observations. Ils sont caractristiques du signal audio analys. e e La gure 2 correspond ` un morceau du chromagram obtenu ` partir du morceau a a I am a Loser de lalbum Beatles For Sale des Beatles. Les rgions les plus sombres e corrrespondent aux intensits les plus importantes. Nous pouvons distinguer ici la e suite daccords A majeur(A C# E), A# majeur(A# D F), D majeur(D F# A), G majeur(G B D), D majeur, G majeur, D majeur, G majeur.

4.2

Estimation de suite daccords base sur des HMM e

De mani`re quivalente ` la reconnaissance de parole, ladjonction dun dictione e a naire de grammaire musicale (estimation des probabilits de transition entre accords) e 9

4.2 Estimation de suite daccords base sur des HMM e


chromas prsents chaque instant B A# A G# G 0.4
pitch

0.6

0.5

F# F 0.3 E D# D C# C 40 42 44 46 48 50 temps (s) 52 54 56 58 60 0.1 0.2

Fig. 2 Exemple de chromagram extrait de I am a Loser de lalbum Beatles For Sale. permettra de formuler lestimation sous forme dune Cha de Markov Cache. ne e Lutilisation de Mod`le de Markov Cach (Hidden Markov Model, HMM) pour e e estimer automatiquement les accords, la structure, lharmonie ou la tonalit dun e morceau est assez courante ([3], [5], [9], [7]). Pickens et Bello en particulier obtiennent de bons rsultats pour lestimation de suites daccords en utilisant cette mthode. e e Les vecteurs de chroma sont utiliss pour entra e ner un HMM avec un tat pour e chaque accord pouvant tre distingu par le mod`le. e e e 4.2.1 Rappels thoriques sur les HMM e

Les mod`les de Markov cachs (Hidden Marov Models, HMM) ont t introduits e e ee par Baum et ses collaborateurs dans les annes 1960-70. Dabord utiliss en recone e naissance de la parole ` partir des annes 80 (Rabiner, [14], Gold et Morgan [15]), a e ils ont ensuite t appliqus ` la reconnaissance de textes manuscrits et ` la bioinee e a a formatique. Un HMM est un automate probabiliste, cest ` dire une structure compose a e dtats et de transitions, et dun ensemble de distributions de probabilits de transie e tion. Chaque tat gn`re une observation. Les tats de transition suivent la proprit e e e e ee markovienne qutant donn un tat prsent, le futur est indpendant du pass. e e e e e e Dnition : Un processus de Markov est un processus ` temps discret se troue a vant ` chaque instant dans un tat parmi N tats distincts. Les transitions entre a e e les tats se produisent entre deux instants discrets conscutifs selon une certaine loi e e de probabilit. La probabilit de chaque tat ne dpend que de ltat qui le prc`de e e e e e e e immdiatement. e

10

4.2 Estimation de suite daccords base sur des HMM e Un mod`le de Markov cach reprsente de la mme faon quune cha de Mare e e e c ne kov un ensemble de squences dobservation dont ltat de chaque observation nest e e pas observ mais associ ` une fonction densit de probabilit (pdf). Il sagit donc e ea e e dun processus doublement stochastique, dans lequel les observations sont une fonction alatoire de ltat et dont ltat change ` chaque instant en fonction des probae e e a bilits de transition issues de ltat antrieur. e e e On distingue trois probl`mes fondamentaux qui concernent les HMM : e Evaluation de la probabilit dune squence dobservations tant donn un moe e e e d`le dHMM. e Etant donn un mod`le, comment dterminer la squence dtats optimale qui e e e e e a donn naissance ` la squence dobservations ? e a e Etant donne une squence dobservations, comment ajuster les param`tres du e e e mod`le pour avoir la meilleure explication ? e Dans les probl`mes de reconnaissance, on sintresse en particulier ` la squence e e a e dtats qui a donn une squence dobservations. e e e Terminologie : Dans la suite, nous noterons : N le nombre dtats du mod`le. e e qt tat ` linstant t et Q = (q1 , . . . , qT ) lensemble des tats. e a e ot observation ` linstant t et O = (o1 , . . . , oT ) lensemble des observations. a aij = P [qt+1=j|qt =i ], 1 i, j N la probabilit de transition de ltat i ` ltat e e a e j. Ce sont les probabilits de passer dun tat i ` un tat j P (qi |qj ). Elles e e a e sont stockes dans une matrice de transition A dont les coecients sont les e aij = P (qi |qj ). B = bj (k) avec bj (k) = P [ot = vk |qt = i], 1 symboles observs. e = i avec i = P [q1 = i], 1 k k M la distribution des

N la distribution initiale.

Pour retrouver la squence dtats qui a donn naissance aux observations, un e e e crit`re doptimalit consiste ` choisir la squence dtats (ou chemin) qui apporte e e a e e un maximum de vraisemblance en respectant le mod`le donn. La squence dtats e e e e peut tre dtermine ` partir de lalgorithme de Viterbi. Celui-ci nous donne deux e e e a

11

4.3 Utilisation des HMM pour la dtection de suites daccords, modlisation e e gaussienne rsultats importants : e la slection parmi tous les chemins possibles dans un mod`le considr, du e e ee chemin qui correspond ` la squence dtats la plus probable au sens de la a e e probabilit de vraisemblance de la squence dobservations X. e e la probabilit de vraisemblance sur le meilleur chemin. e On pourra trouver une description dtaille de lalgorithme de Viterbi dans [14]. e e On sintresse par la suite au probl`me de trouver une squence dtats optimale e e e e (qui explique le mieux les observations) tant donne une squence dobservation e e e O = (o1 , oT ) et le mod`le = , A, B. , e

4.3

Utilisation des HMM pour la dtection de suites dace cords, modlisation gaussienne e

Lune des deux mthodes que nous avons utilises pour estimer de mani`re autoe e e matique la suite daccords de nos signaux audio consiste ` modliser la distribution a e des observations par une gaussienne ` 24 tats. Nous nous ref`rerons ` cette mthode a e e a e en parlant de mthode par modlisation gaussienne des observations . e e 4.3.1 Etiquettage des accords

Nos vecteurs dobservation sont de dimension 12. Nous voulons associer un label ` chacune des observations. Pour cela, on dnit un dictionnaire daccords contenant a e des mod`les daccords thoriques auxquels vont tre compares les observations. Le e e e e dictionnaire utilis est form des 24 accords de trois sons parfaits majeurs et pare e faits mineurs. Par simplicit, nous avons choisi dutiliser un dictionnaire de taille e limite ainsi que dans [5]. Dans [3] ou [4], dautres types daccords sont ajouts ` ce e e a eme eme dictionnaire (diminus et augents, 7 e e ou 9 par exemple). Nous avons donc un syst`me ` N = 24 tats. e a e

4.3.2

Distribution des tats initiale e

A priori nous navons pas de raison de prfrer un tat par rapport ` un autre ee e a (le morceau est susceptible a priori de commencer par nimporte quel accord). Cest 1 pourquoi on choisit une distribution initiale uniforme : 24 pour chacun des 24 tats. e 4.3.3 Matrice de transition [A]

Dans leurs travaux, Sheh et Ellis utilisent une initialisation alatoire de la mae trice de transition. Bello et Pickens ont montr que lintroduction de connaissance e musicale permet damliorer les rsutats de faon signicative. En eet, on ne peut e e c 12

4.3 Utilisation des HMM pour la dtection de suites daccords, modlisation e e gaussienne savoir si par exemple un accord de C majeur sera suivi par E majeur ou A mineur. Par contre, les r`gles musicales permettent darmer que ces hypoth`ses sont plus e e plausibles que F # majeur. Dans la plupart des styles de musique, en particulier dans la musique populaire, les changements dharmonie se font selon des r`gles bien tablies. De mani`re anae e e logue ` [5], nous intgrons cette notion en initialisant la matrice de transition avec a e le double cycle des quintes (voir gure 3). En musique, on appelle cycle des quintes, une succession, ascendante ou descendante, de notes spares par des intervalles de e e quinte juste.

Fig. 3 Figure du double cycle des quintes.Extrait de [5]


12+ Nous donnons ` la transition de C C une probabilit de 144+24 , o` est une a e u 11+ constante dattnuation tr`s petite. La probabilit de transition C E vaut 144+24 , e e e 0+ ` et de mme jusqu` la probabilit de transtion C F# qui vaut 144+24 . A partir de e a e 1+ ce point, les probabilits de transition augmentent ` nouveau de C B b = 144+24 e a 11+ ` C A = 144+24 . a

Pour chaque tat on calcule de mme les probabilits de transition avec chacun e e e des 23 autres tats en donnant la valeur la plus leve ` la probabilit de transition e e e a e dun tat avec lui-mme puis en donnant un poids aux transtions entre cet tat et e e e les autres tats en fonction de leur distance sur le cercle des quintes. (Voir gure 4 e pour la marice de transition). 4.3.4 Distribution des observations [B]

On suppose la fonction de distribution des observations continue. Pour la modliser, on utilise une gaussienne ` 24 tats corespondant au 24 accords mineurs e a e et majeurs, chacun dcrit par un vecteur moyen et une matrice de covariance . e 13

4.3 Utilisation des HMM pour la dtection de suites daccords, modlisation e e gaussienne
CM C#M DM D#M EM FM F#M GM G#M AM A#M BM cm c#m dm d#m em fm f#m gm g#m am a#m bm CM C#M D#M FMF#M G#M DM EM GM AMA#MBM cmc#mdmd#mem fm f#mgmg#mama#mbm 0.08

0.07

0.06

0.05

0.04

0.03

0.02

0.01

Fig. 4 Matrice de transition des tats e Dans [3], linitialisation de et de est alatoire. Bello et Pickens ont montr dans e e [5] que lintroduction de connaissance musicale dans la distribution des observations permet galement damliorer lestimation des accords. e e Les vecteurs moyens, qui reprsentent les accords thoriques doivent donc ree e ter cette connaissance musicale. Ainsi, de mme que dans [5], pour ltat de C e e e majeur, on initialise ` 100010010000 : 1 pour les dimensions correspondant aux a notes prsentes dans laccord C, E et G, 0 ailleurs. On initialise de la mme mani`re e e e les vecteurs moyens des 23 autres tats, par permutation circulaire. (Voir la gure 5). e
CM C#M DM D#M EM FM F#M GM G#M AM A#M BM cm c#m dm d#m em fm f#m gm g#m am a#m bm C C# D D# E F F# G G# A A# B

Fig. 5 Matrice des observations thorique e La covariance est intuitivement une mesure de la variation simultane de deux e variables alatoires. La covariance devient plus positive pour chaque couple de vae 14

4.4 Estimation de suite daccords par corrlation e leurs qui di`rent de leur moyenne dans le mme sens et plus ngative pour chaque e e e couple de valeurs qui di`rent de leur moyenne dans le sens oppos. Les notes qui e e appartiennent ` un mme accord sont lies entre elles et lon va dcrire dans notre a e e e matrice de covariance comment ces notes varient simultanment. e La thorie musicale et les rsultats obtenus empiriquement par Krumhansl dans e e [16] ont montr que la dominante est plus importante que la mdiante dans la cae e ractrisation dun accord de trois sons. Nous avons dans un premier temps repris les e valeurs xes empiriquement dans [5]. e Pour ltat de C majeur, les notes C, E et G sont fortement corrles avec ellese ee mme, on xe donc ` 1 la variance de ces notes. En accord avec les rsultats obtenus e a e par Krumhansl, on xe ` 0.8 la valeur de la covariance de la tonique avec la domia nante ainsi que de la mdiante avec la dominante et ` 0.6 celle de la covariance de la e a tonique avec la mdiante. Les valeurs de la diagonale autres que celles corespondant e aux notes de laccord sont xes ` 0.2 an dassurer que la matrice est semi-dnie, e a e positive. Les autres valeurs de la matrice de covariance sont xes ` 0 pour indiquer e a que lon consid`re quil y a indpendance entre les notes de laccord et celles qui e e ne lui appartiennent pas. Les 11 autres matrices de covariance du mode majeur se dduisent de celle correspondant ` C majeur par permutation circulaire. e a Les matrices de covariance du mode mineur sont construites de la mme mani`re e e ` partir de la matrice de covariance de C mineur. Celle-ci di`re de C majeur par la a e tierce : on xe ` 1 la variance de C, D# et G et non plus C, E, G. (Voir les gures 6 a et 7).

4.4

Estimation de suite daccords par corrlation e

Cette mthode sinspire de celle propose par Harte et Sandler pour lestimae e tion de suite daccords dans [4]. Les vecteur dobservations sont compars ` un e a ensemble de templates ou mod`les thoriques qui correspondent aux tats dans lee e e quel le syst`me peut se trouver. Par soucis de simplicit, nous nous sommes limits e e e ` un dictionnaire de 24 accords de trois sons (12 majeurs, 12 mineurs). Ce sont des a vecteurs ` 12 dimensions contenant des 1 lorsque la note est prsente dans laccord a e et 0 sinon. Par exemple pour C majeur le mod`le est 100010010000. Ces templates e sont nots ci , o` i [1; 24]. e u Pour chaque trame du chromagram, nous calculons le rsultat de la multiplicae tion du vecteur de chroma par les 24 templates distincts. Nous obtenons donc un ensemble de 24 valeurs que nous normalisons de mani`re ` ce que la somme fasse 1, e a ce qui nous fournit un ensemble de pseudo probabilits notes P (ci ) avec i [1; 24]. e e Le syst`me peut se trouver dans lun des 24 tats correspondant aux 24 accords mae e jeurs ou mineurs possibles. La valeur de P (ci ) la plus leve correspond bien sr ` e e u a laccord le plus probable.

15

4.4 Estimation de suite daccords par corrlation e


1 C C# D D# E F 0.5 F# G G# A A# B C C# D D# E F F# G G# A A# B 0 0.4 0.9

0.8

0.7

0.6

0.3

0.2

0.1

Fig. 6 Matrice de covariance pour C majeur


1 C C# D D# E F 0.5 F# G G# A A# B C C# D D# E F F# G G# A A# B 0 0.4 0.9

0.8

0.7

0.6

0.3

0.2

0.1

Fig. 7 Matrice de covariance pour C mineur Nous pouvons alors faire une estimation instantane des accords du morceau en e choisissant ` chaque instant laccord correspondant ` la valeur donne par maxP (ci ). a a e Cependant une estimation instantane ne correspond pas ` la ralit puisque la e a e e progression des accords dans le temps suit une logique lie aux r`gles musicale. Ainsi e e que nous lavons vu, il est plus probable quun accord de C majeur soit suivi par un accord de G majeur que par un accord de A# majeur. Lintroduction dune matrice de transition va nous permettre de tenir compte de ces proprits. Nous prenons ee ici la mme matrice de transition que celle utilise dans le cas de la mthode par e e e modlisation gaussienne des observations . e Pour chaque trame danalyse, nous obtenons 24 valeurs comprises entre 0 et 1 qui correspondent ` la probabilit dtre dans lun des 24 tats possibles. Trouver la a e e e suite daccords la plus probable dans le temps revient ` choisir ` chaque instant le a a 16

meilleur chemin parmi les 24 possibles, ce que nous faisons en eectuant un dcodage e Viteri. Nous nous rfrerons ` cette mthode en parlant de mthode par corrlation ee a e e e avec des templates . 1

Dveloppements du syst`me e e

Les rsultats obtenus par le syst`me initial ne sont pas tr`s satisfaisants (le taux e e e de bonne reconnaissance des accords atteint seulement 30% environ). Nous avons cherch ` identier les dfauts du syst`me et ` les corriger. Ce travail fait lobjet de ea e e a cette section.

5.1
5.1.1

Amliorations de la partie signal e


Tuning

Le tuning des enregistrements dont on dispose nest en gnral pas parfait. En e e eet, il est possible que les instruments utiliss pour lenregistrement naient pas e t accords selon le tuning classique de 440Hz. Dautre part, le tuning peut tre ee e e modi par lenregistrement. La dirence entre le tuning dune pi`ce et la position e e e thorique des pics dnergie du signal peut avoir une grande inuence sur lestimation e e des accords. Cest pourquoi il est ncessaire de restimer le tuning de chaque pi`ce e e e an de pouvoir utiliser de mani`re cohrente le syst`me que nous avons construit. e e e Nous utilisons la mthode propose par Peeters dans [9] e e Le tuning de la pi`ce est suppos rester constant au cours du temps. Nous chere e chons quel est le tuning qui explique le mieux le spectre dnergie du signal. Un e ensemble de tunings compris entre 427Hz et 452Hz, frquences correspondant aux e quarts de ton au dessous et au dessus du A4 est test. Pour chacun, nous calculons la e part du spectre dnergie pouvant tre explique par lnergie situe aux frquences e e e e e e correspondant aux demi-tons bass sur ce tuning. Pour cela, pour chaque tuning t et e chaque trame m on calcule lerreur suivante : (il sagit de mesurer le rapport entre lnergie du spectre explique par le tuning test et lnergie totale du spectre) e e e e (t, m) = 1
ft

A(ft , m) f A(f, m)

(9)

o` A est lamplitude de la transforme de Fourier et ft la frquence corresponu e e dant aux demi-tons bass sur le tuning test. Le tuning est choisi tel que sa valeur e e minimise lerreur calcule dans le temps. e
Jai donn ` cette mthode le nom de mthode par corrlation avec des templates par e a e e e analogie avec une mthode utilisant un calcul de corrlation. La multiplication avec les templates e e aurait pu tre remplace par le calcul dune corrlation entre vecteur de chroma et templates ; e e e cependant, cest par la mthode employe que nous obtenons les meilleurs rsultats. e e e
1

17

5.1 Amliorations de la partie signal e Le signal est ensuite rechantillonn de mani`re ` le ramener ` un tuning de 440 e e e a a Hz, ce qui permet de baser le reste du syst`me sur un tuning de 440Hz. e La gure 8 reprsente lhistogramme des tunings estims pour chacun des deux e e albums des Beatles Please Please Me et Beatles for Sale. Nous pouvons voir que le tuning de lensemble des morceaux du premier CD est tr`s loin de 440 Hz. Lajout e du tuning amliore de 10% relatifs environ les rsultats. e e
histogramme du tuning estim pour le CD Please Please Me 6 5 4 3 2 1 0 430 431 432 433 434 435 436 437 438 439 440

histogramme du tuning estim pour le CD Beatles for Sale 4

0 439

439.5

440

440.5

441

441.5

442

442.5

443

443.5

Fig. 8 Histogramme des tunings estims pour les albums Please Please Me et e Beatles for Sale

5.1.2

Taille de la fentre, rsolution frquentielle/temporelle e e e

Le signal audio est fentr avec une fentre danalyse de type Blackman. La rsoe e e e lution frquentielle dnie par f = f s/N , o` f s est la frquence dchantillonage e e u e e en Hz et N la taille de la fentre en nombre dchantillons, dpend de la taille de la e e e fentre danalyse. e Celle-ci a une inuence sur les observations obtenues ` la sortie du syst`me. a e Jusqu` maintenant, nous avons utilis une fentre de taille 0.743s, ce qui est relaa e e tivement lev en termes dharmonie musicale. Les trames successives se recouvrent e e 1 e e avec un pas de 8 , an damliorer la rsolution temporelle. Cependant nous avons remarqu que lon peut obtenir de meilleurs rsultats sans utiliser une fentre de e e e taille aussi importante. Nous ne prenons pas en compte les tr`s hautes frquences dans notre analyse, e e ces parties du spectre tant en gnral tr`s bruites en raison des sons percussifs, de e e e e e la friction des cordes, etc. Nous avons choisi la taille de la fentre en fonction de la rsolution ncessaire ` e e e a lintervalle de frquences considr. Plus on sapproche des basses frquences, plus e ee e 18

5.1 Amliorations de la partie signal e les notes sont rapproches en frquence les unes des autres. Pour sparer ces notes, e e e le crit`re classique utilis est la largeur de la fentre ` puissance moiti (` 3dB). e e e a e a Pour pouvoir sparer tout couple de pics du spectre, il faut que la dirence entre e e deux lobes principaux soit suprieure ` la largeur de bande ` puissance moiti (voir e a a e gure 9).

Fig. 9 Rsolution spectrale.A gauche, pas de sparation des pics. A droite, spae e e ration des pics. Extrait de [17] Par exemple considrons les frquences du signal ` partir de 40 Hz. Nous voulons e e a pouvoir sparer tout couple de notes adjacentes. Les frquences en Hz du D#1 et du e e E1 son gales respectivement ` 38.9Hz et 41.2Hz. La dirence de frquence entre e a e e ces deux notes adjacentes de 2.3Hz. Pour une fentre de Blackman, la largeur de e bande ` 3dB est gale ` 1.68 Bins. Pour pouvoir sparer ces deux notes, il faut a e a e 1.68 que la fentre soit de taille suprieure ` 3.3 = 0.51s. e e a 5.1.3 Filtrage mdian e

On applique un ltrage mdian sur 10 points au signal ` la sortie des ltres, e a avant le mapping du spectre de demi-tons vers le spectre de chromas dans le calcul du chromagram. Ce ltrage mdian permet de rduire les transitoires et les bruits e e tels que les sons de batterie qui faussent le calcul du chromagram. En eet, ces bruits perturbent le spectre du signal en se mlangeant et en recouvrant les composantes e harmoniques du signal. Appliquer un ltrage mdian ` la sorte du chromagram permet damliorer tr`s e a e e lg`rement (de lordre de 0.5% relatifs) les rsultats car des changements daccords e e e en des tr`s courts intervalles de temps sont peu probables. e

19

5.2 Introduction du mod`le de Gomez dans le syst`me e e 5.1.4 Echelle utilise dans la reprsentation spectrale : nergie, amplie e e tude, sones

Nous avons test linuence de lchelle utilise dans la reprsentation spectrale. e e e e Le choix de cette chelle peut inuencer de faon importante les observations obtee c nues en sortie du chromagram et donc les rsultats. Les direntes chelles utilises e e e e sont : Echelle damplitude Echelle dnergie e Echelle des sones. Il sagit dune chelle quantitative qui permet de mesurer e lintensit sonore relative entre deux sons, autrement dit de prciser si un son e e est deux fois plus fort ou moins fort quun son de rfrence. Nous utilisons la ee formule suggre par Bladon et Lindbloom en 1981 ee As (k) = 2 10 (Adb (k)40) if Adb (k) > 40 = 1/40Adb (k)2.642 else
1

(10) (11)

5.2
5.2.1

Introduction du mod`le de Gomez dans le syst`me e e


Prsentation du mod`le e e

La plupart des mthodes utilises jusqu` prsent pour lestimation daccords e e a e adoptent une approche similaire : on calcule dabord la corrlation entre les vecteurs e dobservation et des templates reprsentant la distribution de chroma thorique pour e e chaque accord. Lun des principaux dfauts du syst`me que nous avons construit jusqu` prsent e e a e est quil ne tient pas compte des harmoniques du signal observ. En eet, dans la e reprsentation spectrale du signal audio, on observe, non pas lintensit des die e e rentes notes composant le signal, mais un mlange de leurs harmoniques. De mme, e e ces harmoniques sont prsentes dans le chromagram qui est une reprsentation come e pacte du spectre. Par exemple, dans un accord de C majeur compos des notes C, E et G, la troie si`me harmonique du C qui est un G renforce la valeur du G dans le chromagram. e Lorsque trois notes sont joues simultanent, il y aura dans le chromagram un cere e tain nombre de partiels dintensit non ngligeable ` des pitch class autres que celles e e a correspondant aux notes de laccord. La prsences de ces harmoniques ntant pas e e prise en compte, il en rsulte des erreurs dans lestimation des accords. e La gure 10 illustre ces propos. Elle reprsente les valeurs du chromagram pour e un accord de C majeur jou par un violoncelle (G4), une te (C5) et une trompette e u (E5). Nous pouvons voir quil y a de lnergie prsente ` chaque point du chromae e a gram, bien que les instruments ne jouent que les notes de laccord. Cette nergie e 20

5.2 Introduction du mod`le de Gomez dans le syst`me e e

Fig. 10 Chromagram pour un accord de C majeur et templates pour C majeur et E mineur.Extrait de [18] vient des harmoniques contenues dans le spectre. Nous pouvons voir que la classe de hauteur correspondant ` B contient plus dnera e gie que celle correspondant ` C. Ainsi, si on calcule la corrlation entre le vecteur a e de chroma obtenu et les templates correspondant ` C majeur (100010010000) et E a mineur (000010010001), le template correspondant ` E mineur sera plus fortement a corrl au vecteur de chroma de C majeur que le template correspondant ` C majeur. ee a Remarquons que ce probl`me a dja t soulev par [18], dans le cas de la recone e ee e naissance automatique daccords. Lee propose de remplacer lutilisation des vecteurs de chroma par une nouvelle approche base sur la perception humaine et dutiliser e une fonction quil nomme Summary Autocorrelation Function. Nous avons dcid e e de continuer ` utiliser le chromagram mais de prendre en compte linuence des a harmoniques. Dans [8], Gomez propose de remplacer les vecteurs de chroma ou Pitch Class Proles de Fujishima [1] par des Harmonic Pitch Class Proles (HPCP). Ceuxci prennent en compte les harmoniques prsents dans le spectre en utilisant une e enveloppe spectrale thorique qui dtermine leurs amplitudes. Lenveloppe spectrale e e est choisie de mani`re ` ce que la contribution des harmoniques dcroit avec la e a e frquence. En notant f0 la frquence fondamentale (premi`re harmonique) dune e e e note, lamplitude de la heme harmonique vaut sh1 o` s est un facteur de dcroissance u e spectrale x empiriquement ` 0.6. Dans [8] et [7], seules les 4 premi`res harmoniques e a e du signal ont t prises en compte. Nous avons introduit ce mod`le dans notre ee e syst`me avec 4 et 6 harmoniques. Lemploi de 6 harmoniques permet dobtenir les e meilleurs rsultats, ainsi que nous le verrons par la suite. e

21

5.2 Introduction du mod`le de Gomez dans le syst`me e e 5.2.2 Evaluation du mod`le de Gomez e

Avant dintroduire dans notre syst`me le mod`le propos par Gomez, nous lavons e e e test sur un ensemble daccords construits ` partir de notes joues par divers instrue a e ments. Lenveloppe spectrale thorique du son produit par un instrument dpend e e normalement non seulement de linstrument mais aussi de la tessiture, de lintensit e du jeu, etc. Nous construisons un ensemble daccords tests (majeurs et mineurs) ` partir de a notes joues par un ensemble dinstruments varis (cordes, cuivres, bois. . . ). Cet ene e semble daccords tests est reprsentatif de ltendue de la tessitures des instruments. e e Pour chaque accord test ci , nous calculons la corrlation de cet accord avec les 24 e templates correspondants aux 24 accords majeurs et mineurs ci .( Pour la cration de e ces templates, voir section 4.4, paragraphe Vecteurs moyens ). Laccord identi e par le syst`me est celui dont la valeur de la corrlation est la plus leve parmi les e e e e 24 valeurs calcules. e Les rsultats obtenus montrent que les accords majeurs sont correctement identie s ` 75% (rsultats pour 6 harmoniques pris en compte). Ces rsultats sont quivae a e e e lents en moyenne ` ceux obtenus en utilisant des templates sans prendre en compte a les harmoniques. Cest pourquoi nous prendrons soin de toujours comparer par la suite les rsultats que nous obtenons en tenant compte ou non des harmoniques. Il e faut noter que les erreurs surviennent uniquement lorsque laccord test appartient e ` la limite de la tessiture des instruments (extrme aig ou grave). Dans le cas de la a e u musique populaire en particulier (o` les instruments sont en gnral sollicits dans u e e e le mdium de leur tessiture), ce mod`le sera donc a priori satisfaisant. e e 5.2.3 Introduction du mod`le de Gomez dans les matrices de moyenne e et de covariance

Les vecteurs moyens et les matrices de covariance des tats correspondant ` C e a majeur et C mineur sont construits puis on en dduit les param`tres des autres e e mod`les par permutation circulaire. e 5.2.3.1 Vecteurs moyens Nous rappelons ici les premi`res harmoniques des e notes composant les accords de C majeur et C mineur et donnons la valeur de leur amplitude dans le spectre selon le mod`le de Gomez dans les tableaux 1 et 2 e C majeur note C E G amplitude attribue e harmoniques C C G C E E E B E G# G G D G B 1 0.6 0.36 0.216 0.1296 G B D 0.0778

Tab. 1 Contribution des premi`res harmoniques pour un accord de C majeur e

22

5.2 Introduction du mod`le de Gomez dans le syst`me e e C mineur note C D# G amplitude attribue e harmoniques C C G C E G D# D# A# D# G A# G G D G B D 1 0.6 0.36 0.216 0.1296 0.0778

Tab. 2 Contribution des premi`res harmoniques pour un accord de C mineur e On obtient les vecteurs moyens prsents dans le tableau 3. e e notes C C# D D# E F F# G G# A A# B C majeur 4 harmoniques 6 harmoniques 1.816 1.816 0 0 0.36 0.4378 0 0 1.816 1.9456 0 0 0 0 2.176 2.2538 0 0.1296 0 0 0 0 0.36 0.5674 C mineur notes 4 harmonique 6 harmoniques C 1.816 1.816 C# 0 0 D 0.36 0.4378 D# 1.816 1.816 E 0 `.1296 a F 0 0 F# 0 0 G 2.176 2.3834 G# 0 0 A 0 0 A# 0.36 0.4378 B 0 0.1296

Tab. 3 Amplitudes des notes des templates daccords avec mod`le de Gomez e Ces vecteurs moyens correspondent galement aux 24 templates de rfrence e ee utilise par la mthode par corrlation avec templates . e e e 5.2.3.2 Matrices de covariance Nous avons considr linuence des 4 preee mi`res harmoniques dans la matrice de covariance. Nous donnons ` nouveau les e a rsultats pour laccord de C majeur, les autres cas sen dduisant aisment. e e e Jusqu` prsent, nous avons considr que seules les notes C, E et G composant a e ee laccord taient corrles entre elles. Nous allons maintenant considrer que leurs e ee e 4 premi`res harmoniques sont galement corrles entre elles. Nous raisonnons de e e ee la mani`re suivante : si C change, G change obligatoirement aussi ; de mme, si E e e change, B change galement, ainsi que D lorsque G change. Nous ajoutons alors dans e la matrice de covariance des valeurs correspondant ` la corrlations entre ces notes. a e Celles-ci sont xes empiriquement, mais en respectant les r`gles dordre tablies e e e lors de la construction de la matrice de covariance dans la section 4.

23

5.3 Synchronisation sur les tactus


1 C C# D D# E F 0.5 F# G G# A A# B C C# D D# E F F# G G# A A# B 0 0.4 0.9

0.8

0.7

0.6

0.3

0.2

0.1

Fig. 11 Matrice de covariance pour C majeur, avec prise en compte des 4 premires harmoniques
1 C C# D D# E F 0.5 F# G G# A A# B C C# D D# E F F# G G# A A# B 0 0.4 0.9

0.8

0.7

0.6

0.3

0.2

0.1

Fig. 12 Matrice de covariance pour C mineur, avec prise en compte des 4 premires harmoniques

5.3

Synchronisation sur les tactus

Bello et Pickens reprennent dans [5] lide de Bartsch et Wakeeld [2], de calculer e le chromagram en se synchronisant sur les battements (tactus) du morceau. Pour cela, apr`s avoir calcul le chromagram trame par trame, on fractionne celui-ci en e e segments dont le dbut et la n correspondent ` un battement puis on prend la e a valeur moyenne des vecteurs de chroma se trouvant entre les deux tactus. Nous obtenons galement de meilleurs rsultats en nous synchronisant sur les e e tactus. Cependant nous nobtenons quune amlioration relative de 1.5% environ. e Cela peut sexpliquer par le fait que nous avons ajout un ltrage mdian lors de e e la construction du chromagram, ce qui diminue linuence du fait de moyenner le 24

5.4 Rappels sur lanalyse linaire discriminante (ALD) e chromagram sur les tactus. Remarque : Etant donn que nous ne disposons pas encore pour le moment e des tactus pour chacun des morceaux, les rsultats ci-dessous seront donns sans e e synchronisation sur les battements.

5.4

Rappels sur lanalyse linaire discriminante (ALD) e

Nous faisons ici quelques rappels sur lanalyse linaire discriminante dont nous e nous servirons par la suite. Lanalyse linaire discriminante est une technique utilise dans de nombreux e e domaines qui sert ` dterminer la contribution des variables qui expliquent lappara e tenance dlments ` un groupe. On tudie les donnes provenant de groupes connus ee a e e a priori. Deux buts principaux : Parmi les groupes connus, quelles sont les princiales dirences que lon peut e dterminer ` laide des variables mesures ? e a e Peut-on dterminer le groupe dappartenance dune nouvelle observation unie quement partir des variables mesures ? e Dans notre cas, nous cherchons ` discriminer deux groupes (majeur et mineur). a Les variables sont des vecteurs ` 12 dimensions (12 variables mesures). On cherche a e une combinaison linaire des variables qui permettrait de maximiser la discriminae tion entre les deux classes majeur et mineur. Il sagit donc de trouver un vecteur qui spare du mieux possible les groupes. Nous noterons : e n : nombre dobservations, ici nombre de trames utilises pour lanalyse dise criminante, p : nombre de variables mesures, ici 12, e k : nombre de groupes, ici 2, B : matrice de variabilit entre les groupes (), e W : matrice de variabilit dans les groupes (), e T : matrice de variabilit totale. e Nous cherchons un vecteur u de mani`re ` ce que la projection sur ce vecteur e a transforme lespace des observations (vecteurs de chroma) en un nouvel espace o` la u discrimination est maximum. Nous devons pour cela maximiser la variabilit intere groupes par rapport ` la variabilit totale. u doit maximiser le rapport : u Bu a e u Tu Cela revient, apr`s calculs ` rsoudre : e a e T 1 Bu = u et

25

u T u = 1. Le vecteur recherch est le vecteur propre associ ` la plus grande valeur propre e ea 1 de T B. aspect clasication Supposons que lon a de nouvelles observations que lon veut classer dans lun des deux groupes. Une observation sera classe dans le groupe pour lequel la probabili e e dappartenir ` ce groupe tant donn les valeurs observes est maiximum. En praa e e e tique, on ne peut calculer ces probabilits que si les observations proviennent dune e loi multinormale (ou sen rapprochent le plus possible).

Implantation

Limplantation des direntes mthodes vues auparavant a t ralise sous mate e ee e e lab. Pendant ce stage, une tr`s large part du temps a t consacre ` la programe ee e a mation des algorithmes.

6.1

Schma du syst`me complet e e

Nous donnons ici (voir gure 13) le schma global du syst`me an dillustrer le e e rle des fonctions programmes sous matlab. o e

6.2

Fonctions programmes sous matlab e

On trouvera ci-dessous un bref descriptif des fonctions programmes. e Les morceaux des deux CD des Beatles sont classs par la fonction Fdatae base beatles . Celle-ci nous permet daccder au chier son. wav, ` la transcripe a tion .lab, aux tactus ainsi qu` la valeur de dcalage ventuel entre la transcription a e e des accords et la le signal audio dont on dispose. La fonction principale prend en entre le numro du morceau dont on veut exe e traire la suite daccords et nous renvoie lestimation insantane des accords ainsi que e la suite daccords la plus probable dans le temps obtenue par dcodage Viterbi. Elle e nous donne galement le pourcentage des erreurs qui ne sont pas trop graves (voir e section suivante). Le schma de la procdure est le suivant : e e Recherche du morceau dans la base de donnes avec Fdatabase beatles, e Lecture du chier .wav, transformation au format mono en prenant la moyenne sur les deux canaux,

26

6.2 Fonctions programmes sous matlab e

F_database_beatles

LECTURE DU FICHIER SON

F_parametres_analyse

CHOIX DES PARAMETRES

F_noteband * TUNING F_gettuning *

HMM toolbox

F_chromagram (ou F_chromagram_tactus *)

CHROMAGRAM

F_matcov F_matmoy F_mattrans

F_learn_HMM

APPRENTISSAGE

F_decodage_ correlatation

F_decodage_ gaussienne

DECODAGE

F_ALD*

F_quantification _erreurs

* : tape intgrant des fonctions dvelopps par G. Peeters : tape optionnelle

RESULTAT

Fig. 13 Schma rcapitulatif des principales fonctions implantes e e e Soustraction de la composante continue (moyenne du signal) ventuelle, e Entre des param`tres danalyse ` laide de la fonction Fparametres analyse, e e a T n : longueur totale du signal L sec : longueur de la fentre utilise en secondes e e L n : taille de la fentre en nombre dchantillons e e 27

6.3 Exemple STEP n : pas davancement en nombre dchantillons e nbr frame : nombre de trames fenetre v : fentre danalyse e N : nombre de points de la FFT minfreq hz : borne minimale des ltres maxfreq hz : borne maximale des ltres Calcul des ltres avec la fonction Fnoteband, Tuning avec la fonction Fgettuning qui nous donne le meilleur tuning estim e parmi ceux tests, le coecient de rechantillonnage ncessaire pour le ramener e e e ` un tuning de 440Hz, le signal rechantillon et le param`tres correspondant, a e e e Calcul du chromagram avec la fonction F chromagram Vecteurs moyens et matrice de covariane obtenus par les fonctions Fmatrice obsth et Fmatrice cov, Distribution des probabilits initiales et matrice de transition obtenue par e Fmatrice trans, Dcodage Vierbi avec la fonction Ftest viterbi, e Evaluation des erreurs avec la fonction Fquantication des erreurs qui nous donne la pourcentage des erreurs correspondant aux parall`les majeur/mineur, e relatives majeur/mineur ainsi que les confusions avec la dominante ou la sousdominante. Il est possible de rajouter dautre fonctionnalits telles queectuer lapprentise sage de la matrice de transition ou faire une analyse discriminate. Lors de ce stage ont t programmes environ 60 fonctions direntes qui ont ee e e servi pour tester les direntes mthodes proposes, y compris certaines que lon e e e na pas retenues ensuite (constant Q par exemple). Lensemble du syst`me nal est e constitu dune trentaine de fonctions. e

6.3

Exemple

La gure 14 montre un exemple des rsultats obtenus par notre syst`me. Elle a e e t obtenue par la mthode par corrlation avec des templates . Le rsultat obee e e e tenu pour ce morceau est de 82% de bonne reconnaissance des accords sur les trames.

28

accords : vraisemblance instantanne vert, viterbi bleu, transcription rouge bm a#m am g#m gm f#m fm em d#m dm c#m cm BM A#M AM G#M GM F#M FM EM D#M DM C#M CM 20 40 60 80 100 120

Fig. 14 Exemple de rsultat. I am a Loser, Beatles for Sale (82% de bonne recone naissance sur les trames). Vert : vraisemblance instantane. Bleu : dcodage Viterbi. e e Rouge : Transcription thorique e

Evaluation des rsultats e

Les rsultats sont valus sur une base de donnes annote compose de deux e e e e e e CD des Beatles prsents prcdement. Nous disposons pour chacun des morceaux : e e e e du signal audio au format .wav, de la transcription thorique .lab, e Le calcul du taux de bonne reconnaissance des accords est fait en moyenne sur lensemble des trames ( environ 33000 trames pour des dures de morceaux comprises e entre 90s et 150s).

7.1

Rsum e e

Nous avons regroup par la suite dans des tableaux les rsultats obtenus en ree e prenant un ` un les divers lments du syst`me prsents prcdement an den a ee e e e e e donner une justication quantitative. Les tableaux indiquent les param`tres du moe d`le choisi pour chaque exprience et le rsultat correspondant pour chaque CD et e e e en moyenne sur les deux. Les param`res considrs sont : e ee tuning / non tuning, rsolution (nombre de ltres considrs), e ee ltrage mdian / non ltrage mdian, e e prise en compte des harmoniques ou non, taille de la fentre, e bornes des frquences, e chelle (amplitude, nergie, sones). e e

29

7.2 Analyse

7.2

Analyse

Les rsultats obtenus par notre syst`me sont intressants par rapport ` ceux obe e e a tenus par les travaux antrieurs sur la dtection de suites daccords. e e La mthode par modlisation gaussienne des observations di`re de celle proe e e pose par Bello et Pickens dans [5] par deux points principaux : dune part nous e navons pas eectu dentra e nement de la matrice de transition, dautre part nous avons pris en compte les harmoniques du signal audio dans la cration des param`tres e e du mod`le. Les rsultats que nous obtenons avec cette mthode sans synchronisation e e e sur les tactus sont comparables et mme lg`rement meilleurs que ceux obtenus dans e e e [5]. Remarquons que dans [5], aucun rsultat na t donn sans apprentissage de e ee e la matrice de transition. Dautre part, la mthode par corrlation avec templates peut tre compare ` e e e e a celle propose par Harte et Sandler dans [4]. L` aussi nous avons ajout deux prine a e cipales contributions : prise en compte des harmoniques dans lanalyse et dcodage e Viterbi. Les rsultats que nous obtenons par cette mthode ` partir du chromagram e e a sont nettement suprieurs ` ceux obtenus par la mthode par modlisation gause a e e sienne des observations . Les rsultats pour les deux albums des Beatles sont tr`s dirents. Le syst`me e e e e obtient un rsultat de 73% daccords bien identis en moyenne sur les trames, pour e e le quatri`me album Beatles for Sale alors que lon nobtient que 61% daccords bien e identis pour le second album, Please Please Me. La dirence est probablement e e due, dune part au styles des deux CD (dans le premier sont utiliss des guitares lce ee triques ainsi que des harmonicas comme instruments solo alors que dans le deuxi`me e ce sont des guitares acoustiques et des instruments ` clavier qui sont en majorit a e utiliss...), dautre part au type d accords qui les composent. e La plupart des accords de la transcription sont des accords majeurs et mineurs de trois sons. Cependant, il y a galement des accords de quatre ou cinq sons ainsi e que dautres accords de trois sons (par exemple quinte diminue). Ces accords sont e une source derreurs de reconnaissance du syst`me. Un accord de 7eme majeure, par e exemple (C E G B) correspond dans notre syst`me ` C majeur (C E G) mais aurait e a pu galement correspondre ` E mineur (E G B). Cependant, par simplicit, nous e a e navons retenu quune des deux solutions. Nous avons remarqu que pour certains morceaux, le syst`me choisit E mineur plutt e e o que C majeur alors que cest linverse pour dautres. La mani`re dont a t eectu e ee e le mapping entre la transcription des accords relle et le dictionnaire utilis a donc e e une inuence sur les rsultats. Remarquons que celle-ci est parfois non ngligeable e e car, si en nombre daccords, ceux qui nappartiennent pas ` notre dictionnaire ne a reprsentent que 10% du nombre total des accords, leur dure est parfois longue come e pare aux autres accords du morceau et pour certains, ils vont reprsenter jusqu` e e a un quart de la dure totale du morceau, ce qui, pour les raisons dcrites ci-dessus e e dgrade parfois nos rsutats... e e 30

7.2 Analyse

7.2.1

Apprentissage

Lutilisation de HMM devrait permettre destimer les suites daccords sans avoir ` introduire aucune connaissance musicale dans le mod`le (prsence dharmoniques a e e dans le spectre dune note, probabilits de transition entre accords...). En eet, les e param`tres seraient appris ` partir dun ensemble de morceaux dentrainement. e a Les rsultats que nous avons obtenus en utilisant les morceaux dun CD comme e ensemble de morceaux dentrainement et en testant le syst`me sur lautre album e donnent de bien moins bons rsultats que sans apprentissage. Il serait intressant de e e tester lalgorithme en incluant la phase dapprentissage, mais en utilisant une plus grande base de donnes. Les caractristiques des morceaux dont nous disposons sont e e tr`s direntes selon les albums auxquels ils appartiennent en raison de la dirence e e e de style et de linstrumentation qui existe entre les deux, ce qui peut expliquer les re sultats obtenus avec apprentissage. Nous prvoyons galement de tester par la suite e e un apprentissage crois, cest ` dire utiliser 13 des 14 morceaux dun CD comme e a ensemble dapprentissage pour tester celui qui reste, puis permuter . . .

7.2.2

Choix de la mthode e

Les rsultats obtenus montrent que la mthode base sur le calcul de la corre e e e lation entre les accords rels et les templates suivi dun dcodage Viterbi donne en e e moyenne un meilleur taux didentication des accords que la mthode base sur une e e modlisation gaussienne de la distribution des observations. e 7.2.3 Filtrage mdian e

Lajout dun ltrage mdian avant le mapping avec les chromas produit une nette e amlioration. Dans le cas de la mthode par modlisation gaussienne des observae e e tions nous obtenons une amlioration relative de 4.66% en moyenne sur toutes les e trames. Concernant la mthode par corrlation avec templates , lamlioration e e e relative des rsultats est encore plus sensible : elle est de 18.03%. Nous avons donc e russi ` liminer une partie du bruit introduit par les transitoires et les ornementae ae tions contenus dans le signal.

7.2.4

Taille de la fentre et bornes des frquences e e

Les bornes de frquences utilises dans les principaux travaux prcdents sont e e e e 98Hz ` 5250Hz cest-`-dire que lon consid`re une plage de frquences du G2 au a a e e E8. Il nest en fait pas ncessaire de considrer une telle plage de frquences, se rese e e treindre ` la plage [60Hz : 4500Hz] (ce qui correspond ` [B1 :D8]) permet obtenir a a de meilleurs rsultats en moyenne. e

31

7.2 Analyse 7.2.5 Introduction du mod`le de Gomez e

La prise en compte des harmoniques dans le calcul du chromagram permet dame liorer sensiblement les rsultats, quelle que soit lchelle utilise. Nous analysons ici e e e les cas les plus intressants. Dans le cas de la mthode par modlisation gaussienne e e e des observations , nous pouvons noter une amlioration relative de 7% environ si e lon introduit le mod`le de Gomez dans la matrice des vecteurs moyens. En ine troduisant de plus ce mod`le dans les matrices de covariance nous obtenons une e amlioration relative de 36% en moyenne sur toutes les trames. e 7.2.6 Echelle et nombre dharmoniques utilises e

A propos du nombre dharmoniques utilises e Dans [8], Gomez propose de prendre en compte uniquement la contribution des quatres premi`res harmoniques dune note. Nous avons remarqu quil peut tre e e e intressant de prendre en compte un nombre plus importants dharmoniques. e En eet, dans le cas de la mthode par corrlation avec templates , nous e e avons test le mod`le avec six harmoniques et cela donne dans tous les cas (chelle, e e e morceau,...) des rsultats suprieurs ` ceux obtenus en ne tenant compte que des 4 e e a premi`res harmoniques. La dirence est en particulier visible lorsquon utilise une e e chelle damplitude. Nanmoins, il est inutile de considrer plus de 6 harmoniques e e e dans la cration des vecteurs de chroma correspondant aux templates, les rsultats e e sont les mmes. e Remarquons que lintroduction du mod`le de Gomez donne de meilleurs rsulats e e en moyenne sur lensemble des morceaux alors que lorsque nous lavons valu sur e e de simples accords, il ny avait pas vraiment damlioration par rapport au cas sans e prise en compte des harmoniques. Nous nous intresserons dans des travaux futurs e ` ce probl`me. a e Echelle Le choix de lchelle modie de faon signicative les rsultats. Cependant, on e c e ne peut donner de r`gle gnrale quant au choix de celle-ci, les rsultats obtenus e e e e variant selon la mthode employe et le nombre dharmoniques utilises. e e e En ce qui concerne la mthode par modlisation gaussienne des observations , e e les meilleurs rsultats sont obtenus en prenant une chelle damplitude et en tenant e e compte de 4 harmoniques (voir le tableau 4). Cependant, lorsque lon ne tient pas compte des harmoniques des notes, lemploi dune chelle dnergie donne des e e rsultats nettement suprieurs ` ceux obtenus avec une chelle damplitude (57.62% e e a e contre 48.52%). Par contre, dans le cas de la mthode par corrlation avec templates , lutilie e sation dune chelle dnergie donne de meilleurs rsultats dans tous les cas (voir le e e e tableau 5). Remarquons que lorsque lon utilise une chelle damplitude dans le cas e 32

7.2 Analyse de cette mthode, le nombre dharmoniques pris en compte ne change pas les rsule e tats de mani`re aussi spectaculaire que lorsque lon utilise une chelle damplitude e e (amlioration relative de 2.5% entre nbh = 1 et nbh = 6 dans le cas de lnergie, e e contre 14.44% dans le cas de lamplitude). Lemploi dune chelle de sones diminue systmatiquement les rsultats, quelle e e e que soit la mthode employe. e e Il faut remarquer que les rsultats obtenus sont assez dirents de ceux obtee e nus par Peeters dans [7]. Lemploi dune chelle de sones en particulier donne les e meilleurs rsultats dans [7]. e E amplitude nergie e sones amplitude nergie e sones nbh 1 1 1 4 4 4 CD1 45.86 51.35 24.70 55.93 51.59 39.84 CD2 MOYENNE 51.18 48.52 63.88 57.615 30.56 55.26 67.27 61.6 61.11 56.35 49.18 44.81

Tab. 4 Inuence de lchelle et du nombre dharmoniques, cas de la mthode par e e modlisation gaussienne des observations . E : chelle, nbh : nombre dharmoniques e e prises en compte E nbh amplitude 1 nergie e 1 amplitude 4 nergie e 4 amplitude 6 nergie e 6 sones 6 CD1 CD2 53.80 61.55 58.75 71.82 57.96 67.27 59.28 71.46 59.98 72.04 60.34 73.30 47.32 54.98 MOYENNE 57.68 65.29 62.62 65.37 66.01 66.91 51.15

Tab. 5 Inuence de lchelle et du nombre dharmoniques, cas de la mthode e e par corrlation avec templates . E : chelle, nbh : nombre dharmoniques prises en e e compte Conclusion En conclusion, nous pouvons dire que le choix de lchelle et celui du nombre e dharmoniques utilises sont fortement lis. Si nous ne pouvons pas donner de r`gle e e e gnrale en ce qui concerne le choix de lchelle, nous pouvons dire que la prise en e e e compte dun certain nombres dharmoniques dans la cration des templates amliore e e nettement les rsultats. e 33

7.3 Quantication des erreurs Etant donn quil existe une dirence signicative dans les rsultats obtenus e e e par la mthode par corrlation avec templates entre nbh = 4 et nbh = 6, nous e e pouvons penser quil serait possible damliorer les rsultats obtenus par la me e e thode par modlisation gaussienne des observations en prenant 6 harmoniques dans e le mod`le. Cependant, nous ne disposons pas encore de rsultats concluants car la e e mthode dintroduction des harmoniques dans les matrices de covariance nest pas e assez dveloppe pour le moment.(Voir prcedemment) e e e

7.3
7.3.1

Quantication des erreurs


Inuence de lchelle et du nombre dharmoniques sur les erreurs e obtenues

Une grande partie des erreurs provient de confusions entre des accords qui sont harmoniquement proches. Nous pouvons considrer que ce ne sont pas des erreurs e trop graves, car si lon ne trouve pas exactement un accord mais un accord voisin, on peut tout de mme utiliser le rsultat pour trouver la tonalit ou la structure e e e harmonique du morceau. Leur proportion varie en fonction des param`tres du syse t`me, et lanalyse de ces erreurs peut nous guider dans leur choix. e Nous nous intressons ici uniquement au cas de la mthode par corrlation avec e e e templates . nbh 1 1 4 4 6 6 6 E A E A E A E S RCD1 53.80 58.75 57.96 59.28 59.97 60.52 47.32 P1 11.06 11.91 12.68 11.95 15.38 13.32 14.86 R1 SD1 0.37 3.42 0.66 4.6 0.39 5.09 0.93 9.77 1 8.57 2.55 14.62 0.94 8.25 D1 23.23 21.66 18.45 15.70 22.9 17.57 24.1 TE1 37.96 38.83 36.61 38.35 39.29 48.06 48.15 RAE1 71.34 74.77 73.35 74.90 75.70 79.49 72.69

Tab. 6 Tableau du pourcentage des direntes erreurs du 2eme CD en fonction e des param`tres, cas de la mthode par corrlation avec templates . nbh : nombre e e e dharmoniques prises en compte, E : chelle (amplitude, nergie ou sones), RCD : e e rsultat, P : parall`les mineur/majeur, R : relatives, SD : sous-dominante, D : doe e minante, TE : total erreurs pas trop graves, RAE : rsultat sans compter les erreurs e pas trop graves Dans le cas de la mthode par corrlation avec templates lutilisation dune e e chelle dnergie plutt que dune chelle damplitude permet de rduire la propore e o e e tion des erreurs graves (voir les tableaux 6, 7 et 8). Il vaut donc mieux utiliser une chelle dnergie puisque dune part, ainsi que nous lavons vu au paragraphe prce e e e dent, cest avec celle-ci que lon obtient les meilleurs rsultats et dautre part, cest e galement dans ce cas que les erreurs sont les moins graves. e

34

7.3 Quantication des erreurs nbh 1 1 4 4 6 6 6 E A E A E A E S RCD2 61.55 71.82 67.27 71.46 72.04 73.30 54.98 P2 6.09 8.42 7.43 8.23 9.97 7.91 8.29 R2 0.59 1.08 0.99 1.68 2.17 4.21 0.83 SD2 4.90 9.23 8.31 19.66 13.46 27.02 9.82 D2 24.98 20.52 19.88 14.39 25.03 16.03 30.02 TE2 36.56 39.26 36.61 43.96 50.63 55.17 48.96 RAE2 75.61 82.88 79.25 84.01 86.20 88.03 77.03

Tab. 7 Tableau du pourcentage des direntes erreurs du 1er CD en fonction des e dirents param`tres, cas de la mthode par corrlation avec templates . nbh : e e e e nombre dharmoniques prises en compte, E : chelle (amplitude, nergie ou sones), e e RCD : rsultat, P : parall`les mineur/majeur, R : relatives, SD : sous-dominante, e e D : dominante, TE : total erreurs pas trop graves, RAE : rsultat sans compter les e erreurs pas trop graves nbh E 1 A 1 E 4 A 4 E 6 A 6 E 6 S RCD1 RCD2 RMOY 53.80 61.55 57.68 58.75 71.82 65.29 57.96 67.27 62.62 59.28 71.46 65.37 59.97 72.04 66.01 60.52 73.30 66.91 47.32 54.98 51.15 TE1 TE2 ME 37.96 36.56 37.26 38.83 39.26 39.05 36.61 36.61 36.61 38.35 43.96 41.16 39.29 50.63 44.96 48.06 55.17 51.62 48.15 48.96 48.55 RAEMOY 73.44 78.84 76.30 79.62 81.29 83.99 74.87

Tab. 8 Tableau du pourcentages des erreurs pas trop graves en fonction des die rents param`tres en moyenne sur les deux CD, cas de la mthode par corrlation e e e avec templates . Remarquons aussi quen augmentant le nombre dharmoniques prises en compte dans la cration des templates, la proportion derreurs pas trop graves par rape port au nombre total derreurs augmente ce qui est une bonne chose. Ainsi, si lon inclut dans nos rsultats les accords obtenus par notre syst`me qui e e ne sont pas exacts mais harmoniquement proches des accords rels, on obtient un e rsultat de 84% daccords identis correctement ou voisins en moyenne sur toutes e e les trames.

7.3.2

Comparaison des erreurs rsultant des deux mthodes e e

Seules 35% des erreurs rsultant de la mthode base sur modlisation de la dise e e e tribution des observations par une gaussienne sont dues ` des confusions avec des a accords harmoniquement proches. Par contre, en ce qui concerne la mthode base e e sur des corrlations, jusqu` plus de la moiti des erreurs appartiennent ` la catgoe a e a e rie des erreurs pas trop graves . (voir le tableau 9). 35

7.4 Analyse linaire discriminante e METT ME RAEMOY 37.26 73.44 39.05 78.84 36.61 76.30 41.16 79.62 44.96 81.29 51.62 83.99 METG ME RAEMOY 34.3 66.17 33.6 71.86 33.62 74.51 35.46 71.83

nbh E 1 A 1 E 4 A 4 E 6 A 6 E

RMOY 57.68 65.29 62.62 65.37 66.01 66.91

RMOY 48.52 57.62 61.60 56.35

Tab. 9 Comparaison de la proportion derreurs pas trop graves obtenues selon la mthode utilise : METT( mthode par corrlation avec templates ), METG( me e e e e thode par modlisation gaussienne des observations ) e

Cette analyse montre que la mthode par corrlation avec templates est beaue e coup plus robuste que lautre mthode prsente. Non seulement les rsultats obtee e e e nus sont bien meilleurs lorsque lon sintresse uniquement au taux de reconnaissance e exacte des accords, mais la moiti environ des erreurs sont des erreurs pas trop e graves .

7.4

Analyse linaire discriminante e

Pour plusieurs morceaux, (en particulier dans le premier CD), une grande partie des ereurs identies provient de parall`les majeur/ mineur. Par exemple, pour A e e Taste of Honey, on obtient un rsulat de seulemnet 46.8% de bonne identication e sur les trames, ce qui est notre plus mauvais rsultat. Cependant, plus de 40% des e erreurs sont dues ` des parall`les majeurs/mineurs (Le syst`me trouve EM au lieu de a e e em). On arriverait ` un taux de reconnaissance de 68% sil ny avait pas ces erreurs. a Nous disposons dobservations ` 12 dimensions (vecteurs de chroma) et cherchons a ` discriminer deux classes (majeur/mineur) en utilisant lanalyse discriminante lia naire dont le principe a t rappel auparavant. e ee e 7.4.1 Application

Dans notre cas, nous pouvons conna ` partir de la transcription le groupe tre a dappartenance de chaque vecteur de chroma. Nous prenons les morceaux du premier CD et pour chacun calculons le chromagram. Chaque vecteur de chroma est ensuite ramen ` C par permutaion circulaire puis class selon le mode auquel il appartient. ea e Nous construisons ainsi deux matrices, Mat chroma mineur et Mat chroma Majeur, qui contiennent respectivemant tous les vecteurs de chroma mineurs et tous les vecteurs de chroma majeurs. (voir gure 15) Ces matrices sont des descripteurs ` 12 dimensions. Nous calculons les nouveaux a descripteurs en projetant les descripteurs initiaux sur laxe discriminant (les nouveaux descripteurs sont ` une dimension puisque nous navons que deux groupes). a 36

7.4 Analyse linaire discriminante e


chromas accords C mineur B A# A G# G F# F E D# D C# C 200 400 600 800 1000 1200 1400

chromas accords C majeur B A# A G# G F# F E D# D C# C 2000 4000 6000 8000 10000 12000 14000

Fig. 15 Vecteurs de chroma majeurs et mineurs ramens ` C pour le CD Beatles e a for Sale On calcule ensuite les param`tres gaussiens des nouveaux descripteurs. Nous e pouvons calculer pour chacune des deux classes les param`tres de sa fonction de e densit de probabilit (cest ` dire le vecteur de moyenne moy v et la matrice de e e a covariance cov m) . Nous obtenons un taux de reconnaissance de 94% pour les accords majeurs et 85% pour les accords mineurs. Il est donc possible a priori de discriminer de mani`re e valable les deux classes. 7.4.2 Rsultats e

Lorsque lon applique lanalyse discriminante ` des morceaux contenant plus de a 25% derreurs du type parall`les majeur/mineur, le rsultat est concluant. En eet, e e dans ce cas, le nombre derreurs instantannes (avant dcodage Viterbi) est divis e e e par deux en moyenne, et le taux de bonne reconnaissance des accords est meilleur en moyenne sur toutes les trames. Linconvnient de lutilisation de lanalyse discriminante dans notre cas est que e lorsquon lapplique sur lensemble du syst`me, les rsultats ` partir des morceaux e e a contenant peu derreurs de type parall`le majeur/mineur sont dgrads, de mme e e e e que le rsultat moyen sur lensemble de la base de donnes. (Le taux de discrimie e nation des accords majeurs/mineurs ntant pas de 100%, on introduit des erreurs e en appliquant lALD.) Nous ne pouvons donc pas pour le moment gnraliser lape e plication de lanalyse discriminante. Cependant, nous pensons quil y a l` une ide a e intressante ` explorer. e a

37

Conclusion et perspectives

Sur le plan personnel, ce stage de recherche a t pour moi une riche exprience ee e scientique. Quatre mois passs au sein de lquipe analyse/synth`se de lIRCAM e e e mont permis de mieux conna le traitement du signal audio et surtout de dcoutre e vrir le domaine de lindexation musicale. Lobjectif du stage tait de construire un syst`me permettant lextraction autoe e matique dune suite daccords ` partir de lanalyse dun signal audio musical. Nous a avons prsent lensemble du syst`me ainsi que les rsultats que nous obtenons. e e e e Le syst`me a t implant sous matlab. Les fonctions codes sont commentes et e ee e e e peuvent ainsi tre utilises facilement. Nous avons galement indiqu quels points e e e e nous souhaitons dvelopper par la suite (introduction du mod`le de Gomez dans la e e matrice de covariance, utilisation de lALD, cration de templates ` partir daccords e a rels...). e Les syst`me na t valu que sur un nombre assez limit dexemples (cependant, e e ee e e lintret de ces exemples est quil sagit de signaux audio polyphoniques complexes). e ` A lavenir, nous souhaitons lvaluer sur une base de donnes beaucoup plus come e pl`te, contenant des morceaux de genres et de styles dirents. e e La dtection de suites daccords nest pas un probl`me indpendant. En eet, e e e par exemple, le dbut et la n dun accord sont lis au rythme du morceau ; la suite e e daccords peut aider ` dterminer la tonalit dun morceau... Cest pourquoi notre a e e objectif est de poursuivre ce travail par un doctorat dont le but sera de dvelopper e un mta-mod`le permettant de faire interagir dirents estimateurs de param`tres e e e e an dobtenir une information plus robuste ` laide du contexte dja extrait. a e

38

Rfrences ee

Rfrences ee
[1] Takuya Fujishima. Real-time chord recognition of musical sound : A system using common lisp music. ICMC, pages 464467, Beijing, China, 1999. [2] M.A. Bartsch and G.H. Wakeeld. To catch a chorus using chroma-based representations for audio thumbnailing. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pages 1518, New Paltz, 2001. [3] Alexander Sheh and Daniel P.W. Ellis. Chord segmentation and recognition using em-trained hidden markov models. ISMIR, Baltimore, MD, 2003. [4] Christopher A. Harte and Mark B. Sandler. Automatic chord identication using a quantised chromagram. in AES 118th Convention, Barcelona, Spain, 2005. [5] Juan P. Bello and Jeremy Pickens. A robust mid-level representation for harmonic content in music signal. ISMIR, 2005. [6] S.Pauws. Musical key extraction from audio. ISMIR, Barcelona, Spain, 2004. [7] Georoy Peeters. Chroma-based estimation of tonality from audio-signal analysis. ISMIR, Victoria, Canada2006. [8] Emilia Gomez. Tonal description of polyphonic audio for music content processings. INFORMS Journal on Computing, February 2004. [9] Georoy Peeters. Musical key estimation of audio signal based on hmm modeling of chroma vectors. In DAFX, McGill, Montreal, Canada, September 18-20 2006. [10] Judith C. Brown. Calculation of a constant q spectral transform. Acoustical Society of America, 1990. [11] Gregory H. Wakeeld. Mathematical representation of joint time-chroma distribution. in SPIE conference on Advanced Signal Procesing Algorithms, Architectures and Implementations IX, 3807, July Denver, Colorado, 1999. [12] E. Gomez and P. Herrera. Estimating the tonality of polyphonic audio les : Cognitive versus machine learning modelling strategies. ISMIR, pages 9295, Barcelona, Spain, 2004. u [13] Ozgr Izmirli. Template based key nding from audio. ICMC, 2005. [14] L. Rabiner. A tutorial on hidden markov model and selected applications in speech. IEEE, 77(2) :257285, 1989. [15] B. Gold and N. Morgan. Speech and audio Signal Processing : Processing and Perception of Speech and Music. John Wiley & Sons, Inc., 1999. [16] C.L. Krumhansl. Cognitive foundations of musical pitch. Oxford University Press, New Yok, 1990. [17] Frederic J. Harris. On the use of windows for harmonic analysis with he discreyte fourier transform. Proceedings of the IEEE, 66(1), 1978. [18] Kyogu Lee. Automatic chord recognition using a summary autocorrelation function. EE391 Special Report, Spring 2005. 39