Vous êtes sur la page 1sur 18

Um Modelo Memria-baseado para Anlise Musical: Desafiando os Princpios da Gestalt Rens Bod Escola de Computao Universidade de Leeds, Leeds

LS2 9JT, UK, e Instituto de Lgica, Linguagem e Computao Universidade de Amsterd, Spuistraat 134, 1012 VB Amsterd, Holanda rens@science.uva.nl Resumo Sustentamos uma abordagem memria-baseada para a anlise musical que trabalhe com experincias musicais concretas em vez de com regras ou princpios abstratos. Novas peas de msica so analisadas pela combinao de fragmentos de estruturas de peas encontradas previamente. As freqncias de ocorrncia dos fragmentos so usadas para determinar a anlise preferida de uma pea. Testamos algumas instncias desta abordagem em um conjunto de 1.000 canes folclricas manualmente anotadas da Coleo de Canes Folclricas de Essen, produzindo at 85,9% de acuidade de frase. Uma anlise quantitativa de nosso resultado indica que h fenmenos de agrupamento que desafiam os princpios da Gestalt comumente aceitos de proximidade, similaridade e paralelismo. Estes fenmenos de agrupamento no podem sequer ser explicados por outros fatores musicais, tais como metro e harmonia. Sustentamos que a percepo musical pode ser muito mais memria-baseada do que o previamente suposto. 1. Introduo Ao ouvir uma pea de msica, o sistema perceptivo humano segmenta a seqncia de notas em grupos ou frases que formam uma estrutura de agrupamento para a pea inteira (cf. Longuet-Higgins 1976; Tenney & Polansky 1980; Lerdahl & Jackendoff 1983; Stoffer 1985). Um dos desafios principais na modelagem de segmentao musical o problema da ambigidade: muitas estruturas de agrupamento diferentes podem ser compatveis com uma seqncia de notas enquanto um ouvinte geralmente percebe somente uma estrutura especfica. amplamente pressuposto que a estrutura preferida de agrupamento de uma pea dependa de uma combinao de fenmenos de baixo nvel, tais como descontinuidades locais e distncias intervalares, e fenmenos de alto nvel, tais como paralelismo meldico e harmonia interna. Muitos modelos de segmentao musical usam os princpios da Gestalt de proximidade e similaridade (Wertheimer 1923) para prever a estrutura de agrupamento de baixo nvel de uma pea: os limites dos agrupamentos preferencialmente caem em intervalos interataques maiores, intervalos entre notas maiores, etc. (ver Tenney & Polansky 1980; Lerdahl & Jackendoff 1983; Cambouropoulos 1996, 1997). Enquanto muitos modelos incorporam fenmenos de agrupamento de alto nvel, tais como

paralelismo meldico e harmonia, estes fenmenos permanecem geralmente no formalizados. Por exemplo, Lerdahl & Jackendoff (1983) no provem qualquer descrio sistemtica do paralelismo musical de alto nvel, o modelo de Implicao-Realizao de Narmour (Narmour 1990, 1992) confia em fatores tais como metro, harmonia e similaridade que no so completamente descritos pelo modelo. Como resultado, estes modelos no foram avaliados em grandes conjuntos de dados musicais, tais como a Coleo de Canes Folclrica de Essen (Schaffrath 1995; Huron 1996). Somente umas poucas passagens selecionadas mo so tipicamente usadas para avaliar estes modelos, as quais questionam a objetividade dos resultados. Este documento investiga uma abordagem deveras diferente para a anlise musical. Em vez de usar um conjunto pr-definido de regras e princpios, apresentamos um modelo que trabalha com um corpus de estruturas de agrupamento peas musicais previamente encontradas. Novas peas so analisadas pela combinao dos fragmentos das estruturascorpus; as freqncias dos fragmentos so usadas para determinar a anlise preferida. Propomos assim uma abordagem supervisionada, memria-baseada para a anlise musical a qual trabalha com fragmentos musicais concretos mais do que formalizaes abstratas de distncias intervalores, paralelismo, metro, harmonia e outros fenmenos musicais. Em outros campos da cincia cognitiva, tais como processamento da linguagem natural aprendizagem de mquina, modelos memria-baseados tm se tornado crescentemente influentes (cf. Mitchell 1997; Bod 1998; Manning & Schtze 1999). Alm disso, investigaes psicolgicas recentes sugerem que fragmentos musicais previamente ouvidos so armazenados na memria (e.g. Saffran et al. 2000), e que fragmentos que so encontrados mais freqentemente so mais bem representados na memria e conseqentemente mais facilmente ativados do que fragmentos encontrados menos freqentemente. A disponibilidade corrente de grandes bases de dados musicais anotadas, tais como a Coleo De Canes Folclricas de Essen (Schaffrath 1995; Huron 1996), provem um excelente domnio de teste para modelos memria-baseados de anlise musical. Embora um modelo puramente memria-baseado pode no ser suficiente como uma anlise de teoria da msica, importante estudar os mritos de um tal modelo de modo que seus resultados possam ser usados como uma linha-base contra a qual outras abordagens possam ser comparadas. A seguir descrevemos primeiro a Coleo de Canes Folclricas de Essen, aps o que testamos trs modelos de partio memria-baseados [memory-based parsing models] diferentes nesta coleo. Veremos que os melhores resultados so obtidos por um modelo que combina duas tcnicas memria-baseadas: a tcnica de gramtica de Markov de Collins (1999) e a tcnica de Partio Dado-orientada de Bod (1998). Este modelo combinado corretamente prediz 85.9% das frases para um conjunto de teste retido de 1.000 canes folclricas. Uma avaliao qualitativa de nossos resultados revela a existncia de uma classe de padres que so problemticos para os modelos Gestaltbaseado/paralelismo-baseado, enquanto estes padres so bastante triviais para os modelos memria-baseados. Nossa avaliao desafia dois princpios de agrupamento amplamente aceitos em msica: os princpios da Gestalt de proximidade/similaridade (Wertheimer 1923; Tenney & Polansky 1980; Lerdahl & Jackendoff 1983; Handel 1989) e o princpio de alto nvel do paralelismo meldico (Lerdahl & Jackendoff 1983; Cambouropoulos 1998; Hthker et al. 2001). Sustentamos que a percepo musical pode ser muito mais memriabaseada do que previamente suposto.

2. A Coleo de Canes Folclricas de Essen A coleo de Canes Folclricas de Essen contm uma grande amostra da (maioria) das canes folclricas da Europa que foram coletadas e codificadas sob a superviso do falecido Dr. Helmut Schaffrath da Universidade de Essen (Schaffrath 1993, 1995; Selfridge-Field 1995). O desenvolvimento contnuo da coleo est agora a cargo do Dr. Ewa Dahlig do Laboratrio de Pesquisa Auxiliada por Computador em Musicologia, Varsvia. Atualmente, 6.251 canes folclricas esto publicamente disponveis em http://www.esac-data.org, embora o nmero total de canes folclricas na coleo informado acima de 20.000. Cada cano folclrica est anotada com o cdigo associativo de Essen (ESAC) o qual inclui informao sobre notas e duraes, sinais de compasso e marcadores de frase explcitos (os textos das canes no tem sido registrados; somente suas representaes tonais esto disponveis). A presena de marcadores de frase torna a Coleo de Canes Folclricas de Essen um teste de caso nico para modelos computacionais de segmentao musical. A codificao de notas na Coleo de Canes Folclricas de Essen assemelha-se ao solfege: nmeros de graus da escala so usados para substituir as slabas mveis d, r, mi, etc. Assim, 1 corresponde ao d, 2 corresponde ao r, etc. Alteraes cromticas so representadas pela adio ou de um # ou de um b aps o nmero. Os sinais de mais (+) e menos (-) so adicionados antes do nmero se uma nota cai respectivamente acima ou abaixo da oitava principal (assim, -1, 1 e +1 referem-se todos ao d em diferentes oitavas). A durao representada pela adio de um ponto ou trao de sublinhado aps o nmero. Um ponto (.) aumenta a durao em 50% e o sublinhado (_) aumenta a durao em 100%; mais do que um sublinhado pode ser adicionado aps cada nmero. Se um nmero no tem indicador de durao, sua durao corresponde ao menor valor (o qual encontrado no campo KEY que precede cada cano folclrica). Uma pausa representada por 0, possivelmente seguido por indicadores de durao. Nenhum indicador de dinmica [loudness] ou timbre usado na Coleo de Canes Folclricas de Essen. Sinais de pargrafo [hard returns] so usados para indicar um limite de frase (note que usamos os termos frase e grupo intercambiavelmente). Para tornar as anotaes de Essen legveis para o nosso partidor [parser] memria-baseado, convertemos automaticamente suas indicaes de limite de frase para representaes de parnteses, onde ( indica o incio de uma frase e ) o final de uma frase. Para mais informao sobre a Coleo de Canes Folclricas de Essen e o Cdigo Associativo de Essen (ESAC), ver Selfridge-Field (1995). A Coleo de Canes Folclricas de Essen est tambm disponvel em formato de carto perfurado [humdrum] (Huron 1996). A Figura (1) d um exemplo da codificao da cano folclrica K0029 (Schlaf Kindlein Feste) junto com sua anotao de frase (deixamos de fora as barras de compasso e sinais de compasso que no sero usados por nosso partidor, mas retornaremos estrutura mtrica na seo 4): (1) (3_221_-5)(-533221_-5)(13335432)(13335432_)(3_221_-5_) Note que as anotaes de frase de Essen carecem de estrutura hierrquica: elas negligenciam tanto a estrutura interna da frase tais como subfrases e motivos, bem como

estruturas externas da frase tais como perodos e subsees (cf. Lerdahl & Jackendoff 1983). Assim as duas primeiras frases na cano folclrica (1) poderiam ter sido agrupadas juntas numa constituinte maior, e o mesmo se aplica para as duas frases subseqentes. Enquanto possa no haver de fato muita estrutura interna nas frases da cano folclrica (1), a seguinte anotao da cano folclrica K0885 ("Schneckhaus Schneckhaus stecke deine Hoerner aus") mostra que a falta de estrutura interna da frase pode levar a uma anotao empobrecida: (2) (5_3_5_3_)(1234553_)(1234553_)(12345_3_)(12345_3_)(553_553_)(553_65432_1_) Uma anlise mais refinada [fine-grained] desta cano folclrica, acreditamos, consistiria em subsegmentaes de muitas de suas frases; por exemplo, a primeira frase poderia ser subsegmentada em duas subfrases (3_5_) equivalentes. Tambm uma quantidade considervel de estrutura de frase externa poderia ser adicionada a esta cano folclrica, tal como a adio de um grupo maior que inclua a segunda e a terceira frases. Um caso mais extremo provido pela cano folclrica Z0147 ("Besenbinders Tochter und kachelmachers Sohn"): (3) (5_4#_5_3_1__1_3_2_1#_2_-7_-5__.)(3_5_4#_5_3_1__1_3_ 221#_2_-7_-5__.) (-5_-5_-5_-5-5-5_4__4_3_2_2_3_4_5__+1_)(3_5_4#_5_3_1_-7_1_332_1#_2_3_1__0__) (-5_-5_-5_-5_444_4_3_2_2_3_4_5__+1_)(3_5_4#_5_3_1_1_1_3_2_1#_2_3_1__.) (3_5_4#_5_3_1_1_1_3_2_1#_2_3_1__1_)(3_5_4#_5_3_1_-7_1_3_2_1#_2_3_1__1_0_) (-5_-5_-5_-5_444_4_3_2_2_3_4_5__+1_)(3_5_4#_5_3_1_1_1_3_2_1#_2_3_1___) Cremos que cada frase desta cano folclrica pode ser ainda mais subsegmentada em subfrases.Entretanto, a anotao na figura (3) no est errada; ela apenas representa a estrutura mais bsica da frase de uma pea somente. Queremos enfatizar que para o nosso experimento na seo 3 ns no adicionamos (ou modificamos) qualquer estrutura nas anotaes de Essen. Poder-se-ia acreditar que a Coleo de Canes Folclricas de Essen portanto um caso de teste relativamente fcil; mas verificou-se surpreendentemente difcil predizer as frases corretas para estas canes folclricas. Isto nos leva ao problema da avaliao. Para avaliar nosso modelo de partio memria-baseado para msica, empregamos o assim chamado mtodo de testagem cega [blind testing method] o qual tem sido amplamente usado na avaliao de partidores de linguagem natural (cf. Manning & Schtze 1999). Este mtodo preceitua que uma coleo de seqncias [strings] anotadas aleatoriamente dividida em um conjunto de treino e um conjunto de teste, onde as anotaes no conjunto de teste so usadas para treinar o partidor, enquanto que as seqncias no anotadas no conjunto de teste so usadas como entrada para testar o partidor. O grau com o qual as segmentaes previstas para as seqncias do conjunto de teste correspondem com as segmentaes corretas no conjunto de teste uma medida para a acuidade do partidor. Para o nosso experimento na seo 3, ns dividimos aleatoriamente as 6.251 canes folclricas que esto atualmente disponveis

num conjunto de treino de 5.251 canes folclricas e um conjunto de teste de 1.000 canes folclricas. H uma questo importante referente a que tipo de medida de avaliao mais apropriada para comparar as segmentaes propostas pelo partidor com as segmentaes corretas no conjunto de teste. Um esquema de avaliao amplamente usado o esquema de PARSEVAL, o qual baseado nas noes de preciso e verificao [recall] (ver Black et al. 1991). PARSEVAL compara uma partio proposta P com a diviso do conjunto de teste correspondente T como segue: # de frases corretas em P Preciso = # de frases em P # de frases corretas em P Verificao = # de frases em T Uma frase est correta de tanto o incio quanto o final da frase esto corretamente preditos. Note que esta medida pune um partidor que atribui muitssimas frases para uma cano folclrica; por exemplo, um partidor extremamente supergerador que atribui frases a qualquer combinao de notas poderia trivialmente incluir todas as frases corretas, resultando numa excelente verificao, mas sua preciso seria muito baixa. Por outro lado, um partidor muito cauteloso que prediz extremamente pouco, ainda que com frases corretas, receberia uma alta preciso, mas sua verificao seria baixa. Um bom partidor ir assim necessitar obter tanto uma preciso alta quanto uma verificao alta. (Pode-se provavelmente seguir sem dizer que para computar a preciso e a verificao para todas as seqncias de conjuntos de teste, necessita-se dividir o nmero total de frases preditas corretamente em todas as parties propostas P pelo nmero total de frases em respectivamente todas as parties P e T.) Os resultados de preciso e verificao so geralmente combinados numa medida nica de performance, conhecida como Resultado-F (ver Manning & Schtze 1999): 2 Preciso Verificao Resultado-F = Preciso + Verificao Usaremos estas trs medidas de Preciso, Verificao e Resultado-F para avaliar quantitativamente nosso modelo de partio memria-baseado. Como um passo final de pr-processamento, adicionaremos (automaticamente) a cada frase das canes folclricas o rtulo P e para cada cano inteira o rtulo S, de modo a obter rvores de partio convencionais. Assim, a estrutura em (1) torna-se: (4) S( P(3_221_-5) P(-533221_-5) P(13335432) P(13335432_) P(3_221_-5_) )

A vantagem deste formato que podemos agora aplicar diretamente modelos de partio memria-baseados existentes Coleo de Canes Folclricas de Essen. 3. Experimento com a Coleo de Canes Folclricas de Essen. Nesta seo, fornecemos uma avaliao quantitativa de trs modelos de partio memriabaseados da Coleo de Canes Folclricas de Essen (procederemos a uma avaliao mais qualitativa de nossos resultados na seo 4). Consideramos os seguintes modelos de partio memria-baseados da literatura: a tcnica de gramtica de Treebank [banco de rvore] de Collins (1999), a tcnica de gramtica de Markov de Seneff (1992) e Collins (1999), e o Partidor Dado-Orientado (DOP) de Bod (1993, 1998). A menos que seja exposto de modo diferente, usamos a mesma diviso aleatria da Coleo de Canes Folclricas de Essen num conjunto de treino de 5.251 canes folclricas e num conjunto de teste de 1.000 canes folclricas. 3.1 A Tcnica de Gramtica de Treebank A tcnica de gramtica de Treebank uma tcnica de aprendizagem extremamente simples: ela l todas as regras reescritas livres de contexto das estruturas do conjunto de treino, e aplica a cada regra uma probabilidade proporcional sua freqncia no conjunto de treino. Por exemplo, as seguintes regras livres de contexto podem ser extradas da estrutura da figura (4): S -> PPPPP P -> 3_221_-5 P -> -533221_-5 P -> 13335432 P -> 13335432_ P -> 3_221_-5_ Em seguida, a cada regra reescrita atribuda uma probabilidade pela diviso do nmero de ocorrncias de uma regra especfica no conjunto de treino pelo nmero total de ocorrncias das regras que expandem a mesma no-terminal [nonterminal] que a regra especfica. Por exemplo, se tomamos a cano folclrica (4) como nosso dado de treinamento, ento a probabilidade da regra P -> 3_221_-5 igual a 1/5 j que esta regra ocorre uma vez entre um total de 5 regras que expandem a P no-terminal. Uma gramtica de Treebank extrada desta maneira do conjunto de treino corresponde assim chamada Gramtica Probabilstica Livre de Contexto ou PCFG (Booth 1969). Uma suposio crucial subordinada s PCFGs que as regras livres de contexto so estatisticamente independentes. Assim, dadas as probabilidades das regras individuais, podemos calcular a probabilidade de uma rvore de partio tomando o produto das probabilidades de cada regra usadas naquele ponto [therein]. As PCFGs tm sido extensivamente estudadas na literatura (cf. Wetherell 1980; Charniak 1993), e os algoritmos de partio eficientes que existem para Gramticas Livres de Contexto reportam-se s PCFGs (ver Charniak 1993 ou Manning & Schtze 1999 para os algoritmos relevantes).

Qualquer gramtica probabilstica extrada de um conjunto de treino encara o problema da disperso de dados [datasparseness]: muitas das regras no conjunto de treino so to infreqentes que suas probabilidades observadas so estimativas muito inferiores de sua populao verdadeira de probabilidades. Um mtodo amplamente usado para enfrentar este problema o mtodo de Good-Turing (Good 1953). Em geral, o Good-Turing avalia a freqncia de populao esperada f* de um tipo ajustando sua freqncia de amostra observada f. Para avaliar f*, o Good-Turing usa uma noo adicional nf, a qual definida pelo nmero de tipos que ocorrem f vezes numa amostra observada. Assim, nf pode ser entendida como a freqncia da freqncia f. O avaliador do Good-Turing usa esta informao extra para computar a freqncia ajustada f* como nf+1 f* = (f+1) nf Assim computamos as probabilidades de nossas regras livres de contexto na gramtica de Treebank a partir de suas freqncias ajustadas em vez de suas freqncias brutas observadas. Note que o Good-Turing tambm ajusta as probabilidades de regras no vistas: se f = 0, ento f* = n1/n0. n0 o nmero de regras que no foram vistas, e usualmente avaliado por 1 n1/N onde N o nmero de regras observadas (ver Good 1953). Entretanto, o Good-Turing no diferencia as regras que no foram vistas: ele atribui a mesma probabilidade a todas elas, o que conduz a uma avaliao ainda mais inacurada de para as regras no vistas. Iremos portanto introduzir um meio mais acurado de atribuir probabilidades para regras no vistas na seo 3.2. Para um documento instrutivo sobre o Good-Turing junto com a prova da frmula, ver Church & Gal (1991). A gramtica de Treebank que foi obtida de 5.251 canes folclricas de treinamento foi usada para particionar as 1.000 canes folclricas do conjunto de teste.. Computamos para cada cano folclrica de teste a partio mais provvel usando um algoritmo de partio melhor-primeiro padro [standard best-first parsing algorithm] baseado na otimizao de Viterbi (ver Charniak 1993; Manning & Schtze 1999). Usando as medidas de avaliao dadas na seo 2, a nossa gramtica de Treebank obteve uma preciso de 68,7%, uma verificao de 3,4%, e um resultado-F de 6,5%. Embora a o resultado de preciso possa parecer razovel, o resultado de verificao extremamente baixo. Isto indica que a tcnica de gramtica de Treenbank um aprendiz muito cauteloso: ele prediz muito poucas frases do nmero total de frases na Coleo de Canes Folclricas de Essen, resultando num resultado-F muito baixo. Um dos problemas com a tcnica de gramtica de Treebank que ela aprende somente aquelas regras livres de contexto que literalmente ocorrem no conjunto de treino (ou por outro lado atribui avaliao pobre para regra no vistas), o que evidentemente no uma tcnica muito robusta para a partio musical embora ela tenha mostrado uma performance muito boa na partio de linguagem natural (cf. Charniak 1996). Veremos, entretanto, que os resultados melhoram significativamente se ns relaxamos levemente o modo de extrair regras do conjunto de treino. 3.2 A Tcnica de Gramtica de Markov

Uma tcnica que ultrapassa a cautela das gramticas de Treebank a tcnica de gramtica de Markov (Seneff 1992; Collins 1999). Enquanto que uma gramtica de Treebank pode somente atribuir acuradamente probabilidades para regras livres de contexto que foram vistas no conjunto de treino, uma gramtica de Markov pode computar probabilidades para qualquer regra livre de contexto possvel, resultando assim em um modelo mais robusto. Isto obtido pela decomposio de uma regra e suas probabilidades por um processo de Markov (see Collins 1999: 44-48). Por exemplo, um processo de Markov de terceira ordem estima a probabilidade p de uma regra P -> 12345 em: p(P -> 12345) = p(1) p(2 | 1) p(3 | 1, 2) p(4 | 1, 2, 3) p(5 | 2, 3, 4) p(END | 3, 4, 5). A probabilidade condicional p(END | 3, 4, 5) codifica a probabilidade de que uma regra termine aps as notas 3, 4, 5. Assim, mesmo se a regra P -> 12345 no ocorra literalmente no conjunto de treino, podemos ainda estimar sua probabilidade usando um histrico de Markov de trs notas. A extenso para histricos de Markov maiores resulta da generalizao bvia do exemplo acima. Entretanto, tambm uma gramtica de Markov sofre de disperso de dados: podemos obter contagens baixas, incluindo contagens zero, para alguns histricos de Markov. Contagens zero so especialmente problemticas: se uma das probabilidades decompostas na frmula acima tem uma ocorrncia zero no conjunto de treino, ento para a regra inteira atribuda uma probabilidade zero. Uma tcnica amplamente usada para resolver o problema da disperso de dados em modelos de Markov a tcnica da interpolao linear (ver Manning & Schtze 1999: 218-219). Esta tcnica suaviza um histrico de Markov por levar em conta seus histricos mais curtos. Se n1, n2 e n3 denotam trs notas, ento a probabilidade condicional p(n1 | n2, n3) suavizada (interpolada) como p(n1 | n2, n3) = 1p(n1) + 2p(n1 | n2) + 3p(n1 | n2, n3) onde 0 i 1 e 1 + 2 + 3 = 1. Estes pesos podem ser configurados mo, mas em geral quer-se encontrar a combinao de pesos i que funcionam melhor. Um algoritmo simples que encontra os pesos timos o algoritmo de Powell (ver Press et al. 1988), que tambm discutido em Manning & Schtze (1999: 218). Usamos este algoritmo para atribuir pesos aos lambdas na tcnica de interpolao linear, que por sua vez foi usada para estimar as probabilidades condicionais na tcnica de gramtica de Markov. Alm disso, cada uma das probabilidades p(n1), p(n1 | n2) e p(n1 | n2, n3) no foram estimadas de suas freqncias relativas observadas, mas foram ajustadas pelo mtodo de Good-Turing, assim como com as gramticas de Treebank (seo 3.1). Note que a extenso para qualquer histrica de Markov maior resulta da simples generalizao das frmulas acima. A probabilidade de uma rvore de partio de uma pea musical computada pelo produto das probabilidades das regras que participam da rvore de partio, assim como com as gramticas de Treebank. Para os nossos experimentos, usamos uma gramtica de Markov com um histrico de quatro notas. Esta gramtica obteve uma preciso de 63,1%, uma verificao de 80,2%, e um resultado-F de 70,6%. Estes resultados so em alguma medida complementares da gramtica de Treebank: embora a preciso seja um tanto mais baixa, a verificao (muito)

mais alta do que a gramtica de Treebank. Assim, enquanto a gramtica de Treebank prediz muito poucas frases, a gramtica de Markov prediz frases (um tanto) demais. O resultado-F combinado de 70,6% mostra um imenso melhoramento sobre a tcnica de gramtica de Treebank. Experimentos com modelos de Markov de ordem mais alta ou mais baixa diminuem nossos resultados. 3.3 Estendendo a Tcnica de Gramtica de Markov com a Tcnica DOP Embora a tcnica de gramtica de Markov obteve resultados consideravelmente melhores do que a tcnica de gramtica de Treebank, ela no leva em considerao qualquer contexto global ao computar a probabilidade de uma rvore de partio. O conhecimento do contexto global, tal como o nmero de frases que aparecem numa cano folclrica, provavelmente importante para predizer as segmentaes corretas para novas canes folclricas. Para incluir o contexto global, condicionamos [conditioned over] a regra-S mais alta na estrutura ao computar a probabilidade de uma regra-P. Esta abordagem corresponde tcnica de Partio Dado-Orientada (DOP) (Bod 1998) que pode condicionar qualquer regra mais alta ou mais baixa na rvore. Na tcnica DOP original, qualquer fragmento visto no conjunto de treino, despeito de seu tamanho, usado como uma unidade produtiva. Mas na Coleo de Canes Folclricas de Essen temos apenas dois nveis de estruturas constituintes em cada rvore, resultando assim em um modelo probabilstico muito mais simples. Se um exemplo retoma a regra P -> 12345 e uma regra-S mais alta tal como S -> PPP; ento um modelo DOP-Markov baseado num histrico de trs notas computa a probabilidade (condicional) desta regra como: p(P -> 12345 | S -> PPPP) = p(1 | S -> PPPP) p(2 | S -> PPPP, 1) p(3 | S -> PPPP, 1, 2) p(4 | S -> PPPP, 1, 2, 3) p(5 | S -> PPPP, 2, 3, 4) p(END | S -> PPPP, 3, 4, 5). A extenso para histricos maiores resulta da generalizao bvia do exemplo acima. Para o nosso experimento, usamos um histrico de quatro notas, estendido com as mesmas tcnicas de suavizao da seo 3.2 (i.e. interpolao linear combinada com Good-Turing). A partio mais provvel de uma cano folclrica novamente computada pela maximizao do produto das probabilidades da regra que gera a cano folclrica. Usando a mesma diviso dos conjuntos de treinamento/teste que antes, este partidor DOP-Maarkov obteve uma preciso de 76,6%, uma verificao de 85,9%, e um resultado-F de 81,0%. O resultado-F um melhoramento de 10,4% sobre o partidor de Markov. Note que o partidor DOP-Markov relativamente bem-equilibrado: ele nem terrivelmente cauteloso nem prediz demasiadas frases redundantes tendo em mente a idiossincrasia das anotaes das Canes Folclricas de Essen. Embora no haja razo para esperar uma acuidade prxima de 100% na superficialmente anotada Coleo de Canes Folclricas de Essen (especialmente na ausncia da estrutura harmnica), nossos resultados mostram a importncia de incluir o contexto global ao computar a probabilidade de um partidor. Tambm checamos a significncia estatstica de nossos resultados, pela testagem de 9 parties aleatrias adicionais da Coleo de Canes Folclricas de Essen (em trs conjuntos de treinamento de 5.251 canes folclricas). Sobre estas parties, o partidor DOP-Markov obteve um Resultado-F mdio de 80,7% com um desvio padro de 1,9%, enquanto o partidor de Markov obteve um resultado-F mdio de 70,8% com um desvio

padro de 2,2%. Estas diferenas foram estatisticamente significativas de acordo com o teste-t emparelhado [paired t-testing]. Antes de prosseguirmos para uma avaliao mais qualitativa de nossos resultados, ficamos interessados em testar o impacto do tamanho de treinamento sobre o resultado-F. Como mencionado na introduo, h algum suporte psicolgico para a hiptese de que fragmentos musicais previamente ouvidos so armazenados na memria, e que fragmentos mais freqentes so mais facilmente ativados do que fragmentos menos freqentes. Mas, parece improvvel que humanos armazenem mais do que 5.000 canes folclricas para analisar novas canes folclricas. desta perspectiva que estamos interessados em investigar como o nosso partidor DOP-Markov se desempenha com conjuntos de treinamento menores. Nos seguintes experimentos comeamos com um conjunto de treino inicial de somente 500 canes folclricas (aleatoriamente escolhidas do conjunto de treino completo de 5.251 canes folclricas). Ento incrementamos o tamanho deste conjunto de treino inicial com 500 canes a cada vez (aleatoriamente escolhidas do conjunto de treino completo). O conjunto de teste foi mantido constante em 1.000 canes folclricas. Os resultados esto mostrados na tabela 1. Tabela 1. Resultado-F como funo do tamanho do conjunto de treino Tamanho de treino 500 1,000 1,500 2,000 2,500 3,000 3,500 4,000 4,500 5,000 5,251 Resultado-F 31.1% 47.4% 56.9% 64.4% 69.0% 73.2% 76.1% 78.3% 79.9% 80.7% 81.0%

A tabela mostra que o resultado-F cresce rapidamente quando o tamanho do conjunto de treino aumentado de 500 para 2.000 canes folclricas. A acuidade continua a crescer a uma taxa mais baixa se o conjunto de treino ainda mais aumentado. Notamos que em torno de 4.000 canes folclricas, resultados-F relativamente bons so obtidos. Podemos questionar a realidade cognitiva de uma memria de 4.000 canes folclricas. Mas devemos ter em mente que o nosso partidor no tem conhecimento das regras da Gestalt de proximidade e similaridade, ou o que quer que seja. A incluso de um tal conhecimento poderia impulsionar nossos resultados ou reduzir o tamanho do nosso conjunto de treino. Por outro lado, poderamos tambm argumentar que poderamos tambm eliminar todo o conhecimento memria-baseado se tivssemos acesso s regras da Gestalt. Iremos discutir este problema na prxima seo.

4. Discusso: Desafiando os Princpios da Gestalt Vimos que um modelo de partio memria-baseado, conhecido como partidor de DOPMarkov, pode muito acuradamente predizer as estruturas de agrupamento preferidas para cones folclricas ocidentais. Entretanto, tambm vimos que uma grande quantidade de dados de treino anotados mo necessria para alcanar este resultado. De fato, para aprender que um limite de agrupamento tende a ocorrer numa distancia intervalar grande de nota ou tempo, nosso partidor memria-baseado deve encontrar muitas instncias especficas de tais intervalos antes de poder atribuir uma alta probabilidade a um limite ocorrendo em tais intervalos. Isto pode parecer um obstculo srio j que tais limites intervalares podem muito bem ser preditos por somente umas poucas regras que formalizem as noes da Gestalt de proximidade e similaridade (tais como em Lerdahl & Jackendoff 1983: 39, ou Cambouropoulos 1997). Entretanto, h muitos padres na Coleo de Canes Folclricas de Essen que so problemticas para partidores Gestalt-baseados, mesmo quando tais partidores so estendidos com um mecanismo de deteco de paralelismo (como em Cambouropoulos 1998), enquanto so muito mais triviais para modelos memria-baseados. Estes so padres que contm um salto (um intervalo entre notas grande) no incio ou no final de uma frase (ou ambos). Como um exemplo, considere as primeiras 12 notas da cano folclrica K0029, que foi dada na figura (1), e que corresponde aos dois grupos em (5): (5) (3_221_-5)(-533221_-5) Um partidor Gestalt-baseado provavelmente atribuiria uma das seguintes estruturas de agrupamento para estas notas: (6) (3_221_)(-5-533221_)(-5 ... ou: (7) (3_221_-5-5)(33221_-5) Enquanto estas estruturas de agrupamento sejam possveis, no que elas podem ser percebidas, elas no correspondem estrutura que realmente percebida. O problema surge dos intervalos relativamente grandes entre notas (e tempo) entre as notas 1_ e 5, e entre as notas 5 e 3, dos quais um partidor Gestalt-baseado inferiria um limite de agrupamento em um destes intervalos. Que fenmeno governa a percepo de um limite aqui? Neste exemplo particular poder-se-ia argumentar que o paralelismo meldico muito forte entre as primeiras cinco notas (i.e. 3_221_-5) e as ltimas cinco notas (i.e. 3_221_-5) desta cano folclrica (ver a figura 1) governa o limite na distncia intervalar local, resultando assim na segmentao correta contanto que tenhamos um mecanismo que posa descobrir estes padres paralelos (cf. Cambouropoulos 1998). Entretanto, h tambm (muitas) canes

folclricas onde no ocorrem tais paralelismos e ainda assim h um limite de agrupamento entre duas notas equivalentes que so precedidas e seguidas por intervalos relativamente grandes. Por exemplo na cano folclrica K0690 ("Ruru Rinneken"): (8) (3__2__1_1_-5_)(-5_3_3_2_2_1_1_-5_)(-5_1_2_3_1_4__2_)(1_-7_1_2_-5_3__1_) (3_1__-5_3_1_1_-5_3_1__-5_)(-5_1_2_3_1_4_3_223_1__1_0_) Aqui temos novamente dois intervalos entre notas relativamente grandes, ou saltos, entre as duas notas no final do primeiro grupo (1_ e -5_) e no incio do segundo grupo (-5_ e 3_). J que no h descontinuidade no tempo aqui, poder-se-ia esperar um limite de agrupamento no salto maior, i.e. entre -5_ e 3_, o que tambm poderia ser predito pelas regras da Gestalt (ver Lerdahl & Jackendoff: 39). Mas, o limite ocorre entre as duas notas equivalentes -5_ e -5_! E agora no h paralelismo de nvel mais alto que pudesse forar a estrutura de agrupamento correta. Pelo contrrio: um mecanismo que pudesse forar o paralelismo musical atribuiria o mesmo limite entre -5_ e 3_ conforme predito pelas regras da Gestalt, j que ele resultaria em dois grupos paralelos ou muito similares: (9) (3__2__1_1_-5_-5_)(3_3_2_2_1_1_-5_-5_)( ... Que fenmeno governa estes limites de frase? Antes de tentar responder esta questo, devemos estar seguros de que a anotao da cano folclrica K0690 est correta, i.e. que sua anotao corresponde estrutura conforme ela ouvida por um ouvinte humano. Embora verifiquemos que os dois ltimos grupos da anotao de K0690 so excessivamente superficiais, os limites de frase providos pela Coleo de Canes Folclricas de Essen correspondem com nossa percepo de limites de grupo, melhor de nossas intuies. Conquanto admitamos que a exatido de uma anotao devesse preferivelmente ser estabelecida por um experimento psicolgico independente com mais de um sujeito (o que est alm do escopo deste documento), sentimo-nos seguros de que os limites de agrupamento anmalos da K0690 no dependem de algum tipo de erro de anotao. Uma possvel causa para a estrutura de agrupamento peculiar de K0690 pode ser a letra, i.e. o texto, da cano folclrica. Pode ser que a estrutura prosdica do texto force uma certa estrutura de agrupamento o que poderia explicar as frases-salto percebidas na K0690. Entretanto, os textos das canes folclricas no foram registrados na Coleo de Canes Folclricas de Essen, e somente muito poucos textos esto disponveis (Dr. Ewa Dahling, em comunicado pessoal). Alm disso, j estabelecemos que nossas intuies de agrupamento para a representao tonal da cano folclrica K0690 concordam com as segmentaes da Coleo de Canes Folclricas de Essen, sem ter acesso ao texto. Assim podemos excluir a influncia do texto como uma causa para o agrupamento peculiar da K0690. (Note que bastante comum estudar as transcries meldicas de canes, corais, rias etc., sem considerar os textos e.g. ver os muitos exemplos em Lerdahl & Jackendoff (1983) ou Narmour (1990).)

At aqui, no consideramos a estrutura mtrica das Canes Folclricas de Essen. Poder-se-ia imaginar se o metro pode forar a estrutura de agrupamento percebida da K0690. amplamente reconhecido, entretanto, que a estrutura de agrupamento independente da estrutura mtrica, o que leva todas as teorias de cognio de msica a formularem modelos separados para agrupamento e metro. Lerdahl & Jackendoff convincentemente mostram que grupos no recebem acento mtrico, e tempos [beats] no possuem qualquer agrupamento inerente (Lerdahl & Jackendoff 1983: 26). Mas mesmo se a estrutura mtrica da K0690 forasse e deste modo igualasse a estrutura de agrupamento desta cano folclrica, ela atribuiria as mesmas frases incorretas conforme dado na figura (9), j que os tempos aparecem exatamente nas primeiras notas destas frases. Assim, a estrutura mtrica no poderia tambm ajudar a explicar a estrutura de agrupamento anmala em (8). Finalmente, deveramos considerar o papel da harmonia. bem sabido que a harmonia interna de uma pea freqentemente influencia sua estrutura de agrupamento meldica. Portanto poder-se-ia esperar que levando em considerao a harmonia implcita ou interna da cano folclrica K0690, pudssemos explicar e predizer seus agrupamentos em frases-salto. Entretanto, os dois agrupamentos alternativos, expressos pelas duas primeiras frases nas figuras (8) e (9), exibem a mesma harmonia interna: ambas so elaboraes meldicas da trade bsica 1, 3, 5. Deste modo, as preferncias de agrupamento harmnico, como propostas em e.g. Lerdahl & Jackendoff (1983) ou Narmour (1990, 1992), no so de qualquer ajuda na predio da estrutura de agrupamento peculiar da K0690. Assim parece no haver fator musical algum que possa governar as predies incorretas feitas pelos princpios da Gestalt para esta cano folclrica: nem o paralelismo meldico, nem a estrutura mtrica, e nem mesmo a harmonia interna. Poder-se-ia propor que as estruturas de agrupamento com frases-salto so altamente excepcionais e limitadas a apenas algumas canes folclricas que no so representativas para a Coleo de Canes Folclricas de Essen. Contudo, uma anlise detalhada dos dados de teste (1.000 canes folclricas) mostra que mais de 32% das canes folclricas continham pelo menos uma frase-salto e que a percentagem total de frases que comeam ou terminam com um salto (ou ambos como na segunda frase em (8)) ao menos 15%. Desse modo canes folclricas com frases-salto no so epifenomnicos.1 digno de nota que o nosso partidor DOP-Markov predisse em um grau muito alto (98,0%) os limites de agrupamento corretos para estes 15% de frases-salto (embora ele freqentemente atribusse subfrases adicionais dentro destas frases). Um partidor Gestaltbaseado/paralelismo-baseado, por outro lado, poderia definitivamente predizer os limites de agrupamento errados para todas estas frases-salto exceto se houvessem frases paralelas na pea que pudessem forar os limites de agrupamento corretos, conforme discutimos na figura 1, mas tais frases paralelas ocorrem menos de 1% no conjunto de teste. Igualando as outras coisas, o nosso partidor aperfeioaria cerca de 12% um partidor Gestaltbaseado/paralaleismo-baseado dados os 15% de frases-salto, a performance de 98,0% sobre estas frases do nosso partidor, e os menos de 1% destas frases nas quais o paralelismo
(Cf. Houaiss, na reflexo de alguns cientistas, psiclogos behavioristas e certos filsofos materialistas ou positivistas, a conscincia humana, fenmeno secundrio e condicionado por processos fisiolgicos, e, portanto, incapaz de determinar o comportamento dos indivduos [N.T.])
1

pudesse sobrepujar os princpios da Gestalt, no poderamos achar qualquer teste de canes folclricas para os quais um partidor Gestalt-baseado/paralelismo-baseado pudesse possivelmente aperfeioar sobre o nosso partidor memria-baseado, embora admitamos completamente que isto necessite ser checado por um experimento real com um uma implementao de um tal partidor. Os padres que eram problemticos para o nosso partidor DOP-Markov parecem ser inteiramente devidos superficialidade das anotaes da Coleo de Canes Folclricas de Essen (i.e. o nosso partidor ainda prediz muitas frases); esta superficialidade igualmente problemtica para um partidor Gestaltbaseado/paralelismo-baseado, acreditamos. (Talvez devssemos mencionar que saltos no meio de frases so tambm problemticos para modelos Gestalt-baseados, mas tais saltos levariam somente a subfrases adicionais que no esto anotadas na Coleo de Canes Folclricas de Essen e no podem por isso ser testadas aqui. Somente os saltos no incio ou no final das frases conduzem a predies erradas por modelos Gestaltbaseados/paralelismo-baseados.) Podemos pois concluir que frases-salto provem srias evidncias contra os princpios de da Gestalt de proximidade e similaridade, e que um modelo que seja unicamente baseado em fatores musicais, tais como distncias intervalares, paralelismo, metro e harmonia, nunca pode aprender as frases-salto que aparecem em (8). A figura seguinte d algumas outras canes folclricas da Coleo de Canes Folclricas de Essen que envolvem saltos de ou para a nota 5 (h tambm saltos de outras notas, tais como 4 e 6, que no esto presentes neste exemplo). (10) Cano folclrica K0641 (11-7-511-5)(-511-721_-50)(11-7-5222_)(11-721_-5)(-511-5-511-5_)(11-7-5222) (211-721_-50) Cano folclrica A0214 (1_1_1_1_1_-7b_-7b_-5_)(-5_3b_.3b4_3b_2__1_)(1_1_1_1_1_-7b_-7b_-5_) (-5_3b_.3b4_3b_)(2__1_1_3b_.45_3b_4__1__)(4_.43b_21-7b_.12_)(3b_4_1_3b_2_1__.) Cano folclrica B0752 (1_5__5_5_4_3_5_4_3_2_1_)(-5_4_3_2_3__3_5_4_3_2__)(1_5__5_5_4_3_5_4_3_2_1_) (-5_4_3_2_3__3_5_4_3_2__)(2_2__2_3__3_4_3_4_5__)(5_+1_7_6_5_.6543__2_1__) Cano folclrica B0179 (-5_5_.43_2_1_-6_-5_)(-5_2__0_-5_3__0_)(3_6_.54#_3_2_1_-7_)(3_2__0_1_-7b__0_) (234_432_234_3_2_)(45654_4321-7_-712_)(-5_3_.32_5_1__0_)(-5_3_.32_5_1__0_) Pode-se certamente argumentar que pode ainda haver um princpio ou regra mais fundamental, que (ainda) no conhecemos, e que prediz os limites de agrupamento corretos para frases-salto. A busca por um tal princpio ou regra, que parece estar alm da natureza harmnica, mtrica ou meldica, ser parte de pesquisa futura. Mas no deveramos nem excluir a possibilidade que este fenmeno de grupamento especfico seja inerentemente memriabaseado. Esta possibilidade pode ser apoiada por Huron (1996) que observou que as frases

nas canes folclricas ocidentais tendem a exibir uma forma de arco, onde o contorno das notas sobe e depois desce no decurso de uma frase. Desse modo o grupo (5_3_3_2_2_1_1_-5_) na cano folclrica K0690 exibe um tal contorno em arco, enquanto que o grupo (3_3_2_2_1_1_-5_-5_) no. Assumindo que a observao de Huron esteja correta, padres tipo-arco podem ou expressar uma tendncia universal em msica, em cujo caso eles dev ser formalizados por uma regra ou princpio (mas no h evidncia para esta universalidade), ou os padres tipo-arco podem ser estritamente idioma-dependentes, em cujo caso eles podem ser mais bem capturados por um modelo memria-baseado que tente imitar a experincia musical de um ouvinte de uma certa cultura. Assim, a percepo musical pode ser muito mais memria-baseada do que previamente aceito. Se desejarmos propor uma abordagem memria-baseada msica como uma alternativa sria para uma abordagem Gestalt-baseada, deveremos tratar da questo de como alguma estrutura pode ser adquirida se no temos quaisquer peas estruturadas no nosso corpus para comear. Com um corpus j analisado, podemos no melhor dos casos simular a percepo musical adulta anloga a um corpus de linguagem natural analisada (ver Bod 1998). Conjeturamos que a aquisio de um corpus estruturado pode ser o resultado de um processo inicial [bootstrapping process] onde a descoberta de padres similares recorrentes e regularidades distribucionais exeram um papel importante. To logo um padro aparea mais de uma vez, ele pode ser hipotetizado como um grupo, e pode ser usado como uma unidade produtiva para analisar novas peas. A freqncia com que um padro ocorre usada para decidir entre grupos conflitantes. Muita pesquisa em aprendizagem no supervisionada concernente com a estrutura sinttica inicial [bootstrapping] com base na similaridade de padres e estatsticas de corpora de linguagem maior (e.g. Finch & Chater 1994; Brent e Cartwright 1996; van Zaanen 2000). Um de nossos objetivos futuros investigar se tais tcnicas de aprendizagem no supervisionada reportam-se estrutura musical inicial [bootstrapping] e se a estrutura aprendida corresponde estrutura conforme percebida por ouvintes humanos. Por outro lado, h j uma considervel quantidade de trabalhos sobre induo no supervisionada de padres musicais (e.g. Cope 1990; Mattusch 1997; Crawford et al. 1998; Rolland & Ganascia 2000). Esperamos poder acessar estes modelos, junto com modelos no supervisionados de aprendizagem de linguagem natural, para forar a estrutura inicial [for the task of bootstrapping structure] num corpus musical maior. Uma vez que um corpus inicial de padres musicais tenha sido aprendido, estes padres podem ser utilizados por nosso modelo supervisionado para segmentar eficientemente novas peas. Somente para seqncias de notas completamente novas que nunca apareceram antes, os mtodos no supervisionados necessitam ainda ser invocados. A interao exata entre aspectos no supervisionados e supervisionados da percepo musical precisa esperar por mais investigao. Mas tambm se nos limitamos segmentao musical supervisionada, este trabalho dispara muita pesquisa nova. Um de nossos projetos converter a codificao de notas absoluta nas anotaes de Essen em codificaes de notas relativa, de modo que o nosso partidor possa mais facilmente generalizar os intervalos que ocorrem entre notas diferentes mas que envolvem a mesma altura ou distncias de tempo; isto pode tambm reduzir o tamanho do conjunto de treino, o qual poderia aumentar a plausibilidade cognitiva do nosso modelo. Outro projeto enriquecer manualmente as anotaes de Essen com constituintes mais refinados [fine-grained], tais como subfrases e subsees, e atribuir a estes constituintes rtulos que sumarizem as regularidades dos padres fundamentais, conforme

proposto pelas linguagens de codificao musical tais como Collard et al. (1981) e Deutsch & Feroe (1981). Suspeitamos que a estruturao meldica de um ouvinte depende parcialmente das regularidades dos padres de entrada (conforme descrito pelas linguagens de codificao musical) e parcialmente das experincias musicais prvias (conforme descrito pela nossa abordagem memria-baseada). Um modelo adequado para a percepo musical dever fazer justia a ambos estes aspectos da msica. 5. Concluso Apresentamos uma abordagem memria-baseada msica que analisa novas peas pela combinao de fragmentos de estruturas de peas encontradas previamente. Em caso de ambigidade, esta abordagem computa a anlise que pode ser considerada a mais provvel com base na freqncia de ocorrncia dos fragmentos. Testamos com sucesso algumas instncias desta abordagem num conjunto de 1.000 canes folclricas da Coleo de Canes Folclricas de Essen, obtendo um resultado-F de at 81,0%. At onde sabemos, este documento contm o primeiro experimento de partio com a Coleo de Canes Folclricas de Essen, o qual esperamos possa servir como uma base para outros modelos computacionais de anlise musical. Uma anlise qualitativa de nossos resultados mostrou que h uma classe de padres musicais, assim chamados de frases-salto, que desafiam tanto os princpios da Gestalt de proximidade e similaridade quanto os princpios do paralelismo meldico. As frases-salto provem evidncia de que limites de agrupamento podem aparecer antes ou depois de intervalos entre notas grandes, mais do que em tais intervalos, e que os limites de agrupamento podem mesmo aparecer enter notas idnticas (que so precedidas ou seguidas por intervalos relativamente grandes). Vimos que modelos Gestalt-baseados, paralelismobaseados e/ou harmonia-baseados so inadequados para lidar com estes padres. Modelos probabilsticos, memria-baseados, so mais aptos a lidar com este fenmeno de gradiente da anlise musical j que eles podem capturar o continuum inteiro entre frases-salto e frases-no-salto. Agradecimentos Agradecemos a Emilios Cambouropoulos e dois revisores annimos pelos comentrios teis sobre uma verso prvia deste documento. Agradecemos tambm a Ewa Dahling por prover informaes sobre a Coleo de Canes Folclricas de Essen. Referencias
Black, E., S. Abney, D. Flickinger, C. Gnadiec, R. Grishman, P. Harrison, D. Hindle, R. Ingria, F. Jelinek, J. Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini and T. Strzalkowski (1991). AProcedure for Quantitatively Comparing the Syntactic Coverage of English, Proceedings DARPA Speech and Natural Language Workshop, Pacific Grove, Morgan Kaufmann. Bod, R. (1993). Using an Annotated Language Corpus as a Virtual Stochastic Grammar. Proceedings AAAI'93, Morgan Kaufmann, Menlo Park. Bod, R. (1998). Beyond Grammar: An Experience-Based Theory of Language, Stanford, CSLI Publications (distributed by Cambridge University Press). Booth, T. (1969). Probabilistic Representation of Formal Languages, Tenth Annual IEEE Symposium on Switching and Automata Theory. Brent, M. and T. Cartwright (1996). Distributional Regularity and Phonotactic Contraints are Useful for Segmentation, Cognition, 61, 93-125.

Cambouropoulos, E. (1996). A Formal Theory for the Discovery of Local Boundaries in a Melodic Surface. Proceedings of the Troisimes Journes d'Informatique Musicale (JIM-96), Caen, France. Cambouropoulos, E. (1997). Musical Rhythm: A Formal Model for Determining Local Boundaries, Accents and Meter in a Melodic Surface, in M. Leman (ed.), Music, Gestalt and Computing - Studies in Systematic and Cognitive Musicology, Berlin, Springer-Verlag. Cambouropoulos, E. (1998). Musical Parallelism and Melodic Segmentation, Proceedings XII Colloquium on Musical Informatics, Gorizia, Italy. Charniak, E. (1993). Statistical Language Learning, Cambridge, The MIT Press. Charniak, E. (1996). Tree-bank Grammars, Proceedings AAAI-96, Menlo Park, Ca. Church, K. and W. Gale (1991). A comparison of the enhanced Good-Turing and deleted estimation methods for estimating probabilities of English bigrams, Computer Speech and Language 5, 19-54. Collard, R., P. Vos and E. Leeuwenberg (1981). What Melody Tells about Metre in Music. Zeitschrift fr Psychologie. 189, 25-33. Collins, M. (1999). Head-Driven Statistical Models for Natural Language Parsing, PhD-thesis, University of Pennsylvania, PA. Cope, D. (1990). Pattern-Matching as an Engine for the Computer Simulation of Musical Style, Proceedings ICMC'1990, Glasgow, UK. Crawford, R., C. Iliopoulos, and R. Raman (1998). String Matching Techniques for Musical Similarity and Melodic Recognition, Computing in Musicology 11, 71-100. Deutsch, D. and J. Feroe (1981). The Internal Representation of Pitch Sequences in Tonal Music, Psychological Review, 88, 503-522. Finch, S. and N. Chater (1994). Distributional Bootstrapping: From Word Class to Proto-Sentence, Proceedings 16th Annual Cognitive Science Society, 301-306, Hillsdale, Lawrence Erlbaum. Good, I. (1953). The Population Frequencies of Species and the Estimation of Population Parameters, Biometrika 40, 237-264. Handel, S. (1989). Listening. An Introduction to the Perception of Auditory Events. Cambridge, The MIT Press. Hthker, K., D. Hrnel and C. Anagnostopoulou (2001). Investigating the Influence of Representations and Algorithms in Music Classification. Computers and the Humanities 35, 65-79. Huron, D. (1996). The Melodic Arch in Western Folksongs. Computing in Musicology 10, 2-23. Lerdahl, F. and R. Jackendoff (1983). A Generative Theory of Tonal Music. Cambridge, The MIT Press. Longuet-Higgins, H. (1976). Perception of Melodies. Nature 263, October 21, 646-653. Manning, C. and H. Schtze (1999). Foundations of Statistical Natural Language Processing. Cambridge, The MIT Press. Mattusch, U. (1997). Emulating Gestalt Mechanisms by Combining Symbolic and Subsymbolic Information Processing Procedures, in M. Leman (ed.), Music, Gestalt and Computing - Studies in Systematic and Cognitive Musicology, Berlin, Springer-Verlag. Mitchell, T. (1997). Machine Learning. McGraw-Hill Companies. Narmour, E. (1990). The Analysis and Cognition of Basic Melodic Structures: The Implication-Realization Model, The University of Chicago Press, Chicago. Narmour, E. (1992). The Analysis and Cognition of Melodic Complexity, The University of Chicago Press, Chicago. Press, W., B. Flannery, S. Teukolsky, and W. Vetterling (1988). Numerical Recipes in C. Cambridge University Press. Rolland, P. and J. Ganascia (2000). Musical Pattern Extraction and Similarity Assessment, in E. Miranda (ed.) Readings in Music and Artificial Intelligence, Harwood Academic Publishers. Saffran, J., M. Loman and R. Robertson (2000). Infant Memory for Musical Experiences. Cognition 77, B1623. Schaffrath, H. (1993). Reprsentation einstimmiger Melodien: computeruntersttzte Analyse und Musikdatenbanken. In B. Enders and S. Hanheide (eds.) Neue Musiktechnologie, 277-300, Mainz, B. Schott's Shne. Schaffrath, H. (1995). The Essen Folksong Collection in the Humdrum Kern Format. D. Huron (ed.). Menlo Park, CA: Center for Computer Assisted Research in the Humanities. Selfridge-Field, E. (1995). The Essen Musical Data Package. Menlo Park, California: Center for Computer Assisted Research in the Humanities (CCARH).

Seneff, S. (1992). TINA: A Natural Language System for Spoken Language Applications. Computational Linguistics 18(1), 61-86. Stoffer, T. (1985). Representation of Phrase Structure in the Perception of Music. Music Perception 3(2), 191220. Tenney, J. and L. Polansky (1980). Temporal Gestalt Perception in Music, Journal of Music Theory, 24, 205241. Wertheimer, M. (1923). Untersuchungen zur Lehre von der Gestalt. Psychologische Forschung 4, 301-350. Wetherell, C. (1980). Probabilistic Languages: A Review and Some Open Questions, Computing Surveys, 12(4). van Zaanen, M. (2000). Bootstrapping Structure and Recursion Using Alignment-Based Learning, Proceedings International Conference on Machine Learning (ICML'2000), Stanford, California.

Vous aimerez peut-être aussi