Transcripción, Etiquetado y Codificación de Corpus Orales

Transcripcin, etiquetado y codificacin de corpus orales Joaquim Llisterri
Seminario de Industrias de la Lengua, Curso Etiquetacin y extraccin de informacin de grandes corpus textuales, Fundacin Duques de Soria, Soria, 15 de julio de 1997.
1.- Introduccin
La constitucin de recursos lingsticos, contrariamente a lo que algunas veces parece deducirse, no consiste en la acumulacin sistemtica de materiales, sino que requiere una reflexin sobre muchos aspectos que inciden de forma muy directa en el resultado final obtenido. Uno de ellos, especialmente importante en el caso de los corpus orales, es el que se refiere a las cuestiones relacionadas con la propia representacin de los datos, tratadas generalmente bajo las denominaciones de transcripcin, etiquetado y codificacin. En el presente trabajo pretendemos poner de relieve que las decisiones relativas a estos tres aspectos no son puramente mecnicas, sino que requieren un cuidadoso anlisis lingstico acompaado de unos planteamientos ms globales sobre las futuras posibilidades de explotacin del corpus. Para ello, se parte de una concepcin del corpus como conjunto de niveles de representacin de los datos, en cada uno de los cuales se incorporan descripciones de los mismos que posteriormente deben ser recogidas mediante algn procedimiento formal. Como primer nivel de representacin abordamos la transcripcin ortogrfica, para pasar a continuacin a un segundo nivel, el de la representacin fontica, tanto en el aspecto segmental como en el suprasegmental. En este mismo nivel planteamos la cuestin del etiquetado que, asociado a otras operaciones como la segmentacin y la alineacin temporal, permite una utilizacin posterior del corpus en diversas aplicaciones. Finalmente, se discuten las cuestiones especficamente centradas en la transcripcin y codificacin de los corpus constituidos por transcripciones de lengua oral, presentando a modo de ejemplo algunos trabajos llevados a cabo en Espaa. Hemos intentado, para cada nivel de representacin, ofrecer informacin sobre algunas de las convenciones desarrolladas y presentar las que llevan camino de convertirse - o se han convertido ya - en estndares. Sin embargo, como se indica en las conclusiones, parece razonable insistir en la nocin de compatibilidad entre sistemas como modo de resolver la inevitable tensin entre los requisitos especficos del investigador y las necesidades del intercambio de recursos.
2.- Niveles de representacin, etiquetado y codificacin

Tanto si es oral como escrito, un corpus puede concebirse como un conjunto estructurado de materiales lingsticos en el que se distinguen diversos niveles de representacin correspondientes a diferentes grados de elaboracin de los datos que lo constituyen. El establecimiento de estos niveles es una de las tareas que se llevan a cabo en la fase de definicin del corpus y responde, lgicamente, a los objetivos del mismo. Por ejemplo, un corpus para el anlisis del discurso oral requiere, como mnimo, un nivel de representacin ortogrfica, pero puede ser necesario un nivel de representacin prosdica si el estudio de estos fenmenos constituye el principal inters del investigador; para realizar estudios sobre la sintaxis de la lengua coloquial es evidente que se impone definir una representacin de los datos que contenga informacin sintctica, mientra que en otro tipo de investigaciones se requerir una representacin en trminos pragmticos. Por otra parte, en corpus aplicados al estudio fontico es comn encontrar una representacin fontica y, en algunos casos, una caracterizacin de los datos mediante parmetros acsticos o articulatorios. Para cada nivel de representacin suele establecerse un conjunto de etiquetas que se asocian a un determinado fragmento del corpus - un segmento sonoro, una unidad prosdica, una palabra, etc. - y definen sus propiedades. Las etiquetas propias de un nivel fontico de representacin corresponden a las caractersticas articulatorias o acsticas de los sonidos del habla, mientras que, por ejemplo, las etiquetas de un nivel de representacin morfosintctico
describen propiedades morfolgicas y lxicas de las palabras. El etiquetado constituye, por tanto, un enriquecimiento del corpus mediante informacin adicional introducida por el investigador en funcin de sus objetivos y, lo que es ms importante, de su interpretacin lingstica de los materiales recogidos. El establecimiento del inventario de etiquetas estrechamente relacionado con los fenmenos que desean anotarse en un corpus - y las caractersticas que se sealan con cada una de ellas no es en absoluto una tarea trivial, especialmente si pretenden utilizarse en proyectos multilinges cubriendo simultneamente las necesidades de varias lenguas. Finalmente, es preciso definir, en el proceso de creacin de recursos lingsticos, un sistema o esquema de codificacin tanto de los fenmenos representados en los diferentes niveles del corpus como de sus correspondientes etiquetas. La codificacin constituye pues, tal como se concibe en la actualidad, una herramienta que dota al corpus de una estructura. Un esquema de codificacin adecuado permite, entre otras cosas, mantener una distincin entre los datos y su forma de representacin, que es til cuando se requiere el intercambio de corpus o su reutilizacin en otros proyectos. Por ello es esencial, a la hora de disear tal esquema, considerar sistemas que cumplan este requisito. En el caso de un corpus oral, el primer nivel de representacin necesario es el de la transcripcin. Esto responde a la exigencia de materializar o fijar de alguna manera la informacin lingstica y comunicativa presente en una onda sonora esencialmente transitoria. Tal como la caracteriza Payrat (1995:45), la transcripcin es un procedimiento de traslado o transposicin a una forma grfica (escrita) de una produccin (lingstica, discursiva) originariamente oral. Atendiendo a esta definicin, podemos referirnos tanto a la transcripcin ortogrfica - denominada transliteracin por algunos autores -como a la transcripcin fontica, que se lleva a cabo mediante un conjunto de smbolos especialmente diseados para tal fin. En los apartados que siguen centraremos nuestra atencin en estos dos niveles de representacin, el ortogrfico y el fontico, considerando tambin algunos aspectos relativos al etiquetado en el nivel fontico.
3.- Representacin ortogrfica de corpus orales

Uno de los primeros problemas a los que se enfrenta un investigador en el momento de constituir un corpus oral, una vez establecido el diseo y recogidos los datos, es, evidentemente, el de la representacin ortogrfica. Esta representacin constituye una transcripcin de los enunciados producidos por los hablantes utilizando la ortografa convencional o, dicho en otras palabras, una transliteracin. Puesto que se trata de un nivel de representacin comn a todo tipo de corpus orales sea cual sea su aplicacin - tanto para el anlisis de la interaccin verbal como para el desarrollo de los sistemas propios de las tecnologas del habla -, se han realizado una notable cantidad de propuestas en lo que concierne a la forma escrita de los corpus orales. En el informe del Grupo de Trabajo sobre Textos Orales de EAGLES (1996) - cuyos principales elementos se retoman a continuacin - se revisan algunas de ellas, incluyendo las que proceden del proyecto NERC en la tradicin de la lingstica de corpus y las que se derivan de proyectos en el mbito de las tecnologas del habla como SpeechDat o las desarrolladas por el Grupo de Trabajo sobre Lengua Oral de EAGLES.
3.1.- Propuestas en el mbito de la lingstica de corpus

3.1.1.- La propuesta de NERC
En el marco del proyecto NERC (Network of European Reference Corpora)(NERC, 1994), se adoptaron para la representacin ortogrfica de corpus orales las convenciones desarrolladas por French (1991, 1992), esencialmente concebidas para ser utilizadas en la constitucin de la parte oral del corpus COBUILD. En ellas se detalla el uso de los signos de puntuacin - por ejemplo, no se utilizan comas entre frases y se emplean puntos para delimitar frases -, de las maysculas - nicamente al inicio de frase - o de los apstrofes y las contracciones.
3.1.2.- La propuesta del Grupo de Trabajo de Textos Orales de EAGLES

En el informe del Grupo de Trabajo sobre Textos Orales de EAGLES (Expert Advisory Group on
Language Engineering Standards)(EAGLES, 1996) se proponen unas recomendaciones bsicas para la transcripcin ortogrfica de corpus orales, recogiendo tanto las sugerencias de NERC como algunas de las ideas desarrolladas en el mbito de las tecnologas del habla que se discuten en el prximo apartado. Las recomendaciones pueden resumirse en tres puntos:
Se recomienda utilizar siempre que sea posible las formas ortogrficas que aparecen en los diccionarios normativos o estndares para cada lengua, convencin que se aplica tambin a contracciones, formas reducidas, apstrofes, formas dialectales, interjecciones y formas semi-lxicas. Si puede darse ms de una forma ortogrfica de la misma palabra o si se introducen representaciones ortogrficas que no aparecen en los diccionarios, es recomendable mantener una base de datos con las formas utilizadas en la transcripcin. Los nmeros, las abreviaturas, los acrnimos y las palabras deletreadas deben representarse ortogrficamente tal como son pronunciadas por el hablante, utilizando la forma ortogrfica completa. Como puede observarse, stas son recomendaciones generales que constituyen principios bsicos. Un aspecto que requiere una discusin ms detallada es el empleo de los signos de puntuacin en la transcripcin ortogrfica de corpus, tema sobre el que existen diversas posturas, desde las que propugnan su completa eliminacin - lo que disminuye notablemente la legibilidad del texto - hasta las que abogan por su uso segn las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida a las dificultades que plantea la introduccin de puntuacin en transcripciones de habla espontnea, ya que implica necesariamente una segmentacin del enunciado que, en algunos casos, puede estar sujeta a la interpretacin del transcriptor.
3.2.- Propuestas en el mbito de las tecnologas del habla

En el campo de las tecnologas del habla existen diversas propuestas para la representacin ortogrfica, dos de las cuales se presentan a continuacin. Pueden verse otros ejemplos en las Guas de Transcripcin del Center for Spoken Language Understanding (CSLU, Oregon Graduate Institute) (Lander, 1997) y en las convenciones desarrolladas para corpus como el HCRC Map Task, Verbmobil o Polyphone (den Os et al., 1995).
3.2.1.- La propuesta de SpeechDat

Los sucesivos proyectos LRE-63314 SpeechDat (Infrastructure for Spoken Language Resources)y LE2-4001 SpeechDat II (Speech Databases for the Creation of Voice Driven Teleservices) tienen entre sus objetivos desarrollar estndares para la creacin de recursos lingsticos especialmente adecuados al entrenamiento y evaluacin de sistemas de reconocimiento automtico del habla. Para llevar a cabo la transcripcin ortogrfica se han definido una serie de convenciones - resumidas en dos recomendaciones: Keep it simple y Document everything adequately - entre las cuales se contempla el uso de maysculas y minsculas, la transcripcin de secuencias de nmeros, de letras, el empleo de los signos de puntuacin; se establecen tambin procedimientos para la transcripcin de errores de pronunciacin, de palabras ininteligibles, fragmentos de palabras, elisiones y acontecimientos acsticos no verbales como las denominadas pausas llenas, ruidos producidos por el hablantes, ruidos estacionarios en la grabacin o ruidos intermitentes, respondiendo estas ltimas categoras a las necesidades de transcripcin de una base de datos recogida a travs del telfono (Senia y van Velden, 1997). 3.2.2.- La propuesta del Grupo de Trabajo de Lengua Oral de EAGLES Los documentos del Grupo de Trabajo sobre Lengua Oral de EAGLES (EAGLES, 1995) ofrecen las siguientes recomendaciones para transcripcin ortogrfica de corpus orales: Las formas reducidas de las palabras se transcriben tal como aparecen en los diccionarios normativos. Si es necesario, y si se documentan adecuadamente, pueden utilizarse formas que no aparezcan en los diccionarios. Se recomienda el uso de formas reducidas si aparecen frecuentemente y si implican elisiones de slabas.
Las formas dialectales se marcan en la transcripcin. Los nmeros se transliteran como palabras. En la transcripcin ortogrfica se utilizan las formas completas de las abreviaturas. Las abreviaturas que los hablantes pronuncian como palabras se transcriben de este mismo modo. En las transcripciones se indica la aparicin de palabras deletreadas. Las interjecciones se transcriben con la representacin ortogrfica que aparece en los diccionarios. Como puede deducirse fcilmente, la filosofa general de esta propuesta consiste en utilizar siempre las formas que aparecen en los diccionarios normativos y documentar adecuadamente las formas no estndares que se encuentren durante el proceso de transcripcin.
4.- Representacin fontica de corpus orales

A la hora de plantearse la eleccin de un sistema de transcripcin fontica para un corpus oral, tiles los planteamientos que Johansson (1995:93) realiza en el marco de la TEI (Text Encoding Initiative): The degree of phonetic detail given in speech transcription varies from none to a very precise phonetic or phonemic transcription [...] Where there is a great deal of phonetic or phonemic detail, it will be more convenient to design a specialized writing system Evidentemente, hay casos en los que el objeto de la investigacin no requiere la utilizacin de un sistema de transcripcin fontica, pero cuando es necesario disponer de un sistema especializado de escritura el AFI (Alfabeto Fontico Internacional) aparece como el primer candidato para cubrir las necesidades de la investigacin, siendo igualmente el sistema recomendado tanto por la TEI (Sperberg-McQueen y Burnard (Eds.), 1994) como por el Grupo de Trabajo sobre Textos Orales de EAGLES (EAGLES, 1996). Sin embargo, cuando se requiere el intercambio electrnico de textos, SAMPA (SAM Phonetic Alphabet) - considerado como una versin informtica de parte del AFI (EAGLES, 1995) - se presenta como una opcin vlida especialmente en lo que se refiere a las lengua europeas y si se requiere una transcripcin de carcter fonolgico. Existe una extensin de SAMPA (X-SAMPA) que ofrece los elementos del AFI inexistentes en SAMPA y que, por lo tanto, puede considerarse como un sistema adecuado para la transcripcin de corpus orales (EAGLES, 1996). Por otra parte, cabe considerar tambin Wordlbet como una alternativa cuando la naturaleza del corpus aconseje disponer de un sistema ms detallado. Estos sistemas, comnmente utilizados en la transcripcin de corpus orales desarrollados en el mbito de la fontica y las tecnologas del habla, se presentan someramente a continuacin. Dada la diversidad de sistemas existentes, parece clara la conveniencia de desarrollar mecanismos que permitan la compatibilidad, asegurando la fcil traduccin de una representacin a otra, de modo que diferentes investigadores puedan hacer uso de corpus ya transcritos fonticamente, incorporndolos a su propio entorno de trabajo.
4.1.- La representacin de los elementos segmentales

4.1.1.- Alfabetos fonticos convencionales El Alfabeto Fontico Internacional (AFI / IPA, International Phonetic Alphabet) es el sistema ms ampliamente utilizado para la transcripcin fontica. Es bien sabido que se basa en un principio fonolgico, segn el cual se transcriben aquellos segmentos con valor diferencial, utilizndose los diacrticos para introducir aspectos de tipo fontico (IPA, 1995). Sin embargo, a pesar del uso extendido de este sistema, existen tambin diversas tradiciones nacionales resultantes, en general, de las necesidades derivadas de la transcripcin estrecha de una determinada lengua o de la orientacin de la investigacin hacia un determinada rea lingstica. 4.1.2.- Alfabetos fonticos para el intercambio electrnico 4.1.2.1.- La codificacin de los smbolos del AFI La necesidad de intercambiar electrnicamente textos que contienen transcripciones fonticas
llev, a finales de los aos 80, a plantearse la codificacin de los smbolos del AFI, de modo que para cada uno de los smbolos del alfabeto se ha definido un nmero (denominado nmero AFI) que puede relacionarse tambin con los cdigos ASCII (Esling, 1988, 1990; Esling y Gaylord, 1993; IPA, 1989). Las equivalencias entre smbolos, nmeros AFI y cdigos ASCII forman parte de las convenciones conocidas como CRIL (Computer Representation of Individual Languages) surgidas del congreso de la Asociacin Fontica Internacional celebrado en Kiel en 1991. 4.1.2.2.- SAMPA (SAM Phonetic Alphabet) SAMPA (SAM Phonetic Alphabet) constituye seguramente el esfuerzo ms significativo y extendido por desarrollar un sistema de transcripcin fontica informatizado. SAMPA tiene su origen en el proyecto ESPRIT 1541 SAM (Speech Assessment Methods) (Fourcin et al., 1989; Fourcin y Dolmazon, 1991) llevado a cabo entre 1987 y 1989. Al final del proyecto existan versiones de SAMPA en dans, neerlands, ingls, francs, alemn e italiano, incorporndose en 1992 el noruego y el sueco, y el espaol, el griego y el portugus en 1993. Durante 1996 se ha extendido a una serie de lenguas de los pases de la Europa del Este en el marco del proyecto BABEL, y, en principio, no hay ningn obstculo para su adaptacin a otros idiomas. En cuanto a su utilizacin prctica, puede sealarse que es el sistema desarrollado para la transcripcin del corpus multilinge EUROM (Chan et al., 1995) y tambin el adoptado en el proyecto ONOMASTICA, centrado en la transcripcin de nombres propios en diversas lenguas europeas SAMPA se basa en un conjunto de equivalencias entre smbolos del AFI y cdigos ASCII, restringindose al uso de caracteres de 7 bits (cdigos 32 a 127). El principio que rige las transcripciones en SAMPA, al igual que en el caso del AFI, es esencialmente fonolgico, emplendose nicamente smbolos distintos en el caso de segmentos con valor diferencial. Esta filosofa viene motivada por tres razones: simplicidad de la transcripcin sin incorporar ambigedades, ya que las realizaciones alofnicas son predictibles a partir del contexto; facilidad de utilizacin por parte personas con poca formacin en fontica; y falta de cdigos ASCII para la transcripcin alofnica de todas las lenguas. Sin embargo, en algunos casos, se introducen smbolos para la representacin de alfonos cuando los investigadores que han desarrollado las adaptaciones para cada lengua lo han considerado necesario. 4.1.2.3.- X-SAMPA Una de las limitaciones de SAMPA es que no establece una codificacin para todos los smbolos del AFI. Por este motivo, Wells (1994) propone un sistema denominado X-SAMPA en el que se prevn equivalencias en cdigos ASCII para la totalidad de smbolos del AFI en su revisin de 1993, incluyendo diacrticos y marcas tonales. Una de las utilidades propuestas para este sistema es el envo de textos en transcripcin fontica a travs del correo electrnico. 4.1.2.4.- Worldbet Worldbet constituye una propuesta ms ambiciosa que SAMPA y que su extensin X-SAMPA, pues parte de la base de que any spectrally and temporally distinct speech sound (not including pitch) which is phonemic in some language should have a separate base symbol (Hieronymus, 1994); los smbolos de base consisten normalmente en la concatenacin de un smbolo del AFI con una serie de diacrticos, de modo que puede representarse una gran variedad de alfonos hallados en las lenguas del mundo, incluyendo smbolos inexistentes en el AFI. Uno de los objetivos de Wordlbet - que en su versin actual usa 299 smbolos compuestos de dos caracteres ASCII - es facilitar la transcripcin de bases de datos multilinges que incluyan lenguas indias, asiticas y africanas, adems de las europeas. Este sistema se ha utilizado, por ejemplo, en la transcripcin de los corpus distribuidos por el CSLU (Center for Spoken Language Understanding, Oregon Graduate Institute)(Lander, 1997). 4.1.2.5.- Otros sistemas de transcripcin fontica Existen otros sistemas de transcripcin fontica concebidos para el intercambio electrnico de textos, tanto desarrollados desde la perspectiva de las tecnologas del habla - por ejemplo, el CPA (Computer Phonetic Alphabet)surgido en el marco del proyecto ESPRIT Linguistic Analysis of European Languages (Kluger-Kruse, 1987) - como diseados para otros fines. En el mbito
del estudio del lenguaje infantil, el proyecto CHILDES (Child Language Data Exchange System) (MacWhinney, 1991) utiliza el sistema conocido como PHONASCII (Allen, 1988), consistente en un conjunto de smbolos fonolgicos - UNIBET - y un alfabeto fontico que permite la transcripcin estrecha. 4.1.3.- Transcripcin fontica segmental en espaol 4.1.3.1.- Alfabetos fonticos convencionales En la tradicin hispnica, el alfabeto fontico de la Revista de Filologa Espaola (RFE, 1915) constituye, sin duda, el sistema de transcripcin fontica ms ampliamente difundido. Sin embargo, el Alfabeto Fontico Internacional tiende a utilizarse cada vez con mayor frecuencia, ya que, en la mayora de los casos, es posible establecer una correspondencia entre los dos sistemas tal como se presenta, por ejemplo, en Quilis (1985).
4.1.3.2.- Alfabetos fonticos para el intercambio electrnico
4.1.3.2.1.- La adaptacin espaola de SAMPA

Las necesidades surgidas a raz de la constitucin de corpus en espaol adaptados al desarrollo de las tecnologas del habla han propiciado la adaptacin de sistemas adecuados para el tratamiento informtico desarrollados originalmente en otras lenguas. La presencia de grupos espaoles en el proyecto ESPRIT 2104 Polyglot I (Pardo et al., 1992) llev a una primera adaptacin del alfabeto fontico del proyecto SAM realizada en la UNED, dando lugar a trabajos sobre transcripcin fontica automtica en espaol (Enrquez, 1991). La realizacin de la versin espaola del corpus EUROM en el marco del proyecto ESPRIT 6819 SAM-A llev a la adaptacin espaola de SAMPA (Mario y Llisterri, 1993) tal como se presenta a continuacin, y al desarrollo de un programa de transcripcin fontica automtica basada en este alfabeto que permitiera la generacin automtica de la representacin fontica del corpus a partir de los textos escritos ledos por los informantes. En la siguiente tabla, tomada de Wells (1995) se ofrecen los smbolos de transcripcin de SAMPA utilizados en espaol. SAMPA p b t d k g tS jj f B T D s x G m n J l Ejemplo padre vino tomo donde casa gata mucho hielo fcil cabra cinco nada sala mujer luego mismo nunca ao lejos Ejemplo transcrito "paDre "bino "tomo "donde "kasa "gata "mutSo "jjelo "faTil "kaBra (= /b/) "Tinko "naDa (= /d/) "sala mu"xer "lweGo (= /g/) "mismo "nunka "aJo "lexos
L r rr j
caballo puro torre
ka"baLo (o como jj) "puro "torre rrej pje "dewDa "piko "pero "baLe "toro "duro (SAM Phonetic Alphabet) para la transcripcin del espaol (Wells,
rey pie w deuda i pico e pero a valle o toro u duro Tabla 1: Smbolos de SAMPA 1995)
SAMPA es el alfabeto fontico utilizado en el proyecto ALBAYZN, cuyo objetivo es la constitucin de tres bases de datos orales diseadas para el entrenamiento y la evaluacin de sistemas de reconocimiento del habla y para estudios fonticos (Casacuberta et al., 1992; Moreno et al., 1993); tal como sucede en el caso de otras lenguas, podra, previsiblemente, convertirse en el estndar para la transcripcin de corpus orales en espaol cuando el nivel de transcripcin requerido responda al diseo de SAMPA que, como se ha indicado, constituye un alfabeto de naturaleza fonolgica adecuado para una transcripcin ancha. Este podra ser el caso de los corpus para aplicaciones a las tecnologas del habla y, en este mismo contexto, SAMPA constituye la base - en algunos casos con modificaciones - de las representaciones generadas por los algoritmos de transcripcin fontica automtica desarrollados para diversos sistemas de conversin de texto a habla en espaol.
4.1.3.2.2.- Utilizacin de Worldbet para la transcripcin en espaol

La siguiente tabla, tomada de Hyeronimus (1994) propone los smbolos de Worldbet utilizados para la transcripcin fonolgica del espaol peninsular: Worldbet p b t d k g V f s z T D x G tS dZ m n n~ N l L Ejemplo punto baos tino donde casa ganga haba falda casa mismo luces dedo jams lago chato un yugo mano nada bao banco lado pollo Ejemplo transcrito punto b a n~ o s tino donde kasa gaNga aVa falda kasa mizmo luTes deDo xamas laGo tSato dZ u G o mano naDa b a n~ o baNko laDo poLo
r( pero p e r( o r perro pero j mayo majo w cuento kwento i piso piso e mesa mesa a caso kaso o modo moDo u cura k u r( a Tabla 2: Smbolos de Worldbet para la transcripcin del espaol (Hyeronimus, 1994) La transcripcin alofnica puede llevarse a cabo sin dificultades recurriendo al inventario completo de smbolos de Worldbet presentado en Hyeronimus (1994). Por ejemplo, es posible especificar el carcter dental de [t] y [d] mediante el uso de los smbolos [t[] y [d[] respectivamente, la fricativa dental sonora mediante [z], la fricativa palatal sorda con [Z] y su equivalente sonoro con [s_j], as como los alfonos reducidos (laxos) de las vocales mediante [Ix], [E], [&] o las aspiraciones utilizando [hs] (Lander, 1997).
4.1.3.2.3.- Sistemas de transcripcin fontica adaptados a corpus especficos

Transcripcin de variantes geogrficas Sin embargo, una transcripcin de base fonolgica como la planteada en SAMPA no es, evidentemente, apta para cubrir todas las necesidades de la investigacin lingstica. Por este motivo, en corpus informatizados como el recogido en el proyecto de investigacin de las Variedades Vernculas Malagueas (Alvar y Villena (Coords.), 1994) se ha adoptado un sistema de transcripcin basado en la adaptacin del sistema de la RFE al ALEA (Atlas Lingstico y Etnogrfico de Andaluca). En este proyecto se utiliza un entorno de transcripcin asistida que permite al investigador, mediante el uso de macros, crear smbolos fonticos rasgo a rasgo, introduciendo cuantos diacrticos sean necesarios (Len, 1994). Con ello es posible realizar una transcripcin estrecha de las hablas meridionales que responde a los objetivos planteados para el corpus. El procedimiento de transcripcin asistida constituye la base de un futuro mtodo de transcripcin fontica automtica por reglas de textos orales transliterados, en el que se contempla la utilizacin de SAMPA para la transcripcin ancha, manteniendo el alfabeto fontico del ALEA para la transcripcin estrecha (Len y Snchez, 1996). Transcripcin de diccionarios electrnicos Un alfabeto fontico apto para ser utilizado en soportes digitales es tambin una herramienta indispensable en la transcripcin fontica de diccionarios electrnicos como, por ejemplo, el Sistema de Diccionarios Electrnicos del Espaol . En el marco de este proyecto se lleva a cabo la transcripcin automtica de una base de datos lxica que permite establecer de forma sistemtica las irregularidades ortogrficas y que constituye la base para la realizacin de un diccionario de pronunciacin aplicable a las tecnologas del habla (Ros, 1993, 1994). 4.2.- La representacin de los elementos suprasegmentales La incorporacin de informacin sobre los elementos suprasegmentales - informacin prosdica - en un corpus oral plantea diversos problemas, derivados precisamente de la propia naturaleza de estos elementos, que se manifiestan en variaciones continuas en los dominios de la frecuencia, la intensidad y el tiempo. Por tanto, es preciso llevar a cabo una abstraccin para determinar, en primer lugar, cules de estas variaciones son lingsticamente significativas y, en segundo lugar, cmo se relacionan con categoras discretas. Finalmente, estas categoras deben representarse en un sistema de notacin. No es pues extrao que se hayan desarrollado diversas convenciones para la simbolizacin de los elementos suprasegmentales, algunas de las cuales se presentan en los apartados siguientes. En el momento de plantearse la seleccin de un sistema de transcripcin prosdica adecuado a un corpus oral el investigador se enfrenta nuevamente a la diversidad de sistemas, al igual que sucede en el caso de la transcripcin segmental. Aunque, como veremos ms adelante, ToBI parece que se est convirtiendo rpidamente en un estndar a pesar de su orientacin hacia la transcripcin del ingls y del modelo fonolgico subyacente, SAMPROSA ofrece la ventaja de
haberse desarrollado teniendo en cuenta las necesidades de la fontica y de las tecnologas del habla; adems, SAMPROSA se enmarca en el contexto de estndares extendidos en Europa como los del proyecto SAM, recomendados, por ejemplo, por NERC (Teubert, 1993; Sinclair, 1994). En conjunto, el sistema ideal de transcripcin prosdica debera permitir una representacin en varios niveles, ser compatible con el intercambio electrnico de datos y cubrir las necesidades del mayor nmero de lenguas posible, pudiendo aplicarse automticamente en lugar de basarse en las impresiones intuitivas del transcriptor, con vistas a la transcripcin de grandes corpus. En ausencia de un sistema que rena tales caractersticas, parece adecuado establecer mecanismos de compatibilidad entre los existentes a fin de facilitar la reutilizacin de los datos. 4.2.1.- La transcripcin de los elementos suprasegmentales mediante el AFI El AFI ofrece, adems de la posibilidades de transcripcin segmental, un conjunto de smbolos para la representacin de los elementos suprasegmentales. Con motivo del congreso para la revisin del AFI celebrado en Kiel en 1989 se cre un grupo de trabajo sobre categoras suprasegmentales (Bruce 1988, 1989), concluyndose la necesidad de representar las categoras suprasegmentales de un modo ms adecuado, especialmente en lo que se refiere la entonacin. El conjunto actual de smbolos del AFI para los elementos suprasegmentales permite transcribir el tono, as como la duracin y el acento. 4.2.2.- Sistemas de transcripcin prosdica para el intercambio electrnico Las necesidades derivadas de una descripcin detallada de la entonacin tanto en el campo de la fontica como en el de las tecnologas del habla han propiciado la creacin de diversos sistemas de transcripcin prosdica, algunos de los cuales se presentan a continuacin. 4.2.2.1.- Las propuestas de SAM En el marco del proyecto ESPRIT SAM anteriormente mencionado se llev tambin a cabo el desarrollo de sistemas de transcripcin prosdica compatibles con las necesidades de anotacin de bases de datos en soporte electrnico, resultando de ello propuestas como PROSPA, SAMSINT o SAMPROSA (Gibbon, 1989; Wells et al., 1992). PROSPA fue originalmente concebido por Selting y Gibbon (Selting, 1987, 1988) para el anlisis de la conversacin y del discurso y, por tal motivo, se basa en criterios auditivos y recoge nicamente los elementos necesarios para este fin. Por su parte, SAMSINT ( SAM System for Intonation Transcription) se plantea como objetivo la transcripcin de contornos meldicos en el interior de unidades entonativas, basndose en INTSINT (cf. 4.2.2.4.) con algunas modificaciones adicionales.
SAMPROSA (SAM Alphabet)

A pesar de la coexistencia de los sistemas anteriormente mencionados en el proyecto SAM, probablemente el conjunto de smbolos ms extendido actualmente para la transcripcin prosdica sea SAMPROSA(SAM Prosodic Alphabet), propuesto inicialmente por Gibbon (1989) y desarrollado por Wells et al.(1992) hasta llegar a su forma actual, que se presenta en la siguiente tabla, reproducida de Wells (1995). SAMPROSA Local tone H L T B M + ++ +-ASCII 72 76 84 66 77 43 43,43 43,45 45 45,45 Definition High pitch Low pitch Top pitch (extreme H) Bottom pitch (extreme L) Mid pitch Higher pitch Much higher pitch Peak (upward-downward) Lower pitch Much lower pitch
-+ 45,43 Trough (downward-upward) ^ 94 Upstep ^^ 94,94 Wide upstep ! 33 Downstep !! 33,33 Wide downstep = or > or S 61 62 or 83 Level or same tone Global tone: from Local and Nuclear tone repertoire Terminal tone: from Local and Nuclear tone repertoire Nuclear tone Level tone (before tone group 45 boundary) ' or / or R 39 47 or 82 Rising tone ` or \ or F 96 92 or 70 Falling tone `' (etc.) 96,39 (etc.) Fall-rise '` (etc.) 39,96 (etc.) Rise-fall Length : 58 Segment length mark Stress " 34 Primary stress % 37 Secondary stress Pause ... 46,46,46 Silence Boundary $ 36 Syllable boundary # 35 Word boundary Tone group boundary | 124 (non-directional) [ 91 Tone group boundary (left) ] 93 Tone group boundary (right) Metasymbols Separator (the underscore, _, ASCII 95, may replace this 45 owing to ambiguity with level tone) * 42 Conjunctor Tabla 3: SAMPROSA (SAM Prosodic Alphabet)(Wells, 1995) SAMPROSA ofrece pues, al igual que SAMPA, un conjunto de caracteres correspondientes a cdigos ASCII, mediante los cuales es posible transcribir tonos globales, locales, terminales y nucleares, la duracin, el acento, la pausas y las fronteras entre unidades prosdicas. Aunque, como puede observarse, presenta rasgos caractersticos de la tradicin britnica de anlisis de la entonacin como la codificacin de tonos nucleares, es un sistema que se plantea como adecuado para la transcripcin de diversas lenguas. 4.2.2.2.- ToBI (Tone and Break Index) ToBI (Tone and Break Index)se desarroll para cubrir al mismo tiempo las necesidades de la descripcin fontica y de la anotacin de corpus adecuados al desarrollo de sistemas de tecnologas del habla (Silverman et al., 1992). Basado en el ingls americano, permite principalmente la transcripcin de patrones entonativos partiendo de un anlisis de la curva meldica representada como evolucin temporal de la frecuencia fundamental mediante herramientas de anlisis y etiquetado como el programa Waves. Sin embargo, se han definido tambin convenciones para la anotacin de textos representados ortogrficamente. Una transcripcin utilizando ToBI consta de cuatro niveles:
Representacin ortogrfica del enunciado. Nivel de ndices de ruptura (break index), en el que se introducen los indicadores de lmite que marcan las fronteras entre las unidades meldicas estableciendo cuatro grados de cohesin entre las mismas Nivel tonal, en el que se marcan los denominados eventos tonales ( pitch events) divididos en tonos de frase al principio y al final de las unidades meldicas y en acentos tonales (pitch accent) en las slabas en las que se produce un movimiento de la frecuencia fundamental Nivel miscelneo, que facilita, por ejemplo, introducir los comentarios del transcriptor. Para cada uno de los niveles se define un conjunto de smbolos, alineados temporalmente con los fenmenos entonativos transcritos si se dispone de una herramienta adecuada como Waves. Las crticas que se realizan ms frecuentemente a ToBI son, por una parte, su dependencia del modelo fonolgico desarrollado por Pierrehumbert (1980) y, por otra, su mejor adaptacin al ingls que a otras lenguas, lo que explicara su amplia utilizacin en Estados Unidos. Sin embargo, se han realizado trabajos en italiano, alemn, hngaro y espaol, entre otras lenguas, usando ToBI como sistema de representacin. Un inconveniente ms importante es que la anotacin mediante ToBI requiere un cierto conocimiento previo de los patrones entonativos de la lengua. Aun as, es un sistema que ofrece indudables ventajas como pueden ser su estructura jerrquica, que permite seleccionar entre subconjuntos o conjuntos mayores de smbolos, la posibilidad de representar problemas que aparecen en la transcripcin y el hecho de que existan experimentos demostrando un alto grado de acuerdo entre transcriptores diferentes (Pitrelli et al., 1994). 4.2.2.3.- El sistema de representacin del IPO En el Institute for Perception Research (IPO, Eindhoven) se ha desarrollado una teora sobre la entonacin basada en el modelado de contornos entonativos, consistentes en representaciones estilizadas perceptivamente equivalentes al contorno original (t Hart et al., 1990). Esta teora ha llevado tambin a la formalizacin de un sistema de representacin de la curva meldica, definida como un conjunto de movimientos tonales que se agrupan en secuencias de configuraciones tonales; la agrupacin de estas configuraciones da lugar, a su vez, a contornos meldicos, definindose los patrones entonativos en funcin de agrupaciones similares de contornos meldicos. Un sistema jerarquizado de esta naturaleza permite una representacin de la curva meldica adecuada para la transcripcin prosdica, aunque que inicialmente no haya sido diseado para tales fines. 4.2.2.4.- INTSINT (International Transcription System for Intonation) El objetivo de INTSINT (International Transcription System for Intonation) es proporcionar un sistema para la comparacin interlingstica de sistemas prosdicos. Desarrollado por Hirst (1991, 1994; Hirst y Di Cristo, en prensa; Hirst, Di Cristo y Espesser, en prensa) en el marco de un proyecto de anlisis automtico de la entonacin, INTSINT se basa en la estilizacin de la curva meldica realizada a partir de una interpolacin entre puntos en los que se da un cambio significativo en el valor de la frecuencia fundamental (target points). Estos puntos, que podramos denominar de inflexin - definidos como la combinacin de un valor temporal y un valor frecuencial - son susceptibles de codificarse automticamente mediante los smbolos de INTSINT, previa introduccin de marcas de frontera entre las unidades entonativas. Con ello se obtiene una representacin fonolgica del contorno meldico, simbolizando los diferentes niveles tonales de la curva original. El sistema se basa en la representacin de secuencias tonales, consideradas tanto desde una perspectiva global en funcin del rango de variacin tonal del hablante como desde un punto de vista local en relacin con la altura de puntos de inflexin anteriores. En el primer caso se definen tres niveles: T ( Top), M (Mid) y B (Bottom), mientras que en el segundo se marcan cinco posibilidades: H ( Higher), L (Lower), S (Same), U (Upstep) o D (Downstep). El proceso de modelizacin necesario para transcribir mediante INTSINT ha sido aplicado a varias lenguas (Hirst et al., 1993) y se emplea tambin para la anotacin prosdica de parte del corpus EUROM en francs, ingls, alemn, sueco y espaol (Hirst et al., 1994; Llisterri (Ed.), 1996) llevada a cabo en el marco del proyecto LRE 62-050 MULTEXT ( Multilingual Text Tools and Corpora). Es posible tambin aplicar INTSINT a niveles ms altos como el prrafo tal como se
muestra en Nicolas y Hirst (1995).
5.- Etiquetado fontico de corpus orales

Al igual que en el caso de los corpus textuales, una vez recogidos los materiales de base, debe llevarse a cabo un procesamiento de los mismos que permita su utilizacin posterior. El primer paso suele ser la transcripcin ortogrfica, que en determinado tipo de corpus se acompaa de una transcripcin fontica o fonolgica. A continuacin, a cada segmento de la onda sonora se le asocia una etiqueta que lo define en trminos fonticos o fonolgicos ( labelling) y se lleva a cabo la alineacin (alignment) entre la seal sonora y las etiquetas, obteniendo una representacin que puede compararse a la partitura musical de una obra para voz y orquesta. El proceso de etiquetado segmental puede llevarse a cabo a varios niveles, como veremos en este apartado, y completarse con una anotacin de las caractersticas suprasegmentales, codificadas segn los diversos sistemas que hemos expuesto anteriormente. Si se cumplen las etapas mencionadas, se llega a disponer de un corpus que contiene la seal sonora sincronizada con la transcripcin ortogrfica y con la transcripcin fontica o fonolgica, de modo que, una vez definida una estructura de base de datos, es posible consultar el corpus partiendo de etiquetas fonticas, de marcas prosdicas o de la transcripcin ortogrfica, al tiempo que se accede a la grabacin correspondiente. Los corpus de lengua oral que consisten nicamente en transcripciones ortogrficas - ya que no suele ser factible realizar una transcripcin fontica completa de un nmero elevado de horas de grabacin - conllevan un procesamiento menos complejo, aunque en algunos casos contienen marcas prosdicas tiles para el anlisis del discurso o de la conversacin, como veremos en el apartado 6.
5.1.- Niveles de etiquetado

Una cuestin que se plantea inevitablemente a la hora de introducir informacin adicional sobre los datos recogidos es el nivel de etiquetado del corpus. Se han realizado varias propuestas sobre los distintos niveles en los que se puede realizar el etiquetado fontico de un corpus, algunas de ellas ligadas al proyecto SAM como la de Barry y Fourcin (1992) que presentamos a continuacin. 5.1.1.- La propuestas del proyecto SAM En la propuesta de Barry y Fourcin se plantean cinco niveles posibles de etiquetado fontico de un corpus: Nivel fsico, en el que se etiquetan las propiedades acsticas presentes en la seal sonora. Nivel acstico-fontico, en el que se marcan las propiedades de los segmentos en trminos de categoras fonticas como oclusin, friccin, sonoridad, nasalizacin, etc. Nivel de transcripcin estrecha, en el que se caracterizan los segmentos utilizando los smbolos del AFI o de sus equivalentes computacionales. Nivel de transcripcin fonolgica (o fonmica), sealando nicamente aquellos elementos funcionalmente distintivos que se encuentran en la palabra pronunciada aisladamente en un estilo cuidado (citation form). Nivel de transcripcin ancha, en el que se utilizan los smbolos correspondientes a los elementos fonolgicos en una lengua dada para transcribir realizaciones alofnicas condicionadas por el contexto. A estos cinco niveles debe aadirse an la anotacin prosdica, considerada de forma independiente por los autores de la propuesta. Una propuesta similar de etiquetado, tambin en cinco niveles - caractersticas acsticas de naturaleza subfonmica, caractersticas segmentales, realizaciones fonticas, forma cannica de las palabras y transcripcin ortogrfica - se presenta en Tillmann y Pompino-Marschall (1993) y ha sido utilizada con xito en el proyecto alemn PhonDat.
5.1.2.- La propuesta de EAGLES

La transcripcin y el etiquetado de corpus orales se ha abordado en el marco del proyecto EAGLES desde una doble perspectiva: la de la foneacute;tica y las tecnologas del habla en el Grupo de Trabajo sobre Lengua Oral y desde la de la lingstica de corpus en el marco de las actividades del Grupo de Trabajo sobre Corpus Textuales. El trabajo llevado a cabo en el grupo dedicado a la lengua hablada en EAGLES recoge esencialmente las propuestas desarrolladas en el marco de SAM y de PhonDat. Los niveles de etiquetado propuesto son los siguientes (EAGLES, 1995): Nivel ortogrfico, en el que se utiliza la representacin ortogrfica convencional. Nivel de formas cannicas (citation form), representando la forma de pronunciacin aislada de las palabra en estilo cuidado. Nivel de transcripcin ancha o fonotpica: en este nivel se utilizan los smbolos que representan elementos fonolgicos en una lengua dada, pero, al igual que en la propuesta de Barry y Fourcin, se transcriben aquellos fenmenos predictibles propios de la fontica sintctica. SAMPA sera, pues, un alfabeto fontico adecuado para este nivel de transcripcin. Nivel de transcripcin estrecha, basado en una representacin alofnica de las realizaciones fonticas de los hablantes, para el cual puede utilizarse un alfabeto fontico como X-SAMPA. Nivel acstico-fontico, en el que se distinguen caractersticas acsticas de los segmentos observables en una representacin de la onda sonora Nivel fsico, representado en trminos de parmetros acsticos o articulatorios Fenmenos no lingsticos: la inclusin de este nivel permite representar sonidos de naturaleza comunicativa o no introducidos por el hablante, as como toda aquella informacin paralingstica que se considere de inters; tambin permite sealas los ruidos externos en la grabacin. Vale la pena detenerse brevemente en el nivel de las formas cannicas y en el concepto de transcripcin fonotpica que, como puede verse, aparecen de forma constante en diversas propuestas. La inclusin en el etiquetado de un corpus de forma cannicas responde a un doble motivo, especialmente ligado a necesidades tecnolgicas: en primer lugar, estas formas permiten derivar automticamente, mediante un conjunto de reglas, una transcripcin ancha o fonotpica en la que se incluyen los elementos alofnicos cuya aparicin esta condicionada por el contexto fontico; en segundo lugar, a partir de las formas cannicas puede crearse de forma automtica un diccionario fontico partiendo de un corpus transcrito (Senia y van Velden, 1997; Wesenick y Schiel, 1995), lo que tiene utilidad para el desarrollo de sistemas de sntesis y reconocimiento del habla y tambin para la descripcin lingstica. La transcripcin denominada fonotpica en los trabajos de SAM constituye un nivel intermedio entre la realizacin fontica y la transcripcin puramente fonolgica. Por otra parte, el nivel de transcripcin de formas cannicas est directamente relacionado con la representacin ortogrfica, facilitando as la transcripcin fontica automtica de corpus en este nivel mediante el desarrollo de los correspondientes sistemas de reglas. En el informe del Grupo de Trabajo de Corpus Textuales de EAGLES (EAGLES, 1996) se intenta realizar una sntesis entre las necesidades de diversos campos de estudio. Se sugieren, por ello, tres niveles de representacin: S1: representacin ortogrfica del texto. S2: representacin fonolgica de las palabras en su forma cannica. S3: transcripcin fontica, consistente en una representacin simblica discreta de la realizacin del enunciado tal como es percibido por el transcriptor. Como puede observarse, estos tres niveles encuentran su equivalente en los niveles propuesto por Barry y Fourcin (1992) y en los definidos por el Grupo de Trabajo de Lengua Oral. Para la transcripcin del nivel S2 puede utilizarse SAMPA, mientras que la del nivel S3 requiere el uso de un alfabeto fontico como X-SAMPA.
5.2.- La transcripcin y el etiquetado automtico de corpus orales

La tarea de transcribir y etiquetar fonticamente un corpus oral representa un considerable esfuerzo, tanto en trminos de tiempo como de los recursos econmicos necesarios para llevar a cabo esta labor. El etiquetado manual requiere, por otro lado, el desarrollo de convenciones detalladas para asegurar la consistencia entre diversos transcriptores (Keating et al., 1994; Lander, 1997) adems del establecimiento de un proceso de validacin, comprobando la fiabilidad de los resultados obtenidos (Cole et al., 1994; Eisen, 1993; Strangert y Heldener, 1995). Por estos motivos, uno de los intereses principales de los investigadores en el campo de las tecnologas del habla ha sido llevar a cabo el etiquetado de forma semi-automtica o, idealmente, completamente automtica. Un primer nivel de transcripcin - tanto de formas cannicas como fonotpica - puede obtenerse automticamente, como acabamos de mencionar, a partir de la representacin ortogrfica si se dispone de un conjunto de reglas que establezcan las correspondencias entre la representacin ortogrfica y la fontica. Sin embargo, un etiquetado fontico en los niveles de transcripcin ms detallada requiere la posibilidad de acceder a la onda sonora y un procedimiento de anlisis de la seal. La primera operacin que debe realizar un sistema de etiquetado automtico es la segmentacin del continuum sonoro en unidades menores - segmentos o caractersticas acsticas, en funcin del nivel de transcripcin deseado - para pasar despus a la asignacin de etiquetas - smbolos de transcripcin - que describan sus caractersticas. Este es el proceso conocido propiamente como etiquetado (labelling) que, cuando se realiza de forma automtica, debe superar los obstculos derivados de la naturaleza no discreta de la seal sonora - resultado de mecanismos como la coarticulacin - y de la variabilidad de realizaciones fonticas entre hablantes o incluso en un mismo hablante. Para que el corpus sea til, el etiquetado fontico debe estar temporalmente sincronizado con la seal sonora y con la representacin ortogrfica, operacin que se realiza en el proceso conocido como alineacin temporal (time alignment), llevado a cabo tambin de forma automtica. Esta alineacin puede hacerse de un modo global, sealando en la onda sonora las fronteras entre palabras ortogrficas - para facilitar el acceso a la grabacin a partir de este nivel de representacin - o los puntos en los que se encuentran slabas acentuadas tal como sucede, por ejemplo, en el proyecto MULTEXT. En el campo de las tecnologas del habla se han llevado a cabo numerossimos trabajos encaminados al diseo de sistemas de segmentacin, etiquetado y alineacin temporal automticas de corpus orales, utilizando las tcnicas propias del reconocimiento del habla como los Modelos de Markov o las redes neuronales. No constituye el objeto de la presente contribucin presentar tales procedimientos, por lo que remitimos al lector a los trabajos publicados, por ejemplo, en Eurospeech (1991, 1993, 1995) o en las revistas de la especialidad como Speech Communication (Amsterdam: Elsevier). Cabe destacar que tales tcnicas no slo son tiles en el desarrollo de corpus para las tecnologas del habla, sino que constituyen una herramienta importante en otros tipos de corpus; sin embargo, es preciso reconocer que el habla espontnea - especialmente si se ha recogido mediante grabaciones realizadas en un entorno natural - plantea an problemas en lo que se refiere a su transcripcin y etiquetado automticos pese a los notabilsimos avances que tienen lugar en este campo.
6.- Transcripcin y codificacin de corpus para el anlisis de la lengua oral

En este ltimo apartado incidiremos en las cuestiones relacionadas con la transcripcin y codificacin de corpus orales que pueden presentar un mayor inters para mbitos como el anlisis de discurso o de la conversacin y para el estudio de la lengua oral en todos los niveles de la descripcin lingstica. Como indicbamos al principio, la transcripcin y la codificacin de los elementos transcritos son, en principio, dos operaciones conceptualmente diferentes. Sin embargo, en la prctica habitual en las reas a las que se refiere este apartado, suelen ser dos operaciones que se realizan simultneamente, ya que al mismo tiempo que se realiza la transliteracin se introducen las marcas necesarias para la codificacin de los elementos que se ha decidido introducir en el corpus. Por ello, en muchos casos la discusin sobre la
transcripcin y la codificacin se realiza conjuntamente en la bibliografa sobre el tema.
6.1.- Los requisitos de una transcripcin

El investigador que decide constituir un corpus de lengua oral se encuentra, en estos momentos, con una gran variedad de criterios en lo que se refiere a la transcripcin y a la seleccin de los elementos que aparecern codificados en el corpus. Hemos hecho ya referencia en el apartado 3 a las diversas convenciones para la representacin ortogrfica y, cindonos al mbito del anlisis del discurso y la conversacin, constatamos igualmente la existencia una gran diversidad de propuestas. En una revisin de las mismas, Payrat (1995) hace referencia a los sistemas de transcripcin y codificacin procedentes de la etnometodologa, interesados en reflejar la interaccin verbal (Atkinson y Heritage (Eds.), 1984; Button y Lee (Eds.), 1987), a los mtodos desarrollados en el marco de la etnografa de la comunicacin y de la sociolingstica interaccional (Ochs, 1979; Tannen, 1987; DuBois, 1991; DuBois et al. 1993; Gumperz y Berenz, 1993) o a propuestas utilizadas en el estudio del lenguaje infantil como la de CHILDES (MacWhynney, 1991). Cabe aadir tambin sistemas como los presentados en Blanche-Benveniste y Colette (1987) para la transcripcin de un corpus centrado en la investigacin del francs hablado, o en Stenstrm (1994), Cestero (1994) y Tusn (1995) orientados al anlisis de la conversacin, as como a la propuesta detallada en Payrat (1995). Ante tal situacin, parece conveniente plantearse cules son los requisitos que debe cumplir una transcripcin de la lengua oral, tema que ha sido abordado por diversos autores (DuBois, 1991; Elich, 1993; Edwards, 1993; OConnell y Kowal, 1994). Tras revisar aportaciones anteriores, Payrat (1995) resume los requisitos que, tericamente, deberan exigirse a toda transcripcin: Neutralidad o fidelidad, de modo que la transcripcin no sea interpretativa. Globalidad o complejidad, recogiendo la totalidad de los fenmenos que aparecen en el discurso oral. Omnifuncionalidad, permitiendo diversos usos y aplicaciones. Claridad, tanto desde el punto de vista del aprendizaje del sistema como de la legibilidad de la representacin. Universalidad y compatibilidad entre sistemas informticos. Sin embargo, puesto que en la prctica se transcribe en funcin de los objetivos para los que se ha definido el corpus, Payrat (1995) considera que un sistema de transcripcin debe ser, ante todo, interpretativo de los datos, selectivo en cuanto a los fenmenos que se transcriben, pertinente para el objeto de investigacin, coherente con la base terica adoptada por el investigador, fiel en cuanto a la representacin de los datos y flexible para que sea posible su utilizacin en diversos estudios. Por otra parte, en opinin de este autor, la simbologa utilizada debe ser clara, econmica, sencilla, exenta de ambigedad y compatible con sistemas internaciones estandarizados. Este ltimo aspecto nos parece especialmente importante ya que, como seala el mismo Payrat (1995: 58) (...) en ningn caso puede olvidarse que los datos de una investigacin no deberan ser tratados nunca de forma tan parcial o idiosincrsica que se impidiera o dificultara el uso por parte de otros investigadores. La transcripcin del discurso oral es una actividad suficientemente costosa y conflictiva para tomar precauciones en este sentido, y ninguna comunidad cientfica puede permitirse el lujo de particularismos (en aspectos tan elementales) que obstruyan el debate o conviertan en inaprovechables una fuente de informacin.
6.2.- Los elementos transcritos y las prcticas de transcripcin y codificacin

A fin de estudiar la viabilidad de disponer de criterios mnimamente estandarizados para la transcripcin y la codificacin de corpus orales, en EAGLES (1996) se realiza una revisin de los elementos que suelen encontrarse representados con ms frecuencia en los sistemas de transcripcin diseados para el estudio de la lengua oral. Adems de los mtodos mencionados en el apartado anterior desarrollados en el marco del anlisis del discurso y de la conversacin, cabe considerar tambin las distintas convenciones empleadas en la transcripcin y codificacin de corpus orales desde la propia lingstica de corpus.
Los elementos transcritos pueden relacionarse con los diversos niveles de representacin del corpus, tal como se presenta en la siguiente tabla: Elementos transcritos, marcados o codificados Alargamiento, timbre, acento, reconstruccin de segmentos elididos. Fronteras silbicas, alargamiento silbico. Fronteras de palabras, palabras truncadas, formas no estndar, formas onomatopyicas, formas deletreadas, acrnimos, abreviaturas, cambios Nivel lxico entonativos en la palabra, acento lxico, pausas percibidas entre palabras o en el interior de una palabra. Fronteras entre enunciados, modalidad, interrupciones en el enunciado Nivel sintctico con o sin presencia de pausas. Nivel suprasegmental Unidades entonativas Fronteras entre unidades entonativas o entre unidades menores, unidades tonales incompletas o truncadas, reajustes (resets) tonales, junturas, ndices de cohesin, contornos tonales terminales. Tono Cambios meldicos en el enunciado o en parte del enunciado, nivel tonal, rango tonal, registro, movimiento tonal en la palabra o en el enunciado. Acento Acento de palabra, acento de frase, acento tonal, niveles de acento, prominencia, nfasis, acento contrastivo, tensin, propiedades rtmicas. Intensidad Intensidad absoluta o relativa de partes del enunciado Velocidad de elocucin Cambios en la velocidad de elocucin, velocidad de elocucin relativa o absoluta. Pausas Pausas silenciosas, pausas vocalizadas, duracin absoluta o relativa de las pausas. Vocalizaciones semi-lxicas, vocalizaciones no lxicas, timbre de la Nivel paralingstico voz, otros elementos vocalizados (canto, gritos, etc.). Turnos de palabra, tipo de transicin entre turnos, superposicin de Nivel discursivo turnos. Fenmenos no comunicativos no lxicos y no vocales, informacin Nivel contextual kinsica. Tabla 4: Elementos transcritos, codificados o marcados en el estudio de la lengua oral (EAGLES, 1996) Nivel de anlisis Nivel segmental Nivel silbico
6.3.- Propuestas de estandarizacin para la transcripcin y codificacin de corpus orales

Ante la diversidad de propuestas para la transcripcin y codificacin de la lengua oral que acabamos de constatar, el surgimiento de la lingstica de corpus y, muy especialmente, las necesidades derivadas del intercambio electrnico de textos propiciaron la aparicin de proyectos e iniciativas centrados en la creacin de estndares, tanto en lo que se refiere a la transcripcin como a la codificacin. En los prximos apartados revisamos sucintamente algunos de ellos. 6.3.1.- TEI (Text Encoding Initiative) Uno de los captulos de las Guas desarrolladas por la TEI est dedicado a la transcripcin de corpus orales. En l se describe la estructura bsica de la representacin de un texto oral cabecera, texto y divisiones - y se definen los procedimientos, basados en SGML, para la representacin de los elementos estructurales bsicos: informacin contextual, informacin temporal, enunciados, pausas, elementos vocalizados semi-lxicos o no lxicos, elementos
kinsicos, otros tipos de eventos comunicativos y texto presentado en forma escrita al hablante. Tambin se ofrecen en este captulo indicaciones para la segmentacin y el alineamiento, as como recomendaciones para la transcripcin de superposiciones entre hablantes, de formas de palabras, prosodia, elementos paralingsticos - tempo, intensidad, rango tonal, tensin, ritmo y cualidad de voz - y alteraciones en el decurso fnico. Para la representacin de la informacin fontica se recomienda el uso del AFI. En la siguiente tabla se resumen los principales elementos propuestos por la TEI para la codificacin de corpus orales considerados especficos de este tipo de texto (Sperberg-McQueen y Burnard (Eds.), 1994): Elemento codificado Marca de codificacin en SGML <div> Definicin
Unidades intermedias entre el texto y el enunciado que permiten delimitar partes diferenciadas en un texto. Segmento de habla comprendido entre dos pausas o delimitado por un cambio en el turno de palabra; Enunciado (utterance) <u> puede incluir adems informacin sobre la superposicin (<overlap>) de turnos cuando interviene simultneamente ms de un hablante. Interrupcin de la fonacin percibida entre dos enunciados o en el interior de los mismos; puede Pausa (pause) <pause> describirse en trminos relativos o indicando su duracin. Elemento vocalizado semi-lxico o no lxico (p.ej. Vocal (vocal) <vocal> pausas llenas o toses). Cualquier fenmeno comunicativo no vocal (p. ej. Kinsico (kinesic) <kinesic> gestos). Cualquier fenmeno identificado en la grabacin no Acontecimiento (event) <event> necesariamente vocalizado ni con valor comunicativo (p. ej. ruidos de fondo). Texto escrito que se presenta al hablante durante su Texto escrito (writing) <writing> intervencin. Momento en el que se produce un cambio en alguno de los rasgos paralingsticos - cualidad de voz, Cambio (shift) <shift> intensidad, rango tonal, ritmo y velocidad de elocucin -; cada uno de los rasgos puede describirse mediante una lista de caractersticas. Tabla 5: Elementos codificados en las transcripciones de lengua oral segn los estndares de la TEI (Adaptada de Sperberg-McQueen y Burnard (Eds.), 1994) Divisiones (division) Por otra parte, la TEI ofrece mecanismos para indicar el comienzo y el final de un fenmeno, su duracin y su sincronizacin temporal con otros elementos; presenta tambin la posibilidad de marcar unidades inferiores al enunciado - segmentos <seg> - que permiten delimitar, por ejemplo, unidades prosdicas, e incluye tambin entre sus propuestas las marcas necesarias para sealar fenmenos propios de la lengua hablada como palabras truncadas, repeticiones, falsos principios - marcados como <del> (deletion) y especificando el fenmeno -. Las partes de la grabacin que el transcriptor no llega a interpretar correctamente - <unclear> - o no puede escuchar - <gap> - o las correcciones de errores de produccin realizadas por el transcriptor - <sic> para delimitar el error y <corr> para indicar la correccin - son tambin elementos para los cuales la TEI establece marcas de codificacin. Aunque las Guas de la TEI pueden considerarse un sistema adecuado para la transcripcin y codificacin de gran variedad de materiales, los autores propios autores reconocen que: (...) the present proposals are not intended to support unmodified every variety of research undertaken upon spoken material now or in the future; some discourse analysts, phonologists, and doubtless other may wish to extend the scheme presented here to express more precisely the set of distinctions they wish to draw in their transcriptions. Speech regarded as a purely acoustic phenomenon may well require different methods from those outlined here, as may
speech regarded solely as a process of social interaction& (Sperberg-McQueen y Burnard (Eds.), 1994, cap. 11)
6.3.2.- NERC (Network of European Reference Corpora) El proyecto NERC (Network of European Reference Corpora) se plante como uno de sus objetivos la viabilidad de desarrollar una serie de recomendaciones para la constitucin de corpus (NERC, 1994) y, por tanto, incluye entre sus resultados indicaciones sobre el tratamiento de los corpus orales, tanto en lo que se refiere a su codificacin como a la transcripcin de los elementos segmentales y suprasegmentales (Sinclair, 1994). El sistema adoptado para la transcripcin y codificacin de corpus se basa, como hemos indicado anteriormente, en el desarrollado por French (1991, 1992) para la transcripcin del corpus oral desarrollado en el proyecto COBUILD. La transcripcin se plantea como una operacin que puede desarrollarse en varios niveles: Nivel I: consiste en la representacin ortogrfica, introduciendo los mnimos signos de puntuacin necesarios, sin informacin sobre la interaccin entre hablantes. En este nivel se contemplan convenciones desarrolladas para la representacin ortogrfica y para precisar el uso de la puntuacin. Nivel II: consiste en una representacin ortogrfica enriquecida con informacin bsica sobre la identidad de los hablantes, el turno de palabra y los elementos no verbales. Nivel III: contiene toda la informacin presente en el nivel II adems de informacin sobre la interaccin entre hablantes - marcando el principio y el final de los solapamientos - y sobre la entonacin - sealando las fronteras entre unidades tonales y las slabas acentuadas-. En opinin de French (1992) la transcripcin a este nivel requiere una formacin especfica en fontica. Nivel IV: constituye el nivel ms detallado de representacin, incluyendo la informacin propia del nivel III junto con marcas de tonos, slabas nucleares y con una transcripcin fonolgica alineada con una representacin acstica - espectrograma y curva meldica del enunciado. La recomendacin del proyecto NERC es que la transcripcin de un corpus para el estudio de la lengua oral se lleve a cabo segn las especificaciones del Nivel II, adecuado, segn French, para todas aquellas investigaciones que no requieran informacin prosdica. En el marco de NERC se llev a cabo una evaluacin de las Guas de la TEI para la transcripcin de corpus orales (Payne, 1992), de la que se concluye que: The TEI proposals are broadly compatible with current practice in the user community, as represented by J.P. French conventions. Furthermore, in the majority of cases it will be a straightforward matter to link the machine-friendly TEI codes to the more user-friendly encoding systems such as J.P. French conventions by means of a simple conversion programme (Payne, 1992:60) La idea de una conversin automtica entre las transcripciones realizadas segn las propuestas de NERC y de la TEI es, naturalmente, interesante, y refuerza la idea de que existe una compatibilidad general entre ambos sistemas. De hecho, en el informe final de NERC se recomienda que se sigan las normas de la TEI.
6.3.3.- EAGLES (Expert Advisory Group on Language Engineering Standards)

Uno de los objetivos del Grupo de Trabajo sobre Textos Orales de EAGLES -Subgrupo creado en el seno del Grupo de Trabajo sobre Corpus Textuales - es proponer un conjunto mnimo de fenmenos que deberan codificarse en cualquier texto oral. La propuesta realizada se describe en EAGLES (1996) y toma elementos del proyecto NERC, de la TEI y del Grupo de Trabajo sobre Lengua Oral de EAGLES. Considerando los elementos comunes a los sistemas que sirven de base, se sugiere que la codificacin de un texto oral debe contener, al menos, informacin sobre los siguientes aspectos: (1) Elementos vocales y no vocales Elementos vocales semi-lxicos
Pertenecen a esta categora los elementos utilizados principalmente en el habla espontnea durante los momentos en que el hablante planifica la continuacin de su discurso como las llamadas pausas llenas o sonoras y los elementos que marcan dudas en el momento de la produccin del habla. Corresponden a los elementos que en la TEI se marcan con la etiqueta <vocal>. Elementos vocales no lxicos Se incluyen aqu todo tipo de sonidos producidos por el hablante - toses, risas, bostezos, estornudos, etc. - que no constituyen formas lxicas de la lengua. Corresponden igualmente a los codificados con la marca <vocal> en la TEI. Acontecimientos no vocales y no comunicativos Comprenden los ruidos producidos por otros hablantes o procedentes del entorno de grabacin. Estos acontecimientos se codifican en la TEI mediante la marca <event>. (2) Elementos necesarios en la transcripcin de interacciones verbales Identidad del hablante Este es un elemento imprescindible en la transcripcin de interacciones verbales. La TEI dispone de los mecanismos para documentar informacin sobre los hablantes en la cabecera de los textos, as como de un sistema para marcar la identidad de cada participante en el interior del texto, aunque pueden utilizarse tambin otros procedimientos. Turnos de palabra La finalidad del marcado de los turnos de palabra es indicar un cambio de hablante. Adems de las convenciones de la TEI pueden emplearse otros procedimientos, mientras se mantenga esta informacin, esencial en el estudio de la interaccin verbal. Superposicin de turnos de palabra Existen igualmente diferentes procedimientos para marcar la superposicin de emisiones de dos hablantes, adems de las propuestas de la TEI, que los trata como parte de las estrategias para codificar acontecimientos simultneos. (3) Elementos relacionados con la actuacin del hablante Omisiones en un texto ledo Si se transcribe un texto ledo y se dispone del original, es recomendable anotar las palabras o segmentos omitidos por el locutor. Autocorrecciones Es propio del habla espontnea, aunque tambin de la lectura, que los hablantes realicen correcciones de su propia produccin lingstica ( self-repairs). Parece conveniente marcarlas en la transcripcin de un corpus oral. Fragmentos de palabras Los fragmentos de palabras corresponden a uno o ms segmentos pertenecientes a una palabra que no ha sido totalmente pronunciada por el hablante en un primer intento y que suelen repetirse cuando ste consigue producir la palabra completa. Es importante indicar este fenmeno en la transcripcin. Fragmentos ininteligibles Se trata de partes de la grabacin que no son comprendidas por el transcriptor y en la TEI se codifican con la etiqueta <unclear>, aunque si se desea se pueden utilizar marcas ms detalladas distinguiendo entre transcripciones completamente ininteligibles y entre una posible interpretacin ofrecida por el transcriptor.
Un aspecto conflictivo sigue siendo la identificacin de los enunciados que conforman un texto oral. Mientras que en un texto escrito, los signos de puntuacin constituyen un criterio de delimitacin, en el habla disponemos de indicios como las pausas, la entonacin o el cambio de turno de palabra que nos permiten, al menos convencionalmente, definir un enunciado.
6.4.- Transcripcin y codificacin de corpus orales en espaol: propuestas y modelos

Existen actualmente en espaol diversos corpus orales transcritos y codificados para algunos de los cuales hemos podido recoger informacin sobre las convenciones de transcripcin y los procedimientos de codificacin utilizados. No se trata pues de realizar aqu una presentacin exhaustiva de los corpus elaborados o en preparacin, sino de ofrecer algunas muestras que proporcionen unas orientaciones, necesariamente someras, sobre los criterios considerados en nuestro mbito ms cercano.
6.4.1.- El Corpus Oral de Referencia del Espaol Contemporneo

Elaborado en el Laboratorio de Lingstica Informtica de la Universidad Autnoma de Madrid entre 1991 y 1992 en colaboracin con IBM Espaa, el Corpus Oral de Referencia del Espaol Contemporneo consiste en la transcripcin ortogrfica de diversos tipos de texto, pertenecientes al registro oral. Para la representacin ortogrfica del corpus se adoptan una serie de convenciones relacionadas con el uso de las maysculas, las comillas, los puntos suspensivos - utilizados para sealar pausas, vacilaciones, cortes bruscos o realizaciones repetidas de la misma palabra -, las comas - que se emplean segn las reglas de la ortografa aunque no exista pausa o para sealar las pausas de sentido en el discurso - y el punto y aparte, usado para un cambio de tema. Las palabras trabadas o cortadas, las confusiones, las autocorrecciones o las palabras inventadas por el locutor y no documentadas en los diccionarios se transcriben tal como las pronuncia el hablante. Las convenciones adoptadas para la codificacin se basan, segn los autores del corpus, en la TEI. Se utilizan por ello etiquetas relativas a la pronunciacin - marcando palabras cortadas, reconstrucciones realizadas por el transcriptor, vacilaciones, elementos fticos, ruidos superpuestos a la enunciacin, sonidos de formacin expresiva o imitativa como las onomatopeyas -, a los hablantes - identificacin de los papeles o del pblico y marcas sealando la superposicin de todos los hablantes -, a las intervenciones - marcando la presencia de texto ledo o cantado, la simultaneidad de intervenciones - o los problemas derivados de la grabacin; se marca y codifica igualmente la aparicin de siglas o de palabras extranjeras.
6.4.2- El Corpus de Conversacin Coloquial

Desarrollado por el Grupo Val.Es.Co de la Universidad de Valencia, tiene como objetivo permitir la realizacin de estudios sobre el espaol coloquial. En Briz (Coord.) (1995) se ofrece una panormica general del proyecto, as como una presentacin de las convenciones de transcripcin acompaada de abundantes materiales. Se seala en este trabajo que La transcripcin intenta reproducir lo ms fielmente posible la conversacin y al mismo tiempo facilitar la labor del lector. El sistema de signos y convenciones empleado es lo suficientemente estrecho, por tanto, para conseguir que el lector pueda reproducir aproximadamente la conversacin original (Briz (Coord.) 1995:39). Este objetivo del corpus se pone de manifiesto en la seleccin de los fenmenos transcritos, enumerados a continuacin: fenmenos relacionados con el turno de palabra - alternancia de turno, sucesin inmediata de emisiones, solapamientos, reinicios y autointerrupciones, escisiones conversacionales - , pausas y silencios con diversos grados de duracin, inflexiones finales o interiores en los grupos entonativos, nfasis, fenmenos fonticos - fontica sintctica entre palabras, aspiraciones, asimilaciones, alargamientos segmentales, fragmentos susurrados - y modalidad del enunciado - preguntas, interrogaciones y exclamaciones -. Las convenciones para la transcripcin incluyen adems pautas para la representacin de las transcripciones dudosas, las interrupciones de la grabacin o de la transcripcin y las
reconstrucciones de unidades lxicas, as como procedimientos de anotacin pragmtica en forma de notas a pie de pgina. En lo que respecta a la prosodia, se transcriben los indicios prosdicos que influan notablemente en el curso de la conversacin o introducan alguna modificacin en la prosodia normativa (Briz (Coord.) 1995:41), para lo cual se realiza, cuando es necesario, una comprobacin mediante el anlisis acstico de las grabaciones.
6.4.3.- El Corpus de Variedades Vernculas Malagueas

Constituido con un objetivo predominantemente sociolingstico, el Corpus de Variedades Vernculas Malagueas (VUM) se ha recogido en el Departamento de Filologa Espaola y el Departamento de Filologa Romnica I de la Universidad de Mlaga (Alvar y Villena (Coord.), 1994). La transcripcin del corpus se basa en la ortografa convencional, pero se enriquece por medio de convenciones y rasgos especficos que permitan al lector de la misma la reconstruccin lo ms exacta posible de la situacin de habla originaria, as como de algunas caractersticas fnicas, discursivas y estilsticas (Avila, 1996:103). Informan los investigadores del proyecto de que en la codificacin se han seguido los estndares de la TEI - utilizando para ello SGML -, tomando como punto de partida los criterios del Corpus Oral de Referencia del Espaol Contemporneo. Las etiquetas utilizadas codifican pues informacin sobre los hablantes y los turnos de palabra simultaneidad o interrupcin -, los rasgos prosdicos - tono, intensidad, entonacin, tempo, diversos tipos de pausa en funcin de su duracin relativa y nfasis - las acciones no verbales y los fenmenos no vocales, la actuacin lingstica y las incidencias que tienen lugar en la grabacin. Se han introducido tambin, de acuerdo con la especificidad del corpus, etiquetas para la representacin de la caractersticas fonticas propias de las hablas meridionales en general y de las variedades de Mlaga en particular (vila, 1996:106); en este aspecto se marca la elisin de consonantes en tensin silbica, la reaparicin de consonantes implosivas y el aumento de la duracin segmental, adems de incluirse una representacin de diversos tipos de pausas en funcin de su duracin relativa.
6.4.4.- El Corpus de Referencia del Espaol Actual

Desarrollado por el Instituto de Lexicografa de Real Academia Espaola, el Corpus de Referencia del Espaol Actual (CREA) es fundamentalmente un corpus textual que incluir, sin embargo, transcripciones de lengua oral. La transcripcin que actualmente se est realizando corresponde al nivel II definido en NERC y al nivel S1 segn la caracterizacin de EAGLES. Para la codificacin se emplean los estndares de la TEI, por lo que, una a vez transcrito y codificado, el texto se almacena en formato SGML. La representacin ortogrfica se lleva a cabo de acuerdo con la normativa del espaol y se introducen una serie de convenciones para el tratamiento de los problemas relacionados con formas reducidas de palabras, abreviaturas y acrnimos, palabras deletreadas, secuencias numricas, interjecciones, fenmenos comunicativos no vocales, fenmenos no comunicativos no vocales, errores de produccin, repeticiones, rectificaciones e interrupciones en el discurso, titubeos y fragmentos ininteligibles. Se utilizan los signos ortogrficos habituales siguiendo los principios que rigen la normativa de puntuacin en espaol, excepto en el caso del punto y coma, que no se emplea en la transcripcin, y de las comillas, cursivas y maysculas que se usan como un medio tipogrfico de resalte. Las marcas de codificacin incluidas en el corpus se dividen en dos grandes categoras: estructurales e intratextuales. Entre las marcas estructurales se utiliza la que seala una divisin interna en el texto (<div>,division) con posibilidad de indicar su nivel jerrquico, la que marca un segmento precedido y/o seguido de un cambio de hablante (<u>, utterance) acompaada de una indicacin del tipo de transicin, y la que codifica la superposicin entre hablantes (<overlap>). Las marcas intratextuales se emplean para codificar la presencia de abreviaturas y acrnimos, palabras extranjeras, discurso directo, nmeros, texto escrito ledo por los hablantes, texto resaltado - en casos de discurso directo o cita as como para sealar los elementos que apareceran tipogrficamente marcados en los textos escritos como las palabras extranjeras no adaptadas, los usos metalingsticos, las marcas o nombres comerciales, etc. - formas deletreadas y titubeos. La codificacin recoge tambin los elementos vocales (<vocal>), para
los cuales se elabora una tipologa, los fenmenos comunicativos no vocales (<kinesic>) o los fenmenos no vocales y no comunicativos que se detectan en las grabaciones (<event>); se codifican igualmente los fragmentos poco claros de la grabacin (<unclear>). En el procedimiento de codificacin adoptado, los signos de puntuacin introducidos por el transcriptor son automticamente interpretados y etiquetados. As, los enunciados ortogrficos separados por signos como el punto, la exclamacin o la interrogacin se marcan con la etiqueta <s> (sentence). La etiqueta <pause> se reserva, en cambio, para los casos en que apareceran puntos suspensivo en un texto escrito, sealando una interrupcin en el discurso resultado de un titubeo o una clusula inconclusa.
7.- Conclusiones
La revisin - sin pretensiones de exhaustividad - de los principales sistemas de transcripcin, etiquetado y codificacin de corpus orales expuesta en este trabajo pone de manifiesto, en primer lugar, la multiplicidad de propuestas desarrolladas frente a los intentos de estandarizacin, algunos de los cuales an no se han consolidado plenamente pese a su creciente aceptacin. En segundo lugar, destaca tambin la heterogeneidad de tradiciones que confluyen en el estudio de la lengua hablada, desde la fontica y las tecnologas del habla hasta el anlisis del discurso y de la conversacin, diversidad que lleva a la creacin de convenciones especficas para responder a las necesidades de diversas comunidades cientficas. Ante esta situacin, la distincin propuesta por Sinclair (1995:107) entre conformidad y compatibilidad adquiere todo su sentido, ya que si en ciertos casos la conformidad a un estndar determinado es problemtica por las limitaciones inherentes a todo sistema comn, la compatibilidad - entendida como la facilidad de conversin entre sistemas debera ser, en cambio, un requisito imprescindible en el desarrollo de los recursos lingsticos. De esta manera puede tal alcanzarse el equilibrio entre las necesidades de un proyecto y las indudables ventajas cientficas y econmicas que resultan de la reutilizacin de los datos disponibles.

Transcripción, Etiquetado y Codificación de Corpus Orales

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Transcripción, Etiquetado y Codificación de Corpus Orales

Transféré par

Droits d'auteur :

Formats disponibles

Transcripcin, etiquetado y codificacin de corpus orales Joaquim Llisterri

2.- Niveles de representacin, etiquetado y codificacin

3.- Representacin ortogrfica de corpus orales

3.1.- Propuestas en el mbito de la lingstica de corpus

3.1.2.- La propuesta del Grupo de Trabajo de Textos Orales de EAGLES

3.2.- Propuestas en el mbito de las tecnologas del habla

3.2.1.- La propuesta de SpeechDat

4.- Representacin fontica de corpus orales

4.1.- La representacin de los elementos segmentales

4.1.3.2.- Alfabetos fonticos para el intercambio electrnico

4.1.3.2.1.- La adaptacin espaola de SAMPA

caballo puro torre

4.1.3.2.2.- Utilizacin de Worldbet para la transcripcin en espaol

4.1.3.2.3.- Sistemas de transcripcin fontica adaptados a corpus especficos

SAMPROSA (SAM Alphabet)

muestra en Nicolas y Hirst (1995).

5.- Etiquetado fontico de corpus orales

5.1.- Niveles de etiquetado

5.1.2.- La propuesta de EAGLES

5.2.- La transcripcin y el etiquetado automtico de corpus orales

6.- Transcripcin y codificacin de corpus para el anlisis de la lengua oral

transcripcin y la codificacin se realiza conjuntamente en la bibliografa sobre el tema.

6.1.- Los requisitos de una transcripcin

6.2.- Los elementos transcritos y las prcticas de transcripcin y codificacin

6.3.- Propuestas de estandarizacin para la transcripcin y codificacin de corpus orales

6.3.3.- EAGLES (Expert Advisory Group on Language Engineering Standards)

6.4.- Transcripcin y codificacin de corpus orales en espaol: propuestas y modelos

6.4.1.- El Corpus Oral de Referencia del Espaol Contemporneo

6.4.2- El Corpus de Conversacin Coloquial

6.4.3.- El Corpus de Variedades Vernculas Malagueas

6.4.4.- El Corpus de Referencia del Espaol Actual

Vous aimerez peut-être aussi