Académique Documents
Professionnel Documents
Culture Documents
Seminario de Industrias de la Lengua, Curso Etiquetacin y extraccin de informacin de grandes corpus textuales, Fundacin Duques de Soria, Soria, 15 de julio de 1997.
1.- Introduccin
La constitucin de recursos lingsticos, contrariamente a lo que algunas veces parece deducirse, no consiste en la acumulacin sistemtica de materiales, sino que requiere una reflexin sobre muchos aspectos que inciden de forma muy directa en el resultado final obtenido. Uno de ellos, especialmente importante en el caso de los corpus orales, es el que se refiere a las cuestiones relacionadas con la propia representacin de los datos, tratadas generalmente bajo las denominaciones de transcripcin, etiquetado y codificacin. En el presente trabajo pretendemos poner de relieve que las decisiones relativas a estos tres aspectos no son puramente mecnicas, sino que requieren un cuidadoso anlisis lingstico acompaado de unos planteamientos ms globales sobre las futuras posibilidades de explotacin del corpus. Para ello, se parte de una concepcin del corpus como conjunto de niveles de representacin de los datos, en cada uno de los cuales se incorporan descripciones de los mismos que posteriormente deben ser recogidas mediante algn procedimiento formal. Como primer nivel de representacin abordamos la transcripcin ortogrfica, para pasar a continuacin a un segundo nivel, el de la representacin fontica, tanto en el aspecto segmental como en el suprasegmental. En este mismo nivel planteamos la cuestin del etiquetado que, asociado a otras operaciones como la segmentacin y la alineacin temporal, permite una utilizacin posterior del corpus en diversas aplicaciones. Finalmente, se discuten las cuestiones especficamente centradas en la transcripcin y codificacin de los corpus constituidos por transcripciones de lengua oral, presentando a modo de ejemplo algunos trabajos llevados a cabo en Espaa. Hemos intentado, para cada nivel de representacin, ofrecer informacin sobre algunas de las convenciones desarrolladas y presentar las que llevan camino de convertirse - o se han convertido ya - en estndares. Sin embargo, como se indica en las conclusiones, parece razonable insistir en la nocin de compatibilidad entre sistemas como modo de resolver la inevitable tensin entre los requisitos especficos del investigador y las necesidades del intercambio de recursos.
describen propiedades morfolgicas y lxicas de las palabras. El etiquetado constituye, por tanto, un enriquecimiento del corpus mediante informacin adicional introducida por el investigador en funcin de sus objetivos y, lo que es ms importante, de su interpretacin lingstica de los materiales recogidos. El establecimiento del inventario de etiquetas estrechamente relacionado con los fenmenos que desean anotarse en un corpus - y las caractersticas que se sealan con cada una de ellas no es en absoluto una tarea trivial, especialmente si pretenden utilizarse en proyectos multilinges cubriendo simultneamente las necesidades de varias lenguas. Finalmente, es preciso definir, en el proceso de creacin de recursos lingsticos, un sistema o esquema de codificacin tanto de los fenmenos representados en los diferentes niveles del corpus como de sus correspondientes etiquetas. La codificacin constituye pues, tal como se concibe en la actualidad, una herramienta que dota al corpus de una estructura. Un esquema de codificacin adecuado permite, entre otras cosas, mantener una distincin entre los datos y su forma de representacin, que es til cuando se requiere el intercambio de corpus o su reutilizacin en otros proyectos. Por ello es esencial, a la hora de disear tal esquema, considerar sistemas que cumplan este requisito. En el caso de un corpus oral, el primer nivel de representacin necesario es el de la transcripcin. Esto responde a la exigencia de materializar o fijar de alguna manera la informacin lingstica y comunicativa presente en una onda sonora esencialmente transitoria. Tal como la caracteriza Payrat (1995:45), la transcripcin es un procedimiento de traslado o transposicin a una forma grfica (escrita) de una produccin (lingstica, discursiva) originariamente oral. Atendiendo a esta definicin, podemos referirnos tanto a la transcripcin ortogrfica - denominada transliteracin por algunos autores -como a la transcripcin fontica, que se lleva a cabo mediante un conjunto de smbolos especialmente diseados para tal fin. En los apartados que siguen centraremos nuestra atencin en estos dos niveles de representacin, el ortogrfico y el fontico, considerando tambin algunos aspectos relativos al etiquetado en el nivel fontico.
Language Engineering Standards)(EAGLES, 1996) se proponen unas recomendaciones bsicas para la transcripcin ortogrfica de corpus orales, recogiendo tanto las sugerencias de NERC como algunas de las ideas desarrolladas en el mbito de las tecnologas del habla que se discuten en el prximo apartado. Las recomendaciones pueden resumirse en tres puntos:
Se recomienda utilizar siempre que sea posible las formas ortogrficas que aparecen en los diccionarios normativos o estndares para cada lengua, convencin que se aplica tambin a contracciones, formas reducidas, apstrofes, formas dialectales, interjecciones y formas semi-lxicas. Si puede darse ms de una forma ortogrfica de la misma palabra o si se introducen representaciones ortogrficas que no aparecen en los diccionarios, es recomendable mantener una base de datos con las formas utilizadas en la transcripcin. Los nmeros, las abreviaturas, los acrnimos y las palabras deletreadas deben representarse ortogrficamente tal como son pronunciadas por el hablante, utilizando la forma ortogrfica completa. Como puede observarse, stas son recomendaciones generales que constituyen principios bsicos. Un aspecto que requiere una discusin ms detallada es el empleo de los signos de puntuacin en la transcripcin ortogrfica de corpus, tema sobre el que existen diversas posturas, desde las que propugnan su completa eliminacin - lo que disminuye notablemente la legibilidad del texto - hasta las que abogan por su uso segn las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida a las dificultades que plantea la introduccin de puntuacin en transcripciones de habla espontnea, ya que implica necesariamente una segmentacin del enunciado que, en algunos casos, puede estar sujeta a la interpretacin del transcriptor.
Las formas dialectales se marcan en la transcripcin. Los nmeros se transliteran como palabras. En la transcripcin ortogrfica se utilizan las formas completas de las abreviaturas. Las abreviaturas que los hablantes pronuncian como palabras se transcriben de este mismo modo. En las transcripciones se indica la aparicin de palabras deletreadas. Las interjecciones se transcriben con la representacin ortogrfica que aparece en los diccionarios. Como puede deducirse fcilmente, la filosofa general de esta propuesta consiste en utilizar siempre las formas que aparecen en los diccionarios normativos y documentar adecuadamente las formas no estndares que se encuentren durante el proceso de transcripcin.
llev, a finales de los aos 80, a plantearse la codificacin de los smbolos del AFI, de modo que para cada uno de los smbolos del alfabeto se ha definido un nmero (denominado nmero AFI) que puede relacionarse tambin con los cdigos ASCII (Esling, 1988, 1990; Esling y Gaylord, 1993; IPA, 1989). Las equivalencias entre smbolos, nmeros AFI y cdigos ASCII forman parte de las convenciones conocidas como CRIL (Computer Representation of Individual Languages) surgidas del congreso de la Asociacin Fontica Internacional celebrado en Kiel en 1991. 4.1.2.2.- SAMPA (SAM Phonetic Alphabet) SAMPA (SAM Phonetic Alphabet) constituye seguramente el esfuerzo ms significativo y extendido por desarrollar un sistema de transcripcin fontica informatizado. SAMPA tiene su origen en el proyecto ESPRIT 1541 SAM (Speech Assessment Methods) (Fourcin et al., 1989; Fourcin y Dolmazon, 1991) llevado a cabo entre 1987 y 1989. Al final del proyecto existan versiones de SAMPA en dans, neerlands, ingls, francs, alemn e italiano, incorporndose en 1992 el noruego y el sueco, y el espaol, el griego y el portugus en 1993. Durante 1996 se ha extendido a una serie de lenguas de los pases de la Europa del Este en el marco del proyecto BABEL, y, en principio, no hay ningn obstculo para su adaptacin a otros idiomas. En cuanto a su utilizacin prctica, puede sealarse que es el sistema desarrollado para la transcripcin del corpus multilinge EUROM (Chan et al., 1995) y tambin el adoptado en el proyecto ONOMASTICA, centrado en la transcripcin de nombres propios en diversas lenguas europeas SAMPA se basa en un conjunto de equivalencias entre smbolos del AFI y cdigos ASCII, restringindose al uso de caracteres de 7 bits (cdigos 32 a 127). El principio que rige las transcripciones en SAMPA, al igual que en el caso del AFI, es esencialmente fonolgico, emplendose nicamente smbolos distintos en el caso de segmentos con valor diferencial. Esta filosofa viene motivada por tres razones: simplicidad de la transcripcin sin incorporar ambigedades, ya que las realizaciones alofnicas son predictibles a partir del contexto; facilidad de utilizacin por parte personas con poca formacin en fontica; y falta de cdigos ASCII para la transcripcin alofnica de todas las lenguas. Sin embargo, en algunos casos, se introducen smbolos para la representacin de alfonos cuando los investigadores que han desarrollado las adaptaciones para cada lengua lo han considerado necesario. 4.1.2.3.- X-SAMPA Una de las limitaciones de SAMPA es que no establece una codificacin para todos los smbolos del AFI. Por este motivo, Wells (1994) propone un sistema denominado X-SAMPA en el que se prevn equivalencias en cdigos ASCII para la totalidad de smbolos del AFI en su revisin de 1993, incluyendo diacrticos y marcas tonales. Una de las utilidades propuestas para este sistema es el envo de textos en transcripcin fontica a travs del correo electrnico. 4.1.2.4.- Worldbet Worldbet constituye una propuesta ms ambiciosa que SAMPA y que su extensin X-SAMPA, pues parte de la base de que any spectrally and temporally distinct speech sound (not including pitch) which is phonemic in some language should have a separate base symbol (Hieronymus, 1994); los smbolos de base consisten normalmente en la concatenacin de un smbolo del AFI con una serie de diacrticos, de modo que puede representarse una gran variedad de alfonos hallados en las lenguas del mundo, incluyendo smbolos inexistentes en el AFI. Uno de los objetivos de Wordlbet - que en su versin actual usa 299 smbolos compuestos de dos caracteres ASCII - es facilitar la transcripcin de bases de datos multilinges que incluyan lenguas indias, asiticas y africanas, adems de las europeas. Este sistema se ha utilizado, por ejemplo, en la transcripcin de los corpus distribuidos por el CSLU (Center for Spoken Language Understanding, Oregon Graduate Institute)(Lander, 1997). 4.1.2.5.- Otros sistemas de transcripcin fontica Existen otros sistemas de transcripcin fontica concebidos para el intercambio electrnico de textos, tanto desarrollados desde la perspectiva de las tecnologas del habla - por ejemplo, el CPA (Computer Phonetic Alphabet)surgido en el marco del proyecto ESPRIT Linguistic Analysis of European Languages (Kluger-Kruse, 1987) - como diseados para otros fines. En el mbito
del estudio del lenguaje infantil, el proyecto CHILDES (Child Language Data Exchange System) (MacWhinney, 1991) utiliza el sistema conocido como PHONASCII (Allen, 1988), consistente en un conjunto de smbolos fonolgicos - UNIBET - y un alfabeto fontico que permite la transcripcin estrecha. 4.1.3.- Transcripcin fontica segmental en espaol 4.1.3.1.- Alfabetos fonticos convencionales En la tradicin hispnica, el alfabeto fontico de la Revista de Filologa Espaola (RFE, 1915) constituye, sin duda, el sistema de transcripcin fontica ms ampliamente difundido. Sin embargo, el Alfabeto Fontico Internacional tiende a utilizarse cada vez con mayor frecuencia, ya que, en la mayora de los casos, es posible establecer una correspondencia entre los dos sistemas tal como se presenta, por ejemplo, en Quilis (1985).
L r rr j
ka"baLo (o como jj) "puro "torre rrej pje "dewDa "piko "pero "baLe "toro "duro (SAM Phonetic Alphabet) para la transcripcin del espaol (Wells,
rey pie w deuda i pico e pero a valle o toro u duro Tabla 1: Smbolos de SAMPA 1995)
SAMPA es el alfabeto fontico utilizado en el proyecto ALBAYZN, cuyo objetivo es la constitucin de tres bases de datos orales diseadas para el entrenamiento y la evaluacin de sistemas de reconocimiento del habla y para estudios fonticos (Casacuberta et al., 1992; Moreno et al., 1993); tal como sucede en el caso de otras lenguas, podra, previsiblemente, convertirse en el estndar para la transcripcin de corpus orales en espaol cuando el nivel de transcripcin requerido responda al diseo de SAMPA que, como se ha indicado, constituye un alfabeto de naturaleza fonolgica adecuado para una transcripcin ancha. Este podra ser el caso de los corpus para aplicaciones a las tecnologas del habla y, en este mismo contexto, SAMPA constituye la base - en algunos casos con modificaciones - de las representaciones generadas por los algoritmos de transcripcin fontica automtica desarrollados para diversos sistemas de conversin de texto a habla en espaol.
r( pero p e r( o r perro pero j mayo majo w cuento kwento i piso piso e mesa mesa a caso kaso o modo moDo u cura k u r( a Tabla 2: Smbolos de Worldbet para la transcripcin del espaol (Hyeronimus, 1994) La transcripcin alofnica puede llevarse a cabo sin dificultades recurriendo al inventario completo de smbolos de Worldbet presentado en Hyeronimus (1994). Por ejemplo, es posible especificar el carcter dental de [t] y [d] mediante el uso de los smbolos [t[] y [d[] respectivamente, la fricativa dental sonora mediante [z], la fricativa palatal sorda con [Z] y su equivalente sonoro con [s_j], as como los alfonos reducidos (laxos) de las vocales mediante [Ix], [E], [&] o las aspiraciones utilizando [hs] (Lander, 1997).
haberse desarrollado teniendo en cuenta las necesidades de la fontica y de las tecnologas del habla; adems, SAMPROSA se enmarca en el contexto de estndares extendidos en Europa como los del proyecto SAM, recomendados, por ejemplo, por NERC (Teubert, 1993; Sinclair, 1994). En conjunto, el sistema ideal de transcripcin prosdica debera permitir una representacin en varios niveles, ser compatible con el intercambio electrnico de datos y cubrir las necesidades del mayor nmero de lenguas posible, pudiendo aplicarse automticamente en lugar de basarse en las impresiones intuitivas del transcriptor, con vistas a la transcripcin de grandes corpus. En ausencia de un sistema que rena tales caractersticas, parece adecuado establecer mecanismos de compatibilidad entre los existentes a fin de facilitar la reutilizacin de los datos. 4.2.1.- La transcripcin de los elementos suprasegmentales mediante el AFI El AFI ofrece, adems de la posibilidades de transcripcin segmental, un conjunto de smbolos para la representacin de los elementos suprasegmentales. Con motivo del congreso para la revisin del AFI celebrado en Kiel en 1989 se cre un grupo de trabajo sobre categoras suprasegmentales (Bruce 1988, 1989), concluyndose la necesidad de representar las categoras suprasegmentales de un modo ms adecuado, especialmente en lo que se refiere la entonacin. El conjunto actual de smbolos del AFI para los elementos suprasegmentales permite transcribir el tono, as como la duracin y el acento. 4.2.2.- Sistemas de transcripcin prosdica para el intercambio electrnico Las necesidades derivadas de una descripcin detallada de la entonacin tanto en el campo de la fontica como en el de las tecnologas del habla han propiciado la creacin de diversos sistemas de transcripcin prosdica, algunos de los cuales se presentan a continuacin. 4.2.2.1.- Las propuestas de SAM En el marco del proyecto ESPRIT SAM anteriormente mencionado se llev tambin a cabo el desarrollo de sistemas de transcripcin prosdica compatibles con las necesidades de anotacin de bases de datos en soporte electrnico, resultando de ello propuestas como PROSPA, SAMSINT o SAMPROSA (Gibbon, 1989; Wells et al., 1992). PROSPA fue originalmente concebido por Selting y Gibbon (Selting, 1987, 1988) para el anlisis de la conversacin y del discurso y, por tal motivo, se basa en criterios auditivos y recoge nicamente los elementos necesarios para este fin. Por su parte, SAMSINT ( SAM System for Intonation Transcription) se plantea como objetivo la transcripcin de contornos meldicos en el interior de unidades entonativas, basndose en INTSINT (cf. 4.2.2.4.) con algunas modificaciones adicionales.
-+ 45,43 Trough (downward-upward) ^ 94 Upstep ^^ 94,94 Wide upstep ! 33 Downstep !! 33,33 Wide downstep = or > or S 61 62 or 83 Level or same tone Global tone: from Local and Nuclear tone repertoire Terminal tone: from Local and Nuclear tone repertoire Nuclear tone Level tone (before tone group 45 boundary) ' or / or R 39 47 or 82 Rising tone ` or \ or F 96 92 or 70 Falling tone `' (etc.) 96,39 (etc.) Fall-rise '` (etc.) 39,96 (etc.) Rise-fall Length : 58 Segment length mark Stress " 34 Primary stress % 37 Secondary stress Pause ... 46,46,46 Silence Boundary $ 36 Syllable boundary # 35 Word boundary Tone group boundary | 124 (non-directional) [ 91 Tone group boundary (left) ] 93 Tone group boundary (right) Metasymbols Separator (the underscore, _, ASCII 95, may replace this 45 owing to ambiguity with level tone) * 42 Conjunctor Tabla 3: SAMPROSA (SAM Prosodic Alphabet)(Wells, 1995) SAMPROSA ofrece pues, al igual que SAMPA, un conjunto de caracteres correspondientes a cdigos ASCII, mediante los cuales es posible transcribir tonos globales, locales, terminales y nucleares, la duracin, el acento, la pausas y las fronteras entre unidades prosdicas. Aunque, como puede observarse, presenta rasgos caractersticos de la tradicin britnica de anlisis de la entonacin como la codificacin de tonos nucleares, es un sistema que se plantea como adecuado para la transcripcin de diversas lenguas. 4.2.2.2.- ToBI (Tone and Break Index) ToBI (Tone and Break Index)se desarroll para cubrir al mismo tiempo las necesidades de la descripcin fontica y de la anotacin de corpus adecuados al desarrollo de sistemas de tecnologas del habla (Silverman et al., 1992). Basado en el ingls americano, permite principalmente la transcripcin de patrones entonativos partiendo de un anlisis de la curva meldica representada como evolucin temporal de la frecuencia fundamental mediante herramientas de anlisis y etiquetado como el programa Waves. Sin embargo, se han definido tambin convenciones para la anotacin de textos representados ortogrficamente. Una transcripcin utilizando ToBI consta de cuatro niveles:
Representacin ortogrfica del enunciado. Nivel de ndices de ruptura (break index), en el que se introducen los indicadores de lmite que marcan las fronteras entre las unidades meldicas estableciendo cuatro grados de cohesin entre las mismas Nivel tonal, en el que se marcan los denominados eventos tonales ( pitch events) divididos en tonos de frase al principio y al final de las unidades meldicas y en acentos tonales (pitch accent) en las slabas en las que se produce un movimiento de la frecuencia fundamental Nivel miscelneo, que facilita, por ejemplo, introducir los comentarios del transcriptor. Para cada uno de los niveles se define un conjunto de smbolos, alineados temporalmente con los fenmenos entonativos transcritos si se dispone de una herramienta adecuada como Waves. Las crticas que se realizan ms frecuentemente a ToBI son, por una parte, su dependencia del modelo fonolgico desarrollado por Pierrehumbert (1980) y, por otra, su mejor adaptacin al ingls que a otras lenguas, lo que explicara su amplia utilizacin en Estados Unidos. Sin embargo, se han realizado trabajos en italiano, alemn, hngaro y espaol, entre otras lenguas, usando ToBI como sistema de representacin. Un inconveniente ms importante es que la anotacin mediante ToBI requiere un cierto conocimiento previo de los patrones entonativos de la lengua. Aun as, es un sistema que ofrece indudables ventajas como pueden ser su estructura jerrquica, que permite seleccionar entre subconjuntos o conjuntos mayores de smbolos, la posibilidad de representar problemas que aparecen en la transcripcin y el hecho de que existan experimentos demostrando un alto grado de acuerdo entre transcriptores diferentes (Pitrelli et al., 1994). 4.2.2.3.- El sistema de representacin del IPO En el Institute for Perception Research (IPO, Eindhoven) se ha desarrollado una teora sobre la entonacin basada en el modelado de contornos entonativos, consistentes en representaciones estilizadas perceptivamente equivalentes al contorno original (t Hart et al., 1990). Esta teora ha llevado tambin a la formalizacin de un sistema de representacin de la curva meldica, definida como un conjunto de movimientos tonales que se agrupan en secuencias de configuraciones tonales; la agrupacin de estas configuraciones da lugar, a su vez, a contornos meldicos, definindose los patrones entonativos en funcin de agrupaciones similares de contornos meldicos. Un sistema jerarquizado de esta naturaleza permite una representacin de la curva meldica adecuada para la transcripcin prosdica, aunque que inicialmente no haya sido diseado para tales fines. 4.2.2.4.- INTSINT (International Transcription System for Intonation) El objetivo de INTSINT (International Transcription System for Intonation) es proporcionar un sistema para la comparacin interlingstica de sistemas prosdicos. Desarrollado por Hirst (1991, 1994; Hirst y Di Cristo, en prensa; Hirst, Di Cristo y Espesser, en prensa) en el marco de un proyecto de anlisis automtico de la entonacin, INTSINT se basa en la estilizacin de la curva meldica realizada a partir de una interpolacin entre puntos en los que se da un cambio significativo en el valor de la frecuencia fundamental (target points). Estos puntos, que podramos denominar de inflexin - definidos como la combinacin de un valor temporal y un valor frecuencial - son susceptibles de codificarse automticamente mediante los smbolos de INTSINT, previa introduccin de marcas de frontera entre las unidades entonativas. Con ello se obtiene una representacin fonolgica del contorno meldico, simbolizando los diferentes niveles tonales de la curva original. El sistema se basa en la representacin de secuencias tonales, consideradas tanto desde una perspectiva global en funcin del rango de variacin tonal del hablante como desde un punto de vista local en relacin con la altura de puntos de inflexin anteriores. En el primer caso se definen tres niveles: T ( Top), M (Mid) y B (Bottom), mientras que en el segundo se marcan cinco posibilidades: H ( Higher), L (Lower), S (Same), U (Upstep) o D (Downstep). El proceso de modelizacin necesario para transcribir mediante INTSINT ha sido aplicado a varias lenguas (Hirst et al., 1993) y se emplea tambin para la anotacin prosdica de parte del corpus EUROM en francs, ingls, alemn, sueco y espaol (Hirst et al., 1994; Llisterri (Ed.), 1996) llevada a cabo en el marco del proyecto LRE 62-050 MULTEXT ( Multilingual Text Tools and Corpora). Es posible tambin aplicar INTSINT a niveles ms altos como el prrafo tal como se
Los elementos transcritos pueden relacionarse con los diversos niveles de representacin del corpus, tal como se presenta en la siguiente tabla: Elementos transcritos, marcados o codificados Alargamiento, timbre, acento, reconstruccin de segmentos elididos. Fronteras silbicas, alargamiento silbico. Fronteras de palabras, palabras truncadas, formas no estndar, formas onomatopyicas, formas deletreadas, acrnimos, abreviaturas, cambios Nivel lxico entonativos en la palabra, acento lxico, pausas percibidas entre palabras o en el interior de una palabra. Fronteras entre enunciados, modalidad, interrupciones en el enunciado Nivel sintctico con o sin presencia de pausas. Nivel suprasegmental Unidades entonativas Fronteras entre unidades entonativas o entre unidades menores, unidades tonales incompletas o truncadas, reajustes (resets) tonales, junturas, ndices de cohesin, contornos tonales terminales. Tono Cambios meldicos en el enunciado o en parte del enunciado, nivel tonal, rango tonal, registro, movimiento tonal en la palabra o en el enunciado. Acento Acento de palabra, acento de frase, acento tonal, niveles de acento, prominencia, nfasis, acento contrastivo, tensin, propiedades rtmicas. Intensidad Intensidad absoluta o relativa de partes del enunciado Velocidad de elocucin Cambios en la velocidad de elocucin, velocidad de elocucin relativa o absoluta. Pausas Pausas silenciosas, pausas vocalizadas, duracin absoluta o relativa de las pausas. Vocalizaciones semi-lxicas, vocalizaciones no lxicas, timbre de la Nivel paralingstico voz, otros elementos vocalizados (canto, gritos, etc.). Turnos de palabra, tipo de transicin entre turnos, superposicin de Nivel discursivo turnos. Fenmenos no comunicativos no lxicos y no vocales, informacin Nivel contextual kinsica. Tabla 4: Elementos transcritos, codificados o marcados en el estudio de la lengua oral (EAGLES, 1996) Nivel de anlisis Nivel segmental Nivel silbico
kinsicos, otros tipos de eventos comunicativos y texto presentado en forma escrita al hablante. Tambin se ofrecen en este captulo indicaciones para la segmentacin y el alineamiento, as como recomendaciones para la transcripcin de superposiciones entre hablantes, de formas de palabras, prosodia, elementos paralingsticos - tempo, intensidad, rango tonal, tensin, ritmo y cualidad de voz - y alteraciones en el decurso fnico. Para la representacin de la informacin fontica se recomienda el uso del AFI. En la siguiente tabla se resumen los principales elementos propuestos por la TEI para la codificacin de corpus orales considerados especficos de este tipo de texto (Sperberg-McQueen y Burnard (Eds.), 1994): Elemento codificado Marca de codificacin en SGML <div> Definicin
Unidades intermedias entre el texto y el enunciado que permiten delimitar partes diferenciadas en un texto. Segmento de habla comprendido entre dos pausas o delimitado por un cambio en el turno de palabra; Enunciado (utterance) <u> puede incluir adems informacin sobre la superposicin (<overlap>) de turnos cuando interviene simultneamente ms de un hablante. Interrupcin de la fonacin percibida entre dos enunciados o en el interior de los mismos; puede Pausa (pause) <pause> describirse en trminos relativos o indicando su duracin. Elemento vocalizado semi-lxico o no lxico (p.ej. Vocal (vocal) <vocal> pausas llenas o toses). Cualquier fenmeno comunicativo no vocal (p. ej. Kinsico (kinesic) <kinesic> gestos). Cualquier fenmeno identificado en la grabacin no Acontecimiento (event) <event> necesariamente vocalizado ni con valor comunicativo (p. ej. ruidos de fondo). Texto escrito que se presenta al hablante durante su Texto escrito (writing) <writing> intervencin. Momento en el que se produce un cambio en alguno de los rasgos paralingsticos - cualidad de voz, Cambio (shift) <shift> intensidad, rango tonal, ritmo y velocidad de elocucin -; cada uno de los rasgos puede describirse mediante una lista de caractersticas. Tabla 5: Elementos codificados en las transcripciones de lengua oral segn los estndares de la TEI (Adaptada de Sperberg-McQueen y Burnard (Eds.), 1994) Divisiones (division) Por otra parte, la TEI ofrece mecanismos para indicar el comienzo y el final de un fenmeno, su duracin y su sincronizacin temporal con otros elementos; presenta tambin la posibilidad de marcar unidades inferiores al enunciado - segmentos <seg> - que permiten delimitar, por ejemplo, unidades prosdicas, e incluye tambin entre sus propuestas las marcas necesarias para sealar fenmenos propios de la lengua hablada como palabras truncadas, repeticiones, falsos principios - marcados como <del> (deletion) y especificando el fenmeno -. Las partes de la grabacin que el transcriptor no llega a interpretar correctamente - <unclear> - o no puede escuchar - <gap> - o las correcciones de errores de produccin realizadas por el transcriptor - <sic> para delimitar el error y <corr> para indicar la correccin - son tambin elementos para los cuales la TEI establece marcas de codificacin. Aunque las Guas de la TEI pueden considerarse un sistema adecuado para la transcripcin y codificacin de gran variedad de materiales, los autores propios autores reconocen que: (...) the present proposals are not intended to support unmodified every variety of research undertaken upon spoken material now or in the future; some discourse analysts, phonologists, and doubtless other may wish to extend the scheme presented here to express more precisely the set of distinctions they wish to draw in their transcriptions. Speech regarded as a purely acoustic phenomenon may well require different methods from those outlined here, as may
speech regarded solely as a process of social interaction& (Sperberg-McQueen y Burnard (Eds.), 1994, cap. 11)
6.3.2.- NERC (Network of European Reference Corpora) El proyecto NERC (Network of European Reference Corpora) se plante como uno de sus objetivos la viabilidad de desarrollar una serie de recomendaciones para la constitucin de corpus (NERC, 1994) y, por tanto, incluye entre sus resultados indicaciones sobre el tratamiento de los corpus orales, tanto en lo que se refiere a su codificacin como a la transcripcin de los elementos segmentales y suprasegmentales (Sinclair, 1994). El sistema adoptado para la transcripcin y codificacin de corpus se basa, como hemos indicado anteriormente, en el desarrollado por French (1991, 1992) para la transcripcin del corpus oral desarrollado en el proyecto COBUILD. La transcripcin se plantea como una operacin que puede desarrollarse en varios niveles: Nivel I: consiste en la representacin ortogrfica, introduciendo los mnimos signos de puntuacin necesarios, sin informacin sobre la interaccin entre hablantes. En este nivel se contemplan convenciones desarrolladas para la representacin ortogrfica y para precisar el uso de la puntuacin. Nivel II: consiste en una representacin ortogrfica enriquecida con informacin bsica sobre la identidad de los hablantes, el turno de palabra y los elementos no verbales. Nivel III: contiene toda la informacin presente en el nivel II adems de informacin sobre la interaccin entre hablantes - marcando el principio y el final de los solapamientos - y sobre la entonacin - sealando las fronteras entre unidades tonales y las slabas acentuadas-. En opinin de French (1992) la transcripcin a este nivel requiere una formacin especfica en fontica. Nivel IV: constituye el nivel ms detallado de representacin, incluyendo la informacin propia del nivel III junto con marcas de tonos, slabas nucleares y con una transcripcin fonolgica alineada con una representacin acstica - espectrograma y curva meldica del enunciado. La recomendacin del proyecto NERC es que la transcripcin de un corpus para el estudio de la lengua oral se lleve a cabo segn las especificaciones del Nivel II, adecuado, segn French, para todas aquellas investigaciones que no requieran informacin prosdica. En el marco de NERC se llev a cabo una evaluacin de las Guas de la TEI para la transcripcin de corpus orales (Payne, 1992), de la que se concluye que: The TEI proposals are broadly compatible with current practice in the user community, as represented by J.P. French conventions. Furthermore, in the majority of cases it will be a straightforward matter to link the machine-friendly TEI codes to the more user-friendly encoding systems such as J.P. French conventions by means of a simple conversion programme (Payne, 1992:60) La idea de una conversin automtica entre las transcripciones realizadas segn las propuestas de NERC y de la TEI es, naturalmente, interesante, y refuerza la idea de que existe una compatibilidad general entre ambos sistemas. De hecho, en el informe final de NERC se recomienda que se sigan las normas de la TEI.
Pertenecen a esta categora los elementos utilizados principalmente en el habla espontnea durante los momentos en que el hablante planifica la continuacin de su discurso como las llamadas pausas llenas o sonoras y los elementos que marcan dudas en el momento de la produccin del habla. Corresponden a los elementos que en la TEI se marcan con la etiqueta <vocal>. Elementos vocales no lxicos Se incluyen aqu todo tipo de sonidos producidos por el hablante - toses, risas, bostezos, estornudos, etc. - que no constituyen formas lxicas de la lengua. Corresponden igualmente a los codificados con la marca <vocal> en la TEI. Acontecimientos no vocales y no comunicativos Comprenden los ruidos producidos por otros hablantes o procedentes del entorno de grabacin. Estos acontecimientos se codifican en la TEI mediante la marca <event>. (2) Elementos necesarios en la transcripcin de interacciones verbales Identidad del hablante Este es un elemento imprescindible en la transcripcin de interacciones verbales. La TEI dispone de los mecanismos para documentar informacin sobre los hablantes en la cabecera de los textos, as como de un sistema para marcar la identidad de cada participante en el interior del texto, aunque pueden utilizarse tambin otros procedimientos. Turnos de palabra La finalidad del marcado de los turnos de palabra es indicar un cambio de hablante. Adems de las convenciones de la TEI pueden emplearse otros procedimientos, mientras se mantenga esta informacin, esencial en el estudio de la interaccin verbal. Superposicin de turnos de palabra Existen igualmente diferentes procedimientos para marcar la superposicin de emisiones de dos hablantes, adems de las propuestas de la TEI, que los trata como parte de las estrategias para codificar acontecimientos simultneos. (3) Elementos relacionados con la actuacin del hablante Omisiones en un texto ledo Si se transcribe un texto ledo y se dispone del original, es recomendable anotar las palabras o segmentos omitidos por el locutor. Autocorrecciones Es propio del habla espontnea, aunque tambin de la lectura, que los hablantes realicen correcciones de su propia produccin lingstica ( self-repairs). Parece conveniente marcarlas en la transcripcin de un corpus oral. Fragmentos de palabras Los fragmentos de palabras corresponden a uno o ms segmentos pertenecientes a una palabra que no ha sido totalmente pronunciada por el hablante en un primer intento y que suelen repetirse cuando ste consigue producir la palabra completa. Es importante indicar este fenmeno en la transcripcin. Fragmentos ininteligibles Se trata de partes de la grabacin que no son comprendidas por el transcriptor y en la TEI se codifican con la etiqueta <unclear>, aunque si se desea se pueden utilizar marcas ms detalladas distinguiendo entre transcripciones completamente ininteligibles y entre una posible interpretacin ofrecida por el transcriptor.
Un aspecto conflictivo sigue siendo la identificacin de los enunciados que conforman un texto oral. Mientras que en un texto escrito, los signos de puntuacin constituyen un criterio de delimitacin, en el habla disponemos de indicios como las pausas, la entonacin o el cambio de turno de palabra que nos permiten, al menos convencionalmente, definir un enunciado.
reconstrucciones de unidades lxicas, as como procedimientos de anotacin pragmtica en forma de notas a pie de pgina. En lo que respecta a la prosodia, se transcriben los indicios prosdicos que influan notablemente en el curso de la conversacin o introducan alguna modificacin en la prosodia normativa (Briz (Coord.) 1995:41), para lo cual se realiza, cuando es necesario, una comprobacin mediante el anlisis acstico de las grabaciones.
los cuales se elabora una tipologa, los fenmenos comunicativos no vocales (<kinesic>) o los fenmenos no vocales y no comunicativos que se detectan en las grabaciones (<event>); se codifican igualmente los fragmentos poco claros de la grabacin (<unclear>). En el procedimiento de codificacin adoptado, los signos de puntuacin introducidos por el transcriptor son automticamente interpretados y etiquetados. As, los enunciados ortogrficos separados por signos como el punto, la exclamacin o la interrogacin se marcan con la etiqueta <s> (sentence). La etiqueta <pause> se reserva, en cambio, para los casos en que apareceran puntos suspensivo en un texto escrito, sealando una interrupcin en el discurso resultado de un titubeo o una clusula inconclusa.
7.- Conclusiones
La revisin - sin pretensiones de exhaustividad - de los principales sistemas de transcripcin, etiquetado y codificacin de corpus orales expuesta en este trabajo pone de manifiesto, en primer lugar, la multiplicidad de propuestas desarrolladas frente a los intentos de estandarizacin, algunos de los cuales an no se han consolidado plenamente pese a su creciente aceptacin. En segundo lugar, destaca tambin la heterogeneidad de tradiciones que confluyen en el estudio de la lengua hablada, desde la fontica y las tecnologas del habla hasta el anlisis del discurso y de la conversacin, diversidad que lleva a la creacin de convenciones especficas para responder a las necesidades de diversas comunidades cientficas. Ante esta situacin, la distincin propuesta por Sinclair (1995:107) entre conformidad y compatibilidad adquiere todo su sentido, ya que si en ciertos casos la conformidad a un estndar determinado es problemtica por las limitaciones inherentes a todo sistema comn, la compatibilidad - entendida como la facilidad de conversin entre sistemas debera ser, en cambio, un requisito imprescindible en el desarrollo de los recursos lingsticos. De esta manera puede tal alcanzarse el equilibrio entre las necesidades de un proyecto y las indudables ventajas cientficas y econmicas que resultan de la reutilizacin de los datos disponibles.