Académique Documents
Professionnel Documents
Culture Documents
Se han resaltado estos términos de búsqueda: convenciones para oral Estos términos Versión de solo texto
sólo aparecen en enlaces que apuntan a esta página: transcripcion
CONTENIDO
Ejemplos
1 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
Número de palabras
Porcentajes de representatividad
Definición: Base de datos textual (corpus de lengua hablada): transliteración de textos grabados en cintas de
audio del registro oral. 1.100.000 de palabras transliteradas en soporte informático.
Grupo de investigación:
La base de datos textuales denominada Corpus Oral de Referencia del Español Contemporáneo
comenzó a elaborarse en enero de 1991, finalizando su realización en febrero de 1992. Ha sido realizada en la
cátedra de Lingüística General de la Universidad Autónoma de Madrid gracias a una subvención de IBM
España. Es accesible por red mediante esta serie de comandos FTP:
>ftp ftp.lllf.uam.es
Name: ftp
El corpus oral ha de recoger textos de todo tipo, desde conversaciones hasta presentaciones de índole más
académica (no leídas), de acuerdo con unos requisitos y dentro de una banda de frecuencias de tipos textuales
previamente determinada. En los aspectos generales, se rige por los criterios que hemos presentado
anteriormente, en esta exposición.
2 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
El equipo recolector de textos orales debe tener en cuenta también seis criterios para definir los textos que se
integrarán en la base de datos:
1) Oralidad
2) Espontaneidad
3) Adecuación
4) Representatividad
5) Autenticidad
6) Estándar
En lo referente a la transcripción, se debe insistir en que se trata de una transcripción ortográfica, por lo que
este criterio es el determinante. Cuando en la expresión oral se hayan suprimido segmentos que deben
representarse ortográficamente (como la d del participio en la terminación -ado, p. ej.) se arbitra un sistema
de representación que permite recuperar la información ortográfica (ver el apartado de etiquetas); pero sin
perder la información relevante desde el punto de vista de la oralidad, para los efectos de cadenas de
segmentos en estadísticas, por ejemplo.
En lo que se refiere al corpus oral, los tipos de texto representativos son los siguientes:
TIPO TEXTUAL
Administrativos
Científicos
Conversacionales o familiares
Educativos
Humanísticos
Instrucciones (megafonía)
Jurídicos
Políticos
Periodísticos:
Debates
Deportes
Documentales
Entrevistas
3 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
Noticiario
Publicitarios
Religiosos
Técnicos
Todas las etiquetas antes mencionadas se insertan en el texto transcrito. Pero cada archivo requiere, aparte,
un encabezamiento con una serie de datos fundamentales para la posterior recuperación de la información en
ellos contenida.
La primera etiqueta es el número de la cinta en dónde se encuentra el texto grabado (tres dígitos).
- El autor de la transcripción: una inicial del nombre o apellido dels investigador que ha recogido y transcrito
el texto.
- El tipo de texto transcrito: las tres primeras letras correspondientes al tipo o sección.
- La posición que ocupa en la cinta determinada, denominada mediante las letras del alfabeto español.
Y por último:
Así por ejemplo, un fichero llamado <A ENT 012 F.ASC>, indica que ha sido realizada por Almudena (A),
que se trata de la entrevista (ENT) registrada en quinto lugar (F) en la cinta número 012, (en la cual puede
haber, además, otro tipo de textos) y que está grabada en código ASCII.
A esta etiqueta le siguen las que identifican y sitúan al texto y a los hablantes que en él intervienen.
- Fuente: se especifica si se toma de los medios de comunicación (radio, televisión), o del entorno familiar,
académico, etc.
- <Localización=X>, donde X está en el lugar de la ciudad en cuestión donde ha sido grabado el texto.
- Términos: son los temas o tópicos tratados. Deben tratar de generalizar y no de ser concretos y servirán para
la elaboración de un tesauro. Son todos ellos sustantivos, aunque pueden llevar adjetivos.
Además se especifica su edad, sexo y su profesión u ocupación, si se sabe; aunque esto último no es del todo
fundamental.
4 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
Si la edad de los hablantes es sólo aproximada indicaremos «c.» (circa) delante de la edad (varón, c. 45 años)
Finalmente, indicar que todos los ficheros comienzan con la etiqueta <texto> y terminan con la etiqueta
</texto>. Un último ejemplo aclaratorio, para resumir:
5 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
Todas estas dificultades señaladas sólo lo son si no se adopta ninguna convención que unifique criterios, que
marque estos posibles problemas para su posterior tratamiento, o su simple constatación.
Basándonos por una parte en las normas de la TEI (Text Encoding Initiative), y en nuestra intuición y
capacidad como lingüistas, hemos resuelto marcar algunas de estas características del lenguaje hablado con
las etiquetas que se citan a continuación. Por el momento, éstas son las etiquetas utilizadas:
<palabra cortada>...
El hablante no ha pronunciado todas las sílabas de una palabra, bien por confusión, autocorreción, o rapidez
en el habla. Esta etiqueta es muy utilizada, especialmente en la transcripción de conversaciones informales. A
ella hay que adjuntar puntos suspensivos, para que conste como vacilación y no como palabra real una vez
eliminadas las etiquetas.
Reconstrucción de letras: Todas las letras que componen una palabra y que no hemos oído, incluso las sílabas,
podemos reconstruirlas siguiendo los ejemplos a continuación:
<vacilación>
Esta etiqueta sustituye a sonidos ininteligibles que indican vacilación. A veces el hablante no llega a
pronunciar sílabas enteras, sólo una secuencia de sonidos «oscuros», no vocálicos.
Fáticos:
<fático=afirmación> - el hablante emite un sonido que indica que está de acuerdo con su interlocutor.
<fático=negación> ...
En general, se considera que el «catálogo» de los sonidos fáticos no está cerrado; siempre que el transcriptor
considere que se debe ampliar, esto enriquecerá la definición del corpus.
Ruidos:
Se distingue entre los ruidos propios de una comunicación y los ajenos a ella. Así, la etiqueta <ininteligible>
indica que lo que el hablante dice (una o varias palabras) no se puede entender por la propia pronunciación
del hablante. Sin embargo, la etiqueta <ruido> señala un ruido efectivo de cualquier tipo, solapado en la
conversación y que dificulta o imposibilita del todo la comprensión.
Aparte de estos dos, normalmente también se señalan otros «ruidos» definidos con otras etiquetas:
A veces es necesario identificar la fuente de los ruidos. De este modo, si en el transcurso de una
6 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
conversación, por ejemplo, suena un timbre de teléfono o de puerta y ello provoca comentarios, lo
etiquetamos de la forma <ruido=timbre de teléfono>, tomando el primer caso. Hemos preferido hacerlo así
en vez de considerar el sonido del timbre o los ladridos de un perro, poniendo otro caso, una sola etiqueta,
como podrían ser <ladridos> o <timbrazo>; siempre con vistas a una mayor coherencia interna y una mejor
recuperación de estas marcas.
Sin embargo, los sonidos que emiten los hablantes, tales como risas, suspiros, llanto, etcétera, son
considerados etiquetas aparte.
Nos encontramos con el problema de cómo etiquetar ciertos sonidos que se emplean para llamar la atención
de alguien o bien para recomendar silencio. Ocurren con frecuencia, por ejemplo, en los textos educativos.
En el diccionario podemos encontrar «chsss...» como transcripción de estos sonidos. Hemos decidido utilizar
esta misma transcripción.
Etiqueta <onomatopéyico>: Como se puede adivinar, se utiliza en el lugar del sonido de agrado, desagrado,
alegría, etc. que no es posible representar silábicamente. Algunas veces, sin embargo, estas exclamaciones sí
son silábicas e incluso se pueden encontrar en el diccionario: «paf», «ayayai»...
<onomatopéyico> </onomatopéyico>
Se utilizan para delimitar los sonidos onomatopéyicos que pueden reconstruirse ortográficamente. Por
ejemplo:
Sin embargo, sin estas valiosísimas aportaciones no existirían estos programas. Así pues, se mantiene su
intervención y como tal se transcribe, pero utilizando las etiquetas distintivas <Ha>, <Hb>, <Hc>, etc. para
cada una de ellas.
En cualquier debate de los medios de comunicación, es relativamente común que se muestren los resultados
de una encuesta realizada previamente. Si además de mostrar los resultados globales, el realizador del
programa decide exhibir también algunas de las respuestas que expuso la gente que fue entrevistada, nos
7 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
encontramos nuevamente con intervenciones espontáneas, muy ocurrentes y representativas, pero a las cuales
sería un grave error presentar con una etiqueta como <H3> o <H4> delante, pues eso significaría que están
en el plató debatiendo con el resto de los invitados. Además, siempre son respuestas a una misma pregunta, la
del encuestador, tampoco participante del debate.
Para ellas hemos propuesto las etiquetas <Encuestador> y <Encuestado 1>, <Encuestado 2>, etc.
En este mismo tipo de programas, importante y nada desdeñable fuente de nuestro corpus, el público puede
tener un papel decisivo. Cuando sus risas, murmullos, o gritos influyen en el resto de las intervenciones, el
dejar de señalarlo sería una omisión importante. El público también está presente como hablante «común» en
las conferencias, las clases, los debates del Parlamento y en general, allí donde se trate de exponer ideas u
opiniones o de divulgar conocimientos de interés «público», valga este adjetivo para notar la obviedad. Si
interviene individualmente uno de los componentes del público, que ha seguido toda la conferencia o el
debate, si está considerado hablante, por supuesto.
En el otro caso, la etiqueta <público> representará al mismo. Seguida a ella, adjuntamos las etiquetas
correspondientes: <murmullos>, <risas>, por ejemplo.
Durante la transcripción de conversaciones en las que no se ha estado presente, es fácil notar que uno no es
capaz de reconocer a quien está hablando en ese momento. Si tras hacer algunos esfuerzos por descubrirlo
hemos seguido sin ser capaces, no nos ha quedado más remedio que recurrir a la etiqueta <no identificado>
para este hablante, sin que por ello la intervención en cuestión haya de ser menospreciada.
<todos>
Esta etiqueta se utiliza cuando en algún momento de la conversación todos los hablantes dicen lo mismo:
<todos> ¡Sí!
<todos> ¡Vamos!
Es especialmente útil cuando contestan al profesor todos los alumnos, por ejemplo, y sería tedioso enumerar
cincuenta o cien hablantes distintos. Esta etiqueta va definida en la cabecera:
Utilizamos <todos> <ininteligible> cuando todos los participantes en la conversación hablan a la vez y por
ello no es posible entender a ninguno de los hablantes.
En ocasiones, en el transcurso de una conversación, los hablantes pueden ponerse tranquilamente a cantar, en
el sentido literal de la palabra. Nos ha parecido que desdeñar estas cantarinas intervenciones no sería muy
apropiado, teniendo en cuenta que con el Corpus oral pretendemos reflejar cómo habla la gente; y la gente,
además de gritar, reírse, murmurar o toser, puede, entre otras cosas, cantar mientras habla. Resignarnos a no
transcribir estas «piezas» nos pareció que dificultaría la comprensión del texto completo si, como suele
ocurrir, se alude a ello posteriormente. Y aunque en ocasiones utilizamos la etiqueta <texto no transcrito>
8 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
para algunos otros casos, éste no parece un buen candidato. Por otro lado, el hablante puede también
«improvisar» esas canciones, lo cual es sin duda una manifestación demasiado interesante como para que se
ignore.
Aunque no hay que olvidar que nuestro Corpus es pobre para reflejar algunos de estos aspectos relativos a la
forma de enunciación y no al contenido -me refiero, naturalmente, a las indicaciones tonales- , para estas
intervenciones hemos propuesto la etiqueta <cantando>, que se adjunta al principio de ellas, y su
correspondiente de cierre, </cantando>.
Simultaneidad.
Señalamos esta característica con las etiquetas <simultáneo> </simultáneo>. Es una etiqueta doble ya que
ha de adjuntarse delante (o a mitad) de la intervención del hablante que es interrumpido y detrás de la
intervención del hablante que interrumpe, o justamente al revés. Cuando las intervenciones de los hablantes
sean ininteligibles por causa de la simultaneidad indicaremos:
EJEMPLOS DE SIMULTANEIDAD:
<H3> la fibra.
estaba...
ha<(b)><(é)>is oído...
Otras etiquetas.
Etiqueta <texto leído>: Empleada muy a menudo en los informativos y, en general, en grabaciones
procedentes de los medios de comunicación, sustituye a la información que el locutor o hablante está leyendo
y que se inserta en medio de un discurso oral o una narración.
9 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
Es conveniente transcribir ciertos textos leídos imprescindibles para la comprensión del texto que los sigue
(por ejemplo las preguntas en un concurso, los titulares de los periódicos que se comentan en los noticiarios
etc.) En ese caso se utilizará <texto leído> </texto leído> para delimitar dicho texto.
Etiqueta <texto no transcrito>: Por diversos motivos, en algunas ocasiones se puede optar por no transcribir
ciertas partes del texto grabado. La etiqueta propuesta sustituye a estas partes. Se utiliza también en vez de
textos pronunciados en otras lenguas o sus correspondientes traducciones. Esto último es relativamente
frecuente en los noticiarios o reportajes.
Etiqueta <interrupción de la grabación>: Puede ocurrir que la cinta se termine pero la grabación continúe
en otra cara, o en otra cinta. Como se han dejado de registrar ciertas palabras en la mitad del acto discursivo,
hay que indicar el porqué de este corte. No hay que indicarlo, sin embargo, cuando definitivamente termina la
grabación. En este caso se indica con la etiqueta </texto>, como en todos los archivos.
Etiqueta <silencio>: Si la pausa entre la intervención de uno o varios hablantes dura más de lo que podría
representarse simplemente con un signo ortográfico como los puntos suspensivos.
<siglas> </siglas>
Al igual que en el caso de las palabras extranjeras, las siglas o acrónimos, que aparecen no pocas veces en
nuestro discurso, han de ser etiquetadas, pues no son en sí una palabra que tenga estructura silábica idéntica a
la española -aunque sus inventores hayan hecho esfuerzos por que éstas sean «pronunciables», cosa que han
conseguido la mayoría de las veces, por razones obvias- y sobre todo, porque muy a menudo son siglas
procedentes de palabras extranjeras, que los hablantes siguen pronunciando a la manera española. En este
último caso, se decidió prescindir además de la etiqueta <extranjero>, dado que el hecho de marcarlas como
una sigla ya pareció suficiente.
<sic>:
Cuando hay falta de concordancia utilizamos la etiqueta <sic> para evitar que se interprete como un error de
transcripción. Ejemplo:
Se puede adjuntar esta etiqueta a las palabras que han sido mal pronunciadas a propósito o por error
(inflacción), aunque esto último no es necesario, ya que garantizamos que si después de haber utilizado el
corrector ortográfico ciertas palabras están transcritas con una ortografía diferente a la correcta es porque las
hemos escuchado así.
<asentimiento> <denegación>
En situaciones en que el lenguaje corporal sustituya al lenguaje verbal para afirmar o negar podemos utilizar
estas etiquetas.
10 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
Para señalar las palabras extranjeras se utilizan dos etiquetas (en realidad, la misma), adjuntando una al
principio de la palabra o palabras (por ejemplo, cuando hay nombres y apellidos) y otra al final, sin dejar
ningún espacio, por ejemplo:
Hay que tener cierto cuidado en no señalar como extranjeras aquellas palabras cuya grafía se haya adaptado
por completo a la española, como es el caso de las palabras árabes, o las que aparezcan en un atlas con una
grafía ya estandarizada y española.
- Todos los nombres propios de personas (incluso apodos, abreviaciones, etc) Ejemplos: Adolfo Suárez, Coco,
Chus, el Litri, Pepe, el Lute, el Nani, El Niño de la Puebla (pero atención: <extranjero>Jon</extranjero>
Manteca, «el Cojo»;
- Todos los nombres de ciudades, países, pueblos, comarcas, barrios, distritos, plazas, calles... Ej.: San
Sebastián de los Reyes, Castilla y León, la Albufera, el embalse del Vellón, el Alto Penedés, la Plaza de
Neptuno, la calle la Bola, calle Mauricio Legendre...
- Las siglas. Con o sin puntos entre cada letra: URSS, E.E.U.U., la OTAN, el SIDA, el IVA, el PSOE.
- También se escriben con mayúscula todos los nombres de cines, teatros, hospitales, colegios,
universidades... : Hospital de Las Cruces de Baracaldo, Universidad Autónoma de Madrid, Colegio Mayor
Chaminade, Teatro Español... Pero, atención, no se escribirán con mayúscula los nombres hospital,
universidad, teatro, colegio, etc. cuando no se cite su nombre: «Le ingresaron en el hospital»; «Vamos al
teatro a las cinco», por ejemplo.
- Los nombres de trofeos deportivos: Copa de Europa, Copa de Naciones, Recopa, Trofeo Conde de Godó de
tenis, etc.
- En las citas textuales de otra persona o de uno mismo, con o sin verbo introductorio:
... decía una periodista italiana: «Si es pobre necesariamente tiene que
ser malo»;
11 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
Dejamos fuera de las comillas las aportaciones personales a las citas textuales. Nos referimos a frases como y
tal y cual; y patatín y patatán, no sé qué no sé cuántos, etc. que se pronuncian con tono de voz imitativo
como si las hubiese pronunciado la persona citada aunque no haya sido el caso:
... y dice: «Si es que no puedo más» no sé qué no sé cuantos «y tengo mucho
trabajo».
- Cuando el hablante quiere resaltar un uso especial de la palabra, o su pronunciación, o se cita la palabra, o
palabras sin que intervengan como tales en la conversación:
... Si yo digo «Bilbado» porque quiero pronunciar mejor «he cantado», pues
lo estoy haciendo muy mal (...) y no digo nada si recurro a la palabra
«inflacción»;
... estoy diciendo que esa realidad que vemos ahí se llama «mesa»;
- Los títulos de libros, canciones y todo tipo de obras artísticas (aunque no se cite el nombre completo de la
obra): «La Internacional», «El Quijote», «Las Meninas». Pero no, por ejemplo, la Novena sinfonía de
Beethoven, aunque sí con mayúscula.
- Los nombres de publicaciones periodísticas de cualquier tipo: «El Mundo», «Hola», «El País», «Tiempo».
- Los motes, apodos o sobrenombres aplicados a personas, lugares o cualquier otra cosa:
- También irán entre comillas los nombres de establecimientos y marcas comerciales. Ej.: «El Corte Inglés».
Se transcriben tal como se oyen. Lo mismo rige para las confusiones, las palabras trabadas, las que se cortan
voluntaria o involuntariamente y las autocorreciones. Se transcribe todo lo que se oye, aunque no sea una
palabra documentada. Si el hablante se autocorrige, se transcribe tanto la palabra «mal» dicha como la
corregida.
No adjuntamos ninguna etiqueta a las palabras inventadas. Una palabra como pueda ser «cuadernation»,
12 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
donde se pronuncia una palabra española con terminación a la inglesa, no falsea el tratamiento estadístico del
corpus porque no aparece con tanta frecuencia como la palabra «cuaderno». Por tanto no será necesaria una
etiqueta nueva para este caso. Simplemente transcribimos lo que oímos, con la ortografía que corresponda al
idioma que corresponda.
Utilizamos los puntos suspensivos para señalar las pausas (con frecuencia realizadas con un alargamiento de
vocal al final de palabra), vacilaciones, cortes bruscos, y para separar varias realizaciones repetidas de una
misma palabra.
La convención de marcar así un corte brusco viene condicionada por la adecuación que ha de tener el corpus
a la ortografía española, donde no puede existir una separación mediante coma entre un artículo y un
sustantivo, o entre un auxiliar y su verbo, por ejemplo, aunque de hecho los hablantes introduzcan una
brevísima pausa -más bien, una vacilación- al hablar.
La coma se emplea según las reglas de la ortografía asimismo, y habrá de ser marcada aunque potencialmente
el hablante no se detenga. En cualquier caso, estos signos quedan al criterio del transcriptor, siempre que -hay
que insistir- no se viole ninguna regla de puntuación española como puede ser, por ejemplo, la no separación
entre un sujeto y su verbo por medio de coma, de no ser que se introduzcan, naturalmente, subordinaciones,
locuciones adverbiales, etc.
Las pausas de sentido en el discurso se indican, como es habitual en la ortografía española, mediante comas.
El punto y aparte se reserva para cuando el cambio de tema o tópico en el discurso es claro.
La principal dificultad que presentan los corpus orales es también una de sus características distintivas: la
espontaneidad. Los hablantes no se sujetan a ningún tipo de regla estilística, retórica, ni siquiera gramatical en
ocasiones, por lo que es frecuente encontrar palabras en un orden distinto del «normal»; repeticiones,
muletillas, cortes bruscos dentro del acto comunicativo... y, por supuesto, cortes de palabras, palabras
«inventadas», ininteligibles, o que no se ajustan desde luego a los cánones de, por ejemplo, un diccionario.
Algunos de estos rasgos especiales se citan y estudian a continuación.
Mucho más a menudo de lo que pudiéramos pensar, los hablantes utilizamos palabras extranjeras, y otras que
podríamos llamar «extranjerizantes», reconstruidas sobre una dada. Además, no es extraño oír palabras
españolas con terminaciones fonéticas pretendidamente extranjeras (más bien, cuya fonética está adaptada a
la extranjera), y muchas otras de este estilo.
Mención aparte merecen las palabras que se citan a lo largo de una conversación y que no provienen siquiera
de un idioma extranjero: es el caso de las palabras de argot o jerga que ya están demasiado extendidas como
para considerar que pertenecen a este tipo. Tal es el caso de «guai», por poner tan sólo un ejemplo de los más
generalizados. En este momento, la propia autora ha dudado en escribirlo así, ajustándose totalmente a la
fonética, o por el contrario, darle el aspecto «extranjerizante» que normalmente se puede ver escrito. Se
podría todavía ahondar en el problema haciéndolo más complicado. Por ejemplo, cuando el hablante deforma
la mencionada palabra, algo que ocurre no pocas veces...
Tampoco hay que olvidar en este apartado los sonidos normalmente llamados fáticos, ya que constituyen un
apoyo imprescindible en gran número de situaciones comunicativas. Utilizados para aseverar, negar, dudar,
etc., son en realidad «sonidos» que no pueden, sin embargo, ser clasificados entre los «ruidos», puesto que
efectivamente comunican, lejos de impedirlo. No son, por otro lado, palabras: no tienen estructura silábica ni
significado concreto determinado. Han de ser incluidos en cualquier corpus oral, precisamente porque se dan
13 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
A menudo sucede que los hablantes distorsionan su propia habla. No ocurre solamente en las imitaciones; en
general no somos conscientes de cuántas veces hemos hablado (y nuestro interlocutor nos ha entendido)
mientras nos reíamos, mientras sollozábamos, o mientras comíamos, por citar algunas situaciones comunes.
Estas comunicaciones resultan distorsionadas por un ruido que nosotros mismos emitimos, y que hace el
mensaje algo más difícil de captar, pero no absolutamente indescifrable.
Los hablantes tampoco esperan turno para hablar. Esta característica se puede observar incluso en los
debates de los medios de comunicación, o en las retransmisiones deportivas. La superposición de
conversaciones supone un par de dificultades para nuestros objetivos:
- la tarea del codificador se ve duplicada por lo evidentemente laboriosa que resulta la comprensión;
Había que optar por la eliminación de una de las dos (o más) comunicaciones, considerándola «ruido», o bien,
por la transcripción de las intervenciones simultáneas, indicando con etiquetas esta característica. Existe una
tercera opción, y es transcribir una al lado de la otra tipo columna; pero ésta parece la menos recomendable
por cuestiones de formato, y por la posible confusión que puede provocar.
Hasta ahora, sólo se han señalado los problemas que más se destacan y que cualquiera podría intuir. Existen
otros que no son obvios por estar relacionados con la propia codificación de los textos. Se refieren en
concreto a los detalles de transcripción de los datos en sí.
Consideremos el léxico español: para todos es tarea sencilla tomar un diccionario y buscar el significado de
una palabra determinada. Está claro que ésta ha de pertenecer al vocabulario que se incluye en los
diccionarios; a saber, el que dicta la Real Academia, o en su caso, la persona u organismo que confecciona un
diccionario. No pasamos por alto el hecho de que hay diccionarios realizados para todos los campos de la
ciencia y para todos los tipos de lenguaje; incluyendo aquí los famosos diccionarios de argot, por citar uno
entre los muchos no dictados por la Academia.
Pero algo que jamás encontraríamos en un diccionario, por más extravagante que fuera, sería una palabra
inventada por nosotros mismos. Que se sepa, de momento tampoco hay diccionarios-guía sobre cómo
inventar una nueva palabra. Así pues, ni siquiera una referencia a nuestra palabra inventada sería posible
encontrar. Y no es ninguna aguda observación el recordar que todos los días «funcionamos» con palabras
creadas por nosotros mismos, que, además, entienden nuestros interlocutores.
Para no hacer las cosas complicadas y que alguien pudiera pensar que la anterior aserción es totalmente
gratuita, aclararemos el concepto de palabra inventada, o palabra nueva.
Dejando de un lado que nuestra capacidad creativa, como nativos de español que somos, nos permita la
creación de nuevas palabras conscientemente, un hecho evidente es que los hablantes vacilamos al hablar.
Esto está claro: nadie es capaz de evitar que en un momento dado se le crucen dos palabras, o de encontrarse
con que de repente no es capaz de pronunciar una dada. Se producen así nuevas asociaciones de sílabas, no
oídas hasta entonces, pero en absoluto artificiales, o antinaturales. Tienen la misma estructura que el resto de
las que componen las palabras que se pueden encontrar en un diccionario español, porque efectivamente
están producidas por hablantes de español. Mantienen un significado aleatorio, si se quiere, o ninguno en
absoluto.
14 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
- como «ruidos» en la comunicación; y desechadas por lo tanto (no representadas más que con una etiqueta,
pero nunca transcritas);
Esta última forma parece la más conveniente, por varias razones. En primer lugar, dejar de transcribirlas entra
en conflicto con el principio de la no interpretación de lo oído. Una vez más hay que recordar que no
podemos afirmar que no comuniquen algo, que sean efectivamente ruidos. En segundo lugar, resulta
interesante el hecho de que estas combinaciones de sonidos respondan precisamente a los habituales de la
lengua española. Al igual que se piensa en la necesaria reutilización de los textos a la hora del formato de los
mismos, y de sus indicaciones contextuales, habría que pensar en lo útil que podría ser esta circunstancia para
un fonólogo, por ejemplo.
El hecho de que no sean palabras del español no plantea problemas, como vemos.
Interesa señalar ahora otro de los escollos importantes con los que se encontraría cualquiera que se propusiese
transcribir un texto oral: el problema mismo de la transcripción estricta de lo oído, o por el contrario, la
peligrosa elección de reconstruir lo que uno supone entender. A simple vista, no parece un asunto demasiado
grave: se opta por la transcripción ortográfica del texto oral, y lo que no queda claro, se etiqueta como
ininteligible. Pero ocurre en multitud de ocasiones que el oyente es perfectamente capaz de entender lo oído
aunque el hablante no haya pronunciado todas sus letras, ni siquiera sus sílabas. Ahora bien, algo que queda
completamente claro es que a la hora de transcribir, no hay que interpretar. Y en estos casos, transcribir una
palabra con todas las sílabas con las que se encuentra en un diccionario -es decir, reconstruirla- no sería otra
cosa que estar interpretando que el hablante ha dicho algo que, en realidad, ni siquiera hemos oído.
Pero nuestro corpus oral no es fonético, sino ortográfico. Así pues, estas cuestiones quedan bastante en el
aire. No son fácilmente representables sin desvirtuar de alguna manera los tres o cuatro principios básicos de
la codificación, que sin duda deben ser mantenidos. O por el contrario, ateniéndonos a ellos en su totalidad,
deberíamos «transformar» en buena medida la representación del corpus oral pretendido.
15 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
16 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
17 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
18 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
19 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
20 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
21 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
22 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
23 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
24 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
Estructura de directorios.
ADM Administrativos
CIE Científicos
EDU Educativos
HUM Humanísticos
JUR Jurídicos
POL Políticos
Periodísticos:
DEB Debates
DEP Deportes
DOC Documentales
ENT Entrevistas
NOT Noticiario
25 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
PUB Publicitarios
REL Religiosos
TEC Técnicos
Nota: Estos nombres de directorios corresponden al código de tipo de texto que aparece en el nombre de
fichero excepto CONV (conversacional, etiquetado como CON): MS-DOS no permite que un directorio se
llame «CON».
Número de palabras.
Administrativos y políticos................. 61.200 palabras
Periodísticos
Porcentajes de representatividad.
Administrativos y políticos.................. 5'6 %
Científicos.................................. 3'3 %
26 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...
Educativos................................... 5'3 %
Humanísticos................................. 5'6 %
Jurídicos.................................... 3'2 %
Periodísticos:
Debates.......................... 8'5 %
Deportes......................... 5'3 %
Documentales..................... 2'6 %
Entrevistas...................... 15'6 %
Noticias......................... 6'6 %
Publicitarios................................ 2'8 %
Religiosos................................... 1'1 %
Técnicos..................................... 3'9 %
____________________________________________________
100 %
Referencias:
Francisco A. Marcos Marín: Informática y Humanidades, Madrid: Gredos, 1994. (ISBN: 84-249-1665-4)
Anonymous FTP
27 de 27 12/09/2008 21:43