Vous êtes sur la page 1sur 2

CORPUS

Un corpus es un almacn electrnico organizado de materiales lingsticos,normalmente textos. Los corpus nos aportan un amplio nmero de ejemplos reales del uso de la lengua, podemos decir que estn destinados a facilitar la consulta de datos lingsticos. Existen diversos tipos de corpus, tanto orales como escritos, en este caso vamos a dedicarnos a analizar un corpus escrito, como se trata del Corpus CORDE, creado por la Real Acadmia Espaola, se trata de un corpus diacrnico, donde encontramos palabras de todas las pocas y lugares en los que se habl espaol, desde los inicios del idioma hasta el ao 1975. Profundizando en la clasificacin de los corpus escritos diremos de ste que se trata de un subcorpus puesto que queda englobado en un corpus ms amplio como el es el CREA, an siendo as en l podemos encontrar una gran variedad de textos de distintos gneros, stos se distribuyen en prosa y verso y, dentro de cada modalidad, en textos narrativos, lricos, dramticos, cientfico-tcnicos, histricos, jurdicos, religiosos, periodsticos, etc. Podemos destacar diversas caractersticas bsicas que exiten en todos los corpus lingsticos y que vamos a analizar en este en concreto como son la representatividad, el tamao final, el formato y las anotaciones. La representatividad es una cualidad necesaria y muy importante en todos los corpus lingsticos. Un corpus lingstico que es representativo puede ser til en una investigacin sobre la lengua,sin embargo,el corpus que no es representativo es una mera conjuncin de textos que no nos dir mucho sobre el estado de la lengua. Una cosa importante en relacin con la representatividad es el objetivo con el que se crean los corpus, en el caso del CORDE ser servir de base documental para la redaccin del Diccionario histrico de la lengua espaola. A su vez, en este corpus se pretende recoger todas las variedades geogrficas, histricas y genricas por lo que podemos decir que se trata de un corpus lo representativo con una gran riqueza y variedad. Otra de las caractersticas importantes del corpus es el tamao final, antes de proceder a la realizacin de un corpus se ha de calcular un tamao preconcebido, no ha de ser estricto, puede sufrir modificaciones pero siempre ha de tenerse una idea de cmo pretendemos que vaya a ser nuestro corpus, esta caracterstica se puede relacionar con la representatividad asocindolo al hecho de que cuanto ms amplio sea el corpus ms representativo ser. En la mayora de los casos esto suele ser de este modo pero no se ha de olvidar que no siempre esta cualidad se cumple puesto que no todos los materiales recogidos en ciertos corpus son tiles y fiables. En lo que respecta al formato,los corpus han de ser estrictamente electrnicos, por tanto, para que un texto pueda formar parte de un corpus es necesario que este en forma electrnica. Con respecto a las anotaciones, stas pueden ser de diversos tipos, extratextuales, que tratan aspectos no lingsticos como el ttulo de la obra, el autor, el nmero de pginas, el ao,etc. Adjunto este ejemplo extrado de una bsqueda realizada en el corpus CORDE para observar como se recogen detalladamente en esta tabla estas anotaciones extratextuales de las que estamos hablando:
AO: AUTOR: TTULO: PAS: TEMA: 1962 Carpentier, Alejo El siglo de las luces CUBA 12.Relato extenso novela y otras formas similares

PUBLICACIN: Ayacucho (Caracas), 1988

Por otra parte, encontramos las anotaciones intertextuales siendo stas a diferencia de las anteriores, gramaticales, entre las cuales las ms frecuentes son las morfolgicas (las categoras lexicales) o las sintcticas (la estructura). Las palabras pueden ser tambin lematizadas,es decir, pueden ser asignadas a su lema o forma cannica,a forma base que suele corresponderse con la entrada en un diccionario.

Estas anotaciones se insertan mediante analizadores automticos. Hay tres grados en el proceso del anlisis automtico: la divisin de las palabras (tokens), lematizacin y puesta de tags a las palabras y la desambiguacin (eleccin de las clasificaciones correctas). Habiendo estudiado las caractersticas del corpus CORDE pasamos hacer una sntesis de sus contenidos, este corpus tiene casi 300 millones de palabras textuales y consta de textos que proceden de la etapa ms antigua de la lengua hasta la actualidad, el corpus CREA se va actualizando cada 5 aos y los textos viejos que se desechan de este corpus pasan al corpus CORDE. La distribucin cronolgica del CORDE abarca 3 etapas principales: la Edad Media , los Siglos de Oro y la etapa contempornea.En CORDE tambin podemos encontrar poesa de todo tipo, prosa narrativa, prosa didctica, jurdica, cientfica, etc. y textos periodsticos,por sus caractersticas del corpus histrico, aparecen solamente 3 millones de palabras de prensa, y la parte de libros representa 296 millones de palabras. Para finalizar el estudio de este corpus vamos a realizar un ejemplo prctico donde se pueda observar la utilidad de ste. Por ejemplo, procedemos a buscar los casos existentes en Espaa entre los aos 1936 al 1939 en los que aparece la palabra guerra, eligiendo sta para observar la repercusin que tuvo la guerra civil en Espaa. Observamos que aparecen 338 casos en 123 documentos, como por ejemplo: Y cuando, en otra guerra, tambin quisieron doblegar nuestra esencia, Espaa hizo frente a Napolen, a Francia, a su filosofa, a la masonera, a los espaoles afrancesados, y la guerra fue tambin un constitutivo fuerte y poderoso de nuestra Victoria:independencia. (1939) Finalmente, he realizado la bsqueda de la palabra abadengo, siendo sta una palabra utilizada en Espaa en la antigedad, por lo tanto, he limitado la bsqueda al contexto Espaol y han aparecido 315 casos en 67 documentos, analizando las estadsticas se puede deducir que se trata de una palabra que ha dejado de ser utilizada de forma gradual puesto que como podemos observar en la tabla siguiente,conforme el tiempo avanza,los se van reduciendo.
Ao 1348 1883 1356 1540 1290 1915 1202 1351 1270 % 24.35 19.68 12.43 6.21 5.69 5.69 4.66 3.62 3.10 Casos 47 38 24 12 11 11 9 7 6

Finalmente, con estos dos ejemplos se ha tratado de mostrar algunas de las muchas utilidades que podemos darle a este corpus. Andrea Antn Garca

Vous aimerez peut-être aussi