Académique Documents
Professionnel Documents
Culture Documents
sus hiptesis sobre la descripcin del lenguaje que ha realizado y aporte datos sobre el comportamiento general de una lengua. El lingstica compila una gran cantidad de elementos lingsticos , elabora un corpus.
Pero
Corrientes generativistas (N. Chomsky) parten de la idea de que el nmero de enunciados de una lengua es infinito. Por lo
tanto, no puede haber ningn repertorio finito de datos que expliquen suficientemente los mecanismos de produccin lingstica. Esta orientacin supuso una crtica a la utilizacin de corpus como base para la descripcin de la lengua.
.:Lingstica computacional:. Heiner Mercado Percia 2008
Resurgimiento
Ahora bien, teniendo en cuenta esta crtica la
lingstica aplicada ha hecho ver que el objeto de un corpus no es dar una visin total de una lengua, sino ofrecer una muestra representativa que permita al lingista fundamentar una investigacin en datos objetivos. As pues, un corpus no puede identificarse con la lengua, sino que es un conjunto de datos que la representa de una manera ms o menos fiable.
.:Lingstica computacional:. Heiner Mercado Percia 2008
Lingstica de corpus
La lingstica de corpus recupera el mtodo emprico potenciado por los adelantos en la informtica que le permiten recopilar gran cantidad de textos y facilitar su explotacin. La lingstica de corpus trata la concepcin, tratamiento preliminar y anlisis de corpus, y plantea, por ejemplo, qu preguntas lingsticas se pueden responder por medio del uso de un amplio nmero de textos.
.:Lingstica computacional:. Heiner Mercado Percia 2008
Pero, qu es un corpus?
Para un especialista en morfologa: es un conjunto de palabras derivadas de una lengua. Para un especialista en sintaxis: es un conjunto de variado de frases de una lengua.
Para un especialista en PLN: es un recurso
lingstico que permite construir herramientas para el tratamiento del lenguaje natural.
.:Lingstica computacional:. Heiner Mercado Percia 2008
Qu es un corpus?
Para John Sinclair un corpus es una coleccin de
elementos lingsticos de acuerdo con criterios lingsticos explcitos con la finalidad de ser usado como muestra de la lengua. Tambin lo podemos definir como una coleccin de textos, reunidos segn unos criterios precisos, eventualmente estructurados y enriquecidos con informacin adicional, en vista de una explotacin terica o prctica.
.:Lingstica computacional:. Heiner Mercado Percia 2008
Qu es un corpus?
Desde el punto de vista prctico, un corpus rsulta
de un agrupamiento razonado, dirigido por una hiptesis de investigacin explcita. Se dice que un corpus es informatizado cuando se ha codificado de una manera estndar y homognea de tal manera que puede ser tratados mediante procesos informticos. Un C.I. est destinado a reflejar el comportamiento de una lengua.
.:Lingstica computacional:. Heiner Mercado Percia 2008
Tipos de corpus
La palara corpus es un poco ambigua y actualmente se utiliza en un sentido general para referirse a cualquier tipo de compilacin de textos. Pero en realidad, hay que distinguir estas colecciones segn el grado especificacin en los criterios de seleccin.
10
Tipos de corpus
Podemos hablar de tres tipos de recopilaciones de textos: Archivo informatizado (Archive/Collection) :
repertorio de textos en soporte informtico sin buscar ningn tipo de relacin entre ellos.
Biblioteca de textos electrnicos (Electronic text Library): coleccin de textos en formato digital,
guardados en un formato estndar, siguiendo ciertas normas de contenido, pero sin criterio riguroso de seleccin.
11
Tipos de corpus
Los corpus pueden ser clasificados de diferentes maneras en funcin de los parmetros que se quieran utilizar. Veamos.
.:Lingstica computacional:. Heiner Mercado Percia 2008
12
Clasificacin de corpus
Segn: A. Porcentaje de distribucin de los diferentes tipos de textos que lo componen. B. Especificidad de los textos . C. Cantidad de textos que recogen. D. Tipo de codificacin y anotaciones aadidas al texto. E. Contenido.
.:Lingstica computacional:. Heiner Mercado Percia 2008
13
Clasificacin de corpus:
2. Equilibrado
3. Piramidal 4. Monitor 5. Paralelo 6. Comparables
7. Multilinges
8. Oportunista
.:Lingstica computacional:. Heiner Mercado Percia 2008
14
Clasificacin de corpus:
15
Clasificacin de corpus:
16
Clasificacin de corpus:
E. Contenido
1. Corpus orales: constituidos por seales de voz y sus transcripciones de anotacin fontica. 2. Corpus de texto: constituidos por lengua escrita o por lengua oral transcrita.
3. Corpus multimodales: constituidos por
datos orales como prosodia, gestos, movimientos de la boca, grabaciones sonoras y flmicas.
.:Lingstica computacional:. Heiner Mercado Percia 2008
17
18
Establecer el tipo oral o escrito Tipos de registros: literatura, prensa, etc. Parmetros demogrficos: edad, sexo, grupo, etc. poca Medios de comunicacin: libros, peridicos, correos electrnicos, etc. Niveles lingsticos: coloquial, formal, lengua infantil, publicitaria, etc. Tipos de textos: novelas, poemas, reportajes, columnas, encuestas, etc.
.:Lingstica computacional:. Heiner Mercado Percia 2008
19
Representatividad
A partir de qu tamao es un corpus representativo?
Hasta qu punto podemos decir que un
corpus es ms representativo que otro? Cules son los criterios que determinan la representatividad?
20
Representatividad
Para este problema la nico que podemos decir es que debe haber una relacin entre el diseo y la finalidad prevista como objetivo
fundamental de su explotacin. La representatividad es un concepto vinculado con lo que se quiere presentar y slo en la prctica se puede juzgar si tal objetivo fue afortunado o no.
21
Representatividad
Debemos responder a la pregunta qu resultados espero obtener?
Un ejemplo:
Si deseo construir un diccionario de una lengua es
22
pueden ser compilados fcilmente. Escner: se pueden digitalizar los libros o revistas aplicndose el reconocimiento ptico de caracteres (OCR) Los programas de OCR no son perfectos, por tal motivo deben ser corregidos para minimizar los errores de reconocimiento.
23
hacen grabaciones directamente de los medios de comunicacin o se entrevistan a personas. Compra: Es una posibilidad cmo, pero que puede ser costosa. Se pueden comprar archivos en los peridicos o en las emisoras.
24
Proceso de obtencin
Texto 1
Digitalizacin Edicin y Procesamiento
Utilizacin de un software.
Digitalizacin
Salida
Texto 2 (Resultado)
XML HTML DOC TXT RTF PDF
Micrfono
25
Procesamiento de corpus
Anotacin de corpus:
Con la ayuda de <tags> o etiquetas se puede enriquecer el corpus con informaciones Estructurales (ttulos, subttulos, referencias, etc.) bibliogrficas (autor, ao, tema, gnero, etc.), Morfolgicas (lematizacin) sintcticas semnticas o lxicas (extranjerismos, siglas, nombres propios, etc.).
.:Lingstica computacional:. Heiner Mercado Percia 2008
26
Procesamiento de corpus
Se deben tener en cuenta estndares de codificacin como TEI. Las normas TEI proporcionan un medio para hacer explcitos ciertos rasgos de un texto de tal modo que faciliten el procesamiento de dicho texto por programas informticos ejecutados desde diferentes mquinas.
Las Normas TEI usan el SGML para definir su esquema de
codificacin. SGML posibilita una definicin formal de un esquema de codificacin, en funcin de elementos y atributos, y reglas que controlan su aparicin en un texto. Ej.:
<etiqueta1> <etiqueta2 atributo1="hola" atributo2="mundo"> </etiqueta2> </etiqueta1>
.:Lingstica computacional:. Heiner Mercado Percia 2008
27
como:
SGML o Standard Generalized Markup Language
(Lenguaje de Marcacin Generalizado). HTML o HyperText Markup Language (Lenguaje de Etiquetas de Hipertexto) XML o Extensible Markup Language (Lenguaje de marcas extensible).
.:Lingstica computacional:. Heiner Mercado Percia 2008
28
29
[article pii=nd doctopic=oa language=es ccode=br1.1 status=1 version=3.1 type=tab order=04 seccode=RESP020 sponsor=nd stitle="Rev. Esp. Salud Publica" volid=74 issueno=4 dateiso=20000800 fpage=351 lpage=359 issn=1135-5727] [front] [titlegrp] [title language=es]Utilizacin de anfotericina B no convencional en el Hospital Clnico de San Carlos[/title] [/titlegrp] [author role=nd rid="a01"][fname]Emilio[/fname] [surname]Vargas Castrilln[/surname][/author]
[bibcom]
[abstract language=es] La anfotericina B es el tratamiento de eleccin de las infecciones fngicas sistmicas, pero su utilidad clnica est limitada por su toxicidad. Las formulaciones lipdicas parecen igualmente eficaces y ms seguras, pero tienen un mayor coste. [/abstract]
30
[body]INTRODUCCION
Las infecciones fngicas sistmicas graves son causa de importante morbilidad y mortalidad entre los pacientes inmunodeprimidos (tratados con quimioterapia intensiva, inmunosupresores, enfermos de sida...) y entre los atendidos en unidades de cuidados intensivos. [/body] [back]
31
Procesamiento de un corpus
Tokenizador: es un programa que sirve para segmentar un texto en tokens. Por Token se entiende una cadena de caracteres
delimitadas por espacios o signos de puntuacin. Tagger o etiquetador: es un programa que le asigna a cada token una etiqueta con informacin especfica.
32
Formatos
Formatos de documentos textuales ms populares :
Formato Rich Text Format Postscript Portable Doc. Format PDF MS Word OpenOffice Writer LaTEX Text brut Ext. RTF PS Adobe DOC SXW TEX TXT Proprietario Public Adobe Microsoft Public Public Public
33
Explotacin de un corpus
Para poder aprovechar la informacin de un
palabras Hacer ndices y concordancias Hacer lematizaciones Analizar morfolgica y sintcticamente el texto Desambiguar palabras Detectar unidades recurrentes (colocaciones)
.:Lingstica computacional:. Heiner Mercado Percia 2008
34
Frecuencia relativa:
A = 0,0001 y B = 1
La frecuencia indica la importancia de una palabra en A aparece 1 vez cada milln deconjunto del vocabulario de el palabras una lengua. B aparece 1 vez cada cien palabras
35
ndices de concordancias
Contextos KWIC y KWOC
36
Corpus disponibles
CREA
CORDE CUMBRE ARTHUS UAM-Treebank Chile MC-NLCH FRANTEXT
.:Lingstica computacional:. Heiner Mercado Percia 2008
37
Dialectologa / Sociolingstica Lingstica histrica Psicolingstica Lexicografa Sintaxis Semntica Fonologa Lingstica Computacional Estilometra Morfologa Enseanza de idiomas Pragmtica
.:Lingstica computacional:. Heiner Mercado Percia 2008
38
etc.)
Estructura lingstica (narrativa, descriptiva, argumentativa, etc.)
.:Lingstica computacional:. Heiner Mercado Percia 2008
39
Adems
Debe contener informacin relacionada con:
Fecha de publicacin de los textos Fuente Fecha de elaboracin de la compilacin Cobertura cronolgica Medio de publicacin Nmero de palabras o formas grficas y
40
Objetivo
Anlisis del discurso
Interpretacin o lectura transversal Investigacin lingstica Estudio lexicogrfico (neologismos)
41