Vous êtes sur la page 1sur 39

Cabr, M. T. (2007).

Constituir un corpus de textos de especialidad: condiciones y


posibilidades. En
Ballard, M.; Pineira-Tresmontant, C. (ed.). Les corpus en linguistique et en tra
ductologie. Arras: Artois
Presses Universit. 89-106. ISBN 978-2-84832-063-2

Constituir un corpus de textos de especialidad: condiciones y posibilidades

M. Teresa Cabr
Institut Universitari de Lingstica Aplicada
Universitat Pompeu Fabra (Barcelona)

No cabe duda de que el desarrollo de corpus textuales ha permitido a


la lingstica
descriptiva dar un salto cualitativo muy importante. Este avance ha ab
ierto a los
lingistas la posibilidad de dar cuenta de forma ms adecuada del funcionamiento de
las
lenguas ya que los anlisis han podido basarse por primera vez en mues
tras
representativas y abundantes de producciones lingsticas, no limitadas ni
sesgadas
subjetivamente como suceda anteriormente. Adems de este argumento, la denominada
Lingstica de corpus permite explorar exhaustivamente las producciones lingsticas y,
con ello, ofrece al lingista muestras de datos que mediante un anlisis
manual no
llegan a la misma profundidad.
En esta ponencia nos proponemos tres objetivos. En primer lugar, expondremos alg
unas
de las caractersticas de los denominados lenguajes de especialidad, que son la fue
nte
de los textos especializados. En segundo lugar, presentaremos brevemente
el corpus
textual especializado del Instituto Universitario de Lingstica Aplicada como muest
ra
de adaptacin a las condiciones mencionadas en el primer objetivo. Y en tercer lug
ar,
mostraremos, a modo de ejemplo, un estudio sobre el contraste entre l
os textos de
especialidad y los textos no especializados a travs de sus caracterstica
s lingsticogramaticales.
1. La constitucin de un corpus de especialidad: cuestiones y criterios
Ante el propsito de constituir un corpus textual de especialidad la primera cuest
in que
se plantea es qu entendemos por texto especializado o cmo discriminamos los textos
especializados. Sin una respuesta clara a esta pregunta no podemos iniciar, obvi

amente,
la seleccin del material.
1.1 Establecidos los criterios que permiten discriminar del universo de
los textos
producidos por los especialistas en situaciones profesionales, debemos plantearn
os qu
tipo de textos de especialidad debemos tener en cuenta para que el c
orpus resulte
suficientemente equilibrado.
En tercer lugar, debemos plantearnos la cantidad de producciones que formarn part
e de
este corpus si pretendemos o bien que sea lo suficientemente represent
ativo de cada
especialidad o bien que sea suficiente para poder analizar un tema de
terminado
previamente. Cabe hacer pues en este punto una precisin previa a la constitucin de
l
corpus, y sobre todo a la decisin sobre su dimensin : para qu se constituye el corpu
s
que vamos a elaborar? Qu finalidad pretendemos que cumpla este corpus ?
A qu
estudios lingsticos queremos que d lugar?

Y tras la resolucin de estas tres cuestiones ya podemos iniciar el proceso de tr


abajo,
que, lgicamente, deber plantearse otras cuestiones ya de tipo ms tcnico:
sea de
tcnica relativa a la lingstica, sea de tcnica informtica.
Finalmente, una vez constituido el corpus en formato digital, debemos
entrar en la
programacin de sus posibilidades de exploracin, posibilidades que deben h
aberse
establecido en la etapa preliminar de caracterizacin del corpus a elaborar.
Vayamos respondiendo paso a paso cada una de estas cuestiones.
a) Qu es un texto especializado? Y cmo reconocemos entre todos los textos
aquellos que son especializados?
Los textos especializados son las producciones lingsticas, orales o escri
tas, que se
producen en escenarios de comunicacin profesional y sirven exclusivamente
a una
finalidad profesional. Se reconocen los escenarios profesionales por los
interlocutores
que actan en la situacin, por el tratamiento de una temtica relativa al
dominio o
dominios concernidos por la profesin y por la finalidad esencial de bu
scar la
informacin del receptor, aunque para ello se utilicen estrategias discursivas dis
tintas.
Analticamente los textos especializados se definen por tres tipos de condiciones:

Condiciones discursivas: las propias del escenario especializado de este tipo


de comunicacin
Condiciones cognitivas: el tema de qu tratan y la forma precisa de tratarlo
Condiciones lingsticas: las condiciones textuales generales (precisin,
concisin y sistematicidad, las dos ltimas en grados diversos segn las
condiciones discursivas), la forma textual macro y micro del texto, y
sobre
todo las unidades lxicas propias del dominio de que trata el texto.

b) Qu variables podemos considerar en un corpus textual especializado?


Los textos de especialidad no son homogneos, sino que se organizan en tipos disti
ntos
en funcin de los criterios de clasificacin que se tomen en consideracin. Los criter
ios
que en nuestra opinin son los ms relevantes para organizar los textos de especiali
dad

en un corpus son los siguientes:

El tema
La perspectiva o dimensin disciplinar
El nivel de especializacin
Las fuentes
El gnero textual
La clase de texto por la estrategia discursiva
Las lenguas
En el caso de los plurilinges (bilinges, y trilinges, etc.), por la re
lacin
entre los textos de las lenguas del corpus.
Por el tema, distinguimos entre corpus unidisciplinares y pluridisciplinares. El
tema de
un corpus puede abarcar un mbito completo o solo una perspectiva de un mbito. Un

ejemplo de este segundo caso podra ser el banco de derecho medioambien


tal
desarrollado por el grupo TERMISUL de la Universidad de Porto Alegre (Brasil).

Por el nivel de especializacin, un corpus puede incluir textos de un


solo nivel de
especialidad (por ejemplo: textos de artculos cientficos procedentes de r
evistas
homogneas) o bien
textos de distintos niveles de
especialidad1.
incluir estructuradamente

Por el canal de transferencia, los textos del corpus pueden proceder de un solo
tipo de
fuente o de fuentes diversas. La diversidad de las fuentes puede obedecer tambin
a una
amplia diversidad de criterios, el que aqu nos interesa es el criterio
del canal de
transmisin, por el cual los textos de un corpus pueden ser exclusivame
nte orales o
escritos o audiovisuales, o bien incluir muestras de todas las posibilidades.

Por el gnero textual un corpus puede ser homogneo e incluir solamente textos de un
gnero
revistas cientficas) o bien comprender
estructuradamente textos de distintos gneros textuales.
(por ejemplo, abstracts de

Por el tipo de texto segn la estrategia discursiva, los corpus pueden ser heterogn
eos u
homogneos en cuanto a la clase textual (por ejemplo, un corpus homogneo incluira
solo textos argumentativos, o narrativos).

Segn el criterio de las lenguas, los corpus pueden ser monolinges, bili
nges,
trilinges, etc. Y si comprenden textos de ms de una lengua, estos pued
en ser
coincidentes solo en la temtica o bien comprender textos en una lengua
y su
correspondiente traduccin en la segunda o tercera lengua. En este ltimo
caso se
denominan corpus paralelos.
c) Qu dimensiones debe tener un corpus especializado?

La respuesta a esta cuestin slo puede ser: depende del corpus que hayamos decidid
o
elaborar en lo que se refiere a su finalidad. Para qu va a servir un
corpus? Para
extraer datos que sean representativos del uso de una lengua en su c
onjunto? En este
caso deberemos constituir un tipo de corpus, que se ha denominado cor
pus de
referencia, que incluya una muestra representativa de la totalidad de
la lengua,
entendida en toda su variacin interna y externa. Pero si de lo que s
e trata es de
constituir un corpus para investigar sobre uno a distintos problemas, la dimensin
del
corpus debe adecuarse a la resolucin de las finalidades que se propone. Por ejemp
lo, el
corpus que hay que constituir para
analizar el uso de un pronombre
en situacin
encltica ser evidentemente menor que el que necesitamos para extraer la terminologa
de un dominio de especialidad; y este ltimo podr ser menor al necesario para extra
er
colocaciones.

1.2 El proceso de constitucin del corpus

1 La pertenencia de un texto a un nivel de especialidad alto, medio


o bajo suele basarse en las
caractersticas de los destinatarios, el medio en qu aparecen y las fina
lidades del texto. As, un texto
producido por un especialista para estudiantes ser un texto de nivel m
edio de especialidad. Para ms
informacin puede verse Cabr (1998) o Ciapuscio (2003).

La construccin efectiva una vez se han establecido sus caractersticas es


un proceso
que se distribuye en distintas fases:
a. Seleccin de fuentes
b. Criterios de seleccin de los textos y decisin sobre si tomar el te
xto
completo o fragmentos del mismo2
c. Decisiones sobre la arquitectura de la base
d. Decisiones sobre la infraestructura de hardware y software (sistema de
gestin de corpus textuales)
e. Seleccin de las convenciones para la representacin de los textos
f. Criterios, lenguaje y sistema de marcaje estructural
g. Criterios, lenguaje y sistema de marcaje lingstico
1.3 Herramientas de exploracin
Los textos de un corpus pueden procesarse en bruto o procesados lingsticamente. Si
se
opta por la segunda va, parece lgico que debemos contar con recursos y herramienta
s
de tratamiento automtico de la informacin:

Herramientas de marcaje estructural y lingstico


Diccionario inicial de procesamiento
Sistema de anlisis morfolgico
Sistema de lematizacin
Sistema de desambiguacin
Sistema de gestin de diccionarios
Sistema de estructuracin sintctica (chuncker), etc.

1.4 Posibilidades de explotacin


las posibilidades de explotacin
Finalmente,
lingstica de un corpus estn
condicionadas por el tratamiento que los datos han recibido en la fase de tratam
iento.
Las posibilidades de aplicacin de los datos de corpus suelen materializ
arse en los
mbitos siguientes:
En la ingeniera lingstica, para el desarrollo de herramientas y robots
En la extraccin de informacin para fines investigadores, docentes,
industriales, editoriales, etc.

En la recuperacin de informacin en los servicios documentales y


bibliogrficos

La utilizacin primaria que los lingistas hacemos de los corpus de espec


ialidad se
orientan fundamentalmente a:

La investigacin sobre discurso especializado, terminologa y fraseologa


especializadas
La elaboracin de diccionarios especializados
2 Esta decisin est condicionada por los estudios que desearemos hacer a
travs del corpus. Para el
anlisis textual (conectores, estructura informativa, gneros textuales, etc.) se re
quieren textos completos.

La enseanza de lenguas de especialidad o de lenguas para propsitos


especficos
Para la enseanza de lenguas de especialidad, los corpus ofrecen la pos
ibilidad de
programar ms adecuadamente los contenidos (adecuacin a necesidades y grad
o de
conocimientos de los estudiantes), de elaborar ejercicios y de alimenta
r sistemas de
autoaprendizaje de lenguas.
En el campo de la documentacin, y concretamente para la gestin de informacin, los
corpus proveen de informacin para la construccin automtica o asistida de tesauros,
para la indizacin automtica y para la elaboracin de sistemas de clasific
acin de
documentos o de refinamiento de las consultas orientadas a perfiles de necesidad
es de
usuario.

2. El corpus tcnico plurilinge del IULA


El Instituto Universitario de Lingstica Aplicada (IULA) es un centro de
la
Universidad Pompeu Fabra, de Barcelona, dedicado a la investigacin y a la formacin
de postgrado. Fue creado en 1993 y organizado desde su creacin por M Teresa Cabr.
El IULA se organiza en grupos de investigacin: Lxico, Terminologa y disc
urso
especializado (Grupo IULATERM, que acoge
la Lingstica Computacional),
Lexicografa (Grupo INFOLEX), Variacin lingstica (Grupo UVAL), Documentacin
y edicin digital (Grupo DIGIDOC) y tres laboratorios: OBNEO (Observatori
o de
Neologa), LATEL (Laboratorio de Tecnologas Lingsticas) y el Laboratorio de
Lingstica Forense. Desde 1993 hasta la actualidad, el proyecto Corpus ha
sido el
proyecto de investigacin comn en el que han participado todos los miemb
ros del
IULA. Recopila textos escritos en cinco lenguas diferentes (cataln, castellano, i
ngls,
francs y alemn) de las reas de especialidad de la economa, el derecho,
el medio
ambiente, la medicina y la informtica
El corpus comprende adems docume
ntos
paralelos, con el objetivo de facilitar estudios de traduccin
A su v
ez, el corpus
multilinge del IULA cuenta con un subcorpus de lengua general, extrado de la prens
a
de gran difusin y constituido como corpus contrastivo
El objetivo de este corpus es facilitar el anlisis de los datos lingsticos a fin de
poder
establecer las leyes que rigen el comportamiento de cada lengua en ca
da rea. Sus
destinatarios son los investigadores y todos los usuarios que requieran consulta

s sobre
los mbitos de especialidad tratados. De la explotacin del corpus se han
derivado
estudios de carcter terminolgico, discursivo, morfolgico, sintctico, neolgico
o
traductolgico. Para facilitar la explotacin de los datos, el IULA ha desarrollado
una
serie de herramientas de exploracin. Una muestra de estas herramientas
son un
extractor automtico de neologa, un detector automtico de terminologa, un alineador
de textos, un alimentador de diccionarios, etc. De hecho, este corpus
es el soporte
principal de las actividades de investigacin y docencia de nuestro instituto.
La herramienta que permite acceder a los datos del corpus a travs de
Internet es
BwanaNet, que puede encontrarse en la pgina principal de la web del IULA (<www
iula upf edu>), en el apartado denominado Portal de recursos del IULA.

(AN)
(OR)
(MA)
(PQ)
(TE)
(PS)
(CB)
(CF)
(FS)
analticos,
(TI)
(HU)
(IC)
(GN)
(GS)
Toni Valero
El corpus del IULA contiene textos escritos en cinco lenguas diferente
s (cataln,
castellano, ingls, francs y alemn) de las reas de especialidad de economa, derecho,
medio ambiente, medicina e informtica, adems de documentos paralelos sobre estas
materias. Cada una de las reas fue estructurada en diferentes subreas p
or un
especialista, a fin de que los textos pudieran recuperarse con mayor precisin temt
ica
Vase a continuacin cmo est estructurada el rea de la medicina:
Anatoma
Organismos
Enfermedades
Productos qumicos y frmacos
Tcnicas y
equipamientos
diagnsticos y teraputicos
Psiquiatra y sicologa
Ciencias biolgicas
Ciencias fsicas
Antropologa, educacin, sociologa y
fenmenos sociales
Tecnologa, industria, agricultura
Humanidades
Informacin cientfica
Grupos nominales
Planificacin y gestin sanitaria
Asesor:
El procesamiento de los textos del corpus sigue los siguientes pasos:
a) Fase de seleccin de los textos
Los especialistas en cada materia seleccionan aquellos textos que consideran per
tinentes
y los clasifican temticamente dentro de una estructuracin del dominio pr
eviamente
consensuada por especialistas de la materia.
b) Fase de anotacin y registro de la informacin del documento

Los documentos se marcan de acuerdo con el estndar SGML y siguiendo las directric
es
marcadas por el Corpus Encoding Standard (CES) de la iniciativa EAGLES
.
Posteriormente se registra la informacin documental de los textos (autor
, ttulo,
edicin, pginas seleccionadas, subdominio al cual pertenece, idiomas en qu
e ese
mismo documento se encuentra en el corpus).
c) Fase de procesamiento lingstico
El procesamiento lingstico de los documentos est automatizado y consta de
un
preproceso, a travs del cual se tratan lingsticamente aquellas entidades que admite
n
una deteccin automtica previa al anlisis morfolgico (fechas, nmeros, locuciones,
nombres propios, abreviaturas), un anlisis morfolgico, mediante el cual se lematiz
an
todas las palabras de los documentos y se les da una o ms etiquetas morfolgicas, d
e
acuerdo con los etiquetarios morfosintcticos diseados en el IULA, y una
posterior
desambiguacin lingstica y estadstica, de forma que a cada palabra le acab
e
correspondiendo un solo lema y una sola etiqueta.

d) Almacenamiento en una base de datos textual


Finalmente, cuando ya cada palabra tiene el lema y la categora gramati
cal que le
corresponde, los textos se almacenan en una base de datos textual, que contiene
toda la
informacin que se ha generado sobre el documento El resultado de todo el proceso
de
tratamiento de los textos puede consultarse actualmente en lnea en <brangaene upf
es/bwananet/index htm>.
rea
Derecho
Economa
Medio
ambiente
Informtica 655 000
Medicina
Total:
Cataln
1 463 000 2 085 000 431 000
1 776 000 1 091 000 274 000
1 506 000 1 062 000 599 000
194 000
2 619 000 4 077 000 1 555 000 27 000
8 019 000 9 542 000 3 197 000 573 000
Total
4 039 000
3 246 000
3 826 000
Alemn
16 000
27 000
429 000
Francs
44 000
78 000
230 000
83 000
198 000
753 000
2 497 000
8 476 000
22
084
000
Espaol
Ingls
1 227 000 338 000

Cuadro 1 Nmero de palabras por lengua y mbito

El corpus de medicina incluye un subcorpus de genoma humano, elaborado por el gr


upo
Iulaterm, que contiene 945 000 palabras en cataln, 1 447 000 en espaol y 1 119 000
en ingls. Los datos en relacin con el corpus paralelo de las parejas lingsticas ms
significativas cataln-espaol, cataln-ingls, espaol-ingls, se presentan en el cuadro
2.
rea
Derecho
Economa
Medio ambiente
Informtica
Medicina
Total
Cataln-espaol
460 000
600 000
214 000
28 000
118 000
420 000
Espaol-ingls
57 000
283 000
144 000
300 000
640 000
1 424 000
Cataln-ingls
12 000
250 000
213 000
40 000
515 000
Cuadro 2 Nmero de palabras en corpus paralelos por mbito y parejas de lenguas

Finalmente, los datos del corpus de contraste se muestran en el cuadro 3.


rea
General
Cataln
1 526 000
Espaol
3 230 000

Total
4 756 000

Cuadro 3 Nmero de palabras en el corpus de lengua general


La consulta del corpus del IULA se realiza va Internet a
travs de B
wanaNet, una
interfaz desarrollada en el IULA
El
Corpus Tcnico del IULA (CT-IULA
) est
indexado con un paquete de herramientas desarrolladas por el Institut fr Maschin
elle
Sprachverarbeitung, de la Universidad de Stuttgart (Corpus Workbench) El IULA
ha
desarrollado la herramienta
que permite la interrogacin del CT-IULA en
lnea
(brangaene.upf.es/bwananet/index htm).

3. Una aplicacin de la lingstica de corpus : Contrastre gramatical entre


textos especializados y textos no especializados
los
llevando acabo un proyecto de
investigacin sobre
Gracias a este corpus se han podido realizar ms de veinte tesis de doctorado3.
Adems de las tesis, el corpus ha permitido desarrollar una base de co
nocimiento
(GENOMA) que puede verse en www.iula.upof.edu/genoma.
las
Actualmente se est
caractersticas especficas de
los no
especializados. Presentamos a continuacin una breve sntesis del proyecto y algunos
de
sus resultados.
El proyecto ESPETEX, que forma parte de un proyecto ms amplio financiado por el
Ministerio de Educacin y Cultura del gobierno espaol (TEXTERM-2. Fundamentos,
estrategias y herramientas para el procesamiento y extraccin automticos d
e la
informacin especializada. N REFERENCIA: BFF2003-02111) al que contribuyen una
veintena de investigadores y colaboradores, se propone dos objetivos:
textos especializados en relacin a
Comprobar a travs de un corpus suficientemente representativo si se confirman
las caractersticas gramaticales que los manuales de lenguajes especializa
dos
atribuyen a los textos de especialidad.
En caso de que no se confirmen en parte o totalmente, intentar enco
ntrar y
establecer algunos de los factores gramaticales especficos que diferencia
n los
textos especializados.
Para llevar a cabo el proyecto hemos partido de la lista de caractersticas de los
textos
especializados expuesta en alguno de los dos manuales siguientes:
Kocourek, R. (1991). La langue franaise de la technique et de la science. Vers
une linguistique de la langue savante, Wiesbaden: Oscar Branstetter.

3 Las tesinas y tesis realizadas sobre la base de los datos del corpus son las s
iguientes: Araceli Alonso:
Descripcin y anlisis de los sufijos nominalizadores en el rea del medio ambiente. R
osanna Folguer:
Adjectius en el discurs especialitzat: una primera descripci deis adjectius en el
s textos del genoma hum.
Vanesa Vidal: Aproximacin al fenmeno de la combinatoria verbo-nominal en el discur
so especializado
en Genoma Humano. Gabriel Quiroz: Las unidades sintagmticas extensas especializad
as en ingls y en
espaol: descripcin y clasificacin en un corpus de genoma. John Jairo Giraldo: Anlisi
s y descripcin
de las siglas en el discurso especializado de Genoma humano y Medio ambiente. Ir
ia da Cunha: Hacia
un modelo lingstico de resumen automtico de artculos mdicos en espaol. Rog
lio Nazar:
Aproximacin cuantitativa al mapeo conceptual. Carles Teb: La representaci
conceptual en
terminologia: l'atribuci temtica en els bancs de dades terminolgiques. Ric
ardo Guantiva:
Terminologa y variacin vertical: clasificacin de textos en niveles de especializacin
a partir del anlisis
del tipo y la densidad de las unidades terminolgicas. Ona Domnech: Textos especia
litzats i variaci
vertical: la diversitat terminolgica com a factor discriminant del nivell d'espec
ialitzaci d'un text.

Sager, J.C.; Dungworth,D. (1980) English Special Languages. Wiesbaden,


Oscar Brandstetter Verlag.
Estos manuales se han basado en corpus de pequea talla. En el proyecto ESPETEX. S
e
ha constituido un doble corpus: un primer corpus de textos especializados y un s
egundo
corpus de textos de carcter general.
El Corpus de lengua general (prensa) consta de 5.002.121 palabras en 155 documen
tos
del Corpus de lIULA.
El corpus de especialidad se compone de 5.018.193 palabras en 251 doc
umentos del
Corpus de lIULA (Derecho, Economa, Informtica, Medio ambiente, Medicina:
1.000.000 palabras de cada dominio).
Las caractersticas gramaticales no lxicas que los manuales atribuyen a l
os textos de
especialidad se distribuyen, siguiendo a Kocourek (1982, 1991), en cuatro grupos
4:
1.
2.
3.
4.

Seleccin de las categoras gramaticales


Complejidad de la estructura
Condensacin sintctica
Impersonalidad de la frase

En lo que se refiere a la seleccin de las categoras gramaticales se s


ubrayan los
siguientes fenmenos:
Predominio de los nombres
Empleo especial de categoras gramaticales, sobre todo en relacin al verbo (y
por tanto a los pronombres personales):
Ausencia de la 2 persona singular y plural
Raramente, uso de la 1 persona singular a favor de nosotros
La ausencia de ciertas palabras o morfemas gramaticales de la
loga

morfo

verbal:

Predominio de la 3 persona del singular


Predominio del presente Indicativo
Frecuencia de la 2 persona plural del imperativo
Predominio de las frases declarativas
El uso reduce frases interrogativas directas

Respecto a la complejidad estructural, se distinguen como especficos de


los textos

especializados los siguientes rasgos gramaticales:

Escasa longitud de la frase


Abundancia de sintagmas nominales
Nominalizacin de los verbos
Frecuencia de expansiones de nombres y SN
Abundancia de frases relativas

4 Otros autores, adems de Kocourek han realizado estudios sobre el tem


a. Entre ellos destacamos los
siguientes: Phal (1968), Vigner et Martin (1976), Kocourek (1982, 1991), Loffle
r-Laurian (1980, 1982,
1983, 1985, 1986), D. Candel (1984), Hoffmann (1985) y LHomme (2005)

Construcciones de participio y de infinitivo


Diversidad de conjunciones circunstanciales
Construcciones insertadas en la frase
En cuanto a la condensacin sintctica destacan los fenmenos siguientes:
Uso abundante de la pronominalizacin
Uso de frases de infinitivo y participio
Nominalizacin de formas verbales
Y, finalmente, la impersonalidad de la frase en los textos de especialidad se pr
oyecta en
los siguientes fenmenos:
Pronombre de modestia: nosotros
Uso del impersonal uno/una como sujeto del verbo
Giros impersonales tales como es + adjetivo (probable, cierto, sorpren
dente,
etc), resulta que, conviene que, se ha dicho que, etc.
Abundancia de la voz pasiva
Adems de todas estas caractersticas gramaticales, se han subrayado en el
plano
textual:
Falta de ciertos gneros (cartas, piezas teatrales, etc.)
Abundancia de ciertos gneros: dependencia de dominio (derecho, medicina,
genmica, etc.)
Control de la estructuracin de la informacin (marcadores discursivos y metadiscursivos, tablas, listas, etc.)
Y en el plano lxico:
La abundante presencia de terminologa
La evitacin de unidades polismicas
La tendencia a usar sistemticamente la misma unidad para un concepto
evitando as el uso de sinnimos
terminar, en el plano grfico,
Y, para
representaciones icnicas o unidades lxicas hbridas: comando-c, etc.
El anlisis realizado sobre nuestro doble corpus se ha limitado a los
siguientes

fenmenos:
la presencia de smbolos, frmulas,

Clases gramaticales: N, V, Adj, Adv, Prep, Conj


Nombres propios y nombres comunes
Gnero y nmero de los nombres
Nombre precedido de determinante definido
Adjetivos calificativos
Pronombres relativos
Persona, modo y tiempo de los verbos
Formas verbales no personales
Preposiciones

Conjunciones

Dentro de los nombres y pronombres:

N + Adj
N + SP
Pronombres 1 , 2 , 3 persona singular y plural
Forma impersonal se
Pronombres relativos: que, quien(es), cuyo(s)

En el apartado de las formas verbales, se han analizado:

Tiempos: presente/pasado
Persona: 1 , 2 , 3
Nombre: singular/plural
Formes en 1 , 2 , 3 persona en activa/pasiva
Modo indicativo/subjuntivo/imperativo/condicional

Se han observado adems algunas preposiciones, conjunciones simples y com


plejas,
concretamente las siguientes :
Preposicin de
Conjunciones coordinativas: y, o, ni, pero
Conjunciones subordinadas: porque
Conjunciones subordinadas complejas: por consiguiente, puesto que, de f
orma
que, a menos que, si bien, ni siquiera, aun cuando, tanto ms cuanto, a menos
que

Algunos marcadores metadiscursivos


Lema = aludir, definir, designar, llamar, sobreentender
Lema = conocer, definir, entender + como
Lema = entender + por
Lema = querer + Lema = decir
Lema = recibir + el nombre de
es decir
esto es
o sea

Los resultados a los que hemos llegado se muestran en los siguientes cuadros:

TG
TG
TE
TE
Adj qualificat.
Adj qualificat.
381.813
381.813
430.576
430.576
N+Adj
N+Adj
N+SP
N+SP
150.386 (38,07%)
150.386 (38,07%)
225.856 (42,68%)
225.856 (42,68%)
244.635 (61,93%)
244.635 (61,93%)
303.469 (57,33%)
303.469 (57,33%)
N+participe
N+participe
--TG
TG
--TE
TE
Formes
Formes
personnelles
personnelles
Formes non

Formes non
personnelles
personnelles
497.278
497.278
454.947
454.947
187.252
187.252
169.819
169.819
TG
TG
TE
TE
prsent
prsent
287.983
287.983
312.423
312.423
pass
pass
148.318
148.318
40.079
40.079

TG
TG
TE
TE
Indicatif
Indicatif
313.992
313.992
219.648
219.648
Subjonctif
Subjonctif
9.437
9.437
8.315
8.315
Ambigues
Ambigues
Ambigues
Ambigues
Imperatif--Indicatif
Imperatif--Indicatif
Indicatif
Indicatif
Imperatif
Imperatif
Ambigues
Ambigues
Ambigues
Ambigues
Imperatif--Sbjonctif
Imperatif--Sbjonctif
Sbjonctif
Sbjonctif
Imperatif
Imperatif
Conditionnel
Conditionnel

115.917
115.917
115.917
115.917
120.258
120.258
120.258
120.258
29.614
29.614
29.614
29.614

(0,72%)
(0,72%)
(0,72%)
(0,72%)

41.202
41.202
41.202
41.202

(0,88%)
(0,88%)
(0,88%)
(0,88%)

9.378
9.378
7.612
7.612
1re
1re
2me
2me
3me
3me

personne
personne
personne
personne
personne
personne

TG
TG
36.243 (12,47%)
36.243 (12,47%)
4.525 (1,56%)
4.525 (1,56%)
249.989 (85,9 %)
249.989 (85,9 %)
TE
TE
26.190 (11,61%)
26.190 (11,61%)
3.316 (1,47%)
3.316 (1,47%)
196.049 (86,9 %)
196.049 (86,9 %)
1 singulier/pluriel
1 singulier/pluriel
23.270/12.973
23.270/12.973
12.472/13.718
12.472/13.718

2 singulier/ pluriel
2 singulier/ pluriel
4.214/311
4.214/311
3.210/106
3.210/106
Total formes sing
Total formes sing
174.904 (63,08%)
174.904 (63,08%)
102.389 (36,92%)
102.389 (36,92%)
Total formes plur.
Total formes plur.
115.853 (48,48%)
115.853 (48,48%)
123.166 (51,52%)
123.166 (51,52%)
TG
TG
3.469
3.469
TE
TE
3.562
3.562
passive
passive
active
active
1
1
2
2
3
3

sing/plur
sing/plur
sing/plur
sing/plur
sing/plur
sing/plur

16/17
16/17
0/0
0/0
1.892/1.544
1.892/1.544
0/0
0/0
1/0

1/0
1.570/1.991
1.570/1.991
Total
Total
que
que
TG
TG
120.453
120.453
TE
TE
105.222
105.222
114.204
114.204
97.391
97.391
cual, cuales
cual, cuales
1.216
1.216
quien, quienes
quien, quienes
1.103
1.103
cuyo,-a, cuyos, -as
cuyo,-a, cuyos, -as
1.743
1.743
se impersonnel
se impersonnel
69.867
69.867
3.948
3.948
387
387
2.973
2.973

97.418
97.418

Total conj
Total conj
ni
ni
o
o
pero
pero
que (completif)
que (completif)
porque
porque
TG
TG
239.895
239.895
4.496
4.496
13.240
13.240
15.574
15.574
42.116
42.116
6.028
6.028
puesto que
puesto que
de forma que
de forma que
a menos que
a menos que
si bien
si bien
aun cuando
aun cuando
tanto ms cuanto
tanto ms cuanto
a menos que
a menos que
Por consiguiente
Por consiguiente
TG

TG
272
272
99
99
33
33
212
212
17
17
11
11
33
33
21
21
Total
Total
V type llamar,
V type llamar,
denominar + (det) N
denominar + (det) N
Ventender + por
Ventender + por
querer decir
querer decir
Recibir el nombre de
Recibir el nombre de
es decir
es decir
o sea
o sea
esto es
esto es
TG
TG
3.092
3.092
2.620
2.620
27
27
168
168
5
5
500
500
85

85
180
180
TE
TE
235.434
235.434
2.087
2.087
35.690
35.690
7.412
7.412
26.305
26.305
2.092
2.092
TE
TE
863
863
334
334
209
209
587
587
173
173
96
96
209
209
400
400
TE
TE
8.067
8.067
4.858
4.858
97
97
199
199
64
64
1.552
1.552
307
307
449
449

5. A modo de conclusin
Partamos del principio de que las denominadas lenguas de especialidad forman pa
rte
del conjunto de la lengua como globalidad y en ella pueden constituir
conjuntos
nicamente virtuales. Si compartimos este principio, las lenguas de especialidad s
eran
nicamente variedades o estilos de la lengua como totalidad. Sera sobre la base de
los
textos producidos en las situaciones de comunicacin especializada que po
dramos
extraer sus caractersticas discriminantes en relacin de contraste con las producci
ones
no especializadas. Estas caractersticas comprenden tanto recursos lxicos,
como
morfolgicos, sintcticos y grficos.

De todos los fenmenos que los analistas haban considerado discriminantes,


en este
estudio emprico sobre un corpus de especialidad amplio hemos podido comprobar que
solamente algunos de estos rasgos aparecan con suficiente frecuencia en
los textos
especializados, pero otros no podan considerarse representativos por su
falta de
frecuencia. En contraste, se han podido observar otros fenmenos que no
haban
descrito las obras sobre los lenguajes de especialidad.
De entre los fenmenos no descritos podemos subrayar los siguientes:

Nombres propios menos representativos en LE


Predominio de N+Adj en LE
Pronombres de 1 persona singular y plural ms presentes en LG
Distribucin complementaria de las formas del pronombre relativo (salvo que)
Conjunciones complejas en LE
Que completivo en LG
Conjuncin o en LE
Conjuncin pero, porque, ni en LG
Marcadores metadiscursivos en LE, etc.

Y en cambio los datos han confirmado que los siguientes rasgos aparec
en como
significativos de los textos de especialidad:
Predominio de nombres (respecto a otras categoras; no ms que en LG)
Empleo especial de categoras gramaticales, sobre todo en relacin al ver
bo (y por
tanto a los pronombres personales):

Ausencia de la 2 persona del singular y del plural


Raramente, uso de la 1 persona singular a favor de nosotros
Uso considerable de la 3 persona del singular, reforzada con el sujeto impersonal

Predominio del presente de indicativo (respecto al tiempo pasado)


Expansin adjetival de los nombres
Nominalizacin de formas verbales
Predominio de la voz pasiva
Nosotros
Uno

Con estos resultados pensamos poder contribuir a la caracterizacin gramatical de


los
textos especializados y facilitar as su tratamiento automtico.
4. Bibliografa
Beaugrande, R. de; Dressler, W. (1997) Introduccin a la lingstica del te
xto.

Barcelona, Ariel

Cabr, M.T. (1998) VariacI pel tema. El discurs especialitzat o la variaci funcional
determinada per la temtica: noves perspectives. En: Caplletra, Revista Internacio
nal de
Filologa, Tardor, 1998, pp. 137-194.
Cajolet-Laganire, H. and N. Maillet (1995). Caractrisation des textes te
chniques
qubcois , Prsence francophone 47, pp. 113-147.
Ciapuscio, G. (2003). Textos especializados y terminologa. Barcelona: IULA.
Coulon, R. (1972). French as it is written by French sociologists ,
Bulletin
pdagogique des IUT18, pp. 11-25.
Harris, Z. (1952) Discourse Anlisis. En: Language, 28, 1-30, pp. 474-494.
Hoffmann, L. (1976). Kommunikationsmittel Fachsprache Eine Einfhrung, Ber
lin:
Sammlung Akademie Verlag.
Kocourek, R. (1991). La langue franaise de la technique et de la scie
nce. Vers une
linguistique de la langue savante, Wiesbaden: Oscar Branstetter.
LHomme, M.C. (1993). Contribution lanalyse grammaticale de la langue de
spcialit : le mode, le temps et la personne du verbe dans quelques textes,scientif
iques
crits vocation pdagogique. Qubec: Universit Laval.
LHomme, M.C. (1995). Formes verbales de temps et texte scientifique , Le langage
et lhomme, 31(2-3), pp. 107-123.
Lauffler-Laurian, A.M. (1983) Typologie des discours scientifiques : deux
approches.
En : tudes de Linguistique Applique, 51
Lauffler-Laurian, A.M. (1984) Vulgarisation scientifique: formulation, ref
ormulation,
traduction. Langue Franaise, 64, pp. 109-125
Opitz, K. (1980).Language for Special Purposes. An
Fachsprache 2(2), pp. 21-27.
Sager, J.C.; Dungworth,D. (1980) English Special Languages. Wiesbaden, O
scar
Brandstetter Verlag.

intractable presence,

Vous aimerez peut-être aussi