Académique Documents
Professionnel Documents
Culture Documents
M. Teresa Cabr
Institut Universitari de Lingstica Aplicada
Universitat Pompeu Fabra (Barcelona)
amente,
la seleccin del material.
1.1 Establecidos los criterios que permiten discriminar del universo de
los textos
producidos por los especialistas en situaciones profesionales, debemos plantearn
os qu
tipo de textos de especialidad debemos tener en cuenta para que el c
orpus resulte
suficientemente equilibrado.
En tercer lugar, debemos plantearnos la cantidad de producciones que formarn part
e de
este corpus si pretendemos o bien que sea lo suficientemente represent
ativo de cada
especialidad o bien que sea suficiente para poder analizar un tema de
terminado
previamente. Cabe hacer pues en este punto una precisin previa a la constitucin de
l
corpus, y sobre todo a la decisin sobre su dimensin : para qu se constituye el corpu
s
que vamos a elaborar? Qu finalidad pretendemos que cumpla este corpus ?
A qu
estudios lingsticos queremos que d lugar?
El tema
La perspectiva o dimensin disciplinar
El nivel de especializacin
Las fuentes
El gnero textual
La clase de texto por la estrategia discursiva
Las lenguas
En el caso de los plurilinges (bilinges, y trilinges, etc.), por la re
lacin
entre los textos de las lenguas del corpus.
Por el tema, distinguimos entre corpus unidisciplinares y pluridisciplinares. El
tema de
un corpus puede abarcar un mbito completo o solo una perspectiva de un mbito. Un
Por el canal de transferencia, los textos del corpus pueden proceder de un solo
tipo de
fuente o de fuentes diversas. La diversidad de las fuentes puede obedecer tambin
a una
amplia diversidad de criterios, el que aqu nos interesa es el criterio
del canal de
transmisin, por el cual los textos de un corpus pueden ser exclusivame
nte orales o
escritos o audiovisuales, o bien incluir muestras de todas las posibilidades.
Por el gnero textual un corpus puede ser homogneo e incluir solamente textos de un
gnero
revistas cientficas) o bien comprender
estructuradamente textos de distintos gneros textuales.
(por ejemplo, abstracts de
Por el tipo de texto segn la estrategia discursiva, los corpus pueden ser heterogn
eos u
homogneos en cuanto a la clase textual (por ejemplo, un corpus homogneo incluira
solo textos argumentativos, o narrativos).
Segn el criterio de las lenguas, los corpus pueden ser monolinges, bili
nges,
trilinges, etc. Y si comprenden textos de ms de una lengua, estos pued
en ser
coincidentes solo en la temtica o bien comprender textos en una lengua
y su
correspondiente traduccin en la segunda o tercera lengua. En este ltimo
caso se
denominan corpus paralelos.
c) Qu dimensiones debe tener un corpus especializado?
La respuesta a esta cuestin slo puede ser: depende del corpus que hayamos decidid
o
elaborar en lo que se refiere a su finalidad. Para qu va a servir un
corpus? Para
extraer datos que sean representativos del uso de una lengua en su c
onjunto? En este
caso deberemos constituir un tipo de corpus, que se ha denominado cor
pus de
referencia, que incluya una muestra representativa de la totalidad de
la lengua,
entendida en toda su variacin interna y externa. Pero si de lo que s
e trata es de
constituir un corpus para investigar sobre uno a distintos problemas, la dimensin
del
corpus debe adecuarse a la resolucin de las finalidades que se propone. Por ejemp
lo, el
corpus que hay que constituir para
analizar el uso de un pronombre
en situacin
encltica ser evidentemente menor que el que necesitamos para extraer la terminologa
de un dominio de especialidad; y este ltimo podr ser menor al necesario para extra
er
colocaciones.
s sobre
los mbitos de especialidad tratados. De la explotacin del corpus se han
derivado
estudios de carcter terminolgico, discursivo, morfolgico, sintctico, neolgico
o
traductolgico. Para facilitar la explotacin de los datos, el IULA ha desarrollado
una
serie de herramientas de exploracin. Una muestra de estas herramientas
son un
extractor automtico de neologa, un detector automtico de terminologa, un alineador
de textos, un alimentador de diccionarios, etc. De hecho, este corpus
es el soporte
principal de las actividades de investigacin y docencia de nuestro instituto.
La herramienta que permite acceder a los datos del corpus a travs de
Internet es
BwanaNet, que puede encontrarse en la pgina principal de la web del IULA (<www
iula upf edu>), en el apartado denominado Portal de recursos del IULA.
(AN)
(OR)
(MA)
(PQ)
(TE)
(PS)
(CB)
(CF)
(FS)
analticos,
(TI)
(HU)
(IC)
(GN)
(GS)
Toni Valero
El corpus del IULA contiene textos escritos en cinco lenguas diferente
s (cataln,
castellano, ingls, francs y alemn) de las reas de especialidad de economa, derecho,
medio ambiente, medicina e informtica, adems de documentos paralelos sobre estas
materias. Cada una de las reas fue estructurada en diferentes subreas p
or un
especialista, a fin de que los textos pudieran recuperarse con mayor precisin temt
ica
Vase a continuacin cmo est estructurada el rea de la medicina:
Anatoma
Organismos
Enfermedades
Productos qumicos y frmacos
Tcnicas y
equipamientos
diagnsticos y teraputicos
Psiquiatra y sicologa
Ciencias biolgicas
Ciencias fsicas
Antropologa, educacin, sociologa y
fenmenos sociales
Tecnologa, industria, agricultura
Humanidades
Informacin cientfica
Grupos nominales
Planificacin y gestin sanitaria
Asesor:
El procesamiento de los textos del corpus sigue los siguientes pasos:
a) Fase de seleccin de los textos
Los especialistas en cada materia seleccionan aquellos textos que consideran per
tinentes
y los clasifican temticamente dentro de una estructuracin del dominio pr
eviamente
consensuada por especialistas de la materia.
b) Fase de anotacin y registro de la informacin del documento
Los documentos se marcan de acuerdo con el estndar SGML y siguiendo las directric
es
marcadas por el Corpus Encoding Standard (CES) de la iniciativa EAGLES
.
Posteriormente se registra la informacin documental de los textos (autor
, ttulo,
edicin, pginas seleccionadas, subdominio al cual pertenece, idiomas en qu
e ese
mismo documento se encuentra en el corpus).
c) Fase de procesamiento lingstico
El procesamiento lingstico de los documentos est automatizado y consta de
un
preproceso, a travs del cual se tratan lingsticamente aquellas entidades que admite
n
una deteccin automtica previa al anlisis morfolgico (fechas, nmeros, locuciones,
nombres propios, abreviaturas), un anlisis morfolgico, mediante el cual se lematiz
an
todas las palabras de los documentos y se les da una o ms etiquetas morfolgicas, d
e
acuerdo con los etiquetarios morfosintcticos diseados en el IULA, y una
posterior
desambiguacin lingstica y estadstica, de forma que a cada palabra le acab
e
correspondiendo un solo lema y una sola etiqueta.
Total
4 756 000
3 Las tesinas y tesis realizadas sobre la base de los datos del corpus son las s
iguientes: Araceli Alonso:
Descripcin y anlisis de los sufijos nominalizadores en el rea del medio ambiente. R
osanna Folguer:
Adjectius en el discurs especialitzat: una primera descripci deis adjectius en el
s textos del genoma hum.
Vanesa Vidal: Aproximacin al fenmeno de la combinatoria verbo-nominal en el discur
so especializado
en Genoma Humano. Gabriel Quiroz: Las unidades sintagmticas extensas especializad
as en ingls y en
espaol: descripcin y clasificacin en un corpus de genoma. John Jairo Giraldo: Anlisi
s y descripcin
de las siglas en el discurso especializado de Genoma humano y Medio ambiente. Ir
ia da Cunha: Hacia
un modelo lingstico de resumen automtico de artculos mdicos en espaol. Rog
lio Nazar:
Aproximacin cuantitativa al mapeo conceptual. Carles Teb: La representaci
conceptual en
terminologia: l'atribuci temtica en els bancs de dades terminolgiques. Ric
ardo Guantiva:
Terminologa y variacin vertical: clasificacin de textos en niveles de especializacin
a partir del anlisis
del tipo y la densidad de las unidades terminolgicas. Ona Domnech: Textos especia
litzats i variaci
vertical: la diversitat terminolgica com a factor discriminant del nivell d'espec
ialitzaci d'un text.
morfo
verbal:
fenmenos:
la presencia de smbolos, frmulas,
Conjunciones
N + Adj
N + SP
Pronombres 1 , 2 , 3 persona singular y plural
Forma impersonal se
Pronombres relativos: que, quien(es), cuyo(s)
Tiempos: presente/pasado
Persona: 1 , 2 , 3
Nombre: singular/plural
Formes en 1 , 2 , 3 persona en activa/pasiva
Modo indicativo/subjuntivo/imperativo/condicional
Los resultados a los que hemos llegado se muestran en los siguientes cuadros:
TG
TG
TE
TE
Adj qualificat.
Adj qualificat.
381.813
381.813
430.576
430.576
N+Adj
N+Adj
N+SP
N+SP
150.386 (38,07%)
150.386 (38,07%)
225.856 (42,68%)
225.856 (42,68%)
244.635 (61,93%)
244.635 (61,93%)
303.469 (57,33%)
303.469 (57,33%)
N+participe
N+participe
--TG
TG
--TE
TE
Formes
Formes
personnelles
personnelles
Formes non
Formes non
personnelles
personnelles
497.278
497.278
454.947
454.947
187.252
187.252
169.819
169.819
TG
TG
TE
TE
prsent
prsent
287.983
287.983
312.423
312.423
pass
pass
148.318
148.318
40.079
40.079
TG
TG
TE
TE
Indicatif
Indicatif
313.992
313.992
219.648
219.648
Subjonctif
Subjonctif
9.437
9.437
8.315
8.315
Ambigues
Ambigues
Ambigues
Ambigues
Imperatif--Indicatif
Imperatif--Indicatif
Indicatif
Indicatif
Imperatif
Imperatif
Ambigues
Ambigues
Ambigues
Ambigues
Imperatif--Sbjonctif
Imperatif--Sbjonctif
Sbjonctif
Sbjonctif
Imperatif
Imperatif
Conditionnel
Conditionnel
115.917
115.917
115.917
115.917
120.258
120.258
120.258
120.258
29.614
29.614
29.614
29.614
(0,72%)
(0,72%)
(0,72%)
(0,72%)
41.202
41.202
41.202
41.202
(0,88%)
(0,88%)
(0,88%)
(0,88%)
9.378
9.378
7.612
7.612
1re
1re
2me
2me
3me
3me
personne
personne
personne
personne
personne
personne
TG
TG
36.243 (12,47%)
36.243 (12,47%)
4.525 (1,56%)
4.525 (1,56%)
249.989 (85,9 %)
249.989 (85,9 %)
TE
TE
26.190 (11,61%)
26.190 (11,61%)
3.316 (1,47%)
3.316 (1,47%)
196.049 (86,9 %)
196.049 (86,9 %)
1 singulier/pluriel
1 singulier/pluriel
23.270/12.973
23.270/12.973
12.472/13.718
12.472/13.718
2 singulier/ pluriel
2 singulier/ pluriel
4.214/311
4.214/311
3.210/106
3.210/106
Total formes sing
Total formes sing
174.904 (63,08%)
174.904 (63,08%)
102.389 (36,92%)
102.389 (36,92%)
Total formes plur.
Total formes plur.
115.853 (48,48%)
115.853 (48,48%)
123.166 (51,52%)
123.166 (51,52%)
TG
TG
3.469
3.469
TE
TE
3.562
3.562
passive
passive
active
active
1
1
2
2
3
3
sing/plur
sing/plur
sing/plur
sing/plur
sing/plur
sing/plur
16/17
16/17
0/0
0/0
1.892/1.544
1.892/1.544
0/0
0/0
1/0
1/0
1.570/1.991
1.570/1.991
Total
Total
que
que
TG
TG
120.453
120.453
TE
TE
105.222
105.222
114.204
114.204
97.391
97.391
cual, cuales
cual, cuales
1.216
1.216
quien, quienes
quien, quienes
1.103
1.103
cuyo,-a, cuyos, -as
cuyo,-a, cuyos, -as
1.743
1.743
se impersonnel
se impersonnel
69.867
69.867
3.948
3.948
387
387
2.973
2.973
97.418
97.418
Total conj
Total conj
ni
ni
o
o
pero
pero
que (completif)
que (completif)
porque
porque
TG
TG
239.895
239.895
4.496
4.496
13.240
13.240
15.574
15.574
42.116
42.116
6.028
6.028
puesto que
puesto que
de forma que
de forma que
a menos que
a menos que
si bien
si bien
aun cuando
aun cuando
tanto ms cuanto
tanto ms cuanto
a menos que
a menos que
Por consiguiente
Por consiguiente
TG
TG
272
272
99
99
33
33
212
212
17
17
11
11
33
33
21
21
Total
Total
V type llamar,
V type llamar,
denominar + (det) N
denominar + (det) N
Ventender + por
Ventender + por
querer decir
querer decir
Recibir el nombre de
Recibir el nombre de
es decir
es decir
o sea
o sea
esto es
esto es
TG
TG
3.092
3.092
2.620
2.620
27
27
168
168
5
5
500
500
85
85
180
180
TE
TE
235.434
235.434
2.087
2.087
35.690
35.690
7.412
7.412
26.305
26.305
2.092
2.092
TE
TE
863
863
334
334
209
209
587
587
173
173
96
96
209
209
400
400
TE
TE
8.067
8.067
4.858
4.858
97
97
199
199
64
64
1.552
1.552
307
307
449
449
5. A modo de conclusin
Partamos del principio de que las denominadas lenguas de especialidad forman pa
rte
del conjunto de la lengua como globalidad y en ella pueden constituir
conjuntos
nicamente virtuales. Si compartimos este principio, las lenguas de especialidad s
eran
nicamente variedades o estilos de la lengua como totalidad. Sera sobre la base de
los
textos producidos en las situaciones de comunicacin especializada que po
dramos
extraer sus caractersticas discriminantes en relacin de contraste con las producci
ones
no especializadas. Estas caractersticas comprenden tanto recursos lxicos,
como
morfolgicos, sintcticos y grficos.
Y en cambio los datos han confirmado que los siguientes rasgos aparec
en como
significativos de los textos de especialidad:
Predominio de nombres (respecto a otras categoras; no ms que en LG)
Empleo especial de categoras gramaticales, sobre todo en relacin al ver
bo (y por
tanto a los pronombres personales):
Barcelona, Ariel
Cabr, M.T. (1998) VariacI pel tema. El discurs especialitzat o la variaci funcional
determinada per la temtica: noves perspectives. En: Caplletra, Revista Internacio
nal de
Filologa, Tardor, 1998, pp. 137-194.
Cajolet-Laganire, H. and N. Maillet (1995). Caractrisation des textes te
chniques
qubcois , Prsence francophone 47, pp. 113-147.
Ciapuscio, G. (2003). Textos especializados y terminologa. Barcelona: IULA.
Coulon, R. (1972). French as it is written by French sociologists ,
Bulletin
pdagogique des IUT18, pp. 11-25.
Harris, Z. (1952) Discourse Anlisis. En: Language, 28, 1-30, pp. 474-494.
Hoffmann, L. (1976). Kommunikationsmittel Fachsprache Eine Einfhrung, Ber
lin:
Sammlung Akademie Verlag.
Kocourek, R. (1991). La langue franaise de la technique et de la scie
nce. Vers une
linguistique de la langue savante, Wiesbaden: Oscar Branstetter.
LHomme, M.C. (1993). Contribution lanalyse grammaticale de la langue de
spcialit : le mode, le temps et la personne du verbe dans quelques textes,scientif
iques
crits vocation pdagogique. Qubec: Universit Laval.
LHomme, M.C. (1995). Formes verbales de temps et texte scientifique , Le langage
et lhomme, 31(2-3), pp. 107-123.
Lauffler-Laurian, A.M. (1983) Typologie des discours scientifiques : deux
approches.
En : tudes de Linguistique Applique, 51
Lauffler-Laurian, A.M. (1984) Vulgarisation scientifique: formulation, ref
ormulation,
traduction. Langue Franaise, 64, pp. 109-125
Opitz, K. (1980).Language for Special Purposes. An
Fachsprache 2(2), pp. 21-27.
Sager, J.C.; Dungworth,D. (1980) English Special Languages. Wiesbaden, O
scar
Brandstetter Verlag.
intractable presence,