Académique Documents
Professionnel Documents
Culture Documents
Inhaltsverzeichnis
1 Einleitung
1.1 Problemstellung
1.1.1 Probleme der Lexikonstrukturierung
1.1.2 Rahmenbedingungen
1.1.3 Vorgehensweise
1.1.4 Struktur dieses Buchs
1.2 Einige Grundbegrie
1.2.1 Elektronische Worterbucher
1.2.2 Probleme der kontrastiven lexikalischen Beschreibung
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : :
: : : : : : : :
2 Lexikographische Aspekte
1
3
4
5
6
7
7
14
19
: : : : : : : : : : : : : : : : : : : : : : : :
: :
: : : : : : : : : :
: : : : : : : : : : : : : : : : :
:
: : :
: : : : : : : : : : :
: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : :
3 Constraint-basierte Worterbucher
: : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : :
19
19
27
42
42
44
53
65
68
71
71
72
: : : : : : : : : : : : : : : : : : : : :
73
: : : : : : : :
82
: : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : :
: : : : : : : : : : : : : : :
: : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : :
4 Einsprachige Worterbucher
84
89
89
90
92
94
95
98
99
: : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : :
: : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : :
99
101
102
106
108
115
116
: : : : : : : : : : : : : : : : : : : : : : : :
119
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
122
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : :
: : : : : : : : : :
5 Abfrage
123
124
128
128
129
130
132
135
135
137
139
145
: : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : :
:
: : : : : : : : :
: : : : : : : : : : : : : : : : :
: : : :
: : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : :
6 Kontrastive Worterbucher
: : : : : : : : : : : : : : : : : :
: : : : : :
: : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : :
: : : : : :
179
180
180
183
186
194
197
197
201
: : : : : : : : : : : : : : : : : : : : : : : :
: :
: : : : : : :
: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : :
: : :
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : :
:
: : : : : : : : : : : : : : : : : : : : :
7 Zusammenfassungen
214
214
215
218
222
222
223
225
227
233
: : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
Literatur
206
209
212
:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
233
237
242
247
Vorwort
Kapitel 1
Einleitung
1.1 Problemstellung
Die Bedeutung von lexikalischen Beschreibungen fur sprachverarbeitende Systeme steht
auer Frage. Worterbucher1 sind eine der zentralen linguistischen Wissensquellen dieser Systeme, und Fragen der praktischen Realisierung von elektronischen Worterbuchern
sind in den letzten Jahren zunehmend ins Zentrum des Interesses geruckt. Hierzu gehoren
die Diskussion um Moglichkeiten der Wiederverwertung von bestehenden Worterbuchern,
Forschungen zur lexikalischen Akquisition, zum Beispiel auf der Grundlage von Textcorpora, sowie U berlegungen zur parallelen Nutzbarmachung von lexikalischen Beschreiungen
aus der lexikographischen Arbeit fur manuelle und maschinelle Konsultation.
Obwohl das Interesse an Worterbuchern in der maschinellen Sprachverarbeitung in
der Zeit seit ca. 1985 stark zugenommen hat, gibt es nach wie vor relativ wenig Forschungsarbeiten, die sich mit der Strukturierung von Worterbuchern befassen, mit Fragen der Organisation und Reprasentation lexikalischer Informationen, sozusagen der \Systemarchitektur" von Worterbuchern. Solche Fragestellungen werden jedoch dann relevant, wenn es um die Realisierung konkreter sprachverarbeitender Systeme geht, um ihre
Wartung, Erweiterung, Anpassung an neue Anwendungs- und Gegenstandsbereiche. Ein
Forschungsgebiet, wo sich dieses Dezit besonders bemerkbar macht, ist die maschinelle
U bersetzung. Dabei ist die maschinelle U bersetzung gleichzeitig eine derjenigen Anwendungen von Sprachverarbeitungskomponenten, die die komplexesten Anforderungen an
die lexikalische Beschreibung und Reprasentation stellen.
Viele Autoren, die uber maschinelle U bersetzungssysteme schreiben, gehen nicht oder
nicht sehr ausfuhrlich auf die lexikalischen Ressourcen ein, die den betreenden Systemen
zugrundeliegen. Wenn die Worterbucher diskutiert werden, dann in der Regel im Zusammenhang mit der Systemarchitektur, als Komponenten der Wissensquellen, auf welche das
System bei der U bersetzung in irgendeiner Weise zuruckgreift. Details uber den Aufbau
und Organisation der Worterbucher werden jedoch oftmals nicht gegeben, oder es nden
sich lediglich Diskussionen einzelner U bersetzungsbeispiele, aus denen sich allenfalls mehr
oder weniger gut rekonstruieren lat, wie einzelne Worterbucheintrage eines gegebenen
Systems aussehen konnten.
Die Worterbucher eines sprachverarbeitenden Systems hangen naturlich eng mit dessen
Grammatiken zusammen. Wenn jedoch ein (umfangreiches) Worterbuch fur verschiedene Anwendungen eingesetzt werden soll, die u.U. auf verschiedenen Grammatiken oder
Grammatiktheorien beruhen, dann kann die Frage der Worterbuchorganisation nicht einfach als Teilproblem der Grammatikentwicklung betrachtet werden. Vielmehr mu man
sich dann Gedanken uber \multifunktionale Worterbucher" machen, sowohl aus theoretischer Sicht, als auch aus praktischer. Die theoretische Diskussion hat in den spaten 80er
Jahren mit U berlegungen zu \reusable resources" begonnen (vgl. unten, Abschnitt 2.1.1
und den neuen Band von [Hotker/Ludewig (Ed.) 1996]). Die praktische Seite wird einer1 Die Termini Worterbuch und Lexikon werden hier synonym verwendet.
seits im Rahmen des \Linguistic Engineering" diskutiert, andererseits zum Teil schon seit
geraumer Zeit in der praktischen Lexikographie realisiert. Diese verschiedenen Aspekte und die Methoden und Verfahren von computerlinguistischer und lexikographischer,
bzw. metalexikographischer Arbeit scheinen bislang weitgehend getrennt verfolgt worden
zu sein: mindestens werden in Veroentlichungen aus der Computerlinguistik und Computational Lexicography relativ selten Ergebnisse der lexikographischen Arbeit und der
Metalexikographie aufgenommen und verarbeitet, und umgekehrt. Das vorliegende Buch
versucht, hier ansatzweise eine Brucke zu schlagen: wo immer moglich, wird die lexikographische Relevanz der vorgeschlagenen computerlinguistischen Modellierungen diskutiert,
und umgehrt wird zunachst untersucht, welche Ergebnisse aus der Lexikographie und
Metalexikographie fur die \Computational Lexicography" ausgenutzt werden konnen.
Fragen der Lexikonstrukturierung sind in der Computerlinguistik etwas detaillierter
diskutiert worden, seit sich Head-Driven Phrase Structure Grammar (HPSG, [Pollard/Sag
1994], [Pollard/Sag 1987]) als einer der wichtigsten Grammatikformalismen fur computerlinguistische Modellierungen etabliert hat. Die Zielsetzung von Arbeiten in diesem Rahmen war es, Generalisierungen im Lexikon in geeigneter Weise zu modellieren2. Andere
Arbeiten zur Organisation von Worterbuchern fur die Sprachverarbeitung konzentrieren
sich auf einzelne Teilbereiche der lexikalischen Beschreibung, z.B. Morphologie und Morphosyntax ([Domenig 1987], [Domenig 1989], [Domenig/ten Hacken 1992]), oder sie sind
starker an Fragen der Wissensreprasentation und der hierfur relevanten Formalismen interessiert (z.B. [Daelemans/Van der Linden 1992]). In der Lexikographie bzw. Metalexikographie wurde mit [DANLEX 1987] ein Vorschlag fur die Strukturierung von Worterbuchern
gemacht, der primar auf die (computergestutzte) Erstellung und auf die U berwachung
der Testgestalt (z.B. Eintragsmodelle) von Worterbuchern fur die interaktive Benutzung
(durch \menschliche" Benutzer) abzielt, nicht auf den Einbau in sprachverarbeitende Systeme.
In diesem Buch wird der Versuch unternommen, Vorschlage fur die Strukturierung
einsprachiger und zweisprachiger Worterbucher zu machen. Dabei werden U berlegungen
zur Wiederverwendung lexikalischer Information, insbesondere zur Gestaltung von \multifunktionalen" Worterbuchern, mit Vorschlagen zur formalen Modellierung einsprachiger Worterbucher und zur Strukturierung von kontrastiven lexikalischen Beschreibungen
fur maschinelle U bersetzung zusammengebracht. Den Rahmen fur die Spezikation von
Architekturvorschlagen fur Worterbucher bilden constraint-basierte Formalismen zur Reprasentation linguistischen Wissens, wie sie unter anderem zur Kodierung von HPSGGrammatiken verwendet werden.3
2 Die Vorschlage zur Lexikonstrukturierung, die sich in [Pollard/Sag 1987] benden, sind allerdings
in den wenigsten Grammatik-Systemen, die auf HPSG beruhen, implementiert, angewendet oder
erweitert worden. Der einzige groere Versuch in dieser Richtung seit der Arbeit von [Flickinger
1987] sind die Vorschlage von [Sanlippo 1993] zur Strukturierung der Worterbucher von Acquilex.
3 Einen U berblick uber constraint-basierte Formalismen, die zur Kodierung von linguistischem Wissen
benutzt werden, gibt der Sammelband [Uszkoreit (Ed.) 1993]. Dort ndet sich auch eine vergleichende
Bewertung der Formalismen. Da die vorliegenden U berlegungen in engem Kontakt mit Arbeiten zur
Entwicklung von TFS (Typed Feature Structure Formalismus, vgl. [Emele 1996]) entstanden ist, lag
es nahe, TFS als Beispielfall fur einen solchen Formalismus zu benutzen. Ich mochte Martin Emele in
diesem Zusammenhang fur viele sehr anregende Diskussionen und auch dafur herzlich danken, da er
mich an der Entwicklung von TFS aus der Nahe hat teilhaben lassen.
gehalten und wo notig explizit miteinander verbunden werden. Damit wird verhindert,
da einerseits analoge Informationen uber verschiedene Stellen verteilt sind, andererseits
Informationen verschiedener Natur miteinander vermengt werden, wo dies nicht sinnvoll
ist. Ein weiteres Ziel in diesem Zusammenhang ist es, die Information von verschiedenen
linguistischen Beschreibungsebenen gleichrangig zu behandeln, also keiner linguistischen
Beschreibungsebene Prioritat uber die anderen einzuraumen. Diese Forderung ist in gewisser Weise von den Grundprinzipien von HPSG inspiriert: dort werden linguistische
Objekte (Zeichen) durch gleichberechtigte Teilbeschreibungen auf der Ebene der Orthographie, der Syntax, der Semantik und, ggf., der Pragmatik beschrieben. In Abschnitt 3.2
wird gezeigt, inwiefern sich ein solcher Ansatz fur ein Lexikonmodell eignet.
1.1.2 Rahmenbedingungen
Die oben vorgetragenen U berlegungen werden in diesem Buch anhand von Beispielen
diskutiert. Eine solche Diskussion ist zwangslaug auf bestimmte Einzelfalle und auf die
Beschreibung relativ kleiner Worterbuchfragmente angewiesen. Im Folgenden werden die
Rahmenbedingungen fur die Formalisierung, die behandelten Phanomene bzw. Worterbuchfragmente und eine Reihe weiterer Randbedingungen kurz zusammengestellt.
Fur die formale Modellierung der in diesem Buch beschriebenen Worterbuchfragmente
wird der TFS-Formalismus (Typed Feature Structures) verwendet. Die formalen Grundlagen von TFS und die Implementierung des hier benutzten TFS-Systems werden nicht
beschrieben: sie sind in [Emele 1996] detailliert dargestellt; dort nden sich auch Verweise auf die relevante Grundlagenliteratur. TFS wird stellvertretend fur die Klasse der
constraint-basierten Formalismen benutzt, die in den letzten Jahren in der Computerlinguistik zunehmend Verbreitung gefunden haben. Die Worterbuchorganisation ist jedoch
eine relativ neue Anwendung von TFS und von Constraint-Formalismen uberhaupt; auerdem geht es darum, die lexikographische Nutzbarkeit solcher Formalismen zu zeigen.
Daher ist es sinnvoll, informell und anhand von Beispielen aus dem Bereich der Worterbuchstrukturierung die relevanten Eigenschaften des TFS-Formalismus zu beschreiben
(vgl. Abschnitt 3.1). Im Hinblick auf die praktische Anwendung eines elektronischen Worterbuchs mu in diesem Zusammenhang aber nicht nur diskutiert werden, in welcher Weise
sich der Formalismus fur die Lexikonreprasentation und -strukturierung eignet, sondern es
mu auch dargestellt werden, wie ein elektronisches Worterbuch benutzt, d.h. interaktiv
abgefragt oder in eine Anwendung eingebunden werden kann. Diese Diskussion ndet sich
in Abschnitt 5.
Der Gegenstandsbereich, anhand dessen die Strukturierungsvorschlage illustriert werden, ist die Beschreibung von Verben, insbesondere der Verbsubkategorisierung; dieser
Bereich ist in Linguistik und Lexikographie gut untersucht und dokumentiert. Hierfur
werden Modellierungen zugrundegelegt, wie sie im Rahmen von HPSG und LexikalischFunktionaler Grammatik (LFG, vgl. [Dalrymple (Ed.) 1995]) vorgeschlagen werden. Diese
Grammatik-Formalismen werden als Hintergrund fur die Modellierung verwendet, jedoch
wird nicht der Versuch unternommen, samtliche Beschreibungen detailliert im Rahmen
der Theorien zu begrunden oder zu motivieren. Es geht auch nicht darum, neuartige
Beschreibungen fur die zur Diskussion stehenden Phanomene vorzuschlagen.
Das beschriebene Worterbuchfragment beruht auf Materialien aus dem DELIS-Projekt5 ;
5 DELIS steht fur \Descriptive Lexical Specication and tools for corpus-based lexicon building".
DELIS ist ein Forschungs- und Entwicklungsprojekt, das von der Europaischen Kommission im Rah-
die DELIS-Beschreibungen stellen genugend lexikalische Information bereit, als da LFGoder HPSG-Systeme damit versorgt werden konnten. Daruber hinaus wird in DELIS versucht, an die syntaktische eine lexikalisch-semantische Beschreibung anzuschlieen, die
den Prinzipien von Fillmores Frame Semantics folgt. Die Grundlagen hiervon werden
zusammen mit den Beispiel-Modellierungen in Kapitel 4 dargestellt6.
Die konkreten Worterbucheintrage, die in diesem Zusammenhang diskutiert werden,
stammen aus Fragmenten fur Verben der sinnlichen Wahrnehmung fur Englisch, Franzosisch, Italienisch, Danisch und Niederlandisch, die exemplarisch in TFS modelliert wurden.
Um die U bertragbarkeit der hier vorgeschlagenen Prinzipien zu uberprufen, wurden in DELIS auerdem Fragmente italienischer, englischer und niederlandischer Sprechaktverben
modelliert (vgl. Abschnitt 4.5).
Eine der wichtigsten Grundlagen fur die hier vorgeschlagene Strukturierung von einund zweisprachigen Worterbuchern und fur deren Verbindbarkeit untereinander stellt das
Vorliegen von parallelen Grammatiken und Lexika dar. Unter \parallelen" Fragmenten
werden hier linguistische Beschreibungen von Satzen verstanden, welche U bersetzungen
voneinander sind. Auerdem setzt die Erstellung paralleler Fragmente die Benutzung
desselben Grammatikformalismus bzw. desselben deskriptiven Ansatzes voraus: ein gemeinsames Inventar von Beschreibungsmitteln fur die verschiedenen einzelsprachlichen
Modellierungen wird deniert; dieses Inventar wird nur dann erweitert, wenn dies fur die
Beschreibung einzelsprachlicher idiosynkratischer Phanomene notwendig ist.
1.1.3 Vorgehensweise
Die Erstellung linguistischer Spezikationen hat einige Gemeinsamkeiten mit der Entwicklung von Software. Wie oben angedeutet, fallen Teile der hier gefuhrten Diskussion
in den Bereich des \Linguistic Engineering". Dementsprechend ist es sinnvoll, wenn sich
auch die Arbeitsmethode an Vorgehensweisen aus dem Software-Engineering anlehnt.
Die vorliegende Studie orientiert sich an der Methode des \Rapid Prototyping". Im
Software-Engineering versteht man unter \Rapid Prototyping" eine Arbeitsmethode, bei
der zunachst eine Anforderungsanalyse erstellt wird, dann eine funktionale und spater formale oder technische Spezikation der zu entwickelnden Programme. Zu einem moglichst
fruhen Zeitpunkt in der Softwareentwicklung soll eine erste Implementierung verfugbar
gemacht werden (ein Prototyp), welcher zu Testzwecken an die Benutzer gegeben wird.
men des Forschungsprogramms LRE (Linguistic Research and Engineering) im Zeitraum 1993{1995
gefordert wurde. An DELIS waren Computerlinguisten (Universitaten Pisa, Clermont-Ferrrand, Amsterdam und Kopenhagen), Worterbuchverlage bzw. -herausgeber (Van Dale; Den Danske Ordbog,
Kopenhagen; Oxford University Press), sowie ein Software- und Beratungsunternehmen (Site, Paris;
Lingsoft, Helsinki, Linguacubun, London) beteiligt. Der Autor war Vertreter der Universitat Stuttgart
in DELIS und Projektkoordinator.
6 Dies ist, soweit sich absehen lat, die erste constraint-basierte Modellierung von Lexikonfragmenten auf
der Grundlage von Frame Semantics. Wie LFG und HPSG hier als deskriptiver Hintergrund verstanden werden (und auf theorie-interne Diskussionen uber die syntaktische Modellierung von Einzelfallen
verzichtet wird), dient auch Frame Semantics hier als ein Beispielfall fur einen Beschreibungsansatz:
Fillmores Theorie wird in diesem Buch nicht erweitert, sondern primar als Beispiel fur ein lexikalischsemantisches Beschreibungsmodell genommen, welches lexikographisch relevant ist (vgl. die Arbeiten
von [Fillmore/Atkins 1994], [Atkins 1994], [Atkins et. al. 1994], usw.), weil es eine prazise, corpusbasierte lexikalische Beschreibung unterstutzt, und weil es die Zusammenhange von syntaktischer und
semantischer Beschreibung explizit macht. Es geht also nicht darum, die deskriptiven Entscheidungen
von Frame Semantics zu rechtfertigen oder gegen andere Beschreibungen abzusetzen.
Das Feedback, welches aus den Tests dieser ersten Implementierung gewonnen wird,
iet
in eine Verfeinerung der Spezikationen und der Implementierung zuruck. Dieser Vorgang
wird als \Prototyping cycle" bezeichnet.
Man kann sich fragen, inwiefern ein solches Vorgehen fur die Entwicklung einer Worterbucharchitektur, bzw. von lexikalischen Spezikationen moglich und nutzlich ist. Hier
wird die These vertreten, da es gerade bei der Entwicklung von Worterbuchfragmenten
notwendig ist, Anforderungen der Benutzer und Anforderungen, die sich aus den Daten ergeben (z.B. von Texten aus Textcorpora, welche durch ein Worterbuch abgedeckt werden
sollen), bei der Entwicklung zu berucksichtigen. Je fruher im Laufe der Lexikonentwicklung Beispielfragmente verfugbar sind, desto fruher und ezienter kann die Entwicklung
beein
ut werden. Fur den (corpusbasierten) Aufbau von Worterbuchfragmenten wird
dieses Konzept detaillierter in Abschnitt 2.1.1.3 diskutiert.
Zum Teil richtet sich die Prasentation der Architekturvorschlage in diesem Buch ebenfalls nach den Hauptphasen des Prototyping-Zyklus: aus der Diskussion der lexikographischen Praxis (in Kapitel 2) wird eine Anforderungsdenition abgleitet. Nach der Darstellung des TFS-Formalismus, der als Modellierungshilfsmittel dient, wird eine (funktionale)
Spezikation7 gegeben (Abschnitt 3.2), die daraufhin uberpruft wird, welche Aspekte
der Anforderungsdenition sie erfat. Beispielimplementierungen werden in der Form von
monolingualen Lexikonfragmenten (in Kapitel 4) dargestellt, und ihre Benutzung in verschiedenen Anwendungen wird diskutiert, z.B. beim Lexikonexport und bei der lexikongesteuerten Corpusanalyse bzw. der Validierung des Lexikons anhand von Corpusmaterial
(Kapitel 5).
Um Redundanz zu vermeiden, sind allerdings nicht alle Phasen des Prototyping hier
separat dokumentiert worden: die Testphase, das sich hieraus ergebende Feedback und
die Verbesserungen sind naturlich in die Beschreibung von Spezikation und Realisierung
eingebunden.
Ein Groteil der Diskussion in diesem Buch bezieht sich auf einsprachige Beschreibungen: erst auf der Grundlage wohlstrukturierter monolingualer Beschreibungen lassen sich
kontrastive Beschreibungen organisieren.
der Anwendung constraint-basierter Lexika besprochen. Dabei werden bewut zum Teil
auch Beispiele diskutiert, die uber die in Kapitel 4 vorgestellten Phanomene hinausgehen.
In Kapitel 6 werden Moglichkeiten der Strukturierung von kontrastiven Beschreibungen
diskutiert. Zunachst werden empirisch Klassikationen von kontrastiven lexikalischen Problemen vorgestellt, dann wird gezeigt, wie sich diese in der maschinellen U bersetzung und
in der Lexikographie benutzen lassen.
Man kann auch Teile dieses Buchs selektiv lesen und nur bestimmte Themen verfolgen.
Die Diskussion allgemeiner Aspekte der Worterbucharchitektur verteilt sich in folgender
Weise: in Abschnitt 2.1 werden Probleme der Wiederverwendung lexikalischer Information
und damit eine der zentralen Anforderungen an die zu erstellenden Worterbuchkonzepte
untersucht. Zusammen mit den Resultaten einer Diskussion der Besonderheiten, welche
bei zweisprachigen Worterbuchern hinzutreten,
ieen die in Abschnitt 2.1 zusammengestellten Aspekte in die Anforderungsdenition in Abschnitt 2.3 ein. Die funktionale Spezikation der allgemeinen Architekturprinzipien erfolgt in Abschnitt 3.2. Aus der Sicht
der Anwendung werden Moglichkeiten der Abfrage der so reprasentierten lexikalischen
Information in Kapitel 5 diskutiert.
Die kontrastiven Aspekte hangen, wie oben angedeutet, mit den allgemeinen Fragen
der Lexikonarchitektur und mit den monolingualen Worterbuchfragmenten eng zusammen. Ein U berblick uber die lexikographische Praxis wird in Abschnitt 2.2 gegeben. Die
Resultate einer vergleichenden Bewertung der lexikographischen Ansatze
ieen in die
Anforderungsdenition in Abschnitt 2.3 ein. In Abschnitt 6.1 werden bestehende Vorschlage zur Klassizierung lexikalischer U bersetzungsprobleme diskutiert, die eine weitere
Grundlage fur die Organisation zweisprachiger Worterbucher darstellen. Beispiele fur Implementierungen, die aufgrund dieser Klassikation entwickelt werden konnen, sind in den
Abschnitten 6.4 und 6.5 angegeben.
Die Frage der Wiederverwendbarkeit der lexikalischen Beschreibungen zieht sich ebenfalls als \Leitmotiv" durch dieses Buch. Abschnitt 2.1 ist dieser Problematik gewidmet.
Arbeiten aus der praktischen Lexikographie, die zu \wiederverwendbaren" zweisprachigen
Worterbuchern fuhren, werden in Abschnitt 2.2 vorgestellt. Praktische Vorschlage fur den
\Worterbuchexport" und fur vergleichbare Anwendungen werden in Abschnitt 5 diskutiert. Fur zweisprachige Worterbucher wird in Abschnitt 6.4 auf Moglichkeiten hingeweisen, wie eine allgemeine Phanomenklassikation sowohl als Grundlage fur transfer-basierte
Systeme, als auch fur den Interlingua-Ansatz dienen kann.
wird der Terminus mitunter unscharf verwendet. Dort wird neben dem \electronic dictionary" auch von \lexical databases", \machine readable dictionaries" und \articial
intelligence lexicons" gesprochen, z.B. bei [Zampolli 1994] und [Atkins/Levin/Zampolli
1994].
Die Termini heben technische Kriterien (databases) hervor, oder den Zusammenhang
mit Ressourcen in einem anderen Format (\machine readable dictionary": meint die in
irgendeiner Form als Textdateien zur Verfugung gestellte Version eines gedruckten Worterbuchs, in der Regel aus dem Satzband hergeleitet). Solche eher intuitiven Klassizierungen
geben eigentlich keinen Aufschlu uber relevante Eigenschaften der jeweiligen Ressourcen,
und eine etwas prazisere Beschreibung ist notwendig.
Im Bereich der elektronischen Worterbucher gibt es bislang noch keine eindeutig denierte Terminologie. Aus diesem Grund ist es sinnvoll, einige Charakteristika von elektronischen Worterbuchern im folgenden kurz zu diskutieren. Hieraus ergibt sich eine Reihe
von Parametern, nach denen elektronische Worterbucher beschrieben werden konnen.
\lexical databases";
\Articial Intelligence lexicons".
Die von Martin/Woltering identizierten prominenten Beispielfalle fur Worterbucher und
die Kriterien zeigen, da die in [Martin/Woltering 1989] beschriebene Klassikation speziell im Hinblick auf die Untersuchung der semantischen Beschreibungen in elektronischen
Worterbuchern unternommen worden ist. Sie ist fur unsere Zwecke nicht allgemein genug.
Obwohl naturlich jede Klassikation fur einen speziellen Zweck durchgefuhrt wird, und
obwohl insofern jede Typologie die Aspekte wiederspiegelt, die fur die jeweilige Zielsetzung
als besonders relevant erachtet werden, kann man doch versuchen, elektronische linguistische Ressourcen etwas genereller zu beschreiben. Der Zweck unseres Klassikationsversuchs ist es, die wichtigsten Aspekte der Form der Worterbucher (Reprasentationsformalismus, Strukturierung, Organisation usw.), ihres Inhalts (Mikro- und Makrostruktur),
sowie des Zusammenhangs zwischen beiden deutlich zu machen.
Dazu werden die folgenden Beschreibungskriterien (wiederum, wie bei [Martin/Woltering 1989], als nicht-ausschlieliche Parameter) benutzt:
Die Anwendungsorientierung der Ressource: Antwort auf die Frage, ob die Ressource
fur eine bestimmte Art von Anwendung (interaktiv oder automatisch) konzipiert ist,
oder ob sie in dem Sinne \multifunktional" ist, da sie verschiedene lexikographische
und/oder verschiedene NLP-Anwendungen versorgt oder versorgen soll.
Eine inhaltliche Beschreibung der Ressource: hinsichtlich Makrostruktur, Mikrostruktur, Umfang der Ressource und theoretischer Fundierung der Beschreibungen.
Die formale Organisation der Ressource: Zusammenhange zwischen deskriptiver Seite und Reprasentationsseite; Dokumentation.
Technische Eigenschaften der Ressource: hinsichtlich Reprasentationsformat oder
-formalismus, Speichermedium, zugrundeliegender Software usw.).
Zusammenhang der zu beschreibenden Ressource mit anderen, gedruckten oder elektronisch reprasentierten Ressourcen.
Diese sehr allgemeinen Beschreibungskriterien sind in ahnlicher Weise fur die Zwecke
der Eurotra-7-Studie (vgl. [Heid/McNaught 1991]) und, darauf aufbauend, fur die
Relator-Studie zu linguistischen Ressourcen10 ([Hinkelman (Ed.) 1995]) benutzt worden11 .
Im Falle der beiden genannten Studien kommen zusatzliche, nicht-linguistische Angaben
10 Relator ist eine von der Europaischen Kommission, Luxenburg, DG XIII E4, im Rahmen des
LRE-2-Programms in Auftrag gegebene Studie uber die Moglichkeit der Realisierung einer zentralen
europaischen Institution fur die Katalogisierung und den Vertrieb linguistischer Ressourcen (LRE62.056). Das Projekt (12-1993 bis 08-1995) hat zur Errichtung der European Linguistic Resources
Association, ELRA, gefuhrt, die, 1995 gegrundet, von 1996 an eine dem Linguistic Data Consortium, LDC, in den USA vergleichbare Rolle ubernehmen soll. Relator hat einen ersten Katalog von
linguistischen Ressourcen produziert; ELRA soll diese Arbeit weiterfuhren.
11 Die allgemeinen Beschreibungsparameter wurden fur die Zwecke von Relator so weitgehend generalisiert, da sie auf alle Arten von Ressourcen (Textcorpora, Worterbucher, Speech-Samples, Grammatiken, Werkzeuge) angewendet werden konnten. Die speziellere Typologie der elektronischen Worterbucher wurde vom Autor fur die Zwecke von Eurotra-7 entwickelt und dann fur Relator
weitergefuhrt. Sie wurde auch im Projekt Multilex nahezu unverandert ubernommen. Die Nahe
hinzu, wie beispielsweise Information uber Eigentumsrechte, Verfugbarkeit, und uber die
Autoren der betreenden Ressourcen.
In Abbildung 1.1 sind die wichtigsten Kriterien zusammengestellt, nach denen im
Rahmen von Relator elektronische Worterbucher beschrieben wurden.
Grouping of lemmas
Fragment covered
Content
Levels described
Microstructure
Explicit
Representation
Consistency of markup
(checking possibilities)
assessment of transformability
lexicographic conventions
Implicit
internal structure of entires
Storage
Technical
Representation language
(formal aspects)
Interfaces and integratability
(cf. usage context)
derived from other source(s)
Relationships
not derived
legal aspects
Availability
cost of resource
cost of use/adaptation
Mikrostrukturelle Kriterien: zu den mikrostrukturellen Kriterien gehort das Inventar der linguistischen Beschreibungsebenen, zu denen das Worterbuch Informationen enthalt, eine Beschreibung der zugrundeliegenden linguistischen Theorie bzw.
des Beschreibungsansatzes (z.B. bei Instruktionsbuchern von gedruckten Worterbuchern), sowie eine Beschreibung der benutzten linguistisch-lexikographischen Beschreibungsmittel und ihrer Dokumentation13.
Wie in der traditionellen (meta)lexikographischen Beschreibung, werden folgende
linguistische Beschreibungsebenen unterschieden, fur die in einem elektronischen
Worterbuch Angaben vorhanden sein konnen:
{ Orthographische Beschreibung (mit Beschreibung von orthographischen Varianten, Trennmoglichkeiten usw.);
{ Phonetisch-phonologische Beschreibung (Angabe der Lautgestalt);
{ Morphologische und morphosyntaktische Beschreibung (morphosyntaktische
Eigenschaften von Wortformen, eventuell Zusammenhange mit (moglicherweise
Worterbuch-externen) Morphologie-Systemen bzw. Klassizierungen des Flexionsverhaltens);
{ Syntaktische Beschreibung auf der kategorialen bzw. phrasenstrukturellen Ebene (Klassikation des zu beschreibenden linguistischen Objekts hinsichtlich seiner Wortart, sowie der ggf. von ihm subkategorisierten Erganzungen);
{ Relationale bzw. funktional-syntaktische Beschreibung (bei linguistischen Objekten, die als Pradikate aufgefat werden konnen und Erganzungen subkategorisieren: Angabe der syntaktischen Funktion dieser Erganzungen);
{ (lexikalisch) semantische Beschreibung (Denitionen, Sortenangaben, semantische Merkmale, Bedeutungspostulate usw.; Bedeutungserlauterung);
{ Relational-semantische Beschreibung (lexikalisch-semantische Relationen mit
anderen linguistischen Objekten; (Quasi-)Synonymie, Hyp(er)onymie usw.);
{ Text-semantische Beschreibung (z.B. Vor- und Nach-Bedingungen, mogliche
Inferenzen, andere fur die Diskurs-Interpretation relevante Informationen);
{ \Lexikalisch-pragmatische Beschreibung" (diasystematische Markierung, Klassikation nach Stil-, Fachsprachen-, Textsortenkriterien usw.).
Die Beschreibung der formalen Grundlagen bzw. der linguistischen Beschreibungstheorie kann durch einfachen Verweis auf diese Theorie erfolgen. In der Regel ist fur
jede linguistische Theorie bekannt, bzw. nachvollziehbar, welche Beschreibungsmittel sie verwendet. Allenfalls mu separat beschrieben werden, welche Beschreibungsmittel zum Einsatz kommen. Ebenso mu ggf. deutlich gemacht werden, welche Art
extralinguistischer Information vorhanden ist (z.B. Verweise auf Bilder, Gerausche;
Verweise auf Elemente eines Domanenmodells, usw.).
Formale Organisation des Worterbuchs: Die Organisation kann explizit oder implizit erfolgen. Explizit organisierte Worterbucher sind solche, bei denen jeder Angabetyp separat
identizierbar ist und Anfang und Ende jeder einzelnen Angabe (Terminus im Sinne von
Wiegands metalexikographischer Theorie) anhand der Markierungen feststellbar sind. Dagegen sind implizit organisierte Ressourcen solche, bei denen der Angabetyp und Anfang
und Ende einer bestimmten Angabe aus dem Worterbuchtext mit den Mitteln der metalexikographischen Worterbuchanalyse erschlossen werden mu.
Kennzeichen explizit organisierter Worterbucher ist das Vorhandensein eines irgendwie gearteten Markup14 oder bestimmter, voneinander unterscheidbarer Datentypen zur
Reprasentation von Angaben unterschiedlichen Typs15 .
Technische Eigenschaften: die technischen Eigenschaften einer lexikalischen Ressource
betreen das Speichermedium und die Reprasentation des Worterbuchs (als Datenbank,
Textdatei, Datentypen einer Programmiersprache, komprimiert/unkomprimiert, Anzahl
und Formate von Dateien usw.).
Zusammenhang mit anderen Ressourcen: \machine readable dictionaries" stehen oft
in eingem Zusammenhang mit einem gedruckten Worterbuch. In solchen Fallen hat das
elektronische Worterbuch zwar andere technische Eigenschaften als das gedruckte, jedoch
bleiben die inhaltlichen und die Worterbuchorganisatorischen Parameter gleich wie beim
gedruckten Worterbuch, oder sie lassen sich bei Kenntnis des \zugrundeliegenden Worterbuchs" leichter erschlieen.
Die oben genannten Parameter zur Beschreibung elektronischer Worterbucher konnen einerseits fur die Beschreibung bestehender lexikalischer Ressourcen benutzt werden, andererseits sollten sie in die Anforderungsdenition fur die Entwicklung neuer elektronischer
Worterbucher hinein: der Entwickler mu sicherstellen, da fur die zu entwickelnde Ressource hinsichtlich der hier beschriebenen Parameter geeignete Entscheidungen getroen
werden.
Hierbei spielen insbesondere die makro- und mikrostrukturellen Kriterien, sowie Fragen
des Zusammenhangs zwischen den angestrebten Organisationsprinzipien und den technischen Eigenschaften der Ressource fur die Denition einer geeigneten Worterbucharchitektur eine Rolle.
In Kapitel 3.2 wird ein Vorschlag fur Architekturprinzipien fur elektronische Worterbucher gemacht; in Kapitel 4 werden Beispielfragmente diskutiert, die nach diesen
14 Beispielsweise die Annotation von Textdateien mit SGML (Standard Generalized Markup Language).
15 In Worterbuchern von NLP-Systemen konnen das z.B. Attribut-Wert-Strukturen sein, bei denen die
einzelnen Attribute durch unterschiedliche Attributnamen voneinander unterschieden werden. Nicht
samtliche elektronischen Worterbucher sind explizit organisiert. Vielmehr wird gerade in \Lookup"Versionen gedruckter Worterbucher, die als Textdateien vorliegen, oft auf eine eindeutige Unterscheidung zwischen Angabetypen verzichtet, selbst wenn eine eindeutige Unterscheidung von Textsegmenten durch unterschiedliche typographische Auszeichnungskonventionen moglich ist. Da in der Regel
die Typographie in Worterbuchtexten mehrdeutig ist (z.B. konnen kursiv gedruckte Teile in ein und
demselben Eintrag durchaus Denitionen oder Beispiele sein), ist es nicht trivial, aufgrund der Typen von unterschiedlich ausgezeichneten Textstucken eindeutig zu rekonstruieren und automatisch zu
inferieren, welche Angabetypen vorliegen. Vgl. hierzu auch die Probleme der Reinterpretation von
gedruckten Worterbuchern, die in Abschnitt 2.1.2.5 diskutiert werden.
Auerdem konnen z.B. Hierarchien von Eintragen, bei denen Information durch Vererbung bereitgestellt wird, implizit organisiert sein: es kann daher notig sein, in einem Lexikon-Formalismus die
Unterscheidung zwischen \er-erbter" und \lokal denierter" Information deutlich zu machen (insbesondere fur die Zwecke der interaktiven Erweiterung der Worterbucher).
Prinzipien erstellt worden sind. Ohne vorgreifen zu wollen, konnen wir hier bereits einige Charakteristika der unten im Detail beschriebenen Worterbucher anhand der oben
diskutierten Parameter zusammenstellen.
Anwendungsorientierung: die Ressource soll multifunktional sein, insofern sie verschiedene sprachverarbeitende Anwendungen bedienen soll. Auerdem soll es moglich
sein, aus der zu entwickelnden Ressource Material fur ein interaktiv abzufragendes
elektronisch reprasentiertes Worterbuch abzuleiten. Anwendungsspezische Prasentationformen sollen uber eine spezielle Export-Komponente aus der formal reprasentierten Beschreibung abgeleitet werden; vgl. Abschnitt 5.2).
Inhaltliche Beschreibung:
{ Makrostruktur: die Beispielfragmente stammen aus Franzosisch und Deutsch,
Englisch und Niederlandisch, sowie Italienisch; die Fragmente beinhalten nur
Verben aus dem lexikalisch-semantischen Feld der Wahrnehmung, jedoch sind
die Architekturvorschlage auch uber diesen Bereich hinaus generalisierbar.
{ Mikrostruktur: die hier vorgestellten Modellierungen konzentrieren sich auf
die orthographische, kategorial- und funktional-syntaktische und lexikalischsemantische Beschreibung. Zum Teil werden \lexikalisch-pragmatische" Aspekte mitberucksichtigt. Der zugrundeliegende Beschreibungsansatz ist von HPSG
(Head-Driven Phrase Structure Grammar, vgl. [Pollard/Sag 1994]) inspiriert,
der Theorie aber nicht so weitgehend verp
ichtet, da angestrebt wurde neue
Vorschlage zur lexikalischen oder linguistischen Beschreibung mit HPSG zu
machen. Dies erklart sich schon aus der Zielsetzung der \Multifunktionalitat".
Fur die lexikalisch-semantische Beschreibung wird Fillmores Frame Semantics
benutzt; auch hier gilt dasselbe: die Theorie dient als Beispielfall fur die Anwendung der Lexikonarchitektur.
Organisation der Ressource: das Worterbuch soll durchgangig explizit organisiert
sein. Der Reprasentationsformalismus TFS (Typed Feature Structures) wird verwendet. Er wird in Abschnitt 3.1 detailliert beschrieben.
Technische Eigenschaften: die Benutzung von TFS als Reprasentationsformalismus
fuhrt dazu, da TFS-Denitionen als Textdateien (ASCII les) reprasentiert werden.
Zusammenhang mit anderen Ressourcen: die Beispielfragmente wurden neu konzipiert16. Die einzelsprachlichen Teilfragmente sind parallel (gleiche Beschreibungsmittel; die Fragmente sind eineinander ubersetzbar).
prinzipien der bestehenden MU -Systeme detailliert beschrieben17 . Die meisten regelbasierten maschinellen U bersetzungssysteme (also nicht solche, die statistische Verfahren zur
Berechnung der wahrscheinlichsten U bersetzungsaquivalente verwenden) folgen entweder
dem Transfer-Ansatz oder dem Interlingua-Ansatz. Beide Verfahren gehen auf stratikationelle Beschreibungsansatze zuruck.
Im Falle des Transfer-Ansatzes wird davon ausgegangen, da das U bersetzungssystem
zunachst quellsprachliche Satze analysiert und die aus den Quellsprachsatzen abgeleiteten
abstrakten Reprasentationen auf andere abstrakte Reprasentationen abbildet, aus welchen
zielsprachliche Satze generiert werden konnen.
Demgegenuber wird im Rahmen des Interlingua-Ansatzes versucht, abstrakte Reprasentationen so zu formulieren, da sie gleichermaen geeignet sind, quellsprachliche
und zielsprachliche A uerungen oder Teile davon adaquat zu beschreiben. Wo dies moglich
ist, entfallt die Notwendigkeit einer eigenen Abbildung zwischen den einzelsprachspezischen abstrakten Reprasentationen.
MO/SY:
c-str.
MO/SY:
...
SYN:
f-str.
...
SYN:
...
SEM:
lex. sem.
...
c-str.
f-str.
...
SEM:
lex. sem.
...
MO/SY:
c-str.
MO/SY:
c-str.
...
SYN:
...
f-str.
SYN:
f-str.
...
SEM:
...
lex. sem.
SEM:
lex. sem.
...
...
phon hMon
dictionnaire me manque i
6
2
37
2
3
7
6
6
7
head
verb
6
6
7
7
4
5
phon hI miss my dictionary i 6
6cat
77
6
6
subcat
hi
77
6
6
7
2
37
6
6
77
+
6: : : jloc6
7
7
6
6
7
6reln miss
77
6
6
7
7
1 jfspeaker( 1 )g 777
exper
6
6cont6
English HPSG
4
5
6
4
57
6
theme 2 jf 1 's dict.( 2 )g 77
6
4
5
+
dtrs
:::
3
*
6
2
37
2
3
7
6
7
6
6cat 4head verb5
77
6
6
77
6
French HPSG
subcat
hi
6
77
6
6
77
6
2
3
6
77
6
77
6: : : jloc6
reln miss
*
6
77
6
6
7
6cont6exper 1 jfspeaker( 1 )g 2777
6
33
2
6
7
6
4
57
6
6
77
reln
miss
6
4
theme 2 jf 1 's dict.( 2 )g66577
77
6
6
7
: :7: jlocjcont6exper 1 jfspeaker( 1 )g 77
6
6
{z
}
|
?6 5
57
4
4
4
theme 2 jf 1 's dict.( 2 )g 5
dtrs : : :
|
{z
}
"
!
6
Abbildung 1.4: Schema der interlingua-basierten U bersetzung mit HPSG (aus [Heid/Kuhn
1994])
In Kapitel 4 werden Beispiele fur monolinguale lexikalische Beschreibungen gegeben. Diese
20 Im Rahmen der vorliegenden Arbeit konnten aus Grunden der U berlagerung der Erscheinungstermine
die neuesten Arbeiten des Verbmobil-Projekts nicht oder nur zu einem geringen Teil berucksichtigt
werden. Die Vorbereitungsdiskussion ist z.B. in [Kay/Gawron/Norvig 1994] dargestellt.
konnten mit geringem Aufwand in ein auf HPSG-Grammatiken aufbauendes interlinguabasiertes experimentelles MU -System eingebracht werden, dessen Grundlagen und Funktionsweise zuerst in [Heid/Kuhn 1994] beschrieben worden sind. Fur die Quellsprache und
die Zielsprache werden jeweils HPSG-(artige) Beschreibungen aufgebaut, und die angereicherten Pradikat-Argument-Strukturen (Werte des \CONT(ent)"-Attributs) werden als
gemeinsame abstrakte Reprasentation von Quell- und Zielsprache benutzt.
In diesem System enthalten die Lexikoneintrage gleichberechtigte Teilbeschreibungen
der Wortformen (Lautgestalt, bzw. Orthographie unter dem \PHON(ology)"-Attribut), der
syntaktischen Struktur (unter dem Attribut \CAT(egory)") und der semantischen Struktur (Pradikat-Argument-Strukturen, unter dem Attribut \CONT(ent))". Liegen im oben
diskutierten Sinne parallele Grammatiken vor, so konnen quell- und zielsprachliche Grammatiken und Lexika miteinander kombiniert werden.
Die Analyse der Quellsprache besteht darin, da ein Satz, von dem zunachst nur die
Zeichenkette bekannt ist, mit den Denitionen von Grammatik und Lexikon verglichen
wird. Das Ergebnis ist eine vollstandig spezizierte Struktur, in der zusatzlich zur Zeichenkette eine von der Grammatik abgeleitete syntaktische und semantische Beschreibung ausgegeben wird. Analog hierzu kann man die zielsprachliche Grammatik und ihr Lexikon mit
dem Wert des CONT(ent)-Attributs abfragen. Wiederum wird die gesamte, vollstandig spezizierte Satzbeschreibung erzeugt, wobei in diesem Fall Syntax und Zeichenkette erganzt
werden, jetzt anhand der zielsprachlichen Spezikation. Man kann den ersten Vorgang
(von der Textform zur vollstandigen Beschreibung) als \Analyse", den zweiten Vorgang
(von der Bedeutungsbeschreibung zur vollstandigen Beschreibung, inklusive Textform)
als \Generierung" bezeichnen. Fur die Zwecke der U bersetzung wird die Analyse mit der
Quellsprach-Grammatik durchgefuhrt, die Generierung mit der Zielsprach-Grammatik.
In Abbildung 1.4 ist dieser U bersetzungsansatz anhand von HPSG fur Englisch und
Franzosisch schematisch dargestellt.
In den Abschnitten 2.3 und 3.2 werden Vorschlage fur die Architektur monolingualer
Worterbucher gemacht. Dabei spielt die Verwendbarkeit der lexikalischen Beschreibungen fur verschiedene Anwendungen eine groe Rolle. Da der Transfer-Ansatz und der
Interlingua-Ansatz Losungen derselben konstrastiven lexikalischen Probleme bereitstellen
mussen, ware es wunschenswert, auch ein kontrastives Worterbuch so anzulegen, da es
verschiede Anwendungen versorgen kann, in diesem Fall Systeme, die auf dem TransferAnsatz bzw. auf dem Interlingua-Ansatz beruhen. Ein Worterbuch, welches beide Arten
von Beschreibungen unterstutzen soll, mu hinreichend detaillierte Informationen von
samtlichen relevanten Beschreibungsebenen enthalten.
Kapitel 2
Lexikographische Aspekte der
Worterbuchstrukturierung
2.1 Wiederverwendbare lexikalische Beschreibungen { Multifunktionale
Worterbucher
Seit den spaten 80er Jahren wurde in der Computerlinguistik uber die Schaung umfangreicher Lexika fur die Sprachverarbeitung diskutiert, und auf die Notwendigkeit der Erstellung wiederverwendbarer1 Worterbucher hingewiesen. Aufgabe und Zielsetzung von Forschungsvorhaben und Studien wie z.B. Eurotra-7 (1990/91), Lexic (1990/91)2, Multilex (1991-93), zum Teil auch Acquilex und DELIS (1993-95) war es, Konzepte fur die
Wiederverwendung lexikalischer Information zu entwickeln; das Forschungsprojekt Multilex ist beispielsweise mit dem Ziel angetreten, in verschiedenen Typen von Sprachverarbeitungssystemen verwendbare (\multifunktionale") Worterbucher zu entwickeln oder
an ihrer Denition zu arbeiten (vgl. [Modiano 1994]). Die Fragestellung hat bis heute
nichts an Aktualitat verloren, wie der neueste Sammelband von [Hotker/Ludewig (Ed.)
1996] zeigt, der verschiedenen Ansatzen zur Wiederverwendung lexikalischer Information
gewidmet ist.
In diesem Kapitel wird zunachst die bisherige Diskussion uber die Wiederverwendung
lexikalischer Information zusammengefat. Aus bisherigen Denitionen von multifunktionalen Worterbuchern werden die fur die vorliegende Arbeit relevanten Aspekte als
Komponenten einer Anforderungsdenition fur die Worterbuchorganisation extrahiert.
Die Diskussion um die Wiederverwendung von lexikalischer Information in der Computerlinguistik ist mit der Dissertation von Robert Amsler 1980 (vgl. [Amsler 1980]) in
Gang gekommen, der als wohl erster Computerlinguist Satzbander eines monolingualen
(englischen) Worterbuchs analysiert hat (das Merriam Webster Pocket Dictionary), mit
dem Ziel, aus den Eintragen des Worterbuchs Beschreibungen zu extrahieren, die als lexikalische Informationsquelle fur ein sprachverarbeitendes System dienen konnen. In der
Folgezeit wurden verschiedene vergleichbare Untersuchungen an anderen englischen Wor-
1 Zum Teil wird auch von Wiederverwertung, wiederverwertbaren Worterbuchern, etc. gesprochen. Hier
wird durchgangig der Begri \Wiederverwendung" (etc.) benutzt. Die beiden Termini werden hier
synonym verwendet. [Hotker/Ludewig 1996] (die Einleitung zu [Hotker/Ludewig (Ed.) 1996]) unterscheiden zwischen \Wiederverwendung" (ohne Modikation der bestehenden Beschreibungen) und
\Wiederverwertung" (Nutzbarmachung fur neue Anwendungen durch Modikation der bestehenden
Beschreibungen). Der erste Fall ist rein hypothetisch: eine Reinterpretation (vgl. unten, Abschnitt
2.1.2) ist nahezu immer notig. Hier wird also der Terminus \Wiederverwendung" durchgangig im
Sinne von Hotker/Ludewigs Begri \Wiederverwertung" benutzt (vgl. auch [Kanngiesser 1995]).
2 Vgl. den Abschlubericht [Van der Eijk et al. 1991].
Teilen der Beschreibungen aus der ursprunglichen Ressource oder der kompletten
Transformation der gesamten Ressource notwendig machen.
Beispiele: die maschinenlesbare Version eines gedruckten Worterbuchs wird so adaptiert, da sie neben der ursprunglichen, interaktiven Benutzung auch fur ein sprachverarbeitendes System verwendet werden kann.
Oder: ein Worterbuch, welches urspunglich fur ein maschinelles U bersetzungssystem
konzipiert ist, wird (z.B. mit einem zusatzlichen Ausgabe-Interface) auch als \Lookup-Worterbuch", fur interaktive Abfrage verwendet.
2. Der Begri \wiederverwendbare lexikalische Ressource" bezeichnet eine linguistische Wissensquelle, die schon von ihrer Konzeption an so speziziert und realisiert
worden ist, da die Benutzung in verschiedenen Situationen oder Systemen (sowohl
verschiedenen Sprachverarbeitungsanwendungen, als auch verschiedenen (interaktiven) Benutzungssituationen mit \menschlichen Benutzern") in die Design-Kriterien
mitein
iet. Solche linguistischen Wissensquellen werden auch als \multifunktionale" Ressourcen bezeichnet.
Beispiele: Ein Worterbuch, welches innerhalb einer Firma fur verschiedene Sprachverarbeitungsanwendungen gemeinsam benutzt wird; oder: eine lexikographische
Ressource eines Verlags, aus welcher verschiedene anwendungsspezische gedruckte Worterbucher oder interaktiv zu verwendende elektronische Produkte hergestellt
werden6 .
Der Unterschied zwischen den beiden Lesarten des Terminus \wiederverwendbare linguistische Ressource" liegt also darin, da nach der ersten Auassung von Wiederverwendbarkeit schon bestehende Beschreibungen fur neue Anwendungen nutzbar gemacht
werden sollen, ohne da auf das Format der Quell-Materialien noch eine Ein
unahme
moglich ware (die \Um-Nutzung" erfolgt post mortem). Dagegen ist es fur die zweite Lesart von \Wiederverwendung" konstitutiv, da die Mehrfach-Verwendung schon von der
Spezikationsphase an eingeplant wird.
Diese Kriterien gelten sinngema fur Worterbucher, Grammatiken, annotierte Textcorpora und sogar fur bestimmte Arten von Sprachverarbeitungswerkzeugen. Deswegen
wird hier der allgemeine Begri \Ressource" benutzt.
aus dem Lemmabestand und der Mikrostruktur von bestehenden Worterbuchern Teile
\herausgestrichen", wenn ein neues Worterbuch (oder eine neue Au
age des zur Rede
stehenden Worterbuchs) hergestellt werden soll. Diese Verfahren stehen hier jedoch nicht
zur Diskussion.
Der wichtigste Aspekt der Wiederverwendung lexikalischer Information in der praktischen Lexikographie ist die Anlage einer Faktensammlung mit lexikalischen Beschreibungen, aus denen andwendungsspezische, d.h. zielgruppenspezische Worterbucheintrage
entwickelt werden konnen. Aus der Sicht der Worterbuchproduktion ist es sinnvoll, wenn
Worterbuchverlage solche Faktensammlungen (\pre-dictionary fact base", gelegentlich
auch \(lled) framework") anlegen, aus denen Material fur bestimmte Zielgruppen extrahiert und in Worterbuchartikel eingebracht werden kann. Idealerweise enthalt die Faktensammlung eine detaillierte Beschreibung von Lemmata (oder von Lesarten), Beispiele, Notizen, Verweise auf Fundstellen, auf linguistische Literatur, usw.; das Material ist
typischerweise nicht im Hinblick auf ein bestimmtes Worterbuch aufbereitet8. Mit der
Verfugbarkeit groer, linguistisch annotierter Textcorpora und leistungsfahiger Analysewekzeuge verschwimmt die Denition der base de donnees predictionnairique ein wenig.
Sinclair mochte auf die Anlage einer Faktensammlung als Datenbank ganz verzichten
und die relevanten Belegmaterialien bei Bedarf aus dem Corpus generieren (vgl. [Sinclair
1995]). Allerdings ist eine Liste von Belegen noch keine Sammlung von Rohmaterial fur
die Worterbucherstellung, weil die Verkettung von Corpusanalysewerkzeugen, durch die
solche Belege gefunden werden konnen, bislang nur als Sequenz vordenierter Untersuchungsschritte denkbar ist, nicht als ein System, das bei Bedarf neue Typen von Analysen
ohne groere Modikation einbauen kann.
Die \Dynamisierung" der \pre-dictionary fact base" durch konstanten Corpusbezug
ist aber unbedingt wunschenswert. Fur jedes erfate Phanomen konnen so Corpusbelege bereitgestellt werden; ein soches Verfahren wird bei der Erstellung von Worterbuchfragmenten im DECIDE-Projekt (vgl. [Heid 1996] fur einen U berblick) angewendet:
zu jeder Angabe im Worterbuch konnen Corpusbelege generiert werden. Wiederum wird
versucht, eine Materialsammlung bereitzustellen, aus der, je nach Anwendung, verschiedene Kombinationen lexikalischer Beschreibungen abgeleitet werden konnen.
Hier genugt es, festzuhalten, da relativ ahnliche Fragestellungen und Zielsetzungen
sowohl in der Lexikographie als auch in der Computerlinguistik diskutiert werden: wie
konnen bestehende lexikalische Beschreibungen neu genutzt werden, und wie konnen neu
zu erstellende Beschreibungen multifunktional gestaltet werden? Die A hnlichkeiten zwischen den Arbeiten in Lexikographie und Computerlinguistik wurden in beiden Feldern
insgesamt wenig beachtet9 .
gang bekannt: ein franzosischer Verlag hat fur den Verkauf eines franzosischen Schulerworterbuchs in
Afrika lediglich die Namen der in den Beispielen vorkommenden Personen und den Titel des Werks
(neu: \ Dictionnaire pour l'Afrique") ausgetauscht, sonst aber ein fur den franzosischen Markt produziertes eigenes Worterbuch direkt ubernommen und als dem Anschein nach zielgruppenorientiertes
Produkt verkauft.
8 In die Richtung der \pre-dictionary fact base" gehen die Vorschlage fur lexikalische Wiederverwendung
von [Martin/Al 1988]. Die Autoren denieren eine Reihe von Anforderungen an die \dictionary data
base", die bewut von \front end dictionaries" getrennt sein soll. Auf die Vorschlage von [Martin/Al
1988] wird, aus der Sicht der Trennung zwischen Datendeskription und lexikographischer Prasentation,
in Abschnitt 2.2.1 eingegangen.
9 Mindestens nden sich in Arbeiten zur \Computational Lexicography" kaum Zitate von metalexikographischen Forschungen und umgekehrt.
<
>
Die Denition von multifunktionalen Worterbuchern hangt auch eng mit der Diskussion
uber Standardisierungsvorschlage fur lexikalische Beschreibungen und fur (elektronische)
Worterbucher zusammen. Ein moglicher Denkansatz ist es, die Reprasentation von multifunktionalen Beschreibungen, wie sie hier diskutiert wird, als \Standard-Worterbuch"
zu verwenden, bzw. umgekehrt die Reprasentation eines multifunktionalen Worterbuchs
auf Vorschlagen aufsetzen zu lassen, die aus Standardisierungsbemuhungen hervorgehen. Ein Standard beruht typischerweise auf dem Konsensus verschiedener Anwender;
ein Wiederverwendungs-Szenarium wie es hier beschrieben wird, konnte eine Grundlage
fur die praktische Realisierung von Standards (in Unternehmen, in Projekten etc.) sein.
Dieser Ansatz wird von der Eagles-Gruppe (European Expert Group on Linguistic Engineering Standards) fur den Bereich morphosyntaktischer (und zukunftig syntaktischer)
Lexika verfolgt.
...
1111111111111111111111111111
0000000000000000000000000000
0000000000000000000000000000
1111111111111111111111111111
Application
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000
1111111111111111111111111
Acquisition
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000
1111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
1111111111111111111111111
0000000000000000000000000
0000000000000000000000000000
1111111111111111111111111111
Representation
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
Abbildung 2.1: Ein Szenarium der Wiederverwendung von lexikalischer Information (aus
der Eurotra-7-Studie, vgl. [Heid/McNaught 1991])
schinenlesbare Worterbucher und Lexika von sprachverarbeitenden Systemen, aber auch
die Beschreibungsintuition von Linguisten und Lexikographen. Zu jeder Quelle ist eine
Erfassungsschnittstelle notwendig (in der schematischen Darstellung in Abbildung 2.1 als
stehende Rechtecke symbolisiert), uber die Informationen aus den Quellen in die multifunktionale Reprasentation gelangen; solche Schittstellen sind zum Teil durch Konversionsroutinen (Abbildungen zwischen verschiedenen Reprasentationen) realisierbar, zum
Teil als interaktive Eingabewerkzeuge. Die als Quellen fur die lexikalische Akquisition in
Frage kommenden Materialien zerfallen, grob gesagt, in zwei Kategorien: einerseits linguistisch vorverarbeitetes Material (Worterbucher, bestehende lexikalische Ressourcen,
linguistisch annotierte Textcorpora, linguistische Intuition), und andererseits \Rohmaterial", welches nicht vorverarbeitet, also nicht von Linguisten beschrieben ist. Rohcorpora
mussen zunachst vorverarbeitet werden (z.B. durch Tokenizing, Lemmatisierung, Annotation).
Die Anwendungs-Zone ist in dem Schema in Abbildung 2.1 durch verschiedene, als
Quadrate symbolisierte NLP-Anwendungen dargestellt, von denen jede uber eine AusgabeSchnittstelle mit Daten aus dem multifunktionalen Worterbuch versorgt wird. In Eurotra-7 geht man davon aus, da fur jede Zielanwendung ein Compiler zu erstellen ist,
der die Reprasentationen aus der \anwendungsneutralen" Darstellung der multifunktionalen Ressource in die anwendungsspezischen Zielformate ubersetzt. Multifunktionalitat
ist nicht auf die Versorgung von NLP-Systemen beschrankt: auch eine Ressource, die
von \menschlichen Benutzern" und von NLP-Systemen abgefragt werden kann, wird in
Eurotra-7 (wie auch im vorliegenden Rahmen) als multifunktional betrachtet.
...
Verarbeitung
Base de Donnees
predictionnairique
...
Quellen:
z.B. Corpus
...
verschiedene
WoerterbuchTypen
in Abschnitt 2.1.1.2 beschriebene Szenarium, das auf ein im Rahmen der Eurotra-7Studie erarbeitetes Schema zuruckgeht, wurde u.a. von [Kanngiesser 1995] kritisiert, weil
es in Eurotra-7 als statisch prasentiert wird. Eurotra-7 macht z.B. keine Aussage
daruber, ob die zentrale Reprasentation linguistischer Beschreibungen, die als Kern des
Wiederverwendungs-Szenariums aufgefat wird, irgendwelchen A nderungen (z.B. Anreicherungsprozessen) unterliegt. Die Frage tritt somit auf, ob die Schnittstellen fur Akquisition und Anwendung von lexikalischen Daten sich bei jeder A nderung der Beschreibungen,
welche das multifunktionale Worterbuch enthalt, ebenfalls andern mussen. U berspitzt formuliert, kann dem Modell vorgeworfen werden, da jede kleinste Erganzung der Beschreibungen in der Reprasentations-Zone sofort eine A nderung samtlicher Schnittstellen (z.B.
Compiler) zur Folge hat, die fur die Ableitung anwendungsspezischer Lexika benotigt
werden.
Eine Antwort auf diesen Einwand soll in Abschnitt 5.2, unten, gegeben werden: wenn
die benutzten Reprasentationen modular konstruiert sind, wenn die einzelnen lexikalischen
Beschreibungen von Lemmata und ihren verschiedenen Lesarten aus lexemunabhangigen
Beschreibungsbausteinen kombiniert werden, und wenn schlielich die Schnittstellen zu
Anwendungen auf diesen Beschreibungsbausteinen, nicht auf den (in der Tat sehr spezi11 Will man eine pre-dictionary fact base erstellen, die aus Corusmaterial gespeist werden kann, so sind
ebenfalls Akquisition und Reprasentation miteinanden zu verbinden.
schen) Lexem- oder Lesartenbeschreibungen aufsetzen, fuhrt die Erganzung des Lexikons
um neue Lesarten oder um neue Lemmata zu keinerlei A nderung der Compiler, mit denen
anwendungsspezische Worterbucheintrage erzeugt werden. Nur eine grundlegende A nderung des Beschreibungsmodells, d.h. des Inventars der Beschreibungsmittel fuhrt somit
zu A nderungen in den Compilern12.
Reversibilitat Ein weiterer Aspekt im Zusammenhang mit dem oben in Abbildung 2.1
angegebenen Schema mu beachtet werden: Das Schema enthalt Pfeile, die das Szenarium als eine Abfolge von verschiedenen Teilprozessen, d.h. als gerichtet bzw. sequentiell
(in der zeitlichen Abfolge) erscheinen lassen. Aus dem Schema lat sich herauslesen, da
zunachst Daten akquiriert werden, diese dann reprasentiert und schlielich an verschiedene Anwendungen weitergegeben werden: Man konnte sich corpusbasierte Lexikographie
als eine Instanz einer solchen Kette vorstellen (vgl. Abbildung 2.3): uber manuelle und
halbautomatische Extraktion aus Corpusmaterial wird ein (u.U. hierarchisches) Modell
erstellt, welches durch interaktive Dateneingabe weiter erganzt werden kann.
EXTRAKTION
DATENEINGABE
...
...
QUELLCORPUS
LEXIKONMODELL
ANWENDUNGEN
(TFS)
Abbildung 2.4: Lexikalische Akquisition aus Corpora: Interaktion zwischen Quelle und
Reprasentation
Die Abbildung 2.4 stellt die Interaktion zwischen der lexikalischen Reprasentation und
der Quelle durch einen Doppelpfeil dar. Da von der Reprasentation zur Anwendung ein
gerichteter Pfeil verlauft, soll ausdrucken, da jeweils ein gegebener Modellzustand in das
Format einer Zielanwendung exportiert werden kann. Die Forderung nach Reversibilitat
(auch die NLP-Anwendungen, die als \Klienten" der multifunktionalen Ressource in dem
Schema in Abbildung 2.1 angegeben sind, konnen ihrerseits Daten-\Lieferanten" sein),
bleibt weiter gultig und ist mit dem Export von Einzelzustanden vertraglich13.
Im Hinblick auf Vorschlage fur multifunktionale Worterbucher (zweite der beiden Lesarten von \Wiederverwendung", oben in Abschnitt 2.1.1), erscheint es als sinnvoll, einige
Ergebnisse von Arbeiten zur Wiederverwendung bestehender Worterbucher als Quellen
(erste der zwei Lesarten von Abschnitt 2.1.1) mit in die Diskussion einzubeziehen. Die
Probleme, auf die man bei der \Um-Nutzung" bestehender Worterbucher stot, sollten
von vorneherein bei der Konzeption multifunktionaler Worterbucher vermieden werden.
Die folgende Diskussion zielt deswegen auf die Formulierung weiterer Anforderungen an
ein multifunktionales Worterbuch ab, wobei die Erfahrungen bei der Nutzung bestehender
Worterbucher in Anforderungen fur neue Worterbucher umgesetzt werden.
Die hier vorgetragene These ist, da detailliert dokumentierte Worterbucher weitgehend reinterpretierbar sind, und da durch Modularisierung und durch die Verknupfung
von ebenenspezischen Teilbeschreibungen ein zusatzlicher Dokumentationseekt entsteht.
Detaillierte Beschreibungen von praktischen Erfahrungen bei der Untersuchung maschinenlesbarer Versionen von traditionellen Worterbuchern nden sich in [Boguraev/Briscoe
1989] und der dort zitierten Literatur. Seit Erscheinen dieses Buchs sind naturlich noch
viele weitere Experimente dieser Art unternommen worden. Viele Beschreibungen solcher
praktischer Arbeiten sind jedoch sehr spezische Berichte uber Einzelfall-Untersuchungen.
13 Auf der Grundlage von Eurotra-7 wurde das hier und in Abbildung 2.4 beschriebene erweiterte
Szenarium in Arbeiten zum DELIS-Projekt entwickelt. Vgl. [Emele/Heid/Humphreys 1993], [Heid
1995a]. Vgl. auch die Diskussionen im Zusammenhang mit Worterbuch-Standardisierung in [Heid
1995b].
In [Heid/Christ/Heyn 1992] wird dagegen eine Synthese versucht: die wichtigsten Typen von Problemen, die bei der Wiederverwendung traditioneller Worterbucher auftreten konnen, werden anhand von Beispielen der Wiederverwendung des Oxford Advanced
Learners Dictionary, 3rd, electronic version, OALD3e 14 , zusammengestellt. Diese Zusammenstellung wird hier im Hinblick auf ihren Nutzen fur die Spezikation multifunktionaler
Worterbucher diskutiert.
Im folgenden ist die Rede von traditionellen Worterbuchern. Als \traditionell" sollen
hier solche Worterbucher bezeichnet werden, die mit den bisher verfugbaren lexikographischen Arbeitsmethoden und Werkzeugen erstellt werden. Zu diesen Methoden gehort die
Verwendung von schriftlich vorliegenden Arbeitsanweisungen und Beschreibungsrichtlinien, wie sie oft in Instruktionsbuchern zu lexikographischen Projekten oder im \framework"
eines Worterbuchs zusammengestellt sind. Hierzu gehort auch die Benutzung von computergestutzten Methoden fur die Sicherstellung von typographischer Konsistenz in den
Worterbucheintragen15 .
\Traditionelle" Worterbucher sind also solche, bei deren Erstellung nur relativ wenig
Konsistenzkontrolle stattndet oder diese Kontrolle ausschlielich auf die \Syntax" der
Worterbuchartikel als Texte, nicht auf deren Inhalt, bezogen ist. Typischerweise kann bei
solchen \traditionellen" Worterbuchern auch nicht oder nur zum Teil uberpruft werden, ob
sich beispielsweise alle Autoren, die Worterbuchartikel zu einem Worterbuch beisteuern,
an die Richtlinien des Instruktionsbuchs halten.
Das Oxford Advanced Learners Dictionary ist ein Beispiel fur ein solches traditionelles
Worterbuch. Da es fur Forschungszwecke auf einfache Weise zuganglich ist, wurde es in den
in [Heid/Christ/Heyn 1992] beschriebenen Experimenten als Untersuchungsgegenstand
ausgewahlt.
14 An dieser Stelle sei Oxford University Press dafur gedankt, da das Worterbuch in maschinenlesbarer
Form fur diese Arbeiten zur Verfugung gestellt wurde. Als die Arbeiten von Christ, Heid und Heyn
abgeschlossen waren, wurde von Oxford University Press auch die stark uberarbeitete 4. Au
age des
Worterbuchs maschinenlesbar zur Verfugung gestellt. Viele der im OALD3e beobachteten Inkonsistenzen waren in OALD4 ausgeraumt worden. Die methodischen Betrachtungen, die in [Heid/Christ/Heyn
1992] und in [Heyn 1992] zusammengestellt sind, verlieren aber deswegen nicht ihren Wert. Sie bleiben, aus theoretischer Sicht, auch fur die Diskussion multifunktionaler Worterbucher relevant. Einen
Erfahrungsbericht uber die Probleme der Nutzbarmachung von OALD3e hat [Heyn 1992] gegeben.
Vgl. auch [Heyn/Christ/Heid 1992].
15 Die typographische Konsistenz von Worterbucheintragen kann weitgehend mit Hilfe von SGML
und SGML-basierten Werkzeugen sichergestellt werden. Es gibt Werkzeuge, die anhand einer
Dokumenttyp-Denition (DTD) uberprufen, ob die fur einen Worterbucheintrag relevanten Textelemente, wie etwa Lemma, Grammatikangabe, Bedeutungsdierenzierung, Bedeutungserlauterung,
Beispielsatze usw. in der richtigen Reihenfolge angegeben werden. Zum Teil kann daruber hinaus
festgelegt werden, in welcher typographischen Auszeichnung die einzelnen Textelemente im fertigen
gedruckten Worterbucheintrag erscheinen sollen. Ein bekanntes Beispiel fur ein solches Werkzeug ist
GestorLEX von textWARE A/S, Kopenhagen.
Was jedoch nicht oder nur unzureichend deniert werden kann, ist der Inhalt der Beschreibungen, d.h.
beispielsweise die Wahl der Textstucke, die fur einen bestimmten Baustein der Mikrostruktur eingesetzt werden konnen. Eine solche Denition leistet ein Inhaltsmodell (eine lexikalische Spezikation).
Die Erstellung vollstandiger lexikalischer Spezikationen mit SGML ist sehr aufwendig und stot dort
an die Grenzen des moglichen, wo die Verwendung standardisierter Beschreibungsbausteine (wie sie
z.B. fur Wortart- oder Genusangaben verwendet werden konnen) nicht moglich ist. Auf Probleme
beim Fehlen eines Inhaltsmodells, wie sie in Multilex und Eagles aufgetreten sind, wird bei der
Diskussion von Worterbuch-Spezikationen (vgl. Abschnitt 2.1.2.6) noch detaillierter eingegangen.
Bei der Festlegung der Prasentation von lexikalischen Beschreibungen bedienen sich die
Lexikographen eines reichhaltigen Inventars von Textstrukturierungsmitteln (Typographie, Symbole, Abkurzungen, Interpunktionszeichen usw.). Diese Textstrukturierungsmittel sind einer der wichtigsten Anhaltspunkte bei der Reinterpretation lexikalischer
Beschreibungen: der Worterbuchtext tritt in einer bestimmten Prasentationsform zutage; was gleich prasentiert ist, wird zunachst als Information von potentiell gleichem Typ
interpretiert.
Ein gemeinsames Inhaltsmodell fur ein Worterbuch, das als Standard, zum Austausch
zwischen verschiedenen Anwendern dienen soll, ist sicherlich nicht eine irgendwie geartete
neue linguistische Theorie (vgl. die Diskussion uber das \polytheoretische" Worterbuch,
seine Moglichkeit oder prinzipielle Unmoglichkeit, in [Zampolli 1994]); es ist nicht realistisch, anzunehmen, da irgend jemand mit \den bestmoglichen Generalisierungen" uber
eine relevante Menge von linguistischen Fakten aufwarten kann. Vielmehr geht es darum,
einen Vorschlag fur eine standardisierte lexikalische Reprasentation dadurch benutzbar
zu machen, da die linguistischen Informationen des Worterbuchs und die Kriterien, die
den jeweils verwendeten Beschreibungen und den auf ihrer Grundlage etablierten Klassikationen zugrundeliegen, moglichst explizit gemacht werden. Statt neue linguistische
Generalisierungen anzustreben, ist es fur die Entwicklung von multifunktionalen Worterbuchern sicherer, auf Generalisierungen dort zu verzichten, wo sie zusehr von einer
bestimmten Anwendung beein
ut waren, selbst um den Preis von Redundanz.
Die Explizierung von Klassikationskriterien kann durch schriftlich xierte Kriterienkataloge erfolgen; es ist mitunter aber noch ezienter, wenn Beschreibungen der \abstrakteren" linguistischen Ebenen (z.B. Pradikat-Argument-Strukturen, lexikalisch-semantische
Information) mit Beschreibungen der \weniger abstrakten, ober
achennahen" Ebenen
(z.B. der kategorialen und morphosyntaktischen Ebene) korreliert werden: dadurch soll
\Unbekanntes" an bekannte und (mindestens weitgehend) allgemein akzeptierte und intersubjektiv nachvollziehbare Klassizierungen angebunden werden. In der Eurotra-7Studie wurde der Vorschlag gemacht, Klassizierungen an in Corpora identizierbaren
Unterscheidungen festzumachen, wo immer dies moglich ist.
Fur manche komplexen Beschreibungsmittel lassen sich denitionsrelevante Fakten
angeben, deren Vorliegen direkt in Textcorpora uberprufbar ist. Beispielsweise kann man
fur das Vorliegen der grammatischen Funktionen Subjekt und Objekt \Anhaltspunkte" auf der kategorialen und der Phrasenstrukturebene, identizieren. Auf diesem Prinzip
beruht auch der Teil der linguistischen Corpuserschlieung, der darauf abzielt, \hohere" syntaktische Beschreibungsmuster (z.B. syntaktische Kategorien) auf \part-of-speechshapes" (POS-Shapes) abzubilden und so im Corpus identizierbar zu machen: hier werden Phrasenbeschreibungen abgebildet auf Beschreibungen von Sequenzen von kategorial
und morphosyntaktisch annotiertem Material21; dieser Zusammenhang ist schematisch in
Abbildung 2.5 anhand der Nominalphrase the little boy dargestellt.
Um fur die Worterbucheintrage des DELIS-Projekts eine (teilweise) U berprufbarkeit
in vorverarbeiteten und linguistisch annotierten Textcorpora zu ermoglichen, wurde als
\Schnittstelle" die Ebene der phrasenstrukturellen Beschreibung von subkategorisierten
Verbkomplementen gewahlt: lexikalische Beschreibungen der \hoheren" Ebenen werden
durch Abbildungen auf POS-Shapes dokumentiert. Die U berprufung im Corpus erfolgt
durch Identikation der den POS-Shapes entsprechenden Beispiele. Dieser Zusammenhang
21 Allgemeiner kann man den Zusammenhang zwischen lexikalischen Beschreibungen und Corpusbeschreibungen als System von Abbildungen zwischen (sozusagen \synchronisierten") ebenenspezischen
Teilbeschreibungen auassen. Auf dem Stand von Forschung und Entwicklung von 1995 liegen in der
Regel Textcorpora lediglich kategorial und morphosyntaktisch annotiert, allenfalls mit phrasenstrukturellen Annotationen versehen vor. Worterbucher enthalten dagegen meist Information von \hoheren"
Beschreibungsebenen, wie (quantorenfreie rudimentare) semantische Pradikat-Argument-Strukturen
oder Subkategorisierungsbeschreibungen unter Angabe von grammatischen Funktionen.
Syntaktische
KategorienAnnotationen
(Phrasen-Typen)
NP
WortklassenAnnotationen
Wortformen
The
A
little
...
...
boy
...
looks
...
Verb (Agens,Thema)
Verb (X,Y)
SUBKATEGORISIERUNG
VON VERBEN
POS-SHAPES
..
FUR
PHRASENTYPEN
KATEGORIALE &
MORPHOSYNTAKT.
NP
...
V ...
NP ... V ... NP
D A N
...
V ...
ANNOTATION
WORTFORMEN
CORPUS
LEXIKON
Beziehung gesetzt werden, da sie jeweils auf eine Menge von denitionsrelevanten Teilbeschreibungen abgebildet werden. Hierdurch wird die Reinterpretation der einzelnen anwendungsspezischen Angaben ermoglicht. In Eurotra-7 wurde dieser Ansatz mithilfe
der in Abbildung 2.7 wiedergegebenen Graphik schematisch dargestellt.
Definition
nach Ansatz A-1
Definition
nach Ansatz A-2
Definitionsrelevante Fakten
Abbildung 2.7: Dokumentation von anwendungsspezischen Beschreibungen durch Abbildung auf denitionsrelevante Fakten (nach Eurotra-7, vgl. [Heid 1991a])
Es ist einleuchtend, da der hier skizzierte Ansatz nur zu einem bestimmten Teil realisiert
werden kann.
Andererseits ist auch die Grenze, bis zu der herunter einzelne Teilbeschreibungen
aufgelost werden mussen, damit die zugrundeliegenden Kriterien explizit gemacht
werden konnen, nicht immer vollstandig klar.
Fur den zweiten Aspekt hier ein Beispiel aus dem Bereich der Morphosyntax: In einem
System zur Analyse (und ggf. U bersetzung) deutscher Satze wird man beispielsweise eine
Morphologiekomponente haben, die morphosyntaktische Beschreibungen von deutschen
Wortformen produziert. Solche Beschreibungen dienen einerseits als Grundlage fur weitere Analyseschritte, z.B. mithilfe einer Grammatik, die phrasenstrukturelle Konstrukte und
grammatische Funktionen und schlielich Satzstrukturen identizieren kann. Andererseits
sollen die von der Morphologiekomponente produzierten Wortformenbeschreibungen auch
als Eingabe fur (separate) Corpusabfrage oder fur die Identikation bestimmter linguistischer Phanomene mithilfe von Pattern-Matching auf der Grundlage von POS-Shapes
dienen.
In der praktischen Arbeit an einem System, welches die genannten Erfordernisse zusammenbringen soll, hat sich wiederholt gezeigt, wie unterschiedlich die Anforderungen
solcher auseinanderliegender NLP-Anwendungen sind: fur die im Deutschen als Korrelate
verwendeten Wortformen (z.B. daran, dafur, damit, etc.) liefert die Morphologiekomponente eine kategoriale Beschreibung (als Pronominaladverb), sowie ggf. eine distributionelle Subklassizierung. Eine Grammatik wird denselben Wortformen auf der Ebene der
phrasenstrukturellen Konstrukte u.U. eine komplexe Struktur zuweisen, aus der hervorgeht, da die als Korrelat verwendeten Wortformen \Platzhalter" fur Prapositionalphrasen sind (wobei die Komponenten -an, -fur, -mit auf die entsprechenden Prapositionen
hinweisen und die Komponente da- bzw. da(r)- den nominalen bzw. pronominalen Charakter ausmacht).
Soll ein und dieselbe Morphologiekomponente als Informationslieferant fur die MU Grammatik und fur die Corpusabfragewerkzeuge dienen, dann wird es schwierig, eine sehr
detaillierte gemeinsame Reprasentation zu nden. Wird die Reprasentation zu stark an
den Anforderungen einer Anwendung ausgerichtet, so kann man sicher sein, da die andere
Anwendung damit erhebliche Schwierigkeiten hat. Deswegen werden Abbildungsregeln
zwischen dem Morphologie-Output und den anwendungsspezischen Zielreprasentationen
formuliert, die von der Morphologiekomponente erzeugte lexikalische Beschreibungen in
der fur die jeweilige Anwendung relevanten Weise anreichern.
Eine Morphologiekomponente ist ein typisches Beispiel fur eine multifunktionale lexikalische Beschreibung, die verschiedene NLP-Anwendungen unterstutzt. Entsprechend
sollte ihre Ausgabe genauestens dokumentiert, jedoch nicht mit Spezika \beladen" sein,
welche von einzelnen Anwendungen gefordert werden. Die Abbildungsregeln zwischen
Morphologie und Grammatik, oder zwischen Morphologie und Corpusabfragesystem sind
Beispiele fur die in Abbildung 2.1 schematisch dargestellten \Compiler" zu den Anwendungen23 .
Man kann die prinzipielle Machbarkeit multifunktionaler Worterbucher in Abrede stellen und Versuche in dieser Richtung, wie sie z.B. in Eagles (vgl. [Calzolari/Monachini
1993]) oder in Comlex (vgl. [Grishman/MacLeod/Meyers 1994] und [Grishman/MacLeod
1994]) unternommen werden, als anwendungsspezische Worterbucher beurteilen. Man
kann aber auch, wie z.B. im Projekt WordManager (vgl. [Domenig/ten Hacken 1992]),
im Sinne einer \pragmatischen" Losung Lexika fur diejenigen Teilfragmente aufzubauen
versuchen, fur die mit einiger Aussicht auf Erfolg eine detaillierte und von einzelnen spezischen Anwendungen weitgehend unabhangige Beschreibung moglich ist.
aus dem OALD3e Informationen zu extrahieren, die fur ein sprachverarbeitendes System
verwendet werden konnten. Gleichzeitig mit dem Aufwand fur die Extraktion wurde auch
uberpruft, welche Art von linguistischer Information extrahiert werden konnte und fur
welche NLP-Anwendungen diese Inforamtion nutzlich sein konnte. Die Ergebnisse der Untersuchung sind im Detail in [Heyn 1992], sowie zusammenfassend in [Heid/Christ/Heyn
1992] und [Heyn/Christ/Heid 1992] dokumentiert.
Die wichtigsten Klassen von Problemen, die bei der Analyse des OALD3e zutage getreten sind, sind nachfolgend zusammengestellt. Aus der Beschreibung der Probleme ergibt
sich jeweils eine Forderung fur die Gestaltung multifunktionaler Worterbucher; in der
folgenden Liste sind deswegen die in bestehenden Worterbuchern beobachteten Probleme jeweils zusammen mit Forderungen fur die Gestaltung zukunftiger multifunktionaler
Worterbucher angegeben.
1. Konsistenz: Bei der Analyse gedruckter Worterbucher fallen deskriptive Lucken auf,
bzw. Falle, wo ein gegebener Worterbuchartikel nicht alle jene Teilbeschreibungen
aufweist, die andere Artikel desselben Typs ublicherweise enthalten24 . Das Instruktionsbuch (oder das \Framework") eines Worterbuchs deniert meist bestimmte
Verfahren fur die Beschreibung bestimmter Klassen von Lemmata. Solche Anweisungen werden im OALD3e oft nur teilweise durchgehalten. Solche Lucken ruhren
daher, da die Artikelstruktur im ublichen Worterbucherstellungsproze nur einer
schwachen Kontrolle unterliegt. Im OALD3e treten verschiedene solcher Falle auf.
Ein multifunktionales elektronisches Worterbuch mu so konzipiert sein, da Eintrage desselben Typs analoge Beschreibungen erhalten. Es mu ein \Minimal-Inventar" von Angaben fur jeden Typ von Worterbuchartikel geben. Der Lexikograph
mu gezwungen sein, Beschreibungen von Lexemen, die er in eine gemeinsame Klasse aufnehmen mochte auch mit denselben Attributen und mit Werten aus demselben
Wertebereich zu beschreiben.
2. Eindeutige Beschreibungsmittel: Bei der Analyse gedruckter Worterbucher fallt auf,
da es sowohl polyfunktionale Angaben gibt, als auch synonyme Wertenamen.
Unter \polyfunktionalen Angaben" verstehen wir solche Bauteile der Mikrostuktur von Worterbuchartikeln, bei denen ein und dieselbe Form von Angabe zur Beschreibung verschiedener Typen von linguistischen Phanomenen dient. Im OALD3e
werden beispielsweise \pluralia tanta" und unregelmaige Pluralformen mit derselben Angabe ausgezeichnet. Es bleibt dem Worterbuchbenutzer und seiner (Worterbuch-externen) Sprachkompetenz uberlassen, die im Kontext des jeweiligen Worterbucheintrags richtige Interpretation der Angabe zu identizieren.
Da fur ein multifunktionales elektronisches Worterbuch in der Regel eine Automatisierung der (Re-)Interpretation angestrebt wird, sind polyfunktionale Angaben zu
vermeiden: sie konnen nicht oder nur mit extremem Aufwand reinterpretiert werden; meist lohnt sich die Formulierung von (heuristischen) Reinterpretationsregeln
nicht.
\Synonyme Wertenamen" liegen dort vor, wo derselbe Sachverhalt durch verschiedene Werte eines Attributs (oder durch verschiedene Angabeformen, bzw. Etiketten
24 Auf der Grundlage einer detaillierten Diskussion eindrucklicher Beispiele fordert [Verkuyl 1994] Konsistenz im Worterbuch, und zwar nicht nur hinsichtlich der Prasentation, sondern auch (und primar)
hinsichtlich der (semantischen) Beschreibung.
terbuchern auf, die ohne strenge Konsistenzkontroll-Mechanismen produziert werden. Viele dieser Probleme konnen vermieden werden, wenn dem Worterbuch eine formale Spezikation zugrundeliegt, die automatisch, z.B. mit den Mitteln eines computerlinguistischen
Formalismus, uberwacht werden kann25.
zunachst einige Beispiele aus Arbeiten von Eagles diskutiert, die zeigen sollen, welche
Probleme das Fehlen einer Spezikation fur die Modellierung eines Gegenstandsbereichs
auslost.
In den Arbeiten der Eagles-Gruppe zur Entwicklung eines Standards der morphosyntaktischen Beschreibung von lexikalischen Einheiten (vgl. [Calzolari/Monachini 1993])
wurden zunachst nur Etiketten fur die Annotation von Wortformen (\Tags", das Vokabular der Beschreibung) vorgeschlagen, aber keine detaillierte Beschreibung der Syntax
und Semantik der Kombination dieser Etiketten gegeben. Ein Beispiel ist die in Tabelle
2.2 dargestellte Sammlung von Etiketten fur die morphosyntaktische Beschreibung von
Substantiven der neun \alten EG-Sprachen".
Die Tabelle enthalt das Vokabular, aus dem Beschreibungen von Wortformen (in diesem Fall Flexionsformen von Nomina) genommen werden konnen; sie besteht aus zwei
Teilen.
Der obere Teil ist ein Vergleich bestehender Inventare von morphosyntaktischen Etiketten, die in europaischen Lexikonprojekten (Multilex, Genelex) und in Vorschlagen zur Corpusannotation (Nerc (Network of European Reference Corpora),
Arbeiten von Georey Leech im Rahmen der Eagles-Corpus-Gruppe) benutzt wurden. Der Gedanke, ein fur ein Projekt, eine Arbeitsgruppe, etc. verbindliches Inventar von Etiketten zu schaen, mit dem Wortformen annotiert werden, steht in der
corpuslinguistischen Tradition der Tagsets. Die in den bekannten Corpusprojekten
(vor allem zum Englischen) entwickelten Tagsets sind solche Sammlungen von Etiketten fur Wortformen29.
Der untere Teil der Tabelle 2.2 enthalt Vorschlage von Eagles f
ur ein standardisiertes Etiketteninventar, in vier Schichten. Die Ebene L0 enthalt nur die Kategorieangabe; L1 enthalt obligatorische Beschreibungen. Ebene L2a enthalt fakultative
Beschreibungen, die zu L1-Beschreibungen hinzutreten konnen und fur eine groere
Anzahl von Sprachen (mindestens drei) gelten. Die Ebene L2b enthalt sprachspezische Beschreibungen.
Die Tabelle 2.2 enthalt zwar nur Etiketten fur Wortformen, aber man kann sie im Sinne
einer Beschreibung in Attribut-Wert-Paaren reinterpretieren. Die Kolonnentitel konnen
als Attributnamen interpretiert werden (z.B. Type, Gend(er), Numb(er), Case, ...);
die Zeilen der Tabelle (L0, L1, L2a, L2b) geben das \Empfehlungsniveau" (obligatorisch,
fakultativ) an, die Eintrage in den Zellen werden als Werte interpretiert. Beschreibungen
der Empfehlungsniveaus L0 und L1 werden uniziert; die Berucksichtigung von L2a und
L2b ist allerdings nicht von vorneherein formal geregelt.
Vielmehr zeigt sich hier, wie sich das Fehlen einer formalen Spezikation auswirkt, die
als Interpretationsvorschrift fur das \Lesen" der Etiketteninventare dienen konnte30 :
\[Gend: (It) c]" auf Ebene L2b ist ein \Macro". Es handelt sich um eine Abk
urzung,
die fur eine Disjunktion (\c = m j f") steht31 ;
29 Vgl. z.B. die detaillierte Diskussion des Susanne-Corpus und des zugehorigen Tagsets bei [Sampson
1995].
30 Hiermit sollen die prinzipiellen Verdienste von Eagles, speziell aus der Sicht der Standardisierung,
nicht geschmalert werden.
31 Die Abkurzung \c" steht fur \common (gender)" und beschreibt Formen wie l'insegnante capace { gli
insegnanti capaci.
Type Gend
com m
prop f
n
G
e
n
A
l
D
N
E
R
C
com
prop
m
f
m
f
n
m
f
m+f
sg
pl
L
e
e
c
h
com
prop
m
f
n
c
sg
pl
com
prop
m
f
n
sg
pl
M
u
l
t
L0
L
1
com
prop
Numb Case
sg
nom
pl
gen
dat
acc
voc
sg
pl
sg
pl
s+p
L
2
a
L
2
b
It c
It n
Du f(m)
Du cont
Sp trns
Sp notr
nom
gen
dat
acc
bas
nom
gen
dat
acc
voc
bas
Count Den
cou
mass
In ect
cou
mass
NOUN
nom
cou
gen
mass
dat
acc
Gr voc
Gr ind
Da def
Da/Ge weak
Da indf Da/Ge strg
Da unmk Da/Ge mix
Tabelle 2.2: Etiketten fur die Beschreibung von Substantiven in Corpus- und Lexikonannotationen von Eagles, nach [Calzolari/Monachini 1993]
\[Case: (Gr) voc]" auf Ebene L2b ist dagegen ein neu hinzutretender Wert (\Vokativ"); fur die meisten Sprachen gilt:
[Case: nom j gen j dat j acc ].
Fur das Neugriechische wurde jedoch deniert:
[Case: nom j gen j dat j acc j voc].
\[Case: (Gr) ind]" ist eine versteckte nicht-monotone Beschreibung. Sie sagt aus,
da die durch das Attribut und seine Werte denotierte Beschreibungsdimension fur
ein gegebenes linguistisches Objekt nicht relevant ist und deniert dadurch Ausnahmefalle (ind fur \indeclinable"). \[Case: ind]" wird an Nomenformen (des Neugriechischen) zugewiesen, bei denen keine Kasusmarkierungen sichtbar sind.
In den Beispielen werden Etiketten nebeneinandergestellt, ohne da ihre Interaktion deutlich gemacht wird: \c" in \[Gend: (It) c]" ersetzt andere Werte (\m" und \f"), \voc"
tritt zu den bestehenden Werten hinzu, \ind" setzt die Anwendbarkeit eines Attributs
auer kraft. Alle Falle sind gleich notiert.
Da die Modellierung die Benutzung verschiedenartiger Kombinationsvorschriften fur
die Etiketten notwendig machen kann, steht auer Frage; der benutzte Formalismus soll
die dazu notwendigen Verfahren bereitstellen. Aber dies ist nur moglich, wenn die verschiedenen Modellierungsverfahren (und ihre zugehorigen Interpretationen) klar unterscheidbar sind. In der in Tabelle 2.2 reproduzierten Eagles-Beschreibungen fehlt eine
Interpretationsvorschrift, wie sie beispielsweise durch die eine constraint-basierte Spezikation gegeben wird; sonst mu man eine detaillierte Kenntnis von Eagles (oder von
den behandelten Sprachen) haben, um die einzelnen Angaben in der Tabelle eindeutig
interpretieren zu konnen.
Fehlt eine formale Spezikation, die eine solche Interpretationsvorschrift liefert, so
konnen auch bei einem abgeschlossenen und relativ \einfach" zu beschreibenden Gegenstandsbereich wie der Morphosyntax des Nomens (\einfach" soll heien: die linguistischen
Fakten sind bekannt) Probleme bei der Interpretation von Beschreibungsmitteln auftreten.
In Eagles wurde dieses Problem erkannt; die in Tabelle 2.2 dargestellten Inventare
von Etiketten werden nur als der erste Schritt in einem stufenweisen Proze der Erstellung von Vorschlagen fur Standard-Lexika und -Tagsets angesehen. Der nachste Schritt
besteht darin, auf den Inventaren linguistische Spezikationen zu konstruieren, die formal
reprasentiert und automatisch uberpruft werden konnen. Solche Spezikationen wurden
in Eagles von [Teufel 1995a] fur die Morphosyntax des Deutschen und analog von [Rekowski 1995] fur Franzosisch und von [Monachini 1995] fur Italienisch erarbeitet32. Fur
deutsche Substantive ergibt sich z.B. eine Spezialisierungshierarchie, wie in Abbildung 2.8:
die Darstellung in Abbildung 2.8 kodiert die deutsche Instanz der multilingualen Tabelle
2.2; fur jede Teilklasse wird angegeben, welche Attribute deniert sind; ist ein Attribut fur
eine Teilklasse nicht relevant, so ist es von der Denition dieser Teilklasse ausgeschlossen
(vgl. das Attribut declin bei Eigennamen: es fehlt in der Denition der Klasse33 ).
pos = n
Feature
pos
type
declin
numb
case
gend
in
NOUNS
Values
noun
com
normal
adject
sg, pl
sg, pl
nom, gen, dat, acc
nom, gen, dat, acc
m,f,n,*
m,f,n,*
|
weak, strg, mix
prop
|
sg, pl,*
nom, gen, dat, acc,*
m,f,n.*
|
Die hier genannten Eigenschaften erhalten insbesondere dann ihre Bedeutung, wenn es
um die Denition von Spezikationen fur mehrdeutige Falle geht, in denen u.U. der Lexikograph selbst nicht unmittelbar zu eindeutigen Klassizierungen kommt.
Deskription gehort die Denition der Klassizierungen, die der Lexikograph vornehmen
mochte.
Als \lexikographische Prasentation" bezeichnen wir die Art und Weise, in welcher die
Beschreibungsresultate einem bestimmten Zielpublikum dargeboten werden (vgl. oben die
Diskussion in Abshnitt 2.1.2.2).
Naturlich bestehen sehr enge Zusammenhange zwischen deskriptiver und prasentationeller Seite lexikographischer Arbeit35. Insofern die Auswahl aus moglichen Beschreibungen ihrerseits prasentationellen, von der Zielgruppe her denierten Charakter hat, wirken
sich prasentationelle Entscheidungen zwar nicht auf die deskriptive Arbeit selbst, jedoch
auf die Weiterverwendung deskriptiver Resultate aus.
Die Relevanz der Unterscheidung zwischen deskriptiver und prasentationeller Seite
lexikographischer Arbeit fur die Wiederverwendungsdiskussion lat sich auch aus den
Vorschlagen von [Martin/Al 1988] fur multifunktionale Lexika herauslesen. Die beiden
Autoren unterscheiden zwischen einer \database", d.h. einer multifunktional gedachten
Sammlung von lexikographischen Beschreibungen, deren Form nicht von den Notwendigkeiten einzelner Anwendungen beein
ut ist, d.h. bei der (noch) keine prasentationellen
Entscheidungen getroen worden sind, und andererseits \front-end-dictionaries", d.h. anwendungsspezischen Worterbuchern, bei denen die Auswahl aus den Beschreibungsresultaten und deren Prasentation von den Notwendigkeiten einer bestimmten Zielgruppe
gepragt ist.
\User-orientation is to be dened as a relative characteristic of dictionaries
(front-ends), not (necessarily) of the underlying databases from which they
are derived." [Martin/Al 1988]
Vergleicht man Eintrage zum selben Lemma in verschiedenen Worterbuchern, so lassen
sich Beispiele fur eine (weitgehend) gemeinsame lexikographische Datendeskription und
unterschiedliche Prasentationsformen leicht nden; in Abbildung 2.9 sind die Subkategorisierungsangaben s.v. DE abraten aus allgemeinen zweisprachigen Worterbuchern Deutsch
$ Franzosisch (Weis/Mattutat und Sachs/Villatte) dem Eintrag s.v. FR deconseiller aus
[Busse/Dubost 1983] gegenubergestellt36 ; die Prasentation der Subkategorisierungsangaben in [Busse/Dubost 1983], einem Spezialworterbuch der Verbsyntax, weicht (naturlich)
von derjenigen im allgemeinen zweisprachigen Worterbuch stark ab: Busse/Dubost ist beispielsweise als Tabelle gesetzt, enthalt Konstruktionsmuster-Formeln und fur jede Formel
einen Beispielsatz.
Eine fur ein zweisprachiges Worterbuch neue Prasentationsform fur Subkategorisierungsangaben ist im Worterbuchartikel s.v. achten aus einem in Vorbereitung bendlichen
Deutsch $ Franzosischen Worterbuch zu nden: dort wird die Verbkonstruktion durch
35 Fur metalexikographische Diskussionen uber Worterbucher ist es generell sinnvoll, zwischen deskriptiven und prasentationellen Fragestellungen strikt zu unterscheiden und zu versuchen, bei der Diskussion oder Kritik bestehender Worterbucher und bei der Erarbeitung von Vorschlagen fur neue
Worterbucher die beiden Aspekte nicht zu vermischen. Fur die vorliegende Arbeit wird dieser Versuch
unternommen. Die Diskussion konzentriert sich dabei auf die deskriptive Seite der lexikographischen
Arbeit.
36 Hier und im Rest der Arbeit werden Objektsprachzitate mit Kurzeln fur die jeweilige Sprache versehen. \DE" steht fur Deutsch, \FR" fur Franzosisch, \EN" fur Englisch, \IT" fur Italienisch, \ES" fur
Spanisch und \NL" fur Niederlandisch. Diese Kennzeichnung fehlt, wenn die jeweilige Sprachzuordnung aus dem Kontext hervorgeht.
>
Vereinfacht kann man aufgrund der genannten drei Unterscheidungen fur zwei Sprachen
A und B die folgenden vier verschiedene Typen von Worterbuchern unterscheiden:
Ein Worterbuch A ! B f
ur Sprecher von A: ein \Hinubersetzungs-Worterbuch" fur
Sprecher von A;
Ein Worterbuch A ! B f
ur Sprecher von B: ein \Herubersetzungs-Worterbuch" fur
Sprecher von B;
Ein Worterbuch B ! A f
ur Sprecher von A (\Herubersetzungs-Worterbuch");
Ein Worterbuch B ! A f
ur Sprecher von B (\Hinubersetzungs-Worterbuch").
Die vier Worterbucher sind alle sprachpaarspezisch, gerichtet und adressatenspezisch.
Nach der metalexikographischen Theoriebildung sollten alle vier Typen unterschiedlich
sein, wobei Hinubersetzungs- und Herubersetzungs-Worterbucher jeweils spezielle Eigenschaften haben.
Man konnte sich vorstellen, da dieselben Fakten uber die A quivalentbeziehungen zwischen Lexemen der Sprachen A und B in den vier Worterbuchern beschrieben werden. Eine Extremposition in der Diskussion uber die Organisation zweisprachiger Worterbucher
konnte darin bestehen, zu behaupten, da die vier Worterbucher unterschiedliche deskriptive Ansatze notig machen; eine andere Extremposition wurde behaupten, da die vier
Worterbucher sich nur in der Prasentation, nicht in den Beschreibungen, voneinander
unterscheiden sollen.
40 Weitere Beitrage zu dieser Diskussion wurden von [Mugdan 1990] und [Mikkelsen 1991] veroentlicht.
Vgl. auch die dort zitierten Quellen.
Der Kernpunkt der Theorie der direktionalen Worterbucher, wie sie beispielsweise von
[Kromann 1989] formuliert worden ist, ist folgender: in jeder U bersetzungssituation wirken die Eigenschaften der Zielsprache als Bedingungen (Restriktionen, Constraints) fur
die A quivalentformulierung und A quivalentwahl. Im Hinubersetzungs-Worterbuch sind
zielsprachliche Constraints auf der Ebene der lexikalisch-semantischen und der syntaktischen Beschreibung besonders relevant, soda der Lexikograph aufgrund des Fehlens von
Zielsprachintuition beim Worterbuchbenutzer zu besonderer Prazision und zu besonderer
Detailliertheit bei der Angabe von zielsprachlichen Beschreibungen gezwungen ist. Kromann verlangt, da das (direktionale) U bersetzungsworterbuch die Quellsprache \durch
die Brille" der Zielsprache beschreibt41 .
Damit ist gemeint, da nicht so sehr die eventuell in monolingualen quellsprachlichen Worterbuchern vorkommenden Bedeutungsdierenzierungen fur die Bedeutungsdifferenzierung des U bersetzungsworterbuchs eine Rolle spielen, sondern vielmehr diejenigen
Unterscheidungen, welche in der Zielsprache gemacht werden mussen. Diese Unterscheidungen sind dem Worterbuchbenutzer nicht von vorneherein bekannt; sie mussen ihm
detailliert nahegebracht werden, um sicherzustellen, da das Worterbuch optimale Unterstutzung bei der fremdsprachlichen Textproduktion leisten kann42 .
Die Spezika des direktionalen Worterbuchs werden dort am deutlichsten, wo einerseits A quivalentrelationen beschrieben werden, bei denen zwischen Quell- und Zielsprache
weitgehende Isomorphie vorliegt, sowie andererseits Falle mit gravierenden Unterschieden
zwischen Quell- und Zielsprache. Isomorphie-Situationen treten beispielsweise dort auf,
wo dieselben Bedeutungsunterscheidungen in Quell- und Zielsprache gemacht werden,
bzw. wo quellsprachliche und zielsprachliche lexikalische Einheiten analoge linguistische
Eigenschaften aufweisen.
Das direktionale Worterbuch wurde im Falle von Isomorphie davon ausgehen, da der
Benutzer Unterscheidungen, die ihm aus der Quellsprache bekannt sind, solange auf die
zielsprachliche Situation ubertragen darf, wie ihm keine speziellere zielsprachspezische
Information geliefert wird. Umgekehrt fordert es, da samtliche Falle, in denen sich Quellund Zielsprache unterscheiden, in der Weise prasentiert werden, da die zielsprachlichen
41 Vgl. [Kromann 1989]:56: \Bei der lexikalischen und grammatischen Beschreibung zweier Sprachen
sieht der Lexikograph das jeweilige System durch die Brille des anderen Systems." [ ] \Wenn das
Fremdwort intensiv etwa vier Bedeutungen hat (Arbeiten/Schmerz/Gesprach/Landwirtschaft) und
das entsprechende russische Wort den gleichen Bedeutungsumfang, dann kann der Lexikograph kurzen
und braucht nicht diese Bedeutungsgliederung aus dem einsprachigen Bedeutungsworterbuch zu wiederholen" (a.a.O.).
Und: \Der Benutzer schlagt im zweisprachigen Worterbuch nach, um Schwierigkeiten in der Fremdsprache zu beheben, und nicht, um Schwiereigkeiten in der Zielsprache zu beheben." ([Kromann
1989]:59).
42 Eine analoge Problematik besteht naturlich auch beim Herubersetzungs-Worterbuch, weil auch dort
die U bersetzung in die Zielsprache Constraints fur die A quivalentwahl darstellt. Das Problem wird
jedoch im Hinubersetzungs-Worterbuch insofern deutlicher, als nicht mit der Sprachkompetenz des
Benutzers gerechnet werden kann. In Sprachverarbeitungsanwendungen, d.h. in Systemen, in denen
keinerlei Sprachwissen vorhanden ist, welches nicht im Worterbuch oder in der Grammatik kodiert
ware, mussen naturlich Quell- und Zielsprache gleichermaen detailliert beschrieben werden (vgl.[Heid
1988]:203f.). Die Abhangigkeit von Zielsprach-Constraints bleibt jedoch bestehen: das System mu
eine wohlgeformte zielsprachliche Realisierung erzeugen konnen; eine detaillierte Beschreibung der
Quellsprache ist in einem solchen System zwar unabdingbar, jedoch nur wirklich einsetzbar, wenn es
fur sie eine adaquate zielsprachliche Realisierung gibt.
:::
Alternativen (beispielsweise zwischen quasisynonymen A quivalentvorschlagen) dem Benutzer dierenziert deutlich gemacht werden.
Die Theorie der \nicht-direktionalen" Worterbucher43 geht ebenfalls von der Unterscheidung in vier Typen von zweisprachigen Worterbuchern aus. Hinzu tritt allerdings die
U berlegung, da das Hinubersetzungs-Worterbuch primar dem Benutzer dazu dienen soll,
Inhalte die er ublicherweise in seiner Muttersprache formuliert, in einer anderen Sprache
moglichst getreu wiederzugeben. Hieraus leitet sich der Anspruch ab, zunachst fur die
Quellsprache eine moglichst detaillierte inhaltliche Beschreibung zu geben, an welcher
kontrastive Statements festgemacht werden konnen.
Die Vertreter der Vorschlage fur die nicht-direktionale Worterbuchorganisation anerkennen durchaus die Notwendigkeit einer kontrastierenden zielsprachlichen Beschreibung, schlagen jedoch daruberhinaus vor, eine detaillierte Beschreibung der Quellsprache als Ausgangspunkt der Beschreibung zu verwenden: Das Worterbuch soll in seinen
Eintragen diejenigen Fakten, Objekte, Situationen usw. explizit benennen, uber welche
die Mitglieder der Sprachgemeinschaft, deren Sprache als Quellsprache fungiert, sprechen mochten. Deswegen wird ein monolinguales Denitionsworterbuch, welches explizite
und teilweise formalisierte Bedeutungsbeschreibungen enthalt, als \starting point for the
macrostructure"44 des zweisprachigen Worterbuchs genommen.
Die Idee des nicht-direktionalen Worterbuchs wurde bei dem niederlandischen Verlag
Van Dale entwickelt und erstmalig realisiert. Ausgehend von Bedeutungserlauterungen
eines einsprachigen niederlandischen Worterbuchs ([Van Sterkenburg/Pijnenburg 1984])
wurden Hinubersetzungsworterbucher Niederlandisch!Englisch, Niederlandisch!Deutsch,
Niederlandisch!Franzosisch konzipiert. Das monolinguale Denitionsworterbuch wurde
bei der Entwicklung der zweisprachigen Worterbucher als Inventar von \Lesarten" verwendet, die jeweils aus einem Lemma und einer Bedeutungserlauterung bestehen45 . Die Paare
aus \ Lemma, Bedeutungserlauterung ", dienen als Ausgangspunkt fur A quivalenzaussagen im zweisprachigen Worterbuch; sind sind sozusagen das Inventar der Fakten,
Objekte, Situationen, etc., uber die der niederlandische Benutzer der Worterbucher sprechen mochte: in seiner Muttersprache Niederlandisch, oder in einer der Fremdsprachen,
in die die Van Dale-Worterbucher ubersetzen.
Fur jedes der Hinubersetzungsworterbucher mit Niederlandisch als Quellsprache wird
(im Groen und Ganzen) dasselbe Inventar von \Lesarten" als Ausgangspunkt angesetzt.
Die A quivalenzaussagen selbst konnen dann, wiederum in starker Vereinfachung, als Paare
aus je einer solchen \Lesart" und einer Menge von moglichen zielsprachlichen A quivalentbeschreibungen aufgefat werden.
<
>
43 Die Bezeichnung als \direktional" und \nicht-direktional" wurde vom Autor in [Heid 1990], [Heid
1991a] eingefuhrt und diskutiert. In [Heid 1991a] heien die \nicht-direktionalen" Worterbucher noch
\konzeptorientierte" Worterbucher.
44 Vgl. [Van Sterkenburg/Martin/Al 1982]: 228.
45 Bedeutungserlauterungen konnen Synonyme, Denitionen, Verweise usw. sein. Die Form der Bedeutungserlauterungen ist nicht vollstandig standardisiert. Details werden unten in Abschnitt 2.2.3
gegeben.
Im folgenden werden einige Aspekte der beiden in den Abschnitten 2.2.2.2 und 2.2.2.3
skizzierten Ansatze zur Gestaltung von zweisprachigen Worterbuchern verglichen. Der
Vergleich zielt darauf ab, herauszuarbeiten, welche Aspekte der beiden Herangehensweisen
der zweisprachigen Lexikographie fur die Formulierung von kontrastiven Worterbuchern
fur maschinelle Anwendungen besonders relevant sind. Hierbei stehen die angestrebte
Multifunktionalitat und Formalisierbarkeit der Worterbucher im Vordergrund.
Ein wichtiger Unterschied zwischen den beiden Ansatzen konnte, schlagwortartig, wie
folgt beschreiben werden: die nicht-direktionalen Worterbucher zielen auf Modularitat ab,
die direktionalen Worterbucher auf Ezienz.
Beim nicht-direktionalen Ansatz werden samtliche Typen von A quivalenzrelationen,
unabhangig davon, ob zwischen Quell- und Zielsprache Isomorphie herrscht oder nicht,
nach einem einheitlichen Verfahren beschrieben46 . Auerdem konnen die quellsprachlichen Beschreibungen \herausgelost" und als eigene Komponenten behandelt werden. Die
Methode, ausgehend von einer bereits vorhandenen quellsprachlichen Beschreibung A quivalentrelationen fur die U bersetzung aus der Quellsprache in andere Sprachen zu formulieren, und beide Teilbeschreibungen separat, jedoch kompatibel zu halten, unterstutzt
die Modularitat. In Arbeiten von [Al 1988], [Martin 1989], [Heid 1990], [Martin/van der
Vliet 1992], wurden Experimente unternommen, die Modularitat der U bersetzungsworterbucher von Van Dale noch weiter auszunutzen, um aus zwei Hinubersetzungsworterbuchern mit Niederlandisch als Quellsprache (z.B. NL ! FR, NL ! DE) eine Datenbasis
fur U bersetzungsworterbucher zu erzeugen, welche zwischen den Zielsprachen der beiden eingesetzten Worterbucher vermitteln (FR $ DE). Hierauf wird in Abschnitt 2.2.3.5
detailliert eingegangen.
Demgegenuber ist der direktionale Ansatz auf Ezienz der Prasentation angelegt. Die
\Mitwirkung" des Benutzers, d.h. der Einbezug seiner Quellsprachkompetenz wird maximal ausgenutzt: Isomorphie-Situationen zwischen Quell- und Zielsprache werden bei der
Prasentation von A quivalenzbeschreibungen speziell behandelt: in den Fallen, wo Quellund Zielsprache sich analog verhalten, wird dem Benutzer dieser Sachverhalt signalisiert,
und es wird auf eine detaillierte Beschreibung zielsprachlicher Einheiten verzichtet. Umgekehrt wird explizit auf Unterschiede zwischen quell- und zielsprachlicher Realisierung
hingewiesen, und es werden all diejenigen Unterscheidungen der Zielsprache hervorgehoben, die fur den Benutzer unklar sein konnten. Insofern diese Unterschiede sich aus den
(in der Regel dem Benutzer nicht (vollstandig) bekannten) Eigenschaften der zielsprachlichen Lexeme oder der \Realien" bzw. Konzepte der hinter der Zielsprache stehenden
Kultur erklaren lassen, mu die zielsprachseitige Beschreibung in diesen Fallen besonders
detailliert, explizit und ggf. kontrastierend sein.
Interessant ist in diesem Zusammenhang, da das direktionale Worterbuch auch die
explizite Unterscheidung von Lesarten dort vermeidet, wo in Quell- und Zielsprache dieselben Lesartenunterscheidungen vorliegen, jedoch in beiden Sprachen die jeweiligen Lesarten
in einem Lexem zusammenfallen. Analoge Vorgehensweisen wurden im Rahmen der maschinellen U bersetzung diskutiert, mit den Ziel der \Erhaltung von Ambiguitaten": wenn
Quell- und Zielsprache dieselben Mehrdeutigkeiten aufweisen, so ist es nicht notwendig,
da bei der U bersetzung eine vollstandige Disambiguierung erfolgt; die Lesarten, die im
46 [Baunebjerg Hansen 1990] stellt fest, da die Mikrostruktur von Van Dale-Worterbuchern im Vergleich
mit anderen Worterbuchern besonders stark standardisiert ist.
Sem
ZS
formation wie notig. Dagegen ist das nicht-direktionale Worterbuch modularer, um den
Preis gelegentlicher Redundanz.
Man konnte sich vorstellen, da aus einer fur ein nicht-direktionales Worterbuch konzipierten Datengrundlage durch die Anwendung der Prasentationsprinzipien der direktionalen Worterbucher durchaus ein Worterbuch im (speziellen) Prasentationsformat des
direktionalen Ansatzes abgeleitet werden konnte.
Bedeutung Denition
1
Action d'organiser (qqch.); son resultat.
Action d'organiser.
Le fait d'organiser ou de s'organiser; son resultat.
2
Facon dont un ensemble est constitue
en vue de son fonctionnement.
Maniere dont un ensemble quelconque est constitue, regle.
Fait d'^etre organise de telle ou tell maniere.
3
Association qui se propose des buts determines.
Association, groupement.
Association a buts determines.
Worterbuch
[PR]
[DHF], [LEXIS]
[DFV]
[PR]
[DHF]
[LEXIS]
[PR],[LEXIS]
[DHF]
[DFV]
organisation,
het organiseren.
het georganiseerd-zijn en de wijze waroop iets is georganiseerd.
georganiseerd (onstoelijk) lichaam.
organisatie [...]
0.1 [het organiseren] organisation
0.2 [het georganiseerd zijn, de wijze] organisation
structure, ordre
0.3 [vereniging] organisation
) groupement, organisme, association
)
2.2.2.6 Zwischenbilanz
Oben am Ende von Abschnitt 2.2.2.1, Seite 45, wurden Extrempositionen der Diskussion
uber Zusammenhange zwischen beiden Ansatzen der Worterbuchorganisation angedeutet.
Die Diskussion der Beispiele aus Abbildung 2.10 und die Beispieldiskussion im vorliegenden Abschnitt sprechen fur die These, da der Unterschied zwischen direktionalem und
nicht-direktionalem Worterbuch primar prasentationeller Natur ist. Das gilt insbesondere
dann, wenn { wie im Fall Van Dale { die Notwendigkeit einer detaillierten Beschreibung
der Zielsprache von Vertretern beider Ansatze anerkannt wird51 .
Fur die Erstellung wiederverwendbarer zweisprachiger Worterbucher lat sich aus dem
hier skizzierten Sachverhalt (und insgesamt aus dem Vergleich der beiden Ansatze der
zweisprachigen Lexikographie) folgendes ableiten:
Zweisprachige Worterb
ucher mussen eine detaillierte Beschreibung der zielsprachlichen Bedingungen enthalten, die die A quivalentauswahl einschranken. Diese Bedingungen werden in der vorliegenden Arbeit \A quivalentwahl-Constraints" genannt.
Ihre Relevanz wurde von den Vertretern des direktionalen Ansatzes am klarsten
erkannt und am deutlichsten artikuliert.
Zweisprachige Worterb
ucher mussen modular organisiert sein, wenn sie multifunktional sein sollen: quell- und zielsprachliche Beschreibungen mussen gleichrangig
sein und (aus kontrastiver Sicht) kombiniert werden. Eine einheitlich strukturierte quellsprachliche Beschreibung kann als Ausgangspunkt fur ein solches modulares Worterbuchkonzept dienen. Dieser Aspekt wurde von den Vertretern des nichtdirektionalen Ansatzes besonders hervorgehoben.
Ein elektronisches zweisprachiges Worterbuch braucht weniger auf prasentationelle
Ezienz zu achten als gedruckte Worterbucher und kann ggf. Redundanz enthalten.
Der direktionale Ansatz ist gegenuber dem nicht-direktionalen spezischer insofern
er in bestimmten Fallen (z.B. Isomorphie, parallele Ambiguitaten in Quell- und Zielsprache) auf Unterscheidungen verzichtet, die im nicht-direktionalen Worterbuch
vorhanden sind; dadurch ergibt sich im direktionalen Worterbuch ein Unterschied
in der Prasentation der A quivalenzbeschreibungen je nach A quivalenztyp. Das Vorliegen einheitlicher A quivalenzangaben ist aber einfacher zu handhaben und daher
fur das elektronische Worterbuch vorzuziehen.
Aus dem Format der nicht-direktionalen Worterbucher lat sich (durch Kondensierung) ein direktionales Format ableiten (mindestens im Idealfall), aber nicht
umgekehrt. Eine \dictionary database" im Sinn von [Martin/Al 1988] sollte dem
nicht-direktionalen Modell folgen.
Im folgenden wird die Architektur der Van Dale-Worterbucher etwas detaillierter diskutiert. Auf diese Worterbucher wurde bereits oben in Abschnitt 2.2.2.3 verwiesen; die zwei51 Im Fall der praktischen Realisierung der Van Dale Worterbucher gibt es allerdings Einschrankungen:
die theoretisch akzeptierte Anforderung wird in der praktischen Realisierung nur zum Teil erfullt:
dies zeigt sich allerdings erst bei Experimenten zur Wiederverwendung der Van Dale-Worterbucher
im Detail; Quell- und Zielsprache werden hinsichtlich der syntaktischen Beschreibung unterschiedlich
behandelt (vgl. Abschnitt 2.2.3.5, unten.)
sprachigen Worterbucher des Verlags Van Dale sind am deutlichsten als nicht-direktionale
Worterbucher konzipiert. Auerdem hangen die einzelnen zweisprachigen Worterbucher
eng miteinander und mit dem einsprachigen niederlandischen Denitionsworterbuch von
[Van Sterkenburg/Pijnenburg 1984] zusammen.
Nachfolgend wird zunachst die Mikrostruktur der einsprachigen und der zweisprachigen Van Dale-Worterbucher kurz diskutiert, bevor die Zusammenhange zwischen dem
einsprachigen Denitionsworterbuch und den zweisprachigen Worterbuchern besprochen
und schlielich die Vorschlage von [Al 1988] zur Worterbuchkombination diskutiert werden. Diese Vorschlage sind ein interessantes Beispiel fur lexikalische Wiederverwendung
in der praktischen Lexikographie. Gleichzeitig stellen sie eine Art Anwendungstest der
Eigenschaften der nicht-direktionalen Worterbucher dar und somit weiteren Input fur die
Denition von Anforderungen an ein multifunktionales Worterbuch.
Der folgenden Diskussion liegen das einsprachige Denitionsworterbuch von [Van Sterkenburg/Pijnenburg 1984], sowie die niederlandisch ! franzosischen und franzosisch !
niederlandischen Worterbucher von [Al et al. 1985], die entsprechenden Worterbucher fur
Deutsch ([Cox et al. 1986]) und fur Englisch ([Martin/Tops (Ed.) 1988)]) zugrunde.
Die Eintrage der Van Dale-Worterbucher bestehen, sowohl beim einsprachigen wie bei
den zweisprachigen Worterbuchern, aus vier Bausteinen.
1. Lemmaangabe;
2. Syntaktische Angaben, Angaben zur Markiertheit, zu Lehnbeziehungen usw. des
Lemmas (im folgenden \Syntaktische Information" genannt);
52 Vgl. unten, Abschnitt 2.2.3.2.
53 Hier soll nicht im Detail auf diese Verfahren eingegangen werden. Vgl. aber dazu [Baunebjerg Hansen
1990]: u.a. Kapitel 3.5.
metriek1 hde (v.)i 0.1 [leer van de versbouw] Metrik hv.20; g.mv.i ) hogm.i
Verslehre hv.i 0.2 [hlet.i maatsoort] Metrum ho.; 2e nv. s; mv. Metren en
Metrai ) hogm.i Versma ho.i 0.3 [hmuz.i] Metrik.
metriek2 hbn.i } 1. { het e stelsel das metrische System.
Abbildung 2.16: Artikel fur kategoriale Homographen: Eintrage s.v. metriek in [Cox et al.
1986]
3. Semantische Beschreibung: Bedeutungserlauterung, im einsprachigen Worterbuch
mit Paraphrasen und Verweisen auf Synonyme, im zweisprachigen Worterbuch mit
Verweisen auf A quivalente (im folgenden \Bedeutungserlauterung" genannt);
4. Beschreibung des Kombinationsverhaltens des Lemmas; Angabe von Kollokationen;
nicht-kollokatorische Verwendungsbeispiele; Angaben zur Verwendung von idiomatischen Wendungen (im folgenden \Kontext-Beispiele" genannt).
1
Lemma
syntakt. Inf.
Bed.-Erlaeut.
Kontext-Bspe.
stalling hde
Abbildung 2.18: Der Artikel s.v. stalling aus [Van Sterkenburg/Pijnenburg 1984]
Bauteil
(1) Lemma
(2) Syntaktische Information
(3) Bedeutungserlauterung
Lesart 1
Lesart 2
Lesart 3
Lesart 4
(4) Kontext-Beispiel
Angabentext
stalling
hde (v.); -eni
0.1 loods, garage enz. waarin rijwielen of auto's worden gestald
0.2 het op stal brengen of zetten van dieren, met name paarden
0.3 het in een loods of garage onderbrengen van rijwielen, auto's enz.
0.4 geld dat men betaalt voor het stallen
1.3 gelegenheid tot van rijwielen
2.1 een overdekte bij het station
3.4 ik kom u de betalen
Abbildung 2.19: Bauteile eines Van Dale NN-Artikels (Beispiel s.v. stalling, aus [Van
Sterkenburg/Pijnenburg 1984], vgl. Abbildung 2.18)
insbesondere die syntaktischen Angaben in den Van Dale-Worterbuchern relativ
wenig dierenziert und quantitativ eher unterreprasentiert.
Das Prinzip der Nutzung des sprachlichen Vorwissens der Benutzer, wie es an sich
sonst fur direktionale Worterbucher charakteristisch ist, ndet hier auch in einem ansonsten nicht-direktional konzipierten Worterbuch Anwendung. Beispielsweise werden zielsprachliche Subkategorisierungsangaben nur dann explizit aufgefuhrt,
wenn grammatische Konstruktionsunterschiede zwischen Quell- und Zielsprache vorliegen, d.h. wenn die Zielsprache andere syntaktische Konstruktionen benutzt, als sie
beim. Liegt eine Art \Isomorphie" zwischen quellsprachlicher und zielsprachlicher
Konstruktion vor, so gibt das Worterbuch uberhaupt keine syntaktische Beschreibung von Quell- und Zielsprache an, auer der Grobklassizierung in intransitive
vs. transitive Verben.
3. Bedeutungserlauterungen: die einsprachigen und die zweisprachigen Van Dale-Worterbucher unterscheiden sich etwas hinsichtlich der Art, in der die Bedeutungserlauterungen formuliert sind. Allerdings sind die zweisprachigen Worterbucher auf
die einsprachigen Worterbucher bezogen, soda sich die notwendigen Verbindungen
herstellen lassen54 .
54 Details werden unten, in Abschnitt 2.2.3.4 beschrieben. Die Bedeutungserlauterungen im zweisprachigen Worterbuch sind \kompakte Zusammenfassungen" der jeweils fur die entsprechenden Lesarten
im einsprachigen Worterbuch angegebenen Bedeutungserlauterungen.
Wie oben angesprochen, werden in den Van Dale-Worterbuchern die Bausteine zur Bedeutungserlauterung und zur Angabe von Kontexten explizit miteinander verknupft.
Die Artikel sind so organisiert, da samtliche Bedeutungserlauterungen fur samtliche
Lesarten zusammengefat sind (in dem Baustein der Mikrostruktur, der der Bedeutungserlauterung dient), und da wiederum samtliche Kontextbelege fur die verschiedenen Lesarten in einem gemeinsamen Baustein zusammengestellt sind.
Die Van Dale-Lexikographen muten nun den Zusammenhang zwischen einzelnen Kontextbelegen und den zugehorigen Lesarten in der Bedeutungserlauterung fur den Worterbuchbenutzer nachvollziehbar machen. In anderen Worterbuchern wird dieser Zusammenhang durch die Reihenfolge von Bedeutungserlauterungen und Beispielen festgelegt z.b.
dadurch, da die jeweils zu einer Bedeutungserlauterung gehorenden Beispiele dem Text
der Bedeutungserlauterung direkt folgen.
In den Van Dale-Worterbuchern wird diese sequenzielle Darstellung aufgegeben, und
die Verbindung zwischen Lesarten und Kontextdokumentation wird uber ein aus zwei
Ziern bestehendes Verweis-System (\cijfer-punt-cijfer-code") hergestellt. Die in der Liste von Bedeutungserlauterungen angegebenen Lesarten sind numeriert mit zweistelligen
Angaben vom Typ \0.1, 0.2, 0.3, ...". Die Kontextbeispiele sind wiederum mit Ziffern versehen, wobei jetzt die erste Zier nicht mehr \0" ist, sondern jeweils nach der
Wortklasse des von den Autoren fur relevant gehaltenen Kombinationspartners variiert.
Die Idee ist, da beispielsweise fur Kollokationen die relevanten Kollokationspartner
des jeweils beschriebenen Lexems im Beispielteil durch die vorangestellte Zier hinsichtliche ihrer Wortklasse identiziert werden. Kombinationen mit Nomina werden durch die
Zier \1.X" eingeleitet, Kombinationen mit Adjektiven durch \2.X", Kombinationen mit
Verben durch \3.X" usw.
Die Kombinationen, die oben im Artikel s.v. stalling in Abbildung 2.18, Seite 56 angegeben werden, sind wie folgt klassiziert:
Die erste Lesart ist als Kombination von Lesart \0.3" von stalling mit einem Substantiv klassiziert: NL gelegenheid tot stalling van rijwielen;
das zweite Beispiel ist als Adjektiv-Kombination der ersten Lesart (\0.1") beschrieben: een overdekte stalling bij het station;
das letzte Beispiel ist als Kombination eines Verbs mit der vierten Lesart von stalling
klassiziert: ik kom u de stalling betalen.
Die Anbindung von Kontextbelegen an Lesarten durch den cijfer-punt-cijfer-code erlaubt
eine Modularisierung der Datenbeschreibung bei gleichzeitiger expliziter Vernetzung. Die
Bedeutungserlauterungen und die Kontextbeispiele sind jeweils separat reprasentiert. Jedes Kontextbeispiel ist eindeutig einer \Lesart" zugeordnet. Es kann also nicht passieren,
da Kontextbeispiele nicht hinsichtlich der Lesarten klassiziert sind, welche sie illustrieren. Umgekehrt konnen naturlich Lesarten ohne Belege im Lexikon aufgefuhrt sein.
Die Modularisierung der Komponenten erlaubt es daruber hinaus, da der Worterbuch-Benutzer selektiv und auf zwei verschiedenen Zugrispfaden auf die Information
zugreift. Hat er die gewunschte Lesart eines Lemmas identiziert, so braucht er im Prinzip
nur noch die Beispiele durchzusehen, welche zu dieser speziellen Lesart angegeben werden.
Umgekehrt kann eine Durchsicht der Kontext-Belege auf diejenigen Beispiele beschrankt
werden, deren Kombinationspartner fur die aktuelle Fragestellung relevant ist: wenn der
Benutzer lediglich Kombinationen von stalling mit Verben sucht, so braucht er nur die
mit \3.X" klassizierten Belege durchzusehen. Vor allem bei langeren Artikeln ist dieses
Verfahren dann nutzlich, wenn der Benutzer eine prazise Vorstellung dessen hat, was er
im Worterbuch aufsuchen mochte55 .
Oben, in Abschnitt 2.2.1 wurden [Van Sterkenburg/Martin/Al 1982] zitiert, die im Program der Van Dale-Worterbuch-Reihe festgelegt haben, da das einsprachige Denitionsworterbuch als Ausgangspunkt fur die Makrostruktur der Hinubersetzungs-Worterbucher mit Niederlandisch als Quellsprache gelten soll. Auf der Grundlage der oben in
Abschnitt 2.2.3.2 diskutierten mikrostrukturellen Architektur der Van Dale-Worterbucher
wird im folgenden gezeigt, wie die konkrete Realisierung des Zusammenhangs zwischen
einsprachigem und zweisprachigem Worterbuch bei Van Dale gelost worden ist.
Fur die Zusammenhange zwischen dem einsprachigen Worterbuch und den Hinubersetzungs-Worterbuchern sind die ersten drei Mikrostrukturbausteine von zentraler Bedeutung: Lemma, syntaktische Information und Bedeutungserlauterung56 .
Wenn [Van Sterkenburg/Martin/Al 1982] vorschlagen, die Beschreibung des Niederlandischen im Worterbuch von [Van Sterkenburg/Pijnenburg 1984] als Ausgangspunkt fur
die Makrostruktur der zweisprachigen Worterbucher zu nehmen, so ist hiermit konkret
55 Hausmann hat in [Hausmann 1989] im Detail auf die praktischen Probleme hingewiesen, die sich
bei dem von Van Dale benutzten Verfahren zur Kontextklassikation ergeben. Beispielsweise ist das
\Bezugswort", welches die Vergabe der ersten Zier auslost, in Beispielen nicht immer eindeutig
identizierbar. Das Verfahren an sich bleibt aber relevant, auch als Modell fur elektronische Worterbucher. Auch hier fuhren Modularisierung und Explizierung zu mehr Flexibilitat beim Zugri:
derselbe Zusammenhang wird in den Vorschlagen zur Worterbucharchitektur unten in Abschnitt 3.2
deutlich.
56 Fur den Moment wird hier von den Kontextbeispielen abstrahiert, obwohl [Martin/van der Vliet 1992]
auch fur dieses Informationspaket die Zusammenhange zwischen dem monolingualen Worterbuch und
den U bersetzungsworterbuchern beschreibt. Diese Verbindungen lassen sich aber aus den oben in Abschnitt 2.2.3.3 beschriebenen Relationen zwischen Komponenten der Mikrostruktur-Bausteine 3 und 4
(Bedeutungserlauterungen, bzw. Kontext-Beispiele) und den nachfolgend beschriebenen allgemeinen
Prinzipien ableiten.
Lemma
syntakt. Inf.
1&2
2
3
Bed.-Erlaeut.
Kontext-Bspe.
3.1
3.2
1&2
3.3
3.4
3.5
FR
3.2
EN
1&2
Abbildung 2.22: Verbindung von ein- und zweisprachiger Beschreibung in den Van Dale-Worterbuchern: monolinguale semasiologische Grundstruktur (vgl. Abbildung 2.21)
und zielsprachliche A quivalent(meng)e
Das in den Van Dale-Worterbuchern verwendete Verfahren ist der Beschreibung in einem interlingua-basierten maschinellen U bersetzungssystems sehr ahnlich. Die Worterbucheintrage der Quellsprache werden in einer (mehr oder minder formalen) Bedeutungsreprasentation59 dargestellt (hier in den Bedeutungsparaphrasen, bzw. den Tripeln), und
die U bersetzung wird an den Einheiten dieser Bedeutungsreprasentation festgemacht.
59 In [Heid 1990] wurden die Tripel aus Lemmazeichen, syntaktischer Angabe und Lesartenspezikation
etwas vorschnell als \Konzepte" bezeichnet. Naturlich handelt es sich nicht um eine Abstraktion, die
ubereinzelsprachlich intendiert ware; der Begri \Konzept" legt diese irrtumliche Interpretation nahe,
obwohl sie weder in [Heid 1990] intendiert war, noch im Design der Van Dale-Worterbucher angestrebt
wird. Vgl. oben, Funote 2.2.2.3, Seite 47.
In [Al 1988] wurde auf der Grundlage der oben beschriebenen Architektur der nichtdirektionalen U bersetzungsworterbucher von Van Dale der Vorschlag gemacht, jeweils
zwei U bersetzungsworterbucher mit Niederlandisch als Quellsprache so zu kombinieren,
da aus den Beschreibungen A quivalenz-Statements fur die Zusammenhange zwischen den
beiden Zielsprachen der U bersetzungsworterbucher deniert werden konnen.
Da die Quellsprachseite samtlicher NL ! X-Worterbucher im Prinzip dieselbe ist,
genugt es die A quivalente bzw. A quivalentlisten von je zwei Zielsprachen uber die Tripel aus niederlandischem Lemma, syntaktischer Beschreibung und Bedeutungsparaphrase
miteinander zu verbinden. Die Tripel erhalten dann den Status einer \Zwischenreprasentation": [Al 1988] spricht von der Verwendung des Niederlandischen als \metalangue".
Beispielsweise schlagt Al vor, das niederlandisch ! franzosische und das niederlandisch
! englische Worterbuch in der Weise zu kombinieren, da sich eine englisch $ franzosische Materialsammlung mit A quivalentangaben ergibt, aus der der Lexikograph manuell
franzosisch ! englische und englisch ! franzosische kontrastive Beschreibungen ableiten
kann. Der Vorschlag (im folgenden: \(Worterbuch)kombination") ist ein konsequenter
Schritt, ausgehend von der in Abbildung 2.22 skizzierten Struktur der Datenbasis: er ist
schematisch in Abbildung 2.23 dargestellt.
3.2
3.2
FR
EN
franzosischen Worterbuchs ab62. Die Ergebnisse zeigen, da rund 80 % der Makrostruktur der zum Vergleich herangezogenen franzosisch ! deutschen Worterbucher in
den Kombinationsresultaten enthalten sind. Fur den deutsch ! franzosischen Teil wurde
sogar ein hoherer Prozentsatz ermittelt. Die Kombination ist, aus dieser Sicht, ezient
und als Verfahren zur Materialbeschaung fur die Erstellung eines U bersetzungsworterbuchs durch lexikalische Wiederverwendung sicherlich geeignet.
Parallel zur quantitativen Untersuchung wurde uberpruft, ob die in den Kombinationsresultaten enthaltene Information korrekt und hinreichend detailliert ist63. Bei der
Worterbuchkombination bleiben die Lesarteneinteilungen bestehen, die in den zugrundeliegenden Worterbuchern vorkommen. Zur Verdeutlichung ist in Abbildung 2.24 der
Zusammenhang zwischen den Lesarten von NL stalling (vgl. oben den Eintrag s.v., in
Abbildung 2.18, Seite 56) und NL garage mit FR garage und den deutschen Substantiven
Autowerkstatt, Garage, Fahrradaufbewahrung, Unterstellen angegeben.
Die franzosisch ! deutsche U bersetzung (die umgekehrte Richtung ist weniger interessant, weil nur FR garage zur Verfugung steht) kann anhand der von den NL !
X-Worterbuchern ererbten Lesartenbeschreibung gesteuert werden64 .
Die Resultate des Worterbuchkombinationsverfahrens sind dort problematisch, wo
\Mismatches" zwischen den in den Kombinationsresultaten auftreten65 . In der Regel gibt
ein zweisprachiges Worterbuch eine zielsprachliche Paraphrase an, wenn ein quellsprachliches Lexem nicht bedeutungserhaltend durch ein einzelnes Lexem der Zielsprache wiedergegeben werden kann. Bei der Kombination der Worterbucher entstehen Probleme,
wenn fur ein niederlandisches Lexem in einer der beiden Zielsprachen ein \Einwort-A quivalent" existiert, nicht aber in der anderen. Beispiele hierfur sind NL spelbreker $ DE
Spielverderber $ FR personne qui g^ache le plaisir des autres; oder: NL houdbaar $
DE haltbar, lagerfahig $ FR qui se conserve, qui se garde (eetwaren). In diesen Fallen
kann das Kombinationsresultat nur im deutsch ! franzosischen Worterbuch verwendet
werden, jedoch nicht oder nur mit Problemen im franzosisch ! deutschen Worterbuch.
Ein weiteres Problem entsteht dadurch, da die Van Dale-U bersetzungsworterbucher
zielsprachliche syntaktische Eigenschaften nur dann angeben, wenn sie sich, im Sinne
einer groben Klassikation in transitive, intransitive, re
exive Verben etc. von den entsprechenden Eigenschaften des quellsprachlichen Lexems signikant unterscheiden. Eine
Art \Default-Annahme" fur die syntaktische Beschreibung wird in den NL ! X-Worterbuchern vorausgesetzt (vgl. die Diskussion dieses Sachverhalts, oben, in Abschnitt
62 Hier wurde mit [Sachs/Villatte], [Weiss/Mattutat], Bertaux/Lepointe und mit [Cox et al. 1986]
verglichen.
63 In der Kombination wurden zunachst nur die Mikrostrukturbausteine 1, 2 und 3 verwendet. In [Martin/van der Vliet 1992] wurden Vorschlage auch fur die Kombination der Beispielsatze und Kollokationen gemacht. Da samtliche Kollokationen des NL ! X-Worterbuchs in der Regel in die U bersetzungsworterbucher ubernommen werden (konnen), und da jeder Kontext mit der zugehorigen Lesart
und dem Kategorietyp des Kollokationspartners versehen ist, durften bei der Kombination keine Zuordnungsprobleme entstehen. Die Frage ist nur, ob die so gewonnenen Belege fur die Beschreibung
von U bersetzungen, in denen das Niederlandische keine Rolle spielt, relevant sind.
64 Ein Beispiel: FR garage wird in der Lesart het onderbrengen mit DE unterstellen, in der Lesart
bedrijf mit DE Autowerkstatt u
bersetzt (im Schema in Abbildung 2.24 durch Verfolgen der Verbindungslinien ablesbar).
65 Der Terminus \Mismatch" wird im Detail unten in Abschnitt 6.1.3.2 diskutiert. Vereinfacht gesagt,
werden als \Mismatches" Situationen bezeichnet, wo die Zielsprache keine einfache lexikalische oder
grammatische Moglichkeit hat, die Bedeutung eines quellsprachlichen Lexems auszudrucken, sondern
z.B. auf eine Paraphrase rekurrieren mu.
111111111
000000000
garage
000000000
111111111
000000000
111111111
autostalling
111111111
000000000
000000000
111111111
000000000
111111111
garage
000000000
111111111
000000000
111111111
111111111
000000000
bedrijf
loods, garage
Garage
111111111
000000000
stalling
000000000
111111111
111111111
000000000
Quellsprache
111111111
000000000
NL
000000000
111111111
111111111
000000000
Autowerkstatt
...
Fahrradaufbewahrung
het
onderbrengen
Unterstellen, ...
Lesarten
Zielsprachen
Lesart
111111111
000000000
000000000
111111111
000000000
111111111
FR
000000000
111111111
000000000
111111111
111111111
000000000
DE
beteiligten Worterbucher modular sind, d.h. weil einzelne Informationstypen jeweils separat gehalten sind, aber untereinander verbunden. Die Kombinations-Experimente fuhren
dort zu Problemen, wo diese Modularisierung nicht vollstandig durchgehalten ist.
Die Arbeiten zur Worterbuch-Kombination zeigen einige relevante Aspekte der Architektur der nicht-direktionalen U bersetzungsworterbucher sehr deutlich.
Das nicht-direktionale Worterbuch macht die Bedeutungsbeschreibungen und die
Lesarten explizit, welche der A quivalentwahl zugrundeliegen. Anders als im direktionalen Worterbuch sind alle quellsprachlichen Lesarten gleichermaen detailliert
beschrieben.
Gleichzeitig zeigen die Experimente, da die nicht-direktionale Worterbuch-Architektur als Grundlage fur die Wiederverwendung ein- und zweisprachiger Beschreibungen dienen kann67 .
Ein analoges Vorgehen bei der Entwicklung formalisierter Worterbucher, oder der
Versuch, die Van Dale-Methode starker zu formalisieren, erscheint als durchaus erfolgversprechend. Die Kombinationsresultate liefern naturlich nur Rohmaterial, aus
welchem der Lexikograph die Eintrage eines zweisprachigen Worterbuchs erst noch
manuell/intellektuell zu entwickeln hat, jedoch wird dem Lexikographen mit automatischen Mitteln doch bereits eine umfangreiche strukturierte Materialsammlung
zur Verfugung gestellt.
Der Mangel an Strukturierung in den zielsprachlichen Teilen der NL ! X-Worterbucher wirkt sich bei der Kombination storend aus. An dieser Stelle wird die ansonsten durchgehaltene Modularisierung aufgegeben: wenn ein NL ! X-Worterbuch
mehrere A quivalente aus X enthalt, so werden sie in einer weitgehend unstrukturierten Liste angegeben; waren sie \lexikalischen Objekte", vom selben Status wie
die quellsprachlichen \Lesarten", so konnten sie wiederum detailliert beschrieben
werden, und diese Beschreibungen konnten im Konversisionsverfahren besser ausgenutzt werden.
Die Konzeption der Van Dale-Worterbucher ist ein typisches Beispiel dafur, wie einsprachige und kontrastive Beschreibungen miteinander verbunden werden konnen. Unter
Verzicht auf prasentationelle Vorteile (Ezienz, \ambiguitatsbewahrende" A quivalentbeschreibung) werden Beschreibungen bereitgestellt, die sowohl separat in den einsprachigen
Worterbuchern, als auch kombiniert in verschiedenartigen zweisprachigen Worterbuchern
benutzt werden konnen68 .
67 Die Tatsache, da Tripel aus Lemma, Syntaxangabe und Lesarten-Paraphrase als \metalangue" fur
die Worterbuch-Kombination verwendet werden konnen, zeigt, da der von Van Dale eingeschlagene
Weg der Lesartenbeschreibung fur die Erstellung einer mehrsprachigen Faktensammlung hinreichend
allgemein ist.
68 Interessant ist, da bei den Kombinationsresultaten die Benutzerorientierung verloren geht. Die NL !
X-Worterbucher sind fur ein niederlandisches Publikum verfat worden. Die Kombinationsresultate,
beispielsweise fur Deutsch $ Franzosisch, enthalten immer dieselbe Information, egal ob sie nach den
franzosischen oder nach den deutschen A quivalenten sotiert sind. Dies ist jedoch insofern kein Problem,
Diese Ergebnisse zeigen, da die Van Dale-Worterbucher und die Kombinationsresultate
eine interessante Datengrundlage fur ein interlingua-basiertes maschinelles U bersetzungssystem waren.
aber auch dadurch erfolgen, da Beschreibungen verschiedener linguistischer Beschreibungsebenen explizit miteinander in Beziehung gesetzt werden (im Sinne von
\Koexistenz-Statements": wenn auf einer gegebenen linguistischen Beschreibungsebene ein Phanomen A vorliegt, so mu gleichzeitig auf einer anderen linguistischen
Beschreibungsebene ein Phanomen B vorliegen69).
3. Robustheit gegenuber A nderungen: Wenn ein gegebenes \multifunktionales" Worterbuch als lexikalische Informationsquelle fur verschiedenartige Anwendungen verwendet werden soll, so mu die Abbildung zwischen der \anwendungsunabhangigen" Reprasentation und den jeweils anwendungsspezischen Worterbucheintragen
durch Abbildungsregeln (z.B. Import-/Exportroutinen) geleistet werden. Diese Regeln mussen so konzipiert werden, da sie von (kleineren) A nderungen der \multifunktionalen" Ressource weitgehend unabhangig sind. Insbesondere mu sichergestellt werden, da die Hinzufugung lexikalischer Beschreibungen oder die A nderung
der Zuordnung einzelner Lesartenbeschreibungen zu bestehenden Klassen keine Auswirkungen darauf hat, wie die Abbildungsregeln zwischen der multifunktionalen Ressource und den einzelnen Zielanwendungen aussehen. Es soll vermieden werden, da
bei Hinzufugung neuer Eintrage neue Abbildungsregeln geschrieben werden mussen.
4. Reversible Schnittstellen: Idealerweise wurde man davon ausgehen, da die Anwendungen, welche als \Klienten" des \multifunktionalen" Worterbuchs auftreten, auch
als \Lieferanten" dieses Worterbuchs in Erscheinung treten konnen. Dies ist dann
moglich, wenn die Abbildungen zwischen der \multifunktionalen" Reprasentation
und den einzelnen Anwendungen (mindestens im Prinzip) reversibel sind.
5. Modularitat: Modularitat spielt auf verschiedenen Ebenen der intendierten Worterbucharchitektur eine Rolle; die Modularisierung der lexikalischen Beschreibungen ist
eine der zentralen Anforderungen sowohl an monolinguale als auch an kontrastive
Worterbucher.
(a) Kombination monolingualer und kontrastiver Beschreibungen: die einzelsprachlichen Beschreibungen, auf deren Grundlage U bersetzungsvorschlage im zweisprachigen Worterbuch formuliert werden, sollen bei ihrer Konzeption zunachst
unabhangig von der Aufgabe der U bersetzung in eine gegebene Zielsprache formuliert werden konnen. Sie stellen insofern Komponenten (oder Module) eines
Worterbuchsystems dar, welches separate monolinguale lexikalische Beschreibungen miteinander verbindet.
(b) Modularisierung der monolingualen Beschreibungen: Die einzelnen monolingualen Beschreibungen sollen ihrerseits modular sein, beispielsweise im Sinne
eines stratikationellen Ansatzes der linguistischen Beschreibung. Als Arbeitshypothese wird angenommen, da monolinguale Worterbucher dadurch strukturiert werden konnen, da einzelne linguistische Beschreibungsebenen (z.B.
69 Beispiel: Zusammenhange zwischen subkategorisierten grammatischen Funktionen und phrasenstrukturellen Realisierungen der Verbkomplemente, welche durch die grammatischen Funktionen beschrieben worden sind; wenn im Franzosischen die grammatische Funktion subject vorliegt, so kann sie
durch NP, Infinitiv oder Que-Satz, nicht aber durch wh-Satze (indirekte Fragesatze) realisiert werden. Der Nutzen dieser Art von Dokumentation wurde in Abschnitt 2.1.2.4, Seite 31 angesprochen.
Morphosyntax, Konstituentenstruktur, funktionale Syntax, Pradikat-ArgumentStrukturen, pragmatische Beschreibungen) als einzelne Komponenten (oder
Module) der monolingualen Lexika aufgefat werden.
Ziel der Modularisierung soll es sein, sicherzustellen, da fur jede Beschreibungsebene separate Wohlgeformtheitsbedingungen formuliert und mit automatischen Mitteln uberpruft werden konnen (siehe unten, Punkt 6).
Auerdem wird davon ausgegangen, da ein stratikationeller Ansatz der monolingualen Beschreibung besser in den Rahmen von linguistischen Theorien
wie beispielsweise HPSG pat, wie sie in der maschinellen Sprachverarbeitung
weithin Verwendung nden.
(c) Modularisierung der ebenenspezischen Beschreibungen: Bausteine { Klassen
{ Instanzen: Auch die einzelnen Komponenten der monolingualen Beschreibungen sollten wiederum modular konstruiert sein. Damit die oben in Punkt
3 geforderte Robustheit von Import und Export gegenuber A nderungen des
Worterbuchbestands realisiert werden kann, ist es vorteilhaft, wenn ebenenspezische lexikalische Beschreibungen wiederum aus Komponenten aufgebaut
sind.
Die hier vorgeschlagenen Komponenten sind die Denitionen der Beschreibungsmittel, welche als \Vokabular" fur die Beschreibungen jeder einzelnen
linguistischen Beschreibungsebene gelten sollen, weiterhin Generalisierungen,
fur jede einzelne Ebene (also einzelsprachspezische Klassen) und schlielich
einzelne Worterbucheintrage oder Komponenten davon. In einem solchen Modell konnen Abbildungsregeln zum \Export" in ein anwendungsspezisches
Worterbuch an den Bausteinen der Beschreibungen festgemacht werden; die
Bausteine (das Vokabular) der Spezikationen auf der funktional-syntaktischen
Ebene sind z.B. grammatische Funktionen. Wahrend die Beschreibung bzw.
Klassikation einzelner Verblesarten u.a. von der zugrundegelegten Theorie
abhangt und sich ofters andern (oder der Diskussion unterworfen sein) kann,
kann man annehmen, da das Vokabular der Lexikonspezikation weitgehend
stabil ist. Damit die Abbildungsregeln fur den Export \anderungsbestandig"
sind, mussen sie also an den Bausteinen der Spezikation festgemacht werden.
6. Deskriptive Konsistenz: Fur jedes Worterbuch wird man fordern, da es beschreibungsseitig konsistent sei; die Forderung sieht beinahe trivial aus, ist aber schwer
einzuhalten. Deskriptive Konsistenz bedeutet die Benutzung eines festen Inventars
von Beschreibungsmitteln im gesamten Worterbuch (Bausteine der Spezikation:
ein wohldeniertes Vokabular), die Festlegung, welche Beschreibungsmittel auf welche Klassen von linguistischen Objekten angewendet werden konnen bzw. angewendet werden mussen, sowie die explizite Festlegung der Zusammenhange zwischen
den Beschreibungsmitteln und den jeweils damit abzudeckenden Phanomenen; nur
wenn der Lexikograph diesen Zusammenhang bewut beschreibt, konnen die u.a.
bei der Wiederverwertung von bestehenden Worterbuchern beobachteten Probleme
synonymer oder polyfunktionaler Angaben vermieden werden.
Die Forderung nach Konsistenz kann in einem Worterbuch, welches in einem constraint-basierten Formalismus reprasentiert wird durch die Forderung nach dem Vorhandensein einer formalen (und durch den Formalismus automatisch uberprufbaren)
Spezikation ersetzt werden. Eine solche Spezikation legt genau fest, welche linguistischen Objekte mit welchen Beschreibungsmitteln beschrieben werden mussen
(Inhaltsmodell, content model). Die Spezikation deniert, wie eine formale Grammatik, die Syntax und Semantik der Angaben und ihrer Kombinationen.
Im Fall von gedruckten Worterbuchern bedeutet die Forderung nach deskriptiver
Konsistenz, da eine Typologie von Eintragen, entlang einer Typologie der zu beschreibenden Phanomene und lexikalischen Objekte erstellt wird, und da analoge
Phanomene bei verschiedenen lexikalischen Eintragen mit analogen Mitteln beschrieben werden. Schlielich sind implizite Angaben zu vermeiden und durch explizite
Angaben oder durch Regeln oder in anderer Weise reproduzierbare \Berechnungsanleitungen" zu ersetzen.
7. Gleichermaen explizite Beschreibung von Quell- und Zielsprache: Das zweisprachige Worterbuch mu die Quellsprache und die Zielsprache als gleichrangige Komponenten enthalten. Die monolinguale Beschreibung von Quell- und Zielsprache
mu jeweils hinreichend explizit sein. Dies betrit auch diejenigen syntaktischen,
semantischen und pragmatischen Eigenschaften der Zielsprache, die aus der Sicht
der Hinubersetzung aus einer gegebenen Quellsprache \trivial" sind, beispielsweise
isomorph.
Werden im zweisprachigen Worterbuch die (zufalligen) Isomorphien zwischen Quellund Zielsprache bei der Prasentation von A quivalentbeschreibungen in der Weise
ausgenutzt, da, entsprechend dem Ziel einer moglichst ezienten Prasentation,
Teilbeschreibungen weggelassen werden, so fuhrt dies zu impliziten Beschreibungen,
die die deskriptive Konsistenz, wie sie oben in 6 gefordert ist, verletzen70 .
Die hier zusammengestellten Anforderungen werden unten, in Abschnitt 3.2 wiederaufgenommen. Dort wird, auf der Grundlage des TFS-Formalismus, ein Vorschlag fur eine
(zunachst monolinguale) Worterbucharchitektur gemacht. Eine monolinguale BeispielModellierung wird in Kapitel 4 vorgestellt. Auf die Abbildung in anwendungsspezische
Worterbuchformate wird in Abschnitt 5.2 eingegangen.
publizierte Resultate von metalexikographischen Untersuchungen, die mit Computerunterstutzung durchgefuhrt worden waren. Die metalexikographische Worterbuchkritik hat
oenbar bislang nur zum Teil von den Moglichkeiten einer maschinenlesbaren Reprasentation von Worterbuchern Gebrauch gemacht71 .
Umgekehrt, und dies ist in gewisser Weise noch erstaunlicher, sind die in der \Computational Lexicography" durchgefuhrten Experimente zur Nutzbarmachung von maschinenlesbaren Worterbuchern, wie sie etwa in [Boguraev/Briscoe 1989] und neueren, vergleichbaren Arbeiten dokumentiert sind, ohne Verweis auf (und u.U. ohne Kenntnisnahme von)
Arbeiten aus der Metalexikographie realisiert worden. Die wenigsten Worterbuchanalysen,
die im Rahmen der Computational Lexicography angestellt wurden, nehmen die Methoden und Ergebnisse der metalexikographischen Worterbuchuntersuchungen auf. Ebenso
sind die Diskussionen um wiederverwendbare Worterbucher bislang im Wesentlichen nicht
im Zusammenhang mit lexikographische Versuchen z.B. von Worterbuchverlagen und Lexikographen gesehen worden, fur praktische Zwecke wiederverwendbare lexikalische Beschreibungen zu erstellen72 .
Eine der methodischen Annahmen, die hier verfolgt werden, ist es, da der Einbezug
von Resultaten aus der Lexikographie in die Diskussion um multifunktionale Worterbucher zu einer Prazisierung der Anforderungsdenition, sowohl an die lexikographische
Beschreibung, als auch an die Abfrage elektronischer Worterbucher fuhrt.
Auch die metalexikographische Worterbuchkritik hat entscheidende Vorteile davon,
wenn ihr Untersuchungsobjekt maschinenlesbar vorliegt, und wenn Methoden der computerlinguistischen Texterschlieung und der (halb-)automatischen Konsistenzprufung und
-kontrolle als Hilfsmittel bei der Untersuchung von Worterbuchern verwendet werden. Das
OALD3e war eines der ersten Worterbucher, welches vollstandig (samtliche in der elektronischen Fassung vorhandenen Worterbucheintrage) metalexikographisch untersucht worden ist, und nicht nur anhand der stichprobenweisen Untersuchung einer Artikelstrecke
oder einer Teilmenge der vorhandenen Eintragen. Gerade im Hinblick auf die Diskussion
um deskriptive Konsistenz von Worterbuchern sind damit Ergebnisse erzielt worden (vgl.
[Heyn 1992]), die in dieser Form auf der Grundlage von Stichproben nicht hatten erzielt
werden konnen.
Es besteht also ein Synergieeekt zwischen metalexikographischer Worterbuchbeschreibung und computerlinguistischer Arbeit an lexikalischen Spezikationen. Diesen Synergieeekt gilt es auszunutzen.
71 Dies, obwohl englische Worterbucher seit rund 10 Jahren, in den letzten 5 Jahren vermehrt, maschinenlesbar verfugbar sind. In Deutschland gibt es allerdings in der Tat zum Zeitpunkt der Abfassung
des vorliegenden Texts noch kein (fur Metalexikographen verfugbares) vollstandiges Worterbuch online. Da viel an metalexikographischer Theoriebildung in Deutschland (an deutschen Worterbuchern)
erfolgt ist, mag hier ein erklarungsrelrevanter Zusammenhang bestehen.
72 Wie die \manuell" durchgefuhrten Worterbuchanalysen der Metalexikographie sind auch die Untersuchungen von Worterbuchern in der Computational Lexicography z.T. \anekdotisch": die relevante
Literatur (z.B. [Alshawi 1989], [Vossen/Meijs/den Broeder 1989]) beschreibt in der Regel lediglich einzelne Probleme oder spezische Methoden der Wiederverwendung von traditionellen Worterbuchern.
Kapitel 3
Constraint-basierte lexikalische
Reprasentation und Worterbucharchitektur
Dieses Kapitel stellt die Merkmale von TFS, dem Typed Feature Structure Rewriting
System von Emele und Zajac vor; TFS dient hier als konkretes Beispiel eines constraintbasierten Formalismus1, der fur die Reprasentation lexikalischer Beschreibungen eingesetzt werden kann. Zunachst werden die relevanten Eigenschaften des Formalismus aus
der Sicht der Benutzung im Lexikon vorgestellt, dann wird auf dieser Grundlage ein Vorschlag fur eine Worterbucharchitektur entwickelt. Hier werden zunachst die Prinzipien
dieser Architektur umrissen. In Kapitel 4 werden Beispiellexika vorgestellt und diskutiert,
und in Kapitel 5 wird gezeigt, wie sich die Worterbucharchitektur und die Spezika des
Formalismus fur verschiedenartige Abfrageverfahren und zum Teil neuartige Anfragen an
lexikalische Wissensbasen nutzen lassen.
Ein Typsymbol (das den \Namen" der Klasse von Objekten angibt, zu der eine
Featurestruktur gehort);
Attribut-Namen (zur Angabe von Eigenschaften eines Typs);
Werte der Attribute: diese konnen selbst wieder getypte Featurestrukturen sein
(damit entstehen komplexe getypte Featurestrukturen), oder Listen von getypten
Featurestrukturen, oder atomare Featurestrukturen (s. unten);
Gleichheitsconstraints zwischen Teilbeschreibungen (Bedingungen fur Token Identity: Verweis auf ein- und dasselbe Objekt).
Featurestrukturen sind entweder atomar oder komplex. Atomare Featurestrukturen bestehen entweder aus einem Typsymbol (das keine weiteren Attribute hat,) oder aus einem
systemseitig denierten Typ, z.B. \integer" oder \string".
Das TFS-System hat eine Reihe von Notationskonventionen fur Featurestrukturen, generell werden Featurestrukturen als Sequenzen von Attribut-Wert-Paaren notiert. Die \lineare" Notation wird bei der interaktiven Eingabe von Denitionen verwendet5 . Das graphische Benutzerinterface des TFS-Systems gibt z.B. Evaluierungsresultate in der ublichen
Matrix-Notation aus. Nachfolgend sind die beiden Notationen schematisch angegeben6 :
..., Fn:tn].
5 Die \lineare" Notation wird in der Regel im folgenden zitiert, wenn Beispiele fur TFS-Beschreibungen
gegeben werden. Einzelne Denitionen werden hier mitunter als \TFS-Statements" bezeichnet.
6 Wir verwenden in unseren Beispielen eine Reihe von Konventionen; die wichtigsten sind nachfolgend
zusammengestellt:
Attributnamen werden in GROSSBUCHSTABEN geschrieben und von einem Doppelpunkt gefolgt, z.B.
\[ATTRIBUT: ]";
Wertenamen werden in kleinbuchstaben geschrieben und stehen rechts vom Attributnamen, z.B.
\[ATTRIBUT:wert]";
Attribut-Wert-Paare werden durch Kommata getrennt, Klammerung erfolgt mit eckigen Klammern; am Ende eines TFS-Statements steht ein Punkt; z.B. \[A:q, B:r, C: [D:s]].";
Disjunktion wird durch senkrechten Strich (\j") notiert, z.B.: \[A:q|r]."
Weitere Notationskonventionen werden zusammen mit den jeweiligen Konzepten eingefuhrt, vgl. unten, Abschnitt 3.1.2.2 und Funote 16, Seite 78.
:::
TFS erlaubt die Formulierung von rekursiven getypten Featurestruktur-Constraints. Diese Eigenschaft wird bei der Kodierung von Grammatiken ausgenutzt. In Grammatikmodellen wie HPSG werden rekursive getypte Featurestrukturen als Reprasentationsmittel
verwendet7 . Im Lexikon werden rekursive Constraints selten benotigt; mogliche Anwendungen sind die Formulierung von Abbildungsregeln oder ggf. die Kodierung von Prinzipien der Wortbildung.
Im folgenden werden Eigenschaften von TFS vorgestellt, die fur die lexikalische Reprasentation relevant sind; es wird gezeigt, welche Vorteile und Probleme sich fur die
lexikalische Modellierung und fur die Architektur von Worterbuchern fur die Sprachverarbeitung ergeben8 .
Typdenitionen zur Modellierung der Denition von lexikalischen Klassen benutzt werden. Damit lat sich in TFS-Worterbuchern das Konzept der lexikalischen Klassizierung
einfuhren.
Wie in Wissensreprasentationssprachen ergibt sich in einem solchen \getypten" Lexikon eine Moglichkeit zur Kontrolle der Konsistenz von der Beschreibungen einzelner
Lexeme, weil jede lexemspezische Beschreibung Instanz einer allgemeinen Klasse sein
mu10.
Klassikation ist fur die Lexikographie kein neues Konzept: schon OALD3 hatte Subkategorisierungsklassen; implizit nden sich Klassikationen in den allermeisten Worterbuchern. Ein Beispiel fur die Anwendung von Klassendenitionen bei der lexikalischen
Beschreibung mit TFS sind die Typdenitionen, welche in den Worterbuchern des DELISProjekts fur Kongurationen von semantischen Rollen und von grammatischen Funktionen subkategorisierter Erganzungen aufgebaut wurden11 .
Beim Lexikondesign kann man sich fragen, ob die einzelnen Lexikoneintrage (d.h.
Instanzen) immer terminale Subtypen sein mussen, oder ob nicht auch solche Klassen
Instanzen haben konnen, die ihrerseits noch Subklassen haben. In der Abbildung 3.1 ist
auf der linken Seite eine Hierarchie gezeigt, bei der die non-terminale Klasse B einerseits
Subklassen (B1 und B2) hat, andererseits die Instanzen \a", \b" und \c". Eine solche
Situation wird in der hier benutzten TFS-Kodierung von DELIS nicht erlaubt. Sie wird
rekodiert durch die rechts in Abbildung 3.1 schematisierte Situation, in der die Klasse B
eine weitere terminale Subklasse B3 hat, zu der die Instanzen \a", \b" und \c" gehoren.
Ein Beispiel fur die in Abbildung 3.1 illustrierte Unterscheidung ist die Modellierung einer Hierarchie von Subkategorisierungsklassen. Nehmen wir folgendes an: B1 und B2 in
Abbildung 3.1 sind Klassen, die sich von B dadurch unterscheiden, da sie nur jeweils
spezielle Realisierungen eines Komplements zulassen (z.B. Objektspradikativ nur als Nominalphrase (NP) oder nur als Adjektivphrase (AP) realisiert), wahrend die Denition von
B beide Realisierungen disjunktiv au
istet. Der Lexikograph mu nun entscheiden, ob er
die Verben, die beide Realisierungen zulassen, in B3 sammelt oder unter B als Instanzen \aufhangt". Ein ahnlicher Fall liegt vor, wenn B1 und B2 gegenuber B zusatzliche
Merkmale aufweisen, z.B. bei optionalen Argumenten: man konnte sich vorstellen, da der
Lexikograph EN this looks strange to me als Subtyp von this looks strange analysiert:
das erste Besipiel ware dann z.B. in B2, das zweite in B bzw. B3.
Der Unterschied zwischen den beiden Modellierungen ist fur die lexikalische Modellierung insofern relevant, als sich durch die momentane formale Beschrankung, da nur
terminale Klassen Instanzen haben sollen (rechts im Bild 3.1), eine Notwendigkeit fur
die Einfuhrung von mehr Subklassen ergibt, als in einer Situation, wie sie in Abbildung 3.1 links dargestellt ist. Andererseits wird eine klarere Trennung zwischen Klassenund Instanzdenitionen erzielt. Auf diese Fragestellung wird unten, in Abschnitt 4.6.3
noch detaillierter eingegangen: die Entscheidung zwischen \
achen" und \tiefen" LexikonHierarchien hangt hiermit (und mit einer Reihe anderer Parameter) eng zusammen.
10 Die Denition des Instanzbegris fur TFS wird hier bewut undeutlich gelassen: Instanzen sind in der
hier benutzten Version von TFS-Sprache als terminale Subtypen implementiert. Die Implementierung
der Klasse/Instanz-Unterscheidung in TFS erfolgt im Rahmen des DELIS-Projekts (Arbeiten von
Emele).
11 Diese Anwendung wird unten, in Abschnitt 4.2.3, detailliert beschrieben.
A
A
c
b
a
B2
B1
B1
B3
B2
Klassendenitionen und Klassenhierarchien hangen eng zusammen; das TFS-System kompiliert aus den Typdenitionen, durch welche die lexikalischen Klassen kodiert werden,
eine Spezialisierungshierarchie mit monotoner multipler Vererbung.
Solche Spezialisierungshierarchien konnen mengentheoretisch wie folgt interpretiert
werden: wenn zwischen zwei Typen A und B eine Supertyp $ Subtyp-Relation besteht
(B ist ein Subtyp von A, notiert als: \B A"), dann wird die Menge aller Objekte in B
als eine echte Teilmenge der Menge aller Objekte in A interpretiert.
Subtypen erben alle Eigenschaften ihrer Superklasse(n): die Vererbung erstreckt sich
sowohl auf Attribut-Wert-Paare (\strukturelle Constraints") als auch auf GleichheitsConstraints (vgl. die Datentypen, oben, in Abschnitt 3.1.1).
Im folgenden werden die verschiedenen Arten von Spezialisierungsrelationen skizziert
und mit Beispielen aus einfachen lexikalischen Modellierungen illustriert, die vom TFSSystem unterstutzt werden.
<
<
a. c
<
<
a,
a.
= b | c.
Der Unterschied zwischen den beiden Notationen wird unten in Abschnitt 3.1.2.5 diskutiert.
a
b < a.
c < a.
Die Typen \masc", \fem" und \neutr" werden als Subtypen von \genuswert"
deniert13 .
(3.1) [GENUS: genuswert].
genuswert =
Das folgende Beispiel ist der Denition von Sorten ahnlich: fur die Beschreibung
von Wahrnehmungsverben sind die Wahrnehmungsmodalitaten (\die funf Sinne")
in [Fillmore 1993a] nach zwei Kriterien subklassiziert worden (\physiological" vs.
\localizational" senses), und jede Klassizierung unterscheidet wiederum zwei Subklassen. Weder fur die einzelnen \Sinne", noch fur die Klassen wird eine interne
Struktur postuliert (es gibt keine Attribut-Wert-Beschreibungen), aber die Klassen
werden als multiple Hierarchie organsisiert14. Die Statements hierfur sind in 3.2
angegeben, die multiple Hierarchie ist in Abbildung 3.3 dargestellt.
(3.2) *physiological-sense* < *sense*.
*localizational-sense*
*chemical-sense*
*non-chemical-sense*
*distant-sense*
*contact-sense*
*sight*
*hearing*
*touch*
*taste*
*smell*
<
<
<
<
<
<
<
<
<
<
*sense*.
*physiological-sense*.
*physiological-sense*.
*localizational-sense*.
*localizational-sense*.
*non-chemical-sense*,
*non-chemical-sense*,
*non-chemical-sense*,
*chemical-sense*,
*chemical-sense*,
*distant-sense*.
*distant-sense*.
*contact-sense*.
*contact-sense*.
*distant-sense*.
haug werden Klassen dadurch spezialisiert, da sie gegenuber ihren Subklassen zusatzliche Eigenschaften haben. Dabei treten zwei Falle auf.
1. Ein Typ ist spezischer als sein Supertyp, wenn er mehr Attribute hat als sein
Supertyp. Diese Situation ist in Abbildung 3.4 dargestellt. Der Typ a hat nur das
Attribut X. Sein Subtyp, b, hat ein zusatzliches Attribut, Y.
13 Allgemeine Typen, wie \genuswert", werden im folgenden mitunter Aufzahlungstyp genannt, weil es
sich um den gemeinsamen (wenigst spezischen) Supertyp der als Subtypen aufgezahlten alternativen
Werte handelt.
14 Die Klassikation ist aus deskriptiver Sicht sinnvoll, weil Generalisierungen uber je verschiedene Teilklassen formuliert werden konnen. Fillmore hat z.B. gezeigt, da mit Verben, die eine Wahrnehmung
mit \*chemical-sense*" denotieren, keine propositionalen \percepts" auftreten konnen, oder da
zwar mit \*distant-sense*", nicht aber mit \*contact-sense*", Adjunkte vom Typ from +NP (I
(can) see the ocean from my house; *I (can) touch the lamp from my bed) moglich sind. Auch atomare
Subklassen konnen also durchaus \generalisierungstrachtig" sein.
*physiological-sense*
*sense*
*chemical-sense*
*contact-sense*
*localizational-sense*
*taste*
*smell*
*distant-sense*
*sight*
*non-chemical-sense*
*hearing*
*touch*
Abbildung 3.3: Spezialisierung bei atomaren Typen: Multiple Hierarchie der Wahrnehmungsmodalitaten nach [Fillmore 1993a]
a [X: h].
b < a.
b [Y: k].
a [X: h]
b X: h
Y: k
cat = n | v.
n-morph < morph.
v-morph < morph.
n-morph[CATEGORY:
NUMB
:
n,
num].
v-morph[CATEGORY:
TENSE
:
VOICE
:
v,
tense,
vce].
Das erste Statement (vgl. 3.3) fuhrt einen Beschreibungsbaustein fur die morphosyntaktische Beschreibung von Wortformen ein (den Typ morph). Dabei wird das Vorhandensein
des Attributs CATEGORY gefordert, als Wert jedoch nur der Aufzahlungstyp, cat, angegben.
Der Typ cat hat (atomare) Subtypen, n und v (3.4). Der Typ morph hat unter anderem
die Subtypen n-morph und v-morph (vgl. 3.5 und 3.6). Sie sind einmal dadurch charakterisiert, da sie fur das Attribut CATEGORY spezischere Werte haben als der Typ morph,
zum andern durch das Hinzutreten weiterer Attribute (\NUMB" im Fall von n-morph (3.7),
\TENSE" und \VOICE" bei v-morph (3.8)).
Die sich ergebende Teilhierarchie ist in Abbildung 3.5 reproduziert. Dort sind weitere
Subtypen von n-morph und v-morph mitberucksichtigt, fur die hier keine TFS-Statements
angegeben sind15 .
n-morph
gender-n-morph
v-imper-morph
v-cond-morph
morph
v-fin-morph
v-subj-morph
v-ind-morph
v-morph
past-part
v-partic-morph
pres-part
v-inf-morph
v-infinitive-morph
Abbildung 3.5: Ausschnitt aus einer Typenhierarchie fur morphosyntaktische Beschreibungen von Verben und Nomina im Franzosischen
Spezialisierung durch zusatzliche Constraints Ein Typ ist spezischer als sein Su-
X:
Y:
A: k
B: h
b < a.
b X:
Y:
#1 = h
A: k
B : #1
B
A
...
quitter-class
SOURCE: place
...
partir-class
SOURCE:
1 = place
PLACE-OF-OBSERVER:
A: a1
B: b1
A: a1
B: b1
A: a1 | a2 | a3 | a4
B: b1 | b2
A: a2
C: c1
A: a2
B: b1 | b2
C: c1
Das Konzept der Spezialisierung erlaubt es, die im Lexikon denierten Typen hierarchisch
anzuordnen. Dies gilt fur alle Bereiche von Lexikondenitionen: Bausteine von Teilbeschreibungen, lexikalische Klassen, relationale Abbildungen. Dem entspricht auf der Seite
der linguistischen Modellierung der Versuch, lexikalische Objekte anhand bestimmter linguistischer Eigenschaften in Klassen einzuteilen.
Die Benutzung von Spezialisierungshierarchien hat fur den Lexikonaufbau, analog zur
Denition von Grammatiken, eine Reihe weiterer Vorteile:
die taxonomische Organisation von linguistischen Objekten hilft Redundanz vermeiden;
die Hierarchien erlauben es, Generalisierungen auf elegante Weise auszudr
ucken,
indem unterspezizierte Supertypen und spezischere Subtypen verwendet werden;
Klassendenitionen f
uhren eine Typdisziplin ein: die Wohlgeformtheit von Beschreibungen wird durch die Klassendenitionen festgelegt; ahnlich wie durch Integritatsbedingungen bei Datenbanken kann die Wohlgeformtheit von Teilbeschreibungen
uberpruft werden;
durch die Klassenhierarchie wird die Moglichkeit gegeben, einen automatischen Klassikator fur TFS zu formulieren.
a
b
a
c
a = b | c
Abbildung 3.10: Interpretation von TFS-Hierarchien unter der Closed World Assumption
unter der \Open-World-Assumption" mit der Nennung von Beispielen vergleichen: weitere Subtypen konnten existieren, sind aber in der relevanten Version des Modells nicht
genannt.
Hierarchiestatements unter der \Closed-World-Assumption" werden als Aufzahlungen
angegeben, z.B. \a = b | c | d." Subtypen unter der \Open-World-Assumption" werden einzeln durch \is-a"-Statements eingefuhrt, z.B. \b a.", \c a."
Die Unterschiede zwischen den beiden Interpretationen spielen bei der Abfrage von
TFS-Lexika eine Rolle, vgl. Abschnitt 5.3.1.
<
<
3.1.3.1 Appropriateness-Constraints
Appropriateness-Constraints kann man sich fur den Zweck der lexikalischen Modellierung
wie Integritatsbedingungen von Datenbanken vorstellen. Sie stellen Wohlgeformtheitsbedingungen fur die in TFS modellierten Beschreibungen dar. Mit Hilfe von AppropriatenessConstraints wird geregelt, welche Attribute und welche Werte fur eine Typdenition gultig
sind (strukturelle Constraints): sie legen also fest, welche Attribute ein Objekt haben mu,
damit es von dem zur Rede stehenden Typ ist. Umgekehrt kann fur ein Objekt, welches
vom TFS-System uberpruft werden soll, aus dem Vorhandensein bestimmter Attribute
darauf geschlossen werden, welchem Typ es angehort.
Ebenfalls zu den Appropriateness-Constraints gehoren Denitionen von Wertebereichen fur Attribute (vgl. die Denition fur GENUS: \masc | fem | neutr")18 .
Anhand von Appropriateness-Constraints kann in Eingabewerkzeugen eine einfache
Uberprufung der syntaktischen Korrektheit der interaktiven Eingaben (\RechtschreibeKorrektur" fur Werte!) erfolgen. Auerdem kann an jeder Stelle dem Lexikographen, der
ein Worterbuch erganzt, die Menge der fur ein Objekt eines bestimmten Typs passenden
Attribute und Werte angezeigt werden (z.B. konnten aus den Appropriateness-Aussagen
Auswahlmenus generiert werden, die fur ein bestimmtes Objekt nur genau die Liste der
\anwendbaren" Attribute und Werte enthalten).
18 Vgl. die Beispieldiskussion oben in Abschnitt 3.1.2.2 und die Diskussion der Probleme, die sich aus
dem Fehlen solcher Festlegungen ergeben, unten in 2.1.2.6, Seite 37.
#gf = func,
#pt = phrasetype]:- sem-gf[FE:
GF:
gf-ph [GF:
PT:
sem-ph[FE:
PT:
MO/SY:
#fe,
#gf],
#gf,
#pt],
#fe,
#pt].
c-str.
...
SYN:
f-str.
...
SEM:
lex. sem.
...
Ein weiteres Beispiel ist die Modellierung der U bersetzungsrelation in Zajacs TFS-Kodierung des Transfers auf Funktionalen Strukturen (f-Strukturen) der LFG. Die U bersetzungsrelation ist reiziert und als Attribut-Wert-Struktur mit zwei ausgezeichneten Attributen (bei Zajac FF und FE) kodiert; es gibt ein Attribut, unter welchem die quellsprachliche f-Struktur eingebettet ist (hier FE, fur \F-Struktur, Englisch") und eines, unter dem
die zielsprachliche f-Struktur eingebettet ist (im Beispielfall fur die f-Struktur Franzosisch).
Die U bersetzungsrelation tau-xy ist wie folgt deniert:
tau-xy [FE: e-xp,
FF: f-yp].
Dabei gilt:
ist ein Typ aus der englischen Grammatik (Phrasenstruktur-Typ) und kann
intern eine Featurestruktur sein (\x-Kategorie");
f-yp ist ein Typ aus der franzosischen Grammatik (Phrasenstruktur-Typ) und kann
intern eine Featurestruktur sein (\y-Kategorie").
bersetzungsrelation, postuliert als gultig zwischen den Werten der
tau-xy ist eine U
Attribute FE und FF.
Die U bersetzungsrelation sagt nichts uber die U bersetzungsrichtung aus.
Relationale Constraints konnen genauso hierarchisiert werden, wie alle anderen Featurestruktur-Typen (aufgrund der Reizierung der Relation gibt es keinen formalen Unterschied). In Zajacs Kodierung gibt es Subtypen dieser allgemeinen U bersetzungsrelation
tau. So ist beispielsweise tau-nn eine Relation f
ur die U bersetzung von NPen des Englischen durch NPen des Franzosischen; sinngema tau-advv zur U bersetzung von englischen
Satzadverbien durch franzosische Verbalphrasen (vgl. [Zajac 1989], [Zajac 1992]).
e-xp
3.1.4 Das Lexikon als Spezikation: Vorteile und Probleme bei der
Verwendung von TFS fur die lexikalische Modellierung
Aus dem Gebiet der Formalen Sprachen ist die Vorstellung bekannt, da eine Menge von
Regeln gemeinsam die Menge aller wohlgeformten Objekte und nur diese deniert. Dieses
Konzept wurde zuerst auf formale Grammatiken ubertragen; hier wird dafur argumentiert,
lexikalische Modellierungen als Spezikationen anzulegen: die Bausteine der lexikalischen
Modellierung und die Bedingungen fur ihre Kombination sollen so deniert werden, da
sich nur wohlgeformte Beschreibungen lexikalischer Objekte ergeben.
Hierin liegt der Unterschied zwischen einer Spezikation und einem Inventar von
Etiketten19 . Ein Inventar von Etiketten ist eine Liste moglicher Beschreibungsmittel, aus
der der Lexikograph auswahlen (eine \vernunftige Beschreibung" zusammenstellen) mu.
Bei einer Spezikation wird zusatzlich zur Denition des Beschreibungsvokabulars (der
Etiketten) ein Regelsystem angegeben, nach dem die einzelnen Beschreibungsmittel kombiniert werden konnen20 .
19 Vgl. die Diskussion oben, in Abschnitt 2.1.2.6.
20 Ebenso verhindern auch Unikationsgrammatiken wie z.B. LFG nicht von vorneherein die Formulierung von Teilbeschreibungen, die der Intention des Lexikon-Designers widersprechen und die durch
eine constraint-basierte Spezikation ausgeschlossen werden konnen. Beispeilsweise verhindert in ei-
U ber die \rein syntaktische" Konsistenz von Worterbucheintragen hinaus, die auch mit
einfacheren Mitteln, wie etwa der Vorgabe einer Document Type Denition (DTD) von
SGML und einfachem Testen der aueren Form eines Lexikoneintrags sichergestellt werden
konnte, lat sich mit Hilfe von TFS auch ein Inhaltsmodell der lexikalischen Typdenitionen festlegen. In einem Worterbuch, welches eine Hierarchie von Typen enthalt, kann fur
jeden Typ detailliert festgelegt werden, welche Attribute und welche Wertebereiche jeweils
zutreen sollen. Auerdem konnen Aussagen uber die Kookurrenz bestimmter AttributWert-Konstellationen gemacht werden, die das gemeinsame Auftreten von bestimmten
Beschreibungen regeln21 .
Oben, in Abschnitt 2.1.2.1 wurden \traditionelle" Worterbucher deniert: als Ressourcen, fur die kein Inhaltsmodell vorliegt. Bis in die jungste Zeit hinein (vgl. z.B. Multilex, Eagles) wurden Vorschlage fur lexikalische Beschreibungen gemacht, die zwar
auf Attribut-Wert-Paar-Beschreibungen aufbauen, die jedoch wiederum keine Aussage
daruber machen, wie lexikalische Objekte klassiziert werden sollen und welche Attribute
bzw. Attribut-Wert-Paare fur welche Typen von lexikalischen Objekten verwendet werden
durfen. Dort fehlt eine Spezikation im hier beschriebenen Sinne; man konnte die Worterbuchmodelle von Eagles und Multilex in dieser Hinsicht durchaus als \traditionelle"
Ressourcen bezeichnen.
Die hauptsachlichen Vorteile von TFS fur die lexikalische Modellierung und Abfrage
liegen in der Einheitlichkeit des Formalismus, der Unterstutzung einer modularen, klassizierenden und zugrisneutralen Worterbucharchitektur (die Grundlagen der Architektur
sind separat dargestellt in Abschnitt 3.2, ab Seite 89), sowie in der Unterstutzung von
Konsistenzkontrolle und Konsistenzerhaltung, sowohl bei der lexikalischen Modellierung
selbst, als auch in Werkzeugen fur Dateneingabe, Worterbuchaufbau und -verwaltung22 .
Problematisch ist die Tatsache, da die Ezienz bei der Verarbeitung von TFS (und
anderen constraint-basierten Formalismen) weit hinter Datenbanken, Konstrukten von
Programmiersprachen, Finite-State-Implementierungen usw. zuruckbleibt. Auerdem wird
die Handhabung groer Datenmengen noch nicht besonders unterstutzt. Im folgenden werden die genannten Punkte naher ausgefuhrt.
aller Beschreibungsebenen und fur die Anlage und Benutzung kontrastiver Worterbucher
fur die U bersetzung ein entscheidender Vorteil. In maschinellen U bersetzungssystemen
der Eurotra-Generation muten Reprasentationen von Satzen ebenenweise abgearbeitet
werden, und zwischen Reprasentationen von je zwei linguistischen Beschreibungsebenen
wurden U bersetzungsregeln formuliert. Ein solches Modell kann nur Phanomene behandeln, bei denen sich die Interaktion zwischen verschiedenen linguistischen Beschreibungsebenen im Lexikon oder in der Grammatik auf jeweils adjazente Beschreibungsebenen
beschrankt.
Probleme ergeben sich insbesondere, wenn diese Art von Reprasentation, wie im Fall
von Eurotra, mit einer sequenziellen Architektur eines maschinellen U bersetzungssystems zusammentrit. Ist die Abbildung zwischen zwei Ebenen \blockiert", so mu entweder umfangreiches \Backtracking" angestoen werden, oder beim Design der Wissensquellen mu eine idiosynkratische Losung gefunden werden, bei der Information uber
verschiedene Ebenen hinweg transportiert und ggf. an \unpassenden Stellen" im Lexikon
aufgefuhrt wird, z.B. in der Form von fur diesen speziellen Fall eingefuhrten Features.
Ein einfaches Beispiel fur die Interaktion nicht-adjazenter Ebenen stellt die U bersetzung franzosischer Partizipien Prasens ins Deutsche dar. In der Regel konnen solche
Konstruktionen strukturisomorph ubersetzt werden, wie die Beispiele 1a und 1b zeigen.
(1) a. une solution dependant du contexte
b. eine vom Kontext abhangende (oder: abhangige) Losung
Probleme entstehen, wenn franzosische Konstruktionen der in 1a angegebenen Art Modalverben enthalten, wie dies in 2a und 2b der Fall ist:
(2) a. un train devant attendre le passage d'un express
b. une ore pouvant ^etre retenue
Der Grund fur die Schwierigkeiten bei der U bersetzung ist, da im Deutschen fur die Modalverben konnen, mussen, sollen keine Partizipien Prasens existieren (*konnend, *mussend,
*sollend). Statt dessen mussen die Satze 2a und 2b wie 3a und 3b ubersetzt werden:
(3) a. ein Zug, der die Durchfahrt eines Expresszugs abwarten mu
b. ein Angebot, das angenommen werden kann
Die Information daruber, da die deutschen Modalverben konnen, mussen, sollen keine
Prasenspartizipien bilden konnen, ist ein Faktum der Morphologie oder der Morphosyntax des Deutschen23 ; dieses Faktum gehort jedoch nicht in ein U bersetzungsworterbuch,
weil es per se keine kontrastive Relevanz hat, sondern lediglich durch den Zufall von
U bersetzungssituationen wie in den Beispielen 2a und 2b fur die U bersetzung der speziellen Einzelfalle relevant ist. In sequenziellen U bersetzungssystemen hat man versucht,
das U bersetzungsworterbuch mit speziellen U bersetzungsregeln anzureichern, die solche
und ahnliche Einzelfalle zu behandeln erlauben: da die morphosyntaktischen Eigenschaften der Zielsprache auf der fur den Transfer ausgewahlten Ebene24 normalerweise \noch
:::
:::
:::
:::
:::
:::
:::
:::
:::
:::
:::
:::
23 Ob man das Fehlen der Partizipien in der morphologischen Beschreibung postuliert, oder ob man es
alternativ aus allgemeineren syntaktischen Annahmen ableitet, hangt vom Beschreibungsansatz ab.
24 In Eurotra wurde die fur den Transfer benutzte Reprasentation \Interface-Struktur (IS)" genannt,
vgl. die Abbildung 3.12, in der eine Mischung aus LFG- und Eurotra-Terminologie verwendet wird.
nicht" verfugbar sind, mute quellsprachliche morphosyntaktische Information als Testbedingung fur die Auswahl aus moglichen zielsprachlichen Konstruktionen benutzt werden;
sinngema wurde getestet, ob ein Partizip Prasens, vorliegt, und ob das zu ubersetzende
Pradikat ein Modalverb ist; im positiven Fall wurde eine U bersetzung mit Relativsatz
erzwungen bzw. im Lexikon festgelegt.
Eine solche \kasuistische" Beschreibung fuhrt zu Problemen theoretischer und praktischer Art: einerseits werden in solchen Regeln verschiedene Beschreibungsebenen von
Quell- und Zielsprache vermischt, und andererseits fehlt diesen sehr speziellen, kontextspezischen Regeln jeder Generalisierungswert. Wegen der fehlenden Modularitat solcher
Beschreibungen ist es auerdem sehr schwer, Worterbucher mit solchen Bestandteilen zu
warten und zu erganzen.
QUELLSPRACHE
MO/SY:
ZIELSPRACHE
[]
MO/SY:
[]
c-Struktur
[]
c-Struktur
[]
f-Struktur
[]
f-Struktur
[]
IS-Struktur [ ]
Transfer
IS-Struktur [ ]
3.1.4.2 Ad-hoc-Abfrage
Bei der Abfrage von in TFS reprasentierten Lexika kann man die dem TFS-System
inharenten Evaluationsmechanismen ausnutzen. Man braucht dazu nur Teilbeschreibungen eines linguistischen Objekts anzugeben, und das TFS-System kann anhand der vorhandenen Denitionen den fehlenden Rest der Beschreibung erganzen, bis wieder ein
vollstandig speziziertes linguistisches Objekt vorliegt.
Die Evaluation solcher beliebiger Anfragen25 ist eine typische Eigenschaft von constraint-basierten Systemen. Aus den Typdenitionen kompiliert das TFS-System einen
25 Zur Terminologie: Wie bei Datenbanken wird hier von einzelnen \Anfragen an die TFS-Wissensbasis"
gesprochen. Der Vorgang insgesamt wird als Abfrage (vgl. Datenbankabfrage) bezeichnet. Die Ad-hocAbfrage wird so genannt, weil keine systemseitige \Vorbereitung" notig ist (anders als in Datenbanken,
wo Indizierung, der Aufbau von Hash-tables etc. uberhaupt erst die Abfrage ermoglichen, vgl. unten,
Abschnitt 5.1.3): die Abfrage kann \ad hoc" erfolgen.
Typenverband. Dieser enthalt Information uber die Attribute und Wertebereiche, die fur
jeden Typ deniert sind. Bei der Evaluation wird Typinferenz verwendet: aufgrund der in
der Anfrage angegebenen Attribute und Werte kann das System die Zugehorigkeit des in
der Anfrage angegebenen Objekts zu einem der denierten Typen inferieren. Je weniger
Information in der Anfrage gegeben wird, desto mehr Objekte erfullen die Anfrage. Sie
werden einzeln als mogliche Losungen aufgezahlt. Dabei werden die jeweils relevanten
Constraints angewendet und vollstandige, wohlgeformte Objekte ausgegeben.
Eine Anfrage mit unterspezizierten, partiellen Beschreibungen fuhrt also zur Erganzung der fehlenden Teile und zu einer vollstandigen Ausgabe. Auf diesem Prinzip beruht
die in Abschnitt 1.2.2 skizzierte HPSG-basierte U bersetzung, welche in [Heid/Kuhn 1994]
beschrieben und von Kuhn prototypisch modelliert worden ist. Abbildung 1.4, Seite 16,
stellt das Verfahren schematisch dar.
Im Lexikon lat sich die Ad-hoc-Abfrage in verschiedenen Anwendungszusammenhangen
verwenden. Beispiele hierfur werden unten im Abschnitt 5.1 diskutiert. Sie werden ausfuhrlicher gezeigt, weil die sich aus den Moglichkeiten der Ad-hoc-Abfrage ergebenden Konsequenzen fur die Architektur von Lexika interessant (und bisher noch nicht speziell genutzt
und beschrieben worden) sind.
Die Tatsache, da lexikalische Klassenhierarchien deniert werden konnen, und da die
Klassenhierarchien fur verschiedene Beschreibungsebenen voneinander separat gehalten
und durch relationale Constraints miteinander verbunden werden konnen, unterstutzt
eine Architektur, bei der einzelne linguistische Beschreibungsebenen als Module des Worterbuch-Modells aufgefat werden.
Vorschlage fur eine Worterbucharchitektur, die ein solches Konzept realisiert, werden
in Abschnitt 3.2 im Einzelnen diskutiert. Dabei wird jede Beschreibungsebene als eigenes Modul aufgefat, das als Spezialisierungshierarchie von Typen organisiert ist. U ber
relationale Constraints von TFS sind die einzelnen Komponenten miteinander verbunden.
Die einzelnen Worterbuch-Module weisen untereinander keine Ordnung auf: jede der
linguistischen Beschreibungsebenen ist gleichberechtigt, und, jede Ebene oder jede Kombination kann als Einstiegspunkt fur die Abfrage von lexikalischen Beschreibungen gewahlt
werden.
TFS hat nutzliche Eigenschaften als Spezikationssprache fur das Rapid Prototyping von
lexikalischen Spezikationen. Probleme ergeben sich aufgrund der Implementierung (und
der Mechanismen, die zur Evaluation verwendet werden) hinsichtlich der Ezienz und der
Moglichkeiten, groe Datenmengen zu verarbeiten. TFS wurde als Spezikationssprache
entwickelt, nicht als \Produktionssystem" fur sehr umfangreiche Anwendungen.
Die bei der Evaluation von TFS benutzten Verfahren, u.a. Unikation und Subsumptionstests, sind zeitaufwendig. Den konzeptuellen Vorteilen der Ad-hoc-Abfrage steht das
Fehlen von Indizierungsmoglichkeiten und damit eine relativ langsame Verarbeitung als
Nachteil gegenuber26 .
26 In WordManager (vgl. [Domenig 1989], [Domenig/ten Hacken 1992]) werden fur alle relativ zum
Das Problem der Datenmenge spielt fur alle constraint-basierten Formalismen eine Rolle:
die vom Umfang her relativ kleinen Anwendungen, mit denen bisher in der Computerlinguistik gearbeitet wird, kommen ohne persistente Speicherung der Daten aus: alle Daten
werden im Hauptspeicher des Rechners gehalten. Wenn man Worterbucher von ca. 50.000
Lemmata (Format des Petit Robert) reprasentieren und verarbeiten wollte, so wurden
sich mit den bisherigen Methoden technische Probleme ergeben. Die Kombination von
constraint-basierten Systemen mit Datenbanken27 ist derzeit noch ein Forschungsgegenstand. Die praktische Verwendbarkeit von TFS fur die Kodierung groer Datenmengen
(mehrere 10.000 Eintrage) kann erst getestet werden, wenn Ergebnisse von Arbeiten zur
Kombination von TFS mit Datenbanken vorliegen.
3.2.1 U berblick
Zunachst werden im Folgenden die Eigenschaften, die ein constraint-basiertes Worterbuch
auszeichnen im U berblick zusammengestellt. Details zu den einzelnen Architekturprinzipien werden in den folgenden Abschnitten (3.2.2 bis 3.2.5) gegeben. In Abschnitt 3.2.6
wird die Verbindung mit der Anforderungsdenition aus Abschnitt 2.3 hergestellt.
Folgende Eigenschaften sind fur eine constraint-basierte Worterbucharchitektur zentral:
1. Die Worterbucher sind modular.
Module sind aus (Teil-)Modulen aufgebaut. Da die Worterbucher wie formale Spezikationen angelegt werden sollen, wird fur jedes Modul zwischen \Bausteinen" und
Kombinationsmoglichkeiten der Bausteine (oder: zwischen Vokabular und Termen)
unterschieden. Eine mogliche Strukturierung29 beruht auf dem folgenden Schema:
(a) Module fur die einzelnen Sprachen;
(b) Je Sprache Module fur die (im Worterbuch erfaten) Beschreibungsebenen;
Datenmodell moglichen Anfragetypen Indexe angelegt. Das System ist dann zwar bei der Abfrage
schnell, hat aber einen groen Platzbedarf und benotigt relativ viel Zeit zum Aufbau der Indexe bei
Modellveranderungen und Erganzungen.
27 Es gibt Vorschlage hierzu von At-Kaci; zu TFS jetzt [Van der Laan 1996]. Vgl. hierzu die Diskussion
unten in Abschnitt 5.1.3, Seite
28 Eine formale Spezifkation in abstrakter Form (z.B. in Backus-Naur-Form, in der Form einer DocumentType-Denition o.a.) wird hier nicht gegeben. In Kapitel 4 werden aber in der TFS-Sprache implementierte Anwendungsbeispiele im Detail diskutiert, anhand deren die formalen Aspekte deutlich werden.
Es handelt sich um die Modellierung von Wahrnehmungs- und Kommunikationsverben, wie sie im
Rahmen des DELIS-Projekts realisiert wurde.
29 Die hier vorgeschlagene Strukturierung wurde in den Worterbuchfragmenten von DELIS realisiert.
Vgl. Kapitel 4.
(c) Je Beschreibungsebene
i. ein separates Modul fur die ebenenspezischen Beschreibungsmittel (\Bausteine", d.h. Denition des Vokabulars);
ii. Abstrakte Klassen (Kombinationsmoglichkeiten der Bausteine);
iii. Lexikalische Instanzen.
2. Die Module sind klassikatorisch.
Die Klassikationen sind als Spezialisierungshierarchien (z.B. von TFS) modelliert.
3. Die Module interagieren durch Relationen.
Die Interaktion zwischen Modulen wird durch richtungs- und ordnungsunabhangige
Konstrukte (z.B. relationale Constraints von TFS) modelliert.
4. Die Module sind detailliert dokumentiert.
Die Dokumentation wird textuell und durch relationale Abbildungen zwischen Modulen bereitgestellt.
5. Die Worterbucher sind zugrisneutral.
Die Module sind gleichberechtigt. Es gibt keine reihenfolgeabhangige Information.
Bei der lexikalischen Modellierung soll darauf verzichtet werden, Beschreibungen
einer linguistischen Beschreibungsebene auf eine andere Ebene \mitzufuhren". Partielle Beschreibungen verschiedener Beschreibungsebenen sollen unabhangig voneinander zugreifbar (und als Abfragekriterium benutzbar) sein.
Die hier postulierten Eigenschaften werden im Folgenden weiter ausgefuhrt. Dabei werden die oben als Punkte 1 und 2 denierten Eigenschaften aus Grunden der einfacheren
Prasentation in umgekehrter Reihenfolge besprochen.
Die hier vorgeschlagenen Worterbucher sind klassikatorisch. Die Typen der TFS-Sprache
werden zur Kodierung lexikalischer Klassen verwendet. Jede lexikalische Klasse ist durch
einen Typ deniert, fur den es eine Typdenition im Sinne von TFS gibt30.
Die Worterbucher sind auerdem stratikationell: Klassizierungen orientieren sich an
einem Modell linguistischer Beschreibungsebenen, wie es z.B. in HPSG (Semantik { Syntax { \Phonologie") oder in LFG (c-Struktur vs. f-Struktur) oder, besonders ausgepragt,
in Mel'cuk's Meaning , Text-Theorie vorkommt (dort gibt es sieben verschiede Ebenen,
vgl. [Mel'cuk 1988]).
Die DELIS-Worterbucher, die hier als Beispielimplementierung diskutiert werden, unterscheiden z.B. fur lexikalisch-semantische Beschreibungen, syntaktische Subkategorisierungsbeschreibungen und morphosyntaktische Beschreibungen jeweils separate \ebenenspezische" Klassizierungen. Fur jede Beschreibungsebene wird eine Klassen- (bzw.
Typen-) Hierarchie entwickelt. Die Beschreibungen einzelner Worter bzw. ihrer Lesarten
im DELIS-Worterbuch verweisen auf die jeweiligen Klassen der verschiedenen Ebenen31 .
Die Moglichkeit, Klassizierungen im Lexikon auszudrucken, fuhrt zu mehr Konsistenz
quer durch eine Klasse. Samtliche (lexikalischen) Instanzen einer Klasse werden analog
beschrieben: es wird sichergestellt, da die in den jeweiligen Klassendenitionen vorgegebenen Beschreibungsmittel auch bei der Beschreibung aller einzelnen Instanzen benutzt
werden32 .
Die Klassenhierarchien sollen im folgenden Sinne abstrakt sein: Sie beschreiben und
strukturieren Typen von semantischen oder syntaktischen Beschreibungsbausteinen und
von deren Kombination, d.h. von semantischen und syntaktischen Konstellationen, nicht
einzelne Lesarten einzelner Lexeme. Neben der Klassenebene gibt es eine Instanzenebene,
auf der einzelne, konkrete Lesartenbeschreibungen angegeben werden. Die Klassen (die
das Potential der lexikalischen Eigenschaften ausdrucken) bilden eine Hierarchie; bei den
Instanzen braucht dies nicht der Fall zu sein: die einzelnen Lesarten einzelner Lexeme
werden nicht zueinander hierarchisch angeordnet. Hierin liegt ein Unterschied zu Acquilex, wo die lexikalisch-semantische Beschreibungsebene als fur die Klassikation prioritar
angesetzt wird33.
A hnlich wie bei der Beschreibung von linguistischen Zeichen in HPSG wird davon
ausgegangen, da eine lexikalische Instanz Informationen aus den einzelnen ebenenweisen
Klassizierungen erbt. Bezogen auf je eine Ebene ist also ein lexikalisches Zeichen jeweils
Instanz einer bestimmten Klasse. Auf diese Weise wird sichergestellt, da die ebenenweise
31 Dieser klassikatorische Ansatz entspricht relativ genau dem Vorgehen der Lexikographen bei der
Erstellung von Worterbucheintragen auf der Grundlage von Corpusmaterial; auerdem ist ein solcher
Ansatz bei der Estellung von multifunktionalen Worterbuchern nutzlich, sowie bei der Erarbeitung gemeinsamer Klassikationen fur parallele Worterbuch-Fragmente fur verschiedene Sprachen; vgl. auch
die Diskussion oben Abschnitt 2.1.1.2, Seite 23. Der Lexikograph wird gezwungen, die Denition der
jeweiligen Klassen eindeutig festzulegen und bei der Zuordnung einzelner lexikalischer Einheiten zu
einzelnen Klassen wiederzuverwenden. Interessant ist, da dieses Konzept, das ja ohne weiteres einzelsprachspezische Spezialisierungen toleriert, wo diese notig sind, ohne Schwierigkeiten (und mit
einem signikanten Anteil an parallelen Spezikationen) fur die Modellierung von Fragmenten unterschiedlicher germanischer und romanischer Sprachen (EN, FR, IT, NL, DK) eingesetzt werden
konnte.
32 Auf das Problem der fehlenden Konsistenz quer durch Klassen von Worterbuchartikeln wurde oben,
in Punkt 1 von Abschnitt 2.1.2.5, Seite 34, anhand der Analyse bestehender gedruckter Worterbucher schon hingewiesen. Deskriptive Konsistenz wird auch in Punkt 6, der Anforderungsdenition
in Abschnitt 2.3, Seite 68 gefordert.
Die Konsistenz syntaktischer Beschreibungen ist in der Regel etwas einfacher zu kontrollieren als
diejenige von lexikalisch-semantischen Beschreibungen. Vgl. dazu die Forderungen von [Verkuyl 1994].
Es wurde in DELIS versucht, auch fur lexikalisch-semantische Klassen eine Konsistenzkontrolle durch
die Denition von klassen-konstituierenden Beschreibungen von Rollenkonstellationen festzulegen.
33 Eine Hierarchisierung verschiedener Lesarten erfolgt in den Acquilex-Worterbuchern danach, welche
lexikalisch-semantischen Gemeinsamkeiten bzw. Unterschiede zwischen zwei Lesarten vorliegen. Dort
wo die Typenhierarchie eine solche hierarchische Klassizierung nicht zulat, werden zusatzlich Sorten
(psort) verwendet, die eine nicht-monotone Hierarchie bilden konnen.
Fur die psort-Hierarchie gibt es keinen automatischen Klassikator; sie steht neben dem Typenverband der linguistischen Objekte, als separate Strukturierung der Lesarten. Dieses Vorgehen macht
die Sortenhierarchie zum primaren Kriterium der Anordung von Lesarten; das Lexikon erhalt damit eine anwendungsorientierte Ausrichtung: es handelt sich um ein semasiologisches Worterbuch.
Die Strukturierung des Acquilex-Lexikons nimmt u.U. bestimmte Anwendungen vorweg und ist damit fur eine multifunktionale Anwendung nicht besonders geeignet. In DELIS wurde im Hinblick auf
die Verwendbarkeit der lexikalischen Beschreibungen in verschiedenen Anwendungskontexten auf eine
Klassizierung der einzelnen Lesarten verzichtet.
Morphosyn.
Hierarchie
Phonologie
Morphosyntax
Syntax
Semantik
Lex. Zeichen
Syntakt.
Hierarchie
Semant.
Hierarchie
Vereinfacht ausgedruckt, enthalt die hier vorgeschlagene Architektur drei separate aber
miteinander verbundene Komponenten:
Denition der Beschreibungsmittel: die Spezikation der Bausteine der Beschreibung
(Vokabular, z.B. Inventar der semantischen Rollen, der grammatischen Funktionen,
der Typen phrasenstruktureller Konstrukte);
Klassen-Denition: die Spezikation der wohlgeformten Kombinationen der Beschreibungsmittel; diese Denitionen sind jeweils ebenenspezisch; sie stellen Wohlgeformtheitsbedingungen fur Teilbeschreibungen der einzelnen im jeweiligen Lexikon
beschriebenen linguistischen Ebenen dar (z.B. Denition von Rollenkonstellationen
als lexikalisch-semantische Klassen, von syntaktischen Subkategorisierungsklassen,
etc.)34 ;
34 Ein spezieller Typ von Wohlgeformtheitsbedingungen fehlt derzeit noch (in der Modellierung von
DELIS): Es gibt keine \Meta-Spezikation", die die Wohlgeformtheit der vorhandenen oder eventuell
vom Lexikographen neu hinzudenierten Rollenkombinationen uberprufen hilft, so da der Lexikograph momentan noch entweder gar keine oder beliebige neue Rollenkombinationen einfuhren kann.
Es fehlt also eine \Meta-Denition" auf der semantischen Ebene, die vergleichbar ware mit den in der
syntaktischen Beschreibungstheorie von LFG vorhandenen allgemeinen Constraints von \Completeness" und \Coherence".
Instanzen-Denition: fur jede einzelne Lesart die Spezikation der Zugehorigkeit zu
den einzelnen Klassen.
< [
FE: ...
FE: ...
FE: ...
]>
GRAMM. FUNKTIONEN:
< [
GF: ...
GF: ...
GF: ...
] >
PHRASENSTR.-TYPEN:
< [
PT: ...
PT: ...
PT: ...
] >
Abbildung 3.14: Schematische Darstellung der relationalen Modellierung von Zusammenhangen zwischen Teilbeschreibungen von verschiedenen Ebenen
35 Diese Modularisierung entspricht der Forderung, die in Punkt 5, in der Anforderungsdenition in
Abschnitt 2.3, Seite 66 vorgetragen wurde.
gebenenen linguistischen Theorie abhangig. Dies gilt naturlich auch fur die hier exemplarisch zugrundegelegte Theorie, Frame Semantics (vgl. die Denitionsversuche und Tests
in Abschnitt 4.2.1). Wenn aber, wie hier vorgeschlagen, der Versuch unternomen wird,
die lexikalisch-semantische Beschreibung mit den anderen Ebenen explizit zu verknupfen,
wird sichergestellt, da die semantischen Angaben (insbesondere die Rollenkongurationen) auch auerhalb von Frame Semantics wenigstens in ihrer grammatischen Realisierung
reinterpretiert werden konnen. Dies bedeutet wiederum, da die abstrakten lexikalisch semantischen Beschreibungen auf an der Ober
ache, d.h. im Corpustext, beobachtbare und
identizierbare Phanomene zuruckgefuhrt und daher leichter reproduzierbar dokumentiert werden konnen. Sehr vereinfacht ist dieses Prinzip in Abbildung 3.15 dargestellt:
die einzelnen Ebenen sind miteinander verbunden, von der Ebene der Morphosyntax aus
(phrasenstrukturelle Beschreibung, \low level grammar"!) besteht eine Moglichkeit zur
(halbautomatischen) U berprufung im Corpus40 .
SEM:
lex. sem.
...
SYN:
f-str.
...
MARKUP
MO/SY:
c-str.
...
sem. classes
Test sequences
sem
Keyword
syn
CORPUS SENTENCE
mosy
expl "
"
synt. cl.
entry
Documentation
grammar
mo/sy. cl.
Abbildung 3.16: Dokumentation lexikalischer Beschreibungen: Schema der Zusammenhange zwischen Corpus, Lexikon und textueller Dokumentation (vgl. auch Abbildung
3.13)
Merkmalen und Eintragen der Lemmalisten), schematisch dargestellt. Keines der Module
(und entsprechend keine der Beschreibungsebenen, die in den Modulen kodiert werden)
wird als primar oder in irgendeiner Weise a priori fur die Makrostruktur des Lexikons
organisations-relevant ausgezeichnet. Jedes der Module, bzw. jede Teilbeschreibung oder
Kombination von Teilbeschreibungen kann als Kriterium fur die makrostrukturelle Organisation des Worterbuchinhalts verwendet werden.
An dieser Stelle bietet sich ein Vergleich mit traditionellen Worterbuchern an. Was
Wiegand die Zugrisstruktur des Worterbuchs nennt, steht hier zur Debatte:
Im semasiologischen Worterbuch, beispielsweise einem allgemeinen Denitionsworterbuch, erfolgt der Zugri auf lexikalische Information uber das Lemmazeichen;
wenn verschiedene Lesarten des Lemmas beschrieben werden, erfolgen die Dierenzierung und der Zugri uber die Bedeutungsbeschreibung bzw. Lesart-Identikation.
Es ist z.B. sehr schwierig, in einem solchen Worterbuch nahe Synonyme zu suchen,
wenn nicht explizit Synonym-Verweise angegeben sind.
In einem Konstruktionsworterbuch (wie z.B. [Busse/Dubost 83]) erfolgt der Zugri
uber das Lemmazeichen, die Dierenzierung uber Subkategorisierungsmuster.
In einem onomasiologischen Worterbuch schlielich erfolgt der Zugri nicht uber das
Lemmazeichen, sondern uber eine thesaurus-artige Klassizierung in Sachgruppen
oder uber semantische Klassen (z.B. in WordNet).
In jedem dieser einzelnen Falle dient eine bestimmte Art von partieller Information als
SEM. HIER.
..
INHARENTE MERKM.
SYN. HIER.
LEMMALISTE
Abbildung 3.17: Information von verschiedenen Beschreibungsebenen
iet in der Beschreibung einer Lesart zusammen
\primarer Zugrisschlussel". In der Regel ist dies wegen des konventionellen Charakters
des Alphabets das Lemmazeichen. Sekundare Zugrisschlussel sind je nach Worterbuchtyp
Denitionen, Konstruktionen usw.
Im hier verfolgten constraint-basierten Ansatz wird darauf verzichtet, eine Teilinformation a priori als Zugrisschlussel auszuzeichnen. Wie auch alle anderen constraintlogikbasierten Formalismen, kann TFS mit beliebig unterspezizierten Featurestrukturen abgefragt werden41 . Die Worterbucheintrage sind auerdem so gestaltet, da keine Teilbeschreibungen unterschiedlicher Ebenen sich gegenseitig bedingen42 .
Wegen dieser Architekturentscheidungen konnen die Moglichkeiten der Ad-hoc-Abfrage
vollstandig ausgenutzt werden. Entsprechend kann \semasiologisch" angefragt werden, indem nach Verbindungen aus Lemmazeichen und bestimmten semantischen Beschreibungen gefragt wird, jedoch auch \onomasiologisch", indem in der Anfrage nur bestimmte
semantische Rollenkonstellationen angegeben werden, jedoch keine Lemmata. Details zu
diesen Anwendungen sind unten in Abschnitt 5.2 zusammengestellt.
Hier ist darauf hinzuweisen, da die Zugrisneutralitat der Worterbucher eine wichtige Bedingung fur Multifunktionalitat ist: was [Martin/Al 1988] die \benutzerunabhangige Datenbasis" nennen, wird hier durch die TFS-Modellierung reprasentiert; die TFSStatements sind hinsichtlich der Anfrageform \neutral"43. Aus ein und derselben Datenbasis konnen Beschreibungen nach ganz verschiedenen Strukturierungsprinzipien extrahiert
werden. Dieser Ansatz lat sich mit dem Konzept der \Sichten" auf eine Datensammlung
vergleichen, das in der Diskussion um Datenbanken als Reprasentationshilfsmittel fur Lexika eine wichtige Rolle spielt. Da in TFS Datenreprasentationssprache und Anfragesprache identisch sind, ist die Realisierung unterschiedlicher \Sichten" durch unterschiedliche
Anfragen trivial.
41 Unten in Abschnitt 5.1, werden verschiedene Anwendungsbeispiele fur diese als \Ad-hoc-Abfrage"
bezeichnete Verfahrensweise angegeben. Vgl. auch die Erwahnung oben in Abschnitt 3.1.4.2.
42 Mindestens wird diese Lokalitat weitestgehend durchgehalten; einzelne, nicht-kritische Ausnahmen
gibt es bei den Zusammenhangen zwischen grammatischen Funktionen und Phrasenstrukturtypen.
43 Die ubliche Anordnung der Attribute und Werte im Ausgabeformat der TFS-Eintrage ist allerdings
schon von semasiologischen Worterbucheintragen beein
ut. Wenn aber nicht einfach eine ConstraintMenge als Evaluationsresultat ausgeben werden soll (z.B. \[A:x]&[B:y]&[C:[D:z]]"), mu irgendein Ausgabeformat gewahlt werden. Das hier gewahlte Format ist aber bewut nicht fur die TFSDatenbasis selbst strukturierungsrelevant.
Anforderungen
Multifunktionalitat
Architekturprinzipien
Zugrisneutralitat
(3.2.5)
Modularisierung nach
Beschreibungsebenen
(3.2.2, 3.2.3)
Dokumentation von
Textuelle Dokumentation
Klassizierungskriterien (3.2.4)
Verbindung verschiedener
Beschreibungsebenen
(3.2.3)
Robustheit gegenuber Modularisierung in Bausteine,
Klassen, Instanzen
A nderungen
(3.2.3)
Anbindung von Export
an Bausteine
(5.2)
Deskriptive Konsistenz
Gleiche Explizitheit
von Quell- und
Zielsprache
formale Mittel
Constraint-Basiertheit
(3.1.3)
Relationale Constraints
(3.1.3.2)
Relationale Constraints
(fur Export, 3.1.3.2)
Tabelle 3.1: Vergleich der Worterbucharchitektur mit der Anforderungsdenition aus Abschnitt 2.3
Kapitel 4
Strukturierung einsprachiger
Worterbucher: Verbbeschreibung mit Frame
Semantics
Die oben in Abschnitt 3.2 beschriebenen Prinzipien der Worterbucharchitektur sind in monolingualen Worterbuchfragmenten angewendet worden, welche im Rahmen des DELISProjekts entwickelt worden sind. Diese Worterbuchfragmente beschreiben Verben der
sinnlichen Wahrnehmung, im Englischen, Franzosischen, Italienischen und Niederlandischen1 . Es handelt sich um parallele Worterbuchfragmente: Nur fur einzelsprachspezische
Phanomene werden neue Beschreibungsmittel eingefuhrt. Auerdem wurde ein Worterbuchfragment fur Kommunikationsverben des Englischen und Italienischen erstellt. Die
Modellierung des italienischen Fragments wird in Abschnitt 4.5 kurz diskutiert, weil sie
deutlich zeigt, da sich der anhand der Beschreibung von Wahnehmungsverben entwickelte und erstmals getestete Ansatz sehr gut auf andere Gegenstandsbereiche ubertragen
lat.
In diesem Kapitel werden die verwendeten Beschreibungsmittel eingefuhrt und die
TFS-Kodierung dokumentiert. Das Ziel dieser Dokumentation ist es, Beispiele fur die
Anwendung von TFS fur die lexikalische Kodierung zu zeigen. Gleichzeitig wird eine formale Modellierung von Frame Semantics vorgestellt; soweit sich sehen lat, wurde dieser
Beschreibungsansatz hier zum ersten Mal als Grundlage eines maschinenverarbeitbaren
Lexikons herangezogen. Es wird in diesem Kapitel jedoch auf eine detaillierte Diskussion anderer Beschreibungsansatze und auf eine Motivation fur die Benutzung von Frame
Semantics verzichtet: eine solche Diskussion wurde den Rahmen sprengen, da es hier das
Ziel ist, im Rahmen der generelleren Diskussion uber multifunktionale Worterbucher ein
konkretes Beispiel zu geben, nicht aber, eine Diskussion allgemeiner Probleme der Beschreibung von Wahrnehmungs- bzw. Kommunikationsverben zu geben2 .
Die Dokumentation ist nach linguistischen Beschreibungsebenen in Abschnitte eingeteilt. In Abschnitt 4.1 werden zunachst die Bausteine der Lexikoneintrage diskutiert.
Eine Lemmaangabe (Attribut LEMMA:), welche als Wert eine Wortform hat, die das
Lemmazeichen angibt.
Eine Beschreibung inharenter semantischer Merkmale (unter dem Attribut EVENT:),
welche Attribut-Wert-Strukturen als Wert haben kann3 .
Die Frame Element Group fat fur jedes \Frame Element" (d.h. vereinfacht: \Argument")
semantische und syntaktische Information zusammen: es wird die jeweilige Rolle, grammatische Funktion und phrasenstrukturelle Realisierung angegeben4 . Die Grundstruktur
der DELIS-Worterbucheintrage ist in der Abbildung 4.1 schematisch skizziert.
LEMMA:
FEG:
..
Inharente
Merkmale
"..."
ROLLEN:
[ . . .]
ROLLEN:
[ . . .]
GRAMM. FUNKT.:
[ . . .]
GRAMM. FUNKT.:
[ . . .]
PHRASENSTR. TYPEN:
[ . . .]
PHRASENSTR. TYPEN:
[ . . .]
...
Konstrukte !
Bausteine
Konstellationen
Beschreibungsebenen #
(Klassen)
Lexikalische Semantik
Rollen
Rollenkonstellationen
(Frame Semantics)
Funktionale
Grammatische
Allgemeine
Syntax
Funktionen Subkategorisierungsklassen
PhrasenstrukturSyntaktische
Spezische
Syntax
Kategorien Subkategorisierungsklassen
Tabelle 4.1: Bausteine der Frame Element Group und Klassen von Kombinationen solcher
Bausteine
Die lexikalisch-semantische Beschreibung von Verben in DELIS beruht auf den Prinzipien
von Frame Semantics (vgl. [Fillmore 1993a], [Fillmore 1993b]).
Frame Semantics beschreibt zunachst \Szenarien" oder Situationen. Auf der Grundlage einer Beschreibung von Szenarien (und ggf. deren Subtypen) werden die linguistischen
Mittel beschrieben, die einzelne Sprachen bereitstellen, um auf bestimmte Szenarien und
deren Beteiligte zu referieren. Fur den Bereich der Wahrnehmung geht es darum, typische
Wahrnehmungssituationen und die \Situations-Beteiligten" zu identizieren, die charakteristischerweise in einem Wahrnehmungsszenarium auftreten. Verben konnen Situationen
denotieren; die \Situations-Beteiligten" werden dann einerseits durch subkategorisierte
Komplemente, andererseits durch nicht-obligatorische adjunkt-artige Gruppen realisiert6.
Die Grundbegrie der Frame Semantics-Beschreibung von Verben (Situation (Frame)
und \Situations-Beteiligter" (Frame Element)), sowie der Zusammenhang mit Subkategorisierungsbeschreibungen und thematischen Rollen sind von Fillmore (1995) in folgender
Weise dargestellt worden7 :
\One of the basic tasks of Frame Semantics is the schematic description of the
situation types associated with the use of particular predicating words (here
we concentrate on verbs) by discovering and labeling elements of such situations (the frame elements) in so far as these can be re
ected in the linguistic
structures that are built around the word being analyzed.
The semantic frame associated with a particular verb has something in common with the notion subcategorization frame except that it includes the subject, and it has something in common with such notions as theta grid and
argument structure, with the important exception that the list of frame ele6 Die Trennung zwischen Komplementen und Adjunkten ist notorisch problematisch. Beispiele und eine
detaillierte Diskussion dieser Abgrenzungsprobleme gibt z.B. [Somers 1987]. Hier soll nicht auf diese
Problematik eingegangen werden. Wichtig ist fur die Worterbucharchitektur und ihre Anwendung
im Falle der DELIS-Worterbucher, da die \Frame Element Group" im Prinzip Frame Elements
enthalten kann, die als Adjunkte realisiert werden konnen.
7 U bernommen aus der Darstellung der Beschreibungsmittel von Frame Semantics in [Heid (Coord.)
1995].
ments includes not only what gets represented as the arguments (narrowly
conceived) of a verb, but also the frame-specic adjuncts.
Thus, the verb \write", as opposed to the verb \enjoy", takes not only a subject
and an object, but also such optional frame-elaborating phrases as \with red
ink" or \in French" or \on expensive paper". The concept of writing has to
do with leaving traces on a surface, these traces representing expressions in
some language. Thus, in the sentence \I wrote the poem in French with a
ballpoint pen on expensive paper" we nd information about the writer, the
text, the language, the surface, and the means of providing the traces, and
we can t all of that information into a frame-specic scene of the \writing"
type. Adjuncts of the sort \in Cairo" and \in 1930" would not be thought of
as frame-specic, since place and time descriptions can occur in almost any
situation-description."
Bei der Beschreibung der typischen Wahrnehmungs-Situation (\perception frame") wird
von zwei zentralen \Situations-Beteiligten" ausgegangen; diese beiden Frame Elements
werden mit den Rollenbezeichnungen Experiencer und Percept versehen.
Die Frame Elements mit den Rollenbezeichnungen Experiencer und Percept konnen,
in einer sehr allgemeinen ersten Denition, wie folgt umschrieben werden:
Experiencer: Das Individuum, welches etwas wahrnimmt;
Percept: Die Entitat oder der Sachverhalt, welchen der Experiencer wahrnimmt,
oder auf welchen der Experiencer seine Aufmerksamkeit richtet.
Im Laufe der Arbeiten zu DELIS wurde deutlich, da in vielen Fallen der Perception Frame mit einem anderen Frame interagiert, der Beurteilungs-Situationen ausdruckt (\Judgement Frame"). Die Kombination der beiden Frames dient zur Beschreibung von Situationen, in denen neben den Frame Elements mit den Rollen Experiencer und Percept ein
weiteres Frame Element vorkommt, mit der Rolle judgement8 . Typische Beispiel-Verben,
die einen solchen Sachverhalt benennen, sind DE aussehen, eine Lesart von EN sound,
look usw. (z.B. This sounds awful, this looks like a pen).
Fur die einzelnen Frame Elements wird in DELIS eine Beschreibung vorgeschlagen, in
welcher fur die Rollen Experiencer und Percept jeweils Subtypen (Subrollen) angesetzt
werden. Fur jede einzelne Subrolle werden im folgenden Spezika und, wo dies moglich
ist, Tests angegeben9 .
8 Dieses Frame Element kann allgemein (auerhalb der Wahrnehmungsdomane) als eine Pradikation
uber eine Entitat oder einen Sachverhalt deniert werden, zum Ausdruck einer Reaktion eines Individuums auf die Entitat oder auf den Sachverhalt. Diese Reaktion ist beurteilender (qualizierender)
Natur. Sie kann sich auf intersubjektiv uberprufbare Eigenschaften (judgement-veridical), auf eine
subjektive Beurteilung entlang der Gut-Schlecht-Skala (judgement-evaluative) oder auf Inferenzen
beziehen, welche das Individuum auf Grund des vom zu beurteilenden Gegenstand oder Sachverhalt
ausgehenden Reizes zieht (judgement-inferential).
9 Teilweise sind die Subrollen durch spezielles syntaktisches Verhalten identizierbar, teilweise sind die
Subklassizierungen semantischer Natur. Die detaillierte Dokumentation, sowohl durch Tests und Denitionen, als auch durch die explizite Beschreibung des Zusammenhangs zwischen den verschiedenen
4.2.1.1 Experiencer
Die Subtypen von Experiencer sind Experiencer-intentional (experiencer-int) und
Experiencer-non-intentional (experiencer-nonint)10 .
Die Rollen-Unterscheidung bezieht sich darauf, da die wahrnehmende Person11 entweder mit oder ohne eigenes absichtliches Handeln an dem Wahrnehmungsereignis teilnimmt. Die Wahrnehmung kann erfolgen, ohne da die Person etwas unternommen hat,
um das Wahrnehmungserlebnis herbeizufuhren, oder sie handelt absichtlich so, da das
Wahrnehmungsereignis erfolgen kann. Im ersten Fall (das Wahrnehmungsereignis ndet
ohne absichtliches Handeln der teilnehmenden Person statt) wird das Frame Element als
Experiencer-non-intentional (experiencer-nonint) beschrieben. Anderenfalls wird
das Frame Element als Experiencer-intentional klassiziert.
Diese Unterscheidung teilt die Domane der Wahrnehmungsereignisse in zwei Teilbereiche, die mit zwei Verbklassen zusammenfallen. Die eine Klasse wird in DELIS die
\perception-Klasse" genannt, die andere die \attention-Klasse". Die beiden Klassen
enthalten in vielen Sprachen, z.B. im Deutschen, Franzosischen, Italienischen und z.T.
im Englischen unterschiedliche Verben. Im Englischen ist die Unterscheidung nur bei den
Wahrnehmungsmodalitaten des Sehens (vis) und des Horens (aud) lexikalisiert, nicht
aber bei den anderen Modalitaten. Beispiele sind in der Tabelle 4.2 zusammengefat,
englische Beispiele fur alle Wahrnehmungsmodalitaten nden sich unten in Tabelle 4.4,
Seite 109.
Klasse !
perception
attention
Modalitat ! visuell auditiv
visuell
auditiv
Sprache #
DE
sehen horen ansehen, anschauen anhoren
EN
see
hear
look/watch
listen (to)
FR
voir entendre
regarder
ecouter
Tabelle 4.2: Perception vs. Attention-Verben von DE, FR, EN im visuellen und auditiven Bereich
Fur die Subtypen von Experiencer gibt es eine Reihe von Tests. Das Vorliegen der
Subrolle Experiencer-intentional kann anhand von Tests festgestellt werden, die auf
eine absichtliche Handlung des Experiencer uberprufen.
Ein Beispiel fur einen solchen Test ist eine Einbettung des zu prufenden Verbs unter einem Kontrollverb, das eine absichtliche Entscheidung ausdruckt, wie z.B. DE entscheiden, beschlieen, EN decide, FR decider, se decider. Ist die Einbettung akzeptierBeschreibungsebenen entspricht dem in Abschnitt 3.2.4 formulierten und in Punkt 2 der Anforderungsdenition in Abschnitt 2.3, Seite 66 geforderten Prinzip moglichst expliziter Dokumentation der
lexikalischen Spezikationen.
10 Die Unterscheidung wurde oben, in Abschnitt 4.6.2 angesprochen. Sie wird hier im Kontext der Frame
Semantics-Beschreibung dargestellt. Eine leichte Redundanz, die sich hierdurch ergibt, ist leider nicht
zu vermeiden.
11 Als Experiencer kommen naturlich Tiere und Menschen in Frage. Hier wird abkurzend in der Regel von Personen gesprochen. In den Modellierungen wird die Sortenrestriktion \[SORT: animate]"
verwendet; vgl. unten, Abschnitt 4.2.2 und die Hierarchie in Abbildung 4.2.
No Beispielsatz
konsistent?
1 He decided to hear a gun shot
{
2 He decided to hear Prof. Lee
+
(at a congress)
3 He deliberately heard a gun shot
{
4 He deliberately heard Prof. Lee
+
-Subrolle
experiencer
experiencer-n
experiencer-i
experiencer-n
experiencer-i
Tabelle 4.3: Tests fur die Unterscheidung zwischen experiencer-i und experiencer-n
bar und semantisch konsistent, so liegt die Subrolle experiencer-intentional vor. Ist
die Einbettung nicht akzeptierbar, bzw. nicht semantisch konsistent, so liegt die Rolle
experiencer-non-intentional vor; analog funktioniert die Einbettung unter dem Adverb EN deliberately (etc.). Ein Beispiel fur zwei Lesarten von EN hear ist in Tabelle 4.3
angegeben.
4.2.1.2 Percept
Die Rolle percept denotiert das wahrgenommene Objekt oder Ereignis (percept-actual). Auerdem dient die Rollenbezeichnung dazu, Frame Elements zu identizieren,
die einen Gegenstand oder einen Sachverhalt denotieren, auf welchen der Experiencer
seine Aufmerksamkeit richtet (percept-target), oder die eine Interpretation seitens
des Experiencer denotieren, welche sich aus einem Wahrnehmungsereignis ergibt (percept-interpretation).
Die drei Subtypen der Rolle percept sind wie folgt deniert:
Percept-Actual: Die Entitat oder der Sachverhalt, welcher wahrgenommen wird.
Percept-Target: Die Entitat oder der Sachverhalt, auf welchen der Experiencer
seine Aufmerksamkeit richtet, bzw. welchen er wahrnehmen mochte.
Percept-Interpretation: Eine Schlufolgerung, Hypothese oder Interpretation,
die der Experiencer formuliert, wenn er einen Sachverhalt oder eine Entitat wahrnimmt12.
Fur die Subtypen der percept-Rolle wurden folgende Tests vorgeschlagen.
Die Subrolle percept-interpretation tritt nur auf, wenn gleichzeitig ein (in DELIS
als percept-actual klassiziertes) Komplement vorliegt, welches die perzeptive \Grundlage" fur die Interpretation liefert. Dies wird durch Beispielsatze wie DE an ihrem Gesichtsausdruck sah ich, da sie traurig war illustriert. In diesem Beispielsatz ist an ihrem
12 Die Subrolle
Gesichtsausdruck als percept-actual klassiziert, wahrend da sie traurig war als percept-interpretation beschrieben wird13 .
Ein moglicher Test fur die percept-target-Rolle beruht darauf, da das Objekt, auf
das sich die Aufmerksamkeit des experiencer richtet und welches als percept-target
klassiziert wird, nicht notwendigerweise in der durch den Satz beschriebenen Situation vorhanden sein mu. Folglich konnen Satze mit als percept-target klassizierbaren
percepts akzeptierbare und konsistente Interpretationen erhalten, auch wenn die aktuelle
Existenz des percepts negiert wird. In dem Satz EN He looked for a bottle of wine, ist
es moglich, einen Nebensatz but he couldn't see one hinzuzusetzen. Die Phrase a bottle
of wine in diesem Satz wird als percept-target analysiert. Dagegen ist der Satz EN *He
looked at a bottle of wine, but he couldn't see one. semantisch inkonsistent (a bottle of
wine wird hier als percept-actual analysiert).
4.2.1.3 Judgement
Die judgement-Rolle hat drei Subtypen, je nach Art der Beurteilung14. Diese drei Subtypen sind wie folgt deniert:
Judgement-veridical: Die Beurteilung betrit eine intersubjektiv reproduzierbare (nicht notwendig objektive) Eigenschaft des beurteilten percepts. Solche Beurteilungen konnen durch qualikative Adjektive ausgedruckt werden (dieser Saft
schmeckt bitter; dieses Gas riecht stechend; dieser Sto fuhlt sich feucht an), oder
durch Vergleichsphrasen (Prapositionalphrasen oder Vergleichssatze: Das schmeckt
wie Lebertran; das riecht, wie wenn es vergammelt ware).
Judgement-evaluative: Die Rolle dient zum Ausdruck einer subjektiven Beurteilung entlang der \gut $ schlecht-Skala". Satze mit der Rolle judgement-evaluative
dienen oft dazu, die personliche Einschatzung des experiencer relativ zu einem
Wahrnehmungsereignis bzw. einer wahrnehmbaren Eigenschaft eines Gegenstands
oder Sachverhalts auszudrucken. Typische Beispiele sind das schmeckt (mir) gut; das
riecht furchterlich; das hort sich schrecklich an; diese Substanz stinkt wie der Teufel
usw. Die evaluativen Adjektive sind nicht fur eine bestimmte Wahrnehmungsmodalitat spezisch, sondern konnen fur samtliche Modalitaten und auch auerhalb des
Wahrnehmungsbereichs verwendet werden.
Judgement-inference: Diese Rolle wird zugewiesen, wenn eine personliche Interpretation eines wahrgenommenen Phanomens ausgedruckt wird. Als personliche Interpretation werden alle diejenigen Beurteilungen beschrieben, die nicht auf eine
Wahrnehmung, sondern auf den Ruckschlu verweisen, welchen der experiencer
auf Grund einer Wahrnehmung zieht. Typischerweise kann eine Eigenschaft, die als
judgement-inferential beschrieben wird, nicht ohne menschliches Wissen u
ber
13 Es wurde vorgeschlagen ([Schwenger 1995]), das Vorliegen einer percept-interpretation-Rolle dadurch zu prufen, da einem Satz eine weitere Begrundung, etwa in einem Kausalsatz, hinzugefugt
wird. In den meisten Fallen ergeben sich bei Vorliegen von percept-interpretation inkonsistente
Beschreibungen, wahrend dies in anderen Fallen nicht erfolgt. Allerdings ist dieser Test nicht besonders
trennscharf.
14 Tests werden hier nicht angegeben, einmal weil solche Tests im Kontext der anderen fur den judgingFrame charakteristischen Rollen gesehen werden muten, und zum anderen, weil die Rollen uber
semantische, lexikalische und syntaktische Kriterien leicht identizierbar sind. Vgl. oben, Seite 102.
die Welt aus einer sinnlichen Wahrnehmung abgeleitet werden. Typische Beispiele
sind sie sieht frohlich aus; sie klingt verargert; die Suppe schmeckt wie wenn jemand
Zucker und Salz verwechselt hatte. Die qualikativen Adjektive, die mit dieser Rolle
beschrieben werden konnen, konnen aus ganz verschiedenen semantischen Feldern
stammen und haben in der Regel nichts mit dem semantischen Feld Wahrnehmung
zu tun. Auch hier sind Vergleichskonstruktionen moglich.
Samtliche Subtypen der judgement-Rolle werden syntaktisch parallel realisiert.
-].
Auerdem wird gefordert, da der durch die experiencer-Rolle beschriebene Situationsbeteiligte als ein Konzept von der Sorte `animate' beschrieben werden kann (4.6).
Sinngema wird fur die Rolle percept-actual gefordert, da entweder eine Entitat oder
ein Sachverhalt vorliegt (4.7); fur percept-interpretation wird die Bedingung aufgestellt, da lediglich ein Sachverhalt vorliegen kann (4.8). Sortale Einschrankungen fur die
judgement-Rolle werden nicht formuliert.
(4.6)
experiencer[SORT: animate].
(4.7)
percept-actual[SORT: entity | proposition].
(4.8)
percept-interpretation[SORT: proposition].
Die Rolle percept-actual ist auerdem anhand zusatzlicher Sortenrestriktionen in weitere Subrollen aufgespalten. Diese wurden oben in Abschnitt 4.6.2 beschreiben. Eine Teilhierarchie der relevanten Verbklassen (perception und attention) ist in Abbildung 4.12
dargestellt. Die Rollenhierarchie wurde in Abbildung 5.10, Seite 162, dargestellt.
4.2.2 Sorten
Wie in vielen Modellierungen von NLP-Lexika, wird auch in DELIS eine Sortenhierarchie
verwendet. Fur die Zwecke der DELIS-Beschreibungen wird auf die Ausarbeitung der Sortenhierarchie kein besonderer Wert gelegt. Sie ist nicht dafur gedacht, einen ontologischen
Erklarungswert oder eine sonstige Erklarungsrelevanz zu haben, die uber die Trennung
sort
abstract
entity
artifact
concrete
animal
animate
human
15 In DELIS wurde die Denition von Subrollen zum Teil von Sortenrestriktionen abhangig gemacht. Ein
typisches Beispiel hierfur sind die Subtypen von percept-actual, die in Abschnitt 4.6.2 beschrieben
sind.
16 Naturlich ist ein solches Vorgehen aus der Sicht einer detaillierteren lexikalisch semantischen Beschreibung unbefriedigend. Andererseits haben Arbeiten, z.B. im Kontext von Eagles und fruher bereits
in Eurotra, gezeigt, da es nahezu unmoglich ist, zwischen verschiedenen NLP-Projekten zu einem
Konsensus uber die verwendeten spezischen Sorten-Bezeichnungen zu kommen. Auch bei Domanenmodellen (wie beispielsweise im Rahmen von Verbmobil) kann in gleicher Weise uber den Status
von Sorten diskutiert werden.
17 Vgl. die Statements oben, 4.7, Seite 106 und 4.72, 4.73, 4.74, 4.75 auf Seite 138.
18 Die Entscheidung fur verhaltnismaig tiefere Hierarchien und gegen Kreuzklassikation in der bestehenden Modellierung ist technisch bedingt: Die zur Modellierung verwendete Version von TFS (TFS6.0.10 bzw. TFS-6.1) unterstutzt keine vollstandige Kreuzklassikation. Diese Fragestellung wurde
oben in 5.3.2 detailliert diskutiert.
4.2.3 Rollenkonstellationen
4.2.3.1 Prinzipien
Fur die Klassizierung von Verben nach Frame Semantics ist die Tatsache relevant, da
bestimmte Kombinationen von Rollen bzw. Subrollen (Rollenkonstellationen) bei einer
groeren Anzahl von Verben bzw. Verblesarten auftreten.
Eingangs wurde darauf hingewiesen, da das gemeinsame Auftreten der Rollen experiencer und percept f
ur die Wahrnehmungssituation charakteristisch ist. Bei Hinzutreten der judgement-Rolle ergeben sich weitere Kombinationen, entweder aus percept
und judgement, oder aus experiencer, percept und judgement (dreistellige Verben).
Schematisch ist diese grobe Klassikation in der Abbildung 4.3 dargestellt.
perception - frame
EXP
EXP-N
PCT
perception
judgement - frame
PCT
PCT
EXP-I
JUD
veridical
evaluative
inferential
PCT
attention
EXP-I
PCT
JUD
veridical
evaluative
inferential
Abbildung 4.3: U berblick uber die Grobklassikation der semantischen Rollenkonstellationen im Wahrnehmungsbereich
Rollenkonstellationen beschreiben Szenarientypen. Die oben schematisch angegebenen
Kombinationen beschreiben bestimmte Subtypen des Wahrnehmungsszenariums. Wir nennen die durch eine gemeinsame Rollenkonstellation denierten Verblesarten mitunter eine
\semantische Verbklasse".
Tabelle 4.4 enthalt Lemmata des Englischen, die (jeweils fur die funf Modalitaten
der Wahrnehmung) Lesarten aus den Klassen perception, attention und judging haben konnen. In Tabelle 4.5 sind einige englische Satzbeispiele, jeweils nach semantischen
Klassen, mit den zugehorigen Rollenkonstellationen angegeben.
Tabelle 4.4 zeigt, da nur bei Verben der visuellen und der auditiven Wahrnehmung
die Unterscheidung der Klassen durch lexikalische Dierenzierung erfolgt, wahrend sie
sich bei den anderen Wahrnehmungsmodalitaten in unterschiedlichen Lesarten desselben
Verbs, mit unterschiedlichen syntaktischen Eigenschaften, auert. Die Beispiele fur EN
[to] taste in Tabelle 4.6 zeigen dies deutlich.
Der Nutzen einer lexikalischen Beschreibung nach Rollenkonstellationen darf nicht
unterschatzt werden. Sowohl fur die Gestaltung monolingualer als auch bilingualer Worterbuchfragmente kann die Rollenkonstellation (interpretiert als Menge, nicht als Liste)
einen Ausgangspunkt darstellen. Werden alle Lesarten zusammengestellt, die dieselbe
aud olf
gus tac
hear smell taste feel
listen smell taste feel
{
smell taste feel
sound smell taste feel
Rollenkonstellation
[Role: exper-nonint] [Role: p-actual]
Beispiele
John saw the light.
John saw the car.
attention
[Role: exper-int] [Role: p-actual ]
John watched the car.
John looked at the book.
attention-tgt. [Role: exper-int] [Role: p-target]
John looked for a pen.
judging-ver.
[Role: p-actual] [Role: j-ver]
The juice tastes sweet.
judging-eval. [Role: p-actual] [Role: j-eval]
The juice tastes awful.
judging-inf.
[Role: p-actual] [Role: j-inf]
She looks tired.
Tabelle 4.5: Beispiele fur semantische Klassen und ihre typischen Rollenkonstellationen
<
>
<
>
<
<
<
<
>
>
>
>
sind sie A quivalenzkandidaten fur DE duften in der Lesart mit derselben Rollenkonstellation. Ein solcher Vergleich von Rollenkonstellation ist auch bei \Divergenzen" (im Sinne
von Dorr) moglich, wie das Beispiel in 4.8 zeigt.
Lemma
duften
GF: Subj
PT: NP
(gut)
FEG
P-act
Lemma
Lemma
eurer
embaumer
Subj
NP
(J-eval) (bon)
Subj
NP
(bon)
Tabelle 4.7: Kontrastive Beschreibung auf der Grundlage von Frame Element Groups: ein
einfaches Beispiel FR $ DE
Generell kann man sich auch die Beschreibung von \komplexeren" A quivalentvorschlagen
nach demselben Muster vorstellen. Die Beispiele in Tabelle 4.9 zeigen dies: die Tabelle
ist parallel zu Tabelle 4.4 angelegt. Fur die judging-Lesarten, sowie fur die perceptionLesarten mit FR sentir stehen jedoch keine einfachen Verben als franzosische A quivalente
der englischen Lesarten zur Verfugung.
Lemma
riechen
PT: NP
GF: Subj
FEG
P-act
J-verid
Lemma
sentir
NP
Subj
PT: PP (Prap=nach)
AdvP
GF: P-Obj
Xcomp
Tabelle 4.8: Kontrastive Beschreibung mit Frame Element Groups: Syntaktische Divergenz
Verbklasse vis
perception voir
attention
jud.-verid.
regarder
{
jud.-eval.
aud
entendre
olf
sentir l'odeur
de np
sentir
avoir une
odeur adj
gus
sentir le go^ut
de np
go^uter
avoir un
go^ut adj
tac
sentir
(la sensation de) np
ecouter
sentir/toucher
{
ressembler a np
qc. est adj au
toucher
qc. est adj avoir une odeur adj avoir un go^ut adj avoir un toucher
a l'oreille qc. est adj a l'odeur qc. est adj au go^ut adj [rare]
qc. est adj au
toucher
ohne andere Rollen auftreten. Wenn die Rolle experiencer-non-intentional alleine auftritt, so hat die entsprechende Lesart des Verbs eine Bedeutung, die dem Ausdruck einer
Wahrnehmungsfahigkeit dient, vgl. Statement 4.10. Aus diesem Grunde wird die Klasse
\faculty class" (fac) genannt. Daneben ist es moglich, da die Rolle experiencer-int
alleine auftritt (4.11).
Wenn die percept-Rolle alleine auftritt, so liegt eine Lesart vor, bei der eine Evaluation mitverstanden, jedoch nicht im Satz ausgedruckt ist (vgl. 4.12). Die Verben, die
solche Lesarten zulassen, schreiben gleichzeitig die Interpretation der mitverstandenen
judgement-evaluative-Rolle auf der gut $ schlecht-Skala vor. Bei dem Verb embaumer
ist die Lesart z.B. auf eine positive, bei sentir auf eine negative Evaluation festgelegt.
(4.10)
fac
< one-role.
(4.11)
(4.12)
fac[FEG:
exp-i-only
exp-i-only[FEG:
< one-role.
<[FE: experiencer-int]>].
pct-only
pct-only[FEG:
< one-role.
<[FE: percept-actual-ent]>].
Beispiele:
Faculty verbs (fac): Il n'est pas aveugle, il voit (cf. Statement 4.10),
19 Die semantischen Klassen werden alle unter dem Typ semclass zusammengefat. Diese Einteilung
dient mehr der kunstlichen Partitionierung der Beschreibungen, als da sie deskriptiven Wert hat.
Auch die syntaktischen Klassen werden in analoger Weise zusammengefat und unter dem Typ
synclass aufgelistet. Da sowohl semclass als auch synclass in gleicher Weise durch den Typ
set-of-fe beschrieben sind, werden auf sie dieselben Konsistenzbedingungen angewendet. Diese Konsistenzbedingungen werden unten in Abschnitt 4.4 noch detaillierter beschrieben.
Verben nur mit experiencer-int: Je regarde, mais je ne vois rien (cf. 4.11),
Verben nur mit percept-actual: Ce fromage sent (cf. 4.12).
Die Abbildung 4.4 stellt die Hierarchie der in der Beispielmodellierung beschriebenen
Lesarten mit einer einzigen Rolle dar (in der vom TFS-System generierten Form). Die
semantischen Klassen und (als terminale Knoten) die zugehorigen Lesarten sind jeweils
angegeben.
voir-fac
fac
entendre-fac
respirer-fac
sentir-pct
pct-only
one-role
s-apercevoir-pct
ecouter-exp-att
observer-exp-att
exp-i-only
sentir-exp-att
regarder-exp-att
toucher-exp-att
Abbildung 4.4: Hierarchie der einstelligen Lesarten aus dem Beispielfragment der franzosischen Wahrnehmungsverben
Zweistellige Lesarten Die Gruppe der zweistelligen Lesarten zerfallt, wie oben in Ab-
bildung 4.3 angegeben, in die perception- und attention-Lesarten, sowie in die judgingLesarten. Jede der Teilklassen hat weitere Subtypen, die zum Teil durch Sortenrestriktionen bedingt sind (vgl. die Diskusion in Abschnitt 4.6.2 und die Abbildung 4.12, Seite
140). Die Klasse perc-act-ent enthalt beispielsweise diejenigen Lesarten, die als percept
nur ein Objekt zulassen, dessen Konzept als von der Sorte entity klassiziert ist. Die
attention-Lesarten weisen auerdem eine weitere Subklassizierung auf, je nachdem, ob
ein percept-target oder ein percept-actual vorliegt.
In 4.13 und 4.14 sind jeweils die Denitionen der perception und der attentionKlasse und ihrer Subklassen angegeben.
(4.13)
perc
< two-roles.
perc[FEG:
<[FE:
perc-act
perc-act[FEG:
< perc.
<[FE:
experiencer-nonint] [FE: percept-actual]>].
perc-act-ent
perc-act-ent[FEG:
< perc-act.
<[FE:
experiencer-nonint] [FE: percept-actual-ent]>].
perc-act-prp
perc-act-prp[FEG:
< perc-act.
<[FE:
experiencer-nonint] [FE: percept-actual-prp]>].
(4.14)
att <two-roles.
att[FEG:
<[FE:
att-act-ent
att-act-ent[FEG:
< att.
<[FE:
att-hum
att-hum[FEG:
< att.
<[FE:
att-act-prp
att-act-prp[FEG:
< att.
<[FE:
att-tgt
att-tgt[FEG:
< att.
<[FE:
Zweistellige judging-Lesarten weisen ein percept und eine judgement-Rolle auf. Die
judgement-Rolle hat mehrere Subtypen (judgement-veridical, judgement-evaluative,
judgement-inferential, vgl. die Statements 4.15 bis 4.18, unten und die judgementSubrollen im Rahmen des \judging frame").
Fur das Franzosische nehmen wir an, da das Objekt, welches die percept-Rolle realisiert, ein Konzept von der Sorte entity enthalten mu. Im Englischen und Deutschen
konnen auch Sachverhalte an dieser Stelle auftreten.
(4.15) judging
< two-roles.
(4.16)
(4.17)
(4.18)
judging[FEG:
<[FE:
percept-actual]
[FE: judgement]>].
judging-veridical
judging-veridical[FEG:
< judging.
<[FE: percept-actual-ent] [FE: judgement-veridical]>].
judging-evaluative
< judging.
judging-evaluative[FEG: <[FE: percept-actual-ent] [FE: judgement-evaluative]>].
judging-inferential
< judging.
judging-inferential[FEG: <[FE: percept-actual-ent] [FE: judgement-inferential]>].
In Abbildung 4.5 wird die Hierarchie der in der Beispielmodellierung beschriebenen semantischen Klassen mit zwei Rollen, samt zugehorigen Lesarten, in der vom TFS-System
generierten Form reproduziert.
der franzosichen Wahrnehmungsverben relativ selten. Auch fur das Niederlandische und
Englische wurden nicht sehr viele Beispiele gefunden. Im Franzosischen scheinen dreistellige Lesarten, die eine experiencer-Rolle, ein percept und ein judgement beinhalten,
hauger auerhalb des Bereichs der sinnlichen Wahrnehmung aufzutreten; diese Lesarten dienen in der Regel zum Ausdruck einer mentalen Wahrnehmung, d.h. des Verstehens
oder Interpretierens. Selbst die Beispiele, die fur das Franzosische angegeben werden (z.B.
je regarde cet objet comme etrange oder je vois en Marie un danger pour notre groupe)
konnen kaum als Wahrnehmungslesarten interpretiert werden.
Umgekehrt gibt es im Franzosischen keine Moglichkeit, Konstruktionen ohne weiteres
nachzubilden wie das Englische this soup tastes delicious to me oder das Deutsche diese
Suppe schmeckt mir gut. Im Franzosischen sind andere Konstruktionen notwendig, die
entweder die Realisierung der experiencer-Rolle durch ein Adjunkt notwendig machen
voir-perc-thing
apercevoir-perc-thing
s-apercevoir-perc-thing
entendre-perc-thing
sentir-perc-thing
perc-act-ent
toucher-perc-thing
respirer-perc-thing
observer-perc-thing-em
s-apercevoir-perc-thing-em
voir-perc-thing-em
perc
perc-act
voir-perc-prp
apercevoir-perc-prp
s-apercevoir-perc-prp
entendre-perc-prp
sentir-perc-prp
perc-act-prp
voir-perc-xaci
entendre-perc-xaci
sentir-perc-xaci
voir-perc-prp-em
s-apercevoir-perc-prp-em
observer-perc-prp-em
ecouter-att-thing
regarder-att-thing
observer-att-thing
toucher-att-thing
att-act-ent
gouter-att-thing
respirer-att-thing
regarder-media
two-roles
voir-media
entendre-att-hum
att-hum
ecouter-att-hum
regarder-att-xaci
att
ecouter-att-xaci
att-act-prp
observer-att-xaci
observer-att-prp
ecouter-tgt
regarder-tgt
gouter-tgt
att-tgt
voir-tgt
sentir-tgt
observer-tgt
tater-tgt
judging-veridical
judging
sentir-veri-thing
judging-evaluative
sentir-eval
judging-inferential
sentir-inftl-cl
Abbildung 4.5: Hierarchie der zweistelligen Lesarten aus dem Beispielfragment der
franzosischen Wahrnehmungsverben
(selon moi, cette soupe est delicieuse), oder bei denen ein Verb benutzt wird, welches
nicht zum Wahrnehmungsbereich gehort, sondern zum Evaluationsbereich (cette soupe
me semble delicieuse; cette soupe me semble ^etre delicieuse).
Folgende Konstellationen sind fur das Franzosische identiziert worden:
Zwei Subtypen der judging-attention-Klasse, mit der judgement-Subrolle judgement-evaluative (4.19) bzw. judgement-veridical (4.20) (vgl. Abbildung 4.3).
Ein Subtyp der perception-Klasse, bei welcher eine experiencer-Rolle, ein percept-actual und ein percept-interpretation kombiniert sind (4.21).
Die TFS-Statements fur die drei dreistelligen Rollenkonstellationen sind nachfolgend angegeben:
(4.19) judging-att
<three-roles.
(4.20)
(4.21)
judging-att[FEG:
<[FE: experiencer-int]
[FE: percept-actual-ent | percept-actual-prp]
[FE: judgement-evaluative]>].
judging-att-veri
judging-att-veri[FEG:
< three-roles.
<[FE: experiencer-int]
[FE: percept-actual-ent]
[FE: judgement-veridical]>].
perc-act-int
perc-act-int[FEG:
< three-roles.
<[FE: experiencer-nonint]
[FE: percept-actual]
[FE: percept-interpretation]>].
Beispiele:
judging-att:
perc-act-int:
In Abbildung 4.6 sind die semantischen Klassen mit drei Rollen und die im TFS-Fragment
erfaten zugehorigen Lesarten dargestellt.
entendre-pct-int
observer-pct-int
perc-act-int
s-apercevoir-pct-int
sentir-pct-int
voir-pct-int
voir-eval-att-en
three-roles
judging-att
regarder-eval-att
voir-eval-att-cm
voir-att-veri
judging-att-veri
sentir-att-veri
Abbildung 4.6: Hierarchie der dreistelligen Lesarten aus dem Beispielfragment der franzosischen Wahrnehmungsverben
Daruber hinaus konnen diese Beschreibungen mit zusatzlicher morphosyntaktischer Information angereichert werden20 .
Im folgenden werden zunachst die Beschreibungsinventare fur die beiden syntaktischen Ebenen dargestellt, dann wird ihre Interaktion beschrieben, und schlielich wird
ein uberblickshafter Vergleich mit HPSG und LFG angestellt.
Will man jedoch, wie in DELIS, ein multifunktionales Worterbuch erstellen, das genugend
Information fur Lexikoneintrage sowohl von HPSG als auch von LFG enthalt, so ist es
durchaus sinnvoll, in der Lexikonspezikation die Zusammenhange zwischen den beiden
syntaktischen Beschreibungsebenen explizit zu machen, die in den einzelnen Theorien
implizit sind oder auerhalb des Lexikons beschrieben werden21 .
Im Fall von DELIS werden daruberhinaus parallele Beschreibungen fur verschiedene Sprachen angestrebt. Die Zusammenhange zwischen grammatischen Funktionen und
syntaktischen Kategorien lassen sich fur die behandelten Sprachen \parametrisieren".
Beispielsweise mochte man fur Deutsch, Italienisch und Englisch satzformige Prapositionalobjekte zulassen, und zwar sowohl in einer Realisierung als da-Satz, als auch in einer
Realisierung als subkategorisierter indirekter Fragesatz, beispielsweise mit ob (vom Typ es
kommt darauf an, da der Vorsitzende zustimmt bzw. es hangt davon ab, ob ich Zeit habe).
Im Franzosischen sind zwar da-Satz-artige Konstrukte (mit de ce que) moglich, jedoch
erlaubt die franzosische Grammatik nicht, da subkategorisierte indirekte Fragesatze mit
einer Konstruktion gebildet werden, die dem Deutschen davon, ob ... entspricht. Solche
Zusammenhange werden in den einzelsprachlichen DELIS-Lexikonspezikationen dadurch
beschrieben, da bei den Abbildungen zwischen grammatischen Funktionen und syntaktischen Kategorien im Falle des Deutschen, Italienischen und Englischen der wh-Fragesatz
als eine Option fur mogliche Phrasenstrukturtypen aufgefuhrt, beim Franzosischen dagegen ausgelassen wird22 .
Aus den genannten Grunden wurde das Inventar grammatischer Funktionen in DELIS weitgehend am \Minimalprogramm" von HPSG orientiert, nicht primar an LFG.
Auerdem entspricht das reduzierte Inventar grammatischer Funktionen eher Fillmores
Construction Grammar, dem syntaktischen Beschreibungsansatz, den Fillmore zusammen
mit Frame Semantics verwendet.
21 Es gibt allerdings Falle, wo LFGs grammatische Funktionen hinsichtlich der kategorialen Fullung unterspeziziert sind, und wo dieser Tatbestand bei der Spezikation lexikalischer Beschreibungen zu
Problemen fuhrt: XCOMP ist in LFG prinzipiell oen hinsichtlich der kategorialen Fullung: NPs, PPs,
APs k
onnen pradikative XCOMP-Funktion haben, auerdem wird die Funktion XCOMP kontrollierten innitivischen Erganzungen zugewiesen; da aber die Auswahl aus NPjAPjPP bei Pradikativa eine
(idiosynkratische) Eigenschaft der Verben ist, mu in einem multifunktionalen Lexikon die jeweils
vom Verb erlaubte Kategorie des XCOMP speziziert werden: unten in Abschnitt 6.4 werden Beispiele angegeben, die zeigen, da z.B. deutsche und franzosische Verben mit Objektspradikativ sich
hinsichtlich der kategorialen Realisierung des Pradikativs unterscheiden konnen.
Das Lexikon mu also die kategoriale Realisierung des Pradikativs beschreiben konnen. Da in LFG
bislang kein expliziter Zugri auf Phrasenstrukturen aus den Lexikoneintragen moglich war, mute
das Problem durch zusatzliche Constraints auf der f-Struktur-Ebene (z.B. \ (" XCOMP VFORM)")
behandelt werden. Die Losungsversuche hierzu sind im Teil deskriptiv nicht besonders einleuchtend. In
allerneuesten Arbeiten zu LFG (vgl. e-mail-Rundschreiben im Projekt \Pargram" von Ron Kaplan,
Xerox PARC, Mai 1995) wird ein spezielles Merkmal verfugbar gemacht, mit welchem in Lexikoneintragen kategoriale Information speziziert und auf der c-Struktur abgepruft werden kann.
22 Je nach der formalen Beschreibung der Ober
achensyntax (c-Struktur) von Konstruktionen des hier
angesprochenen Typs ist es durchaus moglich, da andere als die hier vorgeschlagenen Losungen
gewahlt werden. Beispielsweise kann das Deutsche davon (das Korrelat) als Prapositionalphrase analysiert werden, die auerhalb des da-Satzes auftritt usw.
Wenn man jedoch davon ausgeht, da fur ein multifunktionales Worterbuch ein bestimmter Abstraktionsgrad (unter Umstanden verbunden mit geringerer Granularitat der Teilbeschreibungen) angestrebt
wird, so lassen sich die Vorschlage hier durchaus vertreten. Abbildungen auf spezischere Beschreibungen sind moglich.
Folgende grammatischen Funktionen werden verwendet; sie sind wieder als Typenhierarchie modelliert (vgl. unten die Abbildung 4.7):
Subject (subj, identiziert durch die u
blichen Subjekt-Tests, wie etwa Position im
Englischen, Kasusmarkierung im Deutschen usw.);
Complement (Alle subkategorisierten Nicht-Subjekt-Funktionen);
Adjunct (Nicht subkategorisierte Funktionen).
Die Funktionen Complement und Adjunct werden weiter in Subtypen unterteilt, wenn
Kontrolle oder eine pradikative Verwendung vorliegt.
Wie in LFG werden kontrollierte und nicht-kontrollierte Subtypen von Complement
und Adjunct unterschieden. Fur Falle mit Kontrolle werden die Subtypen xcomp und
xadjunct eingef
uhrt, die dieselben Denitionen wie die entsprechenden LFG-Funktionen
haben. Sie sind durch das Vorliegen der Kontrollrelation (mit obligatorischer Angabe des
controllers23 ) charakterisiert.
Die pradikativen Komplemente werden als ein eigener Untertyp aufgefuhrt. Die Beschreibung von Pradikativa soll (anders als in LFG) von Raising und Equi abgesetzt
werden (in HPSG wird hierzu ein Merkmal \[PRD: +]" verwendet).
Hiermit ergibt sich die folgende Liste von grammatischen Funktionen und Subtypen:
subj
complement
{
{
{
comp
xcomp [CONTROLLER: func]
predicative [PREDICATE-CONTROLLER: subj|comp]
adjunct
{
{
{
(antial)-adjunct
circumst
.
Die zugehorigen TFS-Denitionen (ohne xadjuct) sind in 4.22 bis 4.25 angegeben.
(4.22) func = subj | complement | adjunct.
pred-adjunct [PREDICATE-CONTROLLER: func]
comp
(4.23)
< complement.
23 Als controller kommt naturlich nur das Subjekt, ein Komplement (soweit es als NP realisiert ist)
oder eine semantisch nicht interpretierte Funktion (u-comp) in Frage. Die Funktion u-comp wird fur
die Beschreibung von Raising und von \a.c.i" (vgl. FR j'entends mon voisin tousser benutzt: \a.c.iVerben" sollen als zweistellige Pradikate (mit den Rollen experiencer, percept) analysiert werden.
Als controller des xcomp wird jedoch eine grammatische Funktion angenommen, die nicht in der
Pradikat-Argument-Struktur des Verbs auftritt (mon voisin im Beispiel oben). Diese Beschreibung
entspricht derjenigen von LFG.
(4.24)
(4.25)
Die Hierarchie von grammatischen Funktionen, die vom TFS-System hieraus kompiliert
wird, ist in Abbildung 4.7 angegeben.
circumst-adjunct
adjunct
pred-adjunct
comp
func
complement
xcomp
predicative
subj
In DELIS werden die syntaktischen Kategorien der traditionellen Grammatik und Lexikographie benutzt24 . Dabei wurden Hierarchien von Wortklassen und von syntaktischen
Kategorien deniert, die abstrakt genug sind, als da sie { mit kleineren sprachspezischen
Erganzungen { fur alle DELIS-Sprachen benutzt werden konnen.
Die Teilhierarchien fur Prapositionen und Complementizer sind detaillierter ausgearbeitet, als dies bei den Kategorien fur Lexemworter der Fall ist, weil subkategorisierte
Erganzungen sich eher hinsichtlich der Wahl der Teilklassen von Complementizers oder
von Prapositionen unterscheiden, als hinsichtlich der Nomina oder Adjektive die als Kopf
der jeweiligen Phrase auftreten. In 4.26 sind, am Beispiel des Franzosischen, die Typen
von Kategorien angegeben, die in den DELIS-Beschreibungen benutzt werden.
(4.26) category = complementizer | conjunction | prep | n | v | adj.
Fur das Franzosische wird postuliert, da bestimmte Verben zwar indirekte Fragesatze
mit wh-Fragewortern (z.B. quand, qui, combien, quel-...) subkategorisieren, jedoch nicht
oder nur in einer anderen Bedeutung indirekte Fragesatze mit si. Dementsprechend wird
24 Die von Government-and-Binding und anderen stark hierarchisierenden Beschreibungsansatzen beein
uten Kategorisierungen der neueren formalen Syntaxtheorien sind auf der hier verfolgten Ebene
der Granularitat nicht unmittelbar relevant: DELIS-Worterbucher stellen zunachst eine Grundlage
fur verschiedene Anwendungsformate bereit, ohne sich auf spezische Analysen festzulegen.
die Teilklasse wh-compl nochmals in zwei Unterklassen aufgespalten, eine fur die Konjunktion si, eine fur wh-Frageworter (qu-compl)25 . Die entsprechenden TFS-Statements
sind in 4.27 bis 4.31 angegeben. Die Namen der Typen sind, dem Grundsatz der \parallelen" Fragmente entsprechend, fur die DELIS-Sprachen dieselben (z.B. \wh-compl" fur
indirekte Frageworter).
(4.27) complementizer = wh-compl | that-compl.
(4.28) qu-compl < wh-compl.
(4.29) quand < qu-compl.
comment
comme-1
qui
<
<
<
qu-compl.
qu-compl.
qu-compl.
(4.30) si
< wh-compl.
(4.31) que
< that-compl.
Die Domane der Prapositionen ist aufgeteilt in Prapositionen, die \kasusmarkierende"
Funktion bei subkategorisierten Prapositionalobjekten haben (obj-prep: vgl. DE rechnen
mit, denken an, FR compter sur, r^ever de), Prapositionen, die pradikative Erganzungen
einleiten konnen (predi-prep: vgl. DE ansehen als, FR prendre pour, regarder comme),
sowie andere Prapositionen, die primar in Adjunkten auftreten konnen26 .
(4.32) prep = obj-prep | predi-prep | other-prep.
(4.33) en < obj-prep.
a < obj-prep.
de < obj-prep.
adj
v
n
other-prep
category
prep
predi-prep
comme-2
en
obj-prep
a
de
conjunction
comme-si
that-compl
que
si
complementizer
quand
wh-compl
comment
qu-compl
comme-1
qui
(4.37)
(4.38)
(4.39)
[COMPLEMENTIZER:
complementizer | conjunction].
[COMPLEMENTIZER:
que-cl
[COMPLEMENTIZER:
wh-cl
[COMPLEMENTIZER:
si-cl
[COMPLEMENTIZER:
qu-interro-cl[COMPLEMENTIZER:
conjunction].
que].
wh-compl].
si].
qu-compl].
Die Modellierung zeigt deutlich, da die Unterscheidungen auf der Kategorienebene und
auf der Ebene der Wortklassen parallel laufen. Die einzelnen Subtypen von subkategorisierten Satzen werden ja im wesentlichen danach unterschieden, welcher Subtyp von
Complementizer verwendet wird (vgl. Statements 4.37 bis 4.39). In der gleichen Weise
verweisen die Subtypen der Prapositionalphrase (vgl. Statements 4.40, 4.41) auf die als
Kopf eingesetzten Subtypen der Prapositionen27:
27 Dies ist ein weiteres Beispiel fur eine partielle Modellierung von linguistischen Objekten, die sich
an der Modellierung der zugrundeliegenden Beschreibungsbausteine orientiert, vgl. die Diskussion in
Abschnitt 4.6.2.
s
advp
conj-cl
si-cl
subclause
wh-cl
qu-interro-cl
complement-cl
que-cl
phrasetype
ap
other-pp
pp
predicative-pp
obj-pp
np
vp
Abbildung 4.9: Teilhierarchie der Typen von syntaktischen Kategorien im Fragment fur
Franzosisch
(4.40)
(4.41)
pp[PREP: prep].
pp = obj-pp | predi-pp | other-pp.
obj-pp[PREP : obj-prep].
predi-pp[PREP: predi-prep].
vp | np | que-cl].
comp,
vp | np | subclause | pp].
xcomp[CTRLR: subj | comp | u-comp],
s | vp].
predicative[PRED-C: subj | comp],
ap | np | predi-pp].
circumst-adjunct,
pp | conj-cl ].
pred-adjunct[PRED-C: subj | comp],
ap | np | pp].
Fur das Franzosische wird postuliert, da die Funktion des Subjekts durch Verbalphrasen,
Nominalphrasen oder que-Satze (nicht indirekte Fragesatze!) realisiert werden kann. Fur
die Funktion comp wird ausgesagt, da Verbalphrasen, Nominalphrasen, Prapositionalphrasen und jede Art von Komplementsatzen moglich sind28 .
Fur die Funktion xcomp wird auch eine Abbildung auf die Kategorie s (fur sentence)
vorgenommen, weil im zur Rede stehenden Fragment insbesondere a.c.i-Konstruktionen
(je vois Marie traverser la rue) behandelt werden, fur die auf der Phrasenstrukturebene eine Beschreibung als Satz adaquater ist, als eine Beschreibung als Verbalphrase. Als
pradikative Erganzungen konnen Adjektivphrasen, Nominalphrasen und Prapositionalphrasen auftreten.
Die beiden Typen von Adjunkten werden in gleicher Weise durch Abbildungen zwischen der grammatischen Funktion und dem Phrasenstrukturtyp deniert. U blicherweise konnen Adjunkte als Prapositionalphrasen oder konjunktionale Nebensatze auftreten.
Pradikative Adjunkte konnen Adjektivphrasen, Nominalphrasen oder Prapositionalphrasen sein. Als pradikative Adjunkte werden Falle wie DE er schaute erstaunt zur Tur
beschrieben.
In der Diskussion am Beginn von Abschnitt 4.3.1 wurde bereits darauf hingewiesen, da
die DELIS-Worterbucher gegenuber einem anwendungsspezischen Worterbuch, wie es
beispielsweise fur LFG oder fur HPSG geschrieben wurde, relativ redundant erscheinen,
weil sie die syntaktische Beschreibung auf beiden Ebenen (grammatische Funktionen und
syntaktische Kategorien) vollstandig ausbuchstabieren und zusatzlich noch die Zusammenhange zwischen den beiden Teilbeschreibungen explizit modellieren. Oben wurden
hierfur bereits Argumente aus der Sicht des multifunktionalen Worterbuchs und des Aufbaus von parallelen mehrsprachigen Lexikonfragmenten gegeben.
Aus den die DELIS-Worterbucheintragen konnen aus diesem Grund sowohl LFGEintrage, als auch HPSG-Eintrage direkt abgeleitet werden. Als Beispiel wird in Statement
4.43 die Frame Element Group einer Lesart des franzosischen Verbs sentir (wie etwa im
Satz Jean sent l'odeur) sinngema angegeben:
(4.43) < [ FE
: experiencer-nonint,
[ FE
: percept-actual,
GF
: subj,
PT
: np,
EXPRESSION : ``Jean'']
GF
: comp,
PT
: np,
EXPRESSION : ``l'odeur'' ] >
Der entsprechende LFG-Eintrag in 4.44 gibt lediglich das Lemma, die Kategorie und die
Pradikat-Argument-Struktur mit subkategorisierten grammatischen Funktionen an:
(4.44)
sentir, v*:
(" PRED) = \sentir h (" SUBJ)(" OBJ) i"
Der Eintrag ist erheblich kompakter, da die Abbildungen zwischen Funktionen und Phrasenstrukturtypen durch die funktionalen Annotationen im c-Struktur-Gerust der Gram28 Zu den Komplementsatzen zahlen hier auch Konjunktionalsatze (wie etwa im Falle von mit comme
si eingeleiteten Vergleichssatzen), die im Rahmen der Frame Semantics-Modellierung der judgingLesarten franzosischer Wahrnehmungsverben mitbehandelt werden (cela sent comme s'il avait ete
oublie dans le frigo).
matik ubernommen werden, und da Aussagen uber die Zusammenhange zwischen semantischen Relationen und grammatischen Funktionen durch die Lexical Mapping Theory
speziziert werden (konnen) und somit wiederum nicht im Lexikoneintrag aufzutreten
brauchen.
Ein HPSG-Eintrag fur FR sentir in dem Satz Jean sent l'odeur ist in 4.45 in dem
Format reproduziert, wie es in [Heid/Kuhn 1994] benutzt wird:
3
phon hsenti
6
(4.45)
37
2
3
2
7
6
6
77
6
6
vform n
77
6
7
6head
6
77
6
7
6
6
verb
77
6
7
6
6
37
2
77
6cat 6
6
77
6
7
6
6
subj
h
NP[nom,3sg]
i
77
6
7
6
6
1
55
4
77
6
4
val
6
77
6
6
i
comps
h
NP[acc]
2
77
6synsemjloc6
77
6
6
2
377
6
6
77
6
7
6
reln
perception
6
7
6
6
77
7
6
6
6experiencer 1
777
6cont
6
4
577
6
6
77
6
6
2
percept
57
4
5
4
word
perception-soa
Der Eintrag in 4.45 ist expliziter und den DELIS-Eintragen ahnlicher als Eintrage von
LFG. Unter dem cont(ent)-Feature wird die semantische Beschreibung (Relation und
semantische Rollen, hier bewut mit den gleichen Rollennamen wie in Frame Semantics)
angegeben. Unter dem Merkmalspfad SYNSEMjLOCjCATjVAL werden separate Listen fur Subjekt und Komplemente angegeben. Die Trennung in Subjekt, Komplemente und Adjunkte,
die in DELIS auf der Ebene der grammatischen Funktionen durchgefuhrt wird, entspricht
der Einteilung in drei Teillisten in HPSG (im Lexikoneintrag in 4.45 sind naturlich nur
subj und Comps angegeben). In jeder Liste werden die einzelnen Elemente kategorial beschrieben (in diesem Fall als Nominalphrasen, mit den zugehorigen Agreement-Angaben).
Die Zusammenhange zwischen semantischen Relationen und subkategorisierten grammatischen Funktionen werden durch \Reentrancy-Tags" angedeutet.
Ziel der DELIS-Modellierung ist es nicht, eine moglichst elegante Darstellung zu wahlen,
die Redundanz auf allen Ebenen minimiert, oder die mit besonders ezienten Verfahren
verarbeitet werden kann. Vielmehr geht es darum, die Information, die fur verschienene
Anwendungen notwendig ist, intern so zu strukturieren, da die DELIS-Lexika modular
und konsistent gehalten werden konnen, und da Beschreibungen in anwendungsspezischen Formaten abgeleitet werden konnen. Die Eintrage sollen auerdem die Grundannahmen von Frame Semantics berucksichtigen.
Diese betreen Abbildungen zwischen den lexikalisch-semantischen Rollen und den grammatischen Funktionen, sowie die Abbildung zwischen den Rollen und den syntaktischen
Kategorien (die Abbildungen zwischen funktionaler und kategorialer Beschreibung wurden
oben diskutiert).
Beide Abbildungen konnen als Teil des Syntax-Semantik-Interface aufgefat werden. Je
nach Theorie werden entsprechende Beschreibungen in der \Lexical Mapping Theory" (im
Fall von LFG), in \Linking Rules" oder in allgemeinen Prinzipien beschrieben. Das Ziel ist
jeweils, die semantischen Rollen und die grammatischen Funktionen so anzuordnen, da
sich entweder allgemeine Korrelationen ergeben, oder da mindestens die Abbildungen
fur jede einzelne semantische Relation explizit speziziert werden konnen. Hier wird der
zweite Ansatz verfolgt.
Fur eine Lexikonspezikation bietet sich die zweite Losung an, obwohl sie weniger
generell ist: allgemeine Prinzipien erfassen in der Regel beispielsweise nicht die Auswahl
von Prapositionen in Prapositionalobjekten oder sprachspezische Variationen auf der
Kategorie-Ebene. Bei der Entwicklung einer Spezikation fur ein multifunktionales Worterbuch kann aber darauf verzichtet werden, fur samtliche behandelten Falle korrekte und
vollstandige Vorhersagen machen zu wollen. Wichtig ist, da die Spezikation einen allgemeinen Rahmen fur die Konsistenzkontrolle bei der Erfassung einzelner, zum Teil auch
idiosynkratischer Beschreibungen abgibt, soda unerlaubte Beschreibungen ausgeschlossen werden konnen.
In den DELIS-Worterbuchern wird also keine Erklarung der Zusammenhange zwischen semantischen Relationen und grammatischen Funktionen angestrebt30 . Um jedoch
die Konsistenzkontrolle der lexikalischen Beschreibungen zu ermoglichen, mu, gewissermaen als minimale Form der Vorhersagen uber die Abbildungen zwischen Rollen und
grammatischen Funktionen, eine Liste der moglichen Kombinationen zwischen den beiden Beschreibungsmitteln angegeben werden. Die einzelnen Alternativen werden disjunktiv nebeneinandergestellt: die Statements geben also lediglich das Abbildungspotential an.
Die Auswahl erfolgt durch die Spezikation von Rollenkonstellationen und Subkategorisierungsklassen, die, separat fur beide Beschreibungsebenen, angeben, welche Kombinationen
von Rollen, bzw. welche Kombinationen von grammatischen Funktionen moglich sind.
In 4.46 sind die Abbildungen zwischen den semantischen Rollen und den grammatischen Funktionen fur Franzosisch zusammengestellt:
Teilbeschreibungen der beiden in DELIS verwendeten syntaktischen Beschreibungsebenen (Ebene der
grammatischen Funktionen und Ebene der phrasenstrukturellen Konstrukte) miteinander interagieren, und wie diese Interaktion in TFS modelliert wird.
30 Solche erklarungsmachtigeren Beschreibungen konnen oft nur unter Zuhilfenahme von zusatzlichen
formalen Mitteln, wie z.B. Default-Annahmen, reihenfolgeabhangigen Statements, etc. modelliert werden. Ein Beispiel hierfur ist LFGs Lexical Mapping Theory. Der Ansatz der Lexical Mapping Theory
beruht auf einer \Hierachie" der Rollen und einer \Hierarchie" der grammatischen Funktionen. Die
Beschreibungselemente werden dabei nach ihrer Thematizitat, bzw. nach ihrer Obliqueness angeordnet. Die Reihenfolge der Beschreibungsmittel in den beiden Sequenzen ist relevant fur die Abbildung,
da das \hochste" Element der Rollenhierarchie (z.B. Agens) auf das \hochste" Element der Funktionenhierarchie (z.B. Subjekt) abgebildet wird. Die Regeln fur die Abbildung machen daruber hinaus
Aussagen dafur, welche Abbildungen moglich sind, wenn bestimmte Elemente schon zuvor in einer
bestimmten Weise abgebildet worden sind. Fur diese Art von Abbildungsverfahren lassen sich reihenfolgeabhangige (\prozedurale") Beschreibungen nden. In LFGs Lexical Mapping Theory gibt es
eine Reihe von \Mapping Principles", die zum Teil default-artige Mechanismen voraussetzen: eines
der Prinzipien verlangt, das die hochste verfugbare Rolle immer auf das Merkmal [-o] (non-objective)
abgebildet wird.
(4.46)
sem-gf[FE:
GF:
experiencer,
subj ].
sem-gf[FE:
GF:
percept-actual-ent | percept-actual-hum,
subj | comp].
sem-gf[FE:
GF:
percept-target,
comp].
sem-gf[FE:
GF:
percept-interpretation,
comp].
sem-gf[FE:
percept-actual-prp [FACTIVITY: +,
DIRECTNESS: -],
comp].
GF:
sem-gf[FE:
GF:
percept-actual-prp [FACTIVITY: -,
DIRECTNESS: +],
xcomp[CTRLR: u-comp]].
sem-gf[FE:
GF:
judgement,
predicative[PRED-C:
sem-gf[FE:
GF:
judgement-inferential,
comp].
subj | comp]].
Neben den Abbildungen zwischen Rollen und grammatischen Funktionen wird in DELIS
auch eine Abbildung zwischen Rollen und syntaktischen Kategorien angegeben.
A hnlich wie in den \Realisierungsregeln", welche z.B. in Systemen zur konzeptbasierten maschinellen U bersetzung (vgl. z.B. das KBMT-System (Knowledge Based Machine
Translation), [Nirenburg et al. 1992]) formuliert wurden, wird durch diese Abbildungen
beschrieben, da eine Rolle durch einen bestimmten Typ von syntaktischer Kategorie realisiert werden kann. Typische Beispiele hierfur sind die Realisierung von propositionalen
Argumenten durch Verbalphrasen, Nebensatze etc., oder die Realisierung von Pradikativa
durch Adjektivphrasen.
Daruberhinaus macht Frame Semantics eine Reihe von Annahmen uber die Zusammenhange zwischen den Rollen, die einzelnen frame elements zugewiesen werden, und der
syntaktischen Realisierung dieser frame elements (vgl. die Statements unten in 4.47)31.
Diese Aussagen werden in den Abbildungsregeln kodiert. Wiederum wird lediglich eine
Disjunktion der moglichen Konstrukte angegeben, d.h., in der Terminologie der Sprachgenerierung, das \Realisierungspotential". Einzelne Subkategorisierungsklassen konnen aus
diesem Realisierungspotential fur die jeweiligen Verblesarten relevante Teile \ausschneiden".
(4.47) sem-ph[FE: experiencer,
PT:
np ].
sem-ph[FE:
PT:
percept-actual-hum,
np ].
sem-ph[FE:
percept-actual-ent,
31 Beispiele: \experiencer" wird als NP (oder, im Passiv, PP) realisiert; \percept-target" kann im
Franzosischen nur als si-Satz realisiert werden (Il a regarde si la lumiere etait eteinte), usw.
PT:
obj-pp[PREP: de|en|a]].
sem-ph[FE:
PT:
percept-actual-ent,
np].
sem-ph[FE:
percept-actual-prp [FACTIVITY: +,
DIRECTNESS: -],
que-cl].
PT:
sem-ph[FE:
PT:
sem-ph[FE:
PT:
percept-actual-prp [FACTIVITY: +,
DIRECTNESS: -],
qu-interro-cl].
percept-actual-prp [FACTIVITY: -,
DIRECTNESS: +],
s ].
sem-ph[FE:
PT:
percept-target,
si-cl].
sem-ph[FE:
PT:
percept-interpretation,
qu-interro-cl | que-cl].
sem-ph[FE:
PT:
judgement-veridical | judgement-evaluative,
ap | np | predi-pp].
sem-ph[FE:
PT:
judgement-inferential,
ap | np | conj-cl].
Alle Abbildungsrelationen werden als Wohlgeformtheitsbedingungen uber die Formulierung von Frame Element Groups verstanden; in Statement 4.48 werden die einzelnen
Relationen als Bedingungen fur wohlgeformte Frame Elements (fe) eingefuhrt:
(4.48) fe[FE: #fe = role,
GF:
PT:
#gf = func,
#pt = phrasetype]:- sem-gf[FE:
GF:
gf-ph [GF:
PT:
sem-ph[FE:
PT:
#fe,
#gf ],
#gf,
#pt],
#fe,
#pt ].
In der Denition 4.48 wird zunachst das Vorhandensein je einer Teilbeschreibung der drei
linguistischen Ebenen gefordert (ein Objekt vom Typ fe hat die Attribute FE, GF und
PT). F
ur jede Ebene wird Zugehorigkeit zu dem jeweils relevanten Typ (role, func, bzw.
phrasetype) verlangt. Als Bedingung (nach dem Bedingungs-Symbol \:-") werden die
oben im Detail dargestellten Abbildungen angegeben. Eine Kombination aus Rollenbeschreibung, grammatischer Funktion und Phrasenstrukturtyp ist nur dann wohlgeformt,
wenn sie das Produkt der relationalen Constraints erfullt.
Anders gesagt: es mu aus den drei Teilmengen von Abbildungen (sem-gf, sem-ph,
gf-ph) mindestens je eine Abbildung pro Typ geben, die mit den je zwei anderen Abbildungen \zusammenpat". Fehlt eine Abbildung oder ist eine Kombination nicht durch
die denierten Abbildungen erfat, so gilt die entsprechende frame element-Beschreibung
als falsch.
4.5.1 Fragment
Wie im Falle der Wahrnehmungsverben, wurden auch fur die Modellierung der Kommunikationsverben relativ allgemeine Lexeme ausgesucht, die zum Teil Hyponyme haben, die
weitgehend analog linguistische Eigenschaften aufweisen. Im Rahmen von DELIS wurden
Kommunikationsverben des Italienischen und des Englischen, sowie ansatzweise des Danischen und Niederlandischen beschrieben und verglichen. Tabelle 4.10 stellt die Lemmata
der vier Sprachen zusammen.
Kriterium # Sprache !
Allgemeine
Kommunikationsverben
Mit \interrogativer"
Message
Niederlandisch
zeggen
vragen
beloven
overleggen
bespreken
ontkennen
4.5.2.1 Rollen
Die vier grundlegenden Rollen, Sender, Addressee, Message und Topic, sind in der aus
traditionellen Kommunikationsmodellen bekannten Weise deniert: die Sender-Rolle wird
dem Individuum zugewiesen, welches Kommunikationshandlung durchfuhrt; die AddresseeRolle tragt der \Empfanger" der Kommunikation; die Rolle Message wird fur die ubermittelte Nachricht verwendet, wahrend die Rolle Topic fur den besprochenen Gegenstand
(oder den Sachverhalt, uber den gesprochen wird) steht.
Fur die Message-Rolle gibt es eine doppelte Subklassizierung, einmal nach dem Illokutionstyp (deklarativ, interrogativ, imperativ, kommissiv), zum anderen nach semantischsyntaktischen Subtypen; auf der Grundlage von Frame Semantics werden neben der unspezizierten Message-Rolle die folgenden Subtypen unterschieden:
Message-Noise: diese Rolle wird zugewiesen, wenn das betreende Frame Element
eine direkt gesprochene (und wahrnehmbare) Botschaft bezeichnet; ublicherweise
wird ein solches Frame Element durch direkte Rede realisiert;
Message-Content: diese Rolle wird zugewiesen, wenn das Frame Element den Inhalt einer Nachricht als Proposition beschreibt; realisiert beispielsweise als indirekte
Rede.
Message-Description: diese Subrolle wird zugewiesen, wenn das Frame Element
in abstrakter Weise eine Botschaft denotiert; in der Regel werden solche Frame
Elements durch abstrakte Substantive (z.B. story, question, etc.) realisiert;
Die beiden Subklassizierungen der Message-Rolle interagieren miteinander. So zeigt sich,
da Message-Description nur beim deklarativen Illokutionstyp vorkommt, wahrend
die Wiedergabe samtlicher drei33 verschiedenen Illokutionstypen durch indirekte Rede
(Message-Content) moglich ist. In gewisser Weise ist es nicht sinnvoll, fur direkte Rede
(Message-Noise) Illokutionstypen anzunehmen, oder aber samtliche Typen werden als
mit Message-Noise kompatibel beschrieben. Diese Zusammenhange sind in der Tabelle
4.11 zusammengefat.
Die Rollenhierarchie fur die Kommunikationsverben ist im Gegensatz zu derjenigen, die
bei den Wahrnehmungsverben verwendet wurde, relativ
ach: nur bei der Rolle Message
wird uberhaupt eine Subklassizierung vorgenommen.
32 Daruberhinaus wurde von [Calzolari/Corazzari 1995] die Benutzung einer weiteren Rolle,
\Content-Object" vorgeschlagen, um fur Beispiele vom Typ EN He promised her a book eine Moglichkeit zu haben, das Komplement von promise mit einer anderen Rolle als message oder topic zu
beschreiben.
33 Der kommissive Illokutionstyp wird nicht in dieser Weise kreuzklassiziert.
Message-Subtyp
m-noise
m-description
m-content
Illokutionstyp
deklarativ interrogativ imperativ
+
+
+
+
+
+
+
4.5.2.2 Rollenkonstellationen
Auf der Grundlage des Rolleninventars wurde fur die italienischen Verben eine Hierarchie von Rollenkonstellationen entwickelt. Erwartungsgema gibt es keine Situationen
mit nur einer Rolle. Auerdem zeigt sich (mindestens fur das Italienische) deutlich, da
die Addressee-Rolle in vielen Fallen fakultativ ist. Entsprechend ndet sich ein Parallelismus zwischen zweistelligen und dreistelligen Lesarten, da sich die beiden Typen nur
durch die Anwesenheit bzw. Abwesenheit der Addressee-Rolle unterscheiden. Dies wird
aus der vom TFS-System generierten U bersicht der Rollenkonstellationen deutlich, welche
in Abbildung 4.10 wiedergegeben ist.
Die Datenanalyse von [Calzolari/Corazzari 1995] berucksichtigt die syntaktisch-semantischen Subtypen der Message-Rolle nicht, macht jedoch von einer Subklassizierung der
Message-Rolle nach dem Illokutionstyp Gebrauch. Entsprechend sind die Rollenkonstellationen zum Teil danach subklassiziert, welcher Illokutionstyp der jeweiligen MessageRolle zugewiesen wird.
Insofern die Interpretation der Message-Rolle hinsichtlich des Illokutionstyps eigentlich
eine Eigenschaft der betreenden Verben ist, ware eine Modellierung der entsprechenden
Constraints bei den Verben sicherlich noch adaquater; sie wurde jedoch nicht zu einer
nennenswert anderen Strukturierung des Verbfelds fuhren.
one-role
discutere-smd
send-md
negare-smd
sender-message
send-mimp
chiedere-smint
send-mint
domandare-smint
two-role
dire-st
send-top
discutere-st
send-adr
discutere-sa
semclass
dire-smda
promettere-smda
discutere-smda-np
send-md-add
discutere-smda-diinf
discutere-smda-qt
negare-smda-np
dire-sminta
sender-message-addressee
chiedere-sminta
send-mint-add
domandare-sminta
discutere-smda-wh
dire-smimpa
three-role
send-mimp-add
chiedere-smimpa
domandare-smimpa
dire-sta
chiedere-sta
send-top-adr
domandare-sta
discutere-sta
In [Calzolari/Corazzari 1995] wird groer Wert auf Generalisierungen gelegt, die die Zusammenhange zwischen den Rollen der Frame Semantics-Beschreibung von Kommunikationsverben und der syntaktischen Realisierung dieser Rollen im Italienischen betreen.
In der Tat konnen fur die Subtypen der Message-Rolle Generalisierungen hinsichtlich der
syntaktischen Realisierung (in diesem Fall primar auf der Ebene der syntaktischen Kategorien) formuliert werden. Solche Generalisierungen ergeben sich sowohl auf der Grundlage einer Subklassizierung nach Illokutionstypen, als auch bei der Klassikation nach
semantisch-syntaktischen Subtypen.
Tabelle 4.12 stellt die Zusammenhange zwischen syntaktischer Realisierung und Illokutionstypen fur deklarative, interrogative und imperative Message-Subtypen zusammen. Erwartungsgema konnen Messages vom interrogativen Subtyp nur durch indirekte Fragesatze oder durch direkte Rede realisiert werden. Eine Realisierung als InnitivKomplement bzw. satzformige Erganzung ist sowohl beim deklarativen als auch beim
imperativen Subtyp moglich.
Syntax !
GF
PT
Illokutionstyp # comp xcomp np che-cl wh-cl di-Inf dir. Rede
deklarativ
+
+ +
+
+
+
+
interrogativ
+
+
+
imperativ
+
+
+
+
+
Tabelle 4.12: Realisierung von Message im Italienischen, nach Illokutionstypen
Auf der Grundlage der syntaktisch-semantischen Subklassizierung der Message-Rolle
lassen sich ebenfalls einige Generalisierungen hinsichtlich der syntaktischen Realisierung
feststellen: erwartungsgema wird die Subrolle Message-Noise durch direkte Rede realisiert, wahrend Message-Content durch abhangige Innitive oder Satzkomplemente realisiert wird. Message-Description schlielich wird durch Nominalphrasen realisiert. Diese
Zusammenhange sind weitgehend in die Denition der Subrollen einge
ossen (vgl. oben)
und werden aus diesem Grund von [Calzolari/Corazzari 1995] als redundant betrachtet.
Sie sind in Tabelle 4.13 zusammengestellt.
Daruber hinaus gibt es eine Reihe von Generalisierungen, die speziell fur das italienische Fragment formuliert werden konnen. Die wichtigsten davon sind auf der Grundlage
von [Calzolari/Corazzari 1995] nachfolgend zusammengestellt.
Die Realisierung der Addressee-Rolle erfolgt relativ regelhaft als indirektes Objekt
(Gli dice che ...) oder als Prapositionalobjekt mit der Praposition con, im Falle
von symmetrischen Verben (Ho discusso con Maria di ...). Wie oben bereits angedeutet, ist die Addressee-Rolle optional, soda sich ein Parallelismus zwischen den
Rollenkonstellationen mit zwei Rollen und denen mit drei Rollen ergibt.
Message-Subtyp
m-noise
m-description
m-content
GF
PT
comp xcomp np dir. Rede abh. S. Inf.
+
+
+
+
+
+
+
+
(4.50)
(4.51)
(4.52)
(4.53)
(4.54)
sem-ph[FE:
PT:
message[ILLOC-FORCE: interrogative],
wh-cl | quotation-s ].
sem-ph[FE:
PT:
sem-ph[FE:
PT:
message[ILLOC-FORCE:
np].
declarative ],
sem-ph[FE: addressee ,
PT: obj-pp].
sem-ph[FE: topic,
PT: obj-pp[PREP: su | di]].
Die Abbildungen interagieren mit den Abbildungen zwischen Rollen und grammatischen
Funktionen, die in den Statements 4.55 bis 4.60 angegeben sind. Relevant ist hier zunachst
die Tatsache, da generell davon ausgegangen wird, da die Message-Rolle auf die grammatische Funktion comp abgebildet wird. Die allgemeinen Abbildungen zwischen grammatischen Funktionen und syntaktischen Kategorien (vgl. 4.61) sagen aus, da die Funktion
GF: subj ].
(4.56)
(4.57)
(4.58)
(4.59)
(4.60)
sem-gf[FE: message,
GF: comp ].
sem-gf[FE: message[ILLOC-FORCE: declarative],
GF: xcomp [CTRLR: subj]].
sem-gf[FE: message[ILLOC-FORCE: imperative],
GF: xcomp [CTRLR: comp ]].
sem-gf[FE: addressee | topic,
GF: comp].
sem-gf[FE: topic,
GF: circumst-adjunct].
In 4.57 und 4.58 wird fur den deklarativen und imperativen Illokutionstyp alternativ zur
satzformigen Realisierung von Message eine Abbildung auf die Funktion xcomp (fur Innitive) deniert. An dieser Stelle wird ubrigens gleichzeitig, abhangig vom Illokutionstyp,
der jeweilige Typ von Kontrolle (Subjektkontrolle vs. Objektkontrolle) eingefuhrt.
Die Denitionen aus den Statements 4.50 bis 4.52 und 4.56 bis 4.58 interagieren mit
dem allgemeinen Statement 4.61 in der Weise, da nur die jeweils erlaubten Kombinationen aus Rolle, Funktion und syntaktischer Kategorie ausgewahlt werden konnen. Beispielsweise wird die in 4.61 denierte Menge von Abbildungen im Fall des interrogativen
Illokutionstyps auf abhangige Fragesatze oder direkte Rede eingeschrankt (durch Anwendung von 4.50). Analog kann eine Abbildung auf die Funktion xcomp und damit auf einen
als vp klassizierten abhangigen Innitiv nur erfolgen, wenn der deklarative oder der
imperative Illokutionstyp vorliegt (Statements 4.51, 4.57, 4.58).
(4.61) gf-ph[GF: comp,
PT:
np
Die hier formulierten Abbildungen interagieren mit den Realisierungsconstraints fur die
einzelnen Kommunikationsverben, die sich wiederum aus relativ allgemeinen Denitionen
der Subkategorisierungsklassen ergeben. Fur die dreistelligen Lesarten braucht das Subkategorisierungslexikon nur das Realisierungspotential der Message-Rolle zu enthalten; die
Auswahl erfolgt in Abhangigkeit der Anwendung der in 4.49 bis 4.61 zusammengestellten
Abbildungsregeln. Fur die einzelnen Verben ergibt sich damit die Menge der moglichen
Realisierungen aus der doppelten Parametrisierung der Beschreibungsbausteine, einerseits
derjenigen der allgemeinen Abbildungen fur die Message-Rolle, andererseits der Spezikation der Subkategorisierungsklassen fur dreistellige Verben.
Als Beispiel hierfur kann die Klasse v-s-o-o2 gelten, die in dem Statement 4.62 in
allgemeiner Form deniert ist, und deren Untertypen in den Statements 4.63 bis 4.66
angegeben sind.
(4.62) v-s-o-o2 < synclass.
v-s-o-o2[FEG:
<fe[GF: subj]
fe[GF: comp| xcomp]
fe[GF: comp, PT: obj-pp[PREP: a,
CASE: dative]]>].
(4.63)
(4.64)
(4.65)
(4.66)
Die dreistelligen Lesarten von dire konnen als Beispiel fur die Interaktion zwischen den Abbildungsregeln und der allgemeinen Formulierung der Subkategorisierungsklasse v-s-o-o2
dienen: die Statements unter 4.67 denieren samtliche Lesarten von dire; die dreistelligen
Lesarten verweisen dabei lediglich auf die allgemeine Subkategorisierungsklasse v-s-o-o2.
(4.67)
dire-smda
dire-smimpa
< send-md-add,
< send-mimp-add,
v-s-o-o2.
v-s-o-o2.
dire-st
dire-sta
dire-sminta
< send-top,
< send-top-adr,
< send-mint-add,
v-s-othpp.
v-s-opp-opp.
v-s-o-o2.
Die Beispiele zeigen, da auf der Grundlage des Inventars syntaktischer Beschreibungsmittel, welches fur die DELIS-Worterbucher deniert worden ist und mithilfe der in Abschnitt 3.2 denierten Worterbucharchitektur nicht nur eine Erweiterung der lexikalischen
Beschreibungen um neue Verbklassen moglich ist, sondern auch, da auch bei einer solchen
Erweiterung interessante Generalisierungen erfat werden konnen. Die Bausteine und die
Architektur erscheinen mithin als allgemein genug, als da sie in einem groeren Rahmen
getestet werden konnten.
Die grundlegenden (= \einfachsten"?) Beschreibungsbausteine werden als \atomar" aufgefat34). Die Aufgliederung bestimmter Beschreibungen in Merkmalsbundel (AttributWert-Paare, Features) oder die Benutzung von nicht weiter analysierten Werten (atomare Typen) ist eine Frage der Granularitat der Beschreibung, d.h. abhangig von der
Entscheidung des Lexikographen (oder der benutzten Theorie), auf welcher Ebene der
Detailliertheit von Beschreibungen noch Generalisierungen moglich sein sollen35.
In diesem Zusammenhang stellt sich die Frage, nach welchen Kriterien entschieden
wird, welche Beschreibungsmittel uberhaupt durch Attribut-Wert-Paare kodiert werden
sollen. Allgemeiner: welche Eigenschaften von Lexemen werden durch Attribut-WertPaare, welche durch atomare Typen kodiert? Welche Konsequenzen hat die Einfuhrung
von zusatzlichen Attributen? Umgekehrt: Typisierung kann zu \tieferen" Hierarchien
(mehr Subtypen) fuhren; wie tief soll die Lexikon-Hierarchie sein, bzw. welche Vor- und
Nachteile hat eine tiefe bzw. eine
ache Hierarchie?
Ein Beispiel fur diese Fragestellungen ist die Kodierung von Subkategorisierungsbeschreibungen als Listen von Featurestrukturen; in verschiedenen NLP-Systemen werden
statt Listen Verbpradikate mit fester Stelligkeit benutzt, und die Verbargumente werden
unter Attributen mit ausgezeichneten Namen (\ARG-1", \ARG-2", \ARG-3") angegeben36 .
In HPSG spielt die einfache Behandlungsmoglichkeit von Listen bei der Prozessierung von
Satzen eine Rolle; in LFG werden Subkategorisierungsangaben separat im \PRED"-Wert
kodiert, als eine Liste von \existential constraints" aufgefat und mit separaten Mitteln
auf \Consistence and Coherence" uberpruft (d.h. es wird sichergestellt, da alle von einem
PRED subkategorisierten grammatischen Funktionen in der lokalen f-Struktur vorhanden
sind, und nur diese).
In der DELIS-Modellierung wurde eine Kodierung durch Listen komplexer Typen
gewahlt. Die Begrundung hierfur ist, da aus deskriptiver Sicht eine Modellierung als Typhierarchien die gewunschten Generalisierungen gut ausdruckt. Analog zu HPSG wurde
in DELIS fur die Pradikat-Argument-Struktur als ganzes eine Listenkodierung gewahlt,
obwohl einerseits in DELIS keine Notwendigkeit der direkten Verarbeitung von VerbBeschreibungen bei der Analyse von Satzen besteht, und obwohl andererseits Listen in
TFS gegenuber reinen Attribut-Wert-Strukturen nur eine eingeschrankte Moglichkeit der
Vererbung geben37 . Vorteile der Listennotation ergeben sich fur DELIS durch die Moglich34 Im Sinne von atomaren Typen von TFS (vgl. oben, Abschnitt 3.1.2.2), aber auch in dem Sinne, da
sie deskriptiv-linguistisch nicht weiter analysiert und nicht aus Komponenten aufgebaut werden. Die
Entscheidung daruber, was als atomar aufgefat wird, ist naturlich vom Beschreibungsansatz und den
jeweiligen Zielen abhangig: man kann beispielsweise die Kategorieangaben in Worterbuchern in Merkmalsbundel au
osen (wie dies zum Beispiel GPSG mit den Merkmalen [N: +j-], [V: +j-] macht),
oder man kann statt \atomarer" Werte fur die Kasus nom, gen, dat, akk auch eine Beschreibung in
Termini von binaren Merkmalen [GOV: +j-], [OBL: +j-] (fur: \governed" und \oblique") verwenden.
35 Die Aufspaltung der Kasus- oder der Kategoriewerte erlaubt es zum Beispiel Generalisierungen uber
\oblique Kasus" zu formulieren (relevant fur lexikalische Regeln).
36 Fur HPSG und LFG (sowie fur andere Grammatiktheorien und deren Lexikon-Reprasentation) zeigt
[Ludewig 1995] Moglichkeiten der Rekodierung fur die Zwecke des Austauschs und der Wiederverwendung von lexikalischen Beschreibungen. Sie geht dabei davon aus, da die Wahl der Kodierungen
arbitrar ist, und da es primar praktische Grunde sind, auf deren Grundlage der Linguist oder Lexikograph die eine oder die andere Kodierung wahlt.
37 Zwischen zwei Listen kann es keine vollstandige Vererbung geben. Deswegen wird zwar (wie bei atomaren Featurestrukturen) eine partielle Ordnung der Listen durch Setzung deniert und berechnet,
jedoch mussen z.B. die Subkategorisierungslisten, auch wenn sie als Subtypen voneinander deniert
sind, in jeder Denition jeweils vollstandig angegeben werden.
| accent.
Demgegenuber sind die Denitionen der Rollen, die in der Modellierung von Wahrnehmungsverben verwendet werden, nach mehreren, zum Teil unterschiedlichen Kriterien
festgelegt worden. Auf der obersten Hierarchieebene werden drei Rollen unterschieden39
(vgl. 4.69):
(4.69) role = experiencer | percept | judgement.
Fur die Rolle experiencer gibt es eine Sortenrestriktion (\belebt", bzw. \menschlich",
vgl. Statement 4.70), sowie eine Subklassizierung anhand der binaren Werte des Merkmals \INTENTION"
Die Unterscheidung zwischen den beiden Subtypen von experiencer, exper(iencer)-int(entional) vs. exper(iencer)-nonint(entional), fuhrt zur Unterscheidung
zwischen der Teilklasse der perception-Verben und der Teilklasse der attention-Verben:
als attention-Verben werden diejenigen Lesarten klassiziert, bei denen ein experiencer beteiligt ist, der absichtlich handelt, um ein Wahrnehmungsereignis herbeizufuhren;
perception-Verben enthalten einen nicht-intentional handelnden experiencer. Die Unterscheidung auf der Ebene der Rollen \schlagt also auf Klassizierung der lexikalischen
Objekte durch" (vgl. die zusammenfassende Abbildung 4.12, Seite 140).
(4.70) experiencer < role.
38 Diese Moglichkeit wird in der auf DELIS aufbauenden Modellierung von Hyponymen von EN [to] look
von [Atkins 1994] ausgenutzt.
39 Hier werden zum Teil Beschreibungen nochmals aufgenommen, die oben in den Abschnitten 4.2 und 4.3
schon eingefuhrt wurden. Der leichteren Lesbarkeit wegen, werden zum Teil auch TFS-Statements aus
diesen Abschnitten nochmals wiederholt und im Kontext der hier gefuhrten Diskussion interpretiert.
experiencer[SORT: human].
exper-i < experiencer.
exper-n < experiencer.
exper-i [INTENTION:
exper-n [INTENTION:
+].
-].
Die Subklassizierung der Rolle percept beruht zum Teil auf anderen Kriterien: Die
percept-Rolle wird zunachst anhand eines internen Merkmals \[EXPECTED: +j-]" unterschieden in percept-actual und percept-target (4.71); Sortenrestriktionen spielen bei dieser Unterscheidung keine besondere Rolle. Das Merkmal \[EXPECTED: +]" ist
fur das Vorliegen von percept-target denitionsrelevant. Dieses Merkmal wird als
\inharentes Merkmal" von percept-target, analog zur Denition von experiencer
durch das Merkmal \[INTENTION: +j-]" (vgl. oben 4.70) eingefuhrt.
(4.71) percept = percept-actual | percept-target.
percept-actual[SORT:entity | proposition].
percept-target[SORT:entity | proposition,
EXPECTED:
+].
(4.73)
(4.74)
(4.75)
percept-actual-hum
< percept-actual.
percept-actual-hum[SORT: human].
percept-actual-event
< percept-actual.
percept-actual-event[SORT: event].
percept-actual-prp
< percept-actual.
percept-actual-prp[SORT: proposition,
FACTIVITY : factive,
DIRECTNESS: direct].
Der U bersichlichkeit halber wird die automatisch vom TFS-System kompilierte Typenhierarchie der Rollen in Abbildung 4.11, Seite 139 reproduziert.
Die Klassizierung der percept-actual-Subtypen nach Sorten \schlagt" ebenfalls
auf die Subklassizierung der semantischen Teilklassen von Wahrnehmungsverben \durch",
analog zu den Subtypen von experiencer:
Bei den englischen perception-Verben gibt es zwei Subtypen, einmal diejenigen,
die eine Entitat als percept erlauben, zum anderen jene, die einen Sachverhalt als
percept zulassen41 .
40 Bei Sachverhalten werden zusatzlich zwei binare Merkmale fur FACTIVITY und DIRECTNESS miteingefuhrt, anhand von deren Werten Realisierungsentscheidungen getroen werden konnen (da-Satze
vs. Innitive vs. wh-Fragesatze).
41 Fur die franzosische Modellierung wurde diese Klassikation von Baschung (personliche Mitteilung)
in Frage gestellt, weil nach der Beschreibungsintuition der franzosischen Linguisten jedes perceptionVerb, welches eine Entitat als percept zulat, auch einen Sachverhalt als percept erlaubt.
judgement-inferential
judgement
judgement-evaluative
judgement-veridical
percept-interpretation
role
percept
percept-target
percept-actual-ent
percept-actual
percept-actual-hum
percept-actual-prp
experiencer-nonint
experiencer
experiencer-int
Abbildung 4.11: Hierarchie der Frame-Semantics-Rollen aus der Modellierung von Wahrnehmungsverben in DELIS
Bei den attention-Verben gibt zwei mogliche Subklassen: einerseits diejenigen, die
ein percept-actual erlauben, andererseits jene, die ein percept-target verlangen.
Verben, die ein percept-actual haben, konnen wiederum nach den Sortenrestriktionen aufgegliedert werden, welche fur die percepts gelten. Beispielsweise kann
EN watch mit einem event gebraucht werden, dagegen konnen see und look nur
mit einer Entitat verwendet werden (vgl. 4.72, 4.74).
Die hier informell beschriebenen Teilhierachien fur perception-Verben und attentionVerben entsprechen ungefahr dem Schema in Abbildung 4.1242. In der Abbildung wurden
jeweils die distinktiven Eigenschaften fur die Klassen angegeben, und es zeigt sich, da die
Subklassizierung sowohl der perception-Verben als auch der attention-Verben ohne
percept-target jeweils den Sortenrestriktionen folgt. Die Klassizierung der Verben
spiegelt also die Sortenrestriktionen wider.
Der Lexikograph kann also durch die Einfuhrung von Unterscheidungen im Beschreibungsvokabular (hier der Sortenhierarchie) gezwungen sein, analoge Unterscheidungen
auch in der Modellierung der linguistischen Objekte einzufuhren. Dies mag redundant erscheinen, dient aber zunachst dazu, die relevanten Unterscheidungen zu erfassen. Da aber
alle Klassizierungen auf allen Beschreibungsebenen explizit sein mussen (TFS erlaubt nur
Typen mit expliziten Namen), sieht die Modellierung aufwendig aus. Sie konnte vereinfacht werden, wenn die volle Beschreibungsmachtigkeit von Kreuzklassikation verfugbar
ware.
In der englischen Modellierung wurde auer der Klassizierung der Rollen eine Beschreibung einer Reihe von Verben nach zusatzlichen \inharenten" Merkmalen vorgenommen.
Auf der Grundlage der Arbeiten von [Atkins 1994] werden binare Merkmale dazu ver42 Die vollstandige Hierarchie der zweistelligen Lesarten (allerdings am Beispiel des Franzosischen) ist
in Abbildung 4.5 angegeben.
perc-act-ent
perception
exper-n
percept
[SORT: entity]
perc-act-prp
percept
[SORT: propos.]
att-act-ent
p-target
percept
attention
exper-i
[SORT: entity]
att-prp
p-actual
percept
[SORT: propos.]
att-hum
percept
[SORT: human]
Verb
see
notice
glimpse
espy/spy
spot
behold
sight
descry
witness
Event feature
duration
longjshort
longjshort
short
longjshort
longjshort
long
longjshort
longjshort
longjshort
Percept features
+j{
+
+j{
+
+
+
+
+
+
+j{
+j{
+j{
+j{
{
+
+j{
{
+j{
+j{
+j{
+j{
+j{
+j{
+
+
+
+j{
Tabelle 4.14: Event duration und percept-Features bei EN see und seinen Kohyponymen nach [Atkins 1994]
nach den Werten fur \Distance", \Salience" und \Interest". Eine in diesem Sinne
orthodoxe Modellierung in TFS mute also die betroenen Rollen (percept-target
und percept-actual) weiter subklassizieren, nach den jeweils vorhandenen Merkmalen. Hieraus wurde sich eine sehr feinkornige und nicht unbedingt ubersichtliche Subklassizierung der Rollen ergeben44 .
Man kann nun annehmen, da es die Aufgabe des Lexikographen sei, festzulegen, welche Klassizierungen gewissermaen \Haupt-Klassizierungen" sind, und welche anderen
\nebengeordnet" sein sollen. In der Tat wird der Lexikograph nicht aussagen wollen, da
alle Merkmale, die den lexikalischen Einzelbeschreibungen zugewiesen werden, gleichermaen die Domane der lexikalischen Objekte partitionieren und damit im eigentlichen Sinne
den beschriebenen Wortschatz subklassizieren45 . Der Lexikograph mute also, nach dieser Ansicht, die Verantwortung fur die Entscheidung ubernehmen, welche Bestandteile
einer Beschreibung von Lexemen die Lexem-Menge in der Tat partitionieren und als solche relevante (und im TFS-Lexikon abfragbare) Teilmengen des Wortschatzes denieren,
und welche anderen Beschreibungen dies nicht tun sollen.
Sobald diese Art von Entscheidung in die Modellierung ein
iet, sieht es aus, als sei
44 Bei der Einfuhrung von Sortenrestriktionen uber die percept-Rolle wurde auerdem die Aufteilung
der Rollen nach Sorten auch auf die Aufteilung der semantischen Klassen gespiegelt. Wegen der Vielzahl neu zu etablierender Unterscheidungen und deren \geringerer Klassikations-Relevanz" mochte
man aber im Fall von Interest, Salience und Distance auf die Duplizierung von Klassikationen
der Beschreibungsmittel in der Klassizierung der beschriebenen Objekte verzichten.
45 Eine solche \einheitliche" Sicht auf Klassizierungen, ohne \Haupt-" und \Nebenmerkmale", liegt
(in extremer Weise) der Schlufolgerung zugrunde, die z.T. aus Arbeit der Forschungsgruppe um
Maurice Gross zur syntaktischen Beschreibung der franzosischen Verben (vgl. Methodes en syntaxe,
1975) gezogen worden ist; es wurde behauptet, da sich fur rund viertausend Verben uber dreitausend
syntaktische Subkategorisierungsklassen ergeben. Diese Interpretation von ist nur moglich, wenn man
alle Beschreibungskriterien auf dieselbe Ebene stellt, ohne Unterscheidung zwischen primaren Klassikationsdimensionen und \Nebeneekten". Beispielsweise konnte die Variation in der syntaktischen
Realisierung von semantisch gleichwertigen Verberganzungen als ein \Nebeneekt", die semantische
Klassizierung selbst als zentral betrachtet werden; diese Sichtweise ist allerdings dem Ansatz von
Gross entgegengesetzt.
die Forderung nach Zugrisneutralitat der Worterbucher verletzt, bzw. das ihr zugrundeliegende Prinzip, nach welchem vermieden werden soll, da eine Beschreibungsdimension
Prioritat uber die anderen erhalt (vgl. Abschnitt 3.2.5). Dieses Prinzip mu naturlich
innerhalb der Teilbeschreibungen, beispielsweise innerhalb der semantischen Teilbeschreibungen, in analoger Weise weitergelten: dann mu die lexikalische Modellierung zunachst
eine gleichrangige Behandlung samtlicher Beschreibungsdomanen zulassen, und erst die
jeweilige Anfrage wurde entscheiden, welche Teilbeschreibungen in einer gegebenen Situation uberhaupt angezeigt werden sollen.
Hier treen zwei gegensatzlich erscheinende Forderungen aufeinander:
Verzicht auf eine beliebig feine (und im Extremfall vollig irrelevante) hierarchische
Aufgliederung einer Domane (realisierbar durch die Einfuhrung von \Haupt- und
Nebenklassikationen"); und
Homogene Behandlung aller Beschreibungen nach dem Architekturprinzip der Zugrisneutralitat.
Um die beiden Forderungen sinnvoll vereinen zu konnen, mussen Worterbucher als multiple Hierarchien modelliert werden; und es mu die Moglichkeit geben, da einzelne
Beschreibungsdomanen nebeneinandergestellt und kreuzklassiziert werden. In einem solchen Fall wurde man darauf verzichten, lexikalische Beschreibungen in Form einer einzigen
Hierarchie anzulegen, die dann besonders tief und besonders feinkornig sein mute. Man
wurde statt dessen Teilbeschreibungen aus verschiedenen Teilhierarchien durch Kreuzklassikation kombinieren46.
Die zwei Modellierungsoptionen sind beispielhaft in der Abbildung 4.13 nebeneinandergestellt. Links in Abbildung 4.13 ist eine Hierarchie gezeigt, bei der drei perceptSubtypen, p1, p2 und p3, jeweils Subtypen mit binaren Merkmalen von Salience, Interest und Distance, S, D und I haben. Davon hat jeder Subtyp Untertypen, je nach
dem Attributwert. Rechts in der Abbildung ist eine Losung gezeigt, die von der Kreuzklassikation Gebrauch macht. Fur den Lexikographen ist eine Lexikonarchitektur vorzuziehen, bei der mehrere Teilhierarchien kreuzklassiziert werden konnen, da in diesem
Fall die einzelnen Teilhierarchien leichter uberschaubar bleiben.
Die Forderung nach vollstandiger Kreuzklassikation wurde oben in Abschnitt 4.6.2
schon einmal kurz angesprochen. Sie stellt ein formales Desideratum fur die Benutzung
eines constraint-basierten Formalismus wie TFS als lexikalische Reprasentationssprache
dar.
46 Vgl. oben die Diskussion in Abschnitt 3.1.2.3. Die formalen Implikationen einer solchen Forderung
werden in [Emele 1996] diskutiert.
percept
p1
percept
p2
p3
p1
p2
percept-properties
p3
I
S D I
S D I
S D
S
+
D
+
Kapitel 5
Abfrage von constraint-basierten Lexika
In Abschnitt 3.1 wurden die fur die Reprasentation lexikalischer Information relevanten
Eigenschaften von TFS beschrieben. Darauf aufbauend wurde in Abschnitt 3.2 ein Vorschlag fur eine Architektur monolingualer Worterbucher gemacht, welche mit den Mitteln
von TFS reprasentiert werden konnen. Beispiele fur solche Worterbuchfragmente sind in
Kapitel 4 gegeben worden.
Ein nach diesem Prinzipien organisiertes und reprasentiertes elektronisches Worterbuch mu auch abgefragt werden konnen. Der Forderung nach Multifunktionalitat entsprechend, sollen sowohl \menschliche Benutzer"1 als auch sprachverarbeitende Systeme
mit Informationen aus dem Worterbuch versorgt werden:
Bei der Erganzung und Erweiterung des Worterbuchs u
berpruft der Lexikograph
den Bestand an Beschreibungen, welcher in einem bestehenden Worterbuch bereits
realisiert ist; dabei sollen einzelne Eintrage oder Mengen von Eintragen nach verschiedenen Kriterien abgefragt werden konnen (Ad-hoc-Abfrage).
Das Worterbuch soll in einem System der maschinellen Sprachverarbeitung, im vorliegenden Zusammenhang in einem maschinellen U bersetzungssystem benutzt werden. Die Worterbucheintrage mussen hierzu in das Format der Anwendung ubersetzt
(kompiliert) und dann zusammen mit den Grammatiken der jeweiligen Sprachen
verarbeitet werden.
Auf eine detaillierte Darstellung der Kompilierung von Lexikoninformation fur eine Systemanwendung wird hier verzichtet. Die Prinzipien der Kompilierung werden an einem
etwas anschaulicheren Beispiel diskutiert: Da die TFS-Reprasentation nicht primar fur
den lexikographischen Benutzer gedacht ist, wird der Export in Formate beschrieben,
welche dem ublichen Layout der Makro- und Mikrostruktur gedruckter Worterbucher
ahnlich sind. Diese Verfahren werden in Abschnitt 5.2 beispielhaft gezeigt: dort wird dargestellt, wie die Information, welche in den DELIS-Worterbuchern enthalten ist, jeweils
fur die Zwecke eines semasiologischen, eines onomasiologischen und eines Subkategorisierungsworterbuchs kompiliert werden kann. Gleichzeitig wird gezeigt, wie die Anforderung
an ein multifunktionales Worterbuch erfullt werden kann, da die Abbildungsregeln zwischen der multifunktionalen Ressource und einzelnen Zielanwendungen gegenuber A nderungen im Datenbestand und in der Klassizierung einzelner Daten robust zu sein haben2 .
Der Export von Worterbuchinformation in ein bestimmtes Zielformat setzt zunachst
eine
exible Abfrage der TFS-Reprasentation voraus. Oben, in Abschnitt 3.1.4.2, wurden
die Prinzipien der Ad-hoc-Abfrage skizziert. Damit die Moglichkeiten des Exports aus
1 Der Terminus \menschlicher Benutzer" (\human user") ist unglucklich, wird aber in der Diskussion oft
benutzt. Hier wird mitunter von \interaktiver Abfrage" gesprochen: wie bei einer Datenbank kann der
Benutzer das Worterbuch am Rechner abfragen; die Worterbucheintrage werden auf dem Bildschirm
ausgegeben. Die \Interaktion" besteht darin, da der Lexikograph Anfragen formuliert, mit deren
Hilfe er die gewunschte Information anzeigen lat.
2 Vgl. die entsprechende Forderung in Abschnitt 2.3, Punkt 3.
TFS-Worterbuchern deutlich werden, werden zunachst, in Abschnitt 5.1, Beispiele fur die
Ad-hoc-Abfrage vorgestellt. Hierbei wird neben den DELIS-Worterbuchfragmenten auch
ein Kollokationsworterbuch verwendet, das in TFS kodiert wurde und anhand von dessen
Strukturierung interessante Moglichkeiten der Abfrage von TFS gezeigt werden konnen.
Die interaktive Abfrage von TFS-Lexika in lexikographischen Anwendungen unterscheidet sich zum Teil von der Art, wie dieselben Lexika bei der Benutzung in einem
NLP-System abgefragt werden sollen. Auf die Unterschiede zwischen den beiden Abfragemodi wird eingegangen in Abschnitt 5.3 und speziell in Abschnitt 5.3.2 ist dieser
Diskussion gewidmet3.
Die Ad-hoc-Abfrage kann bei der interaktiven U berprufung oder Sichtung von Lexikoneintragen ausgenutzt werden. Die DELIS-Worterbucher beruhen auf einem stratikationellen Beschreibungsmodell: es gibt separate Teilbeschreibungen fur die einzelnen
linguistischen Beschreibungsebenen, beispielsweise fur die syntaktische und die semantische Beschreibung. Lexikoneintrage von Kohyponymen enthalten z.B. teilweise gleiche
semantische Beschreibungen; wird mit unterspezizierten semantischen Attribut-WertBeschreibungen angefragt, liefert das System alle Worterbucheintrage zuruck, welche die
in der Anfrage enthaltene Teilbeschreibung enthalten oder von ihr subsumiert werden,
d.h. alle Kohyponyme. Ohne die Einfuhrung spezieller Beschreibungsmittel, z.B. expliziter (vom Lexikographen eingefuhrter und kontrollierter) Verweise fur die in der lexikalischen Klassenhierarchie darstellbaren Relationen, d.h. Synonymie und Hyponymie
bzw. Hyperonymie, lassen sich Daten aus dem Worterbuch abfragen, die diese Relationen berucksichtigen. Die Relationen konnen problemlos abgefragt werden, weil sie in der
TFS-Spezialisierungshierarchie implizit modelliert sind.
Anhand der im DELIS-Projekt entwickelten Beschreibungen fur den Gegenstandsbereich der Wahrnehmungsverben (vgl. oben die Beschreibung in Kapitel 4) werden im
folgenden einige Beispiele fur Ad-hoc-Abfrage diskutiert.
In der Anfrage 5.14, die sich auf eine teilweise gefullte Datenbasis mit niederlandischen
Verben der Wahrnehmung bezieht, wird nach Lexikoneintragen gefragt, welche der semantischen Klasse perc (fur perception) angehoren und gleichzeitig der syntaktischen Klasse
v-s-onp (f
ur Verben mit Subjekt und Objekts-NP). Eine solche Anfrage ist beispielsweise
einzugeben, wenn der Worterbuchentwickler sich vergewissern will, welche Verben einer
3 In diesem Kapitel wird zum Teil auf die monolingualen lexikalischen Modellierungen aus Kapitel
4 zuruckgegrien. Mitunter werden auch Ausschnitte aus der Modellierung oder Varianten davon
nochmals wiederholt. Die Redundanz, die hierbei entstehen mag, erspart das Hin- und Herblattern:
die Beispiele fur die Abfrage sollen hier im relevanten Zusammenhang dargestellt werden, selbst wenn
gelegentlich Details wiederholt werden sollten.
4 Notation: Anfragen werden in TFS als Terme mit vorangestelltem Fragezeichen (\?") notiert.
bestimmten semantischen Klasse, die gleichzeitig eine bestimmte syntaktische Konstruktion haben, bereits im Worterbuch eingetragen sind. Die Anfrage 5.1 konnte wie folgt
paraphrasiert werden: \Gesucht sind alle Verben der semantischen Klasse perc, die ein
Subjekt und eine Objekts-Nominalphrase subkategorisieren"5 :
(5.1) ?perc&v-s-onp.
Ein Teil des Ergebnisses, welches vom System zuruckgegeben wird, ist in 5.2 wiedergegeben: das Worterbuchfragment enthalt u.a. eine Lesart des niederlandischen Verbs horen
(\horen"), welche die in 5.1 angegebenen Bedingungen erfullt6:
(5.2) horen-perc-ent
[LEMMA:
MODALITY:
FEG:
"horen",
aud,
<fe
[FE:
GF:
PT:
experiencer-nonint[INTENTION: -],
subj,
np]
[FE:
GF:
PT:
percept-actual-ent,
comp,
np]>].
fe
sierung als dat-clause (da-Satz) gefordert wird. Schlielich wird in der Anfrage noch
verlangt, da die Wahrnehmungsmodalitat \auditiv" sein soll8:
(5.3)
?[FEG:
<fe[FE: experiencer] fe>]
&[MODALITY: aud]
&[FEG:
<fe fe[PT: dat-cl]>].
Das Ergebnis (vgl. 5.4), welches nach der Evaluierung der Anfrage 5.3 zuruckgegeben
wird, enthalt eine Lesart des Verbs horen, die einen nicht-intentionalen experiencer und
ein propositionales percept aufweist. Die grammatische Funktion, die in der zugrundeliegenden lexikalischen Beschreibung fur den dat-Satz angesetzt wurde, ist COMP.
(5.4)
horen-prp-cl
[LEMMA:
MODALITY:
FEG:
"horen",
aud,
<fe
[FE:
GF:
PT:
fe
[FE:
GF:
PT:
experiencer-nonint[INTENTION: -],
subj,
np]
percept-actual-prp,
comp,
dat-cl[COMPLEMENTIZER: dat]]>].
Das Beispiel 5.4 wurde identiziert, weil es die in der Anfrage angegebenen strukturellen
Constraints erfullt9. In der Anfrage 5.1 wurden Klassennamen als Abfragekriterium verwendet (semantische Klasse perc, syntaktische Klasse v-s-onp), in 5.3 dagegen AttributWert-Strukturen; beide Verfahren zur Angabe von Constraints sind moglich, beide konnen
kombiniert werden.
Die Ad-hoc-Abfrage kann auch dazu benutzt werden, aus einer Datensammlung Belege zu
extrahieren, die hinsichtlich bestimmter durch Attribut-Wert-Paare beschriebener Kriterien identisch sind, ohne da der Benutzer Werte fur die als Abfragekriterium dienenden
Attribute kennt oder anzugeben braucht; er kann Variablen fur Attributwerte verwenden.
Hierfur ein Beispiel: das TFS-System wurde zur Reprasentation des franzosischen Kollokationsworterbuchs von [Cohen 1986] verwendet; dabei wurden Kollokationsangaben
als TFS-Typen deniert. Das Worterbuch enthalt Nomen-Verb-Kollokationen, NomenAdjektiv-Kollokationen und Nomen-Nomen-Kollokationen der franzosischen WirtschaftsFachsprache (Gegenstandsbereich: Borse, Konjunktur). Fur die Zwecke der vorliegenden
Untersuchung wurden die Nomen-Verb-Kollokationen aus dem Worterbuch in TFS reprasentiert10 .
8 Die Reihenfolge der Constraints in der Anfrage ist unerheblich; die einzelnen Constraints werden hier
als Konjunktion von partiellen TFS-Statements angegeben.
9 Lat man den \MODALITY"-Constraint weg, so werden analoge Lesarten fur zien, proeven, ruiken mit
ausgegeben.
10 Diese Arbeit wurde zusammen mit Regina Steding durchgefuhrt: sie hat die Kollokationsangaben
aus [Cohen 1986] nach dem hier entwickelten und unten in Abbildung 5.3 schematisch dargestellten
TFS-Modell erfat und damit die Datengrundlage fur die hier beschriebenen Experimente geschaen.
Dafur herzlichen Dank!
Hier sollen die Moglichkeiten der Ad-hoc-Abfrage dieses Worterbuchs gezeigt werden;
dazu ist es allerdings notig, erst kurz die relevanten Eigenschaften des Worterbuchs von
[Cohen 1986] zu beschreiben. Auf dieser Grundlage kann die Abfrage diskutiert und aus
lexikographischer bzw. linguistischer Sicht motiviert werden. Die Ergebnisse sind sowohl
im Hinblick auf ihren Beispielcharakter fur die Verfahren der Ad-hoc-Abfrage, als auch
aus linguistisch-lexikographischer Sicht interessant.
Das Worterbuch von [Cohen 1986] enthalt syntaktische und semantische Beschreibungen der Kollokationen. Die Eintrage sind im gedruckten Worterbuch als Tabellen
reprasentiert (vgl. das Schema der Eintrage in Abbildung 5.1). Ein Beispieleintrag (s.v.
FR emprunt) ist in Abbildung 5.2 abgedruckt.
Base-Lemma
syn 1
c-meaning
c-meaning
syn 2
...
syn n
...
c-meaning
emprunt
debut
croissance
noms
verbes:
verbes:
emprunt = SUBJ emprunt = OBJ
emission
emettre
lancement
lancer
accroissement s'accro^tre
accro^tre
augmentation augmenter
augmenter
monter
indetermine
declin
baisse
fin
diminution
reduction
baisser
diminuer
reduire
restreindre
adjectifs
considerable
eleve
gros
petit
clore
liquider
rembourser
restituer
bsp[NOMEN:
SUBJ:
OBJ:
emprunt,
[DEBUT :
CROISS:
INDET :
DECLIN:
FIN
:
[DEBUT :
CROISS:
INDET :
DECLIN:
FIN
:
none,
s-accroitre | augmenter | monter,
none,
baisser | diminuer,
none],
emettre | lancer | ouvrir,
accroitre | augmenter,
none,
reduire | restreindre,
clore | liquider | rembourser | restituer]].
Abbildung 5.3: Worterbucheintrag aus [Cohen 1986]: TFS-Notation fur den Eintrag s.v.
emprunt (vgl. Abbildung 5.2)
Abbildung 5.4: Ad-hoc-Abfrage mit Variablen: Schema der Suche in der TFS-Reprasentation von Eintragen aus [Cohen 1986] (vgl. Abbildung 5.5)
jeweils separat fur Subjekt-Verb-Kollokationen bzw. Verb-Objekt-Kollokationen. Beispiele
fur die Ergebnisse dieser Art sind in der Tabelle 5.1 auf Seite 153 zusammengestellt.
Als Beispiel dafur, wie die Tabelle 5.1 zu lesen ist, konnte man die Zeile 2 folgendermaen paraphrasieren: \Die Nomina action, change, indice, titre, valeur mobiliere
konnen mit den Kollokatoren monter oder augmenter zum Ausdruck der Zunahme des
durch die Basen ausgedruckten Wertes kombiniert werden (wobei die Verben intransitiv
gebraucht werden); die Nomina konnen deswegen in eine Gruppe zusammengefat werden; das Verb baisser (itr.) wird von allen Nomina dieser Gruppe zum Ausdruck eines
Ruckgangs verwendet." Sinngema fur Zeile 3: \Die Kollokationsbasen economie, balance des paiements gehoren in eine Gruppe; sie wahlen dieselben Kollokatoren zum
Ausdruck von Zunahme und Ruckgang aus."
Die Ergebnisse lassen sich wie folgt interpretieren:
<
>
<
>
Aus der Sicht der Ad-hoc-Abfrage von TFS: bei der Suche nach Basen mit gleichen
Kollokatoren wurden weder Basen- noch Kollokatoren-Lemmata vorgegeben. Viel-
comp-so[F: [NOMEN:
#1,
SUBJ:
OBJ:
S: [NOMEN: #3,
SUBJ:
OBJ:
[CROISS:
[CROISS:
#2],
#4]],
[CROISS:
[CROISS:
#2],
#4]]]:- #1 =/= #3.
Abbildung 5.5: Eine TFS-Abfrage mit Variablen, zum Vergleich von je zwei Eintragen aus
[Cohen 1986]
mehr wurden fur samtliche lexikalischen Werte Variablen eingesetzt und lediglich
Lexikoneintrage mit analogen Mustern des Kollokationsverhaltens gesucht. Dennoch ergeben sich Gruppen von Substantiven (in der Tabelle 5.1 \Nomengruppen"
genannt), die dieselben Kollokatoren aufweisen. Es wurde dabei alternativ nach einzelnen Kollokatoren, oder nach Kollokatorengruppen gesucht. Jede Zeile der Tabelle
5.1, Seite 153, beschreibt eine Gruppe von Nomina, die gemeinsame Kollokatoren
haben.
Aus lexikographischer Sicht:
{ Einige Kollokatoren scheinen relativ unspezisch fur groe Teile der Domane
(Borsensprache) verwendbar zu sein. Hierher gehoren s'accro^tre/accro^tre und
augmenter.
{ Andere Kollokatoren sind relativ spezisch. Beispielsweise wahlen die Substantive FR hausse, baisse, mouvement, progression, recul, repli, reprise die Kollokatoren (s')amplier, (s')accelerer, (s')accentuer aus, um eine Zunahme auszudrucken12 . Dieselbe Gruppe von Nomina nimmt homogen (se) ralentir, bzw. die
transitiven Verben limiter qc., freiner qc. um eine Abnahme auszudrucken. Fur
diese Gruppe lassen sich gemeinsame semantische Eigenschaften identizieren:
Alle Substantive denotieren A nderungen in einer wirtschaftlichen Entwicklung,
oder eine wirtschaftliche Entwicklung selbst13 .
Z.
2
3
4
Nomengruppe/Verben !
Croissance
Declin
monter,
augmenter
s'ameliorer
baisser
s'accro^tre,
augmenter
accro^tre
s'aaiblir,
se degrader,
se deteriorer
baisser
s'accro^tre,
augmenter
accro^tre
diminuer
aaiblir
diminuer
freiner,
reduire
ab. Auf diese Weise kann die Worterbucherstellung ohne Mehraufwand fur den Lexikographen nach dem Verfahren des \Rapid Prototyping" erfolgen14.
Die Nutzung der Ad-hoc-Abfrage geht uber die Moglichkeiten hinaus, die der Benutzer
eines in einer relationalen oder objekt-orientierten Datenbank abgelegten Worterbuchs
normalerweise hat. Beide Arten von Datenbanken mussen einerseits komplexe Objekte in
kleinere Informationseinheiten zerlegen, bevor sie abgelegt werden konnen. Andererseits
mu das \fragmentierte" Objekt bei der Abfrage wieder \zusammengebaut" werden, und
je nach der Komplexitat der Objekte (d.h. danach, wieviele und wie tiefe Einbettungen
von Feature-Strukturen existieren) kann dieser Proze sehr zeitintensiv sein.
Idealerweise werden bei (relationalen) Datenbanken die Zugrispfade, uber welche die
abgelegten Daten abgefragt werden sollen, bei der Anlage von Indexen berucksichtigt
(Primarschlussel, Sekundarschlussel), und entsprechende Indexdateien werden vorab aufgebaut. Theoretisch konnte man alle Moglichkeiten der Abfrage eines TFS-Lexikons auf
diese Weise vorsehen und vorbereiten; dies ist in der Praxis wegen des Zeit- und Platzbedarfs, der bei der Indexerzeugung anfallt, nicht immer realistisch15. Hinzukommt, da
sich das Schema einer Datenbank, bzw. die Denition von Klassen eines TFS-Lexikons
andern konnen soll. Es durfte aber sehr schwierig sein, solche A nderungen in einem Modell
durchzufuhren, bei dem die Menge der moglichen Zugrispfade vorab festgelegt ist: die
Forderung nach Moglichkeiten zur Unterstutzung der Schema-Evolution und die Forderung nach Ad-hoc-Zugri auf in der Datenbank abgelegte Objekte scheinen sich { mindestens fur konventionelle relationale und objektorientierte Datenbanken { weitgehend
auszuschlieen.
In [Van der Laan 1996] wird die Frage diskutiert, wie ein Datenbank-Backend an TFS
angebunden werden kann, so da die Ad-hoc-Abfrage von TFS weiterhin unterstutzt wird.
14 Neben dieser interaktiven Benutzung der Ad-hoc-Abfrage ist die Moglichkeit der Anfrage mit beliebig
unterspezizierten Strukturen naturlich auch in einem NLP-System relevant: im Rahmen des U bersetzungssystems, welches in [Heid/Kuhn 1994] beschrieben wurde, wurde beispielsweise gezeigt, wie in
einem auf HPSG beruhenden U bersetzungssystem semantische Teilbeschreibungen, die bei der Analyse der Quellsprache erzeugt worden sind, an eine zielsprachliche Grammatik weitergegeben werden,
um dort als Grundlage fur eine \generierungsartige" Evaluation zu dienen. Das angewendete Verfahren beruht wiederum auf der Moglichkeit, Anfragen mit beliebig unterspezizierten Teilstrukturen zu
stellen.
Lexikalischer Zugri erfolgt bei der Generierung oder der Benutzung eines kontrastiven Worterbuchs nicht notwendig uber das Lemmazeichen. Vielmehr geht es darum, im Worterbuch lexikalisches
Material zu nden, das die Realisierung bestimmter (semantischer oder syntaktischer) Teilstrukturen
erlaubt. Bei der U bersetzung sind mitunter nicht nur Bedingungen der Quellsprache oder Bedingungen, die sich aus der semantischen Beschreibung des analysierten quellsprachlichen linguistischen
Objekts ergeben, zu berucksichtigen, sondern auch Constraints, welche aus der Zielsprache stammen
(vgl. hierzu die Diskussion in Abschnitt 2.2.2.2). Zielsprachliche Constraints steuern die Auswahl aus
A quivalentkandidaten; wie anhand des Beispiels aus Eurotra in Abschnitt 3.1.4.1 gezeigt (vgl. auch
Abbildung 3.12), entstehen A quivalentwahl-Constraints zum Teil durch die Interaktion von aus der
Quellsprache abgeleiteter semantischer Reprasentation und zielsprachlicher Grammatik, beispielsweise
hinsichtlich des Einbaus von A quivalentvorschlagen in die syntaktische Konstruktion der Zielsprache.
Solche Constraints konnen nicht sinnvoll in der Grammatik oder im Lexikon vorweg beschrieben werden. Grammatik und Lexikon beschreiben die Moglichkeiten, die in der Zielsprache zur Verfugung
stehen. Die Kombination der fur die Prozessierung eines Satzes relevanten Constraints wirkt dann als
komplexes \Ad-hoc-Filter" auf die Menge der A quivalentvorschlage.
15 Eine Losung, die in diese Richtung geht, wurde in Word Manager fur den (konzeptuell abgeschlossenen) Bereich der morphosyntaktischen Beschreibung im Lexikon gewahlt. Vgl. oben die Diskussion
in Abschnitt 3.1.4.4.
Im Rahmen seiner Untersuchung hat [Van der Laan 1996] gleichzeitig die wichtigsten
Datenbanktypen auf ihre Kombinierbarkeit mit TFS hin untersucht.
LEMMA:
FEG:
..
Inharente
Merkmale
"..."
ROLLEN:
[ . . .]
ROLLEN:
[ . . .]
GRAMM. FUNKT.:
[ . . .]
GRAMM. FUNKT.:
[ . . .]
PHRASENSTR. TYPEN:
[ . . .]
PHRASENSTR. TYPEN:
[ . . .]
...
19 Zur Notation: Abweichend von den niederlandischen Beispielen in Statement 5.2, Seite 147, wird die
Beschreibung der inharenten Merkmale hier unter einem Attribut EVENT \aufgehangt". Zur besseren
Lesbarkeit sind unter dem Attribut \EXPL" Beispiele angegeben; die Typnamen wurden auerdem
gegenuber der internen Darstellung editiert und \sprechender" gemacht.
FEG:
<fe
[FE: exper-n,
GF: subj,
PT: np]
fe
[FE: p-actual-ent,
GF: comp,
PT: np]>,
EXPL : "They noticed the marine sergeant.",
EVENT: vis-mod[MODALITY:vis]].
notice-that
[LEMMA:"notice",
FEG: <fe
[FE: exper-n,
GF: subj,
PT: np]
fe
[FE: p-actual-prp,
GF: comp,
PT: that-cl[COMPLT:that-compl]]>,
EXPL: "I noticed that two of them were pairing off.",
EVENT: vis-mod[MODALITY:vis]].
notice-inverted-sentence-compl
[LEMMA:"notice",
FEG: <fe
[FE: exper-n,
GF: subj,
PT: np]
fe
[FE: p-actual-prp,
GF: comp,
PT: th0-cl[COMPLT:th0-compl]]>,
EXPL: "His mother, I noticed, has turned her head away.",
EVENT: vis-mod[MODALITY:vis]].
notice-exper-only
[LEMMA:"notice",
FEG: <fe
[FE: exper-n,
GF: subj,
PT: np]>,
EXPL: "But nobody seemed to notice.",
EVENT: vis-mod[MODALITY:vis]].
notice-wh
[LEMMA:"notice",
FEG: <fe
[FE: exper-n,
GF: subj,
PT: np]
fe
[FE: p-actual-prp,
GF: comp,
PT: wh-cl[COMPLT:wh-compl]]>,
EXPL: "You began to notice who took more than his share of butter.",
EVENT: vis-mod[MODALITY:vis]].
notice-event
[LEMMA:"notice",
FEG: <fe
[FE: exper-n,
GF: subj,
PT: np]
fe
[FE: p-actual-evt,
GF: xcomp[CTRLR:u-comp],
PT: ing[VFORM:ingform]]>,
EXPL: "She noticed the man at the adjoining table watching her.",
EVENT: vis-mod[MODALITY:vis]].
Der Lexikograph kann nun beispielsweise fur eine U berblicks-Ausgabe, die nur die semantischen Rollenkonstellationen darstellt, alle Attribute auer FEG, FE und den darunter
eingebetteten Angaben ausltern. Das System gibt dann insgesamt die in 5.6 zusammengestellten \Lesarten" fur notice aus20 :
(5.6) notice-perception-thing
[LEMMA:"notice",
FEG: <fe[FE:exper-n]
fe[FE:p-actual-ent]>,
EXPL: "They noticed the marine sergeant."].
notice-that
[LEMMA:"notice",
FEG: <fe[FE:exper-n]
fe[FE:p-actual-prp]>,
EXPL: "I noticed that two of them were pairing off."].
notice-inverted-sentence-compl
[LEMMA:"notice",
FEG: <fe[FE:exper-n]
fe[FE:p-actual-prp]>,
EXPL: "His mother, I noticed, has turned her head away."].
notice-exper-only
[LEMMA:"notice",
FEG: <fe[FE:exper-n]>,
EXPL: "But nobody seemed to notice."].
notice-wh
[LEMMA:"notice",
FEG: <fe[FE:exper-n]
fe[FE:p-actual-prp]>,
EXPL: "You began to notice who took more than his share of butter."].
notice-event
[LEMMA:"notice",
FEG: <fe[FE:exper-n]
fe[FE:p-actual-evt]>,
20 Die Typnamen und Reihenfolge der Lesarten sind aus Statement 5.5 ubernommen worden. Die Beispielsatze wurden beibehalten.
EXPL: "She noticed the man at the adjoining table watching her."].
Fur die Information des Lexikographen uber die relevanten Lesarten von [to] notice sind
die Attribute nicht notwendig, die unter den jeweiligen Rollen-Namen eingebettet sind
(z.B. \[INTENTION: +j-]" bei der Rolle experiencer); sie konnen unterdruckt werden
(z.B. durch die entsprechende Denition der TFS-Ausgabeoption \:SHADOWED-ATTRIBUTES").
Die Anordnung der Information, wie sie bei der TFS-Evaluation ausgegeben wird, ist
nur eines von verschiedenen moglichen Ausgabeformaten. Wenn der Lexikograph schnell
uberprufen will, welche Beschreibungen schon in seinem Worterbuch enthalten sind, wird
er eine \Worterbuch-artige" oder eine tabellarische Prasentation bevorzugen. Ebenso als
Arbeitsgrundlage fur die Erstellung von Worterbuchern verschiedener Typen.
Da die einzelnen Teilbeschreibungen in DELIS-TFS gleichberechtigt nebeneinander
stehen, gibt es keine Abhangigkeitsbeziehungen zwischen ihnen21. Folglich konnen die
Teilbeschreibungen beliebig reorganisiert werden.
Beispiele fur die Reorganisation sind etwa die ublichen Modelle von semasiologischen
bzw. onomasiologischen Worterbucheintragen, wie sie nachfolgend in den Abbildungen
5.7 und 5.8 dargestellt sind.
LEMMA:
". . ."
- Lesart-1:
- Rollenkonstellation:
- Syntax:
ROLLE:
[ . . .]
ROLLE:
[ . . .]
...
FUNKTION:
[ . . .]
[ . . .]
FUNKTION:
PHRASEN-TYP:
PHRASEN-TYP:
[ . . .]
[ . . .]
...
ROLLE:
[ . . .]
ROLLE:
[ . . .]
...
FUNKTION:
[ . . .]
[ . . .]
FUNKTION:
PHRASEN-TYP:
[ . . .]
[ . . .]
...
-...
- Lesart-2:
- Rollenkonstellation:
- Syntax:
PHRASEN-TYP:
-...
...
Abbildung 5.7: Reorganisation von Informationen aus DELIS-Worterbuchern fur ein semasiologisches Worterbuch
Beim semasiologischen Worterbuch werden die einzelnen Eintrage alphabetisch nach den
Lemmazeichen sortiert. Dann werden die Untereintrage jeweils nach den Rollenkonstel21 Allerdings kann z.B. das Merkmal \[INTENTION: +j-]" naturlich nur ausgegeben werden, wenn die
zugehorige Rolle (in diesem Fall experiencer) auch ausgegeben wird, d.h. wenn fur das Attribut
\FE" ein Wert ausgegeben wird.
Semant. Klasse
- Rollenkonstellation:
FEG:
ROLLE:
[ . . .]
ROLLE:
[ . . .]
...
[ . . .]
[ . . .]
FUNTION:
PHRASEN-TYP:
[ . . .]
[ . . .]
...
[ . . .]
[ . . .]
PHRASEN.-TYP:
[ . . .]
[ . . .]
...
- Lemma-Liste
- Lemma-1:
Lemma-Name:
- Syntax: FEG:
"..."
FUNKTION:
PHRASEN-TYP:
- Lemma-2:
Lemma-Name:
- Syntax: FEG:
"..."
FUNKTION:
PHRASEN-TYP:
FUNKTION:
-...
Abbildung 5.8: Reorganisation von Informationen aus DELIS-Worterbuchern fur ein onomasiologisches Worterbuch
lationen organisiert. Zu jeder Rollenkonstellation (Rollenkonstellationen werden hier als
\Rohmaterial" fur Bedeutungsangaben zur Lesartenunterscheidung verwendet) werden
die einzelnen syntaktischen Teilbeschreibungen gegeben.
(5.7)
#ENT, v.
1. #MOD:
;
#SEM-EXPL:
:
#SORT
#SORT-BEARER
.
#SYN-FORMULA
Syntakt. Klasse
- Syntakt. Konstellation:
FEG:
[ . . .]
[ . . .]
FUNKTION:
PHRASEN-TYP:
PHRASEN-TYP:
[ . . .]
[ . . .]
...
ROLLE:
[ . . .]
ROLLE:
[ . . .]
...
FUNKTION:
- Sem. Konstellation-1:
- Rollen-Konstellation: FEG:
- Lemma-Liste:
- Lemma - 1: " . . . "
- Lemma - 2: " . . . "
- ...
...
- Sem. Konstellation-2:
...
...
non-intentionally]
non-intentionally]
non-intentionally]
non-intentionally]
non-intentionally]
non-intentionally]
notice
notice
notice
notice
notice
notice
Abbildung 5.11: Tabellarische U bersicht uber die Lesarten von EN [to] notice
die in Abbildung 5.5, Seite 156 im TFS-Format dargestellt sind. Auf Wunsch kann sich
der Lexikograph dieselbe Art von Listen auch mit je einem Beispielsatz ausgeben lassen.
Abbildung 5.12 enthalt die Belege fur EN [to] taste, die im DELIS-Worterbuch enthalten
sind. Jeweils ist ein Beispielsatz aus den im DELIS-Projekt benutzten Corpusmaterialien
(z.T. vom Lexikographen sinngema gekurzt) mit angegeben24 .
Folgende Schritte mussen bei der Durchfuhrung des Exports lexikalischer Information aus
DELIS-Worterbuchern in anwendungsspezische Worterbuchformate durchgefuhrt werden:
Die Denition des zu exportierenden Fragments durch den Lexikographen (interaktiv): Selektion.
24 Nicht alle Varianten der taste like-Konstruktion, je nach Subtyp der judgement-Rolle, sind hier aufgefuhrt. Vgl. Lesart 4 in Abbildung 5.9, Seite 161.
Die Zwischenreprasentation, die von TFS als Evaluierungsresultat fur \?lgr." erzeugt
wird, ist (am Beispiel von EN [to] notice) in 5.9 dargestellt.
(5.9) lgr-en3
[1:exper-n,
2:np,
3:"notice",
4:"But nobody seemed to notice.",
5:vis].
lgr-en5
[1:exper-n,
2:np,
3:"notice",
4:p-actual-prp,
5:that-cl[COMPLT:that-compl],
6:"I noticed that two of them were pairing off.",
25 Das brauchte nicht so zu sein: hier wird dem Spezialfall der tabellarischen Darstellung fur Lexikographen Rechnung getragen, die z.B. auf Angaben zu grammatischen Funktionen bewut verzichtet. Im
allgemeinen Fall wird alle von TFS bereitgestellte Infomation abgebildet.
7:vis].
lgr-en5
[1:exper-n,
2:np,
3:"notice",
4:p-actual-prp,
5:th0-cl[COMPLT:th0-compl],
6:"His mother, I noticed, has turned her head away.",
7:vis].
lgr-en5
[1:exper-n,
2:np,
3:"notice",
4:p-actual-prp,
5:wh-cl[COMPLT:wh-compl],
6:"You began to notice who took more than his share of butter.",
7:vis].
lgr-en5
[1:exper-n,
2:np,
3:"notice",
4:p-actual-ent,
5:np,
6:"They noticed the marine sergeant.",
7:vis].
lgr-en5
[1:exper-n,
2:np,
3:"notice",
4:p-actual-evt,
5:ing[VFORM:ingform],
6:"She noticed the man at the adjoining table watching her.",
7:vis].
Fur die Abbildung in das Tabellenformat wird ein \Mapping-Lexikon" benutzt, das eindeutige Zuordnungen zwischen der in DELIS-TFS benutzten Terminologie und \lexikographen-freundlichen" Bezeichnungen enthalt. Solche \Alias"-Namen kann sich der Lexikograph z.B. selbst denieren; sie stellen lediglich prasentationelle Varianten der im
TFS-Worterbuch benutzten Beschreibungsbausteine dar, sind jedoch als solche u.U. fur
den Benutzer leichter handhabbar. Sie konnen zielgruppenspezisch variiert werden. Auerdem konnen sie, wie die Metasprache in jedem guten Worterbuch, der Benutzersprache
angepat werden. Die Konversionsroutinen sind parameterisiert: der Benutzer gibt jeweils
an, welches \Mapping-Lexikon" benutzt werden soll. Ein italienischer Lexikograph, der
ein niederlandisch-italienisches Worterbuch erstellen will, kann z.B. die niederlandischen
und die italienischen Daten mit derselben (italienischen) Metasprache exportieren lassen.
Die oben in Abbildung 5.11 angegebenen Lesarten von EN [to] notice sind in Abbildung
5.14 mit italienischer Metasprache angegeben.
Die Konversionsroutinen sind als perl-Programme realisiert worden26 ; sie sind im Prinzip
umkehrbar (bisher noch nicht realisiert) und setzen unmittelbar auf den Ergebnissen der
Ad-hoc-Abfrage von TFS auf.
Die hier beschriebenen Verfahren zum Lexikonexport benutzen in einer aktuellen ExportSituation den jeweils zu diesem Zeitpunkt gultigen Zustand des Worterbuchs. Bei der Bestimmung des zu exportierenden Fragments ist dies auch notwendig, weil hierzu naturlich
bekannt sein mu, welche Klassizierungen im Worterbuch vorgenommen worden sind,
und welche einzelnen Lexikoneintrage bzw. Beschreibungen von Lesarten vorhanden sind.
Die dem Export zugrundeliegenden Abbildungsregeln bleiben aber konstant auch wenn
das Worterbuch selbst modiziert wird. Das Hinzufugen bzw. Loschen von Instanzen hat
keine Auswirkung auf die Export-Routinen, weil diese nicht auf den einzelnen Lexikoneintragen aufsetzen, sondern auf den einzelnen Beschreibungsmitteln, welche zur syntaktischen und semantischen Beschreibung benutzt werden. Die Export-Routinen sind an
den Bausteinen der Beschreibung, d.h. an den einzelnen Rollen, grammatischen Funktionen und Denitionen von phrasenstrukturellen Typen festgemacht worden, soda sie von
den lexikalischen Klassizierungen unabhangig sind. Dies gilt genauso fur die \MappingLexika", die fur die benutzersprach-spezischen Ausgaben des Konversionsschritts benutzt
werden.
Solange keine neuen Beschreibungsmittel eingefuhrt werden, braucht an den einmal denierten Export-Routinen nichts geandert zu werden. Auf diese Weise kann die in den Anforderungsdenition geforderte Robustheit gegenuber Lexikonanderungen erzielt werden.
Sie beruht auf dem Prinzip der Modularitat: das Worterbuch unterscheidet BeschreibungsBausteine, Klassen von ebenenspezischen Beschreibungen und Instanzen dieser Klassen.
Die Export-Routinen beziehen sich auf die Bausteine der Beschreibung. Daher sind A nderungen des Worterbuchs ohne Auswirkung auf die Exportverfahren; auch A nderungen der
Klassizierung von lexikalischem Material, d.h. der Denition von Klassen von ebenenspezischen Beschreibungen sind ohne Auswirkung. Erst A nderungen des WorterbuchSchemas, die zu A nderungen im Beschreibungsinventar fuhren, mussen beim Export (in
der Regel nur im \Mapping-Lexikon") eigens berucksichtigt werden.
Eine praktische Anwendung der Exportverfahren wurde in Abschnitt 5.2.3 bereits angesprochen: die Bereitstellung von Listen lexikalischer Beschreibungen in verschiedenen
Formaten, als Hilfsmittel fur Lexikographen.
Ein weiteres Hilfsmittel wurde im DELIS-Projekt auf derselben Grundlage entwickelt:
es handelt sich den DELIS Search Condition Generator, ein Werkzeug, welches Abbildungen zwischen den DELIS-Lexikonfragmenten und in Textcorpora annotierten (morpho)syntaktischen Beschreibungen dazu benutzt, fur einzelne im Worterbuch beschriebene
Lesarten geeignete Beispielsatze aus dem Corpus zu extrahieren. Das Werkzeug implementiert damit die in Punkt 2 der Anforderungsdenition aus Abschnitt 2.3, Seite 65,
26 Die Implementierung, nach der hier zusammengefaten funktionalen Spezikation, wurde von Bruno
Maximilian Schulze, Stuttgart, im Rahmen des DELIS-Projekts realisiert. Dafur herzlichen Dank.
Eine WWW-Schnittstelle zu den hier beschriebenen Werkzeugen ist uber die WWW-Seite von DELIS
ebenfalls verfugbar.
vorgetragene Forderung nach Dokumentation von Lexika durch Bindung der lexikalischen
Beschreibungen an in Corpora uberprufbare Phanomene. In Abbildung 2.6, Seite 32, sind
diese Zusammenhange schematisch dargestellt worden27 .
Der Search Condition Generator funktioniert wie ein Export-Werkzeug: aus den TFSBeschreibungen der DELIS-Lexikonfragmente werden die zu dokumentierenden Lexikoneintrage mittels Ad-hoc-Abfrage ausgewahlt und dann auf eine (Sequenz von) Corpusabfragen abgebildet.
Im speziellen Fall des im DELIS-Projekt realisierten Prototypen fur Englisch wurde
ein mit der English Constraint Grammar, ENGCG (vgl. [Voutilainen et al. 1992] und die
allgemeine Einfuhrungsdarstellung in [Karlsson 1992]) annotierter Ausschnitt aus dem
British National Corpus, BNC, als Textgrundlage benutzt. Die Abbildung TFS $ Corpusannotation wurde entsprechend an das in ENGCG benutzte Annotationsschema angepat. Im ENGCG-Output sind grammatische Funktionsnamen an Wortformen annotiert,
die vom Constraint-Grammar-Parser als mogliche Kopfe von Phrasen identiziert worden
sind; ENGCG-annotierte Texte enthalten aber keine Angaben uber Anfang und Ende von
phrasenstrukturellen Konstrukten; auerdem sind naturlich die in DELIS-Worterbuchern
angegebenen Rollen und Rollenkonstellationen in den Texten nicht annotiert.
Die Abbildung beruht folglich zunachst auf den grammatischen Funktionsangaben:
in Tabelle 5.15 sind Beispiele fur diese Abbildung zusammengestellt. Auerdem werden
aber die syntaktischen Kategorien, die in DELIS-Lexika angegeben sind, ebenfalls fur die
Abbildung benutzt: [Jauss 1994] hat eine \Low-Level-Grammatik" fur Part-of-SpeechShapes derjenigen Konstruktionen entwickelt, die im Englischen als Verbkomplemente
auftreten konnen: dabei sind komplexe Corpus-Suchausdrucke entstanden, die z.B. die
wichtigsten Varianten von Subjekts- oder Objekts-Nominalphrasen als Sequenzen von
kategorial und morphosyntaktisch annotiertem Wortmaterial beschreiben.
Wie das \Mapping-Lexikon" im Fall der Abbildung von TFS in ein lexikographieorientiertes Tabellenformat, sind auch die Suchausdrucke als separate Informationsquelle
abgelegt, soda sie bei Bedarf ausgetauscht werden konnen. Die Exportwerkzeuge produzieren also, im Fall des Search Condition Generator, statt reformatierter Lexikoneintrage
Corpusanfragen.
Die Corpusanfragen werden an ein Corpus-Suchwerkzeug28 weitergegeben, welches die
Belegsatze extrahiert, die den in der automatisch generierten Anfrage spezizierten Bedingungen entsprechen. In Abbildung 5.16 ist der Ablauf des speziellen Exportverfahrens
schematisch dargestellt, das dem Search Condition Generator zugrundeliegt.
In Abbildung 5.17 sind einige Belege zusammengestellt, die mit dem Werkzeug aus dem
ENGCG-geparsten BNC extrahiert worden sind; es handelt sich um einen Ausschnitt aus
den Belegen fur EN [to] taste mit pradikativen Adjektivphrasen.
Die Beispielmenge enthalt unter anderem den (Teil-)Satz \with all 26 wines tasted
available for under a ver, however, ..." (No. 30578), der oensichtlich mit den Mitteln des ENGCG-Parsers nicht von den anderen Belegen abgetrennt werden kann (keine
Phrasen-Annotation). Fur das Suchwerkzeug gilt naturlich dieselbe Beschrankung wie fur
alle Anwendungen von Abbildungen abstrakterer auf weniger abstrakte Beschreibungen:
die Trennscharfe der Suchausdrucke, die auf Part-of-Speech-Shapes beruhen, ist geringer
27 Der Search Condition Generator wurde in [Linden 1994] deniert; vgl. auch [Emele 1994], [Heid 1995a]
und [Heid 1995c].
28 Fur die hier beschriebenen Arbeiten wurden die von O. Christ und B.M. Schulze entwickelten Corpusabfragewerkzeuge CQP/Xkwic benutzt. Vgl. [Christ 1993], [Schulze 1994].
Konstruktion/Annotation
Anzahl Belege
Form \taste (djsjing)"
641
{ davon taste/N
111
{ davon ambig annotiert: taste/N oder /V
38
{ Verbkandidaten taste/V
568
Konstruktionen
{ SUBJ taste OBJ
181
{ SUBJ taste of NP
24
{ SUBJ taste like NP
32
{ SUBJ taste ADJP
91
Tabelle 5.2: Belege fur verschiedene Konstruktionen von EN [to] taste in BNC: Verteilung
als diejenige der \abstrakteren" Anfragen. Aber umgekehrt nden sich die abstrakteren
Annotationen seltener in Corpora, oder es bedarf sehr groen Aufwands um sie dort
einzufuhren. Der Kompromi, der mit dem Search Condition Generator verfolgt wird
(grammatische Funktionen und POS-Shapes als gemeinsame Beschreibungsebene fur Lexikon und Corpus), fuhrt zu akzeptablen Ergebnissen; in Tabelle 5.2 ist angegeben, wieviel
Belege fur die wichtigsten Konstruktionen von EN [to] taste gefunden wurden. Fur den Lexikographen ist es nutzlich, wenn die Belegsuche in Corpora moglichst spezisch gestaltet
wird: wenn er unmittelbar auf Beispiele zugreifen kann, die eine bestimmte Konstruktion
illustrieren, so lat sich der Proze der Lexikonerstellung erheblich ezienter gestalten,
weil groe Teile der sonst manuell zu erledigenden \Sortierarbeit" automatisch erfolgen.
Die Trennscharfe des Suchwerkzeugs leidet ein wenig darunter, da sowohl in BNC
als auch in ENGCG ambige Annotationen vorkommen konnen (z.B. taste als \N-or-V"
annotiert); wenn der in den Corpora benutzte Part-of-Speech-Tagger keine eindeutige Zuordnung einer Wortform zu einer Wortklasse vornehmen konnte, dann wurde ein ambiges
Tag verwendet. Das fuhrt naturlich zu unerwunschtem Rauschen bei der Abfrage. Auerdem stort (wie oben angesprochen) das Fehlen von Konstituentengrenzen-Annotationen.
Aus der Sicht der praktischen lexikographischen Arbeit stellt der Search Condition
Generator eine Erleichterung dar; Voraussetzung fur eine breitere Anwendung ist aber die
Verfugbarkeit geeignet annotierter Textcorpora.
Aus der Sicht des Lexikonexports kann das Werkzeug als eine weitere Anwendung der
in diesem Kapitel diskutierten Prinzipien gesehen werden. Auch die hier benutzten Abbildungen sind gegen Lexikonanderungen robust; wieder wird das zweistuge Exportverfahren (Selektion durch Ad-hoc-Abfrage von TFS, Abbildung mit separatem \MappingLexikon") angewendet; es kann somit generalisiert und im Mapping-Teil nach einzelnen
Anwendungen parameterisiert werden.
die Spezika der Abfrage von TFS-Lexika und die Rolle von TFS als linguistischer Wissensreprasentationsformalismus betreen.
5.3.1 Interpretation der Hierarchie unter der Open World Assumption vs.
Closed World Assumption
TFS erlaubt sowohl eine Interpretation von Hierarchiestatements unter der Closed World
Assumption29, als auch unter der Open World Assumption.
Der Lexikograph kann bei der Denition von Hierarchiestatements bei der lexikalischen Modellierung zwischen den beiden Interpretationen wahlen. Ebenso kann die Abfrage gesteuert werden: die Unterschiede zwischen Open- und Closed-World konnen entweder berucksichtigt werden, oder der Lexikograph verlangt, da alle Aussagen unter der
Closed-World-Assumption interpretiert werden. Bei einer Abfrage unter der Open World
Assumption wird der spezischste Typ ausgegeben, der die Anfrage subsumiert, aber es
werden nicht alle seine Untertypen aufgezahlt. Unter der Closed World Assumption erfolgt
genau eine solche Aufzahlung.
In der Modellierung wird man in der Regel Closed World-Angaben dort bevorzugen,
wo klar ist, da eine Domane von den Untertypen eines bestimmten Types vollstandig
partitioniert wird; das Statement 3.1, Seite 76, ist ein charakteristisches Beispiel: es soll
ausgesagt werden, da es (im Deutschen) genau drei verschiedene Werte fur das Attribut Genus gibt. Dagegen wird eine Open World-Angabe benutzt, wenn z.B. ausgedruckt
werden soll, da ein Fragment nur die (derzeit) bekannten, oder nur die relevanten Subtypen eines Typs enthalt; es konnte weitere Subtypen geben, und der Lexikograph konnte
weitere Statements erganzen, die analog formuliert sind, ohne da er die Interpretation
der bestehenden Statements andern mu.
Die Unterschiede machen sich bei der Evaluierung bemerkbar. Ein Beispiel soll dies
verdeutlichen. Der Lexikograph ist an Beschreibungen interessiert, in denen die Frame Element Group in Statement 5.10 vorkommt, die einen experiencer-int und ein
percept-target enth
alt.
(5.10)
[FEG: <fe[FE: experiencer-int] fe[FE: percept-target]>].
Er will aber u.U. keine komplette Aufzahlung samtlicher linguistischer Objekte, sowohl
Lexikoneintrage als auch Denitionen von Klassen; es genugt, wenn er diejenigen syntaktischen Klassen aufgelistet bekommt, welche zur Realisierung der in 5.10 angegebenen
semantischen Beschreibung verfugbar sind.
Dies kann mit Anfrage 5.11 uberpruft werden. Die Hierarchie der syntaktischen Klassen ist nach der Open World Assumption modelliert. Wird nun auch unter der OpenWorld-Assumption angefragt, so stoppt die Evaluation an der Stelle, wo die als Antwort
ausgegebenen Beschreibungen gleichermaen spezisch sind wie die in der Anfrage formulierten Constraints.
(5.11) ?synclass[FEG: <fe[FE: experiencer-int] fe[FE: percept-target]>].
In der Anfrage 5.11 wird nach einer syntaktischen Klasse gefragt (Subtyp von synclass).
Das Resultat mu also wiederum eine syntaktische Klasse enthalten (vgl. 5.12): hier die
29 Closed World Assumption bedeutet vollstandige Partitionierung der Domane durch die denierten
Subtypen, Interpretation der Negation als Komplement, usw., vgl. oben, Abschnitt 3.1.2.5, sowie
insbesondere [Emele 1996].
Denition einer syntaktischen Klasse (v-s-onp), die das entsprechende Constraint erfullt,
aber nicht die Lexeme, die zu dieser Klasse gehoren.
(5.12) v-s-onp[FEG: <fe
[FE
:
[INTENTION:
SORT
:
GF
:
PT
:
fe
[FE
:
[EXPECTED :
SORT
:
GF
:
PT
:
experiencer-int
+,
human],
subj,
np]
percept-target
+,
entity | proposition],
comp,
np]>].
Wird Anfrage 5.11 dagegen unter der Closed-World-Assumption evaluiert, so werden jeweils diejenigen vollstandig spezizierten Worterbucheintrage ausgegeben, welche eine
Frame Element Group wie die in 5.10 angegebene enthalten. Die Ergebnisse (vgl. ein
Beispiel in 5.13) werden also bis auf die Ebene der terminalen Klassen herunter spezialisiert.
(5.13) sight-att-tgt
[LEMMA: ight",
FEG:
<fe
[FE
: experiencer-int
[INTENTION: +,
SORT
: human],
GF
: subj,
PT
: np]
fe
[FE: percept-target
[EXPECTED : +,
SORT
: entity | proposition,
INTEREST : +,
DISTANCE : +,
SPECIFICTY: -],
GF
: comp,
PT
: np]>,
EVENT: vis-mod
[MODALITY: vis,
DURATION: duration]].
Beide Arten von Anfragen und beide Arten von Ergebnissen konnen fur die lexikographische Arbeit ihre Relevanz haben.
Beschrankt sich das Interesse auf lexikalische Klassen, die die in der Anfrage enthaltenen Constraints erfullen, so ist eine Evaluation unter der Open-World-Assumption
sinnvoll.
Will der Lexikograph samtliche lexikalische Instanzen kennen, fur die eine bestimmte
Beschreibung Gultigkeit hat, mu eine Evaluation unter der Closed-World-Assumption
erfolgen, auch fur Teile, die unter der Open-World-Assumption modelliert worden
sind.
Die Art der Anfrage und mit ihr die Art und Weise, in der die Eigenschaften des TFSSystems ausgenutzt werden, hangt also sehr stark von der Anwendungssituation und von
der Aufgabenstellung ab, welche mit einer konkreten Anfrage gelost werden soll.
Die Benutzung von TFS bei der interaktiven Abfrage lexikalischer Information unterscheidet sich etwas von den Anfragen an TFS, die im Rahmen der Verarbeitung von
Lexikoneintragen in einem NLP-System vorkommen.
In den Beispielen zur Abfrage der DELIS-Worterbucher, die in Abschnitt 5.1 diskutiert
wurden, wurde in der Anfrage zum Teil ein Typname speziziert, zum Teil eine partielle
Strukturbeschreibung, oder beide Arten von Constraints wurden kombiniert30. Bei der
Diskussion von Statement 5.2 auf Seite 147 wurde darauf hingewiesen, da im Prinzip
beide Typen von Anfragen beliebig kombiniert werden konnen und es keinen Unterschied
macht, wie eine Teilbeschreibung in der Anfrage formuliert wird (ob als Typ oder als
strukturelles Constraint). Dies ist in dieser generellen Form etwas vereinfachend. Erstens
kann eine bestimmte Teilstruktur auf verschiedene Typen zuruckgehen, soda naturlich
nicht jedem strukturellen Constraint ein Typ entspricht (folglich ergeben sich Unterschiede
im Resultat bei der Anfrage mit einem Struktur-Constraint vs. einem Typ).
Zweitens gibt es einen prinzipiellen Unterschied zwischen verschiedenen Typen von
Anfragen; bei der Evaluation von TFS-Anfragen ndet eine Unikation mit der in der
Anfrage spezizierten Beschreibung statt. Wird in einer Anfrage ein strukturelles Constraint (als Attribut-Wert-Paar) angegeben, so wird bei der Evaluation nur uberpruft, ob
diese Beschreibung einen Widerspruch mit den in der Spezikation denierten Typen hervorruft. Wo dies nicht der Fall ist, kann die Strukturbeschreibung aus der Anfrage mit
der Information uniziert werden, welche ein die Anfrage erfullender Typ mitbringt. Das
Resultat kann eine gegenuber dem in der Worterbuchspezikation enthaltenen Eintrag
informationsreichere Struktur sein.
Solche \in die Daten aus der TFS-Wissensbasis hineinunizierte" Information stort in
der Regel nicht besonders, wenn Lexikoneintrage in sprachverarbeitenden Anwendungen,
insbesondere bei der automatischen Analyse sprachlicher A uerungen verwendet werden.
Sollen dagegen in einer interaktiven Anwendung in der Lexikographie Worterbucheintrage uberpruft werden, und soll festgestellt werden, inwiefern die Eintrage spezielle
Merkmale aufweisen, dann ist die Unikation mit der Anfrage kein geeignetes Mittel fur
die Suche nach Belegen31 . Der Lexikograph mochte dann genau die Eintrage sehen, fur
die eine bestimmte Eigenschaft deniert ist, und nur diese. Ihn interessiert bei der U berprufung von Lexikoneintragen nicht, oder nicht in erster Linie, welche Eintrage auch eine
Interpretation zulassen, in der bestimmte Eigenschaften (z.B. im Kontext) aktualisiert
werden konnen, ohne da es einen Widerspruch mit der Denition gibt.
Nachfolgend wird ein Beispiel gegeben, in welchem die fur NLP-Systeme ubliche Verfahrensweise, Anfrage und Lexikonmodell nur auf Widerspruchsfreiheit zu testen, fur eine
Anwendung zum Test von Worterbucheintragen nicht ausreicht. Es handelt sich dabei
um die bereits oben in Abschnitt 4.6.3 diskutierte Modellierung der Kohyponyme von EN
30 D.h. der Name einer lexikalischen Klasse, z.B.: \?perc & v-s-onp": die Anfrage enthalt zwei Typnamen (Klassendenitionen), namlich perc und v-s-onp.
31 Dasselbe Problem stellt sich auch bei Anwendungen zur Generierung, innerhalb von NLP-Systemen.
<fe fe[FE:
pct-distance[FEG:
<fe fe[FE:
percept-actual-hum |
percept-target)[INTEREST: + | -]]>].
(percept-actual-ent |
percept-actual-hum |
percept-target)[SALIENCE: + | -]]>].
(percept-actual-ent |
percept-actual-hum |
percept-target)[DISTANCE: + | -]]>].
Auerdem wird fur jeden positiven bzw. negativen Wert ein eigener Typ festgelegt und
als Untertyp der in Statement 5.14 festgelegten Typen deniert (vgl. 5.15)34:
(5.15) pct-interest-plus[FEG: <fe fe[FE: [INTEREST: + ]]>].
pct-salience-plus[FEG:
pct-distance-plus[FEG:
<fe fe[FE:
<fe fe[FE:
[SALIENCE: + ]]>].
[DISTANCE: + ]]>].
pct-interest-minus[FEG:
pct-salience-minus[FEG:
pct-distance-minus[FEG:
<fe fe[FE:
<fe fe[FE:
<fe fe[FE:
[INTEREST:
[SALIENCE:
[DISTANCE:
-]]>].
-]]>].
-]]>].
Die einzelnen Beschreibungen von Verblesarten erben (vgl. 5.16) nun jeweils neben den
\ublichen" syntaktischen und semantischen Beschreibungen auch von den partiellen Beschreibungen, die in der separaten Teilhierarchie von \Percept-Feature-Typen" (vgl. Statements 5.15) angegeben sind. Verben, bei denen es keine Festlegung auf einen positiven
32 [Atkins 1994] hatte vorgeschlagen, da die Kohyponyme von EN see durch zusatzliche Merkmale
voneinander unterschieden werden sollen, welche spezielle Eigenschaften der jeweiligen Fullung der
percept-Rolle beschreiben; die Merkmale sind in Abschnitt 4.6.3 eingef
uhrt und diskutiert worden;
dort in der Tabelle 4.14, Seite 141, sind die relevanten Fakten zusammengestellt. Oben, in Abschnitt
4.6.3, wurde die Modellierung diskutiert: soll eine einzelne tiefe, feinkornige Hierarchie entwickelt werden, oder soll auf eine Modellierung durch Kreuzklassikation und multiple Vererbung zuruckgegrien
werden? Die beiden Optionen sind in Abbildung 4.13 einander gegenubergestellt worden.
33 Eine praktische Erleichterung im Lexikographen-Interface ware es, wenn Attribute, deren Wert unspeziziert ist (d.h. TOP oder der jeweils relevante unterspezizierte Aufzahlungstyp) auf Wunsch des
Lexikographen bei der Ausgabe unterdruckt werden konnten. Die semantischen Strukturen von Acquilex enthalten zum Beispiel sehr groe Listen von Attributen. Viele Beispieleintrage enthalten aber
nur sehr wenig Werte fur diese Attribute. Je detaillierter (mehr Attibute) ein Lexikon, desto groer
ist dieses Problem.
34 Diese Denitionen konnten sinngema auch als Macros von TFS festgelegt werden.
oder negativen Wert gibt, erben keine Percept-Feature-Typen (vgl. die Eintrage s.v. see
und glimpse). Die Statements 5.16 kodieren die Informationen aus der Tabelle 4.14, Seite
141, die in dieser Form von [Atkins 1994] beschrieben wurden.
(5.16) see-perc-thing
< perc-act-ent, see-lem,
v-s-onp.
glimpse-perc-thing < perc-act-ent, glimpse-lem, v-s-onp.
notice-perc-thing < perc-act-ent, notice-lem,
v-s-onp,
pct-interest-plus.
spy-perc-thing
< perc-act-ent, spy-lem,
v-s-onp,
pct-interest-plus.
espy-perc-thing
< perc-act-ent, espy-lem,
v-s-onp,
pct-interest-plus.
spot-perc-thing
< perc-act-ent, spot-lem,
v-s-onp,
pct-interest-plus,
pct-salience-minus.
behold-perc-thing < perc-act-ent, behold-lem,
v-s-onp,
pct-interest-plus,
pct-salience-plus,
pct-distance-plus.
witness-perc-thing < perc-act-ent, witness-lem, v-s-onp,
pct-interest-plus.
sight-att-tgt
< sight-lem, att-tgt,
v-s-onp,
pct-interest-plus,
pct-distance-plus,
tgt-spec-minus.
descry-att-tgt
< descry-lem, att-tgt,
v-s-onp,
pct-interest-plus,
pct-distance-plus,
pct-salience-minus,
tgt-spec-plus.
35 In Abbildung 5.18 ist \[SPECIFIC: + j-]" als zusatzliches Feature fur percept-target mitangegeben.
Dieses Merkmal ist analog zu den anderen deniert, wurde aber in die Statements 5.14 bis 5.16 nicht
eigens aus dem vollstandigen TFS-Modell ubernommen.
36 Zu der Ergebnisstruktur in 5.18 und in den folgenden Beispielen ist das aus der Anfrage ubernommene
Attribut-Wert-Paar mit \<--" markiert.
[INTENTION: -,
SORT:
human],
GF: subj,
PT: np]
fe
[FE: percept-actual-ent
[SORT:
entity,
INTEREST: +], <-GF: comp,
PT: np]>,
EVENT: vis-mod
[MODALITY: vis,
DURATION: duration]].
Das vollstandige Anfrageresultat fur 5.17 enthalt auerdem analoge Eintrage fur die Verben spot, behold, witness, sight, descry, spy, espy. Es enthalt nicht see und glimpse.
Diese Verben fehlen, weil fur sie nicht ausdrucklich \[INTEREST: +]" deniert ist.
Sinngema fuhrt die Anfrage nach Verben, die zusatzlich zu dem Merkmal \[INTEREST:
+]" das Merkmal \[SALIENCE: -]" haben (5.19), d.h. zus
atzlich auch vom Typ pct-salience-minus erben, lediglich zu den Eintr
agen fur descry und spot.
(5.19) ?pct-interest-plus & pct-salience-minus.
Man kann dieselbe Datenbasis auch im Sinne der in einem NLP-System ublichen Anfragen
abfragen. Beispielsweise kann man nach allen Verben fragen, bei denen das zweite Frame
Element aus dem Kontext die Markierung \[INTEREST: -]" erhalten kann (5.20). Dem
entspricht die ubliche Evaluation mittels Unikation: die Featurestruktur, die in der Anfrage enthalten ist, wird mit den typvertraglichen Objekten der Wissensbasis uniziert.
Alle Objekte werden ausgegeben, fur die dieses Verfahren nicht zu einem Widerspruch
(feature clash) fuhrt. In unserer Datenbasis ist kein Verb enthalten, fur das ausdrucklich
\[INTEREST: -]" deniert ware, jedoch konnen die Verben see und glimpse sowohl mit
\[INTEREST: +]" als auch mit \[INTEREST: -]" auftreten (vgl. 5.21). Die Verben aus 5.18
oben, d.h. die Resultate der Anfrage 5.17, werden naturlich nicht ausgegeben.
(5.20)
?[FEG: <fe fe[FE:[INTEREST: -]]>] & perc-act-ent.
(5.21)
see-perc-thing
[LEMMA: ee",
FEG:
<fe
[FE: experiencer-nonint
[INTENTION: -,
SORT:
human],
GF: subj,
PT: np]
fe
[FE: percept-actual-ent
[SORT:
entity,
INTEREST: -], <-GF: comp,
PT: np]>,
EVENT: vis-mod
[MODALITY: vis,
DURATION: duration]].
glimpse-perc-thing
[LEMMA: "glimpse",
FEG:
<fe
[FE: experiencer-nonint
[INTENTION: -,
SORT:
human],
GF: subj,
PT: np]
fe
[FE: percept-actual-ent
[SORT:
entity,
INTEREST: -], <-GF: comp,
PT: np]>,
EVENT: vis-mod
[MODALITY: vis,
DURATION: short]].
Die Moglichkeiten, durch alternative Angabe von Typnamen oder von strukturellen Beschreibungen entweder alle nicht-kon
igierenden Eintrage der Datenbasis zu erhalten, oder
nur genau jene, fur die ein bestimmtes Merkmal deniert ist, ist sehr interessant fur den
multifunktionalen Einsatz von TFS; der Lexikograph ist meistens eher an der \engeren" Interpretation interessiert, ahnlich wie automatischer Klassikator in einer Wissensreprasentationsprache. Umgekehrt will man in einem Sprachverarbeitungssystem, etwa
bei der Prozessierung von aufeinanderfolgenden Satzen, sicherstellen, da alle kontextuell
\moglichen" Losungen gefunden werden37 .
37 Die technischen und implementierungsseitigen Aspekte der Unterscheidung, deren Auswirkungen hier
beschrieben worden sind, werden von [Emele 1996] diskutiert. Der vorliegende Abschnitt geht auf
Reaktionen von Martin Emele und Katja Kruger auf die hier vorgeschlagene (im Sinne der Denition
von TFS 6.1 unorthodoxe) Modellierung zuruck.
taste
[inferred IMPRESSION]
adj-phrase:
[inferred IMPRESSION]
to [PERCEIVER]
[example: "I knew that the dish would taste too salty to her."]
[actual entity PERCEIVED]
taste
adj-phrase:
[example: "The beer tasted sharp and frothy."]
[state-of-affairs IMPRESSION]
[state-of-affairs IMPRESSION]
to [PERCEIVER]
taste
adj-phrase:
[example:
Ollie's coffee tasted different to him."]
taste
adj-phrase:
[value-judgement IMPRESSION]
to [PERCEIVER]
[state-of-affairs IMPRESSION]
taste like
[value-judgement IMPRESSION]
to [PERCEIVER]
[example: "The rind tasted like a nutty lemon to her."]
[actual entity PERCEIVED]
taste of
[state-of-affairs IMPRESSION]
[example: "His toast in the morning tasted of bleach."]
Abbildung 5.12: Tabellarische U bersicht uber die Lesarten von EN [to] taste
Template
des
Zielwoerterbuchs
TFS-Hierarchie
des Lexikons
Flache
Rekodierung
der
TFSEintraege
Ad-hocAbfrage
TFS
TFSWoerterbucheintraege
TFS
Auffuellen
des
Zieltemplates
AttributWert-PaarListen
gawk
Gefuelltes
Zieltemplate
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
non-intenzionale]
non-intenzionale]
non-intenzionale]
non-intenzionale]
non-intenzionale]
non-intenzionale]
notice
notice
notice
notice
notice
notice
[sorgente/stimolo PERCEPITI]
che
[evento PERCEPITO]
frase incisa:
[evento PERCEPITO]
se/qu[evento PERCEPITO]
gerundio (-ing): [evento PERCEPITO]
Abbildung 5.14: Tabellarische U bersicht fur die Lesarten von EN [to] notice, mit italienischer Metasprache
ENGCG
@ SUBJ
@ OBJ
@ IOBJ
@ APP
@ PCOMPL-S
@ PCOMPL-O
@ P
@ O-ADVL
<
Beispiel
DELIS
The man ran.
subj, np
He tastes the soup.
comp, np
I gave the man a book.
comp, np
Helsinki, the capital of Finland, ... np
He is a teacher.
predi-s, np
I consider him a fool.
predi-o, np
He looks like a fool.
predi-s, pp
He ran two miles.
comp, advl
Rollen
..., exper, ...
..., pct, ...
n.r.
n.r.
..., judgemt., ...
..., judgemt., ...
..., judgemt., ...
n.r.
Abbildung 5.15: Abbildungen zwischen DELIS und ENGCG fur den Bereich der Subkategorisierung (Beispiele aus [Voutilainen et al. 1992])
CORPUSABFRAGEWERKZEUGE
ANNOTIERTES CORPUS
EXTRAHIERTE
CORPUSBELEGE
TFS
SEARCH
CONDITION
GUI
GENERATOR
AUSWAHL DER
LEXIKONMODELL
..
LEXIKONEINTRAGE
MR
MAPPING-REGELN
35258:
35394:
35457:
35646:
35679:
35741:
35949:
35975:
36025:
36035:
30578:
do organically-grown
anic or inorganic beans
t . you may notice that
re pregnant . ``because
han price . with all 26
Abbildung 5.17: Automatisch aus BNC extrahierte Belege fur EN [to] taste + ADJ
tgt-specificity
pct-distance
tgt-spec-plus
pct-distance-plus
tgt-spec-minus
descry-att-tgt
sight-att-tgt
pct-interest-minus
pct-features
notice-perc-thing
pct-interest
pct-interest-plus
spy-perc-thing
espy-perc-thing
pct-salience-minus
spot-perc-thing
pct-salience
pct-salience-plus
behold-perc-thing
witness-perc-thing
pct-distance-minus
Kapitel 6
Strukturierung kontrastiver
Beschreibungen
In den vorausgehenden Kapiteln wurde die Strukturierung einsprachiger Worterbucher
diskutiert. Im folgenden Kapitel geht es um zweisprachige Worterbucher und die ihnen
zugrundeliegenden kontrastiven Beschreibungen. Wir schlagen vor, monolinguale Worterbucher so zu verbinden, da kontrastive Beschreibungen mit moglichst geringem Mehraufwand gegenuber den monolingualen Beschreibungen erstellt werden konnen. Die Kombination wohlstrukturierter einsprachiger Worterbucher fuhrt dazu, da die zweisprachigen
Worterbucher nicht einfach nur Listen von A quivalentzuordnungen, sondern ihrerseits
strukturiert sind und auf einem klassikatorischen Ansatz beruhen. Hier wird eine Klassikation kontrastiver Beschreibungen vorgeschlagen, die { mindestens fur den Bereich
der lexikalischen U bersetzungsprobleme bei Verben { hinreichend allgemein ist, als sie fur
Transfer- und Interlingua-Ansatz, und fur verschiedene Grammatikformalismen gleichermaen benutzt werden kann. Anhand von Modellierungsbeispielen wird dies in Abschnitt
6.4.1 und 6.4.2 illustriert.
Diese kontrastive Klassikation lat sich auf verschiedene Weisen aufbauen und motivieren. In einem Ansatz, der jeweils einzelsprachliche Klassizierungen des Subkategorisierungsverhaltens von Verben hat, kann man die syntaktischen Klassen von Quell- und
Zielsprache kombinieren und die Resultate wiederum klassizieren. Dies wird anhand der
Subkategorisierungs-Templates von LFG gezeigt (vgl. Abschnitt 6.4.1); das Resultat der
Kombination quell- und zielsprachlicher Templates konnte man als \zweisprachige Templates" bezeichnen.
In einem interlingua-artigen U bersetzungssystem, wie es auf der Grundlage von HPSG
in [Heid/Kuhn 1994] vorgestellt wurde (vgl. auch die U berblicksdarstellung in Abschnitt
1.2.2 oben), werden keine expliziten zweisprachigen Worterbucheintrage abgelegt, sondern
das System kombiniert Informationen aus monolingualen Beschreibungen in geeigneter
Weise. Der Nutzen einer kontrastiven Klassikation fur ein solches System liegt in ihrer
Anwendbarkeit als Modellierungs-Richtlinie fur die einzelsprachlichen Beschreibungen.
Neben diesen Anwendungen, die relativ eng an bestehende Systeme angelehnt sind,
kann man sich fragen, welche Resultate fur zwei- und mehrsprachige Worterbucher sich
aus der Kombination von parallelen monolingualen Worterbucheintragen im Stil von DELIS (vgl. oben, Kapitel 5) ergeben. Mindestens fur ein System zur Unterstutzung der
lexikographischen Arbeit beim Worterbuchaufbau eignet sich das Ergebnis sehr gut. Beispiele hierfur werden in Abschnitt 6.5 diskutiert.
Die Kombination von monolingualen Teilbeschreibungen ist technisch machbar und
fuhrt zu sinnvollen Anwendungen. Man mu sich in diesem Zusammenhang aber fragen,
ob die vorgeschlagene Losung nur technische Relevanz hat, oder ob sie daruberhinaus
einen eigenen Generalisierungswert aufweist. Um diese Frage beantworten zu konnen ist
es sinnvoll, zunachst bestehende Klassikationen von U bersetzungsproblemen zu betrachten, und zu uberprufen, welcher Nutzen aus solchen Klassikationen uberhaupt gezogen
werden kann.
Die Behauptung in der vorliegenden Untersuchung ist, da eine Restrukturierung der
bestehenden kontrastiven Problemklassikationen zur Formulierung kontrastiver Klassen
fuhrt, die sich sehr gut fur die oben skizzierten Verfahren der Kombination monolingualer
Subkategorisierungsklassen und fur die Anwendung in MU -Systemen eignen.
In diesem Kapitel werden deswegen zunachst die wichtigsten Ansatze zur Klassikation kontrastiver Probleme beschrieben und verglichen; hieraus ergeben sich Vorschlage
fur eine Vereinfachung der bestehenden Klassikationen und ein Kriterieninventar fur unseren eigenen Klassikationsversuch: die Problemklassen werden nach zwei Dimensionen
eingeteilt: einerseits nach linguistischen Beschreibungsebenen, andererseits danach, ob das
Lemma selbst, das vom Lemma subkategorisierte Material oder beide von Unterschieden
zwischen Quell- und Zielsprache betroen sind.
Die Argumentation hier in diesem Einleitungsabschnitt unterscheidet sich nur in der
Anordnung der einzelnen Schritte von der Struktur des restlichen Kapitels: hier haben
wir behauptet, da es aus praktischer, bzw. \technischer" Sicht sinnvoll ist, modulare
einsprachige Worterbucher zu kombinieren und die Kombinationsresultate wiederum zu
klassizieren. Die Nutzlichkeit eines solchen Verfahrens soll anhand von LFG und Transfer,
HPSG und Interlingua, und anhand der DELIS-Worterbucher nachgewiesen werden. Wir
haben dann weiterhin behauptet, da die Analyse bestehender Klassikationen lexikalischer U bersetzungsprobleme zeigt, da die \kontrastiven Klassen" durchaus linguistischen
und lexikographischen Generalisierungswert haben und mit den Ergebnissen bisheriger
Forschungen in maschineller U bersetzung, kontrastiver Linguistik und U bersetzungswissenschaft gut zusammenpassen.
Aus praktischen Grunden wird die Phanomenklassikation in diesem Kapitel zuerst
beschrieben, bevor ihre Anwendungen gezeigt werden (sonst mute zuviel vorweggenommen werden): zunachst wird ein U berblick uber bisherige Versuche zur Klassikation
von U bersetzungsproblemen gegeben (vgl. Abschnitte 6.1 und 6.1.3) und die ihnen jeweils zugrundeliegenden Kriterien werden identiziert. Darauf aufbauend wird eine eigene phanomenologische Klassikation speziziert (vgl. Abschnitt 6.2) und anhand von
Beispielmaterial ausfuhrlich illustriert (vgl. Abschnitt 6.3).
In den Abschnitten 6.4 und 6.5 werden die Anwendungen fur die maschinelle U bersetzung und fur die computergestutzte zweisprachige Lexikographie diskutiert.
In der Literatur zur U bersetzungswissenschaft, zur kontrastiven Linguistik und zur maschinellen U bersetzung gibt es eine Reihe von Vorschlagen fur die Klassizierung von
U bersetzungsproblemen. U bersetzungswissenschaft, kontrastive Linguistik und Stilistik1
haben eine lange Tradition solcher Untersuchungen, die hier nachzuzeichnen den Rahmen dieses Kapitels sprengen wurde. Daneben haben zum Teil auch U bersetzer einfach
1 Vgl. z.B. [Malblanc 1968], [Vinay/Darbelnet 1958]: dort wurden einzelne Beispiele gesammelt und
\anekdotisch" beschrieben, aber selten in eine generellere Klassikation eingebracht. Die Tradition
solcher Untersuchungen geht aber (mindestens) auf Saussure zuruck. Da solche Arbeiten noch immer
praktische Relevanz haben, zeigt z.B. die Tatsache, da [Vinay/Darbelnet 1995] 1995 in Englischer
U bersetzung in der Benjamins Translation Library erschienen ist.
Phanomene notiert, die ihnen bei ihrer Arbeit aufgefallen sind2. Auch im Rahmen von
Forschungen zur valenztheoretischen Beschreibung von lexikalischen Einheiten wurden
umfangreiche U berlegungen zu kontrastiven Klassizierungen und ihrer Benutzung in Valenzlexika angestellt3.
In der Forschung zur maschinellen U bersetzung sind erst ungefahr seit 1988-1990 in
nennenswertem Umfang Arbeiten zur Klassizierung von U bersetzungsproblemen veroentlicht worden4 . Zum Teil (vgl. etwa die Arbeiten von [Bemova et al. 1988] oder Arbeiten im Rahmen von Eurotra) dienen die Beschreibungen vor allem dazu, zu zeigen,
welche Phanomene von einem bestimmten maschinellen U bersetzungssystem oder einer
Komponente davon behandelt werden konnen. Solche Beschreibungen zielen nicht darauf
ab, groe Fragmente abzudecken, sondern geben eher eine Au
istung der speziellen Problemfalle, die ein gegebenes System behandeln kann. In anderen Arbeiten, etwa von Dorr,
wird versucht, den Zusammenhang herauszustellen, welcher zwischen der Beschreibung
linguistischer Phanomene einerseits und der Modellierung dieser Phanomene in maschinellen U bersetzungssystemen andererseits besteht. Dorr weist mit Recht darauf hin, da
eine strukturierte Materialsammlung eine erste Grundlage fur die Strukturierung von Lexikon und Grammatik und fur ein wohlstrukturiertes System insgesamt ist.
Zweierlei Grunde sprechen dafur, lexikalische U bersetzungsprobleme zunachst auf der
Phanomenebene zu klassizieren:
die empirischen Klassizierungen konnen Ausgangspunkt f
ur Klassen und Genera
lisierungen in einem formal modellierten Ubersetzungsworterbuch sein;
eine empirische Klassikation erlaubt es, die relative Bedeutung der jeweils benutzten (computer)linguistischen Reprasentation fur die Behandlung von U bersetzungsproblemen in verschiedenen Systemen abzuschatzen. Manche Probleme in einem bestimmten System hangen mehr mit der dort benutzten Reprasentation zusammen,
als mit spezischen lexikalischen Problemen. Die empirische Klassikation kann insofern auch als Ausgangspunkt fur vergleichende Systemevaluation dienen.
Beide Aspekte werden im folgenden etwas detaillierter diskutiert.
Metal bezeichnet. Fontenelle et al. haben die Behandlung von \grooming verbs" im
franzosisch $ englischen Teilsystem von Metal untersucht und festgestellt, da Regula-
ritaten bei der U bersetzung von Verben wie FR se laver les mains, se raser, usw. in den
Worterbuchern von Metal nicht einheitlich beschrieben sind. Es gibt auch keine Moglichkeit, eine allgemeine Regel fur Verben einer bestimmten Klasse und fur deren U bersetzung
in die Zielsprache anzugeben. Zwar weisen die Verben sowohl in der Quellsprache als auch
in der Zielsprache ein homogenes syntaktisches Verhalten auf, so da sich die Formulierung einer klassenweisen U bersetzungsregel nahezu aufdrangt, jedoch sind im System
keine Modellierungshilfsmittel vorhanden, die die Formulierung einer solchen allgemeinen
Abbildung erlauben wurden, die spater bei der Denition einzelner Worterbucheintrage
wiederverwendet werden konnte5 .
Einzelne Forscher im Bereich der maschinellen U bersetzung sehen im Fehlen von Generalisierungsmoglichkeiten in kontrastiven Lexika durchaus ein Dezit, jedoch ist uns
bisher kein System bekannt, welches in groerem Umfang kontrastive lexikalische Klassizierungen verwenden wurde oder sonst einheitliche Losungen fur ganze Phanomenklassen
anbieten wurde. Das von Dorr entwickelte experimentelle U bersetzungssystem Unitran
setzt zwar auf einer kontrastiven Problemtypologie auf, deckt aber nur ein kleines Fragment ab. Die Frage der Lexikonstrukturierung gehort eher zu dem Bereich des \Linguistic
Engineering", der sich erst allmahlich konstituiert.
Dies setzt allerdings die Entwicklung paralleler monolingualer Testsuites und konstrastiver
Testmaterialien voraus. Testsuites sind Sammlungen von Beispielsatzen, mit denen das
Verhalten eines NLP-Systems uberpruft werden soll. In der Regel werden die Beispielsatze
einer Testsuite nach linguistischen Kriterien (beispielsweise syntaktische, morphosyntaktische Beschreibung) annotiert und klassiziert. In dem seit 1994 laufenden LRE-Projekt
TSNLP werden Richtlinien fur die Erstellung von Testsuites erarbeitet.
Wie bei Lexika, spielt auch bei Testsuites die Modularitat und die systematische Strukturierung eine groe Rolle. In [Hildenbrand/Heid 1991] wurde erstmals gezeigt, wie sich
monolinguale syntaktische Klassizierungen im Lexikon auch fur die Erstellung einer Testsuite ausnutzen lassen. Dort wurde anhand der im maschinellen U bersetzungssystem SYSTRAN vorliegenden Subkategorisierungsklassen fur Verben eine Testsuite aufgebaut,
die nach den Verben parameterisiert war, ansonsten aber nur einen kontrollierten, trivial
ubersetzbaren Minimalwortschatz enthielt. Die Beispielsatze wurden nach den Subkategorisierungsklassen des Systems angeordnet und im deutsch $ franzosischen Teil nach
kontrastiven Problemklassen eingeteilt. In [Hildenbrand/Heid 1991] wurde der Schwerpunkt auf die monolingualen Klassizierungen gelegt. In TSNLP wurde der Gedanke der
Modularisierung von Testsuites aus [Hildenbrand/Heid 1991] wieder aufgenommen und
als eines der wichtigen Designkriterien fur die in TSNLP zu entwerfenden Testsuites identiziert.
Durch den Einsatz von Testsuites ergibt sich eine Moglichkeit, die Evaluierung und
den Vergleich maschineller U bersetzungssysteme gegenuber anderen, fruheren Verfahren
etwas zu objektivieren, da die intuitive Abschatzung der U bersetzungsadaquatheit durch
gezielte monolinguale und kontrastive Untersuchungen anhand einer system-externen bzw.
-internen empirischen Klassikation ersetzt wird. Man kann also kontrastive Phanomenklassizierungen als Rohmaterial fur die Evaluierung und den Test von maschinellen U bersetzungssystemen verwenden. Die Arbeiten von [Hildenbrand/Heid 1991] haben gezeigt,
da Klassizierungen aus den Lexika des zu evaluierenden Systems einen geeigeten Ansatzpunkt hierfur darstellen.
Partielle vs. generelle Klassikationsansatze Die Arbeiten von Bemova und Luckhardt sind partiell, insofern sie entweder auf einem Corpus aufsetzen (im Falle von Luckhardt) oder nur ein relativ kleines Fragment betreen. [Bemova et al. 1988] beschreiben
lediglich Nominalphrasen und Verbalphrasen, die in ihrem tschechisch-russischen System
behandelt werden konnen. In ahnlicher Weise beschreiben [Sadler/Thompson 1991] nur
Falle von Head Switching, als Antwort auf die Diskussion dieser Phanomenklasse bei
[Kaplan et al. 1989]. Die Inputpapiere zu der Eurotra-Problemsammlung von Lindop/Tsujii sind ebenfalls partielle Klassikationen, in diesem Fall ausgerichtet auf die
Eurotra-Fragmente. Hingegen ist bei Barnett et al. und bei Dorr bewut der Versuch
unternommen worden, generellere (naturlich nicht erschopfende) Klassizierungen einzufuhren. Dasselbe gilt fur [Vandooren 1993] und [Heid 1993].
Systembezogenheit der Klassikationsansatze In gewisser Weise sind samtliche
Klassizierungen von U bersetzungsproblemen von den in einem System verwendeten Re-
prasentationen, oder aber von Reprasentationen abhangig, die in dem jeweils zugrunde
gelegten Beschreibungsmodell verwendet werden. Je nachdem, wie weitgehend abstrahiert
wird, und danach, wie die Interaktion zwischen den einzelnen linguistischen Beschreibungsebenen modelliert ist, ergeben sich mehr oder weniger Probleme bei der U bersetzung.
Allerdings wird nicht in allen Arbeiten fur Klassizierung von kontrastiven Problemen
deutlich gemacht, da diese Abhangigkeit zwangslaug besteht, oder die (z.T. eher idiosynkratischen) Eigenschaften eines bestimmten Reprasentationssystems werden unkommentiert als Gegebenheit angesehen; hier werden Probleme der Systemarchitektur oder
der einsprachigen Beschreibung in einem bestimmten System auf die Typologie der U bersetzungsprobleme projiziert, wodurch die vorgeschlagene Typologie sehr systemabhangig
wird, ohne diesen Sachverhalt \zuzugeben".
In [Thurmair 1990] wird unmittelbar klar gemacht, da seine Klassizierung sich an
den Operationen uber Baumstrukturen orientiert, die in der bei der Publikation des Artikels verwendeten Version von Metal eingesetzt werden. Zu diesen Operationen gehoren
das Einfugen oder Loschen von Baumen und das Versetzen von Teilstrukturen von einer
Stelle des Baums an eine andere Stelle. Thurmair nimmt bewut diese Operationen als
Grundlage fur seine Klassizierung von U bersetzungsproblemen und gibt jeweils Beispiele;
insofern ist Thurmairs Beschreibung fur die Arbeit innerhalb von Metal sehr nutzlich;
die Generalisierbarkeit seiner Ergebnisse und seiner Schlufolgerungen ist allerdings begrenzt, weil die Wahl von Baumstrukturen als Reprasentation einige Schwierigkeiten mit
sich bringt, die in dieser Form in anderen, z.B. unikations-basierten Systemen nicht auftreten; ein Teil der von Thurmair beschriebenen Probleme wird z.B. von einem auf LFG
oder HPSG beruhenden U bersetzungssystem trivialerweise bahandelt, ohne da zusatzliche Beschreibungsmittel notig waren.
Anders als bei Thurmair ist in Eurotra keine oder keine explizite Diskussion der
Systemabhangigkeit erfolgt. Die von [Lindop/Tsujii 1991] angegebenen Probleme sind jedoch zum Teil ebenfalls in anderen Systemen losbar, ohne da irgendwelche zusatzlichen
Beschreibungsmittel notwendig waren. In constraint-basierten Systemen konnen beispielsweise Unterschiede in der syntaktischen Funktion (z.B. DE der Chef beantwortet den Brief
vs. FR le patron repond a la lettre) trivialer Weise mit den Mitteln der Grammatik und
des Lexikons abgehandelt werden6 . Dasselbe gilt fur die thematischen Divergenzen (vgl.
unten; Eurotra-Beispiel: EN John likes Mary vs. FR Mary pla^t a John).
6 Andere Problemtypen (z.B. die Behandlung re
exiver Verben dort, wo sie durch nichtre
exive Verben
ubersetzt werden) sind spezisch auf die in Eurotra verwendeten Reprasentationen zuruckzufuhren.
Die Klassikation, die in Abschnitt 6.2, unten, vorgestellt wird, stutzt sich auf die Arbeiten
von Dorr, von Kameyama et al. und von Barnett et al. zuruck. In diesen Arbeiten wird eine
etwas generellere Klassikation auf phanomenologischer Grundlage versucht, mit dem Ziel
eine von den Gegebenheiten eines bestimmten maschinellen U bersetzungssystems relativ
unabhangige Basis fur kontrastive Klassizierungen zu schaen.
Im folgenden werden zunachst die von Dorr etablierten Typen von Divergenzen diskutiert. Darauf aufbauend wird der Unterschied zwischen Mismatches und Divergences
angesprochen, der von Kameyama und Barnett eingefuhrt wurde. Schlielich werden die
genannten Arbeiten aus der maschinellen U bersetzung mit Vorschlagen aus dem Worterbuchprojekt Multilex verglichen. Die genannten Arbeiten stellen damit den Ausgangspunkt fur die Problemklassikation dar, die im Abschnitt 6.2 eingefuhrt und diskutiert
wird.
In verschiedenen Arbeiten7 hat Bonnie Dorr eine Klassikation von U bersetzungsproblemen entwickelt, nach und nach verfeinert und als Grundlage ihres experimentellen
MU -Systems Unitran benutzt.
Man kann die in Tabelle 6.1 zusammengestellten sechs Klassen, die so aus [Dorr 1993b]
ubernommen sind, auf vier hauptsachliche Typen von Unterschieden zwischen Quellund Zielsprache reduzieren. Diese vier Typen sind unten mit einigen Beispielen von uns
aufgelistet8:
\Categorial Divergence":
{ EN: be hungry
FR: avoir faim
{ EN: to schedule sth.
FR: etablir l'horaire de qc.
\Con
ational Divergence", \Lexical Divergence":
{ EN: to sta (a school, an oce, )
FR: pourvoir (une ecole ) en personnel
{ EN: to mispronounce sth.
FR: prononcer qc. de travers
{ EN: to publicize sth.
FR: rendre qc. public
\Thematic Divergences":
{ EN: I miss my dictionary.
FR: Mon dictionnaire me manque.
:::
:::
Demotional
Promotional
Con ational
Lexical
Thematic
Anmerkungen
Kategoriewechsel
beim zu
ubersetzenden
Lexem
Head Switching
Head Switching
(umgekehrte
Sprachrichtung)
Inkorporation von
m
Argumenten vs.
ES: Yo le di pu~naladas a Juan
Realisierung
\I gave knife-wounds to John"
der Argumente
EN: John broke into the room
Zu ubersetzender Ausdruck:
m
\Einwort-Lexem" vs.
S: Juan forzo la entrada al cuarto \Mehrwortlexem"
\John forced entry to the room"
EN: I like Mary
Unterschiede im
m
Abbildungsverhaltnis
ES: Me gusta Maria
zwischen Argumenten
\Mary pleases me
und Komplementen
Die vier (statt sechs) Klassen konnen wie folgt deniert werden:
bersetzung eines Lexems einer Kate Die kategoriale Divergenz ist bei Dorr als die U
gorie durch ein Lexem einer anderen Kategorie deniert. Ein hauges Beispiel hierfur
ist die U bersetzung von Verben durch Funktionsverbgefuge (ein Verb der Quellsprache wird in diesem Fall durch ein (pradikatives) Nomen der Zielsprache ubersetzt).
Auch in Dorrs Beispiel (EN be hungry vs. FR avoir faim) wird ein Adjektiv durch
ein Funktionsverbgefuge (FR avoir faim) ubersetzt.
Die von Dorr so genannte \con ational divergence" entsteht in der Regel durch Unterschiede in der Verfugbarkeit spezischer im Gegensatz zu allgemeineren lexikalischen Einheiten. Die \con ation" ndet in der Sprache statt, die ein spezischeres
Lexem hat: Dort wird mit einem einzelnen Lexem diejenige Information eingefuhrt,
welche in der anderen Sprache durch ein Komplement oder einen Adjunkt eines
allgemeineren Lexems ausgedruckt wird. Zu den \con
ational divergences" rechnen
wir auch Falle der U bersetzung kausativer Verben durch Konstruktionen, bei denen
das kausative Element eigens als Verb realisiert wird und ein zweites, nicht kausatives Verb, beispielsweise als Innitivkomplement subkategorisiert ist (vgl. EN run
a program vs. FR faire tourner un programme 9). Der Divergenztyp, den Dorr als
\lexical divergence" auuhrt, kann als eine Variante der Klasse der \con
ational
divergences" beschrieben werden.
\Thematische Divergenzen" gehen auf Unterschiede zwischen den Sprachen hinsichtlich der Abbildung von Argumenten eines Verb-Pradikats auf die subkategorisierten
Komplemente des Verbs zuruck. Diese Falle betreen die Zusammenhange zwischen
Argumentstruktur und syntaktischer Beschreibung.
Die beiden Klassen der \demotional" und \promotional divergence" konnen zusammengefat werden, da sie, nur unterschieden nach der Sprachrichtung, denselben
Typ von Phanomen beschreiben. Die meisten Beispiele fur diese Problemklasse sind
Phanomene des \Head Switching". Head Switching-Falle entstehen dadurch, da
sich Sprachen hinsichtlich der Realisierung von semantischen Operatoren unterscheiden. In einer Sprache wird ein Operator als Satzadverb realisiert, in einer anderen
u.U. als Pradikat auf der obersten Ebene des Satzes. Verbale Pradikate sind sowohl semantische als auch syntaktische Kopfe (z.B. im Sinne von HPSG), wahrend
Adverbien zwar semantisch als Kopfe interpretiert werden, jedoch syntaktisch als
Modikatoren beschrieben werden. Bei der U bersetzung ergibt sich demnach das
Problem, da syntaktische und semantische Kopfe in der einen Sprache \parallel"
in der anderen \orthogonal" verteilt sind.
In einer fruheren Arbeit hatte Dorr neben den oben in der Tabelle angegebenen Divergenztypen noch eine weitere Klasse vorgeschlagen: \syntaktische Divergenzen". Bei diesen
handelt es sich um Falle, in denen unterschiedliche grammatische Funktionen oder unterschiedliche Komplementrealisierungen bei quell- und zielsprachlichen Verben auftreten.
Dieser Fall stellt eine sehr groe Gruppe von U bersetzungsproblemen dar, und nicht alle
sind mit trivialen Mitteln zu behandeln. Insbesondere ergeben sich Probleme dort, wo
satzformige Erganzungen der Quellsprache nicht satzformig in der Zielsprache wiedergegeben werden konnen, oder wo Innitive durch nite satzformige Erganzungen ubersetzt
werden mussen. Detaillierte Beispiele hierfur werden unten in Abschnitt 6.3.1.2 gegeben.
Dorr's Beispiele sind allerdings weitgehend trivial (direktes Objekt wird durch Prapositionalobjekt ubersetzt usw.)10 .
Die Problemklassen von Dorr beschreiben ein relativ breites Teilfragment des U bersetzungslexikons, lassen jedoch wichtige (und in der kontrastiven Linguistik seit langer Zeit
9 Das Beispiel wurde von [Thurmair 1990] adaptiert.
10 Dorr hat diese Falle vermutlich deswegen in spateren Versionen ihrer Arbeiten nicht mehr aufgefuhrt,
weil sie keine lexikalisch-semantischen U bersetzungsprobleme darstellen, sondern rein syntaktisch
bedingte.
in der Quellsprache gemacht werden, in der Zielsprache nicht vorhanden sind oder umgekehrt. Diese Unterscheidungen konnen verschiedene linguistische Beschreibungsebenen
und Beschreibungsdimensionen betreen.
Der Unterschied, den Kameyama et al. zwischen Mismatches und Divergences sehen, betrit die Moglichkeiten in der Zielsprache, die fehlenden Unterscheidungen, die
die Quellsprache einfuhrt, zu egalisieren. Wenn es moglich ist, innerhalb eines Satzes,
11 Ein weiteres Beispiel fur grammatisch bedingte Mismatches ist das Vorhandensein eines Duals (neben
Singular und Plural) in manchen slawischen Sprachen, wie z.B. Slowenisch; slowenische Personalpronomina haben Formen fur \wir zwei", \ihr zwei", \(diese) zwei", die im Deutschen keine direkte
Entsprechung haben.
Weitere Beispiele fur Mismatches Viele Mismatches ergeben sich durch kulturspezi-
sche Unterschiede. [Barnett et al. 1994] geben als Beispiel die U bersetzung von japanisch
yasai an: yasai entspricht ungefahr DE Gemuse. Aber yasai denotiert nur Dinge, deren
Farbe in der Natur grun ist; Minze ist beispielsweise in yasai eingeschlossen, Tomaten
dagegen nicht. Zu unserer Vorstellung von Gemuse gehoren Tomaten, Karotten, Sellerie
usw., die nicht grun sind. Umgekehrt gehort Minze nicht unbedingt dazu13 .
12 Hiermit werden umstandliche Paraphrasen oder \epische Erlauterungen" ausgeschlossen, wie sie im
Falle von kulturspezischen Mismatches sehr oft in Worterbuchern gegeben werden.
13 Kulturspezische U bersetzungsprobleme sind wiederum in der U bersetzungstheorie, in der Lexikographie und in der lexikalischen Semantik (z.B. [Lyons 1980]: 426, nach [Durrell 1988]:230) vielfach
In der Lexikographie hat z.B. Kromann die durch Kulturspezika bedingten U bersetzungsprobleme als besonders drastischen Beispielfall fur die Aufgabe des zweisprachigen
Worterbuchs herangezogen, A quivalentbeschreibungen dort besonders explizit zu gestalten, wo die Zielsprache Unterscheidungen macht, die in der Quellsprache unbekannt sind
(vgl. die Diskussion uber DK Lektor vs. DE Lektor in [Kromann 1989]).
A hnliche Belege, die nicht notwendig auf Kulturspezika beruhen, sind in der strukturellen Semantik verschiedendlich gegeben worden. Ein Beispiel ist DE Wald/Holz vs.
FR bois/for^et. [Durrell 1988]: 234 f. beschreibt die Zusammenhange von EN earth, soil,
oor, ground vs. DE Erde, Boden, Grund:
\As a typical instance of such a messy set we may conside the lexemes earth,
soil,
oor and ground in English and their usual equivalents in German, i.e.
Erde, Boden und Grund. The complex nature of the interlingual incongruence
between these may be seen initially by looking at common translation equival(6) Erde = 1) soil
er ruht in fremder Erde, trockene Erde
2) earth die Erde wird im Fruhjahr warm
3) ground die Saat in die Erde bringen
Boden = 1) soil
fruchtbarer Boden, den Boden bearbeiten
ents:
2) ground er liegt auf dem Boden
3)
oor
der Boden des Zimmers
(also = loft, bottom, etc.)
Grund = 1) ground bis auf den Grund zerstort
(also = bottom, foundation, etc.)
Schematically, we thus may observe the following relationships of equivalence:
(7)
earth
Erde
soil
floor
Boden
ground
Grund
Einteilung von Mismatches Man kann eine erste, sehr grobe Einteilung von Mismat-
ches danach unternehmen, welche Art von Unterschied in der Informationsmenge zwischen Quell- und Zielsprache vorliegt. Wird durch die U bersetzung erzwungen, da der
zielsprachliche Satz mehr Information enthalt als der quellsprachliche Satz, d.h. mu an einer Stelle ein spezischeres Lexem der Zielsprache gewahlt werden, als in der Quellsprache
vorliegt, so kann man von \hyponymischer" U bersetzung oder \interlingualen Hyponymen" sprechen. Diese Sprechweise beruht auf der Idee einer fur beide Sprachen gultigen
diskutiert und anhand von einzelnen Beispielen diskutiert worden. Vgl. auch Diskussionen uber die
\Unubersetzbarkeit" der Sprachen. Ein neues Beispiel fur diese Art Diskussion ist Radtkes Erklarung
fur die Probleme bei der U bersetzung von DE Buttermilch ins Italienische (die Substanz ist im deutschen Sprachraum als Getrank fur Ernahrungsbewute anzutreen, wahrend sie in Italien als Abfallprodukt gilt und allenfalls als zur Schweineaufzucht tauglich angesehen wird). In italienischen
Dialekten gibt es Ausdrucke fur die Sache; die in den deutsch-italienischen Worterbuchern vorgeschlagenen U bersetzungen sind aber den italienischen Muttersprachlern weithin unbekannt. [Radtke
1994]: 92: \Die Tucke der U bersetzung liegt also nicht in der Bezeichnungsubereinstimmung, sondern
vielmehr in der unterschiedlichen Wertehierarchie innerhalb der Sachkultur".
...
...
Genus proximum
Differentia
specifica
...
...
Abbildung 6.2: \Con
ational/lexical divergence" und \Upward Mismatch" in einer \interlingualen" Konzepthierarchie (gestrichelte Pfeile: Abbildungen von \Konzepten" auf
Lexeme)
Die beiden obigen Falle sind noch relativ klar identizierbar. In anderen Fallen, wie etwa
bei den von Durrell zitierten englisch/deutschen U bersetzungsaquivalenten erfolgt sowohl
in Teilen ein ungewollter Informationszuwachs als auch in Teilen ein Informationsverlust.
Die Denotatbereiche von quell- und zielsprachlichen Lexemen uberlappen. Solche Falle
nennen Barnett et al. \sideward-move" (Beispiel yasai).
6.1.3.3 Zusammenfassung
Die verschiedenen Versuche zur Klassikation von U bersetzungsproblemen, die in der Lexikographie, der lexikalischen Semantik, der U bersetzungstheorie und der Forschung zur
maschinellen U bersetzung unternommen worden sind, benutzen weitgehend unterschiedliche Terminologie und scheinen nicht in allen Fallen uber die Arbeiten in den jeweils
anderen Bereichen informiert zu sein. Dennoch lat sich aus den verschiedenen Ansatzen
eine gemeinsame Grobklassikation herausarbeiten, die trotz unterschiedlicher Zielsetzungen und unterschiedlicher Forschungszusammenhange als Grundlage fur eine detailliertere
Klassikation von U bersetzungsproblemen genommen werden kann.
In Tabelle 6.2 sind die Ansatze von Dorr und Barnett einander gegenubergestellt und
mit Vorschlagen aus dem Lexikonprojekt Multilex (vgl. [Modiano 1994]) verglichen
worden. Die Klassikation von Multilex umfat den breitesten Bereich14 .
Multilex
vollstandige A quivalenz
A quivalenz mit
Transformationen
\variant translation"
Partielle A quivalenz
{ hyperonymische U bersetzung
{ hyponymische U bersetzung
{ \related translation"
[Barnett et al.]
[Dorr]
Divergenz
Divergenz
(verschiedene Subtypen)
Mismatch
{ upward move
{ downward move
{ sideward move
(overlap)
14 Was bei Multilex \variant translation" heit, entsteht dadurch, da Quell- und Zielsprache zwar
denotationelle A quivalente aufweisen, jedoch diese A quivalente auf der Ebene der Konnotation, bzw.
der Stil-Merkmale Unterschiede aufweisen.
SEM
SYN
CAT
mit erzwungenem
Informationszuwachs
"downward"
betrifft
syntagmatische
Umgebung
betrifft Lexem und
syntagmatische
Umgebung
betrifft Lexem
Bei Divergences, eine Unterscheidung nach dem linguistischen Objekt, welches sich
in Quell- und Zielsprache unterscheidet:
(1) das zu ubersetzende Lexem alleine, (2) das Lexem und { falls es ein Pradikat
ist { die davon subkategorisierten Erganzungen und ggf. Adjunkte, oder (3) nur die
syntagmatische Umgebung des zu ubersetzenden Lexems.
Im einzelnen werden die folgenden Subtypen unterschieden:
Eine Unterscheidung zwischen Mismatches und Divergences, nach den bei Barnett
et al., Kameyama et al. und Dorr dargestellten Kriterien.
"upward"
Mismatches
..
mit "Uberlappung"
"sideward"
Beschreibungsebenen ...
Subklassifizierung
nach linguistischen
Divergences
..
Ubersetzungsprobleme
Nach der Analyse der kontrastiven Klassikationen aus der Literatur zur maschinellen
U bersetzung wird im Folgenden eine eigene Klassikation vorgeschlagen, auf der die kontrastiven Klassen beruhen, die in den Abschnitten 6.3 und 6.4 beschrieben werden.
Die Kriterien dieser Klassikation sind zum Teil den in Abschnitt 6.1.3 beschriebenen Kriterienkatalogen entnommen oder an sie angelehnt. Dies gilt fur die Einteilung in
Mismatches und Divergences, sowie dafur, da auch hier die Tatsache akzeptiert werden
mu, da zwischen Mismatches und Divergences nicht immer ganz strikt unterschieden
werden kann, sondern sich
ieende U bergange ergeben.
Ansonsten wird eine Vereinfachung des Kriterienkatalogs angestrebt; die hier benutzte
Klassikation deckt ohne Einfuhrung von neuen Parametern gegenuber der Beschreibung
in Kapitel 4 dieselben Phanomene ab, wie die publizierten Klassikationen. Abbildung
6.3 stellt diese kontrastive Phanomenklassikation schematisch dar.
mit Informationsverlust
{ Das Satzpradikat (z.B. das Verb) selbst weist in Quell- und Zielsprache nicht-
15 Oft hat ein Kategoriewechsel beim Eintragswort weitreichende Folgen fur die syntaktische Umgebung
des Eintragsworts im Satz. Dies gilt etwa bei U bersetzungen von Verben durch Adjektive oder durch
Substantive. Wird ein Verb durch ein Adjektiv ubersetzt, so mu ein geeignetes Kopulaverb eingesetzt
werden. Wird ein Verb durch ein Funktionsverbgefuge (Nomen-Verb-Kollokation) ubersetzt, so genugt
es nicht, nur fur das Verb die korrekte Nominalisierung auszuwahlen, sondern das Hauptproblem bei
der Auswahl des U bersetzungsaquivalents liegt in der Auswahl des richtigen Funktionsverbs. Ebenso
kommt es vor, da die Quellsprache ein Verb im Aktiv hat, die Zielsprache aber ein Verb im Passiv
verlangt. Mit diesem Wechsel geht auch ein Wechsel der Subkategorisierungseigenschaften der Verben
einher (\thematische Divergenz"). Details und weitere Beispiele hierzu werden unten diskutiert.
16 Ein typisches Beispiel hierfur sind Verben der A nderung von Mengen; mit FR augmenter, monter, etc. konnen keine strukturisomorphen Konstruktionen zur DE der Umsatz ist um 10%
auf 125 Millionen Mark gestiegen konstruiert werden.
reprasentiert sind, lat sich fur einzelne Subklassen zeigen, welche Art von Information vorhanden sein mu, damit die jeweiligen Probleme behandelt werden konnen,
sowie welche Teilbeschreibungen uberhaupt betroen sind17 .
Die hier angegebenen Kriterien konnen hierarchisch angeordnet werden: Zunachst wird
der Problembereich in Mismatches vs. Divergences eingeteilt, dann werden Mismatches,
soweit dies moglich ist, in Falle mit Informationsverlust, unerwunschtem Informationszuwachs oder U berlappung eingeteilt. Sinngema werden Divergenzen danach eingeteilt,
ob sie das Lexem selbst, oder von ihm subkategorisiertes oder nicht subkategorisiertes
Material (Adjunkte) betreen, oder das Lexem und seine syntagmatische Umgebung. Divergenzen werden weiterhin nach den betroenen Beschreibungsebenen subklassiziert.
Die beiden Kriterien zur Subklassizierung von Divergenzen sind orthogonal und werden
kreuzklassiziert. Dies wird in Abbildung 6.3 verdeutlicht18 .
17 Einige Subtypen der oben eingefuhrten Divergenztypen lassen sich auf der syntaktischen Ebene beschreiben (z.B. Unterschiede im Subkategorisierungsverhalten), andere betreen die Zusammenhange
zwischen den Argumenten eines verbalen Pradikats und der Realisierung dieser Argumente durch vom
Verb subkategorisierte grammatische Funktionen (\Linking", wie im Falle der thematic divergence),
wieder andere Subtypen betreen morphosyntaktische, pragmatische oder durch diasystematische
Markierung beschreibbare Eigenschaften.
18 Man kann prinzipiell auch fur Mismatches eine Subklassikation nach Beschreibungsebenen annehmen. Allerdings fallt es sehr schwer, fur samtliche aus der Kombination hervorgehenden Klassen Belege
zu nden.
Die haugste Klasse von Divergenzen, wahrscheinlich uberhaupt der haugste Fall von
A quivalenzbeziehung, liegt dort vor, wo Quell- und Zielsprache sich hinsichtlich der Subkategorisierungseigenschaften von Verben unterscheiden19 .
Typische Beispiele fur diesen Trivialfall der syntaktischen Divergenz sind in Tabelle
6.3 zusammengestellt; die Beispielsammlung ist in keiner Weise vollstandig, sondern dient
nur zur Illustration: Franzosische transitive Verben mit deutschen A quivalenten, die ein
indirektes bzw. ein Prapositionalobjekt subkategorisieren (Tabelle 6.3); umgekehrt sind
in Tabelle 6.4 Falle zusammengestellt, wo deutsche transitive Verben durch franzosische
Verben mit Prapositionalobjekt ubersetzt werden.
Diese Falle mogen zunachst trivial erscheinen; sie sind jedoch dort problematisch, wo
die Subkategorisierungseigenschaften der Verben der einen Sprache eine Satzkonstruktion erlauben, die in der anderen Sprache nicht beibehalten werden kann. Passivierung
ist ein typischer Beispielfall hierfur. Nimmt man an, da die transitiven Verben jeweils
in der Quellsprache auftreten, und da sie in Passivsatzen erscheinen, so stellt sich das
Problem, da entweder bei der U bersetzung des Passivsatzes ein anderes A quivalent ausgewahlt werden mu, oder da die Konstruktion des zielsprachlichen Satzes gegenuber
der quellsprachlichen Passivkonstruktion modiziert werden mu20 .
19 Diese Falle werden von formalen Grammatiken problemlos behandelt, solange die Unterschiede sich
auf die Ebene der grammatischen Funktionen beziehen, und keine allzu umfangreichen phrasenstrukturellen Unterschiede auftreten; vgl. aber Abschnitt 6.3.1.2.
20 Dort, wo neben den Vollverben auch Funktionsverbgefuge als A quivalentkandidaten zur Verfugung
Franzosisch
(Subj Obj)
applaudir
approuver
assister
aider
braver, deer
contrecarrer
contredire
(en)croire
presider
Deutsch
(Subj Obj2)
applaudieren
zustimmen
helfen
helfen
trotzen
entgegenarbeiten
widersprechen
glauben
vorsitzen
Franzosisch Deutsch
(Subj Obj) (Subj P-Obj)
cautionner burgen
(Subj fur-Obj)
voter
abstimmen
(Subj uber-Obj)
bouder
schmollen
(Subj mit-Obj)
Tabelle 6.3: Syntaktische Divergenz: transitive Verben (FR) vs. Verben mit P-OBJ (DE)
Deutsch (Subj Obj)
beichten
genieen
wechseln
vorwegnehmen
befehligen
beantworten
erreichen
Tabelle 6.4: Syntaktische Divergenz: transitive Verben (DE) vs. Verben mit P-OBJ (FR)
Ein Beispiel: die U bersetzung eines Satzes wie 4 ins Deutsche ist nicht gleichzeitig strukturisomorph und unter Verwendung passender Kollokationen moglich.
(4) FR un probleme rencontre [ ] a retarde le projet
Der franzosischen Kollokation rencontrer un probleme entsprechen die in 5a und 5b angegebenen deutschen Kollokationen.
(5) a. auf ein Problem treen,
b. auf ein Problem stoen,
c. *ein Problem (an-)treen
Es gibt im Deutschen keine Kollokation (vgl. 5c), die mit FR rencontrer un probleme
aquivalent ware und gleichzeitig ein transitives Verb enthalten wurde, d.h. passivierbar
ware. Als U bersetzung von 4 mu zum Beispiel 6 gewahlt werden:
(6) DEein Problem, auf das [man] traf, hat das Projekt verzogert
:::
:::
stehen, kann mitunter der \Strukturumbau" vermieden werden, weil ein zielsprachliches Funktionsverbgefuge verwendet werden kann, welches dieselben Subkategorisierungseigenschaften hat, wie das
quellsprachliche Verb.
Die Grammatik der Zielsprache (in diesem Fall Deutsch) enthalt alternative Regeln fur die
U bersetzung von Partizipien durch Relativsatze. Sie mu ebenfalls Regeln dafur enthalten,
unter welchen Bedingungen und in welcher Form unpersonliche Subjekte (man) eingefugt
werden konnen.
Im Worterbuch mu die syntaktische Information und die Kollokationsinformation
vorhanden sein, die die A quivalentwahl steuert.
In [Krenn 1995]:236f. werden Falle von \a.c.i. im Relativsatz" (vgl. 12 und 13) diskutiert,
die durchgangig zu der hier diskutierten Problemklasse gehoren:
(12) FR donner pour vrai ce qu'on sait ^etre faux
DE fur wahr ausgeben, wovon man wei, da es falsch ist.
(13) FR
DE
:::
:::
In [Krenn 1995] wird davon ausgegangen, da die Verben savoir, croire, considerer, imaginer, soutenir die in 12 und 13 illustrierte Konstruktion erlauben, aber nur eingebettet
in einem Relativsatz mit que/qu' als direktes Objekt24 .
Satzformige Prapositionalobjekte: Fur die franzosisch/deutsche U bersetzung sind auch
diejenigen Falle interessant, wo der Sachverhalts-Komplementsatz (auch im Deutschen)
die grammatische Funktion eines Prapositionalobjekts hat. Im Franzosischen sind in solchen Fallen Innitivkonstruktionen mit den Prapositionen a und de moglich, wahrend im
Deutschen bei bestimmten Verben nite Komplementsatze mit obligatorischem Korrelat
gesetzt werden mussen. Typische Beispiele sind die U bersetzungen von FR attraper (vgl.
14), benir (vgl. 15), blaguer (vgl. 16), complimenter (vgl. 17) und justier (vgl. 18).
(14) FR On a attrape un gendarme a voler des poires
DE Man hat einen Polizisten dabei erwischt, wie er Birnen stahl25
(15) FR Je te benis d'y avoir pense
DE Ich preise/lobe dich dafur, da Du daran gedacht hast
(16) FR Tout le monde le blaguerait de rester seul
DE Jeder wurde ihn damit aufziehen/necken, da er alleine bleibt
(17) FR On a complimente le directeur d'avoir reussi un tel exploit
DE Man hat dem Direktor dazu gratuliert/dafur Komplimente gemacht (FVG!), da
er eine solche Leistung vollbracht hatte
(18) FR Il n'a pas pu justier avoir paye cette facture
DE Er konnte nicht rechtfertigen, da/warum er diese Rechnung bezahlt hatte
Im Fall von FR condamner (vgl. 19) ist auch ein innitivische U bersetzung im Deutschen26
denkbar. Bei den anderen oben genannten Beispielen ist dagegen eine Innitivkonstruktion
nicht moglich.
23 Vgl. [Krenn 1995]:237, mit DE U bersetzung von uns.
24 Vgl. die Einschrankungen im Fall von 11, oben.
25 Vgl. [Busse/Dubost 1983], s.v. attraper.
26 Ich konnte ihn kaum dafur verdammen, so gehandelt zu haben.
Falle von thematischer Divergenz (Terminus von Dorr) sind in der Literatur zur maschinellen U bersetzung viel diskutiert worden. Das oben bereits angesprochene Beispiel, \EN
like $ FR plaire", wurde in Eurotra im Detail diskutiert. A hnliche \Beruhmtheit"
haben die in 24 und 25 nochmals mit Beispielen dargestellten Falle von \EN lack, miss,
FR manquer, DE fehlen".
(24) ENI miss my dictionary
FR Mon dictionnaire me manque
(25) ENThis girl lacks a good dictionary
DE Diesem Madchen fehlt ein gutes Worterbuch
Bei Fallen der thematischen Divergenz ist nicht nur das syntaktsiche Subkategorisierungsverhalten von Quell- und Zielsprache unterschiedlich, sondern der eigentliche Unterschied
27 Zwar kann dies weitgehend mechanisch, aus der morphosyntaktischen Analyse der Quellsprache abgeleitet werden, jedoch stellt dieser Fall insofern eine zusatzliche U bersetzungsschwierigkeit dar. Dieselben U bersetzungsregeln fur die Beschreibung von Zusammenhangen zwischen niten und inniten
Konstruktionen mussen auch bei der U bersetzung bestimmter Arten von Adjunkten angewendet werden. Analog zu der Situation bei Verbkomplementen gibt auch bei Adjunktsatzen oft genug eine
Alternationsmoglichkeit zwischen niten und inniten Konstruktionen, beispielsweise im Falle von
DE ohne da (vgl. 20), oder FR pour que, sans que (vgl. 21, 22):
(20) a. Er unterschrieb den Brief, ohne da er ihn nochmals las.
b. Er unterschrieb den Brief, ohne ihn nochmals zu lesen.
(21) a. Pour que vous puissiez lancer le programme, vous devez choisir l'option \A".
b. Pour lancer le programme, choisissez l'option \A".
(22) a. Elle est partie sans qu'elle ait laisse une trace.
b. Elle est partie sans laisser une/de trace.
Problematisch wird die U bersetzung dort, wo in der einen Sprache eine Alternation zwischen da-Satz
und Innitiv moglich ist, in der anderen nur ein da-Satz. Solche Falle liegen zwischen Franzosisch
und Deutsch bei FR de sorte a, de facon a, de maniere a vor, die alle lediglich mit DE soda ubersetzt
werden konnen, oder bei der U bersetzung von FR avant de durch DE bevor (vgl. 23):
(23) a. Je rends visite a mon oncle avant de partir pour les Etats-Unis.
b. Ich besuche meinen Onkel, bevor ich nach Amerika gehe.
Die kontrollierten Adjunkte beziehen sich grundsatzlich auf das Subjekt, soda bei der U bersetzung
zur Not aus der morphosyntaktischen Information ein Subjektspronomen generiert werden kann.
zwischen den beiden Sprachen liegt in der Abbildung der Verbargumente auf subkategorisierte Komplemente. Auf der Ebene der Pradikat-Argument-Struktur konnen Quell- und
Zielsprache strukturisomorph beschrieben werden. Unterschiede bestehen nur darin, wie
die einzelnen Argumente auf das Subjekt bzw. auf die Komplente von Quell- und Zielsprache abgebildet werden. Anhand des Paars \miss/manquer" ist dieser Sachverhalt in
Abbildung 6.4 dargestellt. Dabei sind die Komplemente jeweils durch gleichartige Symbole
dargestellt.
..
QS
Prad-Arg.Struktur
ZS
11111111111
00000000000
00000000000
11111111111
00000000000
11111111111
1111111111
0000000000
ARG-1
0000000000
1111111111
1111111111
0000000000
111111
000000
000000
111111
000000
111111
000000
111111
000000
111111
000000
111111
111111
000000
000000
111111
000000
111111
000000
111111
000000
111111
000000
111111
11111
00000
00000
11111
00000
11111
ARG-2
00000
11111
00000
11111
00000
11111
11111111111
00000000000
00000000000
11111111111
00000000000
11111111111
miss
my dictionary.
Mon dictionnaire
me
manque.
Abbildung 6.4: Thematische Divergenz: schematische Darstellung der Syntax-Semantik-Abbildung (vgl. Beispiel 24)
U berall dort wo Verben in einer Sprache syntaktische Konstruktionsalternativen (\Alternationen" im Sinne von [Levin 1993]) zulassen, besteht die Moglichkeit, da bei der
U bersetzung thematische Divergenz-Probleme auftreten. Die Alternationen selbst konnen
im ubrigen als intralinguale Beispiele fur dasselbe Phanomen interpretiert werden.
Ein Beispiel aus der franzosisch/deutschen U bersetzung sind Verben zum Ausdruck
einer groen Quantitat von Objekten an einem bestimmten Ort, wie FR abonder, fourmiller, pulluler, grouiller: Beispiele sind in 37 und 38 angegeben.
(37) FR Les pissenlit abondent ici.
DE Es wimmelt hier von Lowenzahn.
(38) FR Mon jardin fourmille/pullule/grouille de pissenlits.
DE In meinem Garten wimmelt es von Lowenzahn.
In [Levin 1993] wird beobachtet, da syntaktische Alternationen oft einhergehen mit semantischen Klassizierungen des Verbwortschatzes. Typische Beispiele sind die Alternationen, die man bei den \spray-load-Verben" beobachtet29 . Wo die Zugehorigkeit zu einer
Alternationsklasse in einer Sprache zusammenfallt mit der Zugehorigkeit zu einer semantischen Klasse, kann man die zusatzlich beobachtete thematische Divergenz bei der U bersetzung in eine andere Sprache naturlich wiederum mit der betreenden semantischen
Klasse in Verbindung bringen.
Alle Falle von thematischer Divergenz konnen relativ problemlos in einem auf grammatischen Funktionen aufsetzenden U bersetzungsansatz behandelt werden, wie er etwa in einem LFG-basierten System realisiert werden kann. Dort mu nur eine Aussage daruber gemacht werden, welche vom quellsprachlichen Verb subkategorisierte grammatische Funktion durch welche subkategorisierte grammatische Funktion der Zielsprache ubersetzt wird.
Solche Statements mussen in einem LFG-basierten Ansatz ohnedies fur jedes A quivalentpaar gemacht werden. Das bedeutet, da die thematische Divergenz vollstandig analog zu
den ublichen Abbildungen, ohne irgendwelche zusatzlichen Beschreibungsmittel, behandelt werden kann.
Ein Grammatik- und Lexikonmodell, welches neben der Beschreibung der Subkategorisierung auf der Ebene grammatischer Funktionen auch die Pradikat-Argument-Struktur
des Verbs auf der semantischen Ebene explizit notiert, mu die thematische Divergenz
als einen Fall unterschiedlicher Linking Rules oder von Unterschieden zwischen den Sprachen auf der Ebene des Lexical Mapping beschreiben. Solche Beschreibungen sind z.B. in
HPSG, sowieso notig; die thematische Divergenz kann also auch dort ohne zusatzlichen
Aufwand beschrieben werden. Dasselbe gilt fur Frame Semantics und die Beschreibungen,
die oben in Kapitel 4 diskutiert werden.
..
gehort
die IT.
These
IT
include
belongs
IT.
to these.
Abbildung 6.5: Thema/Rhema-Gliederung und thematische Divergenz, anhand eines Beispiels von [Hauenschild 1987]
An dieser Stelle kann auf die Zusammenhange zwischen thematischer Divergenz und
30 Die Keile, die unter die Satze in Abbildung 6.5 gelegt worden sind, sollen die Informationsstruktur
symbolisieren: das breite Ende der Keile steht fur die bekannte Information (Thema), das spitze Ende
fur die neu eingefuhrte Information (Rhema). Diese Darstellung weicht bewut von der Graphik bei
[Koch 1994a] ab.
Thema/Rhema-Gliederung nur hingewiesen werden. Forschungen uber die Integration solcher Parameter in MU -Systeme und ihre Worterbucher laufen erst an (vgl. neue Arbeiten
von Engdahl und Vallduvi)31.
Oben in Abschnitt 6.1.3.1 wurde bereits darauf hingewiesen, da die von Dorr als \con
ational divergence" bzw. als \lexical divergence" bezeichneteten Unterschiede zwischen
Quell- und Zielsprache eigentlich ein und dasselbe Phanomen sind. In beiden Fallen geht
es darum, da in der einen Sprache ein spezisches Lexem vorliegt, wo in der anderen
Sprache nur ein allgemeineres Lexem vorhanden ist, welches entweder durch Lexikalisierung eines Arguments32 oder durch Lexikalisierung eines Adjunkts spezialisiert werden
mu, wenn der spezische Ausdruck der Quellsprache ubersetzt werden soll.
Der einzige Unterschied zu \upward mismatches" besteht darin, da es in der Zielsprache relativ einfache lexikalische und/oder syntaktische Mittel gibt, mit denen der
spezialisierte quellsprachliche Ausdruck wiedergegeben werden kann, wahrend im Falle
von \upward mismatches" eben solche Mittel nicht zur Verfugung stehen. Der Unterschied
ist graduell (vgl. die Diskussion in Abschnitt 6.1.3.2, oben, Seite 189 und Abbildung 6.2,
Seite 192).
Wird zum Ausdruck der \dierentia specica" ein Adjunkt verwendet33 , so ist meist
das syntaktische Verhalten (Subkategorisierung) von quell- und zielsprachlichem Lexem
31 In einem constraint-basierten System mute die Ebene der Informationsstruktur als eine zusatzliche
Beschreibungsebene eingefuhrt werden, die zum Teil regelhaft mit der Beschreibung der grammatischen Funktionen interagiert. Sie bildet dann ein zusatzliches Constraint, insofern fur wohlgeformte
U bersetzungen angenommen wird, da zwischen Quell- und Zielsprache eine moglichst analoge Informationsverteilung angestrebt wird. Pragmatische Constraints dieser Art scheinen Prioritat gegenuber
den syntaktischen Constraints zu haben.
32 In den Beispielen 41 bis 45 sind einige franzosisch/deutsche und deutsch/englische Beispiele fur Falle
angegeben, bei denen Verbargumente im Sinne einer \lexical divergence" zum Ausdruck der \dierentia specica" verwendet werden.
(41) FR concourir (SUBJ)
DE an einem Wettbewerb teilnehmen
(42) DE abblenden (SUBJ: z.B. das Auto)
EN dim the/its headlights(vgl. [Thurmair 1990])
(43) FR debander qn. (SUBJ OBJ)
DE jmdm. den Verband abnehmen (SUBJ OBJ2)
(44) FR degon
er le pneu (SUBJ OBJ)
DE die Luft aus dem Reifen herauslassen (SUBJ aus-OBJ)
(45) FR deprecier (SUBJ OBJ):
cette aaire deprecie ce territoire
DE den Wert von mindern (SUBJ)
<
>
analog, wahrend es im Falle des Ausdrucks der Dierentia durch ein Verbkomplement abweichen kann. Wegen der allgemeinen Schwierigkeiten, das Vorhandensein von Adjunkten
im Lexikon anzugeben, sind Falle wie 46 bis 49 besonders problematisch.
Die hier diskutierten Falle treten nicht vollstandig unsystematisch auf, sondern sind
dort besonders haug und zum Teil regelhaft anzutreen, wo sich zwei Sprachen hinsichtlich der Moglichkeiten zur Modikation von Verbinhalten deutlich unterscheiden.
Ein Beispiel ist insbesondere die Verfugbarkeit von Wortbildungsprozessen. Die romanischen Sprachen haben die Moglichkeit, beispielsweise die Wiederholung eines Sachverhalts mit Wortbildungsmitteln (Prax re-, ri-) auszudrucken. Im Deutschen und im Englischen mussen die romanischen wortgebildeten Verben mit Hilfe einer Kombination aus
dem A quivalent des Basisverbs und einem Adverb ubersetzt werden, wie im Beispiel 50
gezeigt ist. In ahnlicher Weise gibt es regelhafte Unterschiede bei \negativen" Verbpraxen: das Niederlandische kann die nicht sachgerechte Durchfuhrung einer Handlung durch
Praxbildungen wie im Fall von 51 ausdrucken, wahrend im Franzosischen kein analoges
Wortbildungsprodukt zur Verfugung steht.
(50) FR revoir (SUBJ OBJ)
EN see again (SUBJ OBJ)34
(51)NL misraden (SUBJ)
FR deviner a c^ote (SUBJ)
Anders als in den Beispielen 41 bis 45 und 46 bis 49 kommt es durch Unterschiede in
der Verfugbarkeit von Wortbildungsmitteln zu Reihenbildung. Fur die niederlandischen
Pragierungen mit mis- sind im wesentlichen zwei Schemata fur die A quivalentbildung
im Franzosischen verfugbar: das eine Schema nimmt als \genus proximum" das Basisverb
und realisiert durch einen Adjunkt die zusatzliche Bedeutungskomponente (fehlerhafte
Durchfuhrung (vgl. \Schema-1" in Tabelle 6.5)); das andere Schema wahlt als \genus
proximum" ein Verb, welches das fehlerhafte Durchfuhren einer beliebigen Aktion bezeichnet, und erganzt die spezische Art der Aktion durch einen Adjunkt (vgl. Schema 2
in Tabelle 6.5)35.
DE
(47) FR
DE
(48) FR
DE
(49) FR
DE
NL
zich misdragen
misvatten,
misverstaan
misraden
miswijzen
mislopen,
misrijden
misrekenen
misspringen
zich misspreken
FR
FR
Schema 1
Schema 2
mal se conduire
comprendre mal,
comprendre de travers
deviner a c^ote
donner une indication
erronnee
se tromper de route
faire une erreur de calcul
se tromper dans son calcul
manquer son saut
FR
andere
se meconduire (BELG.)
faire un lapsus
Tabelle 6.5: Schemata zur franzosischen U bersetzung von niederlandischen Verben mit
dem Prax misDie Interaktion zwischen Wortbildung und U bersetzung wird anhand dieser Beispiele
sehr deutlich. Berucksichtigt man die Wortbildungsmuster, so lassen sich Wortbildungsprodukte in eine allgemeine Klassikation von U bersetzungsproblemen einbinden. Umgekehrt wird klar, da ein vollstandiges U bersetzungsworterbuch oder eine vollstandige
kontrastive Grammatik die jeweils einzelsprachlich relevanten Wortbildungsmuster bei der
ben wie schwimmen sowohl eine Bewegungsart ausdrucken, als auch ein direktionales Komplement
subkategorisieren, durch welches die Bewegungsrichtung ausgedruckt wird. Im Franzosischen konnen
die ansonsten aquivalenten Verben vom Typ nager nur zum Ausdruck der Bewegungsart, nicht zum
Ausdruck der Bewegungsrichtung verwendet werden. Entsprechend ist eine mogliche U bersetzung des
deutschen Satzes in 52 ein Satz mit dem Hauptverb traverser, d.h. einem Verb zum Ausdruch der
Bewegungsrichtung, welches durch einen Adjunkt (a la nage) speziziert wird.
(52) DE Er schwimmt durch den Flu.
FR Il traverse le
euve a la nage.
Eine weitere sehr groe Gruppe von kategorialen Divergenzen entsteht dadurch, da Verben einer Sprache durch Funktionsverbgefuge einer anderen Sprache ubersetzt werden
mussen42 .
Wenn man das Nomen in einem Funktionsverbgefuge in der selben Weise als Pradikat
beschreibt, wie ein Verb, dann ist die Klassizierung als kategoriale Divergenz nur folgerichtig. Argumente hierfur und einen praktischen Vorschlag zur Realisierung im Rahmen
von HPSG hat [Kuhn 1994] gegeben. Die semantische Beschreibung des quellsprachlichen
Verbs und des zielsprachlichen Funktionsnomens sind in einem solchen Ansatz weitgehend
analog, so da in der Tat lediglich die kategoriale Realisierung (und z.T. davon abhangig,
der syntaktische Einbau in den zielsprachlichen Satz) zwischen Quell- und Zielsprache
unterschiedlich sind43 .
stehen mu44. In der Regel geht man davon aus, da die nur im Passiv auftretenden Verbformen, die eine spezielle Bedeutung haben, als eigene Lexeme (mit morpho-syntaktischen
Besonderheiten) jeweils einzelsprachlich aufgefuhrt und dann im zweisprachigen Lexikon
ohne besondere zusatzliche Angaben ubersetzt werden konnen.
Das einzige Problem bei dieser Art von Divergenzen besteht darin, da die StandardU bersetzungsregeln fur Aktiv- bzw. Passivsatze auf Grund der im Lexikon vorgegebenen
Merkmale auer Kraft gesetzt werden mussen. Dasselbe gilt fur \Unregelmaigkeiten"
bei anderen morphosyntaktischen Eigenschaften von Lexemen, wie etwa Numerus bei der
U bersetzung von pluralia tanta.
Man konnte die U bersetzung von Satzadverbien durch Verben als eine Unterklasse von
kategorialen Divergenzen auassen. Allerdings ist die Beschreibung des Phanomens durch
\Head Switching"45 genereller: analoge Phanomene gilt es auch innerhalb von Nominalphrasen, bei der U bersetzung von Adjektiv-Nomen-Gruppen durch komplexe Nominalphrasen.
Die U bersetzung von Satzadverbien durch Verbalperiphrasen ist in der U bersetzungswissenschaft, speziell in der deutsch-franzosischen U bersetzung als Problem erkannt worden. [Zimmer 1990] gibt eine Reihe von deutsch-franzosischen Beispielen. Diese Art von
Beispielfallen ist ausfuhrlich von Sadler/Thompson und von [Zajac 1989] diskutiert worden. Sadler/Thompson hatten gezeigt, da ein ko-deskriptiver U bersetzungsansatz auf
der Grundlage von LFG, wie er in [Kaplan et al. 1989] vorgeschlagen wurde, nicht ohne
weiteres die U bersetzung von Head Switching bei Satzadverbien erlaubt. [Zajac 1989] hat
in einer typisierten Reformulierung des LFG-basierten Transferansatzes gezeigt, wie die
44 Beispiele hierfur sind in 78 bis 83 angegeben.
(78) EN Es besteht aus zwei Teilen
DE It is composed of two parts (vgl. [Thurmair 1990])
(79) DE Die Wirkung beruht auf dem Prinzip des
EN The impact is based on the principle of
(80) DE Er heit Max.
EN He is called Max.
(81) FR L'etoe qui habille ce fauteuil
DE Der Sto, mit dem der Stuhl bezogen ist,
(82) EN You are supposed to talk
DE Sie sollen sprechen
(83) EN You are allowed to ask questions
DE Sie durfen Fragen stellen
:::
:::
:::
:::
45 Vgl. die Diskussion oben, in Abschnitt 6.1.3.1, Seite 188. Satzadverbien sind semantische Kopfe;
sie nehmen einen Satz als Argument. Dieser semantischen Kopunktion entspricht aber nicht eine
syntaktische Kopunktion, weil Satzadverbien auf der Satzebene als Adjunkte (Modiers) beschrieben
werden.
Probleme in einem relationalen U bersetzungsansatz gelost werden konnen. Eine Liste mit
Beispielen ndet sich in Tabelle 6.6.
Adverbien
DE zufallig
DE gerne
FR autrefois, il y avait un pub ici
EN he merely said yes
DE Er wird sicher antworten
DE Er kommt gleich
DE mitunter
DE immer wieder
DE anfangs, zuerst
DE wieder, weiter(hin), zusehends
DE trotzdem
DE gerade
DE beinahe, fast
DE gewohnlich, jedesmal
DE standig, unentwegt, unaufhorlich
DE anscheinend, oenbar
DE zufallig (sein)
DE unerwartet
DE schlielich
DE allmahlich ( werden)
DE immer noch, ununterbrochen
DE sogar
:::
Verbale Ausdrucke
EN happen to
EN like to
EN there used to be a pub
FR il se contenta de dire oui
FR Il ne manquera pas de repondre
FR Il ne tardera pas de venir
FR il arrive (a qn) de INF
FR ne pas cesser de INF
FR commencer par INF
FR continuer de INF
FR ne pas emp^echer (qn) de INF
FR ^etre en train de INF
FR faillir INF
FR avoir l'habitude de INF
FR ne pas se lasser, ne pas desemparer de INF,
ne pas cesser de INF, ne pas (s')arr^eter de INF
FR sembler INF
FR se trouver ^etre
FR venir a INF
FR nir par INF
FR commencer a INF (passiv)
FR continuer de/a INF
FR aller jusqu'a INF
:::
6.3.6 Divergenzen mit Auswirkung auf das zu ubersetzende Lexem und auf
die syntagmatische Umgebung
Die oben beschriebenen Beispiele von Divergenzen betreen entweder die syntagmatische
Umgebung des zu ubersetzenden Lexems oder dieses Lexem selbst. Selbstverstandlich gibt
es auch Falle, wo die beiden Typen interagieren. Insbesondere zieht die kategoriale Divergenz zum Teil Unterschiede in der Abbildung zwischen Argumenten und Komplementen,
d.h. thematische Divergenzen, nach sich. In 87 bis 89 sind Beispiele fur die Kombination von thematischer Divergenz und kategorialer Divergenz zwischen Adjektiv und Verb
angegeben.
(87) FR Nous disposons d'un telecopieur
EN A fax is available to us
(we have a fax (at our disposal))48
(88) FR Cette tache incombe a Jean
EN John is responsible for this task 49
(89) DEDas ist mir lieber
EN I prefer that50
Hier werden keine weiteren Beispiele fur diesen Typ diskutiert; er ndet sich allerdings
relativ haug in Paralleltextmaterial.
6.3 formalisiert werden kann; ein einfaches Beispiel dafur wird in Abschnitt 6.5 diskutiert:
eine kontrastive Anwendung der auf Frame Semantics beruhenden Beschreibungen von
Wahrnehmungsverben52 . Die entstehenden Beschreibungen sind, wie die Resultate der
Van Dale-Worterbuchkonversion, richtungsunabhangig.
Pradikat-Argument-Strukturen
(" pred) = \acheter (" subj) (" obj) "
(" pred) = \venir (" subj) "
(" pred) = \x (" subj) (" obj) "
(" pred) = \x (" subj) "
<
>
<
>
<
<
>
>
stammen. Somit wird die in den Standard-Lexikoneintragen von LFG nur implizit angegebene Information explizit gemacht, durch welche syntaktischen Kategorien die einzelnen grammatischen Funktionen realisiert werden konnen. Die von [Zajac 1989] benutzten
Worterbucheintrage sind damit den Eintragen aus DELIS und den Angaben in HPSGWorterbuchern relativ ahnlich, was ihren Informationsgehalt angeht. Auf der Grundlage
solcher Eintrage lassen sich die oben in Abschnitt 6.3 empirisch identizierten Klassizierungen relativ problemlos modellieren.
Ein einsprachiger Lexikoneintrag fur das franzosische Verb deconseiller in der von Zajac verwendeten Notation ist in Abbildung 6.7 angegeben, wobei unter (1) die in LFG ubliche Notation angegeben ist, unter (2) Zajacs Reformulierung als Attribut-Wert-Struktur
von TFS.
(1) deconseiller, V, (" pred) = `deconseiller
(2) f-vp [pred: \deconseiller",
subj: f-np,
obj:
f-np,
obj2: f-pp [prep: \a"]].
<
>
'
Abbildung 6.7: Eine LFG Pradikat-Argument-Struktur in der von [Zajac 1992] benutzten
Notation
Die oben in Abbildung 6.6 dargestellten Templates konnen analog in der Zajac-Notation
formuliert werden. Dazu mu lediglich sichergestellt werden, da die Werte des Attributs
pred von einem denierten Typ predicate sind und da das ganze Template seinerseits
einen Typnamen hat, damit aus den einzelnen Worterbucheintragen auf es verwiesen werden kann.
In derselben Weise, in der monolinguale Templates formuliert werden konnen, konnen
kontrastive Beschreibungen ebenfalls durch Templates abgekurzt werden. Hierzu werden ebenfalls die Pradikat-Werte als Variablen aufgefat, und die Abbildungen zwischen
Pradikat-Argument-Strukturen von Quell- und Zielsprache werden als Subtypen einer allgemeinen Transfer-Relation tr formuliert. Der Formalismus von TFS erzwingt, da die
U bersetzungsregeln in einer Spezialisierungshierarchie angeordnet werden. Jede U bersetzungsregel steht fur ein Paar aus quell- und zielsprachlichen Subkategorisierungstemplates
und den zugehorigen expliziten Angaben uber die Zuordnung zwischen den Bausteinen
der quell- und zielsprachlichen Eintrage. Die Strukturierung als Spezialisierungshierarchie
erlaubt es, zum Beispiel alle Falle von thematischer Divergenz bei zweistelligen Verben in
einer gemeinsamen Klasse zu beschreiben, die Unterklassen aufweist, je nach den grammatischen Funktionen, die miteinander in Beziehung gesetzt werden. Einzelne A quivalentpaare werden danach klassiziert, zu welchem Abbildungstyp sie zu rechnen sind.
Ein einfaches Beispiel fur die Formulierung solcher kontrastiver Templates ist in Statement 90 anhand des oben in Abschnitt 6.3.2 (vgl. Beispiel 24, Seite 201) bereits diskutierten Beispiels des A quivalentpaars FR manquer $ EN miss angegeben:
(90)
OBJ2: #f-obj2],
FE: e-vp[SUBJ: #e-subj,
OBJ : #e-obj]]
:-tr[FF: #f-subj,
FE: #e-obj],
tr[FF: #f-obj2,
FE: #e-subj].
tr-vv[FF: [PRED: manquer],
FE: [PRED: miss]].
tr-025 < tr.
tr-vv < tr.
Die Denition der Klasse tr-025 besteht, wie die meisten TFS-Denitionen aus einem
strukturdenierenden Statement und einem Statement, das die Position von tr-025 in
der Hierarchie der Transferstatements angibt.
Vereinfachend wird hier angenommen, da tr-025 eine unmittelbare Subklasse der
allgemeinsten Transferabbildung sei, d.h. von tr im LFG-Template-System (Statement:
\tr-025 tr.")53 .
Die Strukturdenition legt die Subkategorisierungsklassen von Quell- und Zielsprache
fest, indem die jeweils relevanten grammatischen Funktionen (im Franzosischen Subjekt
und (indirektes) Objekt-2, im Englischen Subjekt und Objekt) angegeben werden54 . Auerdem enthalt die Denition eine Bedingung. Diese besteht aus der rekursiven Anwendung der allgemeinen Transferregel tr auf die Verbargumente in beiden Spachen; hier
wird die Abbildung des franzosischen Subjekts auf das englische Objekt, bzw. von FR
Obj2 auf EN Subj, festgeschrieben.
Die Subkategorisierungs-Abbildung ist lexemunabhangig. Daneben gibt es ein lexikalisches Statement (tr-vv), welches die A quivalenz zwischen den Verbpradikaten beider
Sprachen postuliert, und welches wiederum ein Subtyp der allgemeinen Transferrelation
tr ist (Statement: \tr-vv
tr.").
Wie bereits oben in Abschnitt 3.1.3.2 angedeutet, kann wegen der Verfugbarkeit von
relationalen Constraints in TFS die Formulierung von kontrastiven Klasssen durch Relationen erfolgen, d.h. sie ist richtungsunabhangig. Die Modularisierung der kontrastiven
Beschreibungen, die beispielhaft in Statement 90 gezeigt wird, unterstutzt ein solches
Vorgehen55 .
In [Heid 1994a] und in [Heid 1994] wurden weitere Beispiele fur die Modellierung
kontrastiver Klassen in einem LFG-basierten Transferansatz diskutiert56 . Folgende Vor<
<
53 In einem vollstandig ausgearbeiteten System wurde tr-025 naturlich unter der Klassendenition fur
thematische Divergenzen angeordnet.
54 Alternativ konnte auf Template-Namen verwiesen werden, die dort als Abkurzungen der Subkategorisierungsklassen dienen.
55 Dies entspricht dem Vorschlag, der oben, in Abschnitt 6.1.3.1 gemacht wurde, z.B. Dorrs demotional
und promotional divergence in eine Klasse zusammenzufassen.
56 Der Transfer auf f-Strukturen, wie er in [Kaplan et al. 1989] (jetzt auch in [Dalrymple (Ed.) 1995], in
[Kaplan/Wedekind 1993] etc.) beschrieben ist, wird im Rahmen einer Zusammenarbeit zwischen Rank
und Nachteile der Modellierung haben sich anhand bisheriger Experimente herausgestellt:
Die Formulierung der kontrastiven Klassen ist relativ nahe an der lexikographischen
Intuition, bzw. erlaubt deren Umsetzung ohne besonderen Aufwand.
Das Ziel der Redundanzminimierung wird beim Aufbau einer Spezialisierungshierarchie erfullt.
Die kontrastiven Klassen konnen durch Kombination bestehender monolingualer
Subkategorisierungsklassen entwickelt werden. Gegenuber der monolingualen Beschreibung macht die kontrastive Klassikation keine neuen Beschreibungsmittel
notig. Die Datenstrukturen der Transferhierarchien lassen sich ohne Schwierigkeiten
in eine TFS-Modellierung im Stil von Zajac einbinden. Eine analoge Modellierung
im Template-Mechanismus von LFG ist weitgehend moglich.
bersetzung mu nicht
Die Klassen konnen lokal beschrieben werden, d.h. bei der U
in eines der Argumente des quellsprachlichen Verbs \hineingeschaut" werden, damit entschieden werden kann, wie die umgebende Struktur behandelt wird; damit
entfallt die Notwendigkeit, fallweise \vorherzusehen", welche U bersetzungsprobleme auftreten konnten. Vielmehr konnen Teilbeschreibungen kombiniert werden: sie
wirken dann gemeinsam als komplexes Constraint.
bersetzungs Probleme ergeben sich allerdings bei der Auswahl aus alternativen U
Relationen. Hier sind geeignete Kontrollstrukturen notig, die es erlauben, aus mehreren A quivalentkandidaten auszuwahlen, bzw. Kon
iktfalle zu losen57.
Formale Probleme bereitet die Tatsache, da Zajac die Namen der subkategorisierten
grammatischen Funktionen als Attributnamen benutzt. Dieses Problem wurde in
den DELIS-Worterbuchern durch die Kodierung der Subkategorisierung als Listen
und die Modellierung von grammatischen Funktionen als Typen (vgl. Kapitel 4)
umgangen und kann hier in analoger Weise gelost werden.
Falle von syntaktischer und von thematischer Divergenz konnen in einem HPSG-basierten
Ansatz mit denselben Mitteln behandelt werden. Eine U bereinstimmung der CONT(ent)Werte, die die Grundlage des interlingua-artigen Ansatzes ist, ist trivialerweise erreichbar,
weil sich Quell- und Zielsprache ausschlielich in der Valenz-Beschreibung bzw. in der
Abbildung unterscheiden, welche die subkategorisierten Erganzungen zu den Rollen der
Content-Beschreibung in Beziehung setzt.
Als Beispiel wird hier nochmals die A quivalenz zwischen FR manquer und EN miss
herangezogen (vgl. Abschnitt 6.3.2, Beispiel 24, Seite 201). In 91 und 92 ist fur EN miss
und FR manquer jeweils ein Worterbucheintrag aus einem HPSG-Lexikon (in vollstandig
expandierter Form) angegeben. Die \semantischen" Teilstrukturen, die als Wert des CONTAttributs in den Eintragen auftreten, sind in beiden Worterbucheintragen identisch. Unterschiede gibt es lediglich in der Abbildung zwischen den semantischen Teilstrukturen
und den syntaktischen Teilstrukturen, die unter dem Pfad CATjVAL eingebettet sind. Da in
HPSG die Abbildung zwischen Argumenten (hier bezeichnet durch Attributnamen \exper(iencer), theme") und subkategorisierten Verbkomplementen (hier jeweils in einer
Liste der Subjekte (subj) und der Komplemente (comps)) explizit durch KoindizierungsMarkierungen (\Tags") formuliert wird, genugt fur die Behandlung der thematischen Divergenz die unterschiedliche Zuweisung der Tags.
3
phon hmissesi 2
6
(91)
37
37
2
6
6
77
6
7
6
vform
n
6
77
6
7
6
head
6
77
6
7
6
verb
7
6
7
6
6
3777
2
6cat 6
6
77
6
6
7
6
subj
hNP[nom] 1 i57
6
77
6
6
4
77
6
val
5
4
6
6
6
compshNP[acc] 2 i 77777
6synsemjloc6
77
6
6
3
2
77
6
6
77
6
6
reln
miss
77
6
6
7
6
77
6
6
6exper 1 7
77
6cont
6
5
4
77
6
6
77
6
6
2
theme
55
4
4
word
miss-soa
phon hmanquei2
6
(92)
3
37
2
6
7
6
77
6
6
7
vform n
6
77
6head
6
77
6
7
6
6
verb
77
6
6
37
2
77
6cat 6
7
6
6
7
6
7
6
6
subj
hNP[nom] 1 i577
77
6
6
6
7
4
6
57
4val
6
77
6
6
i
comps
h
NP[dat]
2
77
6synsemjloc6
77
6
6
2
3
77
6
6
77
6
6
reln
miss
77
6
6
6
7
77
6
6
6
7
77
6cont
2
exper
6
4
5
77
6
6
77
6
6
theme 1
57
4
4
5
word
miss-soa
Die Behandlung von Inkorporation von Argumenten, d.h. von \con
ational" bzw. \lexical" divergences (Dorr) mu dem Phanomen Rechnung tragen, da die eine Sprache
einen komplexen Ausdruck mit subkategorisierten Komplementen oder Adjunkten verwendet, wo die andere Sprache einen einzigen Ausdruck benutzt, ohne Erganzungen. Da
6phon hstasi
(93)
2
37
6
2
3 7
7
6
6
6
77
vform
n
6
6head
7 77
6
6
6
7 77
6
verb
6
6
7 77
6
2
3
6
6
7 77
6
cat 6
6
7 77
6
subj
h
NP[nom]
i
6
6
6
77
1
4
57
6
val
4
5 77
6
6
6
77
comps
h
NP[acc]
i
2
6
77
6synsemjloc6
6
77
3
2
6
6
77
6
6
77
reln
provide
7
6
6
77
6
6
6
77
7
6
6
1
6
7
777
6agent
6
6cont
777
6
6
6
777
6goal 2
6
6
577
4
7
6
6
3 jfpersonnel( 3 )g 57
6
theme
4
5
4
word
sta-soa
Falle von Head Switching lassen sich in einem HPSG-basierten Ansatz relativ einfach
beschreiben, da HPSG zwischen syntaktischen und semantischen Kopfen unterscheidet.
In Adjunktstrukturen wie in 94a ist die \Adjunct Daughter" der semantische Kopf. Der
Lexikoneintrag fur ein Satzadverb, wie beispielsweise EN still (vgl. 95) zeigt dies: in der
syntaktischen Beschreibung (unter dem Pfad CATjHEAD) wird deniert, da das Adverb als
Modikator eine Verbalphrase nimmt. In der Bedeutungsbeschreibung (unter dem CONTAttribut) wird eine Relation \still" eingefuhrt, deren Argument ein Sachverhalt (soaarg) ist. Wenn man EN still durch FR continuer a Inf ubersetzen mochte, wie etwa in
den Beispielen 94a $ 94b, so mu ein Worterbucheintrag fur FR continuer formuliert
werden, wie er in 96 angegeben ist.
(94) a. EN Marc still smokes
b. FR Marc continue a fumer
58 Die Verhaltnisse sind etwas schwieriger bei Fallen, wo die \dierentia specica" durch ein Adjunkt
ausgedruckt wird (vgl. die Beispiele 46 bis 49 aus Abschnitt 6.3.3, Seite 206, oben). Neben der Subjektliste und der comps-Liste wird in HPSG auch eine Adjunktliste benutzt. Die Einbindung dieser
Liste in lexikalische Beschreibungen fur Falle wie 46 bis 49 steht allerdings noch aus.
6phon hstilli
(95)
37
2
6
2
3 7
7
6
7
6
6
2 77
mod
VP:
7
6
6head
6
7
6
6
777
6
adv
6
6
7
7
6
2
3 777
7
6
6cat 6
6
6
777
6
subj
h
i
6
6
77
5 7
6synsemjloc6
4val 4
577
6
6
77
6
compsh i
6
77
6
6
77
6
3
2
6
77
6
6
77
6
reln
still
6
77
6
5
4
6
cont
57
4
5
4
2
soa-arg
6phon hcontinuei
2
(96)
6
2
6
6
6
6
vform
n
6
6
6
6head verb
6
6
6
6
2
6
6
6
6
6
6
cat
6
6
h 1 NP[3sg]
i
6
6subj
6
6
6synsemjloc6
6val 6
6
4
6
4
6
comps VP inf; subjh 1 i :
6
6
6
6
6
6
2
3
6
6
6
6
reln
still
6
6cont4
5
6
4
2
4
soa-arg
7
337
7
77
777
777
77
37
777
777
777
7
77
77
77
57
577
77
77
77
77
77
77
57
5
Die Behandlung von Head Switching mit den hier aus [Heid/Kuhn 1994] ubernommenen Beschreibungsmitteln erlaubt auch die Behandlung von eingebetteten Strukturen mit
Head Switching. Die Beispiele und die Diskussion in [Heid/Kuhn 1994] zeigen, da sich
fur die Behandlung von Divergenzen in HPSG generelle Losungen aus der Kombination
der monolingualen Eintrage ergeben. Bedingung dafur ist allerdings die Benutzung einer
gemeinsamen semantischen Reprasentation und die Formulierung semantischer Beschreibungen, die so detailliert sind, wie sie zur Behandlung derjenigen Sprache sein mussen,
die die komplexere Konstruktion aufweist. Unter diesen Bedingungen konnen die in Abschnitt 6.3 beschriebenen und empirisch klassizierten Phanomene in diesem Ansatz modelliert werden. Wiederum sind keine zusatzlichen Beschreibungsmittel oder spezischen
Datenstrukturen notig, damit quell- und zielsprachliche Beschreibung kombiniert werden konnen. Die Modellierung in TFS ist wieder relational, d.h. die Beschreibungen sind
wiederum sprachrichtungs-neutral.
Die Notwendigkeit paralleler Beschreibungen, d.h. solcher die auf denselben Grundannahmen, demselben Inventar von Beschreibungsmitteln und letzlich auf analogen Modellierungen fur die beteiligten Sprachen aufbauen, wird im Falle der semantischen Beschreibungen jedoch besonders deutlich. Das HPSG-U bersetzungssystem kommt ohne explizite
zweisprachige Worterbucheintrage aus; dagegen mu mehr Modellierungsaufwand in die
einsprachigen Eintrage und in die \semantische" Reprasentation investiert werden. Die
kontrastiven Klassen stellen hier eine abstrakte Modellierungsrichtlinie dar, anhand deren Worterbucheintrage erstellt und die Syntax-Semantikabbildungen jeweils reprasentiert
werden.
Sprache !
EN
Klasse #
general perception notice
allgemeine Verben
NL
FR
IT
DK
hear
horen
auditory-att
auditory-jud
listen
sound
luisteren
klinken
ecouter
{
visual-perc
visual-att
zien
kijken
visual-jud
olfactory-perc
see
look
watch
look
smell
olfactory-att
olfactory-jud
smell
smell
ruiken
ruiken
voir
observer
regarder
{
respirer
sentir
respirer
sentir
percepire
sentire
accorgersi
udire
sentire
ascoltare
sembrare
(suonare =
negat. eval)
vedere
guardare
bemrke
auditory-perc
percevoir
apercevoir
s'apercevoir
entendre
gustative-perc
taste
gustative-att
taste
proeven
gouter
gustative-jud
tactile-perc
tactile-att
taste
feel
feel
smaken
foelen
tactile-jud
feel
{
sentir
toucher
t^ater
{
ruiken
sembrare
sentire
hre
lytte
lyde
se
se pa
kigge
se ... ud
lugte
annusare
avere...
(ADJ) odore
sentire
(il sapore di...)
gustare,
assaporare,
assaggiare
sapere di
sentire
toccare
lugte til
lugte
fles
smage
smage pa
smage
fle, mrke
fle pa
Tabelle 6.7: Das Fragment der Wahrnehmungsverben aus DELIS, in funf Sprachen
Informell wurden die Grundprinzipien des kontrastiven Vergleichs von Frame Semantics-Worterbucheintragen bereits oben in Abschnitt 4.2.3 angedeutet. Wenn man die Rollenkonstellation aus Frame Semantics als gemeinsame partielle lexikalisch-semantische
Beschreibung von aquivalenten Verblesarten verschiedener Sprachen akzeptiert, so lassen sich die folgenden Bedingungen fur die Identikation von A quivalenten in parallelen
Frame Semantics-Fragmenten denieren:
1. Zwei Lesarten sind A quivalentkandidaten, wenn sie identische Rollenkonstellationen
haben; sie gehoren dann zum selben Frame-Typ.
2. Liegt eine Klassikation nach Ereignistypen vor, so sind zwei Verblesarten von verschiedenen Sprachen A quivalentkandidaten, wenn sie identischen Ereignistypen zugehoren.
3. Sind Sortenrestriktionen uber Rollen annotiert, so sind zwei Verblesarten verschiedener Sprachen A quivalentkandidaten, wenn die Sortenrestriktionen fur die relevanten
bilingual-sign-nl-it
[L1:lgr-nl7
[1:exper-n,
2:np,
3:"zien",
4:p-actual-ent,
5:obj-pp[PREP:aan],
6:p-interpretation,
7:dat-cl[COMPLT:dat],
8:"Hij ziet aan..., dat...",
9:vis],
L2:lgr-it7
[1:exper-n,
2:np,
3:"vedere",
4:p-actual-ent,
5:obj-pp[PREP:da],
6:p-interpretation,
7:che-cl[COMPLT:that-compl],
8:"Si vede da questo che non e facile vendere questo prodotto.",
9:vis]].
Abbildung 6.8: \Bilingual Sign" NL-IT: aquivalente Lesarten von NL zien und IT vedere
(vgl. Satze 97 und 98) in TFS
In Abbildung 6.8 ist eine Instanz des niederlandischen-italienischen Vergleichs dargestellt.
Sie wird durch Ad-hoc-Abfrage erzeugt, vollig analog zu den Ergebnissen der monolingualen Ad-hoc-Abfrage, die in Abschnitt 5.1.1, auf Seite 146 dargestellt sind. Gegenuber der
oben informell angegebenen Denition der A quivalenzbedingungen gibt es eine kleinere
A nderung: statt eines Vergleichs auf der Grundlage von Sortenrestriktionen wird hier, zur
Vereinfachung, ein Vergleich auf der Ebene der Phrasenstrukturtypen (fur das erste Argument) durchgefuhrt. Die Denition des niederlandisch-italienischen Vergleichspradikats
bilingual-sign-nl-it ist in Statement 6.1 angegeben. Dort wird die Identit
at der Rollen uber Koreferenzmarkierungen gefordert (z.B. #first-fe, oder #secd-fe), ebenso die
Identitat der modality-Angabe, stellvertretend fur eine Ereignisklassikation (#modality
= mod).
Fur das erste Argument wird Identitat der Phrasentypen gefordert (#first-pt). Analoge Restriktionen, ggf. durch Subsumtionstests uber eine multilinguale Klassikation
der Phrasenstrukturtypen, konnen fur die anderen Argumente ebenfalls eingefuhrt werden, damit beispielsweise Nominalgruppen und Prapositionalgruppen, d.h. Realisierungen
von Entitaten, aufeinander abgebildet werden, bzw. satzformige oder Innitivkonstruktionen als Realisierungen von Sachverhalten oder Ereignissen. Andererseits mochte man
verhindern, da Lesarten als aquivalent erachtet werden, bei denen die Quellsprache beispielsweise eine Entitat als Argument fordert, wahrend die Zielsprache einen Sachverhalt
verlangt59.
(6.1) bilingual-sign-nl-it [L1: [1: #first-fe = role,
2:
4:
6:
9:
[L2: [1:
2:
4:
6:
9:
#first-pt,
#secd-fe = role,
#thrd-fe = role,
#modality = mod],
#first-fe,
#first-pt,
#secd-fe,
#thrd-fe,
#modality]].
Die A quivalentzuordnungen auf der Grundlage von Rollenkonstellationen sind weitestgehend von der syntaktischen Realisierung der Rollen unabhangig (vgl. die obige Diskussion). Beispielsweise kann der italienische Pseudo-Relativsatz (vgl. Satz 99 nicht strukturisomorph ins Englische ubersetzt werden, weil die Pseudo-Relativ-Konstruktion nur in
den romanischen Sprachen auftritt60. Den Satzen 99 und 100 liegt dieselbe Rollenkonstellation (vgl. 101) zugrunde. Aus diesem Grunde kann die Abbildung problemlos erfolgen,
und die einzelsprachlichen \Linking-Rules" sorgen dafur, da der Pseudo-Relativsatz und
seine U bersetzung durch einen Innitiv korrekt einander zugeordnet werden.
(99) IT: La guardavano che si allontanava
(100) EN: They watched her walk away
59 Die Losung, einen Subsumtionstest uber eine Phrasenstruktur-Klassikation durchzufuhren, hangt
mit der fur die hier beschriebenen Experimente verwendeten Version der einsprachigen Kodierungen
zusammen. Das Verfahren ist weniger elegant, aber es ist mit einem Vergleich auf der Grundlage von
Sortenrestriktionen aquivalent; eine Reformulierung der Abbildungen in TFS, in der Weise, da die
Sortenrestriktionen als A quivalenzkriterien benutzt werden konnen, ist in Vorbereitung.
60 Im Franzosischen bevorzugt mit pronominalem \Pseudo-Antezedens": vgl. FR je la vois qui arrive,
besser als FR ? Je vois la lle qui arrive in gleicher Bedeutung. Fur den zweiten Beispielsatz ist
die Interpretation als normaler Relativsatz nahezu zwingend; wahrend fur die Pronominalversion die
Pseudo-Relativsatz-Interpretation notig ist.
(101)
61 Allerdings mu sichergestellt sein, da die Listenkodierung der Rollenkonstellationen, die in der TFSModellierung der Frame Semantics-Beschreibungen verwendet wird, als Menge reinterpretiert werden
kann, d.h. unabhangig von der Reihenfolge der Listenelemente. Die Denition der Abbildungen, wie
sie etwa im Statement 6.1 angegeben ist (\
ache" Rekodierung und feste Reihenfolge der Argumente)
erlaubt dies naturlich nicht. Eine entsprechende Kodierung in TFS ist jedoch moglich.
62 Vgl. aber [Kuhn 1994], im Rahmen von HPSG.
63 Die in Abschnitt 3.1.4.1 diskutierten und in Abbildung 3.12, Seite 87 skizzierten Probleme konnen
somit auf elegante Weise gelost werden.
64 Die Tatsache, da in den TFS-Beschreibungen die einzelsprachlichen Teilstrukturen nacheinander
angeordnet sind, hangt mit der hierdurch vereinfachten Kodierung zusammen. Man konnte sich genausogut eine Kodierung durch Mengen vorstellen, die die Tatsache starker unterstreichen wurde, da
die Zuordnungen nicht-direktional und ungeordnet sind.
? tri-nl-en-it
; KB bilicheck(1):
[L1:lgr-nl5
[1:exper-i,
2:np,
3:"proeven",
4:p-actual-ent,
5:np,
6:"Wijn zorgvuldig in de mond proeven.",
7:gus],
L2:lgr-en5
[1:exper-i,
2:np,
3:"taste",
4:p-actual-ent,
5:np,
6:"Lucille tasted the soup.",
7:gus],
L3:lgr-it5
[1:exper-i,
2:np,
3:"gustare",
4:p-actual-ent,
5:np,
6:i gusta cioccolato.",
7:gus]].
; KB bilicheck(2):
tri-nl-en-it
[L1:lgr-nl5
[1:exper-i,
2:np,
3:"kijken",
4:p-actual-ent,
5:obj-pp[PREP:naar],
6:"Hij kijkt naar het water.",
7:vis],
L2:lgr-en5
[1:exper-i,
2:np,
3:"watch",
4:p-actual-ent,
5:np,
6:"I watch him till he disappears....",
7:vis],
L3:lgr-it5
[1:exper-i,
2:np,
3:"guardare",
4:p-actual-ent,
5:np,
6:"M. guarda il muro da tutte le parti.",
7:vis]].
(6.3)
(6.4)
(6.5)
[ESPERIENTE intenzionale]
vedere se
[SCOPO della percezione]
[example: "per vedere se laggiu' ci fosse ancora qualche segno."]
=>
[actieve WAARNEMER] kijken indir. vraag:
[intentioneel WAARNEMINGSOBJEKT]
[example: "Hij kijkt of er post is."]
[actieve WAARNEMER]
luisteren indir. vraag: [intentioneel WAARNEMINGSOBJEKT]
[example: "Hij luistert wie er zo'n lawaai maakt."]
=>
[ESPERIENTE intenzionale] sentire se [SCOPO della percezione]
[example: "va tu dal babbo e senti se ha bisogno di qualcosa."]
[actieve WAARNEMER]
luisteren naar
[WAARNEMINGSOBJEKT:entiteit]
[example: "Hij luistert naar de muziek."]
=>
[ESPERIENTE intenzionale] ascoltare [sorgente/stimolo PERCEPITI]
[example: "l'uomo ascolta dei suoni."]
Anhand des Vergleichs von Italienisch und Niederlandisch wird dies im Folgenden exemplarisch dargestellt. Dabei sind die Eintrage 6.2 und 6.3 willkurlich herausgegriene
Beispiele fur italienisch ! niederlandische Zuordnungen (in diesem Fall IT guardare und
IT vedere als quellsprachliche Verben). Umgekehrt sind 6.4 und 6.5 Beispiele fur niederlandisch ! italienische Abbildungen (zwei Lesarten von NL luisteren).
In Abbildung 6.11 und 6.12 sind samtliche italienischen Lesarten der TFS-Wissensbasis
dargestellt, die keine niederlandischen A quivalente haben, und umgekehrt in Abbildung
6.12 alle niederlandischen Lesarten, fur die in der TFS-Modellierung keine italienischen
A quivalente gefunden werden.
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
[ESPERIENTE
intenzionale]
intenzionale]
intenzionale]
intenzionale]
non-intenzionale]
intenzionale]
ascoltare
ascoltare
guardare
guardare
sentire
toccare
infin.:
pseudo-rel:
infin.:
pseudo-rel:
infin.:
[evento PERCEPITO]
[evento PERCEPITO]
[evento PERCEPITO]
[evento PERCEPITO]
[evento PERCEPITO]
[sorgente/stimolo PERCEPITI]
>
horen
horen indir. vraag:
kijken voor
klinken alsof + bijzin
klinken bv. nwg.
klinken gesteldheid/adv: als
proeven bv. nwg.
proeven gesteldheid/adv: als
proeven naar
ruiken
ruiken bv. nwg.
ruiken indir. vraag:
ruiken naar
smaken alsof + bijzin
smaken bv. nwg.
smaken gesteldheid/adv: als
smaken naar
stinken bv. nwg.
stinken naar
[WAARNEMINGSOBJEKT:menselijk]
[WAARNEMINGSOBJEKT:propositie]
[intentioneel WAARNEMINGSOBJEKT]
[inferentieel OORDEEL]
[inferentieel OORDEEL]
[evaluatief OORDEEL]
[objectief OORDEEL]
[objectief OORDEEL]
[objectief OORDEEL]
[evaluatief OORDEEL]
[WAARNEMINGSOBJEKT:propositie]
[objectief OORDEEL]
[inferentieel OORDEEL]
[evaluatief OORDEEL]
[objectief OORDEEL]
[objectief OORDEEL]
[evaluatief OORDEEL]
[objectief OORDEEL]
und mit zielsprach-spezischen Erganzungen versehen wird. Mehrere Iterationen sind in
der Regel notwendig, bis das Framework so modiziert ist, da es die Anforderungen von
Quell- und Zielsprache in geeigneter Weise erfullt.
Die Herangehensweise von DELIS erlaubt es, ahnlich wie bei der Kombination der Van
Dale-Worterbucher, eine nicht-direktionale Datensammlung anzulegen, die im Falle von
DELIS die Zuordnungen von Verben von Quell- und Zielsprache enthalt, die aufgrund
der Frame Semantics-Beschreibung als aquivalent identiziert werden. Durch die Bereitstellung zusatzlicher Listen von nicht-abbildbaren Verblesarten der beiden Sprachen wird
den Worterbuchherausgebern gleichzeitig deutlich gemacht, an welcher Stelle weitere manuelle Arbeit notwendig ist. In vielen Fallen stellt sich heraus, da die nicht-abbildbaren
Lesarten durch Paraphrasen, durch kategoriale oder lexikalische Divergenzen ubersetzt
werden mussen, oder da es sich um Mismatches handelt.
Die hier beschriebenen Verfahren nehmen den Worterbucherstellern die Routinearbeit
der Zuordnung von Verblesarten ab. Auerdem wird sichergestellt, da nicht nur eine
unstrukturierte Liste von verbalen A quivalenten gegeben wird, sondern da gleichzeitig
auf die jeweils relevante Lesart, im Sinne der Rollenkonstellation, verwiesen wird. Es wird
also nicht nur eine A quivalentliste erzeugt, sondern eine strukturierte und semantisch
klassizierte Liste von A quivalentvorschlagen.
Kapitel 7
Zusammenfassungen
7.1 Deutsche Zusammenfassung
In diesem Buch werden Vorschlage zur Strukturierung von einsprachigen und zweisprachigen Worterbuchern gemacht. Dabei werden wiederverwendbare multifunktionale Ressourcen angestrebt, d.h. solche, aus denen (z.B. mit Hilfe von Exportroutinen) Informationen
fur Worterbucheintrage im Format verschiedener Anwendungen abgeleitet werden konnen.
Die Strukturierungsvorschlage werden in zwei Schritten entwickelt: zunachst fur monolinguale, dann fur kontrastive Worterbucher fur maschinelle U bersetzung. Die Zielsetzung
dabei ist, die separat (d.h. nicht notwendigerweise als Komponenten eines maschinellen
U bersetzungssystems) entworfenen monolingualen Worterbucher zu kombinieren, um sie
dann als Informationsquelle fur kontrastive Beschreibungen fur die maschinelle U bersetzung zu benutzen. Die angestrebte Multifunktionalitat hat also mehrere Aspekte: Nutzbarkeit der monolingualen Worterbucher fur \menschliche Benutzer" (z.B. durch Export
in ein geeignetes Prasentationsformat) und fur NLP-Systeme, Kombinierbarkeit der monolingualen Beschreibungen zu kontrastiven Worterbuchern und schlielich Nutzung einund derselben kontrastiven Beschreibung fur transfer-basierte und fur interlingua-basierte
maschinelle U bersetzung.
Eine Grundbedingung fur die Kombinierbarkeit der einzelsprachlichen Beschreibungen
ist die Entwicklung paralleler Ressourcen: die Beschreibungen der Einzelsprachen mussen
auf demselben Ansatz und auf einem gemeinsamen Inventar linguistischer Beschreibungsmittel fur alle behandelten Sprachen beruhen; naturlich mu hierbei den einzelsprachlichen Spezika Rechnung getragen werden.
Die Beispielfragmente stammen aus dem Bereich der Verben der sinnlichen Wahrnehmung (Franzosisch, Englisch, Niederlandisch), und { zur U berprufung der Generalisierbarkeit des Ansatzes { aus einem weiteren lexikalisch-semantischen Feld, dem der
sprachlichen Kommunikation (Italienisch). Die Verben werden syntaktisch und semantisch beschrieben. Die syntaktische Beschreibung folgt den Grundlinien von LexikalischFunktionaler Grammatik (LFG) und Head-Driven Phrase Structure Grammar (HPSG);
aus den hier erarbeiteten Worterbuchfragmenten konnten Eintrage fur diese beiden linguistischen Theorien mittels Exportroutinen abgeleitet werden, da genug Information fur
beide Theorien explizit reprasentiert wird. Zur semantischen Beschreibung wird der von
Fillmore entwickelte Ansatz von Frame Semantics benutzt; Frame Semantics dient als
Beispielfall fur einen Ansatz der lexikalisch-semantischen Beschreibung, dessen Klassizierungen durch die Formulierung von expliziten Abbildungen zwischen Semantik und
Syntax mindestens indirekt reinterpretierbar und damit wiederverwendbar gemacht werden. Gleichzeitig sind die hier formulierten Worterbuchfragmente wohl die ersten, in denen
eine formale Reprasentation von Frame-Semantics-Beschreibungen versucht wird.
Zur Kodierung der Worterbucher wird der Typed Feature Structure-Formalismus
(TFS) benutzt. Anhand der Darstellung seiner wichtigsten Eigenschaften werden die
Moglichkeiten diskutiert, die auf Constraint-Logik beruhende Formalismen fur die lexi-
kalische Modellierung, fur die Strukturierung von Worterbuchern und fur deren Abfrage
und Nutzung in NLP-Systemen bieten.
Wie oben angesprochen, erfolgt die Denition von Strukturierungsprinzipien fur multifunktionale Worterbucher in zwei Schritten: zunachst fur monolinguale, dann fur kontrastive Worterbucher. Fur die monolingualen Worterbucher werden die Architekturprinzipien zunachst als funktionale Spezikation formuliert, dann bei der Modellierung von
Worterbuchausschnitten in TFS angewendet.
Zu den Grundprinzipien der vorgeschlagenen Worterbucharchitektur gehoren die Modularisierung der Worterbucher nach linguistischen Beschreibungsebenen, die Festlegung
separater hierarchischer Spezikationen fur jede Ebene (die formal uberprufbar sind) und
die Verwendung eines relationalen Ansatzes zur Verbindung der Module. Die Kombination monolingualer Beschreibungen fur kontrastive Zwecke erfolgt dadurch, da die syntaktischen Klassizierungen miteinander verbunden werden, wahrend die semantische Beschreibung als gemeinsame abstrakte Reprasentation der einzelsprach-spezischen Phanomene benutzt wird. Das entspricht auch dem Grundgedanken von Frame Semantics: ein
Frame ist die Beschreibung einer Situation oder Szene und der an dieser Situation beteiligten Objekte, Individuen und Sachverhalte (Frame Elements); die einzelnen Sprachen
haben verschiedene Verfahren, um auf die durch ein Frame beschriebenen Situationen
sprachlich zu referieren; der Ansatz steht damit einem interlingua-basierten U bersetzungsmodell nahe, ohne allerdings die vollstandige Modellierung des Inhalts von A uerungen
in einer abstrakten Reprasentation anzustreben. Die einzelsprach-spezischen Realisierungsverfahren werden separat beschrieben und die monolingualen Worterbuchfragmente
miteinander verbunden.
Wenn die monolingualen syntaktischen Klassizierungen kombiniert werden, konnen
die Kombinationsresultate wiederum klassiziert werden. Dies ergibt die hier nur kurz
phanomenologisch beschriebenen kontrastiven Klassen. Da die kontrastiven Klassen vordergrundig nur als ein technisches Hilfsmittel zur Strukturierung zweisprachiger Worterbucher interpretiert werden konnten, mu untersucht werden, inwiefern diese kontrastiven
Klassizierungen Generalisierungen ausdrucken, bzw. uberhaupt eine Relevanz fur die homogene Beschreibung kontrastiver Probleme im Lexikon haben.
Die vorgeschlagenen konstrastiven Klassen decken die in der relevanten Literatur behandelten Phanomene ab (allerdings nur fur einen Teilbereich des Lexikons: die Beschreibung der U bersetzung von Verben und ihrer syntagmatischen Umgebung); auerdem ist
die vorgeschlagene kontrastive Klassizierung genereller als fruhere Klassizierungsversuche aus der Forschung zur maschinellen U bersetzung, und sie kommt mit weniger Parametern aus. Ihre Grundlagen werden ohnehin fur die monolinguale Klassikation benotigt:
(1) die Modularisierung der Lexikoneintrage nach den linguistischen Beschreibungsebenen und (2) die Frage, welche linguistischen Objekte von Quell- und Zielsprache sich bei
der U bersetzung unterscheiden: das Lemma selbst, seine subkategorisierten Erganzungen,
oder anderes Material in der syntagmatischen Umgebung des Lemmas.
Fur beide Worterbuchtypen, monolinguale und kontrastive Lexika, werden gemeinsame Architekturprinzipien deniert; ihre Realisierbarkeit in TFS wird uberpruft und
diskutiert, und Beispiele fur monolinguale Worterbuchfragmente werden modelliert und
diskutiert. Nachfolgend werden diese Prinzipien kurz zusammengefat:
1. Worterbucher mussen als Spezikationen angelegt werden, die die wohlgeformten
lexikalischen Objekte einer Domane beschreiben und nur diese (vgl. die Denition
von Spezikationen in den Formalen Sprachen). Ein constraint-basierter Formalismus erlaubt sowohl die Denition formaler lexikalischer Spezikationen (welche
Attribute sind fur lexikalische Objekte eines bestimmten Typs deniert? Welche
Werte kann ein Attribut haben?), als auch die automatische U berprufung einzelner
lexikalischer Beschreibungen auf U bereinstimmung mit der Spezikation. Dadurch
wird die Konsistenz der lexikalischen Beschreibungen verbessert, und es eronen
sich Moglichkeiten fur die Entwicklung von automatischen Werkzeugen fur die Konsistenzkontrolle, bei interaktiver und automatischer lexikalischer Akquisition und
bei A nderungen der Spezikation und der daraus resultierenden Umklassizierung
von lexikalischem Material.
2. Lexikalische Spezikationen sollten modular angelegt sein. Es wird eine Modularisierung auf mehreren Ebenen verwendet:
die einzelnen monolingualen Worterb
ucher sind gleichberechtigte Module des
kontrastiven Worterbuchs;
jede monolinguale Beschreibung ist aus Modulen aufgebaut, die Spezikationen
fur die einzelnen linguistischen Beschreibungsebenen sind. Die ebenenspezischen Module werden durch relationale Constraints miteinander verbunden;
jede ebenenspezische Beschreibung besteht aus Modulen:
{ dem Inventar der Beschreibungsmittel (Vokabular),
{ der Denition der Kombinationsmoglichkeiten der einzelnen Beschreibungsbausteine (lexikalische Klassen),
{ der Denition einzelner lexikalischer Instanzen (Worterbucheintrage) auf
der Grundlage der Klassen.
3. Aus der Modularitat ergeben sich eine Reihe von Eigenschaften der lexikalischen
Spezikationen:
Die angestrebte Multifunktionalitat wird dadurch unterst
utzt, da Exportroutinen an den Denitionen der Beschreibungsmittel, nicht an den lexikalischen
Klassen oder gar den Instanzen festgemacht werden. Worterbuch und Exportverfahren werden damit robuster gegenuber A nderungen: der Export in verschiedene anwendungsspezische Formate ist von A nderungen der lexikalischen
Spezikation nicht betroen, solange nicht neue Beschreibungsmittel eingefuhrt
werden (z.B. neue semantische Rollen oder grammatische Funktionen). Es werden Beispiele fur verschiedene Exportanwendungen diskutiert.
Die einzelnen Module sind durch relationale Constraints untereinander verbunden. Damit wird sichergestellt, da der Zugri auf lexikalische Information ad
hoc mit beliebigen unterspezizierten Teilstrukturen erfolgen kann. Fur die lexikographische Anwendung bedeutet die Moglichkeit der Ad-hoc-Abfrage (die
alle constraint-basierten Formalismen kennzeichnet), da keine Beschreibungsebene Prioritat uber die anderen hat: semasiologische, onomasiologische oder in
anderer Weise strukturierte Worterbucher konnen so aus einer einzigen Quelle
abgeleitet werden; in analoger Weise sind in einem zweisprachen Worterbuch
fur die maschinelle U bersetzung Constraints von allen Ebenen verfugbar, die
die A quivalentwahl steuern konnen.
Da die Spezikationen fur die einzelnen Ebenen untereinander explizit verbunden sind, \dokumentieren sie einander": es ist notorisch schwierig, unter
Linguisten Einigkeit uber die Kriterien zu erzielen, nach denen lexikalische
Einheiten semantisch beschrieben werden sollen (die Tatsache, da kaum je
zwei Worterbucher dieselben Lesarten eines gegebenen Lexems unterscheiden,
belegt dies); dies betrit genauso Frame Semantics; durch die Verbindungen
zwischen der semantischen Beschreibung und den syntaktischen Beschreibungen wird sichergestellt, da die Frame Semantics-Klassikationen anhand der
syntaktischen Beschreibungen transparent werden. Damit wird es leichter, die
Worterbucher zu reinterpretieren und wiederzuverwenden.
Die Benutzung von TFS als Spezikationssprache im Lexikon ist noch neu, und die TFSSprache wurde ursprunglich nicht fur diesen Zweck geschaen. Eine Reihe methodologischer Punkte, die den Aufbau von TFS-Worterbuchern betreen, werden deswegen diskutiert. Dabei stellt sich heraus, da zum Teil die Klassizierung von Beschreibungsmitteln
(z.B. Rollen) auf die Klassizierung der lexikalischen Objekte (d.h. beispielsweise die Verbklassen) abgebildet wird; diese leichte Redundanz ist der Preis, den man fur die starke
Modularisierung bezahlen mu.
Auerdem kann man sich fragen, ob es sinnvoll ist, eine einzige, tiefe, ggf. sehr komplizierte Hierarchie zu spezizieren. Idealerweise wurde man sich wunschen, da das Lexikonmodell durch Kreuzklassikation verschiedener Teilhierarchien entstehen wurde; der
Lexikograph deniert eine Hierarchie, die die zu beschreibende Domane (z.B. Wahrnehmungsverben) nach einem einheitlichen, von ihm als zentral aufgefaten Kriterium (z.B.
Rollenkonstellationen a la Frame Semantics) strukturiert. Auerdem legt er Teilhierarchien fur weitere beschreibungsrelevante Kriterien (z.B. zusatzliche Attribute) an, die mit
der \Haupt-Hierarchie" kreuzklassiziert werden. Die Realisierung eines solchen Modells
wird von der hier benutzten Version des TFS-Systems noch nicht vollstandig unterstutzt;
eine ahnliche Losung wurde simuliert.
Die Vorschlage fur die Worterbucharchitektur werden aus einer Anforderungsdenition
entwickelt. Sie geht auf eine Diskussion des Konzepts der multifunktionalen Worterbucher
und auf eine Auswertung von Erfahrungen aus der Lexikographie zuruck: die Probleme,
die bei der Analyse von gedruckten Worterbuchern im Hinblick auf deren Wiederverwendung im NLP-Kontext auftreten, sollen vermieden werden. Die Benutzung formaler
Spezikationen schat hier weitgehend Abhilfe. Auerdem wird von den Erfahrungen
der praktischen Lexikographie beim Entwurf zweisprachiger Worterbucher protiert. Ein
Vergleich des direktionalen Ansatzes (z.B. Kromann) mit dem nicht-direktionalen Ansatz (z.B. Verlag Van Dale) zeigt die Notwendigkeit einer detaillierten Beschreibung zielsprachlicher Constraints (Relevanz fur die A quivalentwahl), sowie einer gleichrangigen
Behandlung von Quell- und Zielsprache. Die Untersuchung der Van Dale-Verfahren zur
Wiederverwendung der zweisprachigen Worterbucher dieses Verlags unterstreicht die Bedeutung der Modularisierung der Beschreibungen: die Wiederverwendung funktioniert,
wo die Van Dale-Worterbucher modular aufgebaut sind. Sie funktioniert weniger gut, wo
die Modularitat nicht durchgehalten wird.
standard, il est vrai) en tant que formalisme de representation d'information lexicale. Ceci
permet d'evaluer les possibilites d'une application des formalismes a contraintes, dont TFS
est un exemple, a la modelisation lexicale, la structuration de ressources lexicales et leur
interrogation et utilisation dans des systemes de traitement automatique des langues.
Comme nous l'avons indique plus haut, la denition des principes de structuration lexicale se fait dans deux etapes: d'abord pour les dictionnaires monolingues, puis
pour les dictionnaires bilingues contrastifs. Ce processus suit aussi le cycle standard de
developpment de logiciels, connu de l'ingenerie logicielle: une denition de requ^etes suivie d'une specication fonctionnelle, et enn d'une implantation, (la modelisation des
fragments dictionnairique mentionnes). Parmi les principes de base de l'architecture dictionnairique proposee, il faut nommer la modularisation des dictionnaires, selon les niveaux de description linguistique pertinents, la denition de specications hierarchiques
pour chaque niveau (specication formellement et automatiquement contr^olable) et l'utilisation d'une approche relationnelle pour la denition de l'interaction entre les modules.
La combinaison des descriptions monolingues en vue de la constitution d'un dictionnaire bilingue s'eectue a travers la combinaison de classications syntaxiques, les
descriptions semantiques etant utilisees en tant que representations abstraites generalisees
pour les langues considerees. Cette utilisation d'une m^eme description semantique pour
les dierentes langues est conforme a l'hypothese de Frame Semantics qu'un frame est
une description d'une situation ou d'une scene et des objets, individus et phenomenes
(frame elements) qui participent a cette situation. Selon Frame Semantics, les dierentes
langues ont dierents moyens pour faire reference a une situation decrite par un frame.
L'approche suivie n'est donc pas sans rappeler le modele de traduction interlangue, bien
qu'elle ne vise pas a modeliser le contenu complet des enonces dans une representation
abstraite.
Si l'on compare et combine des classications syntaxiques monolingues, les resultats
de cette combinaison peuvent ^etre classies eux-m^emes. Le resultat en est un systeme
de classes contrastives. On peut alors considerer ces classes contrastives comme un outil
technique pour la structuration de dictionnaires bilingues, et, pour pouvoir leur donner
un statut methodologique et descriptif plus clair, il faut d'une part les comparer avec les
classications contrastives traditionnelles, telles qu'elles apparaissent en traductologie, en
lexicographie bilingue et en grammaire contrastive, et d'autre par mettre en evidence
leur utilite pour la description homogene de problemes contrastifs lexicaux. Il s'avere que
les classes contrastives proposees ici couvrent assez bien les phenomenes decrits dans la
litterature pertinente (du moins pour la traduction des verbes et leur environnement syntagmatique, domaine exclusivement traite ici); en outre, la classication proposee ici est
plus generale que les tentatives precedentes elaborees dans la recherche en traduction automatique, puisqu'elle a besoin de moins de parametres de classication, et ces parametres
sont deja utilises dans la classication monolingue: il s'agit en eet de la modularisation
des entrees lexicales par niveaux descriptifs, et de la question de savoir quels objets linguistiques se distinguent entre la langue source et la langue cible (le lemme lui-m^eme, ces
complements sous-categorises, ou bien d'autres elements syntagmatiquement relies aux
lemmes).
Pour les deux types de dictionnaires, monolingues et bilingues, des principes architecturaux communs ont ete denis. Nous avons discute les possibilites de realiser ces principes
dans une modelisation a contraintes, en TFS, et nous les avons appliques a des fragments
dictionnairiques. Voici un bref resumee de ces principes:
La modelisation lexicale doit reposer sur des specications qui denissent les objets
lexicaux d'un domaine (cf. la denition de specications dans les langages formels).
Un formalisme a contraintes permet aussi bien la denition de specications lexicales formalisees (Quels attributs sont denis pour un certain type d'objets lexicaux?
Quelles valeurs sont admis pour un attribut donne?) que la verication automatique de descriptions particulieres par rapport a la specication. L'utilisation d'un
formalisme a contraines supporte donc la consistance des descriptions lexicales, et il
permet le developpement d'outils automatiques pour le contr^ole de consistence d'un
dictionnaire qui aille bien au-dela des outils existant a l'heure.
Les specications lexicales doivent ^etre modulaires. Une modularisation a plusieurs
niveaux est propose:
{ Les dictionnaires monolingues sont des modules a part egale d'un dictionnaire
bilingue ou plurilingue.
{ Chaque description monolingue est elle-m^eme composee de modules, dont chacun est une specication d'un niveau de description linguistique. Ces modules
sont relies par des contraintes relationnelles.
{ Chaque specication d'un niveau de description linguistique donnee est ellem^eme composee de plusieurs modules:
l'inventaire des dipositifs descriptifs (le vocabulaire de la specication);
la denition des combinaisons bien-formees des dispositifs descriptifs disponibles (la denition des classes lexicales);
la denition d'instances lexicales (c'est-a-dire d'entrees lexicales individuelles, pour les sens des lemmes traites), sur la base de la classication
lexicale operee.
La modularisation stricte que nous proposons a certaines consequences pour les proprietes des specications lexicales:
il supporte la multifonctionalite visee, puisque l'exportation, denie en termes de
routines d'exportation, repose sur la denition des dipositifs descriptifs, et non pas
sur la description des classes lexicales ou des instances lexicales. Ceci est d'autant
plus important que le dictionnaire est un objet en evolution: l'exportation doit ^etre
independante de modications du dictionnaire; lorsque de nouvelles entrees lexicales sont rajoutees au dictionnaires, on ne veut pas ^etre contraint a modier les
routines d'exportation. Les exemples discutes dans ce livre montrent que les routines
d'exportation sont independantes de modications aussi bien de la classication lexicale que de l'inventaire d'instances lexicales. Seules des modications de l'inventaire
des dispositifs descriptifs ont une incidence sur les routines d'exportation.
Les modules sont relies par des contraintes relationnelles. Ceci supporte l'interrogation
ad hoc du dictionnaire ainsi specie. L'interrogation ad hoc implique entre autres
qu'aucun des niveaux de description linguistique ne soit prioritaire par rapport aux
autres. A la dierence des dictionnaires traditionnels et de la plupart des bases
classify the targeted domain according to one single criterion. He would also dene partial
hierarchies for further criteria of descriptive relevance. These would be cross-classied
with the main hierarchy. The realization of such a model (of multiple hierarchies and
cross-classication) is not yet fully supported by the current version of the TFS system.
However, a solution has been simulated and is discussed.
Our proposals for a dictionary architecture are based on a requirements denition
which itself is inspired by a discussion of the notion of multifunctional dictionaries and by
experience from lexicography; we try to avoid the problems we encountered in the analysis
of machine readable versions of printed dictionaries in view of their reuse in an NLPcontext. Most of these problems indeed are removed by the use of formal specications.
We also prot from lexicographic experience when designing bilingual dictionaries.
A comparison of the directional approach (e.g. proposed by Kromann) with the nondirectional approach followed, for example, by the Dutch publisher Van Dale, shows the
necessity of a detailed description of target language constraints (because of their relevance for equivalent selection), as well as the importance of an equal treatment of source
and target language. The analysis of the procedures used by Van Dale in view of the
reuse of their bilingual dictionaries proves the importance of the modularization of lexical
descriptions: the reuse is easy in all cases where the Van Dale dictionaries are modular,
and it poses problems at those places where they are not.
Literaturverzeichnis
[ACL-29 1991] Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics,
(Berkeley, Ca.: University of California), 1991.
[Ahmad et al. 1993] Khurshid Ahmad, Stephen Hook, Lothar Lemnitzer, Nicole Modiano, Jan Odijk,
Wolf Paprotte, Frank Schumacher: \MLEX-d Standards for a Multifunctional Lexicon", Final report, (Paris: CAP Gemini) 1993.
[Al 1983] Bernard P. F. Al: Dictionnaire de theme et dictionnaire de version, in: Revue de phonetique
appliquee, 66-68 (1983): 201-211.
[Al 1988] Bernard P. F. Al: Langue source, langue cible et metalangue, in: [Landheer (Ed.) 1988]: 15 29.
[Al et al. 1985] Bernard P. F. Al et al.: Van Dale groot woordenboek Nederlands - Frans, (Utrecht/Antwerpen: Van Dale), 1985.
[Alshawi 1989] Hiyan Alshawi: Analysing the dictionary denitions, in: [Boguraev/Briscoe 1989]: 153169.
[Alvar-Ezquerra (Ed.) 1992] Manuel Alvar-Ezquerra (Ed.): Proceedings of the EURALEX International
Congress, Malaga, September 1990, (Barcelona: Biblograf), 1991.
[Arnold et al. 1994] Douglas Arnold, Lorna Balkan, R. Lee Humphreys, Siety Meijer, Louisa Sadler:
Machine Translation: An Introductory Guide, (Oxford: NCC Blackwell), 1994.
[ACL 1990] Proceedings of the 28th Annual Conference of the Association for Computational Linguistics.
(Pittsburgh, Pa.: University of Pittsburgh), 1990.
[Amsler 1980] Robert A. Amsler. The Structure of the Merriam-Webster Pocket Dictionary. PhD Thesis
(Austin: University of Texas), 1980.
[Atkins 1994] Beryl T. S. Atkins: Analyzing the verbs of seeing: a frame semantics approach to corpus
lexicography, to appear in: [Gahl/Johnson/Dolbey (Eds.) 1994].
[Atkins/Duval/Milne 1987] Beryl T. S. Atkins, Alain Duval, Rosemary C. Milne: Robert & Collins Dictionnaire Francais - Anglais, Anglais - Francais, (Paris: Le Robert/ Glasgow: Collins), 1987.
[Atkins/Fillmore 1994] Beryl T. S. Atkins, Charles Fillmore: Starting where the Dictionaries stop: The
Challenge of Corpus Lexicography, in: [Atkins/Zampolli (Ed.) 1994]: 349-393, 1994.
[Atkins et. al. 1994] Beryl T. S. Atkins, Charles J. Fillmore, John B. Lowe, Nancy Urban: The Dictionary
of the Future: a Hypertext Database. Presentation and on-line demonstration at the Xerox-Acquilex
Symposium on the Dictionary of the Future, Uriage, France, 1994, ms.
[Atkins/Levin/Zampolli 1994] Beryl T. S. Atkins, Beth Levin, Antonio Zampolli: Computational Approaches to the Lexicon: An Overview, in: [Atkins/Zampolli (Ed.) 1994]: 17-45, 1994.
[Atkins/Zampolli (Ed.) 1994] Beryl T. S. Atkins, Antonio Zampolli (Ed.): Computational Approaches
to the Lexicon (Oxford: Oxford University Press), 1994.
[Avignon 1991] Eleventh International Conference `Expert Systems and their Applications', Avignon,
France, May 27 - 31, 1991: `Specialized Conference: Natural Language Processing and its Applications', (Nanterre: EC2), 1991.
[Barnett et al. 1994] James Barnett, Inderjeet Mani, Elaine Rich: \Reversible Machine Translation:
What to do when the Languages don't match up", in: [Strzalkowski (Ed.) 1994]: 321-364, 1994.
[Baunebjerg Hansen 1990] Gitte Baunebjerg Hansen: Artikelstruktur im zweisprachigen
Worterbuch, (Tubingen: Narr), 1990 [=Lexicographica Series Maior 35].
[Bemova et al. 1988] Alevtina Bemova, Karel Oliva, Jarmila Panevova: \Some Problems of Machine
Translation Between Closely Related Languages", in: Proceedings of COLING-88, Bonn, (Bonn:
IKP), 1988.
[Blaser/Schwall/Storrer 1992] Brigitte Blaser, Ulrike Schwall, Angelika Storrer: \A reusable lexical database tool for machine translation"; in: Proceedings of COLING-1992.
[Blasi/Koch 1992] Christoph Blasi, Heinz-Detlev Koch: \Dictionary Entry Parsing Using Standard Methods", in: [Kiefer/Kiss/Pajzs (Ed.) 1992]: 61-70, 1992.
[Boguraev/Briscoe 1989] Branimir Boguraev, Ted Briscoe (Eds.): Computational Lexicography for Natural Language Processing, (London, New York: Longman), 1989.
[Bouillon/Clas 1993] Pierette Bouillon, Andre Clas (Eds.): Etudes et recherches en traductique. Problemes de traduction par ordinateur, (Montreal: P.U.M.), 1993.
[Bresnan (Ed.) 1982] Joan Bresnan (Ed): The Mental Representation of Grammatical Relations, (Cambridge, Mass.: The MIT Press), 1982.
[Briscoe/de Paiva/Copestake (Eds.) 1993] Ted Briscoe, Valerio de Paiva, Ann Copestake (Eds.): Inheritance, Defaults and the Lexicon, (Cambridge: Cambridge University Press), 1993.
[Busse/Dubost 1983] Winfried Busse, Jean-Pierre Dubost: Franzosisches Verblexikon. Die Konstruktion
der Verben im Franzosischen, (Stuttgart: Ernst Klett), 2 1983, 1 1987.
[Calzolari/Corazzari 1995] Nicoletta Calzolari, Ornella Corazzari: \The DELIS description of speech act
verbs", in: [Heid (Coord.) 1995]: 52-62.
[Calzolari/Monachini 1993] Nicoletta Calzolari, Monica Monachini: Synopsis and Comparison of Morphosyntactic Phenomena Encoded in Lexicons and Corpora. A Common Proposal and Applications
to European Languages. Draft Version. (Pisa: ILC), 1993, erganzt 12-1994.
[Caroli 1991] Folker Caroli: The feasibility of standards for bilingual description of lexical items (Saarbrucken: IAI), ms., 1991, [= Eurotra-7, DOC-10].
[Carpenter 1992] Bob Carpenter: The logic of typed feature structures., (Cambridge: Cambridge University Press), 1992 [= Cambridge Tracts in Theoretical Computer Science].
[Christ 1993] Oliver Christ: The XKwic User Manual, ms., (Stuttgart: IMS), 1993.
[Cohen 1986] Betty Cohen: Lexique de cooccurrents; Bourse { conjoncture economique, (Montreal: Linguatech), 1986.
[Cox et al. 1986] H.L. Cox et al.: Van Dale groot woordenboek Nederlands-Duits, (Utrecht/Antwerpen:
Van Dale), 1986.
[Crookston et al. 1990] Ian Crookston, Jane Simcoe-Shelton, Andy Way: Eurotra Problem Oce Interlevel Syntax Research Pool. Area B: Interlevel Processing. Final Research Report, 1990.
[Daelemans/Van der Linden 1992] Walter Daelemans, Erik-Jan van der Linden: \Evaluation of Lexical
Representation Formalisms", (Tilburg: Institute for Language Technology and Articial Intelligence), [= ITK Research Memo, No. 14], 1992.
[Dalrymple (Ed.) 1995] Mary Dalrymple, Ronald M. Kaplan, John T. Maxwell III, Annie Zaenen (Eds.):
Formal Issues in Lexical-Functional Grammar, (Stanford: Xerox Parc), ms., 1995, im Druck.
[DANLEX 1987] The DANLEX Group: Ebba Hjorth, Bodil Nistrup Madsen, Ole Norling-Christensen,
Jane Rosenkilde, Hanne Ruus: Descriptive Tools for Electronic Processing of Dictionary Data,
(Tubingen: Niemeyer), 1987, [= Lexicographica Series Maior 20].
[Danlos 1987] Laurence Danlos: The linguistic basis of text generation, Studies in Natural Language
Processing, (Cambridge: Cambridge University Press), 1987.
[Domenig 1987] Marc Domenig: Entwurf eines dedizierten Datenbanksystems fur Lexika, (Tubingen:
Niemeyer), 1987.
[Domenig/ten Hacken 1992] Marc Domenig, Pius ten Hacken: Word Manager: A System for Morphological Dictionaries, (Hildesheim: Olms), 1992, [= Informatik und Sprache, Band 1].
[Domenig 1989] Marc Domenig: Word Manager; A System for the Specication, Use and Maintenance
of Morphological Knowledge, (Zurich: Universitat Zurich), Habilitationsschrift, 1989.
[Dorr 1990] Bonnie J. Dorr: Solving Thematic Divergences in Machine Translation, in: [ACL 1990]: 127134.
[Dorr 1991] Bonnie J. Dorr: A Two-Level Knowledge Representation for Machine Translation: Lexical
Semantics and Tense/Aspect, in: [Pustejovsky/Bergler (Ed.) 1991]: 250-263.
[Dorr 1993a] Bonnie J. Dorr: \Interlingual machine translation: A parameterized approach", in: Articial
Intelligence 63 (1993): 429-492.
[Dorr 1993b] Bonnie J. Dorr: Machine Translation: A View from the Lexikon, (Cambridge, MA: The
MIT Press), 1993 [= Articial Intelligence Series].
[Durrell 1988] Martin Durrell: Some problems of contrastive lexical semantics, in: [Hullen/Schulze (Ed.)
1988]: 230-241, 1988.
[Van der Eijk et al. 1991] Pim van der Eijk, Laura Bloksma, Anne van Bolhuis, Joy Herklots, Elly van
Munster, Jeroen Fokker, Mark van der Kraan, Angelique Geilen: \Final Report of the Lexic Project
Phase I" (Utrecht: Stichting Taaltechnologie), 1991.
[Emele 1996] Martin C. Emele: Die TFS-Sprache und ihre Implementierung, Dissertation Stuttgart, 1996.
[Emele 1994] Martin C. Emele: \TFS { The Typed Feature Structure Representation Formalism", in:
Proceedings of the International Workshop on Sharable Natural Language Resources (SNLR), 1994.
[Emele 1993] Martin C. Emele: TFS { The Typed Feature Structure Representation Formalism, in: [Uszkoreit (Ed.) 1993]: Proceedings of the EAGLES workshop on implemented formalisms, (Saarbrucken: DFKI), 1993.
[Emele/Heid/Humphreys 1993] Martin C. Emele, Ulrich Heid, Lee Humphreys: Towards a linguistic
architecture and tool system architecture for DELIS { Descriptive choices, dictionary organization
and tool system outline, Deliverable D-I-2 of DELIS (LRE 61.034), nal version of June 26th, 1993.
[Emele/Zajac 1990] Martin C. Emele, Remi Zajac: Typed unication grammars. In: Proceedings of the
13th International Conference in Computational Linguistics (CoLing90), Helsinki, August 1990.
[Emele/Heid 1993] Martin C. Emele, Ulrich Heid: Formal specication of a typed feature logic based
lexical representation language, deliverable D-V-2 of Delis (LRE 61.034), (Stuttgart), 1993.
[Emele/Heid 1994] Martin C. Emele, Ulrich Heid: Delis: tools for corpus based lexicon building, in: Proceedings of Konvens-94, (Heidelberg: Springer) 1994, [= Informatik Xpress 6].
[Feldbusch/Pogarell/Weiss 1991] Elisabeth Feldbusch, Reiner Pogarell, Cornelia Weiss: Neue Fragen der
Linguistik; Akten des 25. Linguistischen Kolloquiums, Paderborn 1990; Band 2: Innovation und
Anwendung; (Tubingen: Niemeyer), 1991.
[Fenstad et al. 1985] Jens Erik Fenstad, Per-Kristian Halvorsen, Tore Langholm, Johan van Benthem:
Situations, Language and Logic, (Dordrecht: Reidel), 1985.
[Fillmore/Atkins 1994] Beryl T. S. Atkins, Charles Fillmore: \Starting where the Dictionaries Stop: The
Challenge of Corpus Lexicography", in: [Atkins/Zampolli (Ed.) 1994]: 349-393, 1994.
[Fillmore 1993a] Charles Fillmore: A Cognitive-Frames Approach to the Vocabulary of Sensation and
Perception in English, ms., 8 SS., (Berkeley: University of California), 1993.
[Fillmore 1993b] Charles Fillmore: \Frame semantics and perception verbs", in: Hans Kamp, James
Pustejovsky (Eds.): Universals in the Lexicon: At the Intersection of Lexical Semantic Theories,
1993, ms., Dagstuhl.
[Flickinger 1987] Daniel Paul Flickinger: Lexical Rules in the Hierarchical Lexicon, ms., Dissertation
(Stanford: Stanford University); 1987.
[Fontenelle/Adriaens/De Braekeleer 1993] Thierry Fontenelle, Geert Adriaens, Gert De Braekeleer:
\L'unite lexicale dans le systeme de traduction assistee par ordinateur Metal", in: [Bouillon/Clas
1993]: 364-376.
[Gahl/Johnson/Dolbey (Eds.) 1994] S. Gahl, C. Johnson, A. Dolbey (Eds.): Proceedings of the Twentieth Annual Meeting of the Berkeley Linguistics Society, 1994, (Berkeley: University of California),
1994.
[Gazdar et al. 1985] Gerald Gazdar, Ewan Klein, Georey Pullum und Ivan Sag: Generalized Phrase
Structure Grammar. (Oxford: Blackwell), 1985.
[Goetschalckx/Rolling (Ed.) 1982] Jan Goetschalckx, Loll Rolling (Eds.): Lexicography in the Electronic
Age, Proceedings of a Symposium held in Luxemburg, 7-9 July, 1981, (Amsterdam: North-Holland),
1982.
[Golan/Lappin/Rimon 1988] Igal Golan, Shalom Lappin, Mori Rimon: \An Active Bilingual Lexicon for
Machine Translation", in: Proceedings of COLING-88, Bonn, (Bonn: IKP), 1988: 205-211.
[Grahs/Korlen/Malmberg (Ed.) 1976] Lillebill Grahs, Gustav Korlen, Bertil Malmberg (Ed.): Theory and Practice of Translation, Nobel Symposium 39, Stockholm, September 6-10, 1976,
(Bern/Frankfurt/Las Vegas: Lang) 1976.
[Grishman/MacLeod/Meyers 1994] Ralph Grishman, Catherine MacLeod, Adam Meyers: Comlex Syntax: Building a Computational Lexicon, in: Proceedings of the 15th International Conference of
Computational Linguistics (COLING 94), Kyoto, 1994.
[Grishman/MacLeod 1994] Ralph Grishman, Catherine MacLeod: COMLEX Syntax Reference Manual
Version 1.1, Draft prepared for the Linguistic Data Consortium, University of Pennsylvania, 1994.
[Hauenschild 1987] Christa Hauenschild: \KI-Methoden in der maschinellen U bersetzung?", in: [Morik
(Ed.) 1987]: 41-53.
[Hausmann 1977] Franz Josef Hausmann: Einfuhrung in die Benutzung der neufranzosischen
Worterbucher, Tubingen, Niemeyer, 1977.
[Hausmann 1979] Franz Josef Hausmann: \Un dictionnaire des collocations est-il possible?" in: Travaux
de Linguistique et de Litterature XVII, 1: 187-195, 1979.
[Hausmann 1985] Franz Josef Hausmann: \Lexikographie", in: [Schwarze/Wunderlich 1985]: 367-411.
[Hausmann 1989] Franz Josef Hausmann: \Grundprobleme des zweisprachigen Worterbuchs", in:
[Hyldgaard-Jensen/Zettersten 1989].
[Hausmann 1989] Franz Josef Hausmann: \Le dictionnaire de collocations", in: [Hausmann et al (Ed.)
1989]: Worterbucher, Dictionaries, Dictionnaires. Ein internationales Handbuch, (Berlin: de Gruyter): 1010-1019, 1989.
[Heid 1988] Ulrich Heid: \Zweisprachige Worterbucher fur maschinelle U bersetzung. Bemerkungen zum
Verhaltnis von zweisprachiger Lexikographie und der Erstellung von Transferworterbuchern", in:
[Hyldgaard-Jensen/Zettersten 1989]: 193-217.
[Heid 1990] Ulrich Heid: \Monolingual, bilingual, interlingual description", in: [Alvar-Ezquerra (Ed.)
1992].
[Heid 1991a] Ulrich Heid: \Syntactic Information in (Machine) Translation Dictionaries", in: [HyldgaardJensen/Zettersten 1991].
[Heid 1991b] Ulrich Heid: \Towards reusable lexical resources for natural language processing. Some
proposals for linguistic knowledge representation", in: [Avignon 1991]: Vol. 8: 89-101.
[Heid 1991c] Ulrich Heid: A short report on the Eurotra-7 Study, (Stuttgart/Luxemburg: Universitat
Stuttgart/Commission of the European Communities), April 1991, ms., 42 SS.
[Heid 1993] Ulrich Heid: \Le lexique: Quelques problemes de description et de representation lexicale
pour la traduction automatique", in: [Bouillon/Clas 1993]: 169-196.
[Heid 1994] Ulrich Heid: \Klassenbildung in einem kontrastiven Worterbuch fur maschinelle U bersetzung"; in: [Hyvarinen/Klemmt 1994]: 299-320; 1994.
[Heid 1994a] Ulrich Heid: \Contrastive Classes { Relating Monolingual Dictionaries to build an MT
Dictionary"; in: [Kiefer/Kiss/Pajzs (Ed.) 1994]: 115-126; 1994.
[Heid 1995a] Ulrich Heid: \Zum Export lexikalischer Informationen aus Worterbuchern von DELIS", to
appear in: [Hotker/Ludewig (Ed.) 1996].
[Heid 1995b] Ulrich Heid: \Relating Parallel Monolingual Fragments for Translation Purposes", in: Petra
Steens (Ed.): Machine Translation and the Lexicon, Proceedings of the Third International EAMT
Workshop (April 1993), (Heidelberg: Springer), 1995.
[Heid 1995c] Ulrich Heid: \On the verication of lexical descriptions in text corpora", in: [Weber (Ed.)
1996].
[Heid 1996] Ulrich Heid: \Corpusbasierter Aufbau eines Worterbuchs der Funktionsverbgefuge", soll erscheinen in: [Wotjak (Ed.) 1996].
[Heid (Coord.) 1995] Ulrich Heid (Coord.): A lexicographic and formal description of the lexical classes
of perception and speech act verbs, (Stuttgart/Luxemburg: Universitat Stuttgart/CEC), ms. 1995
[= Deliverable D-III-1 des DELIS-Projektes].
[Heid/Christ/Heyn 1992] Ulrich Heid, Oliver Christ, Matthias Heyn: \Extracting linguistic information from machine-readable versions of traditional dictionaries { a metalexicographic method and
some tools", in: Proceedings of COMPLEX-92, Conference on Computational Lexicography and
Text Research, (Budapest: Academy of Science, Institute for Linguistics), ms.; to appear in: Acta
Linguistica Hungarica, 1993
[Heid/Kruger 1994] Ulrich Heid, Katja Kruger: On the DELIS Corpus Evidence Encoding Schema
(CEES), (Stuttgart: IMS) 1994, [= Deliverable D-III-0 of DELIS (LRE 61.034)].
[Heid/Kuhn 1994] Ulrich Heid, Jonas Kuhn: \Treating structual dierences in an HPSG-based approach
to interlingual machine translation", in: Peter Bosch, Christopher Habel (Eds.): Proceedings of
Arbeitsgruppe AG-6 der DGfS-Jahrestagung 1994.
[Heid/McNaught 1991] Ulrich Heid, John McNaught: Eurotra-7: Feasibility and Project Denition
Study on the Reusability of lexical and terminological resources in Computerized Applications {
Final Report, (Stuttgart/Luxembourg: IMS-CL/Kommission der
europaischen Gemeinschaften), 1991, ms., 189 SS.
[Heid/Schiller/Teufel 1993] Ulrich Heid, Anne Schiller, Simone Teufel: On lexical specications and tagsets, IMS Stuttgart, Notes for EAGLES discussion, preliminary draft, 1993.
[Heyn 1992] Matthias Heyn: Wiederverwendung maschinenlesbarer Worterbucher. Eine computergestutzte metalexikographische Studie zur Wiederverwendung des Oxford Advanced Learner's Dictionary in NLP. (Tubingen: Niemeyer), 1992 [= Lexicographica Series Maior].
[Heyn/Christ/Heid 1992] Matthias Heyn, Oliver Christ, Ulrich Heid: \Computergestutzte Metalexikographie; Erfahrungen bei der Ermittlung der Wiederverwendbarkeit eines Worterbuchs fur maschinelle Sprachverarbeitung"; in: LDV-Forum 9 (1), 1992.
[Hildenbrand/Heid 1991] Elke Hildenbrand, Ulrich Heid: \Ansatze zur Ermittlung der linguistischen
Leistungsfahigkeit von maschinellen U bersetzungssystemen { Zur Entwicklung von franzosischdeutschem Testmaterial fur SYSTRAN", in: [Feldbusch/Pogarell/Weiss 1991].
[Hinkelman (Ed.) 1995] Elizabeth Hinkelman: Relator Typology Version 1.0, DFKI, Saarbrucken, 1994.
[Hotker/Ludewig (Ed.) 1996] Wilfried Hotker, Petra Ludewig (Eds.): Lexikonimport, Lexikonexport:
Studien zur Wiederverwertung lexikalischer Information, (Tubingen: Niemeyer) 1996 [= Sprache
[Koch 1994a] Peter Koch: \Valenz und Informationsstruktur im Sprachvergleich Italienisch-Deutsch", in:
Italienisch (November 1994), (Frankfurt am Main: Moritz Diesterweg): 38-58.
[Koch 1994b] Peter Koch: \Verbvalenz und Metataxe im Sprachvergleich", in: Werner Thielemann, Klaus
Welke (Ed.): Valenztheorie { Werden und Wirkung, (Munster: Nodus), 1994: 109-124.
[Koch 1995a] Peter Koch: \Aktantielle Metataxe und Informationsstruktur in der romanischen Verblexik
(Franzosisch, Italienisch, Spanisch)", erscheint in: Wolgang Dahmen u.a. (Hrsg.), Konvergenz und
Divergenz in den romanischen Sprachen. Romanistisches Kolloquium VIII, Tubingen: Narr 1995 [=
TBL, 396].
[Koch 1995b] Peter Koch: \La metataxe actancielle { De Tesniere a Busse/Dubost", erscheint in: Gertrud Greciano/Helmut Schumacher (Ed.): Syntaxe Structurale et Operations Mentales (Tubingen:
Niemeyer), 1995 [= Linguistische Arbeiten].
[Koller 1976] Werner Koller: \A quivalenz in kontrastiver Linguistik und U bersetzungswissenschaft", in:
[Grahs/Korlen/Malmberg (Ed.) 1976]: 69-92.
[Krenn 1995] Herwig Krenn: Franzosische Syntax, (Berlin: Erich Schmidt), [= Grundlagen der Romanistik 19], 1995.
[Kromann 1989] Hans Peder Kromann: \Neue Orientierung der zweisprachigen Worterbucher", in: Mary
Snell-Hornby/Esther Pohl (Eds.): Translation and Lexicography, Paintbrush, 1989.
[Kromann/Riiber/Rosbach 1984] Hans-Peder Kromann, Theis Riiber, Poul Rosbach: \Active and Passive Bilingual Dictionaries: The Scerba Concept Reconsidered", in: Proceedings of Lexeter-83, Bd.II,
(Tubingen, Niemeyer), 1984: 207-215.
[Kromann/Riiber/Rosbach 1989] Hans-Peder Kromann, Theis Riiber, Poul Rosbach: Principles of bilingual lexicography, in: Franz-Josef Hausmann, Oskar Reichmann, Herbert-Ernst Wiegand, Ladislav
Zgusta (Ed.): Dictionaries, Dictionnaires, Worterbucher, Ein internationales Handbuch, (Berlin: de
Gruyter) 1989.
[Kruger 1996] Katja Kruger: Modelling visual attention verbs in Frame Semantics { A corpus-based
analysis of verbs of looking, ms. (Stuttgart: IMS-CL), 1996, 146 SS. [Studienarbeit].
[Kuhn 1993] Jonas Kuhn: Encoding HPSG Grammars in TFS, (ms., Stuttgart: IMS) 1993.
[Kuhn 1994] Jonas Kuhn: Die Behandlung von Funktionsverbgefugen in einem HPSG-basierten Ubersetzungsansatz, ms., (Stuttgart: University of Stuttgart, Institut fur maschinelle Sprachverarbeitung)
1994.
[Van der Laan 1996] Cornelis van der Laan: Entwurf und Implementierung einer FeaturestrukturDatenbank fur TFS; Diplomarbeit (Stuttgart: IMS), Januar, 1996.
[Landheer (Ed.) 1988] Ronald Landheer (Ed.): Aspects de linguistique francaise, Hommage a Q.I.M.
Mok, (Amsterdam: Rodopi) 1988.
[Leech/Wilson 1993] Georey Leech, Andrew Wilson: EAGLES Text Corpora Working Group Task 3:
Corpus Annotation Subtask 3.1: Morphosyntactic Annotation Invitation Draft. Lancaster, 1993.
[Lehrberger/Bourbeau 1988] John Lehrberger, Louis Bourbeau: Machine Translation: Linguistic characteristics of MT systems and general methodology of evaluation, (Amsterdam: John Benjamins
Publishing Company) 1988.
[Levin 1993] Beth Levin: English Verb Classes and Alternations { A Preliminary Investigation, The
University of Chicago Press, 1993.
[Linden et al. 1988] Erik-Jan van der Linden, Sjaak Brinkkemper, Koenraad De Smedt, Pauline van
Boven, Mieke van der Linden: \The Representation of Lexical Objects", in: [Magay/Zigany (Ed.)
1988].
[Linden 1994] Krister Linden: Specications of the Delis Search Condition Generation tool, Appendix to
Deliverable D-V-1 of Delis (LRE 61.034), Helsinki, April 1994.
[Lindop/Tsujii 1991] Jeremy Lindop, Jun-ichi Tsujii: Complex Transfer in MT: A Survey of Examples,
manuscrit (Manchester: UMIST, Center for Computational Linguistics), no.91/5.
[Luckhardt 1987] Heinz-Dirk Luckhardt: Der Transfer in der maschinellen Sprachubersetzung, (Tubingen, Niemeyer), 1987.
[Ludewig 1995] Petra Ludewig: \Exemplarische Anwendungen des Strukturierungskonzepts", in:
[Hotker/Ludewig (Ed.) 1996]: 108-141.
[Lyons 1980] John Lyons: Semantik, 2 Bde. (Munchen: Verlag C.H. Beck), 1980 [= Beck'sche Elementarbucher].
[Mc Naught 1990] John Mc Naught: \Reusability of Lexical and Terminological Resources: Steps towards
Independence", in: Proceedings of MMT'90, International Symposium on multilingual machine
Le Robert)
[Sachs/Villatte] Sachs & Villatte: Worterbuch Deutsch - Franzosisch, (Munchen: Langenscheidt)
[Sachs/Villatte] Sachs & Villatte: Worterbuch Franzosisch - Deutsch, (Munchen: Langenscheidt)
[Sadler/Schmidt 1992] Louisa Sadler, Paul Schmidt: \Input Paper for Eurotra-6: Monolingual and Bilingual Problems", ms. Eurotra. 1992.
[Sadler/Thompson 1991] Louisa Sadler, Henry S. Thompson: \Structural non-correspondence in translation", in: Proceedings of the Fifth Conference of the European Chapter of the Association for
Computational Linguistics (Berlin): 293-298, 1991.
[Sampson 1995] Georey Sampson: English for the Computer; The SUSANNE Corpus and Analytic
Scheme. Clarendon Press, Oxford, 1995.
[Sanlippo 1993] Antonio Sanlippo: \LKB Encoding of Lexical Knowledge", in: [Briscoe/de Paiva/Copestake (Eds.) 1993]: 190-222.
[Scerba 1940] Lev V. Scerba: \Versuch einer allgemeinen Theorie der Lexikographie", in: [Wolski 1982]:
17-62.
[Schulze 1994] Bruno Maximilian Schulze: Entwurf und Implementierung eines Anfragesystems fur Textcorpora. Diplomarbeit Nr. 1059, Universitat Stuttgart, Institut fur maschinelle Sprachverarbeitung
(IMS) und Institut fur Informatik, Januar 1994.
[Schumacher 1987] Helmut Schumacher: Valenzbibliographie; Institut fur deutsche Sprache Mannheim,
1987.
[Schwanke 1991] Martina Schwanke: Maschinelle Ubersetzung.
Ein Uberblick
uber Theorie und Praxis
(Berlin: Springer), 1991.
[Schwarze/Wunderlich 1985] Christoph Schwarze, Dieter Wunderlich (Hrsg.): Handbuch der Lexikologie,
Konigstein 1985.
[Schwenger 1995] Sonja Schwenger: Korpusbasierte Erstellung von kontrastiven Lexikoneintragen fur Verben der olfaktiven Wahrnehmung, M.A. thesis, ms. 122 SS, Universitat Stuttgart, Februar 1995.
[Sinclair 1995] John Sinclair: \Corpora as resources for the construction of lexicons", talk presented at
the Escuela Interlatina de Altos Estudios en Lingustica Applicada, (San Millan de la Cogolla,
September 1995)
[Sinclair/Hoelter/Peters (Ed.) 1994] John Sinclair, Martin Hoelter, Carol Peters (Eds.): The Languages of Denition: The Formalisation of Dictionary Denitions for Natural Language Processing
(Brussels: European Commission), 1994 [= Studies in Machine Translation and Natural Language
Processing 7].
[Slocum 1988] Jonathan Slocum (Ed.): Machine Translation Systems (Cambridge: Cambridge University
Press), 1988 [= Studies in Natural Language Processing].
[Somers 1987] Harry L. Somers: Valency and Case in Computational Linguistics (Edinburgh: Edinburgh
University Press), 1987 [= Edinburgh Information Technology Series].
[Spanu et al. 1993] Antonietta Spanu (Coord.), Antonietta Alonge, Gabriel Bes, Anna Braasch, Nicoletta Calzolari, Luca Dini, Martin Emele, Charles Fillmore, Ulrich Heid, Monica Monachini, Nicholas
Ostler, Antje Rossdeutscher, Maurice Vliegen, Annie Zaenen: Some prominent approaches to Syntactic and Lexical-Semantic Modeling for the construction of NLP dictionaries, deliverable D-I-1 of
DELIS (LRE 61.034), nal version of June 9th, 1993.
[Van Sterkenburg/Martin/Al 1982] Piet van Sterkenburg, Willy Martin, Bernard P. F. Al.: \A new
Van Dale project: bilingual dictionaries on one and the same monolingual basis", in: [Goetschalckx/Rolling (Ed.) 1982]: 221-237.
[Van Sterkenburg/Pijnenburg 1984] Piet van Sterkenburg, W.J.J. Pijnenburg: Van Dale groot woordenboek van hedendaags Nederlands, (Utrecht/Antwerpen: Van Dale) 1984.
[Storrer 1992] Angelika Storrer: Verbvalenz { Theoretische und methodische Grundlagen ihrer Beschreibung in Grammatikographie und Lexikographie; Reihe Germanistische Linguistik Band 126, (Tubingen, Niemeyer), 1992.
[Strzalkowski (Ed.) 1994] Tomek Strzalkowski (Ed.): Reversible Grammar in Natural Language Processing; The Kluwer International Series in Engineering and Computer; Kluwer Academic Publishers,
Boston, 1994.
[Teufel 1995a] Simone Teufel: \Abbildung zwischen Corpus-Annotationsschemata zur Unterstutzung von
morphosyntaktischen Standards", in: [Hotker/Ludewig (Ed.) 1996].
[Teufel 1995b] Simone Teufel: ELM-DE: A typed German incarnation of the EAGLES-TS Denition of
Lexical Descriptions and Classication Guidelines; internes Dokument, EAGLES, 1995.
[Thurmair 1990] Gregor Thurmair: \Complex Lexical Transfer in METAL", in: [TMIMT-3, 1990]: 91107.
[TMIMT-3, 1990] Proceedings of the 3rd International Conference on Theoretical and Methodological
Issues in Machine Translation of Natural Language, 11-13 June 1990. (Austin: University of Texas)
1990.
[Tucker 1987] Allan B. Tucker: \Current Strategies in Machine Translation Research and Development",
in: [Nirenburg (Ed.) 1987]: 22-41.
[Uszkoreit (Ed.) 1993] Hans Uszkoreit (Ed.): Proceedings of the EAGLES workshop on implemented
formalisms, Saarbrucken DFKI report, 1993.
[Vandooren 1993] Francoise Vandooren: \Divergences de traduction et architectures de transfert", in:
[Bouillon/Clas 1993]: 77-90.
[Verkuyl 1994] Henk Verkuyl: Knowledge Representation in Dictionaries. Presentation at the 6th Euralex
International Congress, Amsterdam 1994, ms.
[Vinay/Darbelnet 1958] Jean-Paul Vinay, Jean Darbelnet: Stylistique comparee du francais et de
l'anglais. Methode de traduction (Paris), 1968.
[Vinay/Darbelnet 1995] Jean-Paul Vinay, Jean Darbelnet: Comparative Stylistics of French and English.
A methodology for translation, (John Benjamins, Amsterdam), Benjamins Translation Library,
Volume 11, 1995.
[Volk 1994] Martin Volk: Einsatz einer Testsatzsammlung im Grammar Enginering, (Tubingen, Niemeyer), 1994. [= Sprache und Information Band 30].
[Vossen/Meijs/den Broeder 1989] Piek Vossen, Willem Meijs, Marianne den Broeder: \Meaning and
structure in dictionary denitions", in: [Boguraev/Briscoe 1989]: 171-192.
[Voutilainen et al. 1992] Atro Voutilainen, J. Heikkila und A. Anttila: Constraint Grammar of English:
A Performance-Oriented Evaluation. Technischer Bericht, University of Helsinki, Department of
General Linguistics, 1992. Publication No. 21.
[Walker et al. 1995] Donald E. Walker, Antonio Zampolli und Nicoletta Calzolari: Automating the Lexicon. Research and Practice in a Multilingual Environment, (Oxford: Clarendon Press), 1995.
[Weber (Ed.) 1996] Nico Weber (Ed.): Semantik, Lexikographie und Computeranwendungen, (Tubingen:
Niemeyer); 1996 [= Sprache und Information Band 33].
[Weiss/Mattutat] Erwin Weiss, Heinrich Mattutat: Worterbuch Franzosisch { Deutsch, Deutsch {
Franzosisch, (Stuttgart: Klett)
[Wimmer 1983] Christine Wimmer: \Les verbes introducteurs de si interrogatif indirect et la description
lexicographique", in: Travaux de Linguistique et de Litterature 21 (1983): 171-214, 1983.
[Wolski 1982] Werner Wolski: Aspekte der sowjetrussischen Lexikographie, (Tubingen: Niemeyer), 1982
[= Germanistische Linguistik, 43].
[Wotjak (Ed.) 1996] Gerd Wotjak: Akten der III. Internationalen Tagung zum Romanisch-Deutschen
und innerromanischen Sprachvergleich (Leipzig, Oktober 1995), erscheint 1996.
[Zaenen 1988] Annie Zaenen: Lexical Information in LFG, an overview, Stanford: Xerox, ms., 1988.
[Zajac 1989] Remi Zajac. \A transfer model using a Typed Feature Structure rewriting system with
inheritance", in: Proceedings of the 27th Annual Meeting of the Association for Computational
Linguistics, Vancouver, 1989.
[Zajac 1992] Remi Zajac: Inheritance and Constraint-Based Grammar Formalisms. Computational Linguistics, 18(2): 159-180, 1992.
[Zampolli 1994] Antonio Zampolli: \Introduction", in: [Atkins/Zampolli (Ed.) 1994]: 3-15, 1994.
[Zimmer 1990] Rudolf Zimmer: Aquivalenzen
zwischen Franzosisch und Deutsch. Theorie { Korpus {
Indizes. Ein Kontextworterbuch, (Tubingen: Niemeyer) 1990.